時系列DBに入門しつつ、パフォーマンスを計測してみる(InfluxDB v2 vs PostgreSQL v15)

2025/5/19

時系列DB TSDB InfluxDB PostgreSQL パフォーマンス DB

※この記事は自分が所属する組織で書いた以下の記事のコピーです。投稿した記事は個人の著作物として自ブログにコピーして良いルールとしています。

元記事: https://tech-blog.mitsucari.com/entry/2025/05/19/135934

こんにちは、ミツカリCTOの塚本こと、つかびー(@tsukaby0) です。

ITシステムにおけるデータベース(DB)には様々な種類が存在します。一般的によく使われるのはリレーショナルデータベース(RDB, RDBMS)であり、PostgreSQLやMySQLが有名です。これらとは別の種類に時系列DB(Time Series Database, TSDB)というものもあります。用途としては時系列データ(タイムスタンプを持つデータ)の保存および取得、リアルタイム集計です。今回はこの時系列DBに入門しつつパフォーマンスを測定してみたという記事です。

時系列DBとは

時系列DBは時系列データを扱うためのデータベースですが、一般的なRDBでもタイムスタンプ型はあるので、そちらでも代替可能です。ただし、時系列DBの方がより一部の用途に特化しているので、ユースケース次第ではRDBよりも良い選択肢になりえます。(※私は時系列DBに対して深い経験があるわけではないです)

時系列DBを使うべきかどうかはユースケース次第です。大抵のユースケース(少量のデータ)ではRDBで十分であると言えそうです。例えばtoB SaaSのログインユーザーの行動ログを取得、分析するようなユースケースではRDBで十分そうに思えますし、実際にデータを用意してクエリをしてもデータ量とクエリ次第ではありますが、大抵は1sec以下で応答できるのではと思います。

時系列DBのユースケース

ではどういう時に使うかというと、IoTなどのシーンで大量にデータのパブリッシャー（送信者）がいる場合や、データが高頻度で発生するような場合、さらにそれをリアルタイムでクエリしたい場合かと思います。

具体的なユースケースは以下のInfluxDataの公式サイトが参考になります。

Solutions influxdata.com

InfluxData time series solutions include application performance monitoring, IoT/IIoT monitoring and network monitoring for many industries.

以下のようなユースケースが挙げられていますね。

IoT
ネットワークログ
SaaS監視

実際に我々Webのエンジニアにとって最も馴染み深い時系列DBの用途としてはおそらくは各種サーバー等のメトリクスおよび監視ですね。ミツカリ社ではDatadogを使っており、Datadogの内部構造までは分かりませんが、おそらく時系列DBが採用されていそうではあります。はてな社のMackerelだったりOSSのPrometheusも監視サービス、ソフトウェアとしては有名ですね。それらも時系列DBを使っています。(※Prometheusは監視ソフトウェアであり同時に時系列DBでもある)

時系列DBを使わなくても良いユースケース

時系列DBの用途はかなり限定的です。例えばタイムスタンプを持っているだけのデータには大抵のケースでは不向きです。例えばusersテーブルにbirthday列があるからといって時系列DBが最適となるケースはほぼないはずです。

SaaSのユーザーの行動ログはどうでしょう。データ量はそれなりにありそうですが、大量とまでは言えないですし、リアルタイムでクエリしたいユースケースはあまり無さそうに思えます。用途次第ですが大抵のケースでは非同期的に集計したりキャッシュしたりでリアルタイム性は不要なのではと思います。

ユースケースごとの書き込み頻度などの試算

ではどの程度のデータ量や用途であれば時系列DBが適していると言えるのでしょうか。それについては良い資料が見つかりませんでしたが簡単に試算してみたいと思います。

Case1. toB SaaSの行動ログ

とあるtoB SaaSは以下の条件で運用されているとします。

ピーク時間は考えないものとする
10,000 DAU (Daily Active User) と仮定
1Userあたり1日1時間利用すると仮定。1時間のうちに180回画面を開いたり、ボタンを押すなどの操作を行う
1操作あたり1ログ発生し、これをDBに格納するものとする

toB SaaSで10000 DAUはかなりの規模ですね。この条件だと10000DAUですが、実際には1時間しか操作しないので、1時間あたりの操作ユーザーは 10000 / 24 = 417 人です。417人が180回操作するので1時間のログ発生数は 417 * 180 = 75060 です。秒間にすると 75060 / 60(min) / 60(sec) = 20.85 rpsとなりますね。

20.85 rps、これは非常に少ないですね。

RDBがどの程度のパフォーマンスを出せるかはハードウェア性能次第なのでなんとも言えない部分はありますが、秒間1000〜10000TPSほどは捌けます。つまり20.85rps程度ならば問題なくRDBでも受けられます。

クエリはどうでしょうか？それも条件次第ではRDBで問題なさそうと言えます。直近1時間のログに対する分析をかける場合、75060レコードです。またテナントやユーザーIDで絞り込めばもっと件数は減ります。この程度であれば時系列DBでなくてもいいし、OLAP用のDBでなくても良さそうです。

Case2. IoTデバイスのログ

とある車載IoTデバイスがあり、ドライブ情報をDBに格納することでナビや車両のリアルタイムの診断に活かすようなケースを考えてみます。

日本に存在する車両を80,000,000台と仮定
自社メーカーの車両かつIoTデバイスが搭載されている車両を10%と仮定
走行中の車両を20%と仮定
走行中の車両は1分ごとに1度IoTデバイスからサーバーにログを送信し、サーバーでは過去10分のデータをクエリすることでナビ等のリアルタイムな情報更新に活用することとする

上記の条件だと 80000000 * 0.1 * 0.2 = 1600000 という計算によって、IoTデバイスの同時稼働数を求められます。それらは1分ごとに1度送信するため、秒間に直すと 1600000 / 60(sec) = 26667 rpsです。

26667 rps、これはかなり多いですね。Bulk insertを活用したり、RDBのチューニングやマシンのスケールアップで捌けないこともなさそうです。ただし、事業が拡大してIoTデバイスの数が増えたり、ログの種類が増えた場合にかなり困りそうです。

また、過去10分のレコードをクエリして利用する仮定のため、 1600000 * 10 = 16000000 です。1600万レコードですね。これをOLTPのDBで集計するのは現実的ではなさそうです。クエリにもよりますが、5分〜2時間、あるいは終わらないほど長い、というようなクエリになりそうです。これではリアルタイムに何か処理したり判断するという目的には使えなさそうです。

時系列DBの種類

ユースケースまでは分かりましたが、ユースケースにマッチしたとして、どのような時系列DBを選択するかを考える必要がありそうです。具体的には有名どころだと以下のようなソフトウェアがあります。

InfluxDB
Prometheus
Graphite
TimescaleDB
OpenTSDB

InfluxDB

InfluxDBはおそらく最も知名度が高いです。ちなみに以下のような人気度を計測しているサイトがあるため、ここで分かります。TSDBの中ではInfluxDBが圧倒的に人気ですね。

DB-Engines Ranking db-engines.com

Popularity ranking of time Series DBMS.

2024年3月にはAmazon Timestreamとしてもリリースされたので、マネージドで使えます。管理面はだいぶ楽ができそうですね。

Amazon Timestream を使ったオープンソースの InfluxDB データベースの実行と管理 | Amazon Web Services aws.amazon.com

InfluxDB を Amazon Timestream のデータベースエンジンとして使用できるようになりま […]

Prometheus

Prometheusは時系列DBというよりは監視ソフトウェアとしての側面が強いです。基本的に時系列DBとして優れているという印象はないですし、そこ単品で使っているという話は聞かないため、監視前提で使うためのものでしょう。以下のmoff-bearさんの記事が参考になります。

Prometheus アーキテクチャと Time series Database - Qiita qiita.com

Prometheusのアーキテクチャ Prometheusはクラウドネイティブな監視システムであり、多くのオープンソースプロジェクトで利用されています。以下では、Prometheusのアーキテクチャについて説明します。概要 Prometheusは時系列データを収集し、...

Graphite

GraphiteはほぼPrometheusみたいなものと考えて構いません。これも時系列DBでありつつ監視ソフトでもあります。違いについては公式サイトに比較表が載っているので、そこを読むと多少理解できるかもしれません。

Graphite OSS | Time-series data platform grafana.com

Graphite is a scalable monitoring system for timeseries data.

TimescaleDB

TimescaleDBはPostgres拡張という点が特徴です。具体的には以下のvoluntasさんのレポートが参考なると思います。

TimescaleDB 雑感 zenn.dev

OpenTSDB

OpenTSDBはHBase上に構築する時系列DBであるという点が特徴ですね。つまりはHadoopファミリーの一員であり、Hadoopエコシステムを構築している組織にとっては良い選択肢になるのではないでしょうか。分析やビッグデータの処理はHadoopでやってます、やります、というような覚悟や意思決定なしだと導入しづらそうではあります。ただ、スケールはしやすいのでしょうね。

近年では少し更新ペースが落ちてきている点は気になります。

Releases · OpenTSDB/opentsdb github.com

A scalable, distributed Time Series Database. Contribute to OpenTSDB/opentsdb development by creating an account on GitHub.

InfluxDBのパフォーマンス計測 (vs PostgreSQL)

前述の通り、時系列DB単品で考えた場合はInfluxDBが第一候補になってくるかと思います。そこで、これに入門してみることにしました。

InfluxDBは現時点でv3が出ていますが、まだ出たばかりですし、Amazon Timestreamもv3には対応していないので、v2を使うことにしました。Postgresは現時点での最新版はv17ですが、こちらだけ最新を使うと不利かなと思ったので少し古い15を使うことにしました。

環境・DBインスタンス

Dockerを使うことにしました。

postgres - Official Image | Docker Hub hub.docker.com

The PostgreSQL object-relational database system provides reliability and data integrity.

influxdb - Official Image | Docker Hub hub.docker.com

InfluxDB is the open source time series database built for real-time analytic workloads.

簡単に起動できますし、初期のPostgreSQL DB, TableセットアップやInfluxDBのバケット作成、アクセストークン作成などを自動化できます。

測定コード

Postgresの場合は pgbench という有名なツール(標準ツール)があります。これを使うとCLIで簡単にベンチマークを取れますが、これはInfluxDBには使えませんし、条件を揃えづらいと思いました。そのため、簡単な測定用のRubyコードを用意して、実行することにしました。

事前に以下のようなtableを用意しておきます。気温を収集するIoTデバイスという想定です。

CREATE TABLE IF NOT EXISTS temperature_logs (
    created_at TIMESTAMP NOT NULL,
    device_id VARCHAR(255) NOT NULL,
    location VARCHAR(255) NOT NULL,
    temperature FLOAT NOT NULL,
    unit VARCHAR(1) NOT NULL DEFAULT 'C'
);

-- Create composite indexes
CREATE INDEX IF NOT EXISTS idx_temperature_logs_created_at_device_id
ON temperature_logs (created_at, device_id);

CREATE INDEX IF NOT EXISTS idx_temperature_logs_created_at_location
ON temperature_logs (created_at, location);

以下のようなコードを用意して実行します。

module DB
  class Postgres
    def initialize
      @conn = PG.connect(
        host: ENV.fetch('POSTGRES_HOST', 'localhost'),
        port: ENV.fetch('POSTGRES_PORT', '5432'),
        dbname: ENV.fetch('POSTGRES_DB', 'benchmark'),
        user: ENV.fetch('POSTGRES_USER', 'postgres'),
        password: ENV.fetch('POSTGRES_PASSWORD', 'postgres')
      )
    end

    def insert_actions(count)
      time = Benchmark.realtime do
        count.times do |i|
          log = BenchmarkUtils.generate_temperature_log(i)
          @conn.exec_params(
            'INSERT INTO temperature_logs (created_at, device_id, location, temperature, unit) VALUES ($1, $2, $3, $4, $5)',
            [log[:created_at], log[:device_id], log[:location], log[:temperature], log[:unit]]
          )
        end
      end
      time.round(4)
    end
  end
end

※断片的なので省略している部分があります。実際にはBulk insertやreadのコードもありますが、記事が長くなるので省略します。

InfluxDB側も似たような感じで用意します。

module DB
  class InfluxDB
    def initialize
      host = ENV.fetch('INFLUXDB_HOST', 'localhost')
      port = ENV.fetch('INFLUXDB_PORT', '8086')
      @client = InfluxDB2::Client.new(
        "http://#{host}:#{port}",
        ENV.fetch('INFLUXDB_TOKEN', 'benchmark-token'),
        org: ENV.fetch('INFLUXDB_ORG', 'benchmark'),
        bucket: ENV.fetch('INFLUXDB_BUCKET', 'temperature_logs'),
        precision: InfluxDB2::WritePrecision::SECOND,
        use_ssl: ENV.fetch('INFLUXDB_USE_SSL', 'false') == 'true'
      )
      @write_api = @client.create_write_api
    end

    def insert_actions(count)
      time = Benchmark.realtime do
        count.times do |i|
          log = BenchmarkUtils.generate_temperature_log(i)
          point = InfluxDB2::Point.new(name: 'temperature')
            .add_tag('device_id', log[:device_id])
            .add_tag('location', log[:location])
            .add_tag('unit', log[:unit])
            .add_field('temperature', log[:temperature])
            .time(log[:created_at], InfluxDB2::WritePrecision::SECOND)

          @write_api.write(data: point)
        end
      end
      time.round(4)
    end
  end
end

InfluxDBの場合、事前にテーブルを作成する必要はないですが、DB相当のバケットのみ作っておく必要があります。

測定結果

まずは一件だけのinsertを繰り返すベンチマークを行ってみました。

Running single insert benchmark...
PostgreSQL single insert total execution time: 0.528 seconds
InfluxDB single insert total execution time: 2.0106 seconds

結果はこの通りでPostgreSQLの方が早いです。

次に複数のレコードを同時にinsertすることを繰り返すBulk insertのベンチマークを取ってみました。

Running bulk insert benchmark...
PostgreSQL bulk insert total execution time: 0.0147 seconds
InfluxDB bulk insert total execution time: 0.1322 seconds

これもPostgreSQLの方がだいぶ早いですね。

最後に以下のちょっとした集計クエリを実行するselectのベンチマークを取ってみました。

'SELECT * FROM temperature_logs WHERE created_at BETWEEN $1 AND $2 ORDER BY created_at DESC'

"from(bucket: \"temperature_logs\")
    |> range(start: #{start_time.iso8601}, stop: #{end_time.iso8601})
    |> filter(fn: (r) => r[\"_measurement\"] == \"temperature\")"

結果は以下の通りです。

PostgreSQL read execution time: 0.004 seconds
InfluxDB read execution time: 0.0818 seconds

これもPostgreSQLの方が早いです。

考察

少し意外な結果になりました。私はてっきりInfluxDBの方が早いと思っていました。

私はDBのストレージエンジン等に詳しくはないですが、Postgresの方が歴史がある分、デフォルトで十分チューニングされているということはありそうです。また、アルゴリズムやデータ構造が優れているという可能性もあるかもしれません。時系列DBはOLAPと言えると思うので、書き込みには最適化されていないという可能性はありそうです。

ただ、読み込みのクエリもPostgreSQLの方が勝っています。ただ、これは今回のベンチマークがよくないと思っています。具体的には以下のような問題があると思います。

数千程度の非常に少量のデータしか用意していないので、集計処理に負荷がかかっていない
負荷がかかるように十分にクエリを設計できていない

今後は数千万や億単位のレコードを用意してベンチマークをしてみたいと思います。

考察(水平スケーリング)

RDBの難しい点として水平スケーリングしづらいというものがあります。アプリケーションサーバー等はロードバランサー配下のインスタンス、コンテナを増やせば簡単に水平スケーリングできますが、RDBはそれほど簡単ではありません。そのため、大抵のケースでは垂直スケーリングが用いられますが、それだと限界に到達しやすいです。

時系列DBのメリットとしては水平スケーリングを前提に設計されていることが１つあると思います。Publisher側が増えたらその分だけ時系列DBのクラスタ内のインスタンスを増やせばスループットは増えそうです。

より具体的にはInfluxDBは水平スケーリングを考慮して作られているCluster modeがあるため、それを使うと良さそうです。ただし、このCluster modeは有料であり、OSS版ではないので、今回のように気軽にDockerで試せないという問題はあります。

InfluxDB 3 Enterprise influxdata.com

Experience performance at scale with InfluxDB 3 Enterprise. Start fast, scale faster with high availability, high-speed ingest, real-time querying, and unlimited cardinality.

InfluxDB Pricing influxdata.com

See this page for pricing for our suite of offerings, which make it easy to deploy, operate, and scale InfluxDB.

また、AWS Timestream for InfluxではClusterは作れなさそうです。Read replicaは作れるようですし、Multi AZも対応しているようですが、Clusterではなさそう？もし試してみる場合はEnterprise版(Cluster mode)を契約する必要がありそうですが、日本語の記事がほとんどないですし、利用実績や実際の運用例が気になるところです。

その他

InfluxDBのruby clientに対する不満

今回InfluxDBの2系のruby clientを使いました。

GitHub - influxdata/influxdb-client-ruby: InfluxDB 2.0 Ruby Client github.com

InfluxDB 2.0 Ruby Client. Contribute to influxdata/influxdb-client-ruby development by creating an account on GitHub.

使っている最中に以下のようなよく分からない問題に悩まされました。品質に少し不安がありますね。

InfluxDB2::Point#time では記録するレコードの日時を設定できるが、第二引数として指定する InfluxDB2::WritePrecision が機能していないように感じた。SECONDやNANOSECONDなど何を指定してもデータの日時が意図したとおりにならない。 InfluxDB2::Client#new するときの precision は機能しているようなので、ここをSECONDにしつつ、 #time に与える日時情報をSECONDの精度にすることで問題を回避
delete メソッドでデータが消せるはずだが、データ量が多くないにも関わらずTimeoutしてしまう。致命的なバグがありそう。

ちょっと中途半端なパフォーマンス計測になってしまいましたが、色々調査しつつ入門してみて時系列DBの理解度が高まりました。ミツカリ社の開発シーン(HR Tech製品開発シーン)ではユースケース的に利用することは無さそうですが、今後のあらゆるシーンで利用すべきかどうかの判断基準が１つ自分の中にできたのは良かったかなと思います。

現在、ミツカリではITエンジニアを募集しています。興味のある方はぜひお気軽にご連絡ください！

株式会社ミツカリの全ての求人一覧 herp.careers

株式会社ミツカリの全ての求人一覧です。