ギガバイト規模の科学データを狂わずに保存する方法

十年的海洋流向シミュレーションの結果を保存する必要があるとします。数百万のグリッドポイントがあり、それぞれ温度、塩分、速度ベクトルを含んでいます。これを通常のCSVに書き込むと、ファイルサイズは途方もない大きさになり、小さな領域を読み取るだけで、パーサーがギガバイトのテキストを処理しながら延々と待たされることになります。netCDFは、まさにこうした問題を解決するために設計されたものです。

このツールの概要

netCDF-4プロジェクトは、NetCDFエコシステムの中心的存在です（Network Common Data Form）。本質的には、ライブラリであると同時に多次元データを保存するための規格そのものなのです。HDF5を使ったことがある人なら、概念はすぐに理解できるでしょう。しかしnetCDFは、科學者間および異なるソフトウェア環境間でのデータ交換の容易さを重視しています。

これは1年以内に終了する流行りのスタートアップではありません。このライブラリはUnidataで数十年にわたって開発されており、世界の気象・気候モデルの約半分がこれに依存しています。メインの実装はC言語で書かれていますが、Python、Java、Fortran、C++用のラッパーがあります。

一般的なフォーマットより便利な理由

netCDFの主な特徴は、ファイルが「自己記述型」であることです。ファイルを開くとすぐに、何の変数が含まれているか、どの単位で保存されているか、誰がデータを作成したかがわかります。構造を説明する別のPDFドキュメントは不要です—すべてのメタデータがファイル内に保存されています。

このライブラリはネットワーク透過性を保証しています。つまり、古いメインフレームで異質なバイト順序で作成されたファイルでも、最新のノートパソコンで正常に読み取れます。ライブラリコードがすべての型変換とアライメントを自動的に処理します。

もう一つの重要な点は、直接データアクセスです。水深100メートルにおけるある座標の水温だけを知りたい場合、ライブラリはファイル全体をディスクから読み込みません。オフセットを計算して、必要なバイトのみを取得します。データセットのサイズが数十ギガバイトを超える場合、これは非常に重要です。

内部での動作仕組み

コアには、次元、変数、属性というデータモデルがあります。

次元は座標軸を定義します：時間、緯度、経度。
変数はこれらの軸に紐付けられた実際のデータ配列を保持します。
属性は「units: celsius」や「long_name: air temperature」のようなメタデータを保存します。

興味深いことに、netCDFのデータは追記可能です。観測ログを付けていて、毎日新しい測定バッチを時間軸に沿って追加していく場合、ファイル全体を書き直したり構造をコピーしたりする必要はありません。ライブラリは単にデータの末尾に追加します。

開発者にとっての実用的な価値

物理学、生物学、工学でビッグデータを扱うソフトウェアを書いているなら、netCDFは車輪の再発名を避けることができます。二進構造に苦心したり、フォーマットの互換性を心配したりする代わりに、ライブラリを接続するだけです。

素早い作業には、ncdumpのようなユーティリティがバンドルされています。二進ファイルを人が読めるテキスト（CDL）に即座に変換して構造をすぐに確認したり、その逆でテキスト記述からバイナリをアセンブルしたりできます。

netCDF形式でのデータ記述の簡単な例を示します：

netcdf test {
dimensions:
    lat = 10, lon = 20;
variables:
    float temperature(lat, lon);
    temperature:units = "celsius";
data:
    temperature = 25.5, 26.0, ... ;
}

始め方

プロジェクトはCMakeまたはAutotoolsでビルドでき、Windows用のビルド済みバイナリもあります。Linuxを使っているなら、パッケージは既にリポジトリ内で名前を付けて入手できるでしょう。

プロジェクトにはかなり広範なドキュメントがありますが、ところどころ古めかしい見た目をしています。最初のファイルを作成して配列を書き込む方法を平易に説明する、優れたチュートリアルがあります。

プロジェクトにnetCDFを導入すべきでしょうか？

多次元配列を扱っていて高性能I/Oが必要な場合は、はい。
異なるプログラミング言語で他の人があなたのデータを使う場合は、はい。
データがシンプルで平坦な場合は、いいえ—通常の設定や小さなリストには、JSONやSQLiteで十分です。

これは本格的なタスクのための信頼できる学術的なツールです。専門的なニッチな分野であるためGitHubのスターは数千個ありませんが、この領域では絶対に欠かすことのできない標準です。

ギガバイト規模の科学データを狂わずに保存する方法

このツールの概要

一般的なフォーマットより便利な理由

内部での動作仕組み

開発者にとっての実用的な価値

始め方

独自のプログラミングアリーナの作り方 — omegaUpコードベースの探索

Singularity - モダンなLinuxルートキットの手口と検出が困難な理由

Perspec - 写真のアスペクトを数クリックで修正する方法

PrivateBin：ブラウザでデータを安全に保管する個人金庫

MuPDF：速度と軽量性がすべて

Windowsネットワークアクティビティを完全にコントロールする