2026-04-15

AI で管理する wiki システムを構築した（PC/スマホ両対応）

頭をスッキリ、どうも、かわしんです。

Andrej Karpathy の LLM Knowledge Bases がちょうど欲しかったので作ってみました。

LLM Knowledge Bases

Something I'm finding very useful recently: using LLMs to build personal knowledge bases for various topics of research interest. In this way, a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating…
— Andrej Karpathy (@karpathy) 2026年4月2日

自分は普段から頭の中でアイディアが湧いてくるタイプなのですが、それをいい感じにまとめて書き留めておく秘書アプリのような仕組みが欲しいなと 3 週間前から思っていて、ちょうど以下の Youtube 動画で紹介されていたので自分で作ってみました。

Claude Codeで知識を整理する！調べごとや勉強をする際に使えるナレッジ構築の仕組みについて解説してみた

欲しかった機能

文書の整理などを AI に自動で行わせる。自分は AI とのチャット経由で情報を追加したり情報を取得したりする
Macbook Pro でメインで使うが、出先や散歩中などいつでも使えるように iPhone でも使えるようにして自動で同期させるようにする
基本的に自前のサーバーなどの運用コストはなくす

Karpathy の llm-wiki

Karpathy 自身が作り方や構成を gist で公開しているので、このマークダウンの中身を丸々コピーして Claude Code に貼り付けて指示すると簡単に作ってくれます。

llm-wiki · GitHub

重要なアイディアとしては、

raw/ ディレクトリに情報源となる pdf やブログ記事のコピーをダウンロードして置いて、/ingest スキルを実行するとその内容が wiki/ ディレクトリ以下に構造化されて反映される
- raw/ ディレクトリは基本的に immutable で、それを元に wiki/ ディレクトリがコンパイルされるイメージ
wiki/ ディレクトリ内の構成は明確には指定されていないが、concepts/ や entities/、 sources/ ページに分けてそれぞれをリンクさせて構築している
- 例えば、上記の gist ページとツイートを取り込むと、以下のように取り込まれるイメージです。

└── wiki
    ├── concepts
    │   ├── llm-wiki.md
    │   ├── memex.md
    │   └── rag.md
    ├── entities
    │   ├── andrej-karpathy.md
    │   └── obsidian.md
    ├── index.md
    ├── log.md
    └── sources
        ├── llm-wiki-gist.md
        └── llm-wiki-thread.md

/query スキルによってこの wiki 内の情報から知りたい情報を抽出できる
/lint スキルによって文書同士のリンクや記述内容の矛盾がないかを走査して修正する。定期的に実行するとよい

設計

リポジトリは git で管理して github のリポジトリに同期させパソコンでもスマホでも Obsidian と Claude Code を使うことで同じ体験を実現しました。

ドキュメントの閲覧には Obsidian を使います。Mac でも iOS でもアプリがありますし、Obsidian Web Clipper という拡張機能/アプリがブラウザ上で開いた記事を自動でマークダウンに変換してリポジトリの raw/ に取り込んでくれるので便利です。

iOS の Obsidian アプリはコミュニティ拡張で Git のサポートがあり、Github のリポジトリと連携できます。アプリを起動してから定期的に git pull してもらうようにしてスマホからもドキュメントを確認できるようにしました。また、Web Clipper で取り込んだ記事はコマンドパレットから Git: Commit-and-sync コマンドを実行すると自動で main ブランチにプッシュしてくれます。コンフリクトが怖いので基本的には既存ファイルの編集はスマホからは行わず、Web Clipper での新規ファイル作成だけを行います。どうせ、ファイルの編集は Claude アプリが行うので。

AI は Claude Code を使います。パソコン上では CLI のインタラクティブモードで使ってスキルを実行させます。常に github と同期するようにあらゆる操作の前に git pull をしてファイル操作が終わったら commit して push するように CLAUDE.md に指定しています。

iPhone 上では Claude のアプリでクラウドで実行する機能があるのでそこで使います。クラウドインスタンスは動的にアプリから作成してくれて、github から直接リポジトリを取得してくれます。クラウドインスタンス上でも / から補完は効きませんが、スキル自体は使えるのでスキルをベタ打ちして実行しています。編集結果は Claude アプリから Github に PR を作ってくれるのでノールックでマージしています。

Karpathy の llm-wiki から少し変えた点としては、まず Web Clipper などで取り込んだデータは raw/ ディレクトリ直下に置いて、/ingest が終わったら日付のディレクトリに git mv で移動させるようにしました。これにより ingest が終わっていない記事がどれかがわかるようになったので、ファイルを指定することなく /ingest とコマンドを打つだけで処理が実行できます。

├── raw
│   └── 2026
│       └── 04
│           └── 13
│               ├── llm-wiki.md
│               └── Thread by @karpathy.md

raw/ ディレクトリには論文などが pdf ファイルで置くことがあります。pdf ファイルは 3MB を超えると Claude Code では直接読み取りができないらしいので Markdown に変換する必要があります。converting-pdf というスキルを作って uv run markitdown <pdf file> を実行して .tmp/ ディレクトリに一時的にマークダウンファイルを出力させて /ingest させるという手法をとっています。

採用しなかった案

データの置き場所として iCloud も検討したのですが、iOS の Claude アプリからアクセスできないので諦めました。iCloud を無理やり使おうとすれば Claude Code の Remote Control 機能を使ってスマホから編集することも可能ですが、常にパソコンを起動し続けておくことはできないのでやめました。

作り方

作り方は上の Youtube で紹介されているので観てみてください。gist の中身をコピーして Claude Code に貼り付けるだけです。

感想

この Github リポジトリの名前を knowledge として作ろうとしたらすでに 7 年前に作っていたので名前を変更しました。まさに今やろうとしていたことを試して1ヶ月くらいで飽きていたみたいです。

github.com

今、自分の記事や色々な重要そうな記事を取り込ませていますが、ものすごい勢いでトークンを消費しています。Max の 100 ドルプランですが足りなさそうです。

記事は個人的には厳選したものだけを取り込むのがいいと思っています。Garbage in Garbage out というので。取り込むトピックとしては多岐に渡りそうですが、トピックごとにリポジトリを分ける必要があるのかどうかは今後の精度次第です。とりあえず回答が面白くなるにはそこそこの自分のアイディアだったり知識だったりを取り込ませる必要があると思うのでもう少し時間がかかるとは思いますが、試していきます。

2026-02-02

ロバストなプログラムの書き方：カプセル化と悪い境界

ポエムプログラミング

外部に依存しない。どうも、かわしんです。

複雑なプログラムをわかりやすく書くために、カプセル化 (Encapsulation) というテクニックが使われます。これは内部の詳細な実装や状態をモジュールのインターフェースの内側に隠蔽することで、外部からモジュールの内部を知ることなく使うことができるようにするというものです。多分、これは抽象化によるメリットで、カプセル化と抽象化は厳密には違うのかもしれませんが、ここでは特に区別することなく一緒にして扱います。

さて、プログラムを書くときにどの部分でクラスやモジュールの境界を分けるのかということは自明ではなく、良い境界を引くことは難しいです。そこで、良い境界の分け方と悪い境界の分け方の言語化を思いついたので紹介したいと思います。

悪い境界とは、自身の処理を正しく行うために外部の処理に依存するものだと僕は思います。

具体的には、外部からのメソッドの呼び出しの順番に強く依存したりパラメータの数が多くなってきたりするときには、それは間違った境界によってクラス・モジュール分けしてしまった可能性が高いです。

悪い境界が引かれてしまったプログラムは結果として、読みにくく、複雑で、将来の変更に弱い、メンテナンス性の低いプログラムになってしまいます。

良い境界が引かれたモジュールは、stable なインターフェースで stable な責任を果たします。そして、我々プログラマは、最終的にそれぞれのモジュールを組み合わせることでプログラムを組み上げます。将来の変更に対しては、モジュールの中身をいちいち変更するのではなく、その呼び出し方、組み合わせ方を変えることで要求の変更に対応します。

正しい境界を引くプログラムの書き方

以前書いた 55 日かけて OS を作った - kawasin73のブログの "プログラミングの方法" の章で紹介したように、まず main() 関数に愚直に全ての処理を書き下して、その後に全体を眺めて共通する処理を関数やモジュールに切り出していくことで、正しく動くメンテナブルなソフトウェアを 0 から作り上げることができます。

プログラムを書く際には、設計と称して書く前にコンポーネントの境界を機能によって分けてしまいがちですが、これは往々にして間違った境界になりがちです。というか、そもそもプログラムを書く前にコンポーネントを分けることは難しいと僕は思っています。

それよりも、自分が愚直に書き下したプログラムを眺めてプリミティブな処理をモジュールとして切り出して、そのモジュール呼び出しの組み合わせによって最終的に読みやすいプログラムに変えていく方が結果的に将来の変更に強いロバストなプログラムになります。

これは UNIX 哲学から学んだことでもあります。

境界の引き方の具体例

例としてログのローテーションをする処理を考えてみましょう。定期的にメトリックを収集しバイナリにコンパイルされたログをファイルに追記して、ファイルサイズが大きくなったら新しいファイルを作って書き込むということをします。Java っぽい疑似コードで書くとこんな感じで定期的に writeLog() が呼ばれます。

class Service {
  private FileWriter writer;

  private boolean rotateFile() {
    writer.close();
    renameFile(currentFilePath, previousFilePath);

    writer = FileWriter.create();
    if (writer == null) return false;
    writer.write(initialSchemaData);

    return true;
  }
  
  void writeLog() {
    Data metricsData = collectMetrics();
    metricsData.timestamp = now();
    
    if (writer.getSize() + metricsData.getSerializedSize() > FILE_SIZE_LIMIT) {
      if (!rotateFile()) return;
    }

    writer.write(metricsData);
  }
}

class FileWriter {
  private FileOutputStream outputStream;
  private int fileSize = 0;

  static FileWriter create() {
    FileOutputStream outputStream = currentFilePath.open(O_TRUNC);
    if (outputStream == null) return null;
    return FileWriter(outputStream);
  }

  int getSize() {
    return fileSize;
  }

  void write(Data data) {
    outputStream.write(data.serialize());
    fileSize += data.getSerializedSize();
  }
}

FileWriter はファイルサイズを in memory でトラッキングすることで、ファイルサイズのチェックを stat(2) システムコールに頼ることなく行うことを目的としています。

このコードを見て、FileWriter は fileSize を管理しているがその値は FileWriter の中では使われていないため FileWriter は役割が少なすぎると思われるかもしれません。それよりも、ログローテーションのロジックを FileWriter.write() に入れ込んで Service.writeLog() からローテーションの実装を隠蔽した方がいいと思われるかもしれません。

しかし、FileWriter が fileSize の管理しかしないことは、悪い境界の引き方ではありません。なぜならば FileWriter は呼び出し元の呼び方に関わらずファイルのサイズをトラッキングし続けるからです。外部の処理に依存しません。

一方で、FileWriter にファイルのローテーションのロジックを追加したとき、こんな感じになります。

class Service {
  private FileWriter writer;
  
  void writeLog() {
    Data metricsData = collectMetrics();
    metricsData.timestamp = now();
    writer.write(metricsData);
  }
}

class FileWriter {
  private boolean rotateFile() {
    outputStream.close();
    renameFile(currentFilePath, previousFilePath);

    outputStream = currentFilePath.open(O_TRUNC);
    if (outputStream == null) return false;

    write(initialSchemaData);

    return true;
  }

  boolean write(Data data) {
    if (fileSize + data.getSerializedSize() > FILE_SIZE_LIMIT) {
      if (!rotateFile()) return false;
    }
    outputStream.write(data.serialize());
    fileSize += data.getSerializedSize();
  }
}

確かに、ローテーションのロジックが中に入り、Service.writeLog() はファイルのローテーションを気にせずに FileWriter.write() を呼べば良くなりました。

しかし新しい仕様として、定期的に収集されるログであるためタイムスタンプは最初のメトリックファイルにだけ挿入してそれ以外はタイムスタンプの設定をスキップする変更をしたいとします。以前の実装であれば、以下のようにメインの Service.writeLog() を変更するだけで、FileWriter のロジックは変わりません。

class Service {
  
  void writeLog() {
    Data metricsData = collectMetrics();
    Instant now = now();
    if (!isCorrectInterval(now)) {
      metricsData.timestamp = now;
    }
    
    if (writer.getSize() + metricsData.getSerializedSize() > FILE_SIZE_LIMIT) {
      if (!rotateFile()) return;
      metricsData.timestamp = now;
    }

    writer.write(metricsData);
  }
}

しかし、FileWriter がログローテーションの責務を負ってしまった場合は、途端に変更が難しくなります。方法としては２つあって、

FileWriter.write() の引数にローテーションされたときに設定するタイムスタンプを追加する
FileWriter.write() でローテーションが発生したときにはデータの書き込みを行わずに false を返し、Service.writeLog() にもう一度タイムスタンプを付与した Data で書き込み直してもらう

となると思います。前者は特定の状況でしか必要にならない引数が増えてしまい無駄です。後者は呼び出し側がローテーションの有無を知る必要が出てきてしまい、カプセル化で隠蔽したはずの情報が外に出てきてしまいました。また、いずれの場合も FileWriter と Service の両方に修正が必要になっています。

このように、ひとつのことをうまくやるコンポーネントを定義しその責務が将来に渡って変わらないように境界を選ぶことで将来の変更に強いプログラムになりますし、逆に不用意に責務を拡大させることで将来の仕様変更に脆いプログラムになってしまいます。

まとめ

僕が普段無意識にやっているロバストな境界の引き方について言語化してみました。僕も昔 DMM でインターンしてた初期は、まずクラスの分割を考えてからプログラムを書いて難解なプログラムを書いてしまっていたので、誰でも最初は通る道だと思います。

これから AI がプログラムを書くようになると、一般的なプログラミングのレベルに引きづられて下がってしまい、こういう将来への変更のロバストさがより重要になるのかもしれません。または、AI の腕力によって必要のないものになってしまうのかもしれません。知らんけど。

2025-11-23

高速な XBRL パーサーを Python で書く

作ったもの Python 最適化

必要なことを必要なだけ。どうも、かわしんです。

前回の記事では、AI を使って作ってきた日本の上場株式銘柄解析システムのアーキテクチャについて解説しました。

kawasin73.hatenablog.com

今回は、銘柄解析の肝となる XBRL パーサーである Arelle が遅かったので、Python で自前の高速なパーサーである xbrlp を作って 20 倍速くした話をします。

9 月上旬当時の Claude Code, Codex にはまともな効率の良いプログラムを書くことができなかったのでこのパーサーのコアの部分は自分で書いています。

ソースコードは単一の Github リポジトリにはなっていないので、gist にあげておきました。この記事の一番下に埋め込んでいます。

XBRL parser · GitHub

こんな感じで使います。

gist.github.com

XBRL とは

XBRL とは、決算報告や財務諸表をプログラムで解析しやすく設計された XML ベースのフォーマットです。日本では、上場企業は金融庁が管理する EDINET に有価証券報告書をアップロードすることが義務付けられており、EDINET の閲覧サイトでは無料で過去 10 年分のアップロードされた XBRL ファイルをダウンロードすることができますし、pdf ファイルなどでの閲覧もできます。また、無料の API 登録をすることで API 経由で過去の XBRL ファイルをダウンロードすることもできます。

また、四半期の決算発表で公表される決算短信の XBRL ファイルも東証にアップロードされ、TDNet の適時開示情報閲覧サービスで無料でダウンロードできます。TDNet の API は有料ですが、日次の一覧も銘柄ごとの一覧も Web ベースのシステムで無料で閲覧し XBRL ファイルをダウンロードすることができます。邪推ですが、おそらく TDNet の無料の閲覧システムはリアルタイム性や信頼性への保証がないから有料版の API と差別化されているのだと思います。多分。

なぜ XBRL をパースするのか

上場企業の財務諸表を手に入れたいのであれば、yfinance を使うのが無料で使えるメジャーな手法だと思います。しかし、ネットネットバリュー株投資をする上ではいかに詳細な資産の項目を取るかが重要なので、1 次情報である XBRL ファイルを直接パースして柔軟にデータの抽出を行うことにしました。

例えば、7058 共栄セキュリティーサービスは、固定資産として「金地金」を 10 億円分保有していますが、yfinance では一般的な企業を前提にして正規化しているため、金地金のデータは無視されています。

とはいえ、yfinance は十分精度高くデータの抽出と正規化をしているので、一般的な解析をするには yfinance のデータで十分だと思います。

なぜ自前の XBRL パーサーを書くのか

Python の XBRL パーサーとしては、Arelle が有名です。初めは Arelle を使ってデータの抽出を行っていましたがとても遅いです。

Arelle が遅すぎるから、Rust で XBRL パーサー書こうかな。トレースを取らせたところメタデータの解析とそのグラフ構築に時間がかかってるみたいで必要な情報は一部だし。1ファイルをArelle が読み込むのに5秒以上かかるから1年分の全銘柄をパースするのに一晩かかるのが流石にしんどい
— かわしん@ソフトウェアエンジニア (@kawasin73) 2025年9月3日

このツイートにもありますが、有価証券報告書をひとつパースし終わるまでに 5 秒くらいかかります。4000 銘柄が毎年 4 回四半期と通期の決算を報告するので 1 年分だけで 16000 ファイルありますし、マルチプロセスで並列に動かしても1年分を全てパースするのに一晩かかります。それを 10 年分パースして EDINET と TDNet それぞれでパースすると考えると全てパースするのに1週間くらいかかってしまいます。データ抽出ロジックを都度改良する度にその変更をデータベースに反映するのに 1 週間かかるのは流石にしんどいので最適化を考えました。

Claude Code に Arelle のパース中のプロファイルを取らせてなぜ遅いのか調査させると、メタデータの構築とそのバリデーションに CPU 時間を食われているということでした。しかし、自分のデータ抽出にはバリデーションは不要ですし、利用するメタデータも一部のみです。例えば、データを抽出する時は QName のみを使って要素を判別するので日本語や英語のラベルは必要ありません。また、要素同士の関係性を表すリンクベースには、calculationLinkbaseRef、definitionLinkbaseRef、presentationLinkbaseRef などがありますが、実際に利用するのは 1 つのみで、他のリンクベースは必要ないです。

Arelle はあらゆるユースケースに対応するために最初の読み込み時に全てのデータを読んでモデル構築をするので、自分のデータ抽出に必要ないデータ読み込みをスキップすることで高速化ができそうですが、Arelle にはそういう最適化が可能な API がないため、自分で 1 から XBRL パーサーを書くことにしました。

最初は Rust で書いて Python バインディングを提供しようとしていましたが、インストールが煩雑になってしまうし、XML パーサーが Rust の標準ライブラリになかったため、Python で書くことにしました。Arelle の遅さが言語由来ではなく無駄な処理が多いためだったというのも理由です。

どうやって速くするのか

大きく 2 つの処理をスキップすることで速くします。すでにパースされたメタデータファイルの読み込みのスキップと不要なリンクベースファイルの読み込みのスキップです。

XBRL は数値データが埋め込まれた HTML である本文の -ixbrl.htm ファイルとメタデータ構造を定義する複数の XML ファイルで構成されます。メタデータファイルにも、要素同士の関係を表すリンクベースファイル (_cal.xml, _def.xml, _pre.xml, _lab.xml) や、どのようなメタデータファイルがあるかをリストして、本文に含まれうる要素を列挙するスキーマファイル (.xsd) ファイルがあります。スキーマファイルは import タグによって複数のスキーマファイルを再帰的に読み込むこともできます。

共通したスキーマファイルのキャッシュ

メタデータファイルには会社ごとの XBRL ファイル群に含まれるローカルのファイルと、EDINET などがリモートサーバーから HTTP 経由で提供するファイルがあります。リモートのスキーマファイルのパース結果は同じになるため会社ごとにパースする必要はありません。リモートのスキーマファイルのパース結果をメモリ上にキャッシュすることで、複数の XBRL ファイルをバッチでパースする時に重複するパース処理をスキップすることができます。

また、リモートのファイルはローカルのファイルシステムにダウンロードしてキャッシュし不要なネットワークアクセスを防ぐようにしました。一度読み込みを行った XBRL ファイルについては再読み込み時にはネットワークアクセスが発生しません。

必要なデータのみの読み込み

Parser クラスは必要なデータのみを読み込むメソッドを明示的に提供し、ユースケースごとに不要になるデータの読み込みをユーザーが防ぐことができるようにします。

load_facts(): 本文中の <ix:nonNumeric>, <ix:nonFraction> タグに埋め込まれたデータを読み込んで返します。
load_presentation_links(): 表示上の親子関係を表すリンクベースを返します。
load_calculation_links(): 計算上の親子関係を表すリンクベースを返します。
load_labels(): 全要素のラベルを返します。

データの抽出のみを行うときは load_calculation_links() と load_facts() を使い、不要なラベルや _pre.xml の読み込みコストをスキップできるようにします。

ソフトウェアの品質へのこだわり

Zero Dependency

僕は Zero Dependency 過激派なので、自分が作るライブラリでは依存する third party ライブラリを最小限にします。依存するライブラリが増えれば増えるほどソフトウェアの品質を落とします。Python には XML パーサーが標準ライブラリにあるので僕のパーサーは全て標準ライブラリのみで作っています。外部ライブラリをインストールしなくても使えるので、ポータビリティが高くなります。

メモリ効率の最適化

僕はいつもメモリアロケーションに対する罪悪感を持っているのでメモリの使い方には気を使います。

データやリンクベースの読み込み API では、結果をリストではなくイテレータで返します。要素数やリンク数はかなり大量になるため、リストにまとめてから返すと一時的なメモリ消費量が大きくなってしまいます。イテレータにすることで一時的なメモリ使用量のスパイクを抑えることができます。また、必要なデータが途中までで全て読み込めた場合は読み込みを途中で中断することもできます。

文字列の結合は、毎回メモリアロケーションと文字列のコピーが発生するためなるべく最小限にします。Python の標準ライブラリの XML パーサーではタグ名などをネームスペースを解決した状態で出力します。例えば、ix:nonFraction は {http://www.xbrl.org/2008/inlineXBRL}nonFraction と出力されます。ネームスペースのマッピングを管理してタグを比較することが必要なのですが、要素ごとに ix:nonFraction のタグを URI 埋め込みのものに変換するのは文字列結合のコストがかかり無駄なので、タグ名変換の文字列結合はネームスペースが検出された時にまとめて行いキャッシュして使い回すようにします。

本当はファイルからバッファに読み込まれた XML をゼロコピーでパースするのが理想ですが、標準ライブラリの XML パーサーは対応していません。また、要素ごとに前述のネームスペース解決をしているので効率が悪いです。xml.etree.ElementTree 以外にも xml.sax や xml.parsers.expat が標準ライブラリにはありますが、いずれもイテレータにすることができないため、諦めて標準ライブラリ由来の非効率性については許容することにしました。

必要なことを必要なだけ

Simple Made Easy でも紹介されている通り、効率の良いライブラリは Simple であることを目指すべきです。Arelle は Easy であるため、初心者でも使いやすいですが遅いです。

効率の良いライブラリはシンプルで小さな責務を果たすために必要な最小限の機能を提供し、ユーザーはそれを組み合わせることで様々なユースケースに対応します。上記の "必要なデータのみの読み込み" で説明したようにそれぞれの読み込みメソッドは対応するファイルを上から順に読み込んで必要な情報をイテレータで返すだけのシンプルな処理のみを行います。リンクベースからのグラフの構築などはライブラリユーザーの責務になります。これにより、不要な処理をしない効率良く使い勝手の良いプログラムを書くことができるようになります。

また、Fact ではそれぞれの要素の値のパースを遅延させます。例えば、千円単位の要素の 1,234 という文字列は 1234000 という数値に変換されるべきですが、xbrlp では各要素の Fact.value が呼ばれるまで変換はしません。これは、大部分の要素がデータ抽出には無関係で qname によるフィルタリングでどうせ弾かれるためです。必要のないデータのパースは行わずできるだけ生データのまま持ち回って、必要なデータを必要なだけ処理するようにして効率化します。

テスト

xbrlp が正しく全てのデータをヌケモレなくパースしているかどうかを確かめるために、ゴールデンテストを用いて検証しています。過去 10 年のそれぞれの年について JP GAAP, US GAAP, IFRS などの会計方法の違う実際の XBRL ファイルを複数ファイル選び Arelle を使ってデータ抽出してゴールデンファイルを作っています。

ix:nonNumeric に含まれる HTML データが標準ライブラリの xml パーサーによってパースされてしまい、元の生 HTML 文字列を復元できないという違いが発見されましたが、標準ライブラリを使う限りは避けられないので、正規化された後の XML 文字列が一致することを確認してヨシとしています。

正直、標準ライブラリの xml パーサーは余計なことを色々しているので効率が悪く、Simple ではなく Easy よりだなという印象です。

まとめ

自作の xbrlp パーサーによって XBRL ファイルのデータ抽出が大体 20 倍くらい速くなりました。それまでは1年分の XBRL ファイルを全て処理するのに一晩かかっていましたが、10 分で終わるようになりました。1週間かかる 10 年分のデータ抽出やりなおしも一晩で終わります。

また、速いプログラムはただ速いというメリットだけでなく、力づくで全部の処理をやり切るという選択肢を可能にすることでワークフローに大きな影響を与えることができます。それまではデータ抽出ロジックを改良した後にデータベースをアップデートするのに時間がかかるのでどのようにデータを壊さずに差分更新するかということに腐心していましたが、一晩で全データを再処理し切れるのであればシンプルにデータを1から作り直すという選択肢が取れるようになりました。

速いは正義です。

以下はおまけです。

gist.github.com

2025-11-20

AI に作らせる株式分析システム

作ったもの Python AI アーキテクチャ設計

１発当てて大儲け。どうも、かわしんです。

X の流行を見るに AI コーディングを流石にやらないといけないと思い、今年の8月から Claude Code Max プランを契約して AI コーディングの題材として日本の上場銘柄解析システムを作らせていました。

https://x.com/kawasin73/status/1951869172377682136

新しい技術を追わないをポリシーにしている自分としては、ここらがいい感じに整備されてきてコスパのいい参入タイミングかなと思い使い始めましたが、結果的にはいいタイミングだったと思います。

さて、上場銘柄の有価証券報告書のデータフォーマットである XBRL のパーサー自体は実は2年前に作っていたのですが、ファイルのダウンロードと解析をするために手元で毎回 Python スクリプトを実行しないといけないため、めんどくさくて数ヶ月に1回くらいしか実行して確認していませんでした。それを AI エージェントを使って 1 から作り直して、さらに自動化して便利にしました。

今回はどういうものを作ったかと、どのような思想で作ったかをソフトウェアエンジニアの目線から説明したいと思います。

AI の使い方については別の記事にしますが、僕はほとんどソースコードを書いておらず、95% 以上は AI が書いてます。

作った解析ページ

ネットネットバリュー株ランキングページ

この指標は、会社が持っている現金や有価証券など即時現金化が可能な資産から総負債を引いた会社の解散時価値で時価総額を割った PBR に似た指標です。この値が 1 を割れば現金が割引価格で売られている状態になりお得になります。

どの項目を即時現金化可能な資産として選ぶかや、それぞれの割引率などを独自に設定できるようにしています。

また、PBR チャートタブでは、独自に計算した PBR の過去の推移をチャートにして表示しています。これによって最近 PBR の値が小さくなったのかどうかを判別することができます。

オニールの成長株発掘ランキングページ

これは、「オニールの成長株発掘法」という本で紹介されているスクリーニング手法を実装したページです。EPS の成長率やリラティブストレングスという株価の推移の指標を元にスクリーニングします。

各銘柄の詳細ページでは、いつ決算が発表されたかのマーカーと、どの区間でシグナルが点灯したかを背景の色を変えることで可視化しています。

ちなみにランキングページから詳細ページまで１枚の HTML でできた SPA です。

オニールのマーケットの天井検出ページ

これも、「オニールの成長株発掘法」という本で紹介されているマーケットが上昇トレンドから天井をうって下落に転じる前に現れる「分配日」をカウントしていつマーケットが下落するのかを予測するツールです。

シグナルが出た日をマーカーで表示し、注意期間を背景の色を変えることで可視化しています。

ただ、パラメータのチューニングが難しく、ベイズ最適化でパラメータを計算しようとしましたがうまくいきませんでした。

ソフトウェアエンジニアとしての思想

自動化

毎日のデータのダウンロードや解析スクリプトの実行をやるのはめんどくさいので、とにかく全部自動化するのが目標です。流石に株の売り買いも自動化すると不具合があった時の代償が大きいので自分で判断して売買しますが、勝手に条件を満たす銘柄が見つかったら通知を飛ばしてくれるのが理想です。

メンテコストの最小化

個人プロジェクトなので運用の手間をゼロにしたいです。めんどくさいので。24 時間待機するサーバーを持った時点でセキュリティのリスクがあり、ソフトウェアのアップデートなどがめんどくさいです。なので、全部フルマネージドなサービスを使います。

なるべく利用するサービスの数を減らして、メンテナンスをゼロにします。一度作ったらほったらかしにしても動き続ける堅牢なシステムは要素を減らすことで得られます。

アーキテクチャ

全体のアーキテクチャはこんな感じです。肝は、全てを SQLite ファイルで管理し、Github Actions の日次バッチで SQLite を更新して、S3 に置かれた最新の SQLite ファイルを引き回すことでローカルやブラウザ上での解析の全てに対応していることです。必要なインフラは AWS S3 と Github のリポジトリだけです。

Github Actions で日次処理

Github Actions には cron のサポートがあって、以下のように設定すると毎日 18 時に CI workflow が実行されます。

on:
  schedule:
    # Run daily at 6:00 PM JST (9:00 AM UTC)
    - cron: "0 9 * * *"
  workflow_dispatch: # Allow manual trigger for testing

毎日以下の処理を行います。

最新の SQLite ファイルをS3 からダウンロード
その日に更新された株価、XBRL などのファイルをダウンロード
ダウンロードしたファイルをパース+正規化して、SQLite ファイルに追記
ダウンロードした生データファイルを S3 に aws s3 sync
最新の SQLite ファイルを S3 に上書き保存
データを解析して必要な通知を行う
SQLite ファイルダウンロードリンクや解析 web page リンクを Summary の Web UI に表示

CI の失敗による欠損データを防ぐために、更新するデータは SQLite ファイル内の最新の日付以降を取得するようにして、SQLite ファイルのアップロードは一番最後に行うようにしています。

日次処理に Github Actions を使えばいいというアイディアは ChatGPT が教えてくれました。

https://x.com/kawasin73/status/1959106840828289471

S3 に生データと SQLite データベースファイルを保存

パースロジックを変更したときには全ての XBRL ファイルに対してパースをし直すので、全ての XBRL ファイルが手元に必要です。XBRL ファイルは金融庁が提供する EDINET からダウンロードしますが、過去 10 年分しか提供していません。また、DoS を避けるために 1秒に 1 ファイルをダウンロードするので XBRL ファイルのダウンロードはできれば一度だけにしたいです。そのため、Github Actions でダウンロードした XBRL ファイルなどの生ファイルは全て S3 にアップロードして永久保存しています。定期的に aws s3 sync をして S3 のファイルを手元にダウンロードしてパーサーの改善をしています。

生データファイルは、年毎に tar.gz ファイルにまとめて Amazon S3 Glacier Deep Archive クラスで保存することでダウンロードコストと保管コストを下げています。

SQLite ファイルはバージョニングを有効にして上書きして更新しています。SQLite ファイルは時々詳細な分析をするために、ローカルにダウンロードして使います。最初は Github Artifacts に保存するようにしていたのですが、ダウンロードが 1MB/s と超低速なので諦めて S3 を使うようにしました。また、presigned URL を Github Actions のサマリーに書き込んで、WebUI から簡単にダウンロードすることができるようにしました。SQLite ファイルは数百 MB にもなるので gzip バージョンも置いてブラウザから高速でダウンロードできるようにしました。

https://x.com/kawasin73/status/1963626393285100003

Github Pages で static HTML ファイルで解析ページを提供

最初に紹介した解析ページはそれぞれ Gemini canvas モードに作ってもらいました。デフォルトでレスポンシブ対応なのでスマホでも確認できます。Gemini canvas モードすごい。

CSS / javascript が全て入った HTML 1ファイルなのでビルドも必要なく取り回しが楽です。ライブラリとしては sqlite-wasm でクエリして、解析結果を lightweight-charts で表示しています。他のチャートライブラリも試しましたが、大量のデータやマーカーを描画するとスクロールがカクついて動かなくなるので、ヌルヌル動く lightweight-charts はとてもおすすめです。

毎日 Github Actions が最新の S3 の SQLite ファイルの presigned URL を生成して解析ページのリンク URL のクエリパラメータに含ませています。ページがブラウザで開かれると javascript で SQLite ファイルを自動でダウンロードしてキャッシュしブラウザ上で動的に解析をします。細かいパラメータ調整もブラウザ内でできるようになっています。また、ローカルにあるデータベースファイルを指定することもできるので解析ページの追加開発も簡単にできます。

データベースも含んだ解析ページの全てが一つ URL にまとまっているので、そのリンクを誰にでも共有することができます。S3 の presigned リンクは 7 日間の有効期限があるので流出しても被害は限定できます。特に認証はしていないので簡単に友人に共有できるのが便利です。

Github issue を作って通知

毎日解析ページをチェックするのは手間なので、日次バッチで解析を行って新しい銘柄が発見されたら自分に通知して欲しいです。僕は Slack などは使ってないのでメールでの通知方法を検討しました。

ただし、メール配信サービスを使ったり gmail の認証情報の設定をするのは大がかりになって面倒くさいです。そこで Github issues を使うことにしました。

新しい銘柄が発見されたら Github Actions は新しい Github issue を作成します。それによってリポジトリオーナーの自分にメールが届く仕組みです。メールには issue の文章が表示されるので簡単に確認できます。もし、その銘柄が気に入らなければその理由とともに issue を close すれば、後で確認できるログにもなります。

まとめ

こんなシステムを設計して実装しましたが、かなり便利になりました。作業は休日や仕事終わりだけで、3ヶ月でここまで来れたので AI ってすごいなと思いました。アイディアはあるけど形にするのが面倒くさいという時に強力な相棒になります。

ただ、効率の良いプログラムやアーキテクチャは、まだ僕でないと作れないなと思ったので、もう少しはソフトウェアエンジニアとしての旨みのある仕事は残っていきそうです。

AI の使い方や、XBRL ファイルのパースの手法などについてはまた別の記事で解説したいと思います。

オチとしては、今年の運用成績は日経平均に負けてます。個別株なんかせずにインデックス投資をした方がいいのかもしれない。

2024-11-23

Recall.ai のリングバッファのパフォーマンスを検証する

調査疑問 Rust 最適化

推測より計測。どうも、かわしんです。

昨日、Recall.ai のリングバッファがどのように設計されたのかを考察しました。

kawasin73.hatenablog.com

その後、Hacker News のコメントを見ているとリングバッファはオーバーエンジニアリングでもっと簡単な方法として以下の手法などが提案されていました。

TCP のウィンドウサイズを変える
/dev/shm を使う
共有メモリでの送信は Mojo がサポートしている

WebSockets cost us $1M on our AWS bill | Hacker News

TCP のウィンドウサイズを変えたとしても、ユーザー空間とカーネル空間の無駄なメモリコピーの量は変わらないので今回のメモリコピーのボトルネックには効かない思われます。

/dev/shm については、Memory backed file にデータを書き込んでそのファイルのファイルディスクリプタを Unix ドメインソケットで送り、コンシューマ側で mmap すればメモリコピーの回数は共有メモリのリングバッファの手法と同じなので、一考の価値はあります。

しかし、フレームごとに tmpfs にファイルを作成して Unix ドメインソケット経由で送信して mmap しなおすオーバーヘッドがある上に、書き込み時にはメモリページの割り当てが発生し、読み込み時には mmap された領域のページテーブルを埋めるまでページフォルトが大量に発生するなど、オーバーヘッドが大きそうで本当にパフォーマンスが良いのかどうかは怪しいです。

/dev/shm を直接使う場合はプロデューサが死んだ時に大きめのメモリがリークするので回収するための死活監視が必要になりますが、memfd_create(2) を使えば自動的に回収されます。

Mojo については、Rust のバインディングはまだ完成していないので使えないと思いますが、mojo::BigBuffer は実質的には上の /dev/shm の手法と同じです。

ということで、リングバッファと Memory backed file を Unix ドメインソケットで送って mmap する手法のどちらがどのくらい速いのかが気になったので検証してみました。

実際の検証コードは文末に埋め込んでありますが、特徴としては

3MB の固定長のランダムなデータを送信する
プロデューサは 3 スレッドから並列にそれぞれ 100 フレームずつ書き込み、コンシューマはシングルスレッドで読み込む
リングバッファの最大数と Unix ドメインソケットで同時に送れるのは最大 30 フレーム分まで
同一プロセス内の別のスレッドからそれぞれ送るが、パフォーマンス特性としては別プロセスの場合と変わらないはず
Unix ドメインソケットを使ったスロットリングは複数コネクションが必要になるのでとりあえずセマフォで代替
memfd は Linux にしかなくて、macOS で開発できなかったので、Linux と macOS の両方で使える tempfile クレートで代替。実態は Memory backed file なのでパフォーマンス特性は同じはず

結果

Linux
- リングバッファ: 1.95 s くらい
- Memory backed file: 5.2 s くらい
macOS
- リングバッファ: 750 ms くらい
- Memory backed file: 10 s くらい

リングバッファの方が結構速いです。macOS では Memory backed file の方が遅すぎるので何か別の問題がありそうな気もします。

Linux (AWS EC2)

リングバッファ

$ for i in {1..5}; do ./cmp_ringbuffer/target/release/cmp_ringbuffer; done
producer 2
producer 1
producer 0
start
producer 0 finished
producer 1 finished
producer 2 finished
finished: 1.973099031s
producer 2
producer 1
producer 0
start
producer 2 finished
producer 1 finished
producer 0 finished
finished: 1.964035006s
producer 2
producer 1
producer 0
start
producer 2 finished
producer 0 finished
producer 1 finished
finished: 1.956276696s
producer 2
producer 1
producer 0
start
producer 2 finished
producer 0 finished
producer 1 finished
finished: 1.968726078s
producer 2
producer 1
producer 0
start
producer 2 finished
producer 1 finished
producer 0 finished
finished: 1.959291665s

Memory backed file

$ for i in {1..5}; do ./cmp_memfd/target/release/cmp_memfd; done
producer 2
producer 1
producer 0
start
producer 1 finished
producer 2 finished
producer 0 finished
finished: 5.206459836s
producer 2
producer 1
producer 0
start
producer 1 finished
producer 2 finished
producer 0 finished
finished: 5.225634239s
producer 2
producer 1
producer 0
start
producer 1 finished
producer 2 finished
producer 0 finished
finished: 5.207194755s
producer 2
producer 1
producer 0
start
producer 0 finished
producer 1 finished
producer 2 finished
finished: 5.216124744s
producer 2
producer 1
producer 0
start
producer 2 finished
producer 1 finished
producer 0 finished
finished: 5.194187799s

macOS (手元の Macbook Pro 2018)

リングバッファ

$ for i in {1..5}; do ./cmp_ringbuffer/target/release/cmp_ringbuffer; done
producer 0
producer 1
producer 2
start
producer 2 finished
producer 1 finished
producer 0 finished
finished: 717.866646ms
producer 0
producer 2
producer 1
start
producer 0 finished
producer 2 finished
producer 1 finished
finished: 733.328122ms
producer 1
producer 0
producer 2
start
producer 0 finished
producer 1 finished
producer 2 finished
finished: 736.151382ms
producer 1
producer 2
producer 0
start
producer 0 finished
producer 2 finished
producer 1 finished
finished: 740.951105ms
producer 0
producer 2
producer 1
start
producer 2 finished
producer 1 finished
producer 0 finished
finished: 751.015461ms

Memory backed file

$ for i in {1..5}; do ./cmp_memfd/target/release/cmp_memfd; done
producer 0
producer 1
producer 2
start
producer 1 finished
producer 0 finished
producer 2 finished
finished: 10.866407023s
producer 0
producer 2
producer 1
start
producer 0 finished
producer 1 finished
producer 2 finished
finished: 11.167087375s
producer 2
producer 1
producer 0
start
producer 1 finished
producer 2 finished
producer 0 finished
finished: 10.824447892s
producer 0
producer 2
producer 1
start
producer 1 finished
producer 0 finished
producer 2 finished
finished: 10.833614174s
producer 0
producer 2
producer 1
start
producer 1 finished
producer 0 finished
producer 2 finished
finished: 11.07388444s

おまけ

リングバッファの実装

gist.github.com

Memory backed file の実装

gist.github.com

2024-11-23

Recall.ai のリングバッファの設計を考察する

アーキテクチャ設計

あなたとわたしとロバストとパフォーマンス。どうも、かわしんです。

先日 Recall.ai というビデオ会議に関連するサービスのブログ記事を読みました。

www.recall.ai

インフラ費用を減らすために動画処理サーバーのプロファイルをとったところ、CPU 時間を一番使っていたのがビデオフレームを送信する際の Web Socket の通信のメモリコピーだったということがわかったので、共有メモリ上に実装したリングバッファを使うことで CPU 使用量を半分にしてサーバー代を半分にしたという豪快なお話です。

同じサーバー内のプロセス間通信に Web Socket を使うと、以下のオーバーヘッドがあります。

Chromium プロセスからカーネル内のバッファへのメモリコピー
カーネル内のバッファから動画処理プロセスへのメモリコピー
Web Socket の改竄防止のために自動で行う全データのマスキング

これらのコストは、ロックフリーでゼロコピーの共有メモリのリングバッファを使うことで削減できます。

まさに技術で課題を解決している感じがしていい話なのですが、以下の要件を満たす共有メモリ上のリングバッファライブラリがなかったため自作したらしいです。

ロックフリー
マルチプロデューサ / シングルコンシューマ
可変長のフレームに対応
ゼロコピー
サンドボックス内から送信
低遅延のシグナリング

しかし、この記事にはざっくりとしたリングバッファの概要しか記述がなく、またそのリングバッファライブラリは OSS にはなっておらず、どのように実装したかは不明です。Recall.ai の Github にはそれっぽいリポジトリは見つかりませんでした。

(https://www.recall.ai/post/how-websockets-cost-us-1m-on-our-aws-bill より)

リングバッファを具体的にどのように作ったのかが気になったので、自分だったらどのように設計するかを考察してみました。

上で列挙した以外には以下の要素がブログ記事中でわかっています。これらがパズルのように後で設計を絞るのに役立ちます。

read ptr, peek ptr, write ptr の3つのポインタをアトミックに使う
named semaphore をプロセス間のシグナリングに使う

デザインドキュメントを書く時、検討したがうまくいかない案は普通は後ろの方に "Alternative Considered" の章にまとめますが、この記事ではどのように考察したのかも読んでほしいためうまくいかない案を考察してからうまくいく案を導き出す方式で書いています。

データフォーマットとデータ構造

さて、ロックフリー + マルチプロデューサ + 可変長フレームのリングバッファであるためリングバッファに書き込む際の操作はざっくり以下のステップになるはずです。

write pointer をデータ長分 atomic に増やしてリングバッファ内の領域を確保する
確保した領域にデータを書き込む
データが読み込み可であることを通知する

リングバッファにヘッダとデータを詰める

可変長のリングバッファのデータフォーマットとして簡単に思いつくのは、固定長のヘッダと可変長のデータ分の領域を (1) のステップで確保するものですが、実はうまくいきません。

             read ptr                        write ptr
              ∨                               ∨
 | free space | header | data | header | data | free space |

なぜかというと、ヘッダ内の書き込み可フラグが (1) のステップの時点で初期化されていないためからです。ロックフリーで並列にアクセスするためには、リングバッファ内の空き領域の先頭の次のヘッダに該当する部分が (1) を行う前に初期化されている必要がありますが、事前に初期化しようにも (1) が終わるまで空き領域の先頭の位置はわからないため、ヘッダの初期化はできません。コンシューマ側で読み込み完了時に空き領域に戻される領域を全てゼロクリアするなどして初期化はできますが、毎回全てをゼロクリアするのはメモリアクセスの観点からも非効率的です。

メタデータ専用のリングバッファ

それを解決するために、2つのリングバッファを用意してみます。

固定長のメタデータのためのリングバッファ
可変長のデータのためのリングバッファ

           read index            write index
            ∨                     ∨
| free slot | metadata | metadata | free slot | free slot |
                    
| free space | data | data | free space |
             ^             ^
           read ptr   write ptr

固定長のメタデータのリングバッファを読み込み側が解放する時に初期化することでメタデータの初期化の問題が解決されます。しかし、メタデータリングバッファの write index とデータリングバッファの write ptr をロックなしに操作するため、2つのリングバッファの順序が入れ替わってしまう可能性があるなどロジックが複雑になってしまいます。さらに、データリングバッファの空き領域が無くなった時のシグナリングにセマフォを使うと、1 バイト単位でセマフォに登録しなければならないため、セマフォ操作が大量に発生し非効率です。

リングバッファを固定長のブロックで管理する。

元記事によると 1080p の動画の 1 フレームの大きさは、3110.4 KB だそうです。結構でかいです。最初の案では、空き領域の先頭がどこになるかわからないため領域の解放時に戻される領域を全てゼロクリアしないといけないことが問題でした。リングバッファを 1 MB 単位で確保したり解放したりするようにすると、空き領域の先頭になる可能性のある部分は 1 MB 毎の先頭に限定され、空き領域に戻すときにヘッダの初期化のためにゼロクリアする部分が大幅に少なくなります（1 MB あたり数バイト）。

また、リングバッファの空き領域が無くなった後に空き領域が増えたことを通知するセマフォも、<リングバッファのサイズ> / 1 MB 個だけ登録すればいいのでセマフォ操作も少なくなります。

| free block | header | data   | unused area | free block |
             | multiple of block size        |

データのサイズによっては確保したブロックの後ろの部分は使われない無駄な領域になりますが、ブロックの大きさを調整することで無駄になる領域の割合を下げることができます。全体的な CPU 時間のオーバーヘッドとのトレードオフで決めることになります。

プロデューサの処理

データサイズとヘッダサイズから必要なブロック数を計算する
ブロック確保用のセマフォを必要なブロック数 sem_wait して必要なブロック数を予約する
write ptr を確保したブロックサイズ分 atomic に増やして領域を確保する
ヘッダにデータの大きさなどのメタデータを書き込む
データをリングバッファの確保した領域にコピーする
ヘッダ内の読み込み可のフラグを有効にする
データ完了通知用のセマフォを 1 回 sem_post する

read/write ptr はリングバッファの先頭からのオフセットで表されます。

セマフォの獲得は 1 ブロック単位で行うので、全体のリングバッファのブロック数が少ないと複数のプロデューサが不完全な個数のブロックをセマフォから予約してデッドロックする可能性があります。そのためリングバッファのサイズは、最大のプロデューサの数と最大フレームのサイズの積以上に設定する必要があります。

コンシューマの処理

まず、peek ptr がある意味を考えます。もし 1 フレームごとに処理をするのであれば read ptr から先頭のフレームを peek して、処理が終わってから read ptr を移動させればいいはずなので peek ptr は必要ありません。つまり、peek ptr があるということは、複数フレームを並行に処理する可能性があるということがわかります。

これを元に、コンシューマ側での読み込み処理を考えてみます。

Peek 処理

peek ptr が指す先頭のヘッダの読み込み可フラグが有効になっているかを確認する
もし、読み込み可でない場合はデータ完了通知用のセマフォを sem_wait してステップ 1 に戻る。ただし、sem_wait が unblock された場合でも先頭ではなくその先のフレームの読み込みが可能になっただけの場合があることに注意。いずれにせよその場合は sem_wait しなおすことになる。
先頭のフレームが読み込み可であった場合は、peek ptr をフレームを含む領域のサイズ分増やしてからデータのポインタを呼び出し元に返す。

この読み込み処理はシングルコンシューマなのでシングルスレッドで行われますが、返されたそれぞれのデータの読み込み自体は別スレッドから並列に行えます。

Pop 処理

フレームの処理が終わった後の解放処理は以下のようになります。read ptr の先頭ではなく途中のフレームが先に処理済になった場合に対応するために、ヘッダに処理済フラグを用意します。

処理済フレームデータのポインタからヘッダの位置を逆算する
ヘッダの処理済フラグを立てる
もし、処理済フレームが read ptr の先頭でなかった場合は (read ptr != ヘッダの先頭) ここで解放処理は終了。
もし、処理済フレームが read ptr の先頭であった場合は、フレームデータに含まれる全てのブロックの先頭のヘッダの読み込み可フラグに相当する位置をゼロクリアする
read ptr をフレームを含む領域のサイズ分増やして、ブロック確保用のセマフォを解放されるブロック数 sem_post する
step 3/4 に戻って次のフレームがすでに処理済であった場合は引き続き解放処理をする

死活監視

もしプロデューサが処理の途中でクラッシュするなどして止まった場合、リングバッファの処理途中のフレーム以降全てが読み込みできずにシステムが止まってしまいます。

もしかしたら Recall.ai ではここまでやってないかもしれないですが、システムの壊滅的な停止を防ぐためにも死活監視の仕組みをリングバッファに入れる必要があります。

プロデューサの死の判定

プロデューサプロセスの死は Unix ドメインソケットのコネクションを事前に貼っておくことで検知することができます。もしプロデューサが死ぬと自動的にコネクションが切断状態になり、ソケットを epoll などで読み込み待ちしているコンシューマに通知されます。プロデューサが終了メッセージをソケットに書き込むことなくコネクションが切断された場合はコンシューマは異常状態からの復帰モードに入ることができます。コンシューマは、異常死を検知した時点での write ptr の値を atomic に取得して、peek ptr がその値に到達するまで読み切るまで異常状態を続けます。

コピー途中の死からの復帰

プロデューサがデータをコピーしている途中で死んだ場合、ヘッダにフレームの大きさが書いてあるのでそのフレームをコンシューマは捨てることができます。ただし、そのフレームを書いているプロデューサが突然死したプロデューサかどうかを判定するために、ヘッダにプロデューサの ID を書き込むことにします。

また、プロデューサの ID は前述のコネクションを接続するときにコンシューマから割り振ってプロデューサに伝えることで一意性が保たれます。

ヘッダ更新前の死からの復帰

プロデューサが write ptr を更新した直後のヘッダを更新する前に死んでしまった場合、そのフレームの大きさをコンシューマは知ることができません。それ以降のフレームは正常なフレームも含めて残念ながら捨てることになります。コンシューマはヘッダのサイズが長時間更新されないフレームを検出した時、それ以降のフレームを諦めて peek ptr を異常状態に入った時の write ptr の値に書き換えて処理を再開します。フレームを捨てるのは peek 済のフレームが全て処理済になった状態 (read ptr == peek ptr) で行い、peek ptr を動かすブロック数分、ブロック確保用のセマフォを sem_post します。

もし、死んだプロデューサ以外のプロデューサからのフレームを捨てることが受け入れられない場合はブロックごとの状態を管理することになりますが、データがブロックの境界で連続しなくなってしまうので設計を 1 から見直すことになると思います。

コンシューマの死

コンシューマが死んで復帰した場合も、プロデューサ側はコンシューマの死を Unix ドメインソケットによって検出できるのでコンシューマとのコネクションが貼り直されるまでリングバッファの書き込みを中断することで対応できます。

コンシューマが復帰した後はプロデューサの ID が全て新しくなるため、コンシューマはデータの書き込みを再開させる前にリングバッファ内にあるデータを全て処理します。その後、新しいプロデューサの ID をソケット経由で送信してプロデューサにデータの書き込みを再開させます。

不明な点

ブログの元記事からはどうするのかが不明な点はこんな感じだと思います。

どうやって共有メモリを Chromium の JS 環境に繋ぎ込んでいるのか
- 元記事では "our Chromium" と言っているので、Chromium の C++ のコードに手を入れて JS から渡されたビデオフレームをリングバッファに書き込んでいるのだと思われます。
共有メモリのデータがライブラリ外から壊されないのか
- 共有メモリ自体を JS 環境に見えないようにすれば Third-party コードを実行する JS から共有メモリを正しく使うことを保証できます。
ひとつのプロデューサが遅すぎる場合全体を律速してしまう
- 全てのプロデューサが同じデバイス上での同質な Chromium プロセスなので速度の違いは想定しなくてもいい気もします。

まとめ

こう考えてみると、考察するのに必要な情報はあのブログ記事にまとまっていたので Overview Design としてはかなりよく書かれた記事だったのだなと思いました。

ライブラリを作る時はすべての場合に対応しないといけないので設計って大変です。今回は死活監視によってロバストなリングバッファに仕上がりました。

皆さんも、ロバストとパフォーマンスを両立したプロダクトを作っていきましょう。

2023-12-07

Rust で SQLite を再実装した 2023

Database Rust 作ったもの

気合いで実装、どうもかわしんです。

この記事は Rust Advent Calendar 2023 の6日目兼情報検索・検索技術 Advent Calendar 2023 の 6 日目です。

Rust で SQLite をフルスクラッチで実装しています。

github.com

なぜ SQLite を Rust で再実装しようと思ったのかについては以前の記事で紹介しています。一言で言えば、誰も Rust で SQLite を書いている人がいなかったからやってみたのですが、そもそも SQLite が強すぎるということが再実装しているうちにわかってきて絶望しています。

kawasin73.hatenablog.com

4 ヶ月前にこの記事を書いたときは簡単な SELECT 文しか実行できなかったのですが、現時点では SELECT, INSERT, DELETE 文をサポートし、expression についても比較などの一部をサポートしています。こんな感じで CLI から利用することもできますし、ライブラリとして組み込むこともできます。

$ git clone https://github.com/kawasin73/prsqlite.git

$ cd ./prsqlite

$ sqlite3 tmp/sqlite.db
sqlite> CREATE TABLE example(col1, col2 integer);
sqlite> CREATE INDEX i_example ON example(col2);
sqlite> INSERT INTO example(col1, col2) values(null, 1);
sqlite> INSERT INTO example(col1, col2) values(10, 2);
sqlite> INSERT INTO example(col1, col2) values(1.1, 3);
sqlite> INSERT INTO example(col1, col2) values('Hello prsqlite!', 4);
sqlite> INSERT INTO example(col1, col2) values(X'707273716c697465', 5);
sqlite> .quit

$ cargo build && ./target/debug/prsqlite tmp/sqlite.db
prsqlite> SELECT * FROM sqlite_schema;
table|example|example|2|CREATE TABLE example(col1, col2 integer)
index|i_example|example|3|CREATE INDEX i_example ON example(col2)
prsqlite> SELECT * FROM example;
|1
10|2
1.1|3
Hello prsqlite!|4
prsqlite|5
prsqlite> SELECT col1 FROM example WHERE col2 == 4;
Hello prsqlite!
prsqlite> INSERT INTO example(col1, col2) VALUES (123, 6);
prsqlite> INSERT INTO example(rowid, col2) VALUES (20, 20);
prsqlite> INSERT INTO example(rowid, col2) VALUES (6, 6);
the rowid already exists
prsqlite> INSERT INTO example(rowid, col2) VALUES (7, 7);
prsqlite> INSERT INTO example(col1, col2) VALUES ('hello', 21);
prsqlite> SELECT rowid, * FROM example WHERE col2 >= 6;
6|123|6
7||7
20||20
21|hello|21
prsqlite> DELETE FROM example WHERE col2 < 20;
prsqlite> SELECT * FROM example;
|20
hello|21
prsqlite> DELETE FROM example;
prsqlite> SELECT * FROM example;
prsqlite> .quit

今回は SQLite を再実装している上で頑張ったところを紹介していきたいと思います。

相互互換性

prsqlite は SQLite で生成したデータベースファイルで動くのはもちろん、prsqlite で生成したデータベースファイルでも SQLite が正しく動くようにすることを目指しています。そのため、SQLite のファイルフォーマットなどのドキュメントや、SQLite のソースコードを読んでどのような挙動にするべきかを確認しながら実装しています。

Zero dependency

依存ライブラリを増やせば増やすほど自分のプロダクトは不安定になります。そのため、prsqlite では Rust の標準ライブラリ以外は使わないことにしています。逆にRust の標準ライブラリはそれなりに充実していて、OS ごとのファイルシステムの抽象化がされているので便利です。現在は開発のしやすさから例外的に anyhow というエラーの便利ライブラリを使っていますが、そのうち anyhow も独自のエラー型で置き換える予定です。

本家の SQLite ではもっと過激で、依存しているのは memcmp() などの 10 個の関数のみです。それを自慢するドキュメントがあります。printf() すら自作しています。残念ながら SQLite 独自のフォーマット記号があるので再実装の難易度が跳ね上がります。浮動小数点数の文字列変換を試みましたが一旦諦める羽目になりました。

外部ライブラリを使わないので、全て手書きしています。SQL のパーサー (token.rs, parser.rs) やファイルフォーマットのシリアライザ・デシリアライザ (btree.rs, cursor.rs, record.rs) 、ページ管理 (pager.rs) 、簡単なクエリプランニング (query.rs) なども全部自作のものです。

No unsafe

Rust の大きな特徴の一つにメモリ安全があり、それゆえに Rust で書かれたコードはセキュリティ的な評価が高くなります。(The Rule Of 2)

Rust には unsafe という機能があり、そのブロックの中ではメモリ安全の検証をスキップすることで Rust の borrow checker には違反するが実際にはメモリを破壊しないコードを書くことができます。それによって複雑すぎるコードや無駄なチェックのない効率的なコードを書くことができます。(例えば copy_nonoverlapping () vs <[u8]>::copy_from_slice()) しかし、unsafe を使うことでプログラムの一部にコンパイラによってメモリ安全性が保証されていない部分ができてしまうので、unsafe のないライブラリには一定のセキュリティ的な価値があります。

prsqlite は今の所 unsafe を使わずに全てのコードが書かれています。全てのコードは Rust の borrow checker のルールに従って書かれているということです。これがなかなかしんどくて、本当は正しいコードも現行の Rust の borrow checker では弾かれてしまうこと (特にループが絡むと捕捉しきれないみたいです) があり、それを回避するために工夫する必要がありました。例えば query::Query::next()) はループの中から直接値を返すことができるはずなのですが、borrow checker はなぜかそれをエラー判定するので、一旦ループから抜けて値を返すようにしています。実際に次世代の Polonius という borrow checker で試してみるとループ内から値を返してもエラー判定はされません。

Pager はハッシュマップに保存されていますが、読み込みと書き込みの両方に対応するために RefCell<HashMap<PageId, Rc<RefCell>>> というちょっと複雑なデータ構造になっています。また、参照の作成のたびに内部のカウンターのチェックを行うので少しオーバーヘッドがあります。このオーバーヘッドはメモリ安全を完璧に保証するためには仕方ないのですが、なるべく参照の作成の回数を少なくするようにして対処しています。

テスト

あとで手戻りをするのが嫌なので、テストはたくさん書いてます。コンポーネントごとのユニットテストもですし、全体の統合テストも書いています。体感 3 分の 2 はテストな気がします。

将来的には本家の SQLite のテストケースも流用できたらいいなと思っていますが、まだサポートしている SQL 文の種類が少ないのでできていません。

なるべく速い実装

パフォーマンス改善は後回しにしても、パフォーマンス改善するときはなかなか来ないですし、実際に改善しようとしてもどこをすればいいかを探すのは大変です。そのため、実装の複雑さが増さない限り最初から最適なコードを書くことが大切です。

僕は速い実装にするためにこの記事でも紹介したように以下の 2 つのことを気をつけています。

まずは、無駄なことをしないことが大切です。メモリコピーの量やメモリアロケーションの回数もなるべく少なくするべきです。

次に、条件分岐を避けることです。条件分岐は分岐予測が外れたときのペナルティが大きいのでなるべく条件分岐をせずにコードが書けると良いです。僕はなるべく if 文を使わずに書くことができないかを意識しています。SQLite では、ページのヘッダサイズの計算を以下のように行なっていますが、

first = hdr + ((flags&PTF_LEAF)==0 ? 12 : 8);

prsqlite では以下のようにして条件分岐をなくしています。

    /// The btree page header size.
    ///
    /// * Returns 8 if this is a leaf page.
    /// * Returns 12 if this is an interior page.
    ///
    /// This does not invoke conditional branch.
    pub fn header_size(&self) -> u8 {
        // 0(leaf) or 8(interior)
        let is_interior = (!*self.pagetype()) & LEAF_FLAG;
        // 0(leaf) or 4(interior)
        let additional_size = is_interior >> 1;
        8 + additional_size
    }

Btree の実装

SQLite の実装の中で一番めんどくさかったのは、btree の実装です。特に、データの挿入と削除です。ページの分割や削除が異様にめんどくさいです。

SQLite のおもしろ仕様 (2) : ファイルフォーマットでも紹介したように、SQLite ではインデックスは B 木を、テーブルは B+ 木を使っています。そのため、微妙に実装が違う部分と共通する部分があります。

また全てのデータは可変長です。そのため、ページ内に幾つのセルが保存されるかは動的ですし、セルのサイズも動的です。ページを分割した時に中間のキーが何番目のセルになるのかは詰め直さないとわからないですし、中間のキーが親のページに収まるかも詰めてみないとわからないです。

最悪なのは、データの挿入でページを分割するときに 3 つのページに分かれてしまうことすらあります。

可変長のセルが入る B tree node に新しい値の追加した時の分割で 3 つのノードに分割される場合があるのに対応した。例えば、サイズ 6 のキャパシティのページに 3 と3 のセルが入っている状態で間にサイズ 4 のセルを追加する場合。
普通に想定外で発狂しそうになった。https://t.co/4ACcxsnkMx
— かわしん@ソフトウェアエンジニア (@kawasin73) 2023年11月12日

最後に

だんだん実装が大変になってきて飽きてきましたが、時々頑張ります。本家の SQLite のテストケースを流せるようになるのは大きなマイルストーンだと思うのでそこまで頑張りたいです。

欲しかった機能

Karpathy の llm-wiki

設計

採用しなかった案

作り方

感想

正しい境界を引くプログラムの書き方

境界の引き方の具体例

まとめ

XBRL とは

なぜ XBRL をパースするのか

なぜ自前の XBRL パーサーを書くのか

どうやって速くするのか

共通したスキーマファイルのキャッシュ

必要なデータのみの読み込み

ソフトウェアの品質へのこだわり

Zero Dependency

メモリ効率の最適化

必要なことを必要なだけ

テスト

まとめ

作った解析ページ

ネットネットバリュー株ランキングページ

オニールの成長株発掘ランキングページ

オニールのマーケットの天井検出ページ

ソフトウェアエンジニアとしての思想

自動化

メンテコストの最小化

Github Actions で日次処理

S3 に生データと SQLite データベースファイルを保存

Github Pages で static HTML ファイルで解析ページを提供

Github issue を作って通知

まとめ

結果

Linux (AWS EC2)

リングバッファ

Memory backed file

macOS (手元の Macbook Pro 2018)

リングバッファ

Memory backed file

おまけ

リングバッファの実装

Memory backed file の実装

データフォーマットとデータ構造

リングバッファにヘッダとデータを詰める

メタデータ専用のリングバッファ

リングバッファを固定長のブロック で管理する。

プロデューサの処理

コンシューマの処理

Peek 処理

Pop 処理

死活監視

プロデューサの死の判定

コピー途中の死からの復帰

ヘッダ更新前の死からの復帰

コンシューマの死

不明な点

まとめ

相互互換性

Zero dependency

No unsafe

テスト

なるべく速い実装

Btree の実装

最後に

リングバッファを固定長のブロックで管理する。