テンプレート型OCRの限界とLLMの違い
なぜフォーマットが違う帳票にも対応できるのか
従来のOCRは「この座標にこの項目がある」というテンプレートを帳票の種類ごとに作成して読み取ります。同じ取引先からいつも同じフォーマットで届く帳票なら機能しますが、取引先ごとにフォーマットが違う、同じ取引先でも年式や機種で表記が変わる、といった現実の業務では対応しきれません。新しいフォーマットが来るたびにテンプレートを追加する運用コストも積み上がります。
LLMを組み合わせたアプローチでは、OCRで抽出したテキストをLLMが「読んで理解」します。たとえば伝票に「現金売上」と書かれていても「キャッシュ」と書かれていても、LLMは文脈から同じ項目だと判断できます。テンプレートを作る必要がないため、新しいフォーマットが来ても追加設定なしで処理できます。
ただし万能ではありません。図面やグラフの構造的な読み取り、極端に画質の悪い原本、手書きの崩し字などは精度が下がります。PoCの段階で実際の帳票サンプルを使って「どこまで読めるか」を検証し、苦手な箇所は人間確認で補う設計を標準としています。