インド法人でのAIへの取組み・その２「機械学習技術を活用した、画像PDFからのデータ抽出」

2023年4月14日2023年9月20日

　当社のインド法人 System Consultant Information India(P) Ltd.（略称SCII）では、最新技術にも取り組んでいます。その中から今回は、画像PDFからデータを読み取る機械学習の実装についてご紹介いたします。

請求書はPDFが主流

　コロナ禍以来、書面の受け渡しが大幅に減少し、PDFでの送受信が増えています。PDFの場合、テキストデータでの送受信とは異なり、そのまま自社システムに取り込むことができません。

　PDFを見ながら、自社のシステムに手入力している。そんな運用が、皆さまのオフィスでも多いのではないでしょうか。

OCRは機械学習で

　”手入力にかかる人的時間的コストを削減し、同時にヒューマンエラーも回避したい”
　そんな思いからSCIIでは、機械学習による請求書の画像PDFのOCR読み取り機能を構築し、さらに学習を積ませることで、請求書PDFから高い精度での自動データ抽出を実現し、かつ様々な形式の請求書でも、データの読み取りを可能としています。

　今回構築した機能は、機械学習による物体検出とOCRでのデータ抽出を組み合わせて、画像PDFとして送られてきた請求書をデータに変換する、というものです。

機械学習の流れ

　今回の機械学習は、「データ準備→前処理→モデルの学習→モデルの評価」という順序で行っています。

データ準備

　SCIIで受領した請求書PDFを収集します。今回は「airtel」社からSCIIが受領した回線使用料金の請求書PDFを基本として、その他の請求書も使用しました。月ごとの請求額とその明細がPDFに記載されています。

前処理

　教師データ用の請求書にアノテーションを行います。今回の「airtel」社の請求書PDFでは、請求元会社名、月額請求金額、月次明細の位置をポイントしました。

モデルの学習

　Yolo v5を使って「airtel」社の請求書PDFの学習を行います。請求書PDFを訓練データとテストデータに分ける、ホールド・アウト法を採用しました。
　他にもタイプが異なる様々な請求書を集め、それらにも、最適なアノテーションを行って教師あり学習として使用しています。

モデルの評価

　様々な形式の請求書を訓練データ、テストデータとして学習した結果、請求元会社名、月額請求金額および明細テーブル部分をクロップすることはできており、請求元会社名、月額請求金額は内容の把握も高い確率で検出、抽出が可能でした。

　しかし、明細部分はテーブル状になっており、列は罫線で区切られていないため、学習効果が上がらず、検出が困難であることが判明しました。

　そこで、Microsoft社の「Table Transformer」を使用して明細の請求部分を抽出する学習を行いました。「Table Transformer」はテーブルを学習済なライブラリで、今回の明細把握には最適であると思い採用しました。これにより学習の精度は上がったものの、それでもまだ目標とする精度には達していないのが現状です。

　さらに「Table Transformer」を今回対象とした請求書を活用して学習させられないか、SCIIでR&Dを進めております。