PDFからのデータ抽出における汎用性

フォローする

PDFからのデータ抽出は、そもそもPDFの仕様・性質により一定の品質が保証できないのが現状です。
その上で、お客様からはトライアルの時点でよく以下の様な質問を頂きますので、一つの回答例としてこのページでまとめてみます。

質問

Extract From PDF(PDFから抽出) を使ってPDFをDesign Studioに読み込んだ際に、PDFによっては一部日本語が文字化けしたり、表の中身が崩れたり(セルの中身が意図せず分割されていたり、逆に上下左右のセルと結合されていたり)しますが、どの様に対応すればいいのでしょうか?

回答例

PDFの読み込みについては、他のお客さまからも以前より同様のお問い合わせいただいており、下記の様に回答させていただいております。

・先ず実施の手順についてですが、正しいStepロボットを組み立てて頂いております。
・その上で、本件の様な現象が発生することはございます。
原因は下記。

・PDFの仕様の問題:PDFはデータやレイアウトを構造を持った情報として保存しておりません。
元の文書をPDF化した時点で文書構造データは消去され、見た目を整えるための情報のみに再構成されます。
(回避策なし)
・PDF化ツールの問題:どのツールによりPDF化したかにより、生成されたPDFファイルの中身が異なる可能性があります。
PDFフォーマットレベルでは仕様が公開されていたとして、実装レベルにおいてはツール個々の変換を行いますので、BizRobo!を通した際に一律同様な結果を得られるわけではありません。

・BizRobo!のPDF抽出の仕組みについてですが、PDFBoxというjavaのライブラリを利用しています。別のいい方をすれば、PDFBoxで処理できないPDFについてはBizRobo!でも同様に処理できません。
http://pdfbox.apache.org/

・本現象に対するアプローチ方法については各社様以下を検討頂いております。

1.PDFBox以外のPDF変換ライブラリ、ツールを用いて、BizRobo!のExecute Command Line(コマンド ライン実行)アクションから外部プログラムとして呼び出し、PDF→Txtの変換を行う。
(変換するPDFと使用するツールの組み合わせによっては想定通りの抽出が可能)

キーワード “PDF 変換 テキスト” でGoogle検索していただくと、様々な情報を取得することができます。

2.PDFBox以外のPDF変換ライブラリ、ツールを用いて、BizRobo!のExecute Command Line(コマンド ライン実行)アクションから外部プログラムとして呼び出し、PDF→Excelの変換を行う。

こちらも、上記1.と同様で様々なツールが存在すると思いますが、Text変換と異なり、Excel変換のツールは有料のものが多い様ですが、表組み情報を抽出するのであれば、こちらの方が適用率は高い様です。

具体的にこのツールがいいなどの情報は残念ながら提供させていただいておりません。各社様に直接調査・検討頂いているため弊社側で情報を持っていないというのが実際です。

0人中0人がこの記事が役に立ったと言っています

コメント

0件のコメント

ログインしてコメントを残してください。