「PDFから抽出」ステップでPDFをうまく読込めない時の対処

フォローする

概要

通常、PDFはデータやレイアウトを構造を持った情報として保存しておらず、元の文書をPDF化した時点で文書構造データは消去され、見た目を整えるための情報のみに再構成されます。

また、PDF化するツール次第で実装が違うため、使用したツールによって生成されるPDFデータの内容が異なる可能性があります。

一方で、BizRobo!はPDFBoxというjavaのライブラリを利用し「PDFから抽出」ステップを実行しておりますので、元の文書が同じでもPDF化したツール次第でPDFデータをうまく読み込めない場合があります。

具体的には以下問題が発生する場合がある事を確認しております。

・日本語が文字化けする 
・セルの中身が意図せず分割され表が崩れる 
・上下左右のセルと意図せず結合され表が崩れる

 

対処方法

BizRobo!でPDFデータをうまく読み込めない場合、お客様判断での対処となりますが、以下の方法が考えられますので対応をご検討下さい。

1.BizRobo!以外のPDF変換ツールをコマンド実行し、PDFデータをテキスト形式に変換する

PDFBox以外のPDF変換ライブラリやツールをご用意いただき、「コマンド ライン実行(Execute Command Line)」ステップからそのツールをコマンド実行する事で、PDF形式のデータをテキスト形式に変換する方法です。
この方法では、変換するPDFデータと使用するツールの組み合わせ次第で意図したデータ抽出が可能になります。
※外部サイトで「PDF 変換 テキスト」と検索いただくと、様々な情報をご確認いただけます。

 

2.BizRobo!以外のPDF変換ツールをコマンド実行し、PDFデータをExcel形式に変換する

上記1.と同様にPDF変換ライブラリやツールをご用意いただき、「コマンド ライン実行(Execute Command Line)」ステップからそのツールをコマンド実行する事でPDF形式のデータをExcel形式に変換する方法です。
Excelに変換するツールは有料の物が多いですが、表形式のデータを抽出する場合はExcel形式の方が正確にデータ抽出ができるようです。

 

注意事項

・複数のお客様事例を参考に本ナレッジを作成しておりますので、記載されていない問題が発生する可能性も考えられます。 
・対処方法に挙げているPDF変換ツールに関して、ツール名などの具体的な情報は確認できておりません。 
・対処はお客様判断で実施いただいておりますので、弊社では詳細な情報を把握しておりません。

 

参考

Apache PDFBox® - A Java PDF Library

 

区分 確認Ver
トラブルシュート -