概要
通常、PDFはデータやレイアウトを構造を持った情報として保存しておらず、元の文書をPDF化した時点で文書構造データは消去され、見た目を整えるための情報のみに再構成されます。
また、PDF化するツール次第で実装が違うため、使用したツールによって生成されるPDFデータの内容が異なる可能性があります。
一方で、BizRobo!はPDFBoxというjavaのライブラリを利用し「PDFから抽出」ステップを実行しておりますので、元の文書が同じでもPDF化したツール次第でPDFデータをうまく読み込めない場合があります。
具体的には以下問題が発生する場合がある事を確認しております。
・日本語が文字化けする
・セルの中身が意図せず分割され表が崩れる
・上下左右のセルと意図せず結合され表が崩れる
対処方法
BizRobo!でPDFデータをうまく読み込めない場合、お客様判断での対処となりますが、以下の方法が考えられますので対応をご検討下さい。
1.BizRobo!以外のPDF変換ツールをコマンド実行し、PDFデータをテキスト形式に変換する
PDFBox以外のPDF変換ライブラリやツールをご用意いただき、「コマンド ライン実行(Execute Command Line)」ステップからそのツールをコマンド実行する事で、PDF形式のデータをテキスト形式に変換する方法です。
この方法では、変換するPDFデータと使用するツールの組み合わせ次第で意図したデータ抽出が可能になります。
※外部サイトで「PDF 変換 テキスト」と検索いただくと、様々な情報をご確認いただけます。
2.BizRobo!以外のPDF変換ツールをコマンド実行し、PDFデータをExcel形式に変換する
上記1.と同様にPDF変換ライブラリやツールをご用意いただき、「コマンド ライン実行(Execute Command Line)」ステップからそのツールをコマンド実行する事でPDF形式のデータをExcel形式に変換する方法です。
Excelに変換するツールは有料の物が多いですが、表形式のデータを抽出する場合はExcel形式の方が正確にデータ抽出ができるようです。
注意事項
・複数のお客様事例を参考に本ナレッジを作成しておりますので、記載されていない問題が発生する可能性も考えられます。
・対処方法に挙げているPDF変換ツールに関して、ツール名などの具体的な情報は確認できておりません。
・対処はお客様判断で実施いただいておりますので、弊社では詳細な情報を把握しておりません。
参考
Apache PDFBox® - A Java PDF Library
区分 | 確認Ver |
トラブルシュート | - |