「PDFから抽出(Extract From PDF)」ステップ

フォローする

 

【ステップの効果】

  • 「PDFから抽出(Extract From PDF)」ステップを使用することで、PDF ドキュメントから、テキストおよび画像を抽出できます。

 

【使用方法】

  1. 「アクションステップ」を作成します。
  2. 「アクションの選択」>「抽出」>「PDFから抽出」を選択します。 


  3. 「PDFから抽出(Extract From PDF)」ステップで、PDFファイルを格納するPDFまたはBinary型の変数から、テキストおよび画像等を抽出します。
    mceclip0.png

 

【設定項目】



① PDF 変数:
  PDF ドキュメントをバイナリ データとして含むバイナリ変数を指定します。

② 画像を含める:
  埋め込まれた画像抽出するかを指定します。PDF ドキュメントからすべての画像やグラフィックを抽出できるとはかぎりません。元のドキュメントへの埋め込み方法によって異なります。

      • 「画像を含める」にチェックを入れる場合:
      • 「画像を含める」にチェックを入れない場合:


③ フォームXobjectsを含める:
  このオプションで、PDF からフォームXObjects を抽出できます。フォームXObjects は、PDF ファイル内のオブジェクトをグループ化します。オブジェクトには、テキスト、画像、ベクター要素などが含まれることがあります。フォームXObjects は通常、ドキュメント内で複数回参照されるオブジェクトを保存するために使用します。

④ 位置を含める:
  各テキストの位置を抽出するかを指定します。これらの各位置が、ドキュメントの構造を引き出すために有効な場合があります。

      •  「位置を含める」にチェックを入れる場合:
      •  「位置を含める」にチェックを入れない場合:

⑤ フォーマットを含める:
  テキストのフォーマット (フォントの名前、サイズなど) を抽出するかを指定します。各位置と同様に、フォーマットはドキュメントの構造を引き出すために有効な場合があります。

      • 「フォーマットを含める」にチェックを入れる場合:
      • 「フォーマットを含める」にチェックを入れない場合:


⑥ テキストをマージ:
  デフォルトで、PDF から HTML を生成したコンバータは、同一ラインにあるテキストを 1 つの HTML 要素にマージします。PDF ドキュメント内で異なるテキストとして表示される場合も同様です。この機能は通常は望ましいものですが、場合によっては別の作用を及ぼします。つまり、元は離れた場所にあったテキストがマージされてすぐ隣に表示されることがあります。この機能をオフしておくことが望ましい典型的な例は、ドキュメントに複数の列が含まれる場合です。この機能をオフにすると、列の構造を維持しようとします。

      • 「テキストをマージ」にチェックを入れる場合:
      • 「テキストをマージ」にチェックを入れない場合:

 

【注意点】

  • 事前にPDF型/Binary型の変数を準備して、「ファイル読込(Load File)」ステップで、PDFファイルを上記変数に読み込む必要があります。
    mceclip1.png

 

【関連情報】


※この記事は2020年10月22日にver10.4.0.2で作成したものです。
※本記事は初心者の方に分かりやすくご説明することを目的としております。
そのため、意図的に厳密な表現を避けている場合がございますのでご了承ください。