【ステップの効果】
- 画面から取得したいテキスト(文字列や数値、HTML構造等)を変数に格納します。
【使用方法】
-
ページ上の抽出したい文字を右クリックし、「抽出」>「テキスト」>「抽出用変数」を選択します。
※今回は例として、「テキスト」での抽出方法となります。
また、格納先として変数「抽出用変数」を準備しています。
- WEBページの文字が変数に格納されました。
【設定項目】
①抽出元:抽出する場所を設定します。
「見つかったタグ」:検知タグの全体を抽出します。
「タグの範囲」:開始タグと完了タグを設定し、タグ間を抽出します。
②次を抽出:抽出する文字を指定します。
「テキストのみ」:テキストのみ抽出します。
「構造化テキスト」:テキストのみ抽出し、ブラウザに表示される形式と同様の形式でテキストを
構造化します。見出しの前後にテキストを挿入できます。
A「指定されたテーブルと画像を含める」:テキストの右端または左端に位置合わせされた
表および画像を出力テキストに含めます。
B「URLを含める」:リンクタグ内のURLを出力テキストに含めます。
C「画像の代替テキストを含める」:画像のテキスト表現を出力テキストに含めます。
D「フォームフィールドを含める」:フォーム フィールドのテキスト表現を出力テキストに
含めます。
E「見出しの前にこれを挿入」:見出しの場所を推測し、見出しの前にテキストを挿入します。
F「見出しの後にこれを挿入」:見出しの場所を推測し、見出しの後にテキストを挿入します。
「高度な構造化テキスト」:テキストのみ抽出し、ブラウザに表示される形式と同様の形式で
テキストを構造化します。タグの変換ができます。
A「指定されたテーブルと画像を含める」:テキストの右端または左端に位置合わせされた
表および画像を出力テキストに含めます。
B「URLを含める」:リンクタグ内のURLを出力テキストに含めます。
C「画像の代替テキストを含める」:画像のテキスト表現を出力テキストに含めます。
D「フォームフィールドを含める」:フォーム フィールドのテキスト表現を出力テキストに
含めます。
E「タグ変換」:タグを任意のテキストに変換します。記載方法 Tag=Text
「HTML」:HTMLの全体を抽出します。
A「HTMLの書式設定」:HTMLの書式設定内容を指定します。
B「URLをエンコード」:属性値のURLがHTMLエンコードされるべきであることを指定します。
異なるブラウザ間で一貫して動作する標準準拠のHTMLを生成する
必要があるため、推奨されます。
C「相対URLを抽出」:すべての URL を相対的に抽出することを指定します。
したがって、存在する場合は、URL の基底部分が削除されます。
「XML」:XMLの全体を抽出します。
A「XML宣言を含める」:XML宣言 (例えば、<?xml version="1.0" encoding="UTF-8"?>)を
抽出したXMLに含めます。
③コンバータ:抽出した文字を加工します。
④前後のスペースを除去:前後のスペースを除去するかどうか選択します。
⑤変数:抽出した文字を格納する変数を指定します。
【注意点】
- Extract Date(日付抽出)ステップで”Direction in time”を使用して未来日付を取得する際、MM/ddフォーマットでは上手くいくが、MM/dd/yyでは上手くいかない。
- 「日付抽出(Extract date)」で誤った変換が行われる
- Excelファイルより、「HTMLとして抽出(Extract As HTML)」ステップで出力した書式設定が一部反映されない
【関連情報】
※この記事は2020年12月25日にver10.4.0.2で作成したものです。
※本記事は初心者の方に分かりやすくご説明することを目的としております。
そのため、意図的に厳密な表現を避けている場合がございますのでご了承ください。