概要
ChromiumブラウザでWEBページ内のテキストを抽出する際、元のデータが改行されていないと改行タグが含まれていたとしても一行で抽出されます。
下記は、WEBページのHTMLタグ構成で、”改行タグ(BR)”と”改行タグ(BR)”の間が改行されていない場合に、抽出したテキストをDSに渡した際に、改行が認識されなかった例です。
(画像1.改行有無の検証について)
前提
<使用する変数例>
○Chromium(DAステップ)
・text(Text型変数):DAステップ内でツリーをXML文字列として格納します。
○DS
・DAtoDSLongText(LongText型変数):DAから返却されたXML文字列を格納します。
・変換後longText(LongText型変数) :「変数の変換(Convert Variables)」ステップで変換された結果を格納します。
作業手順
1.対象範囲のツリー情報をXML文字列として変数へ抽出し、DSに返却します。
(画像2:XML文字列としてツリーを次へ抽出)
2.「変数の変換(Convert Variables)」ステップで、[パターンを置き換え(Replace Pattern)]コンバータを使用して、改行タグ(BR)を改行コードに置き換え、接頭と末尾の不要なタグを除去します。
アクションタブ内の[+]をクリックし、【設定:変換(Conversion)】ダイアログで、以下のとおり設定します。
①『開始(From)』:DAステップから返却されたXML文字列を格納したLongText型変数を選択します。
※本例では、変数”DAtoDSLongText”を使用
②『終了(To)』 :変換後の結果を入れるLongText型変数を選択します。
※本例では、変数”変換後longText”を使用
③[+]ボタンをクリックします。
④[テキストフォーマット(Text Formatting)]-[パターンを置き換え(Replace Pattern)]を選択します。
(画像3.変換_パターンを置き換え)
⑤改行タグ(BR)を、改行コード"\r\n"に置き換えるため、【設定:パターンを置き換え(Replace Pattern)】ダイアログで以下の通り設定します。
パターン :<BR.*?>
エクスプレッションを置き換え:"\r\n"
(画像4:パターンを置き換え_改行コード)
⑥改行タグ(BR)を改行コードに置換えたテキストに含まれる、接頭と末尾の不要なタグを除去するため、[パターンを置き換え(Replace Pattern)]コンバータを追加し、以下の通り設定します。
パターン :<.*>(.*)<.*>
エクスプレッションを置き換え:$1
(画像5:パターンを置き換え_接頭と末尾の不要タグ除去)
参考
区分 | 確認Ver |
手順 | 10.4.0.3、10.4.0.4、10.7.0.4、11.1.0.4 |