複数ページにまたがるWebサイトで、それぞれのページをクローリングする方法

フォローする

複数ページにまたがるWebサイトで、それぞれのページをクローリングする場合の方法として、「繰り返し(Repeat)」ステップと「次へ(Next)」ステップを使用してループを設定する方法があります。

このループは「タグ繰り返し(For Each Tag)」ステップなどの他のループステップとは違い、「繰り返し(Repeat)」ステップと「次へ(Next)」ステップを含むエンドストップまでの間をループし、分岐やステップの「エラー処理(Error Handling)」により「次へ(Next)」ステップへ到達しない場合のみ、ループを終了させます。

 また、「繰り返し(Repeat)」ステップ以外のループは、ループステップに処理が戻った際に画面情報がリセットされますが、「繰り返し(Repeat)」ステップと「次へ(Next)」ステップを使用すると、「次へ(Next)」ステップ時点の画面情報が次のイテレーションに継続されるため、各イテレーションで異なるページを扱うことができます。

mceclip2.png

※複数ページを扱う際は、「次へ(Next)」ステップの前にクリックステップなどで、次に処理をするページを表示させる必要があります。

_____.png

 ループを終了させるには「次へ(Next)」ステップへ処理を到達させないようにする必要があります。

<例>代表的なループ終了方法
「次へ(Next)」ステップの前で「次へ」リンクをクリックする処理を設定し、ページ内に「次へ」リンクが表示されない場合は「エラー処理(Error Handling)」で「ループ終了」を設定する。

なお、「繰り返し(Repeat)」ステップの後に分岐を追加し、上のブランチでページ内の処理を行い、下のブランチで次のページを読込み、「次へ(Next)」ステップを処理するといった構成にすることもできます。

mceclip4.png

 

注意事項

  • 「繰り返し(Repeat)」ステップと「次へ(Next)」ステップでのループ中では、ステップの「エラー処理(Error Handling)」を「次のイテレーション」に設定することはできません。
  • 「繰り返し(Repeat)」ステップのイテレーション内では、「次へ(Next)」ステップを含むイテレーションのエンドステップ到達後に「繰り返し(Repeat)」ステップに戻ります。
    ただし、「次へ(Next)」ステップからエンドステップまでの処理は、次のイテレーションに引き継がれないため、基本的には「次へ(Next)」ステップはイテレーションの最後に設置頂くことを推奨します。
     (※グローバル変数に格納した値は保持されます。)
    参考記事 「次へ(Next)」ステップ