ロボットが読み込むURLを制限する方法

フォローする

クローリングロボットを作成する際、ロボットが特定のサイトへアクセスしていることを知らせたくない場合がほとんどです。
多くのWebサイトにおいてはサーバへのアクセスログの他、Google-Analyticsなどのアクセス解析ツールにより、どこからいつどのくらいのアクセスがあったかをモニタリングしています。

設定機能には、frame(フレーム)、iframe、script タグ内に指定されたURLをブロックして読み込み・実行を行わせない機能があります。
以下、標準的にアクセス解析等防止のために指定可能なURLを例示します。

Url_Filtering.png

.*.ad-v.jp/.*
.*.adobe.com/.*
.*.bazaarvoice.com/.*
.*.criteo.net/.*
.*.doubleclick.net/.*
.*.facebook.com/.*
.*.facebook.net/.*
.*.fout.jp/.*
.*.g.doubleclick.net/.*
.*.google-analytics.com/.*
.*.google.co.jp/ads/.*
.*.google.com/ads/.*
.*.googleadservices.com/.*
.*.googletagmanager.com/.*
.*.microad.jp/.*
.*.r-oo.jp/.*
.*.rakulog.com/.*
.*.rfihub.net/.*
.*.showcase-tv.jp/.*
.*.tenso.com/.*
.*.thebrighttag.com/.*
.*.twitter.com/.*
.*.verisign.com/.*
.*.vizury.com/.*
.*.webantenna.info/.*
.*.yahoo.co.jp/.*
.*.yjtag.jp/.*
.*://t.co/.*
.*resize_image.php.*
.*share.gree.jp/.*