ボットを拒否しましょう

最近、ボットが激増してきて、いろいろ問題が出てきました。何が問題かというと以下の二点です。

サーバーのリソースを食う

最近では、ボットの数も1000種類近くあるようです。しかも、日に日にその数は増えています。1000個のボットが毎日代わる代わるやってくるとなると、サーバーの応答が悪化し、サイトの表示速度が遅くなります。

個人情報を収集し一般公開する

元々、ボットは、いろいろなサイトを回って、様々な個人情報を収集しているわけで、その目的は、大抵、そういう個人情報の一般公開です。たまに、そう言うことをやっているサイトを見つけてびっくりします。

どうやってそんなサイトに気がつくかというと、リンク調査です。こちらのサイトに貼られているリンクのリンク元を調べると、実は、サイトから個人情報を抽出して、表示するサイトだったりします。

これはあまりにも不愉快です。Googleやbingだって、やればやれるわけですが、やりません。なぜかというと不愉快な印象を与えるからです。こういう明らかに不愉快なことをやるサイトは悪質です。さっくり拒否してしまいましょう。ほとんどはSEO関連サイトです。

拒否はrobots.txtで・・・なんていう方法で排除できれば苦労はありません。それにGoogleやbingのボットに来てもらわなくてはいけません。拒否するのはそれ以外のボットです。連中は悪質なボットが多いので、robots.txtでは拒否できない場合が多いと思います。

行儀の悪いことをやるサイトのボットは、行儀が悪いと決まっています。

.htaccessで拒否する

ボットは、.htaccessにより、ユーザーエージェントで拒否するのが基本ですが、こういう悪質なボットはユーザーエージェントを偽装することも多いようです。その場合は、IPアドレスで拒否します。

ボットのユーザーエージェントやIPアドレスは、アクセス解析のログを詳細に調べて収集します。しかし、もっと簡単にやりたい場合は、こちらで公開されていますので、利用するといいでしょう。

いえ、今回は、これが言いたかっただけです。

関連ページ:
アクセス拒否するbot一覧(パルどう.com マガジン)
迷惑なbotをアクセス拒否・除外する設定方法まとめ(Nginx・Apache・.htaccess)(parudou)
クローラーロボットの比較一覧(ホームページの作り方)
【ブログ】悪質なボットを拒否する方法【WordPress】(ネットワークスペシャリストを目指して)
UA list: crawlers (udger)
Detecting and blocking bad bots (Sqreen Blog)

PS:
関連ページに挙げてあるページの内、「Detecting and blocking bad bots」によると、悪質なボットは以下の目的にも使われていると言うことです。

DDoS攻撃の標的の選定

これは悪質ですね。人のサイトの運営を邪魔するためにボットを使う人たちがいるんですね。こうなると、どうあっても拒否するしかありません。

コンテンツを盗むため

これもひどいです。他のサイトのコンテンツを盗んで自分のサイトのコンテンツにするということが行われていることは知っていましたが、ボットで自動的にやるというのは、ひどすぎます。やはり、こんな悪質なボットは拒否するしかありません。

すっかり忘れていましたが、確かにボットらしきものにより、コンテンツを短時間に大量にダウンロードされてしまったという経験があります。

こういう点を考えてもボットの拒否は行わなくてはいけないと思います。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする