検索エンジン クローラー(ロボット)の来襲

   

公開中のAmazon360では「クリック履歴」を公開しています。

商品リンクをクリックしてくれた時のみカウントしています。

「色々みんな見ているな」とか「なんでコレをクリックする??」みたいに、見ていると結構面白いです。

そして、もうひとつわかったことがありました。
それは、「検索エンジンのクローラーは鬼のようにやってくる」ということです。


例えば、2006.12.2の履歴

231回クリックが記録されていますが、普段よりかなり多い数です。
実際にログを調べてみると......。やっぱり!

この日は検索エンジンのクローラーが来襲していて、片っ端からサイトを回っていたのです。

しかし、これではクリックカウンターの意味がありません。
新しいクローラーを見つけるたびに、クリックカウンターに正規表現によるフィルターをかけています。

今回来たのは「ichiro」というgooNTTのクローラーでした。
これまでもgoogle、Yahoo、MSN、baizu(中国?)のクローラーが来襲し、クリックカウンターにフィルターをかけました。

  +++

このクローラー来襲のすごさを目のあたりにして、ちょっと「ほっ」としている事があります。

Amazon360も、楽-Yahもアフィリエイトサービスを公開しているのですが、主にjavascriptで公開しています。

ロボットはjavascriptで記述された部分を、ただの文書として認識するそうです。
javascriptで記述された部分は実行されませんし、リンク先へ読みに行く事もありません。

もしアフィリエイトサービスをphpのinclude文とかで公開していたら、ウチのサーバーはサービスを利用しているサイトへの検索エンジンのクロールによって、あっという間にパンクしてしまいます。

そして、情報元である楽天やYahooにも迷惑がかかります。

どこかのサイトのページにクローラーが来るたびに、情報元にアクセスすることになります。まさにリソースの浪費です。

※楽-Yahはキャッシュ機能を搭載しているので、この問題は当初から回避しています。
※Amazon360はAMAZONのxsltプロセッサを利用しています。AMAZONのプロセッサにはキャッシュ機能が付いています。

  +++

以上まとめると、ブログパーツに限らず、マッシュアップなどで作ったサービスを、不特定多数の人に公開したり、利用するには、以下のことに注意すべきだと思います。

1)公開はjavascript(もしくはiframe)で行い、includeは絶対に利用しない。
--検索エンジンのクローラーの来襲で、リソースを浪費します。

2)一度生成したデーターはキャッシュし、可能な限り再利用する
--身勝手なデーター収集は、情報元に負荷をかけます。

3)上記2つの観点が抜けているサービスは利用しない。
--いつ使用できなくなるか、わからないですよ。本当に。

最終更新日:2010.1.16 | コメント(0) | トラックバック(0) | ブログパーツ開発

» ブログパーツ開発

トラックバック

※当サイトへのトラックバックは、当サイト内ページへのリンクがないと、受け付けない仕様になっています

サイト内検索
サイトマップ
最近の記事
コミュニティ

あわせて読みたい  フィードメーター - web2.0的ラボ

製品レビューポータル「MONO-PORTAL」