web2.0的ラボTopブログパーツ開発Amazon360
検索エンジン クローラー(ロボット)の来襲

Posted at 06/12/03 Comment(0)» Trackback(0)» ブログパーツ開発»

powerd by 楽市アド360

公開中のAmazon360では「クリック履歴」を公開しています。

商品リンクをクリックしてくれた時のみカウントしています。

「色々みんな見ているな」とか「なんでコレをクリックする??」みたいに、見ていると結構面白いです。

そして、もうひとつわかったことがありました。
それは、「検索エンジンのクローラーは鬼のようにやってくる」ということです。


例えば、2006.12.2の履歴

231回クリックが記録されていますが、普段よりかなり多い数です。
実際にログを調べてみると……。やっぱり!

この日は検索エンジンのクローラーが来襲していて、片っ端からサイトを回っていたのです。

しかし、これではクリックカウンターの意味がありません。
新しいクローラーを見つけるたびに、クリックカウンターに正規表現によるフィルターをかけています。

今回来たのは「ichiro」というgooNTTのクローラーでした。
これまでもgoogle、Yahoo、MSN、baizu(中国?)のクローラーが来襲し、クリックカウンターにフィルターをかけました。

  +++

このクローラー来襲のすごさを目のあたりにして、ちょっと「ほっ」としている事があります。

Amazon360も、楽-Yahもアフィリエイトサービスを公開しているのですが、主にjavascriptで公開しています。

ロボットはjavascriptで記述された部分を、ただの文書として認識するそうです。
javascriptで記述された部分は実行されませんし、リンク先へ読みに行く事もありません。

もしアフィリエイトサービスをphpのinclude文とかで公開していたら、ウチのサーバーはサービスを利用しているサイトへの検索エンジンのクロールによって、あっという間にパンクしてしまいます。

そして、情報元である楽天やYahooにも迷惑がかかります。

どこかのサイトのページにクローラーが来るたびに、情報元にアクセスすることになります。まさにリソースの浪費です。

※楽-Yahはキャッシュ機能を搭載しているので、この問題は当初から回避しています。
※Amazon360はAMAZONのxsltプロセッサを利用しています。AMAZONのプロセッサにはキャッシュ機能が付いています。

  +++

以上まとめると、ブログパーツに限らず、マッシュアップなどで作ったサービスを、不特定多数の人に公開したり、利用するには、以下のことに注意すべきだと思います。

1)公開はjavascript(もしくはiframe)で行い、includeは絶対に利用しない。
--検索エンジンのクローラーの来襲で、リソースを浪費します。

2)一度生成したデーターはキャッシュし、可能な限り再利用する
--身勝手なデーター収集は、情報元に負荷をかけます。

3)上記2つの観点が抜けているサービスは利用しない。
--いつ使用できなくなるか、わからないですよ。本当に。



  RSS2.0  Atom 
RSSリーダーに登録すれば、更新がすぐにわかります。

"検索エンジン クローラー(ロボット)の来襲"へのトラックバック
トラックバック先URL

※当サイトへのトラックバックは、当サイト内ページへのリンクがないと、受け付けない仕様になっています
"検索エンジン クローラー(ロボット)の来襲"へコメントを投稿
次のようなコメントは、基本的に掲載しかねますので、ご了承ください。

・「応援してます!応援ポチ☆」のような、返答しようがないコメント。私は「応援ポチ」という言葉が嫌いです。「応援ポチ」もしくはそれに順じた言葉が書き込まれたコメントは無視させて頂きます。
・当記事と全く関係ない話題、サイトの売り込みなど。宣伝色を少しでも感じたものは削除します。
・相互リンク依頼のコメント(専用ページから申し込みください)
ブログバーツに関する質問掲示板に書き込んでください)
・その他、管理人が不適切だと感じたコメント

上の情報を保存する場合はチェック

about me


今からリンクシェア見本市に出かけます。 8hours ago

かん吉2.0
ウェブサイト作成・運営を生業としています
技術ネタを粛々と紹介してます

公開しているサービス

※日常のネタは親ブログのわかったブログ
運営ブログの新着記事を全て読めます

フィード
my bookstand
powerd by Amazon360
関連サイト: アフィリエイトゴールMovabletypeマニュアル?