公開中のAmazon360では「クリック履歴」を公開しています。
商品リンクをクリックしてくれた時のみカウントしています。
「色々みんな見ているな」とか「なんでコレをクリックする??」みたいに、見ていると結構面白いです。
そして、もうひとつわかったことがありました。
それは、「検索エンジンのクローラーは鬼のようにやってくる」ということです。
例えば、2006.12.2の履歴
231回クリックが記録されていますが、普段よりかなり多い数です。
実際にログを調べてみると……。やっぱり!
この日は検索エンジンのクローラーが来襲していて、片っ端からサイトを回っていたのです。
しかし、これではクリックカウンターの意味がありません。
新しいクローラーを見つけるたびに、クリックカウンターに正規表現によるフィルターをかけています。
今回来たのは「ichiro」というgooNTTのクローラーでした。
これまでもgoogle、Yahoo、MSN、baizu(中国?)のクローラーが来襲し、クリックカウンターにフィルターをかけました。
+++
このクローラー来襲のすごさを目のあたりにして、ちょっと「ほっ」としている事があります。
Amazon360も、楽-Yahもアフィリエイトサービスを公開しているのですが、主にjavascriptで公開しています。
ロボットはjavascriptで記述された部分を、ただの文書として認識するそうです。
javascriptで記述された部分は実行されませんし、リンク先へ読みに行く事もありません。
もしアフィリエイトサービスをphpのinclude文とかで公開していたら、ウチのサーバーはサービスを利用しているサイトへの検索エンジンのクロールによって、あっという間にパンクしてしまいます。
そして、情報元である楽天やYahooにも迷惑がかかります。
どこかのサイトのページにクローラーが来るたびに、情報元にアクセスすることになります。まさにリソースの浪費です。
※楽-Yahはキャッシュ機能を搭載しているので、この問題は当初から回避しています。
※Amazon360はAMAZONのxsltプロセッサを利用しています。AMAZONのプロセッサにはキャッシュ機能が付いています。
+++
以上まとめると、ブログパーツに限らず、マッシュアップなどで作ったサービスを、不特定多数の人に公開したり、利用するには、以下のことに注意すべきだと思います。
1)公開はjavascript(もしくはiframe)で行い、includeは絶対に利用しない。
--検索エンジンのクローラーの来襲で、リソースを浪費します。
2)一度生成したデーターはキャッシュし、可能な限り再利用する
--身勝手なデーター収集は、情報元に負荷をかけます。
3)上記2つの観点が抜けているサービスは利用しない。
--いつ使用できなくなるか、わからないですよ。本当に。
RSS2.0
Atom RSSリーダーに登録すれば、更新がすぐにわかります。

About me
comment&trackback
RSS
mail
board
フィード


