| Crawl1 | 64.68.92.1 | 〜 | 64.68.92.30 | Crawl16 | 64.68.85.1 | 〜 | 64.68.85.30 | |
| Crawl2 | 64.68.92.31 | 〜 | 64.68.92.60 | Crawl17 | 64.68.85.31 | 〜 | 64.68.85.60 | |
| Crawl3 | 64.68.92.61 | 〜 | 64.68.92.80 | Crawl18 | 64.68.85.61 | 〜 | 64.68.85.80 | |
| Crawl4 | 64.68.92.129 | 〜 | 64.68.92158 | Crawl19 | 64.68.85.129 | 〜 | 64.68.85.158 | |
| Crawl5 | 64.68.92.159 | 〜 | 64.68.92.182 | Crawl20 | 64.68.85.159 | 〜 | 64.68.85.188 | |
| Crawl? | 64.68.92.183 | 〜 | 64.68.92.199 | Crawl21 | 64.68.85.189 | 〜 | 64.68.85.208 | |
| Crawl6 | 64.68.92.200 | 〜 | 64.68.92.208 | Crawl22 | 64.68.80.1 | 〜 | 64.68.80.30 | |
| Crawl7 | 64.68.81.129 | 〜 | 64.68.81.158 | Crawl23 | 64.68.80.31 | 〜 | 64.68.80.60 | |
| Crawl8 | 64.68.81.159 | 〜 | 64.68.81.188 | Crawl24 | 64.68.80.61 | 〜 | 64.68.80.80 | |
| Crawl9 | 64.68.81.189 | 〜 | 64.68.81.208 | Crawl25 | 64.68.80.129 | 〜 | 64.68.80.158 | |
| Crawl10 | 64.68.84.1 | 〜 | 64.68.84.30 | Crawl26 | 64.68.80.159 | 〜 | 64.68.80.188 | |
| Crawl11 | 64.68.84.31 | 〜 | 64.68.84.60 | Crawl27 | 64.68.80.189 | 〜 | 64.68.80.208 | |
| Crawl12 | 64.68.84.61 | 〜 | 64.68.84.80 | Crawl28 | 64.68.81.1 | 〜 | 64.68.81.30 | |
| Crawl13 | 64.68.84.129 | 〜 | 64.68.84.158 | Crawl29 | 64.68.81.31 | 〜 | 64.68.81.60 | |
| Crawl14 | 64.68.84.159 | 〜 | 64.68.84.188 | Crawl30 | 64.68.81.61 | 〜 | 64.68.81.80 | |
| Crawl15 | 64.68.84.189 | 〜 | 64.68.84.208 |
| Crawl31 | 64.68.83.1 | 〜 | 64.68.83.30 | 64.68.88.1 | 〜 | 64.68.88.30 | |
| Crawl32 | 64.68.83.31 | 〜 | 64.68.83.60 | 64.68.88.31 | 〜 | 64.68.88.60 | |
| Crawl33 | 64.68.83.61 | 〜 | 64.68.83.80 | 64.68.88.61 | 〜 | 64.68.88.80 | |
| Crawl34 | 64.68.83.129 | 〜 | 64.68.83.158 | 64.68.88.129 | 〜 | 64.68.88.158 | |
| Crawl35 | 64.68.83.159 | 〜 | 64.68.83.188 | 64.68.88.159 | 〜 | 64.68.88.188 | |
| Crawl36 | 64.68.83.189 | 〜 | 64.68.83.208 | 64.68.88.189 | 〜 | 64.68.88.208 |
| Crawler1 | 64.68.86.1 | 〜 | 64.68.86.30 | Crawler10 | 64.68.82.1 | 〜 | 64.68.82.30 | |
| Crawler2 | 64.68.86.31 | 〜 | 64.68.86.60 | Crawler11 | 64.68.82.31 | 〜 | 64.68.82.60 | |
| Crawler3 | 64.68.86.61 | 〜 | 64.68.86.80 | Crawler12 | 64.68.82.61 | 〜 | 64.68.82.80 | |
| Crawler4 | 64.68.86.130 | 〜 | 64.68.86.158 | Crawler13 | 64.68.82.129 | 〜 | 64.68.82.158 | |
| Crawler5 | 64.68.86.159 | 〜 | 64.68.86.188 | Crawler14 | 64.68.82.159 | 〜 | 64.68.82.188 | |
| Crawler6 | 64.68.86.189 | 〜 | 64.68.86.208 | Crawler15 | 64.68.82.189 | 〜 | 64.68.82.208 | |
| Crawler7 | 64.68.87.1 | 〜 | 64.68.87.30 | Crawler16 | 64.68.91.1 | 〜 | 64.68.91.30 | |
| Crawler8 | 64.68.87.31 | 〜 | 64.68.87.60 | Crawler17 | 64.68.91.31 | 〜 | 64.68.91.60 | |
| Crawler9 | 64.68.87.61 | 〜 | 64.68.87.80 | Crawler18 | 64.68.91.61 | 〜 | 64.68.91.80 | |
| crawler19 | 64.68.91.129 | 〜 | 64.68.91.158 | |||||
| crawler20 | 64.68.91.159 | 〜 | 64.68.91.188 | |||||
| crawler21 | 64.68.91.189 | 〜 | 64.68.91.208 |
キーワード検索の対象は、インデックスサーバのインデックス。
これに対して、検索結果画面に表示されるのは、キャッシュサーバのタイトルやスニペット(説明文)など。
キャッシュに最新の日付が出ていたり、修正済みのページが出ても、インデックスも更新されているとは限らない。
時々キャッシュが古いものに戻ってしまうが、仮に最新のキャッシュが表示されていても、インデックスは古いままということがある。
そして、ランキング対象のページは、順位付けされるのは、インデックスのみである。
詳しくは、Googleのキーワード検索の研究〜改訂版へ
インデックスサーバ用のクロールをインデックスクロール(IndexBot)と、仮称しておく。
以前のDeepbotと同じであるが、IPやホスト名、User-Agentなどによって見分けることはできない。
このインデックスクロールによってGETされたページが、順位付け対象のインデックスとなる。
ドキュメントサーバ用のクロールをキャッシュクロール(CacheBot)と、仮称しておく。
IndexBot同様、見分けが付かない。
このキャッシュクロールによってGETされたページのタイトルやスニペットが、検索結果画面(SERPs)に表示される。
また、キャッシュクロールにGETされたページは、原則として、順位付けの対象とはなっていない。
消えてしまうことも、古いものに戻ってしまうこともある。
ドキュメントサーバ用のクロールはキャッシュクロール(CacheBot)であるが、その中で日付入りに関するものをデートクロール(DateBot)と、仮称しておく。
デートクロールはキャッシュの日付入りに現れる。ただし、日付入りキャッシュがすべてデートクロールの対象であるわけではない。
瞬間的にSERPsに出現するページにも、日付が表示されることがある。ただし、短期間で消え去ることが多い。
当サイトの検証では、デートクロールされているページからリンクされているページが、デートクロールの対象となっている。
User-Agentは、Googlebot/TestまたはGooglebot/Test (+http://www.googlebot.com/bot.html)となっている。
今のところIPは、64.68.89.xもしくは64.68.83.xである。
また、Hypertext Transfer Protocolは、HTTP/1.1となっていることも特徴的だ。
同一ページを、短時間に何度もGETしたり、驚くべきはJavaScriptもGETされている。
「filetype:js function」という検索をしてみるとおもしろい。
ただし、ファイルにはすべて引数がついている。
しかも、Testbot以前にはインデックスされていなかったのか、定かではないし…
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
通常のGooglebot。
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
たまに見かけるGooglebot。
Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
AdSense用のGooglebotと言われている。
Googlebot-Image/1.0 (+http://www.googlebot.com/bot.html)
イメージ検索用の画像を収集するGooglebot。
Googlebot/Test
Googlebot/Test (+http://www.googlebot.com/bot.html)
不審なGooglebot。上記参照。
WEB雑記2 USER-AGENT(サイトを訪れるユーザーエージェントについて)
64.68.82.28 - - [07/May/2003:15:57:19 +0900] "GET /google/ HTTP/1.0" 200 36657 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
上記ログの「200」の箇所は、HTTPステータスコードという。「301」「302」「304」「401」「404」などと記録される。
HTTPステータス・コードやHTTPステータスコードを参照のこと。
| ステータス・コード | 意味 | |
|---|---|---|
| 200 | OK | Googlebotのファイル取得 |
| 301 | Moved Permanently | 別のアドレスへ移動 |
| 302 | Moved Temporarily | 一時的に別のアドレスに移動 |
| 304 | Not Modified | 未更新 |
| 401 | Unauthorized | 認証が必要 |
| 404 | Not Found | ページなし |