SEOについて調べている方であれば、どこかのタイミングで「クロールバジェット(クロールの割り当て)」という言葉にたどりつくはず。2013年ごろにはすでに話題になり、SEO担当者の間で周知されていたキーワードにも関わらず、その明確な定義は長くなされていませんでした。これについて2017年1月17日にようやくGoogleは公式ブログで「Googlebot のクロールバジェットとは?」という記事を公開しました。クロールバジェットとはいったいどんなものなのかご紹介したいと思います。
クロールバジェットなんて本当はなかった?
もともとクロールバジェットについて世間では、GoogleがWebサイトごとにクロールさせる“時間”と“ページ数”に上限を設けていると噂されていました。そのため当時は必要以上にページを増やすとクロールバジェットが足りなくなり、なかなかインデックスが進まなくなる、考えられていました。
こういった“業界の常識”として通用していた言葉に対して、Googleが重い口を開いたのが2017年の1月。結論から言えば「クロールバジェットなんてなかった」という発表でした。
▽ Google公式ブログ「Googlebot のクロール バジェットとは?」より抜粋
昨今、「クロール バジェット(クロールの割り当て)」についてさまざまな定義を耳にします。しかし、外部的に「クロール バジェット」と言われているものを一言で説明できるような言葉はGoogle内部にはありません。
クロールバジェットという言葉を否定した同じブログ内で下記のような発言もなされています。
▽ Google公式ブログ「Googlebot のクロール バジェットとは?」より抜粋
こうしたクロール速度とクロールの必要性の両方を考慮したうえで、Google ではクロールの割り当てを「クロールの必要性があり、かつ Googlebot がクロール可能な URL の数」と定義しています。
なかなか難しい日本語ですが、つまるところ、上記内容こそが世間で言われていたクロールバジェットに近いGoogle内部での判断基準。そしてGooglebotがページをクロールするうえで重要なのは、下記の2つの要素であるという内容を指し示しています。
- クロール速度
- クロールの必要性
Googlebotは、これを重視しながら一定数をクロールしているというわけです。
「クロール速度」と「クロールの必要性」
それでは前項で挙げられた「クロール速度」と「クロールの必要性」について一つずつ解説していきます。
1 クロール速度
仮にGooglebotが頻繁にクロールしてしまったことが原因でWebページに高負荷がかかってしまったら、ユーザーは該当のWebページにアクセスできなくなってしまう可能性があります。これを防止する仕組みをGoogleでは「クロールレート(クロール速度)」と読んでいるようです。
▽ Google公式ブログ「Googlebot のクロール バジェットとは?」より抜粋
Googlebot は、ウェブ上の善良な市民であるよう設計されています。その主要な優先事項は、そのサイトにアクセスするユーザーにとっての利便性を損なわないよう配慮しつつクロールを行うことです。こうした仕組みを「クロールレート(クロール速度)」と呼びます。これにより、サイトに対する取得速度の最大値が制限されます。
2 クロールの必要性
クロールの必要性とは、上記のクロール速度の上限に達していないWebサイトであっても“必要性=条件”を満たさなければインデックスする必要はない、つまりクロールの回数を減らすということです。
この必要性についても明確に2つの定義がなされています。
<人気度>
人気があるWebサイトであれば、そのWebサイトの情報の鮮度を保つために頻繁にクロールする
<鮮度>
インデックスされているURLの情報が古いままにならないよう定期的にクロールをする
▽ Google公式ブログ「Googlebot のクロールバジェットとは?」より抜粋
クロール速度が上限に達していない場合でも、インデックス登録における必要性がなければ、Googlebot によるクロールは少なくなります。クロールが必要かどうか決める上で大きな役割を担うのが、次の 2 つの要素です。
人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
鮮度: Googleのシステムでは、インデックス内の URL の鮮度が落ちないようにしています。
大半のWeb担当者は気にする必要がない?
この発表ではこれまでベールに包まれていたクロールバジェットに関する回答のほかに、クロールバジェットに影響を及ぼす(巡回を阻害、優先度を下げる)項目も挙げています。
- ファセット ナビゲーション*とセッション ID
- Webサイト内の重複コンテンツ
- ソフトエラーページ
- ハッキングされたページ
- 無限のスペースとプロキシ
- 質の低いコンテンツやスパム コンテンツ
*ファセット ナビゲーション…Webサイトのナビゲーションの種類を指す。あらかじめ用意した検索条件(色、価格帯など)を選択することでコンテンツの絞り込みが出来るナビゲーションの仕組み。
上記に挙げられたのはGoogleがクロールする価値が低いと考えているWebサイト、ページの定義です。自身が担当するWeb ページがこれに該当していないかどうか確認してみてください。
なお、ここまで説明してきたことを無に帰すような発言が、実はブログの冒頭で説明されていることも付け加えておきます。
▽ Google公式ブログ「Googlebot のクロール バジェットとは?」より抜粋
以下で述べるように、クロール バジェットとは、ほとんどのウェブマスターの方々にとって気にすべきものではない、ということです。 新しいページが公開された当日にクロールされることが多い場合、ウェブマスターの方がクロール バジェットを重視する必要はありません。同様に、数千以下の URL 数しか持たないサイトにおいては、ほとんどの場合、クロールは効率的に行われるでしょう。
意訳する必要もないと思いますが、大規模なWebサイトを担当していない限り、クロールバジェットを意識することはないということです
謎が解けてみれば、あまり意識する必要がなかったという肩透かし的な結果でした。それでもクロールの最適化についてはご興味のあるという方は、英語版ですがGoogleブログ上に具体策が公開されています(2009年のものですが、2017年1月時点でGoogleから「まだ有効」との言質あり)ので、こちらを参照にしてみてください。
▽Optimize your crawling & indexing
SEOに関して、何から着手すべきかわからない、なかなか成果がでないなどのお悩みがございましたら SEO無料相談も受け付けておりますので、お気軽にお問合せください。