こんにちは。takanoです。
いつも検索について詳しくない人と話すときに説明に苦労するのが、Google 検索がどのようにウェブサイトを認識し検索結果に表示しているかの流れです。
Google 公式のガイド もあるのですが、そもそも見ていない人も多いようです。
なので今日は Google 検索の仕組みについて、公式ガイドの紹介もしながら、なるべくシンプルにまとめてみたいと思います。
※ おおまかな流れが理解できたら、ぜひ文中の参考リンクも確認してみてください(随時更新しています)
はじめに
[参考] Google 検索の仕組み
[素材] いらすとや
上の図で簡単にまとめましたが、このような流れを経て各ウェブサイトのコンテンツは Google 検索の検索結果に表示されます。
個人的には、クロール → インデックス → ランキングの 3 ステップ推しだったのですが、最近はレンダリング(描画)の話題も多いので 4 ステップの図にしました。
ここから各ステップの詳細を簡単に解説していきたいと思います。
クロール
Google 検索にウェブサイトが掲載されるための最初のステップがクロールです。
Googlebot と呼ばれるクローラー(スパイダー)がウェブサイトを巡回し、情報を収集します。
巡回する際には、既知の URL に存在するリンクを辿ったり、サイトマップで送信した URL のリストが利用されます。
※ この URL を発見するステップを「ディスカバー(発見・検出)」と呼んで、クロールの前段階に据える解説もありますが、今回はクロールに含めました
このステップの詳細は、「検索が情報を整理する仕組み」という公式ガイドに記載されています。
特に上段に掲載されている動画 (日本語字幕あり)は、クロール → インデックス → ランキングの流れを 3 分程度で分かりやすく解説してくれているのでオススメです。
そもそもクロールされないとサイトの情報が Google 検索に伝わらないので、一番重要なステップと言えます。
Google が利用するクローラーには Googlebot(モバイル / デスクトップ)以外にも画像や動画、広告用など様々な種類の bot が存在します。
[参考] Google クローラの概要(ユーザー エージェント)
サーチコンソール の クロールの統計情報レポート では、それらのクローラーの来訪状況を一括で確認することが可能です。
(慣れてくると bot 別に確認したくなるのですが、まだその機能は無いです)
よくあるトラブル
- robots.txt で ブロックしている
- 更新後にクロールされていない(URL 検査で確認可能)
- 来てほしいページがクロールされない(クロールバジェット)
- クロールはされているが、noindex を指定している
[参考] SEO Mythbusting S2エピソード2:クロールバジェットを徹底的解説
パース / レンダリング
すごくざっくり書くと、パースは HTML の解析で、レンダリングは CSS や Javascript も含めた描画(ユーザーがブラウザで見るのと同じコンテンツ)です。
このステップを経ることで Google 検索はコンテンツを理解し、インデックスに登録すべきかどうかを判断できます。
ここはすごく複雑なステップなので、簡単には説明できません。
代わりに、なるべく公式の資料をまとめて紹介したいと思います。
- Google ウェブマスター向け公式ブログ: ウェブページをより深く理解するようになりました
- English Google Webmaster Central Duplicate Content office-hours hangout
- Build a successful web presence with Google Search (Google I/O '18)
- Deliver search-friendly JavaScript-powered websites (Google I/O '18)
- Making Modern Web Content Discoverable for Search (Chrome Dev Summit 2018)
- Google ウェブマスター向け公式ブログ: Googlebot が常に最新のレンダリング エンジンをサポートするようになります
- Making JavaScript and Google Search work together
- JavaScript SEO の基本を理解する
英語しかない動画・記事に関しては日本語訳が待たれるところです。
日本語で読める記事だと以下がオススメです。
- JavaScriptによるnoindex挿入をGoogleは推奨せず、JSレンダリングはセカンドウェーブのインデックス
- URL検査ツールは画像には機能しない、noindexページをレンダリングできない
- SEO Mythbusting エピソード3のまとめ: JavaScriptについて
- SEO Mythbusting エピソード5のまとめ: ウェブフレームワークとSEO
- レンダーバジェットとは何か、あるいはなぜ私は心配するのをやめてサーバーサイドレンダリングを愛するようになったか
- 「SEO」と「SPA/PWAによるUX向上」を両立させるハイブリッドレンダリングの基礎知識と実現手法
自分でコードを書かない方は、開発者のメンバーにこの辺りを共有すると意図せぬ事故を未然に防げるかもしれません。
なお、下記の動画では将来的にパースとレンダリングの時差が無くなっていく可能性も示唆されています。
技術的な話題に抵抗が無ければ、この辺りの動向は常にチェックしておいたほうが長期的なサイト構成を考えるうえで有益に働くと思います。
インデックス
これは、Google 検索が検索結果に情報を表示するための情報源のようなものです。
公式には下記のように説明されています。
Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。
[引用] 検索が情報を整理する仕組み
現在、 Google がインデックスしているウェブページ数は数千億を超え、今やその情報量は世界中の図書館をすべて合わせたとしても収まり切れません。
[引用] これからの 20 年にむけて ~ より良い検索を目指して~
それから下記の記事では、インデックスについての Google 社の内部的な基盤について触れられています。
よりマニアックな内容を知りたい方は読んでみてください。
[参考] Google 検索でインデックスの問題が発生: その対処法と教訓
自サイトのインデックス登録状況を調べるには、サーチコンソールのインデックス カバレッジ レポートを利用します。
クロールされ、インデックスされて初めてサイトが検索結果に掲載されるようになるので、日常的に確認することをおすすめします。
補足
Google 検索においては、ただ保存した情報を参照するだけではなく、ナレッジグラフやトピックレイヤーのような物事の繋がりと意味(エンティティとセマンティック)の理解も含まれています。
その助けになる構造化データの提供もサイト運営者には重要な要素の 1 つです。
また、モバイル ファースト インデックス(MFI)もモバイル用のクローラーが収集した情報をインデックス対象にするという話なのですが、ここまでの前提が把握できていないと理解に苦しむかもしれません。
ランキング
サイト運営者にとって、ここが一番気になるポイントと思います。
前段の説明を読んでほしかったのは、そもそもインデックスに登録されないとGoogle 検索の検索結果に出る資格すら与えられないためです。
詳細は こちらの動画(英語)でご確認ください。
ランキングは、検索ユーザーが Google 検索に入力したキーワード(検索クエリ)に応じて行われます。
また、そこには 200 種類以上の様々なシグナル(目印)が利用され、検索の意図や文脈に応じた検索結果が返答されます。
[参考] 検索アルゴリズムの仕組み
このステップもすごく複雑なため、参考リンクが多めになっています。
上記の「検索アルゴリズムの仕組み」と同じ括り + 検索結果という観点で分類してみたので、気になる項目を確認してみてください。
検索意図の把握
ウェブページの関連性
コンテンツの品質
- 検索エンジン最適化(SEO)スターター ガイド > コンテンツを最適化する
- 今改めてGoogleのPageRankについて理解すべきこと
- Google ウェブマスター向け公式ブログ: 日本語検索の品質向上にむけて
- Google ウェブマスター向け公式ブログ: 医療や健康に関連する検索結果の改善について
- Googleは感情分析をランキング要因にしていない。しかしウェブでどのように言及されているかは重要 #StateofSearch 2017
- 専門性を示すことはGoogle検索のランキング要因である
- グーグル検索では正しい情報を上位表示する……ん? 情報の正しさは判断してないって言ってなかった?
- GoogleアルゴリズムでE-A-Tは重要な要素。E-A-Tを高めるための実践的Tipsとは?
- E-A-Tの仕組みをGoogleの特許から読み解く
ユーザビリティ
文脈の考慮
検索結果の改善
- 同一サイトからのページを2件までに制限するようにGoogleが検索結果の仕様を変更、多様性を高めるため
- Google、オリジナルのコンテンツが長い期間、上位表示するようにアルゴリズムを更新
- Google ウェブマスター向け公式ブログ: Google のコア アップデートについてウェブマスターの皆様が知っておくべきこと
- E-A-TスコアもYMYLスコアもGoogle検索には存在しない、コアアルゴリズムはベイビーアルゴリズムの集合体 #PubCon
- How we keep Search relevant and useful
- Finding fresh, helpful information through featured snippets
- How insights from people around the world make Google Search better
- How Google delivers reliable information in Search
- How Google organizes information to find what you’re looking for
まとめ
「SEO 初心者向け Google 検索の仕組み」と題して、クロール → パース / レンダリング → インデックス → ランキングの 4 ステップをまとめてみました。
ざっくり、この 4 ステップが理解できるだけで Google 検索に対して自身が何をすべきか?の方針が立てやすくなると思うので、特に初心者の方には確認いただければと思います。
不足・誤りについてはご指摘いただければ随時修正させていただきますので、お気軽にご連絡ください。
それでは、またいつか!