SEO 初心者向け Google 検索の仕組み

こんにちは。takanoです。

いつも検索について詳しくない人と話すときに説明に苦労するのが、検索エンジンがどのようにウェブサイトを認識し検索結果に表示しているかの流れです。
Google 検索の公式ガイド もあるのですが、そもそも見ていない人も多いようです。

なので今日は、公式ヘルプの紹介もしながら、なるべくシンプルに Google 検索の仕組みをまとめてみたいと思います。
サイト運営者として、自サイトが検索結果に表示されるまでの仕組みを知ることは重要なので、おおまかな流れが理解できたら、ぜひ文中の参考リンクも確認してみてください。

はじめに

Google 検索がウェブサイトを検索結果に表示する流れ
[素材] いらすとや

上の図で簡単にまとめましたが、このような流れを経て各ウェブサイトのコンテンツは Google 検索の検索結果に表示されます。

「検索の仕組み」は全ての土台になる大事な概念なので、公式ヘルプでもマンガ付きでしっかり解説されています。

[参考] Google 検索の仕組みと検索結果について

Google 検索の仕組みに関するガイドでは、

  1. クロール
  2. インデックス登録
  3. 検索結果の表示(ランキングも含む)

の 3 ステップで語られていますが、レンダリング(ブラウザの描画)の話題も多いので、この記事では 4 ステップに分けて説明していきます。

まずは、導入として以下の動画を観てから読み進めてみてください。
(動画に登場する用語は、一部 こちらの用語集 でも紹介しています)




ここから各ステップの詳細を簡単に解説していきたいと思います。

クロール

Google 検索にウェブサイトが掲載されるための最初のステップがクロールです。
Googlebot と呼ばれるクローラー(スパイダー)がウェブサイトを巡回し、情報を収集します。

巡回する際には、既知の URL に存在するリンクや、サイトマップ で送信した URL のリストが利用されます。

このステップは、「Google 検索における情報の整理方法」という公式ガイドで簡潔に紹介されています。
私が一番わかりやすいと思う下記の動画では、元 Google 社員のマット・カッツさんがクロールから検索結果の表示までの流れを 3 分程度で分かりやすく解説してくれています。



※ 日本語字幕あり

なお、Google が利用するクローラーにはウェブ検索用の Googlebot(モバイル / デスクトップ)以外にも画像や動画、広告用など様々な種類の bot が存在します。
[参考] Google クローラの概要(ユーザー エージェント)

サーチコンソールクロールの統計情報レポート では、それらのクローラーの来訪状況を一括で確認することが可能です。

クロールにおけるトラブルの例

「ページがインデックスされない」という問題が発生した際に、「クロールが正常にできていない」ことが原因の場合が多いです。
クロールされないことには Google 検索にページの情報が伝わらないので、以下のような点に注意してください。

サイトにアクセスできない場合
  1. Googlebot の IP アドレス を除外している(海外からのアクセス制限など)
  2. Googlebot の ユーザーエージェント を除外している(端末の判定など)
  3. Basic 認証や会員専用ページなど、パスワードで保護 されている
  4. robots.txtブロックしている
  5. robots.txt が 5xx(サーバーエラー)のステータス になっている
  6. URL パラメータ ツール でクロールしない設定にしている
アクセスできるけどクロールしづらい場合
  1. Googlebot がサイト内の リンクを利用できない
  2. クロールの効率が悪い
    • サーバーの応答やページの読み込みが遅い
    • レンダリングに必要なリソースが多い
    • リダイレクトが多い
    • 不要な URL を大量に生成している

Googlebot は基本的に海外(アメリカ)から来訪します。
なので、日本国内向けのサイトであっても海外の IP アドレスを一律でブロックしてしまうとクロールされなくなりますし、サーバーの応答時間についても国内のユーザーと比べてどうなのか注意が必要です。
これらの点については Spelldata 社の解説記事 が参考になります。
現在の クロールの統計情報レポート では bot の種類別に平均応答時間が確認できるので、興味のある方は利用してみてください。


公式ヘルプ「大規模サイト所有者向けのクロール割り当て管理ガイド」では、「クロールの必要性を決定する重要な要素(人気度など)」や「クロールに関する誤解と事実(読み込み速度 VS 人気度など)」のような興味深いコンテンツが多いので、クロールに興味がある方は必読です。

また、アユダンテ社の コガンさんが Google 公式の動画シリーズを翻訳した「SEO Mythbusting S2エピソード2:クロールバジェットを徹底的解説」も参考になります。

クロールのキューという概念

上述してきたクロールには「キュー(待ち行列)」という概念があります。
後述するレンダリングの段階でもキューという概念が存在するので、先に部分的に図解しておきました。

クロールのキュー

キューには以下のような URL が保存され、順番に処理されていきます。

なお、ヘルプにも記載 されていますが、同じ URL へのリクエストを何回してもクロールが早まることはありません。

次は、このクロールに続く段階である、パースとレンダリングについて解説します。

パース / レンダリング

このステップを経ることで Google 検索はコンテンツを理解し、インデックスに登録すべきかどうかを判断できます。

すごくざっくり書くと、パースは HTML の解析で、レンダリングは CSS や Javascript も含めた描画(ユーザーがブラウザで見るのと同じコンテンツ)です。

HTML の解析だけでコンテンツの内容は理解できそうに思うかもしれませんが、例えば Javascript は HTML の内容を書き換えることができるので、実際にユーザーが見るレンダリング後のコンテンツは初回のパース時とはかけ離れているかもしれません。

そのため、必要に応じてレンダリング前後で得られる情報を使い分けています。
[参考] Search Off the Record - Episode 05 / 01:42 付近英語書き起こし あり)

ブラウザの仕組み に詳しくない場合はパースとレンダリングの違いがややこしいですが、SEO においては以下のような点に注意が必要です。

パースとレンダリングでの注意点

「Googlebot がリンクをたどる」という表現がありますが、実際にはユーザーがブラウザ上で操作するように遷移を行うわけでなく、キューに溜まった URL に順次アクセスしていきます。
毎回シークレットウィンドウでアクセスするようなものなので、ページまたぎの Cookie やリファラ(参照元)等は期待できません。

SEO におけるパースとレンダリングの大きな差分は Javascript の実行ですが、その点については コガンさんの翻訳記事 が参考になります。

クロールの解説 で触れたように、レンダリングにおいてもキューという概念が存在します。

Googlebot が JavaScript を処理する仕組み
[引用] JavaScript SEO の基本を理解する

レンダリングのキューについては JADE 長山さんの解説記事 が詳しいので、ぜひ確認してみてください。

パースやレンダリングの話題は技術的な要素が強いので、少しとっつきにくいと思います。
とはいえ、あまり詳しくない場合でも、社内の開発者にこの辺りを共有すると意図せぬ事故を未然に防げるかもしれません。

さて、次の段階はインデックス登録です。

インデックス

まず「インデックス」とは、検索結果にコンテンツを表示するための情報源で、「情報が整理されて保存されたもの」です。
公式には下記のように説明されています。

Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。

[引用] Google 検索における情報の整理方法


インデックスには ドキュメント ごとのメタデータ(付帯情報)も含まれます。
[参考] SMX West 2016 - How Google Works:A Google Ranking Engineer's Story / 06:15 付近(自動生成の英語字幕あり)

また、画像や動画など Web ページ以外のインデックスも存在します。
[参考] Search Off the Record - Episode 16 / 03:44 付近英語書き起こし あり)


インデックス自体の仕組みは検索エンジン内部の問題で、普段はほとんど意識する必要が無い領域です。
一方で、サイト運営者側としてインデックスを意識する必要があるのは「登録されているかどうか」についてです。
インデックスに登録されなければ検索結果に表示もされないので、この点については意識する必要があります。

インデックス登録におけるトラブルの例

詳細な理由は、サーチコンソールの インデックス カバレッジ レポートのステータス(エラー除外)で確認できるので、ここでは代表的なトラブルについて触れます。

一番最後の品質の問題については判断が難しく、他に技術的な問題が無い場合に疑うようにしています。ステータスとしては「クロール済み - インデックス未登録」に多い印象ですが、詳細はヘルプには記載されていません。

以下の動画で Google 社員のジョン・ミューラーさんが語った内容からすると、インデックスされないときに確認すべき技術的な項目はサイトによっても異なるので、品質の問題と断定して良いものかは場合による感じがします。



※ 自動翻訳の日本語字幕あり

インデックスに関わる例外的な話として、物理的なサーバー等の問題で検索結果に表示されない場合もあります。
下記の記事では、インデックスに関わる Google 社の内部的な基盤について触れられています。
よりマニアックな内容を知りたい方は読んでみてください。
[参考] Google 検索でインデックスの問題が発生: その対処法と教訓

また、2022 年 12 月から上記のような物理的な障害が発生している場合に、Google 検索ステータス ダッシュボードにて最新の状況が確認できるようになりました。

ダッシュボードで確認できるのは、この記事で紹介している以下の項目です。

  1. Crawling(クロール)
  2. Indexing(インデックス)
  3. Serving(検索結果の表示)

もしアクセス解析などでトラフィックに違和感を感じた場合は、上記のダッシュボードを確認してみると原因が自サイトなのか Google 検索側なのかが判別しやすいです。
(RSS での通知もあります)

さて、少し話が脱線してしまいましたが本題に戻りましょう。
Web サイトがクロールされ、無事にインデックスに登録されたら次は検索結果に表示される段階です。

検索結果の表示(ランキングも含む)

サイト運営者にとって一番気になるポイントかと思いますが、検索順位に関わる話は不正(スパム)防止の観点もあり、基本的にオープンにされていません。
また、検索ユーザーの動向やインターネットを取り巻く環境により細かく調整が入る部分でもあるので、汎用的にまとめることが困難です。

ここでは、2016 年に SMX West というイベントで Google 社のランキング・エンジニアであるポール・ハーさんが語った、検索クエリの入力から検索結果の表示までの解説をベースに考えてみたいと思います。



※ 自動生成の英語字幕あり(スライドだけでも翻訳して見てください)

スライドの翻訳も面倒な場合は、SEO Japan のレポート記事 で大まかな流れだけでも確認してみてください。

ここからは、上記の動画に登場した主要な項目ごとに触れていきます。

検索アルゴリズム

Google 検索では、ユーザーが入力したキーワード(検索クエリ)に応じて 検索結果の表示 が行われます。
そこでは、以下のような処理が行われます。

  • 入力された単語の意味分析
  • 位置や履歴など文脈の考慮
  • 関連性の算出と品質の評価
  • 適切なフォーマットの選択

こうした処理や計算の際には様々な シグナル(信号や目印) が利用されます。
例えば、後述する検索の意図によっては検索者の現在位置は検索結果に強く影響します。

その点については、下記の動画がわかりやすく説明してくれています。



※ 自動翻訳の日本語字幕あり

検索アルゴリズムの概要について、個人的には公式ガイドの説明が一番わかりやすいと思うので、ぜひ確認してみてください。
[参考] 結果を自動的に生成する仕組み

また、ランキングの際に利用される各システムの一覧は公式ドキュメントで公開されているので、興味のある方は確認してみてください。
[参考] Google 検索ランキング システムのご紹介

ナレッジグラフ

実世界においてのエンティティ(物や存在)の情報を体系的に集積したものがナレッジグラフです。
入力された検索クエリの理解や、検索結果の拡張に利用されます。

下記の動画は 2012 年のものですが、視覚的に分かりやすいです。



※ 日本語字幕あり

リッチリザルトなど、検索結果で目立つ表示に利用されるので多数のサイトで導入が進んでいる 構造化データ ですが、これもページの中で何のエンティティについて語っているかのヒントになります。
[参考] Search Off the Record - Episode 08 / 08:35 付近英語書き起こし あり)

検索意図

2015 年から マイクロモーメント として語られ始めた

  • know(知りたい)
  • go(行きたい)
  • do(やりたい)
  • buy(買いたい)

であったり、下記の動画で触れられているような

  • インフォメーショナル(情報型)
  • ナビゲーショナル(誘導型)
  • トランザクショナル(購買型)

であったり、ユーザーによって検索している意図が異なるので、検索結果もそれに応じて アルゴリズムが配信 します。

あるいは、ニュース的なトピックなど新鮮さが大事な検索もあります。
この動画では、そのあたりをまとめて説明してくれています。



※ 自動翻訳の日本語字幕あり

大きなくくりでは上記のように分けられる検索の型ですが、サイト運営者の立場からすると、これだけが分かってもアクションには繋がりづらいです。
ユーザーごとに個別の検索意図を考えるにあたっては、アイレップ 渡辺さんの解説記事 が参考になります。

関連性と品質

良いコンテンツの条件として語られることの多い関連性と品質ですが、Google 検索自体も 関連性と品質を指標に改善 を行っています。

検索結果の改善手段は、外部協力者が検索結果の品質を評価するテストと、実際に Google 検索を利用するユーザー向けのテストです。
テストの詳細や具体的な件数などは、公式ガイドに記載してあります。
[参考] 厳格なテストで検索機能を改善

上記のガイドでは、検索品質評価テストの評価者が実際に利用する品質評価ガイドライン もダウンロード可能です。
日本語で読みたい方は アイレップ社が公開している 2016 年版の翻訳 を確認してみてください。(2018 年からの更新履歴は 電通デジタル社が公開しています

評価者が判定するのは、あくまで検索結果の品質で、サイトやページの検索順位を直接決定するわけではありません。
一方で、その評価の観点はウェブサイト運営者としてもコンテンツ改善のヒントになります。

ここからは、検索品質評価ガイドラインの主要な評価指標について触れてみたいと思います。

Needs met とページ品質

検索エンジンの主要な役割は入力された検索クエリに関連性の高いコンテンツを返すことですが、関連性が高いのと品質が高いのは必ずしもイコールではありません。

そのギャップを測るために検索品質評価テストで、評価者が用いる基準が Needs met(ニーズを満たす)とページ品質という概念です。

Needs met は前述した 検索の意図 に合ったコンテンツを提供できているかということです。

ページ品質の評価の主要な要素として、E-E-A-T というコンセプト が利用されます。
それぞれ、以下の頭文字です。

  • Experience: 経験値(コンテンツ作成者の実体験や経験)
  • Expertise: 専門性(コンテンツ作成者の専門知識やスキル)
  • Authoritativeness: 権威性(コンテンツ作成者やサイトが信頼できる情報源としてどの程度知られているか)
  • Trust: 信頼性(ページがどの程度正確で、正直で、安全で、信頼できるか)

検索品質評価ガイドラインには E-E-A-T の他に YMYL(Your Money, Your Life)という概念も登場しますが、商業的に運営しているウェブサイトの場合は程度の差はあれ金銭や暮らしに関わるはずなので、この記事では特に触れません。
このセクションで述べてきた概念に興味がある方は、前述した翻訳版の作成者である 電通デジタル 広岡さんの解説 がわかりやすいので確認してみてください。

自サイトの品質評価

品質評価ガイドラインは直接サイトの評価に利用されるものではないですが、Google 検索が検索者のニーズを満たす検索結果を作るための基準を知るのはサイト運営者にとってもメリットがあります。
つまり、自サイトのコンテンツを見直すうえで、そもそもの 情報の品質 を評価する観点を取り入れるということです。

Google 検索セントラル公式ドキュメントでも、最適なコンテンツに関するアドバイスとして「有用で信頼性の高い、ユーザーを第一に考えたコンテンツの作成」という内容が紹介されています。

E-E-A-T は 2022 年 12 月から提唱されたコンセプトで、このブログを更新している時点では上記のドキュメントは、それ以前の E-A-T というコンセプトのままで記載されています。

大枠のコンセプトはそこまで変わっていないので、以下の過去記事も参考になります。

  1. GoogleアルゴリズムでE-A-Tは重要な要素。E-A-Tを高めるための実践的Tipsとは?
  2. E-A-Tの仕組みをGoogleの特許から読み解く

評判

Google 検索がサイトやページのインターネット上での評判を判断する大きな指標として、リンクと PageRank(ウェブ上の人気投票のような概念)があります。
SEO 界隈と PageRank という用語の関わりについては、今は Google 社員として活躍している ダニー・サリバンさんの解説記事(英語) が時代背景も含め参考になると思います。

PageRank と一般的な人気投票との違いは、下記の動画で解説されているように、リンクの量(投票数)への考慮がアルゴリズムで自動的に行われていることです。



※ 自動翻訳の日本語字幕あり

また、以下の公式ヘルプでも解説されているように、リンクの品質や信頼性も考慮されています。

Google や他のほとんどの検索エンジンでは、リンクによって評判を判断しています。Google 検索結果におけるサイトの掲載順位は、そのサイトにリンクしている他のサイトの分析によっても影響を受けます。リンクに基づく分析はサイトの価値を測定する効果的な方法で、これによりウェブ検索の品質が大幅に向上しました。リンクの量に加え、より重要な点として品質が評価の対象となります。

[引用] 有料リンク

ほとんどの場合、Google は詳しい情報を提供されなくても、どのリンクが信頼できるものかを評価することができます。

[引用] サイトへのリンクを否認する

過去に リンク プログラム によるリンクの悪用と 手動対策 が大規模に繰り広げられた影響でリンク自体に悪い印象を持つ方もいるかもしれません。
(自分で紹介しておいてなんですが、リンクについて言及しているヘルプも悪い方面のものばかりです)

とはいえ、この記事だけでも他のサイトに大量にリンクを貼っているように、インターネット上の言及や引用ではリンクが発生するのは自然なことです。
現実世界と同様に、色々な場所で好意的に紹介されるコンテンツが、良い評判のあるコンテンツということです。

なお、PageRank は URL に対しての評価なのでページが無くなったり移転すると失われてしまいます。
ページやサイト移転 の際には 301 リダイレクト を行うと、PageRank などのシグナルを新 URL に正規化(統合)できます。

良いコンテンツとは?

簡単にまとめると、我々サイト運営者は 検索ユーザーの意図 を踏まえたうえで以下を満たせれば、「良いコンテンツ」を提供できていると言えるはずです。

  • Needs met(検索者のニーズを満たす)
  • 高品質(内容も E-E-A-T も)
  • 適切なフォーマット(ファイル形式や閲覧デバイス)

もう少し細かく言い換えると、検索者にとっての以下のような要素です。

  • 関連性
    • 求めているトピックと一致しているか
    • 検索の文脈に沿っているか
  • 品質
    • 内容は正確か
    • 評判が良いか
    • 信頼できるか
  • 可用性
    • ページが閲覧できるか
    • 安全か
    • 使いやすいか

よくランキング要因として話題に出るのは、こうした要素をさらに分解した個別の項目だと思いますが、それらの項目の重要度は Google 検索が判断した検索ニーズや時代背景に合わせて変化します。

下記の動画は クロールの説明で紹介した動画 よりも新しい「検索の仕組み」の解説動画です。



※ 自動翻訳の日本語字幕あり

新旧の動画を見比べると、解説されている内容の変わった部分、あるいは変わらない部分が比較できます。

なお、Google 社の公式ブログ(英語)では How Search Works という最新事例を集めたシリーズもあるので、より新しい情報を詳しく知りたい方はぜひ。

コンテンツ評価の指針

Google 検索は常に改善とアップデートを繰り返しています。
冒頭から繰り返し紹介しているポール・ハーさんの動画では、改善にあたって新しい指標を取り入れたり品質評価ガイドラインを修正したりすると 語られていました

そうした中で、Google 社からサイト運営者に向けて提供されている主なコンテンツの指針は以下の通りです。

  1. ウェブマスター向けガイドライン
  2. 検索エンジン最適化(SEO)スターター ガイド
  3. コンテンツ固有のガイドライン:上級ユーザー向けスタートガイド
  4. 質の高いサイトの作成方法についてのガイダンス
  5. Google のコア アップデートについてウェブマスターが知っておくべきこと

上記の指針を読むと、品質評価の観点が含まれていたり Google 検索が検索者に提供したいコンテンツについて書かれているのに気付くと思います。

場合による

Google 社員が我々サイト運営者へのアドバイスとして繰り返し「良いコンテンツを作ってください」と語るのは、検索ユーザーの意図とサイト運営者の提供している(できうる)コンテンツが千差万別で、改善ポイントが「場合による」からです。
自サイトの見込み顧客(検索ユーザー)が何を求めて検索しているのかを考えて、接点になるコンテンツを作って接触機会を増やしていくのは、サイト運営者ならむしろアドバイスされる前にやるべきであると自戒も込めて感じます。

そのうえで、サイト運営にあたっては検索エンジンへの技術的な配慮も必要なので、前述したクロールやレンダリングの問題や URL の管理など細かい点にも注意してください。
これもコガンさんの翻訳記事ですが、「SEO Mythbusting S2エピソード6:コンテンツとSEOの誤解を徹底解説」という記事が、そうした細かい点の参考になります。

まとめ

とても複雑な「Google 検索の仕組み」について、なるべく公式情報を中心に、初心者向けに解説してみました。
文中でも大量のリンクを使って情報ソースを紹介してきましたが、これだけ色々な箇所に説明が分かれているので調べるのも大変だと思います。(実際にすごく大変でした。この記事を書くのに数十時間は使ってるはずです)

とはいえ自分でも後で読み返して参考にできるので、また必要に応じてアップデート予定です。
それでは、またいつか!