SEO 初心者向け Google 検索の仕組み

[2022-12-31：古い情報を更新し、新しいリンク先を追加しました]

こんにちは。takanoです。

いつも検索について詳しくない人と話すときに説明に苦労するのが、検索エンジンがどのようにウェブサイトを認識し検索結果に表示しているかの流れです。
Google 検索の公式ガイドもあるのですが、そもそも見ていない人も多いようです。

なので今日は、公式ヘルプの紹介もしながら、なるべくシンプルに Google 検索の仕組みをまとめてみたいと思います。
サイト運営者として、自サイトが検索結果に表示されるまでの仕組みを知ることは重要なので、おおまかな流れが理解できたら、ぜひ文中の参考リンクも確認してみてください。

はじめに
クロール
- クロールにおけるトラブルの例
  - サイトにアクセスできない場合
  - アクセスできるけどクロールしづらい場合
- クロールのキューという概念
パース / レンダリング
- パースとレンダリングでの注意点
インデックス
- インデックス登録におけるトラブルの例
検索結果の表示（ランキングも含む）
まとめ

はじめに

Google 検索がウェブサイトを検索結果に表示する流れ
[素材] いらすとや

上の図で簡単にまとめましたが、このような流れを経て各ウェブサイトのコンテンツは Google 検索の検索結果に表示されます。

「検索の仕組み」は全ての土台になる大事な概念なので、公式ヘルプでもマンガ付きでしっかり解説されています。

[参考] Google 検索の仕組みと検索結果について

Google 検索の仕組みに関するガイドでは、

クロール
インデックス登録
検索結果の表示（ランキングも含む）

の 3 ステップで語られていますが、レンダリング（ブラウザの描画）の話題も多いので、この記事では 4 ステップに分けて説明していきます。

まずは、導入として以下の動画を観てから読み進めてみてください。
（動画に登場する用語は、一部こちらの用語集でも紹介しています）

ここから各ステップの詳細を簡単に解説していきたいと思います。

クロール

Google 検索にウェブサイトが掲載されるための最初のステップがクロールです。
Googlebot と呼ばれるクローラー（スパイダー）がウェブサイトを巡回し、情報を収集します。

巡回する際には、既知の URL に存在するリンクや、サイトマップで送信した URL のリストが利用されます。

このステップは、「Google 検索における情報の整理方法」という公式ガイドで簡潔に紹介されています。
私が一番わかりやすいと思う下記の動画では、元 Google 社員のマット・カッツさんがクロールから検索結果の表示までの流れを 3 分程度で分かりやすく解説してくれています。

※ 日本語字幕あり

なお、Google が利用するクローラーにはウェブ検索用の Googlebot（モバイル / デスクトップ）以外にも画像や動画、広告用など様々な種類の bot が存在します。
[参考] Google クローラの概要（ユーザーエージェント）

サーチコンソールのクロールの統計情報レポートでは、それらのクローラーの来訪状況を一括で確認することが可能です。

クロールにおけるトラブルの例

「ページがインデックスされない」という問題が発生した際に、「クロールが正常にできていない」ことが原因の場合が多いです。
クロールされないことには Google 検索にページの情報が伝わらないので、以下のような点に注意してください。

サイトにアクセスできない場合

Googlebot の IP アドレスを除外している（海外からのアクセス制限など）
Googlebot のユーザーエージェントを除外している（端末の判定など）
Basic 認証や会員専用ページなど、パスワードで保護されている
robots.txt でブロックしている
robots.txt が 5xx（サーバーエラー）のステータスになっている
URL パラメータツールでクロールしない設定にしている

アクセスできるけどクロールしづらい場合

Googlebot がサイト内のリンクを利用できない
クロールの効率が悪い
- サーバーの応答やページの読み込みが遅い
- レンダリングに必要なリソースが多い
- リダイレクトが多い
- 不要な URL を大量に生成している

Googlebot は基本的に海外（アメリカ）から来訪します。
なので、日本国内向けのサイトであっても海外の IP アドレスを一律でブロックしてしまうとクロールされなくなりますし、サーバーの応答時間についても国内のユーザーと比べてどうなのか注意が必要です。
これらの点については Spelldata 社の解説記事が参考になります。
現在のクロールの統計情報レポートでは bot の種類別に平均応答時間が確認できるので、興味のある方は利用してみてください。

公式ヘルプ「大規模サイト所有者向けのクロール割り当て管理ガイド」では、「クロールの必要性を決定する重要な要素（人気度など）」や「クロールに関する誤解と事実（読み込み速度 VS 人気度など）」のような興味深いコンテンツが多いので、クロールに興味がある方は必読です。

また、アユダンテ社のコガンさんが Google 公式の動画シリーズを翻訳した「SEO Mythbusting S2エピソード2：クロールバジェットを徹底的解説」も参考になります。

クロールのキューという概念

上述してきたクロールには「キュー（待ち行列）」という概念があります。
後述するレンダリングの段階でもキューという概念が存在するので、先に部分的に図解しておきました。

クロールのキュー

キューには以下のような URL が保存され、順番に処理されていきます。

既に検出済みの URL
サイトマップで送信した URL
URL 検査ツールでリクエストした URL
ページ内のリンクや文字列（ソースコード）から検出した URL

なお、ヘルプにも記載されていますが、同じ URL へのリクエストを何回してもクロールが早まることはありません。

次は、このクロールに続く段階である、パースとレンダリングについて解説します。

パース / レンダリング

このステップを経ることで Google 検索はコンテンツを理解し、インデックスに登録すべきかどうかを判断できます。

すごくざっくり書くと、パースは HTML の解析で、レンダリングは CSS や Javascript も含めた描画（ユーザーがブラウザで見るのと同じコンテンツ）です。

HTML の解析だけでコンテンツの内容は理解できそうに思うかもしれませんが、例えば Javascript は HTML の内容を書き換えることができるので、実際にユーザーが見るレンダリング後のコンテンツは初回のパース時とはかけ離れているかもしれません。

そのため、必要に応じてレンダリング前後で得られる情報を使い分けています。
[参考] Search Off the Record - Episode 05 / 01:42 付近（英語書き起こしあり）

ブラウザの仕組みに詳しくない場合はパースとレンダリングの違いがややこしいですが、SEO においては以下のような点に注意が必要です。

パースとレンダリングでの注意点

noindex を発見した場合、その後のレンダリングが行われない
HTML の head タグが壊れると中身が無視される
Googlebot の機能に沿わない処理を期待する

「Googlebot がリンクをたどる」という表現がありますが、実際にはユーザーがブラウザ上で操作するように遷移を行うわけでなく、キューに溜まった URL に順次アクセスしていきます。
毎回シークレットウィンドウでアクセスするようなものなので、ページまたぎの Cookie やリファラ（参照元）等は期待できません。

SEO におけるパースとレンダリングの大きな差分は Javascript の実行ですが、その点についてはコガンさんの翻訳記事が参考になります。

クロールの解説で触れたように、レンダリングにおいてもキューという概念が存在します。

Googlebot が JavaScript を処理する仕組み
[引用] JavaScript SEO の基本を理解する

レンダリングのキューについては JADE 長山さんの解説記事が詳しいので、ぜひ確認してみてください。

パースやレンダリングの話題は技術的な要素が強いので、少しとっつきにくいと思います。
とはいえ、あまり詳しくない場合でも、社内の開発者にこの辺りを共有すると意図せぬ事故を未然に防げるかもしれません。

さて、次の段階はインデックス登録です。

インデックス

まず「インデックス」とは、検索結果にコンテンツを表示するための情報源で、「情報が整理されて保存されたもの」です。
公式には下記のように説明されています。

Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。

[引用] Google 検索における情報の整理方法

インデックスにはドキュメントごとのメタデータ（付帯情報）も含まれます。
[参考] SMX West 2016 - How Google Works:A Google Ranking Engineer's Story / 06:15 付近（自動生成の英語字幕あり）

また、画像や動画など Web ページ以外のインデックスも存在します。
[参考] Search Off the Record - Episode 16 / 03:44 付近（英語書き起こしあり）

インデックス自体の仕組みは検索エンジン内部の問題で、普段はほとんど意識する必要が無い領域です。
一方で、サイト運営者側としてインデックスを意識する必要があるのは「登録されているかどうか」についてです。
インデックスに登録されなければ検索結果に表示もされないので、この点については意識する必要があります。

インデックス登録におけるトラブルの例

詳細な理由は、サーチコンソールのインデックスカバレッジレポートのステータス（エラーと除外）で確認できるので、ここでは代表的なトラブルについて触れます。

クロールされていない（前述）
noindex を指定している
他の URL に正規化されている
別なプロパティで確認している
コンテンツの品質に問題がある

一番最後の品質の問題については判断が難しく、他に技術的な問題が無い場合に疑うようにしています。ステータスとしては「クロール済み - インデックス未登録」に多い印象ですが、詳細はヘルプには記載されていません。

以下の動画で Google 社員のジョン・ミューラーさんが語った内容からすると、インデックスされないときに確認すべき技術的な項目はサイトによっても異なるので、品質の問題と断定して良いものかは場合による感じがします。

※ 自動翻訳の日本語字幕あり

インデックスに関わる例外的な話として、物理的なサーバー等の問題で検索結果に表示されない場合もあります。
下記の記事では、インデックスに関わる Google 社の内部的な基盤について触れられています。
よりマニアックな内容を知りたい方は読んでみてください。
[参考] Google 検索でインデックスの問題が発生: その対処法と教訓

また、2022 年 12 月から上記のような物理的な障害が発生している場合に、Google 検索ステータスダッシュボードにて最新の状況が確認できるようになりました。

ダッシュボードで確認できるのは、この記事で紹介している以下の項目です。

Crawling（クロール）
Indexing（インデックス）
Serving（検索結果の表示）

もしアクセス解析などでトラフィックに違和感を感じた場合は、上記のダッシュボードを確認してみると原因が自サイトなのか Google 検索側なのかが判別しやすいです。
（RSS での通知もあります）

さて、少し話が脱線してしまいましたが本題に戻りましょう。
Web サイトがクロールされ、無事にインデックスに登録されたら次は検索結果に表示される段階です。

検索結果の表示（ランキングも含む）

サイト運営者にとって一番気になるポイントかと思いますが、検索順位に関わる話は不正（スパム）防止の観点もあり、基本的にオープンにされていません。
また、検索ユーザーの動向やインターネットを取り巻く環境により細かく調整が入る部分でもあるので、汎用的にまとめることが困難です。

ここでは、2016 年に SMX West というイベントで Google 社のランキング・エンジニアであるポール・ハーさんが語った、検索クエリの入力から検索結果の表示までの解説をベースに考えてみたいと思います。

※ 自動生成の英語字幕あり（スライドだけでも翻訳して見てください）

スライドの翻訳も面倒な場合は、SEO Japan のレポート記事で大まかな流れだけでも確認してみてください。

ここからは、上記の動画に登場した主要な項目ごとに触れていきます。

検索アルゴリズム

Google 検索では、ユーザーが入力したキーワード（検索クエリ）に応じて検索結果の表示が行われます。
そこでは、以下のような処理が行われます。

入力された単語の意味分析
位置や履歴など文脈の考慮
関連性の算出と品質の評価
適切なフォーマットの選択

こうした処理や計算の際には様々なシグナル（信号や目印）が利用されます。
例えば、後述する検索の意図によっては検索者の現在位置は検索結果に強く影響します。

その点については、下記の動画がわかりやすく説明してくれています。

※ 自動翻訳の日本語字幕あり

検索アルゴリズムの概要について、個人的には公式ガイドの説明が一番わかりやすいと思うので、ぜひ確認してみてください。
[参考] 結果を自動的に生成する仕組み

また、ランキングの際に利用される各システムの一覧は公式ドキュメントで公開されているので、興味のある方は確認してみてください。
[参考] Google 検索ランキングシステムのご紹介

ナレッジグラフ

実世界においてのエンティティ（物や存在）の情報を体系的に集積したものがナレッジグラフです。
入力された検索クエリの理解や、検索結果の拡張に利用されます。

下記の動画は 2012 年のものですが、視覚的に分かりやすいです。

※ 日本語字幕あり

リッチリザルトなど、検索結果で目立つ表示に利用されるので多数のサイトで導入が進んでいる構造化データですが、これもページの中で何のエンティティについて語っているかのヒントになります。
[参考] Search Off the Record - Episode 08 / 08:35 付近（英語書き起こしあり）

検索意図

2015 年からマイクロモーメントとして語られ始めた

know（知りたい）
go（行きたい）
do（やりたい）
buy（買いたい）

であったり、下記の動画で触れられているような

インフォメーショナル（情報型）
ナビゲーショナル（誘導型）
トランザクショナル（購買型）

であったり、ユーザーによって検索している意図が異なるので、検索結果もそれに応じてアルゴリズムが配信します。

あるいは、ニュース的なトピックなど新鮮さが大事な検索もあります。
この動画では、そのあたりをまとめて説明してくれています。

※ 自動翻訳の日本語字幕あり

大きなくくりでは上記のように分けられる検索の型ですが、サイト運営者の立場からすると、これだけが分かってもアクションには繋がりづらいです。
ユーザーごとに個別の検索意図を考えるにあたっては、アイレップ渡辺さんの解説記事が参考になります。

評判

Google 検索がサイトやページのインターネット上での評判を判断する大きな指標として、リンクと PageRank（ウェブ上の人気投票のような概念）があります。
SEO 界隈と PageRank という用語の関わりについては、今は Google 社員として活躍しているダニー・サリバンさんの解説記事（英語）が時代背景も含め参考になると思います。

PageRank と一般的な人気投票との違いは、下記の動画で解説されているように、リンクの量（投票数）への考慮がアルゴリズムで自動的に行われていることです。

※ 自動翻訳の日本語字幕あり

また、以下の公式ヘルプでも解説されているように、リンクの品質や信頼性も考慮されています。

Google や他のほとんどの検索エンジンでは、リンクによって評判を判断しています。Google 検索結果におけるサイトの掲載順位は、そのサイトにリンクしている他のサイトの分析によっても影響を受けます。リンクに基づく分析はサイトの価値を測定する効果的な方法で、これによりウェブ検索の品質が大幅に向上しました。リンクの量に加え、より重要な点として品質が評価の対象となります。

[引用] 有料リンク

ほとんどの場合、Google は詳しい情報を提供されなくても、どのリンクが信頼できるものかを評価することができます。

[引用] サイトへのリンクを否認する

過去にリンクプログラムによるリンクの悪用と手動対策が大規模に繰り広げられた影響でリンク自体に悪い印象を持つ方もいるかもしれません。
（自分で紹介しておいてなんですが、リンクについて言及しているヘルプも悪い方面のものばかりです）

とはいえ、この記事だけでも他のサイトに大量にリンクを貼っているように、インターネット上の言及や引用ではリンクが発生するのは自然なことです。
現実世界と同様に、色々な場所で好意的に紹介されるコンテンツが、良い評判のあるコンテンツということです。

なお、PageRank は URL に対しての評価なのでページが無くなったり移転すると失われてしまいます。
ページやサイト移転の際には 301 リダイレクトを行うと、PageRank などのシグナルを新 URL に正規化（統合）できます。

良いコンテンツとは？

簡単にまとめると、我々サイト運営者は検索ユーザーの意図を踏まえたうえで以下を満たせれば、「良いコンテンツ」を提供できていると言えるはずです。

Needs met（検索者のニーズを満たす）
高品質（内容も E-E-A-T も）
適切なフォーマット（ファイル形式や閲覧デバイス）

もう少し細かく言い換えると、検索者にとっての以下のような要素です。

関連性
- 求めているトピックと一致しているか
- 検索の文脈に沿っているか
品質
- 内容は正確か
- 評判が良いか
- 信頼できるか
可用性
- ページが閲覧できるか
- 安全か
- 使いやすいか

よくランキング要因として話題に出るのは、こうした要素をさらに分解した個別の項目だと思いますが、それらの項目の重要度は Google 検索が判断した検索ニーズや時代背景に合わせて変化します。

下記の動画はクロールの説明で紹介した動画よりも新しい「検索の仕組み」の解説動画です。

※ 自動翻訳の日本語字幕あり

新旧の動画を見比べると、解説されている内容の変わった部分、あるいは変わらない部分が比較できます。

なお、Google 社の公式ブログ（英語）では How Search Works という最新事例を集めたシリーズもあるので、より新しい情報を詳しく知りたい方はぜひ。

コンテンツ評価の指針

Google 検索は常に改善とアップデートを繰り返しています。
冒頭から繰り返し紹介しているポール・ハーさんの動画では、改善にあたって新しい指標を取り入れたり品質評価ガイドラインを修正したりすると語られていました。

そうした中で、Google 社からサイト運営者に向けて提供されている主なコンテンツの指針は以下の通りです。

上記の指針を読むと、品質評価の観点が含まれていたり Google 検索が検索者に提供したいコンテンツについて書かれているのに気付くと思います。

場合による

Google 社員が我々サイト運営者へのアドバイスとして繰り返し「良いコンテンツを作ってください」と語るのは、検索ユーザーの意図とサイト運営者の提供している（できうる）コンテンツが千差万別で、改善ポイントが「場合による」からです。
自サイトの見込み顧客（検索ユーザー）が何を求めて検索しているのかを考えて、接点になるコンテンツを作って接触機会を増やしていくのは、サイト運営者ならむしろアドバイスされる前にやるべきであると自戒も込めて感じます。

そのうえで、サイト運営にあたっては検索エンジンへの技術的な配慮も必要なので、前述したクロールやレンダリングの問題や URL の管理など細かい点にも注意してください。
これもコガンさんの翻訳記事ですが、「SEO Mythbusting S2エピソード6：コンテンツとSEOの誤解を徹底解説」という記事が、そうした細かい点の参考になります。

まとめ

とても複雑な「Google 検索の仕組み」について、なるべく公式情報を中心に、初心者向けに解説してみました。
文中でも大量のリンクを使って情報ソースを紹介してきましたが、これだけ色々な箇所に説明が分かれているので調べるのも大変だと思います。（実際にすごく大変でした。この記事を書くのに数十時間は使ってるはずです）

とはいえ自分でも後で読み返して参考にできるので、また必要に応じてアップデート予定です。
それでは、またいつか！

takanoブログ

SEO 初心者向け Google 検索の仕組み

はじめに

クロール

クロールにおけるトラブルの例

サイトにアクセスできない場合

アクセスできるけどクロールしづらい場合

クロールのキューという概念

パース / レンダリング

パースとレンダリングでの注意点

インデックス

インデックス登録におけるトラブルの例

検索結果の表示（ランキングも含む）

検索アルゴリズム

ナレッジグラフ

検索意図

関連性と品質

Needs met とページ品質

自サイトの品質評価

評判

良いコンテンツとは？

コンテンツ評価の指針

場合による

まとめ