SEO 初心者向け Google 検索の仕組み

こんにちは。takanoです。

いつも検索について詳しくない人と話すときに説明に苦労するのが、検索エンジンがどのようにウェブサイトを認識し検索結果に表示しているかの流れです。
Google 検索の公式ガイド もあるのですが、そもそも見ていない人も多いようです。

なので今日は、公式ヘルプの紹介もしながら、なるべくシンプルに Google 検索の仕組みをまとめてみたいと思います。
サイト運営者として、自サイトが検索結果に表示されるまでの仕組みを知ることは重要なので、おおまかな流れが理解できたら、ぜひ文中の参考リンクも確認してみてください。

はじめに

Google 検索がウェブサイトを検索結果に表示する流れ
[素材] いらすとや

上の図で簡単にまとめましたが、このような流れを経て各ウェブサイトのコンテンツは Google 検索の検索結果に表示されます。

「検索の仕組み」は全ての土台になる大事な概念なので、公式ヘルプも入門者向けと上級者向けが用意されています。

Google 検索の仕組み(入門向け)では、

  1. クロール
  2. インデックス登録
  3. 検索結果の表示(およびランキング)

の 3 ステップで語られていますが、最近はレンダリング(ブラウザの描画)の話題も多いので、この記事では 4 ステップの図にしています。

ここから各ステップの詳細を簡単に解説していきたいと思います。

クロール

Google 検索にウェブサイトが掲載されるための最初のステップがクロールです。
Googlebot と呼ばれるクローラー(スパイダー)がウェブサイトを巡回し、情報を収集します。

巡回する際には、既知の URL に存在するリンクや、サイトマップ で送信した URL のリストが利用されます。

このステップのは、「検索が情報を整理する仕組み」という公式ガイドに記載されています。
このガイド内にも貼られている下記の動画では、元 Google 社員のマット・カッツさんがクロールから検索結果の表示までの流れを 3 分程度で分かりやすく解説してくれています。



※ 日本語字幕あり

なお、Google が利用するクローラーにはウェブ検索用の Googlebot(モバイル / デスクトップ)以外にも画像や動画、広告用など様々な種類の bot が存在します。
[参考] Google クローラの概要(ユーザー エージェント)

サーチコンソールクロールの統計情報レポート では、それらのクローラーの来訪状況を一括で確認することが可能です。

クロールにおけるトラブルの例

「ページがインデックスされない」という問題が発生した際に、「クロールが正常にできていない」ことが原因の場合が多いです。
クロールされないことには Google 検索にページの情報が伝わらないので、以下のような点に注意してください。

サイトにアクセスできない場合
  1. Googlebot の IP アドレス を除外している(海外からのアクセス制限など)
  2. Googlebot の ユーザーエージェント を除外している(端末の判定など)
  3. Basic 認証や会員専用ページなど、パスワードで保護 されている
  4. robots.txtブロックしている
  5. robots.txt が 5xx(サーバーエラー)のステータス になっている
  6. URL パラメータ ツール でクロールしない設定にしている
アクセスできるけどクロールしづらい場合
  1. Googlebot がサイト内の リンクを利用できない
  2. クロールの効率が悪い
    • サーバーの応答やページの読み込みが遅い
    • レンダリングに必要なリソースが多い
    • リダイレクトが多い
    • 不要な URL を大量に生成している

Googlebot は基本的に海外(アメリカ)から来訪します。
なので、日本国内向けのサイトであっても海外の IP アドレスを一律でブロックしてしまうとクロールされなくなりますし、サーバーの応答時間についても国内のユーザーと比べてどうなのか注意が必要です。
これらの点については Spelldata 社の解説記事 が参考になります。
現在の クロールの統計情報レポート では bot の種類別に平均応答時間が確認できるので、興味のある方は利用してみてください。


公式ヘルプ「大規模サイト所有者向けのクロール割り当て管理ガイド」では、「クロールの必要性を決定する重要な要素(人気度など)」や「クロールに関する誤解と事実(読み込み速度 VS 人気度など)」のような興味深いコンテンツが多いので、クロールに興味がある方は必読です。

また、アユダンテ社の コガンさんが Google 公式の動画シリーズを翻訳した「SEO Mythbusting S2エピソード2:クロールバジェットを徹底的解説」も参考になります。

クロールのキューという概念

上述してきたクロールには「キュー(待ち行列)」という概念があります。
後述するレンダリングの段階でもキューという概念が存在するので、先に部分的に図解しておきました。

クロールのキュー

キューには以下のような URL が保存され、順番に処理されていきます。

なお、ヘルプにも記載 されていますが、同じ URL へのリクエストを何回してもクロールが早まることはありません。

次は、このクロールに続く段階である、パースとレンダリングについて解説します。

パース / レンダリング

このステップを経ることで Google 検索はコンテンツを理解し、インデックスに登録すべきかどうかを判断できます。

すごくざっくり書くと、パースは HTML の解析で、レンダリングは CSS や Javascript も含めた描画(ユーザーがブラウザで見るのと同じコンテンツ)です。

HTML の解析だけでコンテンツの内容は理解できそうに思うかもしれませんが、例えば Javascript は HTML の内容を書き換えることができるので、実際にユーザーが見るレンダリング後のコンテンツは初回のパース時とはかけ離れているかもしれません。

そのため、必要に応じてレンダリング前後で得られる情報を使い分けています。
[参考] Search Off the Record - Episode 05 / 01:42 付近英語書き起こし あり)

ブラウザの仕組み に詳しくない場合はパースとレンダリングの違いがややこしいですが、SEO においては以下のような点に注意が必要です。

パースとレンダリングでの注意点

「Googlebot がリンクをたどる」という表現がありますが、実際にはユーザーがブラウザ上で操作するように遷移を行うわけでなく、キューに溜まった URL に順次アクセスしていきます。
毎回シークレットウィンドウでアクセスするようなものなので、ページまたぎの Cookie やリファラ(参照元)等は期待できません。

SEO におけるパースとレンダリングの大きな差分は Javascript の実行ですが、その点については コガンさんの翻訳記事 が参考になります。

クロールの解説 で触れたように、レンダリングにおいてもキューという概念が存在します。

Googlebot が JavaScript を処理する仕組み
[引用] JavaScript SEO の基本を理解する

レンダリングのキューについては JADE 長山さんの解説記事 が詳しいので、ぜひ確認してみてください。

パースやレンダリングの話題は技術的な要素が強いので、少しとっつきにくいと思います。
とはいえ、あまり詳しくない場合でも、社内の開発者にこの辺りを共有すると意図せぬ事故を未然に防げるかもしれません。

さて、次の段階はインデックス登録です。

インデックス

まず「インデックス」とは、検索結果にコンテンツを表示するための情報源で、「情報が整理されて保存されたもの」です。
公式には下記のように説明されています。

Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。

[引用] 検索が情報を整理する仕組み


インデックスには ドキュメント ごとのメタデータ(付帯情報)も含まれます。
[参考] SMX West 2016 - How Google Works:A Google Ranking Engineer's Story / 06:15 付近(自動生成の英語字幕あり)

また、画像や動画など Web ページ以外のインデックスも存在します。
[参考] Search Off the Record - Episode 16 / 03:44 付近英語書き起こし あり)


インデックス自体の仕組みは検索エンジン内部の問題で、普段はほとんど意識する必要が無い領域です。
一方で、サイト運営者側としてインデックスを意識する必要があるのは「登録されているかどうか」についてです。
インデックスに登録されなければ検索結果に表示もされないので、この点については意識する必要があります。

インデックス登録におけるトラブルの例

詳細な理由は、サーチコンソールの インデックス カバレッジ レポートのステータス(エラー除外)で確認できるので、ここでは代表的なトラブルについて触れます。

一番最後の品質の問題については判断が難しく、他に技術的な問題が無い場合に疑うようにしています。ステータスとしては「クロール済み - インデックス未登録」に多い印象ですが、詳細はヘルプには記載されていません。

以下の動画で Google 社員のジョン・ミューラーさんが語った内容からすると、インデックスされないときに確認すべき技術的な項目はサイトによっても異なるので、品質の問題と断定して良いものかは場合による感じがします。



※ 自動翻訳の日本語字幕あり

インデックスに関わる例外的な話として、物理的なサーバー等の問題で検索結果に表示されない場合もあります。
下記の記事では、インデックスに関わる Google 社の内部的な基盤について触れられています。
よりマニアックな内容を知りたい方は読んでみてください。
[参考] Google 検索でインデックスの問題が発生: その対処法と教訓


クロールされ、無事にインデックスに登録されたら次は検索結果に表示される段階です。

ランキング

サイト運営者にとって一番気になるポイントかと思いますが、検索順位に関わる話は不正(スパム)防止の観点もあり、基本的にオープンにされていません。
また、検索ユーザーの動向やインターネットを取り巻く環境により細かく調整が入る部分でもあるので、汎用的にまとめることが困難です。

ここでは、2016 年に SMX West というイベントで Google 社のランキング・エンジニアであるポール・ハーさんが語った、検索クエリの入力から検索結果の配信までの解説をベースに考えてみたいと思います。



※ 動生成の英語字幕あり(スライドだけでも翻訳して見てください)

スライドの翻訳も面倒な場合は、SEO Japan のレポート記事 で大まかな流れだけでも確認してみてください。

ここからは、上記の動画に登場した主要な項目ごとに触れていきます。

検索アルゴリズム

Google 検索では、ユーザーが入力したキーワード(検索クエリ)に応じて 検索結果の配信 が行われます。
そこでは、以下のような処理が行われます。

  • 入力された単語の意味分析
  • 位置や履歴など文脈の考慮
  • 関連性の算出と品質の評価
  • 適切なフォーマットの選択

こうした処理や計算の際には様々な シグナル(信号や目印) が利用されます。
例えば、後述する検索の意図によっては検索者の現在位置は検索結果に強く影響します。

その点については、下記の動画がわかりやすく説明してくれています。



※ 自動翻訳の日本語字幕あり

検索アルゴリズムの概要について、個人的には公式ガイドの説明が一番わかりやすいと思うので、ぜひ確認してみてください。
[参考] 検索アルゴリズムの仕組み


ナレッジグラフ

実世界においてのエンティティ(物や存在)の情報を体系的に集積したものがナレッジグラフです。
入力された検索クエリの理解や、検索結果の拡張に利用されます。

下記の動画は 2012 年のものですが、視覚的に分かりやすいです。



※ 日本語字幕あり

リッチリザルトなど、検索結果で目立つ表示に利用されるので多数のサイトで導入が進んでいる 構造化データ ですが、これもページの中で何のエンティティについて語っているかのヒントになります。
[参考] Search Off the Record - Episode 08 / 08:35 付近英語書き起こし あり)

検索意図

2015 年から マイクロモーメント として語られ始めた

  • know(知りたい)
  • go(行きたい)
  • do(やりたい)
  • buy(買いたい)

であったり、下記の動画で触れられているような

  • インフォメーショナル(情報型)
  • ナビゲーショナル(誘導型)
  • トランザクショナル(購買型)

であったり、ユーザーによって検索している意図が異なるので、検索結果もそれに応じて アルゴリズムが配信 します。

あるいは、ニュース的なトピックなど新鮮さが大事な検索もあります。
この動画では、そのあたりをまとめて説明してくれています。



※ 自動翻訳の日本語字幕あり

大きなくくりでは上記のように分けられる検索の型ですが、サイト運営者の立場からすると、これだけが分かってもアクションには繋がりづらいです。
ユーザーごとに個別の検索意図を考えるにあたっては、アイレップ 渡辺さんの解説記事 が参考になります。

関連性と品質

良いコンテンツの条件として語られることの多い関連性と品質ですが、Google 検索自体も 関連性と品質を指標に改善 を行っています。

検索結果の改善手段は、外部協力者が検索結果の品質を評価するテストと、実際に Google 検索を利用するユーザー向けのテストです。
テストの詳細や具体的な件数などは、公式ガイドに記載してあります。
[参考] 緻密に精査する

上記のガイドでは、検索品質評価テストの評価者が実際に利用する品質評価ガイドラインもダウンロード可能です。
日本語で読みたい方は アイレップ社が公開している 2016 年版の翻訳 を確認してみてください。(2018 年からの更新履歴は 電通デジタル社が公開しています

評価者が判定するのは、あくまで検索結果の品質で、サイトやページの検索順位を直接決定するわけではありません。
一方で、その評価の観点はウェブサイト運営者としてもコンテンツ改善のヒントになります。

ここからは、品質評価ガイドラインの主要な評価指標について触れてみたいと思います。

Needs met とページ品質

検索エンジンの主要な役割は入力された検索クエリに関連性の高いコンテンツを返すことですが、関連性が高いのと品質が高いのは必ずしもイコールではありません。

そのギャップを測るために検索品質評価テストで、評価者が用いる基準が Needs met(ニーズを満たす)とページ品質という概念です。

Needs met は前述した 検索の意図 に合ったコンテンツを提供できているかということです。

ページ品質の評価の主要な要素として、E-A-T というコンセプト が利用されます。
それぞれ、以下の頭文字です。

  • Expertise(コンテンツ作成者の専門性)
  • Authoritativeness(ページやサイトの権威性)
  • Trustworthiness(ページやサイトの信頼性)

具体的に、検索品質評価ガイドラインでは、ページ品質評価の章で以下のように語られています。

3.1ページ品質評価:最も重要な要素

全体的なページ品質評価を選択する際に考慮すべき最も重要な要素は次のとおりです。

●ページの目的
●専門知識、信頼性、信頼性:これは重要な品質特性です。以下の追加要素に関する調査を使用して、評価を通知してください。
●メインコンテンツの品質と量:評価は、タスク URL のランディングページに基づいている必要があります。
●Web サイト情報 / MC の責任者に関する情報:Web サイトおよび MC の作成者に関する情報を検索します。
●ウェブサイトの評判 / MC の責任者に関する評判:評判調査に役立つリンクが提供されます。

[引用] 検索品質評価ガイドライン + Google 翻訳
※ MC = メインコンテンツのことです

品質評価ガイドラインには E-A-T の他に YMYL(Your Money, Your Life)という概念も登場しますが、商業的に運営しているウェブサイトの場合は程度の差はあれ金銭や暮らしに関わるはずなので、この記事では特に触れません。
このセクションで述べてきた概念に興味がある方は、前述した翻訳版の作成者である 電通デジタル 広岡さんの解説 がわかりやすいので確認してみてください。

自サイトの品質評価

品質評価ガイドラインは直接サイトの評価に利用されるものではないですが、Google 検索が検索者のニーズを満たす検索結果を作るための基準を知るのはサイト運営者にとってもメリットがあります。
つまり、自サイトのコンテンツを見直すうえで、そもそもの 情報の品質 を評価する観点を取り入れるということです。

Google 検索セントラル公式ブログの中でも、最適なコンテンツに関するアドバイスとして「品質評価ガイドラインと E-A-T について」という内容が紹介されています。

上記のブログでは E-A-T についての参考記事も紹介されているのですが、全て英語なので、日本語で読みたい方は以下の記事が参考になると思います。

  1. GoogleアルゴリズムでE-A-Tは重要な要素。E-A-Tを高めるための実践的Tipsとは?
  2. E-A-Tの仕組みをGoogleの特許から読み解く

評判

前述した 関連性と品質 のセクションで検索品質評価ガイドラインから引用した、品質評価者がページ品質を判断する際の要素には、評判という項目もありました。
Google 検索がインターネット上での評判を判断する大きな指標として、リンクと PageRank(ウェブ上の人気投票のような概念)があります。
SEO 界隈と PageRank という用語の関わりについては、今は Google 社員として活躍している ダニー・サリバンさんの解説記事(英語) が時代背景も含め参考になると思います。

PageRank と一般的な人気投票との違いは、下記の動画で解説されているように、リンクの量(投票数)への考慮がアルゴリズムで自動的に行われていることです。



※ 自動翻訳の日本語字幕あり

また、以下の公式ヘルプでも解説されているように、リンクの品質や信頼性も考慮されています。

Google や他のほとんどの検索エンジンでは、リンクによって評判を判断しています。Google 検索結果におけるサイトの掲載順位は、そのサイトにリンクしている他のサイトの分析によっても影響を受けます。リンクに基づく分析はサイトの価値を測定する効果的な方法で、これによりウェブ検索の品質が大幅に向上しました。リンクの量に加え、より重要な点として品質が評価の対象となります。

[引用] 有料リンク

ほとんどの場合、Google は詳しい情報を提供されなくても、どのリンクが信頼できるものかを評価することができます。

[引用] サイトへのリンクを否認する

過去に リンク プログラム によるリンクの悪用と 手動対策 が大規模に繰り広げられた影響でリンク自体に悪い印象を持つ方もいるかもしれません。
(自分で紹介しておいてなんですが、リンクについて言及しているヘルプも悪い方面のものばかりです)

とはいえ、この記事だけでも他のサイトに大量にリンクを貼っているように、インターネット上の言及や引用ではリンクが発生するのは自然なことです。
現実世界と同様に、色々な場所で好意的に紹介されるコンテンツが、良い評判のあるコンテンツということです。

なお、PageRank は URL に対しての評価なのでページが無くなったり移転すると失われてしまいます。
ページやサイト移転 の際には 301 リダイレクト を行うと、PageRank などのシグナルを新 URL に正規化(統合)できます。

良いコンテンツとは?

簡単にまとめると、我々サイト運営者は 検索ユーザーの意図 を踏まえたうえで以下を満たせれば、「良いコンテンツ」を提供できていると言えるはずです。

  • Needs met(検索者のニーズを満たす)
  • 高品質(内容も E-A-T も)
  • 適切なフォーマット(ファイル形式や閲覧デバイス)

もう少し細かく言い換えると、検索者にとっての以下のような要素です。

  • 関連性
    • 求めているトピックと一致しているか
    • 検索の文脈に沿っているか
  • 品質
    • 内容は正確か
    • 評判が良いか
    • 信頼できるか
  • 可用性
    • ページが閲覧できるか
    • 安全か
    • 使いやすいか

よくランキング要因として話題に出るのは、こうした要素をさらに分解した個別の項目だと思いますが、それらの項目の重要度は Google 検索が判断した検索ニーズや時代背景に合わせて変化します。

下記の動画は クロールの説明で紹介した動画 よりも新しい「検索の仕組み」の解説動画です。



※ 自動翻訳の日本語字幕あり

新旧の動画を見比べると、解説されている内容の変わった部分、あるいは変わらない部分が比較できます。

なお、Google 社の公式ブログ(英語)では How Search Works という最新事例を集めたシリーズもあるので、より新しい情報を詳しく知りたい方はぜひ。

コンテンツ評価の指針

Google 検索は常に改善とアップデートを繰り返しています。
冒頭から繰り返し紹介しているポール・ハーさんの動画では、改善にあたって新しい指標を取り入れたり品質評価ガイドラインを修正したりすると 語られていました

そうした中で、Google 社からサイト運営者に向けて提供されている主なコンテンツの指針は以下の通りです。

  1. ウェブマスター向けガイドライン
  2. 検索エンジン最適化(SEO)スターター ガイド
  3. コンテンツ固有のガイドライン:上級ユーザー向けスタートガイド
  4. 質の高いサイトの作成方法についてのガイダンス
  5. Google のコア アップデートについてウェブマスターが知っておくべきこと

上記の指針を読むと、品質評価の観点が含まれていたり Google 検索が検索者に提供したいコンテンツについて書かれているのに気付くと思います。

場合による

Google 社員が我々サイト運営者へのアドバイスとして繰り返し「良いコンテンツを作ってください」と語るのは、検索ユーザーの意図とサイト運営者の提供している(できうる)コンテンツが千差万別で、改善ポイントが「場合による」からです。
自サイトの見込み顧客(検索ユーザー)が何を求めて検索しているのかを考えて、接点になるコンテンツを作って接触機会を増やしていくのは、サイト運営者ならむしろアドバイスされる前にやるべきであると自戒も込めて感じます。

そのうえで、サイト運営にあたっては検索エンジンへの技術的な配慮も必要なので、前述したクロールやレンダリングの問題や URL の管理など細かい点にも注意してください。
これもコガンさんの翻訳記事ですが、「SEO Mythbusting S2エピソード6:コンテンツとSEOの誤解を徹底解説」という記事が、そうした細かい点の参考になります。

まとめ

とても複雑な「Google 検索の仕組み」について、なるべく公式情報を中心に、初心者向けに解説してみました。
文中でも大量のリンクを使って情報ソースを紹介してきましたが、これだけ色々な箇所に説明が分かれているので調べるのも大変だと思います。(実際にすごく大変でした。この記事を書くのに数十時間は使ってるはずです)

とはいえ自分でも後で読み返して参考にできるので、また必要に応じてアップデート予定です。
それでは、またいつか!