copyright-jp >  サーチエンジン  > Google検索エンジンとランキングシステムの仕組み

Google検索エンジンとランキングシステムの仕組み-copyright-jp

Google検索エンジンとランキングシステムの仕組み |2023年12月16日

Googleは、完全に自動化された検索エンジンです。
GoogleがどのようにWEBサイトをインデックスし、評価して順位付けを行うのか、サイト運営者は知っておくべき事項です。
特に検索順位の決定方法はSEOの観点からも興味があるでしょう。

Googleの検索エンジンの仕組みについては、下記のページにて解説されています。
Google の検索エンジンの仕組み、検索結果と掲載順位について

Google検索の3つのステージの流れ

Google検索には、次の3つのステージがあります。

クロール:

Googleは、クローラーと呼ばれる自動プログラムを使用して、ウェブ上で見つけたページからテキスト、画像、動画をダウンロードします。

インデックス登録:

Googleは、見つけたページ上のテキスト、画像、動画ファイルを解析し、その情報を Googleインデックス(大規模なデータベース)に保存します。

検索結果の表示:

ユーザーが Google で検索すると、Google はユーザーの検索語句に関連する情報を返します。

Googlebotによるクロールとは

Googlebotとは、大規模なコンピュータ群を使用して、WEB上の数十億のページをクロール、つまりページを取得し読み込んで、さらにリンクをたどって別のページも取得して読み込むことを、自動的に繰り返し行うプログラムです。

この取得プログラムはGooglebotと呼ばれており、Bingなどの他の検索エンジンでも同様の動作を行う児童プログラム(ロボット)があります。
クローラー、ロボット、ボット、スパイダーなどと呼ばれることもあります。

Googlebotは新しいページや更新されたページを絶えず検出し、既知のページリストに加えます。
未知のページの検出をURL検出といい、リンクをたどって発見するほか、GoogleSearchConsoleの画面から、WEBサイト管理者がクロールのリクエストをすることもできます。
サイトに設置したサイトマップのXMLファイルからGooglebotがリンクをたどることもあるでしょう。

GooglebotがページのURLを検出すると、そのページにアクセスして内容を確認します。
Googlebotはクロール中、アクセスしたユーザーのブラウザと同じ挙動で、Chrome最新版を使用してページをレンダリングします。
かつては難しかったJavaScriptも実行してレンダリングすることができます。

Googleがすでにアクセスしたことのあるページは、既知のページとなります。

Googlebotは、クロールするサイト、クロール頻度、各サイトから取得するページ数をアルゴリズムにより決定します。
クロールの対象になるかどうかは、Googleのクローラーがサイトにアクセスできるかどうかのほか次の要因により決定されます。

  • サーバーによるサイトの処理に関する問題
  • ネットワークに関する問題
  • Googlebotによるページへのアクセスを制御するrobots.txt

インデックス登録

クローラーが収集したページと、そのグループについて収集された情報は、Googleインデックスに保存されます。
これをインデックスする、あるいはインデックス登録といいます。

インデックス登録されるGoogleデータベース

Googleインデックスは、何千台ものコンピュータでホストされている大規模な分散型データベースです。
一か所のデータベースに保存されているイメージではなく、検索するごとに順位が微妙に変わることがあるのも、検索結果を取得するデータベースが異なることがあるからかもしれません。

インデックス登録されない場合

インデックス登録されるかは、保証されているわけではなく、Googleが処理するページのすべてがインデックスに登録されるとは限りません。

次のような場合にインデックス登録がされないことがあります。

  • 重複コンテンツであり、正規ページではない
  • ページのコンテンツの品質が低い
  • robots meta ルールによってインデックス登録が禁止されている
  • ウェブサイトのデザインが原因でインデックス登録が困難になっている

正規ページの判定

インデックス登録を行う際、GoogleはページがWEB上の別のページの重複ページであるか、または正規ページであるかを判断します。
正規ページは、検索結果に表示される可能性のあるページです。

Googleが正規ページを判断するプロセスは、次の通りです。
インターネット上で見つけた同じようなコンテンツを含むページをグループ化(クラスタリング)し、グループを代表するページを正規のページとして選択します。
選択されなかった他のページは、ユーザーがモバイル検索をしたときや、特定のページを探している場合などに、表示される可能性のある代替バージョンと判断されます。

インデックス登録される情報

各ページの内容や付随する情報は、インデックス登録される際にGoogleが把握して保存します。
インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されます。(Google 検索における情報の整理方法

インデックス登録では、title要素やh1, h2, h3などの見出し要素、alt属性など、テキストコンテンツや主要なコンテンツのHTMLタグや属性、そして画像や動画などを処理して分析する作業までを行います。

また、Googleはページとコンテンツに関するシグナル、たとえばページの言語、コンテンツの配信元の国、ページの使いやすさなどの情報も保存します。
構造化データ、ページ同士のリンク、その他の各種データもインデックスに登録され、登録されたデータは検索結果を表示する際に役立てられます。

Googleのランキングアルゴリズムは、詳細は公開されていません。
1,000以上のランキング要因があり、日々ランキング要素は更新されます。

検索結果への表示

Google検索のランキングは、プログラムによって決定されます。
検索インデックスに登録されている膨大な数のウェブページとその他のコンテンツを分類し、最も関連性の高い有用な結果を瞬時に提示します。

ランキングプログラムの仕組み

もっとも有用な情報を表示するため、検索アルゴリズムはさまざまな要因とシグナルにと同期ランキングを決定します。
ランキング要因となるシグナルには、検索クエリの単語、ページの関連性や有用性、ソースの専門性、ユーザーの位置情報や設定などがあります。
各要因に適用される重み付けはクエリの性質によって異なります。
結果を自動的に生成する仕組み

ランキングは、検索クエリごとに決定されます。

検索クエリの意味

関連性の高い結果を返すには、ユーザーがどんな情報を探しているか、つまり検索クエリの背後にどんな意図があるかをまず理解する必要があります。
Googleでは、検索ボックスに入力された比較的少数の単語と、もっとも有益なコンテンツとのマッチングの程度を把握するための言語モデルを構築しています。

コンテンツの関連性

ランキングシステムはコンテンツを分析して、ユーザー意図に関連する可能性のある情報が含まれているかを評価します。

情報の関連性を評価するためのもっとも基本的なシグナルは、検索クエリと同じキーワードがコンテンツに含まれているかどうかです。
WEBページのに出現するキーワード、特に見出しや本文にクエリが含まれている場合には、そのページの情報は関連性が高い可能性があります。

コンテンツの質

ランキングシステムは、関連性のあるコンテンツを特定し、もっとも役立ちそうなコンテンツを優先しようとします。
そのために、どのコンテンツが専門性、権威性、信頼性を示しているか判定するために役立つシグナルを特定します。

判定を支援するために使用している要因の1つに、そのコンテンツへのリンクまたは言及が、他の著名なウェブサイトに含まれているか把握することがあります。
含まれていれば、多くの場合にはその情報の信頼性が高いことを示す十分なシグナルとなります。

Googleでは、検索品質評価プロセスからのフィードバックを集計し、より正確に情報の質を判定できるようシステムを改善しています。

ウェブサイトのユーザビリティ

Googlenのランキングシステムでは、コンテンツのユーザビリティも考慮されます。
どのコンテンツも大きな差がない場合には、ユーザーエクスペリエンスの観点からランキングが決定される可能性があります。

コンテキストと設定

現在地、過去の検索履歴、検索設定などの情報はすべて、検索の時点でもっとも有用で関連性が高い検索結果を確保するために役立っています。

ユーザーが行う検索の設定も重要です。
検索の設定では、使用する言語の指定、セーフサーチの有効化などができます。

ユーザーが入力したクエリとの関連性は、ユーザーの所在地、言語、デバイス(パソコンまたはスマートフォン)などの情報を含め、数多くの要素によって決まります。

Google検索のランキングシステム

Googleのさまざまなランキングシステム

Googleは、多種多様な要素やシグナルを検討する自動ランキング \システムを使用して、検索インデックスにある数千億のウェブページやその他のコンテンツから、最も関連性の高い、有益な結果が一瞬で表示されるようにしています。
Google検索ランキングシステムのご紹介

これらのシステムは厳格なテストと評価により定期的に改善され、重要な変更の際にはランキングシステムのアップデートの通知が行われています。

以下は、検索クエリに対して検索結果を生成する基盤テクノロジーである、Googleコアランキングシステムの代表的なアルゴリズムです。

BERT

BERT(Bidirectional Encoder Representations from Transformers)は、Google が使用するAIシステムです。
単語の組み合わせによって、多様な意味や意図がどのように表現されるかを理解できるようにするものです。

災害情報システム

個人の危機的状況、自然災害、その他の広範囲に及ぶ危機的状況など、あらゆる危機発生時に有用でタイムリーな情報を提供するためのシステムです。

Googleのシステムは、自殺、犯罪などに関連する検索クエリが入力されると、ユーザーが個人の危機にかかわる情報を探していると判断し、ホットラインや信頼できる組織が提供するコンテンツを表示する仕組みになっています。

自然災害時や広範囲に影響が及ぶ危機的状況下では、SOS 緊急情報システムにより地方自治体、国家機関、国際機関からの最新情報が表示されます。この情報には、緊急電話番号やウェブサイト、地図、役に立つフレーズの翻訳、寄付の方法などがあります。

重複除去システム

Googleで検索すると、数千、時には数百万の一致するウェブページが見つかることがあり、その中には、互いに非常に似通ったものがある可能性もあります。
そのような場合には、もっとも関連性の高い結果のみが表示され、有益性の低い重複内容は除去されます。

重複除去は強調スニペットでも発生し、強調スニペットに表示されたページがそれ以降の検索結果に出ることはありません。

完全一致ドメイン システム

Googleのランキングシステムでは、ドメイン名に含まれる単語を、コンテンツが検索に関連しているかどうかを判断するための多くの要素の一つとみなしています。
ただし、ドメイン名が特定の検索クエリと完全一致することを意図して付けられている場合に、そのドメインのコンテンツを過度に評価しないこととされています。

フレッシュネス システム

より鮮度の高いコンテンツが期待されると判断された検索クエリについて、そのようなコンテンツが上位に表示されるように、「検索クエリにふさわしい鮮度」を評価するさまざまなシステムを導入しています。

ヘルプフルコンテンツシステム

ヘルプフルコンテンツシステムは、検索エンジンのトラフィックを集めることを主な目的として作成されたコンテンツではなく、人間が人間のために作成した、独自性の高い有益なコンテンツが検索結果で表示されるようにするためのシステムです。

リンク分析システムとPageRank

Googleはさまざまなシステムを導入して、ページ間の相互リンクを理解し、ページの内容と、検索クエリに対してもっとも有益な情報を提供するページを判断しています。
その中でもPageRankは、Google がサービスを開始した当初から使用されているコアランキングシステムの一つです。
PageRankの研究論文「大規模なハイパーテキスト Web 検索エンジンの構造」
米国特許6,285,999「リンクされたデータベース内のノードをランク??付けする方法」

PageRankの仕組みは当時から大きく進化しており、コアランキングシステムの一部として機能し続けています。

ローカル ニュース システム

Googleは、「トップニュース」や「ローカルニュース」などの機能により、関連性の高い地域のニュース情報を特定して表示するためのシステムを導入しています。

MUM

MUM(Multitask Unified Model)は、言語の理解と生成の両方の機能を持つAIシステムです。
今は検索のランキング全般には使用されていませんが、COVID-19(新型コロナウイルス感染症)ワクチン情報の検索の改善や、強調スニペットのコールアウト表示の改善など、特定の用途で使用されています。

ニューラルマッチング

ニューラルマッチングは、検索クエリやページで表現されるコンセプトを理解して、それらを相互に関連付けるためにGoogleが使用するAIシステムです。

オリジナルコンテンツシステム

独自のレポートなど、独自性の高いコンテンツが、単にそれを引用したものよりも検索結果で上位に表示されて、目立つようにするためのシステムです。
その一つが特別な正規マークアップのサポートです。
ページ制作者は、ページが数か所で複製されている場合に、rel="canonical" などのマークアップを使用することで、どれがオリジナルかをGoogleに明確に伝えられます。

削除ベースの降格システム

Google では、特定の種類のコンテンツを削除できるポリシーを設けています。
特定のサイトに関連する削除通知が大量に処理されている場合には、その状況もシグナルとして使用し、検索結果の改善に役立てられます。
具体的には、法的手段による削除、個人情報の削除があります。

パッセージランキングシステム

パッセージランキングシステムは、ウェブページの個々のセクション(パッセージ)を特定して、ページが検索にどの程度関連しているかをよりよく理解するために使用するAIシステムです。

RankBrain

RankBrainは、単語がコンセプトにどのように関連しているかを理解するためのAIシステムです。
コンテンツと他の単語やコンセプトとの関連を理解することで、検索に使われた単語がすべて正確に含まれていなくても、関連するコンテンツをより適切に表示できるようになります。

信頼できる情報システム

権威性の高いページを表示して質の低いコンテンツの順位を下げるシステムや、質の高いジャーナリズムの順位を上げるシステムなど、複数のシステムがさまざまな形で機能して、可能な限りもっとも信頼性の高い情報が表示されます。

信頼性の高い情報が見つからない場合、あるいは、検索で得られる結果の全体的な質に関して高い信頼性を確保できない場合、急速に変化するトピックに関連したコンテンツに関する注意事項が自動的に表示されます。

レビューシステム

レビューシステムは、質の高いレビューコンテンツを高く評価することを目的としています。
質の高いレビューコンテンツとは、洞察に満ちた分析結果や独自の調査情報を提供するコンテンツ、および特定のトピックについて深い知識を持つ専門家や愛好者が書いたコンテンツのことです。

サイト多様性システム

サイト多様性システムは、検索結果の上位に同じサイトから2つ以上のウェブページが表示されないようにして、1つのサイトが上位の結果を独占しないようにするものです。
ただし、特定の検索に対して特に関連性が高いとシステムにより判断された場合は2つ以上表示されることがあります。

サイト多様性システムは通常、サブドメインをルートドメインの一部として処理します。
つまり、サブドメイン(subdomain.example.com)とルートドメイン(example.com)から抽出したデータは、すべて単一の同じサイトからの情報とみなされます。
ただし、関連性が高いと判断された場合、多様性を確保するためにサブドメインが別のサイトとして処理される場合もあります。

スパム検出システム

Googleは、スパムポリシーに違反するコンテンツや行為に対処するために、SpamBrainなどのさまざまなスパム検出システムを導入しています。
これらのシステムは継続的に更新されており、進化する最新のスパム手法に対応できるようになっています。

廃止されたシステム

廃止された以下のシステムは、後継のシステムの一部として組み込まれているか、コアランキングシステムの一部となっています。

Hummingbird

より適切で関連性の高いコンテンツを検索結果に表示させるハミングバードは、2013年8月にランキングシステム全体に加えられた大幅な改善です。
それ以降も、Googleのランキングシステムはこれまでと同様に進化し続けています。

Pandaシステム

高品質で独自性の高いコンテンツが検索結果に確実に表示されるように設計されパンダたシステムは、2011年に発表され、さらに開発されて2015年にはGoogleコアランキングシステムの一部となりました。

Penguinシステム

リンクスパム対策のために設計されたペンギンシステムは、2012年に発表され、2016年にGoogleコアランキングシステムに組み込まれました。


関連ページ:

サーチエンジン


■このページの著者:金原 正道

[PR]

copyright-jp

運営者:知財リーガルチャンネル(IP Legal Channel)
 |  | mail info@copyright.ne.jp

運営者情報

Copyright copyright-jp All Rights Reserved