抄録
大規模言語モデル(LLM)の出現は、ユーザーのクエリに答えるために情報を収集し要約する生成モデルを使用する検索エンジンの新しいパラダイムを切り開いた。私たちは、この新たな技術を、正確でパーソナライズされた回答を生成し、GoogleやBingなどの従来の検索エンジンに急速に取って代わる、ジェネレーティブエンジン(GEs)の傘下に統一する。ジェネレーティブエンジンは通常、複数のソースからの情報を組み合わせ、LLMを使用して要約することで、クエリを満たす。このシフトは、ユーザーの有用性と生成型検索エンジンへのトラフィックを大幅に増加させたが、第3のステークホルダーであるウェブサイトやコンテンツ制作者に大きな課題を投げかけている。生成エンジンのブラックボックス的で急速に変化する性質を考えると、コンテンツ作成者は、いつ、どのようにコンテンツが表示されるかをほとんどコントロールできない。ジェネレーション・エンジンが普及するにつれ、クリエイター・エコノミーが不利益を被らないようにしなければならない。この目的のために、コンテンツ制作者が柔軟なブラックボックス最適化フレームワークを通じて可視性メトリクスを最適化および定義することにより、ジェネレーションエンジンのレスポンスにおけるコンテンツの可視性を向上させることを支援する最初の新しいパラダイムである、ジェネレーションエンジン最適化(GEO)を紹介します。複数のドメインからの多様なユーザークエリと、これらのクエリに答えるための関連するウェブリソースを含む大規模なベンチマークであるGEO-benchを導入することで、体系的な評価を容易にします。厳密な評価を通じて、GEOが生成エンジンの応答における可視性を401 TP3 Tも改善できることを実証する。さらに、異なるドメインにわたるこれらの戦略の有効性を示し、ドメイン固有の最適化アプローチの必要性を強調する。我々の研究は、コンテンツ制作者だけでなく、生成エンジン開発者にも広く影響を与える、情報発見システムの新たなフロンティアを開くものである。
CCSコンセプト
- 計算方法論 → 自然言語処理、機械学習;
- 情報システム → ウェブ検索と情報発見。
笑い草
モデル、検索エンジン、データセット、ベンチマークの生成
ACMリファレンス・フォーマット
Pranjal・Aggarwal、Vishvak・Murahari、Tanmay・Rajpurohit、Ashwin・Kalyan、Karthik・Narasimhan、Ameet・Deshpande。 知識発見とデータマイニングに関する第30回ACM SIGKDD会議予稿集(KDD '24), 25-29 August 2024, Barcelona, Spain. ACM, New York, NY, USA, 12 pp. https://doi.org/10.1145/3637528.3671900
1 はじめに
30年前、従来の検索エンジンが発明され、情報へのアクセスと世界的な普及の方法に革命をもたらした[4]。検索エンジンは強力で、学術研究や電子商取引など数多くのアプリケーションを生み出したが、ユーザーのクエリに対して関連するウェブサイトのリストを提供するに留まっていた。しかし、近年の大規模言語モデル[5, 21]の成功により、BingChat、GoogleのSGE、perplexity.aiなど、従来の検索エンジンと生成モデルを組み合わせた、より優れたシステムへの道が開かれた。これらのシステムは、複数のソースを使用して情報を検索し、マルチモーダルな応答を生成するため、生成エンジン(GE)と呼ぶ。技術的には、生成エンジン(図2参照)は、データベース(インターネットなど)から関連文書を検索し、大規模なニューラルネットワークモデルを使用して、帰属を保証し、ユーザーに情報を確認する方法を提供するソースベースの応答を生成する。
図1: 私たちが提案するジェネレーティブ・エンジン最適化(GEO)アプローチは、ジェネレーティブ・エンジンのレスポンスにおけるビジビリティを向上させるためにウェブサイトを最適化します。GEOのブラックボックス最適化フレームワークは、そうでなければ可視性に欠けるピザウェブサイトのサイト所有者が、生成エンジンの下で可視性を向上させるためにウェブサイトを最適化することを可能にします。さらに、GEOのジェネリックフレームワークは、コンテンツ制作者が独自の可視性メトリクスを定義し、最適化することを可能にし、それによってこの新しいパラダイムにおいてより大きなコントロールを得ることができます。
ユーザーはより速く、より正確に情報にアクセスすることができ、開発者は正確でパーソナライズされたレスポンスを作成することができる。しかし、ジェネレーション・エンジンは、第三の利害関係者であるウェブサイトやコンテンツ制作者に対して機能する。従来の検索エンジンとは異なり、世代エンジンはウェブサイトに移動する必要性をなくし、正確で包括的な回答を直接提供することで、潜在的にウェブサイトのオーガニックトラフィックを減らし、その可視性に影響を与える[16]。何百万もの中小企業や個人がオンライントラフィックと知名度に頼って生活しているため、ジェネレーションエンジンはクリエイター経済を大きく混乱させるだろう。さらに、ジェネレーションエンジンのブラックボックス的で専有的な性質は、コンテンツクリエイターが自分たちのコンテンツがどのように取り込まれ、表示されるかをコントロールし、理解することを難しくしている。
本稿では、コンテンツ作成者がこの新しい検索パラダイムをナビゲートできるよう、ジェネレーションエンジン最適化(GEO)と呼ぶ、ジェネレーションエンジンにおけるコンテンツを最適化するための、初の一般的な作成者中心のフレームワークを紹介する。GEOは、プロプライエタリなジェネレーションエンジンとクローズドソースのジェネレーションエンジンの両方において、ウェブコンテンツの可視性を最適化するための柔軟なブラックボックス最適化フレームワークである(図1)。GEOは、ソースのウェブサイトを取り込み、プレゼンテーション、テキストスタイル、およびコンテンツを調整および較正することで、生成エンジンでの視認性を高める最適化されたバージョンを出力します。
加えて、GEO は、ジェネレイティブエンジンにおけるビジビリティの概念は、従来の検索エンジンよりも繊細で多面的であるため、ジェネレイティブエンジン専用に設計されたビジビリティ測定基準を定義するための柔軟なフレームワークを導入している(図 3)。平均的なランキングは、ウェブサイトの直線的なリストを提示する従来の検索エンジンのレスポンスページでは良いビジビリティ指標であるが、ジェネレイティブエンジンには当てはまらない。ジェネレーションエンジンは、リッチで構造化されたレスポンスを提供し、レスポンス内にインライン参照としてウェブサイトを埋め込みます。このため、客観的および主観的な視点を通じて、クエリに対する引用の関連性や影響度など、複数の側面から引用ソースの可視性を測定する、生成エンジン専用に設計された可視性メトリクスが必要となります。
図2:生成エンジンの概要。生成エンジンは主に、生成モデルのセットと、関連文書を検索するための検索エンジンで構成される。生成エンジンはユーザーのクエリを入力として受け取り、一連のステップを経て、検索されたソースに基づく最終的な応答を、インラインの属性付きで生成する。
GEO手法の忠実かつ広範な評価を容易にするために、我々は、生成エンジンに適合させた、複数のドメインとソースからの10,000のクエリを含むベンチマークであるGEO-benchを提示する。
体系的な評価を通じて、我々の生成エンジン最適化アプローチが、様々なクエリの可視性を最大401 TP3T改善できることを実証し、コンテンツ作成者に有用な戦略を提供する。また、実際の生成エンジンであるPerplexity.ai上で、生成エンジン最適化の有効性を実証し、最大371 TP3Tの視認性向上を実証しました。
つまり、我々の貢献は3つある:
- ジェネレーション・エンジン最適化は、ウェブサイト所有者がジェネレーション・エンジン向けにウェブサイトを最適化するための、初の汎用最適化フレームワークです。Generation Engine Optimisationは、幅広いクエリ、ドメイン、実際のブラックボックス生成エンジンにおいて、ウェブサイトの可視性を最大40%向上させることができます。
- 私たちのフレームワークは、ジェネレーションエンジンのために特別に設計された可視性メトリクスの包括的なセットを提案し、コンテンツ作成者にカスタム可視性メトリクスでコンテンツを最適化する柔軟性を与えます。
- ジェネレーティブエンジンにおけるGEO手法の忠実な評価を容易にするために、ジェネレーティブエンジン用に特別に調整された、幅広いドメインとデータセットからの多様な検索クエリを含む最初の大規模ベンチマークを提示する。
2 フォーミュレーションと調査方法
2.1 発電エンジンの定式化
数多くの生成エンジンが何百万人ものユーザーに導入されているが、標準化されたフレームワークは存在しない。我々は、生成エンジンの設計の様々なモジュール化されたコンポーネントに対応できる定式化を提供する。いくつかのバックエンド生成モデルと、ソース検索のための検索エンジンを含む生成エンジンについて説明する。生成エンジン(GE)は、ユーザーのクエリ qu という自然言語の応答を返す。 rどの PU GEは関数として表すことができる:
fGE := (qu, PU) → r
生成エンジンには、次の2つの主要コンポーネントが含まれる。 G = {G1, G2, …, Gn各モデルは、クエリの書き換えや要約など、特定の目的を持っている。 SEクエリー qを返す。 S = {s1, s2, …, sm}図2に代表的なワークフローを示すが、本稿執筆時点では、BingChatの設計に非常に似ている。このワークフローは、入力されたクエリを、検索エンジンによって消費されやすい、より単純なクエリのセットに分解する。クエリが与えられると、クエリ書き換えのための生成モデル G1 = Gqr クエリーのセットを生成する Q1 = {q1, q2, …, qnを検索エンジンに渡す。 SE ランク付けされたソースのセットを取得する S = {s1, s2, …, sm}ソースセット S は要約モデルに渡される G2 = G合計各ソースについて要約を生成する。 サムjしたがって、要約セット(サム = {サム1, サム2, …, サムm}).要約セットはレスポンス生成モデルに渡される G3 = Gレスプそれは、ソースに裏打ちされた累積的な反応を生成する。 r.この研究では、単ラウンド生成エンジンに焦点を当てるが、定式化は多ラウンド対話生成エンジンに拡張することができる(付録A)。
レスポンシブ r LLMは通常、参照文献が埋め込まれた構造化テキストである。LLMが幻の情報を生成する傾向があることから[10]、参照は非常に重要である。具体的には、次のような文章{}で構成されるテキストを考える。l1, l2, …, lo} 構成レスポンス r.各文章は、検索された文書の集合である引用文献の集合によってサポートされる。 Ci ⊂ S 回答の一部である。理想的な生成エンジンは、応答中のすべての文が関連する引用によってサポートされ(高い引用想起)、すべての引用が関連する文を正確にサポートする(高い引用精度)ことを保証すべきである[14]。代表的な生成エンジンの応答については、図3を参照されたい。
2.2 世代エンジンの最適化
検索エンジンの発明は、検索エンジン最適化(SEO)につながった。SEOは、ウェブサイトの作成者が検索エンジンのランキングを上げるためにコンテンツを最適化するプロセスである。上位に表示されるほど、知名度が上がり、ウェブサイトのトラフィックも増える。しかし、従来のSEO手法は、ジェネレーション・エンジンには直接適用できない。というのも、従来の検索エンジンとは異なり、生成エンジンの生成モデルはキーワードのマッチングに限定されず、ソース文書の取り込みとレスポンスの生成に言語モデルを使用することで、テキスト文書とユーザークエリのより微妙な理解につながるからだ。生成エンジンが急速に情報配信の主流パラダイムになりつつあり、SEOは直接適用できないため、新しいテクニックが必要とされている。この目的のために、コンテンツ制作者がジェネレーションエンジンのレスポンスにおける可視性(または印象)を高めることを目指す新しいパラダイム、ジェネレーションエンジン最適化を提案する。これは、次のような機能を通じて行われる。 インプ(ci, r) サイトの定義(引用とも呼ばれる)ci 生成されたレスポンスでは r を最大化することである。生成エンジンの観点からは、目標はユーザーのクエリに最も関連する参照の可視性を最大化すること、すなわちΣを最大化することである。if(インプ(ci, r), レル(ci, q, r))、ここで レル(ci, q, rに対する測定 r の文脈で引用されている。 ci お問い合わせ q の間に相関がある。 f 生成エンジンの正確なアルゴリズム設計によって決定され、エンドユーザーにとってはブラックボックス的な機能である。また インプ 歌で応える レル は主観的なものであり、世代エンジンの明確な定義はまだない。
2.2.1 ジェネレーション・エンジンの印象
SEOでは、サイトのインプレッション(またはビジビリティ)は、複数のクエリでの平均順位によって決定される。しかし、世代エンジンの出力特性は、異なるインプレッション測定基準を必要とする。検索エンジンとは異なり、生成エンジンは複数のソースからの情報を1つのレスポンスにまとめます。引用サイトの長さ、独自性、プレゼンテーションが、引用の真のビジビリティを決定する。したがって、図3に示すように、従来の検索エンジンでは、レスポンスページの単純なランキングがインプレッションと可視性の有効な指標として機能しますが、ジェネレーションエンジンのレスポンスにはそのような指標は適用されません。
図3:従来の検索エンジンでは、ランキングとビジビリティの指標は単純で、ウェブサイトのソースをランク順にリストアップし、コンテンツを逐語的に表示する。しかし、ジェネレイティブエンジンは、リッチで構造化されたレスポンスを生成し、多くの場合、引用をブロックに埋め込み、互いにインターリーブする。このため、ランキングと可視性は微妙で多面的なものとなる。さらに、視認性を向上させるために多くの研究が行われてきた検索エンジンとは異なり、生成エンジンのレスポンスにおける視認性の最適化は依然として不明確なままである。これらの課題に対処するため、私たちのブラックボックス最適化フレームワークは、クリエイターがサイトのパフォーマンスを測定し最適化するために使用できる、適切に設計されたインプレッションメトリクスのセットを提案し、クリエイターがインプレッションメトリクスを定義できるようにします。
この課題に対処するために、私たちは3つの主要な原則を念頭に置いて設計された一連の印象メトリクスを提案します:1.それらはクリエイターにとって適切であるべきであり、2.それらは解釈可能であるべきであり、3.それらは幅広いコンテンツクリエイターによって容易に理解されるべきである。そのようなメトリックの第一は、引用に関連する文中の単語数を正規化した「単語数」メトリックである。数学的には次のように定義される:
インプダブリューシー(ci, r) = (Σs∈Sci |s|) / (Σs∈Sr |s|)
以下は Sci は引用 ci のセンテンス集。Sr はレスポンスに含まれる文の集合である。s| は文の単語数である。1つの文が複数のソースによって引用されている場合、すべての引用間で単語数を均等に分配します。直感的には、単語数が多いほど、そのソースが回答で果たす役割が重要であるため、ユーザがそのソースに接する機会が多くなります。
しかし、「単語数」は引用順位(例えば、1位に表示されるかどうか)に影響されないため、引用順位の指数関数的減衰によって重みを減らす順位調整カウントを提案する:
インプPwc(ci, r) = (Σs∈Sci |s| - e-pos(s)/|S|)) / (Σs∈Sr |s|)
直感的には、回答文の前方にある文ほど読まれる可能性が高い。 インプPwc のインデックス用語は、このような引用に高い重みを与える。したがって、単語数が少ないにもかかわらず、一番上にあるサイトの引用は、真ん中や最後にあるサイトの引用よりも高い印象を与える可能性がある。さらに、指数関数的な減衰関数の選択は、検索エンジンのランキングの関数としてのクリックスルー率がべき乗則に従うことを示すいくつかの研究[7, 8]に触発された。前述のインプレッションメトリクスは客観的で十分な根拠がある一方で、ユーザーの注意に関する引用の主観的な側面を無視しています。この問題に対処するために、我々は、関連性、引用のインパクト、引用のプレゼンテーションの独自性、主観的な位置、主観的なカウント、引用をクリックする確率、およびプレゼンテーションの多様性などの要素を組み込んだ「主観的な印象」メトリックを提案する。これらのサブ指標は、LLMの使用を評価するための最新の技術であるG-Eval [15]を使用して測定します。
2.2.2 ウェブサイトの生成エンジン最適化手法
インプレッション指標を改善するために、コンテンツ制作者はウェブサイトのコンテンツに変更を加える必要があります。私たちは、ジェネレーションエンジン最適化(GEO)手法と呼ばれる、ジェネレーションエンジンに依存しない戦略をいくつか提案します。数学的には、各GEO手法は以下の関数です。 f: W → W'iどの W は初期のサイト・コンテンツである。W' は、GEOメソッドが適用された後に修正される内容です。修正内容は、単純なスタイルの変更から、構造化されたフォーマットでの新しいコンテンツの追加まで、多岐にわたります。よく設計されたGEOは、生成エンジンの正確なアルゴリズム設計を知らなくてもウェブサイトの可視性を向上させ、正確なクエリとは無関係にテキストを修正するブラックボックス最適化手法に相当します。
私たちの実験では、大規模な言語モデルを使用してWebサイトのコンテンツにジェネレーションエンジン最適化のアプローチを適用し、Webサイトに特定のスタイルとコンテンツの変更を実行するように促します。特に、ソースコンテンツは、望ましい特徴の特定のセットを定義するGEOメソッドに基づいて適宜変更されます。以下の方法を提案し、評価する:
- 権威だ:より説得力と権威のあるものにするために、ソース・コンテンツのテキスト・スタイルを修正する。
- 統計を追加する:可能な限り、定性的な議論ではなく、定量的な統計を含むように内容を修正する。
- キーワードの詰め込み:古典的なSEO最適化で予想されるように、クエリからより多くのキーワードを含むようにコンテンツを修正する。
- 引用元 & 5. 引用を加える:信頼できる情報源から、それぞれ関連する参考文献や引用を加えること。
- わかりやすい:サイトの言語を簡素化し、7. 流動性の最適化サイトの文章の流れを改善。
- 独特の語彙 & 9. 専門用語:可能な限り、ユニークな専門用語を加える。
これらの方法は、ウェブサイトの所有者が迅速に実行でき、ウェブサイトのコンテンツに関係なく使用できる汎用的な戦略の多様な範囲をカバーしています。また、方法3、4、5を除いて、残りの方法は、コンテンツを追加することなく、既存のコンテンツのプレゼンテーションを強化し、生成エンジンにとってより説得力のある、または魅力的なものにします。一方、方法3、4、5は、何らかの形で追加コンテンツを必要とする可能性がある。私たちの手法のパフォーマンス向上を分析するために、各入力ユーザークエリに対して、最適化するソースウェブサイトをランダムに選択し、同じソースに対して各GEO手法を個別に適用します。GEO 手法の詳細については、付録 B.4 を参照。
3 実験セットアップ
3.1 生成エンジンの評価
先行研究 [14] に基づいて、生成エンジンの設計に 2 ステップのセットアップを使用します。第 1 段階では、入力クエリに関連するソースをフェッチし、第 2 段階では、フェッチされたソースに基づいて LLM がレスポンスを生成します。以前の研究と同様に、要約は使用せず、各ソースに対する応答全体を提供します。コンテキストの長さの制限と、変換モデルに基づくコンテキスト・サイズのセカンダリ・スケーリングにコストがかかるため、各クエリに対して、最初の 5 つのソースのみが Google 検索エンジンからフェッチされます。この設定は、以前の研究で使用されたワークフローや、you.com や perplexity.ai などの商用 GE で採用されている一般的な設計に非常に似ている。回答は、gpt3.5-turboモデル[20]を使用して、以前の研究[14]と同じプロンプトを使用して生成された。統計的な偏りを減らすために、温度=0.7で5つの異なる回答をサンプリングした。
セクションC.1では、市販の生成エンジンであるPerplexity.aiで同じ生成エンジン最適化アプローチを評価し、提案する生成エンジン最適化アプローチの汎用性を強調する。
3.2 ベンチマーク:GEO-bench
生成エンジンに関連するクエリを含む一般に利用可能なデータセットは存在しないため、我々は、生成エンジン用に再利用された複数のソースからの10Kクエリ、および合成クエリを含むベンチマークであるGEO-benchを作成した。このベンチマークには9つの異なるソースからのクエリが含まれており、それぞれのクエリはターゲットドメイン、難易度、クエリの意図、その他の次元に従ってさらに分類されている。
データセット 1. MSマクロ, 2. ORCAS-1そして3. 自然問題:[1, 6, 13] これらのデータセットには、BingとGoogleの検索エンジンからの実際の匿名化されたユーザークエリが含まれている。これら3つのデータセットを合わせると、検索エンジン関連の研究でよく使われるデータセットとなる。しかし、それらを検索する代わりに、生成エンジンは、複数のソースからの回答を合成することを目的とした、より困難で特殊なクエリに直面することになる。このため、4. オールソウルズこのデータセットには「All Souls College, Oxford」の論文に関する問題が含まれている。このデータセットのクエリは、生成エンジンが複数のソースからの情報を集約するために適切な推論を実行することを要求する。 リマ[25]には、生成エンジンが情報を集約するだけでなく、質問に答えるために適切な推論を実行することを必要とする難しい問題が含まれています(例:短い詩を書く、パイソンコード)6。 ダヴィンチ-ディベート [14] 生成エンジンをテストするために作成された討論問題が含まれています。 パープレックス.ai Discover2:これらのクエリは、Perplexity.aiのDiscoverセクションから得られたもので、プラットフォーム上で人気のあるクエリの最新リストである8。 ELI-53::このデータセットには、ユーザーが複雑な質問をし、シンプルで平易な言葉での回答を期待するELI5 subredditバージョンからの質問が含まれている9。 GPT-4が生成したクエリー:クエリ分布の多様性を補完するために、GPT-4に異なるドメイン(科学的、歴史的など)からのクエリを生成させ、クエリの意図(ナビゲーショナル、トランザクショナルなど)や、回答を生成する難易度や範囲(オープンエンド、ファクトベースなど)に基づいてクエリを生成させた。
我々のベンチマークは10Kクエリで構成され、8K、1K、1Kのトレーニング、検証、テストに分割される。実世界のクエリ分布を保持し、ベンチマークには80%の情報クエリと10%のトランザクションとナビゲーショナルクエリが含まれる。各クエリは、Google検索エンジンから得られた検索結果のトップ5からクリーンアップされたテキストコンテンツで補強されている。
タグウェブサイトのコンテンツを最適化するには、通常、タスクのドメインに基づいてターゲットを絞った変更が必要になる。さらに、ジェネレーションエンジン最適化のユーザーは、ドメイン、ユーザーの意図、クエリの性質などの複数の要素を考慮しながら、クエリの一部分に対してのみ適切な戦略を決定する必要がある場合があります。これを容易にするため、GPT-4モデルを用いて各クエリにラベル付けを行い、テスト分割で高い再現率と精度を手動で検証した。
全体として、GEO-benchは、アート、健康、ゲームなど25の異なるドメインからのクエリを含み、単純なものから多面的なものまでクエリの難易度の範囲を持ち、情報的、トランザクション的など9つの異なるタイプのクエリを含み、7つの異なる分類をカバーしている。その特別に設計された高い多様性、ベンチマークのサイズ、および実世界の性質により、GEObenchは生成エンジンを評価するための包括的なベンチマークであり、本研究および将来の研究において、様々な目的のためにそれらを評価するための標準的なテストベッドとして機能する。GEO-benchの詳細については付録B.2を参照されたい。
3.3 GEOの方法論
セクション 2.2.2 で説明した 9 つの異なる GEO メソッドを評価する。そして、それらをベースラインと比較します。ベースラインは、変更されていないウェブソースからインプレッション・メトリクスを測定します。GEO ベンチテストスプリットでメソッドを評価します。さらに、結果のばらつきを抑えるために、5つの異なるランダムなシードの下で実験を行い、平均値を報告します。
3.4 指標の評価
セクション2.2.1で定義したインプレッション指標を利用する。具体的には、以下の2つのインプレッション指標を用いる。 再配置後の単語数これは、単語数とポジション数を組み合わせたものである。個々の構成要素の効果を分析するために、2つのサブメトリクスのスコアも別々に報告する。2. 思いこみこれは、1)引用文とユーザーのクエリとの関連性、2)生成されたレスポンスがどれだけ引用に依存しているかを評価する引用のインパクト、3)引用のレンダリング素材の独自性、4)ユーザーの視点からのソースの場所の目立ち度を測定する主観的な場所、5)ユーザーが認識する引用によって提示されたコンテンツの量を測定する主観的なカウント、6)ユーザーが引用をクリックする可能性、7)提示された素材の多様性の7つの異なる側面を包含する主観的なメトリックです。をクリックする可能性、7)提示された資料の多様性。これらのサブ指標は、コンテンツ制作者が1つまたは複数の分野で効果を向上させるために目標とすることができるさまざまな側面を評価します。各サブ指標は、G-Eval [15]で説明されているのと同様の方法でGPT-3.5を使用して評価された。G-Eval では、フォームベースの評価テンプレートが、引用を含む GE が生成した回答と一緒に言語モデルに提供されます。モデルは、(多重サンプリングによって計算された)各引用に対す るスコアを出力します。しかし、G-Evalのスコアは較正が不十分であるため、公正で意味のある比較を可能にするために、位置調整された単語数と同じ平均と分散を持つように正規化しました。正確なテンプレートは付録B.3に示す。
さらに、すべてのインプレッションメトリクスは、レスポンス内のすべての参照されたインプレッションの合計が1になるように、一定の係数を乗じて正規化しました。最初に生成されたレスポンス r ソースより Si ∈ {s1, …, smと修正された回答 r'各ソース si 印象の相対的な改善は次のように測定された:
改善シー = (インプシー(r') – インプシー(r)) / インプシー(r) × 100
修正応答 r' は、評価の対象となるGEO の方法論をソースの1つに適用することである。 si 生成される。選択された最適化ソースはランダムに選択されるが、与えられたクエリに対して全てのGEOメソッドで一定である。
4 結果
私たちは、生成エンジンのレスポンスにおける可視性を向上させるためにウェブサイトのコンテンツを最適化することを目的とした様々な生成エンジン最適化手法を、最適化なしのベースラインと比較して評価しました。我々の評価では、複数のドメインと設定からのユーザークエリの多様なベンチマークであるGEO-benchを使用した。パフォーマンスは、位置調整されたワードカウントと主観的な印象という2つのメトリクスによって測定される。前者は単語数とGEレスポンス内の引用位置を考慮し、後者は総合的な印象スコアを与えるために複数の主観的要素を計算する。
表1:GEOベンチにおけるGEO手法の絶対印象メトリクス。
方法論 | 再配置後の単語数 | 思いこみ | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
書き込み文字数 | プレースメント | 傘 | (そうかんせい | 影響を及ぼす | 特徴的 | 色どり | 再婚 | プレースメント | 計算 | 平均して | |
世代エンジン最適化なしのパフォーマンス | |||||||||||
最適化なし | 19.5 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 |
非性能エンジン最適化手法 | |||||||||||
キーワード充填 | 17.8 | 17.7 | 17.7 | 19.8 | 19.1 | 20.5 | 20.4 | 20.3 | 20.5 | 20.4 | 20.2 |
独特の語彙 | 20.7 | 20.5 | 20.5 | 20.5 | 20.1 | 19.9 | 20.4 | 20.2 | 20.7 | 20.2 | 20.4 |
高性能世代エンジンの最適化手法 | |||||||||||
つかみやすい | 22.2 | 22.4 | 22.0 | 20.2 | 21.0 | 20.0 | 20.1 | 20.1 | 20.9 | 19.9 | 20.5 |
権威 | 21.8 | 21.3 | 21.3 | 22.3 | 22.1 | 22.4 | 23.1 | 22.2 | 23.1 | 22.7 | 22.9 |
専門用語 | 23.1 | 22.7 | 22.7 | 20.9 | 21.7 | 20.5 | 21.2 | 20.8 | 21.9 | 20.8 | 21.4 |
流動性の最適化 | 25.1 | 24.6 | 24.7 | 21.1 | 22.9 | 20.4 | 21.6 | 21.0 | 22.4 | 21.1 | 21.9 |
引用元 | 24.9 | 24.5 | 24.6 | 21.4 | 22.5 | 21.0 | 21.6 | 21.2 | 22.2 | 20.7 | 21.9 |
参照で追加 | 27.8 | 27.3 | 27.2 | 23.8 | 25.4 | 23.9 | 24.4 | 22.9 | 24.9 | 23.2 | 24.7 |
統計データの追加 | 25.9 | 25.4 | 25.2 | 22.5 | 24.5 | 23.0 | 23.3 | 21.6 | 24.2 | 23.0 | 23.7 |
表1は、いくつかのメトリクスにおける異なる手法の絶対印象メトリクスの詳細です。その結果、我々のGEO手法は全ての指標においてGEObenchのベースラインを一貫して上回っていることがわかります。これは、クエリの多様性にもかかわらず大幅な改善を達成し、異なるクエリに対するこれらのメソッドの頑健性を示しています。具体的には、我々の最も優れた手法である引用元、引用の追加、統計データの追加は、位置調整された単語数メトリクスで30-401 TP3T、主観的な印象メトリクスで15-301 TP3Tの相対的な改善を達成した。これらの方法には、ウェブサイトのコンテンツに関連する統計データを追加する方法(統計データ追加)、信頼できる引用を組み込む方法(引用データ追加)、信頼できるソースからの引用を組み込む方法(引用ソース追加)などがあり、最小限の変更で済みましたが、GE の回答の視認性が大幅に向上し、コンテンツの信頼性と豊かさが強化されました。
興味深いことに、原文の流暢さや読みやすさを向上させる(流暢さの最適化と理解のしやすさ)といった文体の変更も、15-30%の大幅な視認性の向上につながった。このことは、生成エンジンが情報の内容だけでなく、プレゼンテーションも重視していることを示唆している。
さらに、生成モデルは多くの場合、指示に従うように設計されていることを考えると、ウェブサイトのコンテンツにおいて、より説得力があり、権威的なトーンは、視認性を向上させるだろうと予想される。しかし、有意な改善は見られなかったことから、ジェネレイティブ・エンジンはこのような変化に対してある程度頑強になっていることが示唆された。このことは、ウェブサイトのオーナーがコンテンツのプレゼンテーションと信頼性の向上に注力する必要性を浮き彫りにしている。
最後に、サイトのコンテンツに関連性の高いキーワードを追加するキーワードスタッフィングを評価した。検索エンジンの最適化では広く使われているが、ジェネレイティブ・エンジンでは、この手法のレスポンスはほとんど改善されないことがわかった。これは、検索エンジンで有効なテクニックが、この新しいパラダイムでは成功に結びつかない可能性があるため、ジェネレイティブ・エンジンにおける最適化戦略を再考する必要性を強調している。
5 分析
5.1 ドメイン固有の生成エンジン最適化
セクション4では、GEOベンチマークの各ベンチマークでGEOが達成した改善について紹介した。しかし、実際のSEOのシナリオでは、通常、ドメイン固有の最適化が適用されます。このことを念頭に置き、GEO-benchで各クエリの分類を提供していることを考慮し、これらの分類における様々なGEO手法のパフォーマンスを掘り下げていきます。
表3は、我々のGEOアプローチが最も効果的であった分野を示す詳細な内訳である。これらの結果を詳しく分析すると、いくつかの興味深い見解が明らかになります。例えば、オーソリティは、ディベート形式の質問や「歴史」ドメインに関連するクエリのパフォーマンスを大幅に向上させます。これは、より説得力のある文章形式がディベートにおいてより価値があるのではないかという私たちの直感と一致しています。
図4:GEO戦略の組み合わせによる相対的な改善。流暢性の最適化と統計の追加を組み合わせて使用することで、最大のパフォーマンスが得られる。右の列は、フルエンシー最適化と他のストラテジーの組み合わせが最も有益であることを示しています。
同様に、出典を引用して引用文献を追加することは、事実に関する問題には特に有益である。おそらく、引用は提示された事実の検証ソースとなり、回答の信頼性を高めるからであろう。GEOの手法は、領域によって異なる。例えば、表3の5行目に示されているように、「法律と政府」や「意見」タイプの質問などは、ウェブサイトのコンテンツに関連する統計情報を追加することによって実施され、恩恵を受けた。このことは、データ主導のエビデンスが、特定の文脈におけるウェブサイトの知名度を向上させることを示唆している。引用の追加アプローチは、「人々と社会」、「解釈」、「歴史」の領域で最も効果的であった。これは、これらの領域が個人的な物語や歴史的な出来事を含むことが多く、直接引用することでコンテンツに信憑性と深みが増すためと考えられます。全体的な分析から、ウェブサイトの所有者は、より見やすくするために、ウェブサイトをカスタマイズするよう努めるべきであることが示唆される。
5.2 複数のウェブサイトの最適化
進化するジェネレーティブ・エンジンの環境では、GEO アプローチが広く採用され、すべてのソース・コンテンツが GEO を使用して最適化されることが予想されます。その影響を理解するために、すべてのソースコンテンツを同時に最適化することで、GEOアプローチを評価し、その結果を表2に示します。特筆すべきは、一般的にビジビリティに苦労する低ランクのウェブサイトは、GEOからより多くの恩恵を受けることである。というのも、従来の検索エンジンは、バックリンクの数やドメインの存在感など、様々な要素に依存しており、小規模なクリエイターには難しい場合があるからです。しかし、ジェネレーティブエンジンはウェブサイトのコンテンツを条件とするジェネレーティブモデルを利用するため、バックリンク構築などの要素が小規模クリエイターを不利にすることはない。このことは、表2に示された相対的な知名度の向上に見ることができる。例えば、引用元方式では、SERPsで5位のサイトのビジビリティが115.11 TP3Tと大幅に向上したが、平均すると、1位のサイトのビジビリティは30.31 TP3T低下した。
表2:ランク付けされたソース別のGEO手法による知名度の変化。GEOは、特に低ランクのサイトに役立つ。
方法論 | 視界の相対的改善(%) | ||||
---|---|---|---|---|---|
1位 | ランク 2 | ランク 3 | ランク 4 | ランク 5 | |
権威 | -6.0 | 4.1 | -0.6 | 12.6 | 6.1 |
流動性の最適化 | -2.0 | 5.2 | 3.6 | -4.4 | 2.2 |
引用元 | -30.3 | 2.5 | 20.4 | 15.5 | 115.1 |
参照で追加 | -22.9 | -7.0 | 3.5 | 25.1 | 99.7 |
統計データの追加 | -20.6 | -3.9 | 8.1 | 10.0 | 97.9 |
この発見は、GEOがデジタル空間を民主化するツールであることを浮き彫りにしている。ランキングの低いウェブサイトの多くは、小規模なコンテンツクリエイターや独立系企業によって作成されており、従来は検索エンジンの上位表示で大規模な組織と競争するのに苦労していた。ジェネレイティブ・エンジンの出現は、当初は小規模な団体に不利に働くように見えるかもしれない。しかし、GEOのアプローチを適用することで、これらのコンテンツクリエイターは、生成エンジンのレスポンスにおける可視性を大幅に向上させる機会を得ることができます。GEOでコンテンツを強化することで、より幅広いオーディエンスにリーチし、競争条件を平準化し、より効果的に大企業と競争することができる。
5.3 GEO戦略の組み合わせ
個々のGEO戦略は、ドメイン全体で大きな改善を示していますが、実際には、ウェブサイトの所有者は複数の戦略を同時に採用することが予想されます。GEO戦略を組み合わせることによって達成されるパフォーマンスの向上を調査するために、私たちは、引用ソーシング、流暢性の最適化、統計の追加、および引用の追加という、最もパフォーマンスの高い上位4つのGEOアプローチの組み合わせを検討しました。図4は、異なるGEO戦略を組み合わせることによって達成される相対的な改善のヒートマップを示しています。分析によると、ジェネレーション・エンジン最適化手法の組み合わせがパフォーマンスを向上させ、最良の組み合わせ(流暢性最適化と統計の追加)は、単一のGEO戦略よりも5.51 TP3T以上優れている。さらに、単独で使用した場合は比較的効果がないが(引用の追加より8%低い)、引用のソーシングは、他の方法と組み合わせて使用した場合、パフォーマンスを大幅に改善する(平均:31.4%)。これらの結果は、実際のコンテンツ作成者が使用すると思われるGEO手法の組み合わせを検証することの重要性を強調している。
5.4 定性分析
表 4 は、最小限の変更でソースの可視性を向上させる GEO メソッドの代表例を示しています。各メソッドは、適切なテキストの追加と削除によってソースを最適化します。最初の例では、ソースに文を追加するだけで、コンテンツ作成者の労力を最小限に抑えながら、最終的な回答の視認性が大幅に向上することがわかります。2行目の例では、可能な限り多くの関連する統計情報を追加することで、最終的な生成エンジンの回答におけるソースの視認性が確実に向上することを示しています。最後に、3行目は、テキストの一部のみを強調し、説得力のあるテキストスタイルを使用することも、視認性の向上につながることを示しています。
6 実世界におけるGEO:配備されたジェネレーション・エンジンによる実験
提案する生成エンジン最適化アプローチの有効性を強化するため、数百万人のアクティブユーザーを持つデプロイ済み生成エンジンであるPerplexity.aiで評価した。表5にその結果を示す。私たちの生成エンジンと同様に、引用追加は位置調整された単語数で最高のパフォーマンスを示し、ベースラインよりも22%高い。引用ソーシングや統計追加など、私たちの生成エンジンで優れたパフォーマンスを示す手法は、両方の指標で最大9%と37%の改善を示している。キーワードスタッフィングなどの伝統的なSEO手法は効果がないという我々の観察結果は、ベースラインよりも10%低いため、さらにこのことを強調しています。これらの結果は3つの理由で重要です:1)コンテンツ制作者の利益のために、生成エンジンのための最適化のさまざまな手法を開発することの重要性を強調しています。コンテンツ制作者は、簡単に実装できる我々の提案する GEO アプローチを直接使用することができ、その結果、実世界に高いインパクトを与えることができることを示す。詳細は付録 C.1 を参照されたい。
表5: Perplexity.aiをGEとしたGEO-benchにおけるGEO手法の絶対印象メトリクス。キーワードスタッフィングのようなSEO手法のパフォーマンスが低いのに対し、我々の提案するGEO手法は、複数の世代エンジンにうまく適応し、コンテンツの視認性を大幅に向上させる。
方法論 | 再配置後の単語数 | 思いこみ |
---|---|---|
最適化なし | 24.1 | 24.7 |
キーワード充填 | 21.9 | 28.1 |
参照で追加 | 29.1 | 32.1 |
統計データの追加 | 26.2 | 33.9 |
7 関連作品
エビデンスに基づく回答生成:中野ら[19]は、ソースベースの回答を生成するために、GPT-3ナビゲーション・ネットワーク環境を学習させました。同様に、他のアプローチ[17, 23, 24]は、検索エンジンを介してソースにアクセスし、回答を生成します。私たちの研究は、これらのアプローチを統合し、将来これらのシステムを改善するための共通のベンチマークを提供します。最近のワーキングドラフトで、KumarとLakkaraju [11]は、戦略的なテキストシーケンスによってLLMレコメンデーションを操作し、生成エンジンにおける製品の可視性を向上させることができることを示している。彼らのアプローチが敵対的なテキストを通じて製品の可視性を高めることに焦点を当てているのに対し、我々のアプローチは、生成エンジンの検索結果における可視性を向上させるために、あらゆるウェブコンテンツを最適化する非敵対的な戦略を導入している。
強化された言語モデルの検索:最近のいくつかの研究では、限られたメモリしか持たない言語モデルが、知識ベースから関連するソースにアクセスすることでタスクを実行するという問題に取り組んでいる[3, 9, 18]。しかし、生成エンジンは、回答を生成し、回答全体を通して属性を提供する必要がある。さらに、生成エンジンは、入力または出力という単一のテキストモダリティに限定されない。さらに、生成エンジンのフレームワークは、関連するソースのフェッチに限定されず、クエリの書き換え、ソースの選択、およびそれらの実行方法とタイミングの決定など、複数のタスクを含みます。
検索エンジン最適化:この25年間、ウェブサイトのコンテンツを検索エンジンに最適化するために、多くの研究が行われてきた[2, 12, 22]。これらの手法は、コンテンツとユーザーエクスペリエンスを向上させるオンページSEOと、リンク構築を通じてサイトのオーソリティを向上させるオフページSEOに分類される。対照的に、GEOは、より複雑で、マルチモーダルな、対話設定環境を伴う。GEOは生成モデルに最適化されており、単純なキーワードマッチングに限定されないため、従来のSEO戦略は生成エンジンの設定には適用できず、GEOの必要性が浮き彫りになっている。
8 結論
この研究では、世代エンジンと呼ぶ生成モデルを備えた検索エンジンを定式化する。コンテンツ制作者が生成エンジンの下でコンテンツを最適化することを支援するために、生成エンジン最適化(GEO)を提案する。生成エンジンの印象メトリクスを定義し、複数のドメインや設定からの多様なユーザークエリと、それに対する回答に必要なソースを含むベンチマークであるGEO-benchを提案し、公開する。生成エンジンのコンテンツを最適化するためのいくつかの方法を提示し、これらの方法によって生成エンジンの応答におけるソースの可視性を最大 401 TP3 T 改善できることを示す。さらに、GEO手法の有効性とクエリドメインの間の依存関係、および複数のGEO戦略を組み合わせる可能性を発見した。数百万人のアクティブユーザーを持つ市販の生成エンジンで有望な結果を示し、我々の研究の現実世界への影響を実証する。要約すると、我々の研究は、重要かつタイムリーなGEOパラダイムを正式に示した最初のものであり、生成エンジンに関するコミュニティの迅速な進展を促進するためのアルゴリズムとインフラ(ベンチマーク、データセット、メトリクス)を公開している。これは、デジタル空間における生成エンジンの影響と、この新しい検索エンジンのパラダイムにおけるGEOの役割を理解するための第一歩となる。
9 制限
我々は、一般に利用可能な生成エンジンを含む2つの生成エンジンで、提案する手法のパフォーマンスを厳密にテストしたが、これらの手法は、SEOの進化と同様に、GEの進化に合わせて適応させる必要があるかもしれない。さらに、我々はGEObenchのクエリが可能な限り実世界のクエリに近いことを保証するように努めているが、クエリの性質は時間とともに変化する可能性があり、継続的な更新が必要である。さらに、検索エンジンのアルゴリズムはブラックボックスであるため、GEOの手法が検索ランキングにどのような影響を与えるかは評価していません。しかし、GEOの手法によって行われる変更は、SEOの手法にいくらか似ている、テキストコンテンツに的を絞った変更であり、ドメイン名やバックリンクなどの他のメタデータには影響を与えないため、検索エンジンのランキングに影響を与える可能性は低いことに留意する。さらに、言語モデルにおいてより大きなコンテキストの長さが経済的になるにつれて、将来の生成モデルはより多くのソースを取り込むことができるようになり、その結果、検索ランキングの影響が軽減されることが期待される。最後に、我々の提案する GEObench の各クエリはラベル付けされ、手作業でチェックされるが、主観的な解釈やタグ付けのエラーによる不一致が発生する可能性がある。
10 謝辞
本資料は、全米科学財団(National Science Foundation)の助成金(助成番号 2107048)による研究に基づいている。本資料で述べられている意見、所見、結論または提言はすべて著者のものであり、必ずしも全米科学財団の見解を反映するものではない。
書誌
ロブ
付記
付録A:対話生成エンジン
セクション2.1では、ユーザーからの問い合わせに対して単一の応答を出力するシングルラウンド生成エンジンについて説明した。しかし、今後の生成エンジンの利点は、ユーザーとの活発な前後の対話ができることである。この対話によって、ユーザーは、クエリや生成エンジンの応答について、説明を提供したり、フォローアップの質問をしたりすることができる。具体的には、式1では、入力は単一のクエリーではなく quその代わりに、対話の歴史としてモデル化されている。 H = (qtu, rt) ペアレスポンス rt+1 その後に定義された:
GE := fLE(H, PU) → rt+1
この中には t ラウンドだ。
さらに、ユーザーを対話に参加させるために、別のLLMも用意された。L従う もしかしたら Lレスプ場合によっては HそしてPU 歌で応える rt+1 提案されたフォローアップクエリを生成します。これらの提案されたフォローアップクエリは通常、ユーザーのエンゲージメントの可能性を最大化するように設計されています。これは、ユーザーとのインタラクションを増やすことによって、ジェネレーションエンジンプロバイダーに利益をもたらすだけでなく、ウェブサイトの可視性を高めることによって、ウェブサイトの所有者にも利益をもたらします。さらに、これらのフォローアップクエリは、ユーザーがより詳細な情報を得るのに役立ちます。
付録B:実験セットアップ
B.1 発電エンジンの評価
使用した正確なチップをリスト1に示す。
B.2 ベンチマーク
GEO-benchには9つのデータセットからのクエリが含まれている。図2は各データセットからの代表的な質問を示している。さらに、各クエリを7つの異なるカテゴリのセットに従ってラベル付けした。ラベリングにはGPT-4モデルを使用し、ラベルの高いリコールと精度を手動で確認した。しかし、このような自動化されたシステムのため、ラベリングにはノイズが含まれる可能性があり、慎重に考慮する必要がある。これらのクエリに関する詳細情報を以下に示す:
リスト2: GEO-benchの9つのデータセットに対する代表的な質問
- 難易度単純なものから複雑なものまで、クエリの複雑さを表す。
- 問い合わせの内容事実、意見、比較など、求める情報の種類を問い合わせる。
- タイプ芸術・娯楽、金融、科学などのカテゴリーまたは調査分野。
- 具体的なテーマ物理学、経済学、コンピュータ・サイエンスなど、調査の具体的な内容。
- 感度:デリケートな話題かどうかを問い合わせる。
- ユーザーの意図:調査、購入、娯楽など、ユーザーの問い合わせの目的。
- 回答タイプ事実、意見、リストなど、求められている答えの形式を問い合わせる。
B.3 指標の評価
すべての実験にはGPT-3.5ターボを使用した。https://github.com/GEOoptim/GEO。
B.4 GEOの方法論
ウェブコンテンツを生成エンジンに最適化するための、9つの異なる生成エンジン最適化手法を紹介する。これらの手法をGEO-benchテストセットで評価した。また、結果のばらつきを減らすために、5つの異なるランダムシードの下で実験を行い、平均値を報告した。
表6:GEOベンチにおけるGEO手法の絶対印象メトリクス。キーワードスタッフィングのような単純な手法は、伝統的にベースラインと比較してSEOのパフォーマンスが低い。しかし、私たちが提案するstats-addやcitation-addなどの手法は、すべての指標で強力なパフォーマンスの向上を示している。最良の方法は、位置調整されたワードカウントと主観的インプレッションにおいて、それぞれベースラインよりも向上している 41% と28%である。
方法論 | 再配置後の単語数 | 思いこみ | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
書き込み文字数 | プレースメント | 傘 | 関連性 | 影響を及ぼす | 特殊性 | 色どり | 再婚 | プレースメント | 計算 | 平均値 | |
世代エンジン最適化なしのパフォーマンス | |||||||||||
最適化なし | 19.7 (0.7) | 19.6 (0.5) | 19.8 (0.6) | 19.8 (0.9) | 19.8 (1.6) | 19.8 (0.6) | 19.8 (1.1) | 19.8 (1.0) | 19.8 (1.0) | 19.8 (0.9) | 19.8 (0.9) |
不調な発電エンジンの最適化手法 | |||||||||||
キーワード充填 | 19.6 (0.5) | 19.5 (0.6) | 19.8 (0.5) | 20.8 (0.8) | 19.8 (1.0) | 20.4 (0.5) | 20.6 (0.9) | 19.9 (0.9) | 21.1 (1.0) | 21.0 (0.9) | 20.6 (0.7) |
独特の語彙 | 20.6 (0.6) | 20.5 (0.7) | 20.7 (0.5) | 20.8 (0.7) | 20.3 (1.3) | 20.5 (0.3) | 20.9 (0.3) | 20.4 (0.7) | 21.5 (0.6) | 21.2 (0.4) | 20.9 (0.4) |
パフォーマンスの高い世代エンジン最適化手法 | |||||||||||
つかみやすい | 21.5 (0.7) | 22.0 (0.8) | 21.5 (0.6) | 21.0 (1.1) | 21.1 (1.8) | 21.2 (0.9) | 20.9 (1.1) | 20.6 (1.0) | 21.9 (1.1) | 21.4 (0.9) | 21.3 (1.0) |
権威 | 21.3 (0.7) | 21.2 (0.9) | 21.1 (0.8) | 22.3 (0.8) | 22.9 (0.8) | 22.1 (0.9) | 23.2 (0.7) | 21.9 (0.4) | 23.9 (1.2) | 23.0 (1.1) | 23.1 (0.7) |
専門用語 | 22.5 (0.6) | 22.4 (0.6) | 22.5 (0.6) | 21.2 (0.7) | 21.8 (0.8) | 20.5 (0.5) | 21.1 (0.6) | 20.5 (0.6) | 22.1 (0.6) | 21.2 (0.2) | 21.4 (0.4) |
流動性の最適化 | 24.4 (0.8) | 24.4 (0.6) | 24.4 (0.8) | 21.3 (0.9) | 23.2 (1.5) | 21.2 (1.0) | 21.4 (1.4) | 20.8 (1.3) | 23.2 (1.8) | 21.5 (1.3) | 22.1 (1.2) |
引用元 | 25.5 (0.7) | 25.3 (0.6) | 25.3 (0.6) | 22.8 (0.9) | 26.7 (1.1) | 24.6 (0.7) | 24.9 (0.9) | 23.2 (0.9) | 26.4 (1.0) | 24.1 (1.2) | 25.5 (0.9) |
参照で追加 | 27.5 (0.8) | 27.6 (0.8) | 27.1 (0.6) | 23.1 (1.4) | 26.1 (0.9) | 23.6 (0.9) | 24.5 (1.2) | 22.4 (1.2) | 26.1 (1.2) | 23.8 (1.2) | 24.8 (1.1) |
統計データの追加 | 25.8 (1.2) | 26.0 (0.8) | 25.5 (1.2) | 23.1 (1.4) | 24.2 (0.7) | 21.7 (0.3) | 22.3 (0.8) | 21.3 (0.9) | 23.5 (0.4) | 21.7 (0.6) | 22.9 (0.5) |
B.5 GEOメソッドのヒント
すべてのヒントは公開コードベース(https://github.com/GEO-optim/GEO)で入手できる。すべての実験はGPT-3.5ターボを使用して行われた。
付録C:その他の結果と考察
C.1 実世界におけるGEO:配備された生成エンジンによる実験
また、Perplexity.ai を用いて、我々の提案する生成エンジン最適化アプローチを評価した。Perplexity.aiではユーザーがソースURLを指定することができないため、我々は代わりにソーステキストをファイルとしてPerplexity.aiにアップロードし、すべての回答が提供されたファイルソースのみを使用して生成されるようにした。テストセットの 200 サンプルのサブセットですべての方法を評価した。Perplexity.ai を使用した結果を表 7 に示す。
表7:Perplexity.aiを生成エンジンとしたGEOベンチにおけるGEO手法のパフォーマンス向上。キーワードスタッフィングのような単純な手法は、一般的にベースラインと比較してSEOのパフォーマンスが低下する。しかし、stats-addやcitation-addのような我々の提案する方法は、全てのメトリクスで強力なパフォーマンスの向上を示す。最良の方法は、位置調整ワードカウントと主観的インプレッションにおいて、それぞれベースラインより22%と37%改善する。
方法論 | 再配置後の単語数 | 思いこみ | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
書き込み文字数 | プレースメント | 傘 | 関連性 | 影響を及ぼす | 特殊性 | 色どり | 再婚 | プレースメント | 計算 | 平均値 | |
世代エンジン最適化なしのパフォーマンス | |||||||||||
最適化なし | 24.0 | 24.4 | 24.1 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 |
不調な発電エンジンの最適化手法 | |||||||||||
キーワード充填 | 21.9 | 21.4 | 21.9 | 26.3 | 27.2 | 27.2 | 30.2 | 27.9 | 28.2 | 26.9 | 28.1 |
独特の語彙 | 24.0 | 23.7 | 23.6 | 24.9 | 25.1 | 24.7 | 23.0 | 23.6 | 23.9 | 24.1 | 24.1 |
パフォーマンスの高い世代エンジン最適化手法 | |||||||||||
権威 | 25.6 | 25.7 | 25.9 | 28.9 | 30.9 | 31.2 | 31.7 | 31.5 | 26.9 | 29.5 | 30.6 |
流動性の最適化 | 25.8 | 26.2 | 26.0 | 28.9 | 29.4 | 29.8 | 30.6 | 30.1 | 29.6 | 29.6 | 30.0 |
引用元 | 26.6 | 26.9 | 26.8 | 19.8 | 20.7 | 19.5 | 18.9 | 20.0 | 18.5 | 18.9 | 19.0 |
参照で追加 | 28.8 | 28.7 | 29.1 | 31.4 | 31.9 | 31.9 | 32.3 | 31.4 | 31.7 | 30.9 | 32.1 |
統計データの追加 | 25.8 | 26.6 | 26.2 | 31.6 | 33.4 | 34.0 | 33.7 | 34.0 | 33.3 | 33.1 | 33.9 |
結果と分析
表5と表7は、生成エンジンとしてPerplexity.aiを使用した場合の、GEOアプローチの絶対印象メトリクスを示しています。この結果から、私たちのGEO手法は、ベースラインと比較して、コンテンツの視認性を向上させる上で優れたパフォーマンスを発揮することがわかります。具体的には
- 参照で追加位置調整された単語数の指標において、221 TP3Tがベースラインより向上。
- 統計データの追加主観的な印象の指標において、ベースラインから37%改善。
これらの結果は、3つの理由から重要である:
- さまざまなGEO手法の重要性を強調するこれらの結果は、さまざまな世代エンジン最適化手法を開発することが、コンテンツ制作者にとって有益であることを示唆している。
- 手法の再現性私たちのGEO手法は、さまざまな世代のエンジンで優れた性能を発揮し、その応用範囲の広さを実証しています。
- 実用価値コンテンツ制作者は、私たちが提案する簡単に実装できるGEOの手法を直接利用することで、実世界に大きなインパクトを与えることができます。
さらに、従来のSEO手法(キーワードスタッフィングなど)は、ベースラインより10%低い場合でさえ、生成エンジンではパフォーマンスが低いことが観察された。このことは、生成エンジンには、単に従来のSEO手法を採用するのではなく、専用の最適化戦略が必要であるという我々の見解をさらに支持する。Perplexity.aiでの実験を通じて、異なる生成エンジンにおける我々の生成エンジン最適化手法の有効性を検証した。これらの手法は、コンテンツの可視性を向上させるだけでなく、実世界への応用の可能性も示している。私たちの研究は、コンテンツ制作者に、世代エンジンがもたらす課題に対処し、より良い可視性とユーザーエンゲージメントのためにコンテンツを最適化するための新しいツールを提供します。
C.2 ディスカッション
ドメイン別最適化の影響
我々の分析によると、GEOの手法は地域によって異なる。例
- 権威歴史」の分野に関連したディベート形式の問題や質問で高いパフォーマンスを示した。これは、より説得力のある文章形式がディベートにおいてより価値を持つのではないかという我々の直感と一致している。
- 引用元引用は、提示された事実を検証するための情報源となり、回答の信頼性を高める。
- 統計データの追加法律と政府」と「オピニオン」タイプの質問で有意な結果が見られ、データ主導のエビデンスが特定の文脈におけるウェブサイトの知名度を向上させることを示唆している。
- 参照で追加人々と社会」、「解釈」、「歴史」の分野で最も効果的。これは、これらの分野では通常、個人的な物語や歴史的な出来事が含まれており、直接引用することで内容に信憑性と深みを加えることができるためと思われる。
ポートフォリオ戦略の影響
我々の研究はまた、複数のGEO戦略を組み合わせることで、パフォーマンスをさらに向上させることができることを示している。例えば、流暢性の最適化と統計の追加を組み合わせて使用することで、最大のパフォーマンスが得られた。さらに、引用文献のソーシングは、単独で使用した場合には比較的悪い結果であったにもかかわらず、他の手法と組み合わせて使用した場合には、パフォーマンスを大幅に向上させる。これらの結果は、実際のコンテンツ作成者が使用する可能性が高いGEO手法の組み合わせを調査することの重要性を強調している。
SEOへの影響
我々の発見は、SEO分野にとって重要な意味を持つ。ジェネレーティブ・エンジンの台頭により、従来のSEOテクニックではもはや不十分かもしれない。ウェブサイトの所有者は、この新しい検索パラダイムに合わせてコンテンツを最適化するための新しい戦略を採用する必要がある。私たちのGEOアプローチは、キーワードの詰め込みやバックリンクの構築だけに頼るのではなく、コンテンツの質とプレゼンテーションの重要性を強調する新しい考え方を提供します。
今後の課題
今後の研究では、次のような分野をさらに掘り下げる可能性がある:
- 長期的効果GEOの手法が長期的なウェブサイトの知名度とトラフィックに与える影響についての研究。
- ユーザー行動分析ジェネレーション・エンジンと対話する際のユーザーの行動パターンを分析し、ユーザーを惹きつけ、維持するためのコンテンツの最適化方法をよりよく理解する。
- マルチモーダルコンテンツの最適化GEOの手法を拡張し、画像、ビデオ、その他のマルチメディアコンテンツを、マルチモーダル情報を処理する生成エンジンの能力に合わせて最適化する。
- 自動化ツール開発コンテンツ制作者がより簡単にGEO戦略を実施し、リアルタイムで最適化戦略を監視・調整するための自動化ツールを開発する。
このような研究の方向性を通して、世代エンジンがデジタル空間に与える影響をより包括的に理解し、このような変化に対処するための、より効果的なツールをコンテンツ制作者に提供することができる。