摘要
大型语言模型(LLMs)的出现开启了一种新的搜索引擎范式,这些搜索引擎利用生成模型来收集和总结信息以回答用户查询。我们将这种新兴技术统一在生成引擎(GE)的框架下,它可以生成准确且个性化的响应,迅速取代传统的搜索引擎,如Google和Bing。生成引擎通常通过综合多个来源的信息并使用LLMs进行总结来满足查询。虽然这种转变显著提高了用户效用和生成搜索引擎的流量,但它对第三个利益相关者——网站和内容创作者——构成了巨大挑战。鉴于生成引擎的黑箱和快速变化的特性,内容创作者对其内容何时以及如何被展示几乎无法控制。随着生成引擎的普及,我们必须确保创作者经济不会因此而处于劣势。为此,我们引入了生成引擎优化(GEO),这是第一个帮助内容创作者提高其在生成引擎响应中内容可见性的新范式,通过一个灵活的黑箱优化框架来优化和定义可见性指标。我们通过引入GEO-bench来促进系统评估,这是一个包含多个领域多样用户查询的大规模基准,以及回答这些查询的相关网络资源。通过严格的评估,我们证明GEO可以将生成引擎响应中的可见性提高多达40%。此外,我们展示了这些策略在不同领域的有效性,强调了领域特定优化方法的必要性。我们的工作为信息发现系统开辟了一个新的前沿,对生成引擎的开发者以及内容创作者都有深远的影响。
CCS 概念
• 计算方法论 → 自然语言处理;机器学习;
• 信息系统 → 网络搜索和信息发现。
关键词
生成模型,搜索引擎,数据集和基准
ACM 参考文献格式
Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, 和 Ameet Deshpande. 2024. GEO: 生成引擎优化. 在第30届ACM SIGKDD知识发现和数据挖掘会议论文集 (KDD ’24), 2024年8月25-29日, 巴塞罗那, 西班牙. ACM, 纽约, NY, 美国, 12页. https://doi.org/10.1145/3637528.3671900
1 引言
三十年前传统搜索引擎的发明彻底改变了全球信息获取和传播的方式 [4]。尽管它们功能强大,并催生了学术研究和电子商务等众多应用,但它们仅限于为用户查询提供相关网站列表。然而,最近大型语言模型的 [5, 21] 成功为更好的系统铺平了道路,如BingChat、Google的SGE和perplexity.ai,这些系统将传统搜索引擎与生成模型相结合。我们将这些系统称为生成引擎(GE),因为它们通过使用多个来源搜索信息并生成多模态响应。技术上,生成引擎(见图2)从数据库(如互联网)检索相关文档,并使用大型神经网络模型生成基于来源的响应,确保归属,并为用户提供验证信息的途径。
图1:我们提出的生成引擎优化(GEO)方法优化网站以提高其在生成引擎响应中的可见性。然后,GEO的黑箱优化框架使原本缺乏可见性的披萨网站网站所有者能够优化他们的网站以提高在生成引擎下的可见性。此外,GEO的通用框架允许内容创作者定义和优化他们的自定义可见性指标,从而在这个新兴范式中获得更大的控制权。
生成引擎对开发者和用户的效用是显而易见的——用户可以更快、更准确地访问信息,而开发者可以制作精确和个性化的响应,从而提高用户满意度和收入。然而,生成引擎对第三个利益相关者——网站和内容创作者——不利。与传统搜索引擎不同,生成引擎消除了导航到网站的需要,通过直接提供精确和全面的响应,可能会减少网站的有机流量并影响其可见性 [16]。由于数百万小型企业和个人依赖在线流量和可见性来维持生计,生成引擎将显著扰乱创作者经济。此外,生成引擎的黑箱和专有特性使得内容创作者很难控制和理解他们的内容是如何被摄取和呈现的。
在本文中,我们提出了第一个以创作者为中心的通用框架来优化生成引擎的内容,我们称之为生成引擎优化(GEO),以帮助内容创作者在这个新的搜索范式中导航。GEO是一个灵活的用于优化专有和封闭源代码生成引擎的网页内容可见性的黑箱优化框架(图1)。GEO摄取源网站并输出优化版本,通过调整和校准呈现、文本样式和内容来增加在生成引擎中的可见性。
此外,GEO引入了一个灵活的框架,用于定义专门为生成引擎设计的可见性指标,因为生成引擎中的可见性概念比传统搜索引擎更为微妙和多方面(图3)。虽然平均排名在传统搜索引擎的响应页面上是一个很好的可见性衡量标准,它呈现了一个线性的网站列表,但这并不适用于生成引擎。生成引擎提供丰富、结构化的响应,并将网站作为内联引用嵌入在响应中,通常以不同的长度、在不同的位置和以不同的样式嵌入它们。这就需要专门为生成引擎设计的可见性指标,这些指标通过客观和主观的视角,衡量引用来源在多个维度上的可见性,例如引用对查询的相关性和影响力。
图2:生成引擎概述。生成引擎主要由一组生成模型和一个搜索引擎组成,用于检索相关文档。生成引擎将用户查询作为输入,并通过一系列步骤生成最终响应,该响应基于检索到的来源,并带有内联归属。
为了促进对GEO方法的忠实和广泛评估,我们提出了GEO-bench,这是一个包含来自多个领域和来源的10000个查询的基准,适应于生成引擎。
通过系统评估,我们证明了我们的生成引擎优化方法可以将不同查询的可见性提高多达40%,为内容创作者提供了有益的策略。除此之外,我们发现包含引用、相关来源的引用和统计数据可以显著提高来源的可见性,在各种查询中提高超过40%。我们还展示了生成引擎优化在Perplexity.ai上的有效性,这是一个真实的生成引擎,并展示了高达37%的可见性改进。
总之,我们的贡献是三方面的:
- 我们提出了生成引擎优化,这是第一个通用的优化框架,帮助网站所有者优化他们的网站以适应生成引擎。生成引擎优化可以在广泛的查询、领域和真实的黑箱生成引擎上,将网站的可见性提高多达40%。
- 我们的框架提出了一套专门为生成引擎设计的全面的可见性指标,并使内容创作者能够通过自定义的可见性指标灵活地优化他们的内容。
- 为了促进在生成引擎中忠实评估GEO方法,我们提出了第一个大型基准,包含来自广泛领域和数据集的多样化搜索查询,特别为生成引擎量身定制。
2 公式化与研究方法
2.1 生成引擎的公式化
尽管已经将众多生成引擎部署给数百万用户,但目前还没有标准的框架。我们提供了一个能够适应其设计中各种模块化组件的公式。我们描述了一个生成引擎,它包括几个后端生成模型和一个用于来源检索的搜索引擎。生成引擎(GE)接受用户查询 qu 并返回一个自然语言响应 r,其中 PU 代表个性化用户信息。GE可以表示为一个函数:
fGE := (qu, PU) → r
生成引擎包含两个关键组件:a.) 一组生成模型 G = {G1, G2, …, Gn},每个模型都有特定的目的,如查询重写或总结,b.) 一个搜索引擎 SE,给定查询 q,它返回一组来源 S = {s1, s2, …, sm}。我们在图2中展示了一个代表性的工作流程,在撰写本文时,它与BingChat的设计非常相似。这个工作流程将输入查询分解为一组更简单的查询,这些查询更容易被搜索引擎消费。给定一个查询,一个查询重写的生成模型 G1 = Gqr 生成一组查询 Q1 = {q1, q2, …, qn},然后将这些查询传递给搜索引擎 SE 以检索一组排名的来源 S = {s1, s2, …, sm}。来源集 S 被传递给一个总结模型 G2 = Gsum,它为每个来源生成一个总结 Sumj,从而产生总结集 (Sum = {Sum1, Sum2, …, Summ})。总结集被传递给一个响应生成模型 G3 = Gresp,它生成一个由来源支持的累积响应 r。在这项工作中,我们专注于单轮生成引擎,但该公式可以扩展到多轮对话生成引擎(附录A)。
响应 r 通常是一个带有嵌入式引用的结构化文本。考虑到LLMs倾向于产生幻觉信息 [10],引用非常重要。具体来说,考虑一个由句子 {l1, l2, …, lo} 组成的响应 r。每个句子可能由一组引文支持,这些引文是检索到的文档集 Ci ⊂ S 的一部分。一个理想的生成引擎应确保响应中的所有陈述都得到相关引用的支持(高引用召回率),并且所有引用都准确支持它们所关联的陈述(高引用精度)[14]。我们建议读者参考图3以获取代表性的生成引擎响应。
2.2 生成引擎优化
搜索引擎的发明导致了搜索引擎优化(SEO),这是一个帮助网站创作者优化其内容以提高搜索引擎排名的过程。排名越高,可见性和网站流量就越高。然而,传统的SEO方法并不直接适用于生成引擎。这是因为,与传统搜索引擎不同,生成引擎中的生成模型不仅限于关键词匹配,而且在摄取源文档和响应生成中使用语言模型会导致对文本文件和用户查询的更细致的理解。随着生成引擎迅速成为主要的信息传递范式,而SEO并不直接适用;需要新的技术。为此,我们提出了生成引擎优化,这是一个新的范式,内容创作者旨在增加他们在生成引擎响应中的可见性(或印象)。我们通过函数 Imp(ci, r) 定义网站(也称为引用)ci 在生成的响应 r 中的可见性,这是网站创作者想要最大化的。从生成引擎的角度来看,目标是最大化与用户查询最相关的引用的可见性,即最大化 Σif(Imp(ci, r), Rel(ci, q, r)),其中 Rel(ci, q, r) 衡量在响应 r 的背景下引用 ci 与查询 q 的相关性,而 f 由生成引擎的确切算法设计决定,对最终用户来说是一个黑箱函数。此外,函数 Imp 和 Rel 都是主观的,对于生成引擎来说还没有明确定义,我们接下来将定义它们。
2.2.1 生成引擎的印象
对于SEO来说,一个网站的印象(或可见性)是由其在多个查询上的平均排名决定的。然而,生成引擎的输出特性需要不同的印象指标。与搜索引擎不同,生成引擎在单个响应中结合了来自多个来源的信息。引用网站的长度、独特性和呈现方式决定了引用的真实可见性。因此,如图3所示,虽然在响应页面上简单的排名作为传统搜索引擎中印象和可见性的有效指标,但这样的指标并不适用于生成引擎响应。
图3:在传统搜索引擎中,排名和可见性指标是直接的,它们按排名顺序列出网站来源,并逐字显示内容。然而,生成引擎生成丰富、结构化的响应,通常将引用嵌入在一个块中,彼此交错。这使得排名和可见性变得微妙和多方面。此外,与搜索引擎不同,在提高可见性方面进行了大量研究,但在生成引擎响应中优化可见性仍不清楚。为了应对这些挑战,我们的黑箱优化框架提出了一系列设计良好的印象指标,创作者可以使用这些指标来衡量和优化他们网站的性能,并允许创作者定义他们的印象指标。
为了应对这一挑战,我们提出了一套印象指标,设计时考虑三个关键原则:1.) 这些指标应对创作者具有相关性,2.) 它们应该是可解释的,3.) 它们应该容易被广泛的内容创作者所理解。第一个这样的指标是“字数”指标,它是与引用相关的句子的标准化字数。在数学上,这被定义为:
Impwc(ci, r) = (Σs∈Sci |s|) / (Σs∈Sr |s|)
这里 Sci 是引用 ci 的句子集合,Sr 是响应中的句子集合,|s| 是句子中的字数。在一个句子被多个来源引用的情况下,我们将字数平均分配给所有引用。直观地说,字数越多,来源在答案中扮演的角色就越重要,因此,用户对该来源的曝光度就越高。
然而,由于“字数”不受引用排名的影响(例如,无论它是否出现在第一位),我们提出了一个位置调整后的计数,它通过引用位置的指数衰减函数来减少权重:
ImpPwc(ci, r) = (Σs∈Sci |s| · e-(pos(s)/|S|)) / (Σs∈Sr |s|)
直观地说,出现在响应中的句子越靠前,被阅读的可能性就越大,而定义 ImpPwc 中的指数项给这样的引用赋予了更高的权重。因此,尽管字数较少,但位于顶部的网站引用可能比位于中间或末尾的网站引用有更高的印象。此外,选择指数衰减函数是受到几项研究表明点击率作为搜索引擎排名的函数遵循幂律 [7, 8] 的启发。虽然上述印象指标是客观且有根据的,但它们忽略了引用对用户注意力的主观方面。为了解决这个问题,我们提出了“主观印象”指标,它包含了相关性、引用影响力、引用呈现材料的独特性、主观位置、主观计数、点击引用的概率以及呈现材料的多样性等因素。我们使用G-Eval [15],这是当前使用LLMs进行评估的最新技术,来衡量这些子指标。
2.2.2 网站的生成引擎优化方法
为了提高印象指标,内容创作者必须对他们的网站内容进行更改。我们提出了几种与生成引擎无关的策略,称为生成引擎优化方法(GEO)。在数学上,每个GEO方法都是一个函数 f: W → W’i,其中 W 是初始网站内容,W’ 是在应用GEO方法后修改的内容。修改范围从简单的样式更改到以结构化格式添加新内容。一个设计良好的GEO相当于一个黑箱优化方法,在不知道生成引擎的确切算法设计的情况下,可以提高网站的可见性,并对独立于确切查询的文本进行修改。
在我们的实验中,我们使用大型语言模型对网站内容应用生成引擎优化方法,并提示其对网站执行特定的样式和内容更改。特别是,根据定义了一组特定期望特征的GEO方法,源内容相应地被修改。我们提出并评估了以下几种方法:
- 权威性:修改源内容的文本样式,使其更具说服力和权威性。
- 添加统计数据:修改内容以包括定量统计数据,而不是尽可能使用定性讨论。
- 关键词填充:修改内容以包括更多来自查询的关键词,正如在经典SEO优化中所期望的。
- 引用来源 & 5. 添加引用:分别添加来自可信来源的相关引用和引用。
- 易于理解:简化网站的语言,而7. 流畅性优化提高了网站文本的流畅性。
- 独特词汇 & 9. 技术术语:尽可能添加独特和技术术语。
这些方法涵盖了网站所有者可以快速实施的多样化通用策略,并且无论网站内容如何都可以使用。此外,除了方法3、4和5外,其余方法增强了现有内容的呈现,使其更具说服力或对生成引擎更具吸引力,而无需额外内容。另一方面,方法3、4和5可能需要某种形式的额外内容。为了分析我们方法的性能提升,对于每个输入用户查询,我们随机选择一个要优化的源网站,并对同一个源分别应用每种GEO方法。更多关于GEO方法的细节,请读者参考附录B.4。
3 实验设置
3.1 评估生成引擎
根据之前的工作 [14],我们使用2步设置进行生成引擎设计。第一步涉及获取输入查询的相关来源,然后第二步是LLM基于获取的来源生成响应。与之前的工作类似,我们不使用总结,并为每个来源提供整个响应。由于上下文长度限制和基于变压器模型的上下文大小的二次扩展成本,每个查询只从Google搜索引擎获取前5个来源。这个设置与之前的工作中使用的工作流程以及商业GE(如you.com和perplexity.ai)采用的一般设计非常相似。然后使用gpt3.5-turbo模型 [20] 使用与之前工作 [14] 相同的提示生成答案。我们以temperature=0.7对5个不同的响应进行采样,以减少统计偏差。
在第C.1节中,我们评估了相同的生成引擎优化方法在Perplexity.ai上,这是一个商业部署的生成引擎,突出了我们提出的生成引擎优化方法的通用性。
3.2 基准:GEO-bench
由于目前没有公开的包含生成引擎相关查询的数据集,我们策划了GEO-bench,这是一个包含来自多个来源的10K查询的基准,重新用于生成引擎,以及合成的查询。基准包括来自九个不同来源的查询,每个来源进一步根据其目标领域、难度、查询意图和其他维度进行分类。
数据集: 1. MS Macro, 2. ORCAS-1, 和 3. 自然问题:[1, 6, 13] 这些数据集包含来自Bing和Google搜索引擎的真实匿名用户查询。这三个数据集共同代表了在搜索引擎相关研究中常用的数据集集。然而,生成引擎将面临更加困难和具体的查询,目的是从多个来源综合答案,而不是搜索它们。为此,我们重新利用了几个其他公开的数据集:4. AllSouls:这个数据集包含“牛津大学万灵学院”的论文问题。这个数据集中的查询要求生成引擎执行适当的推理以从多个来源聚合信息。5. LIMA:[25] 包含具有挑战性的问题,要求生成引擎不仅要聚合信息,还要执行适当的推理来回答问题(例如,编写一首短诗、python代码)。6. Davinci-Debate [14] 包含为测试生成引擎而生成的辩论问题。7. Perplexity.ai Discover2:这些查询来源于Perplexity.ai的Discover部分,这是平台上更新的热门查询列表。8. ELI-53:这个数据集包含来自ELI5 subreddit版的问题,用户提出复杂的问题,并期望用简单、通俗的语言回答。9. GPT-4生成的查询:为了补充查询分布的多样性,我们提示GPT-4生成来自不同领域(例如,科学、历史)的查询,并根据查询意图(例如,导航性、事务性)和生成响应的难度和范围(例如,开放性、基于事实)生成查询。
我们的基准包括10K个查询,分为8K、1K和1K的训练、验证和测试拆分。我们保留了现实世界的查询分布,我们的基准包含80%的信息查询和10%的事务性和导航性查询。每个查询都增加了从Google搜索引擎获取的前5个搜索结果的清理文本内容。
标签:优化网站内容通常需要根据任务的领域进行有针对性的更改。此外,生成引擎优化用户可能需要针对仅一部分查询确定适当的策略,考虑到多个因素,如领域、用户意图和查询性质。为了促进这一点,我们使用GPT-4模型对每个查询进行标记,并手动验证测试拆分上的高召回率和精确率。
总的来说,GEO-bench包含了来自25个不同领域的查询,如艺术、健康和游戏;它具有从简单到多方面的查询难度范围;包括9种不同类型的查询,如信息性和事务性;并涵盖了7种不同的分类。由于其专门设计的高多样性,基准的大小,以及其现实世界的性质,GEObench是一个全面的基准,用于评估生成引擎,并作为评估它们在本作及未来工作中的各种目的的标准测试平台。我们提供了更多关于GEO-bench的细节在附录B.2中。
3.3 GEO方法
我们评估了第2.2.2节中描述的9种不同的GEO方法。我们将它们与基线进行比较,基线测量未修改的网站来源的印象指标。我们在完整的GEO-bench测试拆分上评估方法。此外,为了减少结果中的方差,我们在五个不同的随机种子下进行实验,并报告平均值。
3.4 评估指标
我们利用第2.2.1节中定义的印象指标。具体来说,我们采用两种印象指标:1. 位置调整后的字数,它结合了字数和位置计数。为了分析单个组件的效果,我们还分别报告了两个子指标上的分数。2. 主观印象,这是一个包含七个不同方面的主观指标:1) 引用句子与用户查询的相关性,2) 引用的影响力,评估生成的响应在多大程度上依赖于引用,3) 引用呈现材料的独特性,4) 主观位置,从用户的角度衡量来源位置的突出性,5) 主观计数,衡量用户所感知的引用呈现的内容量,6) 用户点击引用的可能性,以及7) 呈现材料的多样性。这些子指标评估了内容创作者可以针对提高一个或多个领域有效性的不同方面。每个子指标都使用GPT-3.5进行评估,方法类似于G-Eval [15] 中描述的方法。在G-Eval中,提供给语言模型的基于表单的评估模板,以及带有引用的GE生成的响应。该模型输出每个引用的分数(通过多次采样计算)。然而,由于G-Eval分数的校准较差,我们将其标准化,使其具有与位置调整后的字数相同的平均值和方差,以实现公平和有意义的比较。我们在附录B.3中提供了确切的模板。
此外,所有印象指标都通过乘以一个常数因子进行标准化,以便响应中所有引用的印象之和等于1。在我们的分析中,我们通过计算印象的相对改善来比较方法。对于初始生成的响应 r 来自来源 Si ∈ {s1, …, sm} 和修改后的响应 r’,每个来源 si 的印象相对改善的测量为:
Improvementsi = (Impsi(r’) – Impsi(r)) / Impsi(r) × 100
修改后的响应 r’ 是通过将正在评估的GEO方法应用于其中一个来源 si 产生的。选择的优化来源是随机选择的,但对特定查询来说在所有GEO方法中保持不变。
4 结果
我们评估了各种生成引擎优化方法,旨在优化网站内容以提高在生成引擎响应中的可见性,与没有优化的基线进行比较。我们的评估使用了GEO-bench,这是一个多样化的用户查询基准,来自多个领域和设置。性能是通过两个指标来衡量的:位置调整后的字数和主观印象。前者考虑了在GE的响应中的字数和引用位置,而后者计算了多个主观因素,给出了一个整体印象分数。
表1:GEO方法在GEO-bench上的绝对印象指标。
方法 | 位置调整后的字数 | 主观印象 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
字数 | 位置 | 总体 | 相关 | 影响 | 独特 | 多样性 | 后续 | 位置 | 计数 | 平均 | |
没有生成引擎优化的性能 | |||||||||||
无优化 | 19.5 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 | 19.3 |
非性能生成引擎优化方法 | |||||||||||
关键词填充 | 17.8 | 17.7 | 17.7 | 19.8 | 19.1 | 20.5 | 20.4 | 20.3 | 20.5 | 20.4 | 20.2 |
独特词汇 | 20.7 | 20.5 | 20.5 | 20.5 | 20.1 | 19.9 | 20.4 | 20.2 | 20.7 | 20.2 | 20.4 |
高性能生成引擎优化方法 | |||||||||||
易于理解 | 22.2 | 22.4 | 22.0 | 20.2 | 21.0 | 20.0 | 20.1 | 20.1 | 20.9 | 19.9 | 20.5 |
权威性 | 21.8 | 21.3 | 21.3 | 22.3 | 22.1 | 22.4 | 23.1 | 22.2 | 23.1 | 22.7 | 22.9 |
技术术语 | 23.1 | 22.7 | 22.7 | 20.9 | 21.7 | 20.5 | 21.2 | 20.8 | 21.9 | 20.8 | 21.4 |
流畅性优化 | 25.1 | 24.6 | 24.7 | 21.1 | 22.9 | 20.4 | 21.6 | 21.0 | 22.4 | 21.1 | 21.9 |
引用来源 | 24.9 | 24.5 | 24.6 | 21.4 | 22.5 | 21.0 | 21.6 | 21.2 | 22.2 | 20.7 | 21.9 |
引用添加 | 27.8 | 27.3 | 27.2 | 23.8 | 25.4 | 23.9 | 24.4 | 22.9 | 24.9 | 23.2 | 24.7 |
统计数据添加 | 25.9 | 25.4 | 25.2 | 22.5 | 24.5 | 23.0 | 23.3 | 21.6 | 24.2 | 23.0 | 23.7 |
表1详细介绍了不同方法在多个指标上的绝对印象指标。结果显示,我们的GEO方法在所有指标上始终优于GEObench上的基线。这表明这些方法对不同查询的稳健性,尽管查询多样性,但实现了显著改善。具体来说,我们表现最佳的方法,引用来源、引用添加和统计数据添加,在位置调整后的字数指标上实现了30-40%的相对改善,在主观印象指标上实现了15-30%的相对改善。这些方法,包括在网站内容中添加相关统计数据(统计数据添加)、结合可信引用(引用添加)和包含来自可靠来源的引用(引用来源),需要的更改最小,但显著提高了GE响应的可见性,增强了内容的可信度和丰富性。
有趣的是,样式变化,如提高源文本的流畅性和可读性(流畅性优化和易于理解)也导致了显著的可见性提升15-30%。这表明生成引擎不仅重视内容,还重视信息呈现。
此外,鉴于生成模型通常设计为遵循指示,人们会期望网站内容中更具说服力和权威性的语调会提高可见性。然而,我们发现没有显著改善,这表明生成引擎已经对这种变化具有一定的稳健性。这凸显了网站所有者需要专注于提高内容呈现和可信度。
最后,我们评估了关键词填充,即向网站内容中添加更多相关关键词。虽然广泛用于搜索引擎优化,但我们发现这种方法对生成引擎的响应几乎没有改善。这强调了在生成引擎中重新思考优化策略的必要性,因为搜索引擎中有效的技术可能不会在这个新范式中转化为成功。
5 分析
5.1 领域特定的生成引擎优化
在第4节中,我们介绍了GEO在整个GEO-bench基准上取得的改善。然而,在现实世界的SEO场景中,通常会应用领域特定的优化。考虑到这一点,并考虑到我们在GEO-bench中为每个查询提供分类,我们更深入地研究了各种GEO方法在这些分类中的表现。
表3提供了详细的分类,展示了我们的GEO方法证明最有效的领域。仔细分析这些结果揭示了几个有趣的观察。例如,权威性在辩论式问题和与“历史”领域相关的查询中显著提高了性能。这与我们的直觉一致,因为一种更具说服力的写作形式在辩论中可能更有价值。
图4:使用GEO策略组合的相对改善。使用流畅性优化和统计数据添加相结合的结果是性能最大。右边的列显示使用流畅性优化与其他策略相结合是最有益的。
同样,通过引用来源添加引用对于事实问题特别有益,这可能是因为引用为所呈现的事实提供了一个验证来源,从而增强了响应的可信度。不同的GEO方法在不同领域的效果不同。例如,如表3第5行所示,诸如“法律与政府”和“意见”类型的问题从网站内容中添加相关统计数据中获益匪浅,正如统计数据添加所实施的。这表明数据驱动的证据可以在特定背景下提高网站的可见性。引用添加方法在“人与社会”、“解释”和“历史”领域最为有效。这可能是因为这些领域通常涉及个人叙述或历史事件,直接引用可以为内容增添真实性和深度。总的来说,我们的分析表明,网站所有者应努力对他们的网站进行针对性的调整,以获得更高的可见性。
5.2 多个网站的优化
在生成引擎不断发展的环境中,GEO方法预计将被广泛采用,导致所有源内容都使用GEO进行优化。为了理解其影响,我们通过同时优化所有源内容来评估GEO方法,结果见表2。一个关键的观察是,GEO对网站的影响因其在搜索引擎结果页面(SERP)排名而异。值得注意的是,低排名的网站,通常在可见性上挣扎,从GEO中获益更多。这是因为传统搜索引擎依赖于多种因素,如反向链接数量和域名存在,这对小型创作者来说是困难的。然而,由于生成引擎利用生成模型以网站内容为条件,因此诸如反向链接建设等因素不应使小型创作者处于劣势。这一点从表2中所示的可见性相对改善可以看出。例如,引用来源方法导致SERP中排名第五的网站可见性大幅增加115.1%,而平均而言,排名第一的网站的可见性下降了30.3%。
表2:通过GEO方法可见性变化,对于不同排名的来源。GEO对于低排名的网站特别有帮助。
方法 | 可见性相对改善(%) | ||||
---|---|---|---|---|---|
排名1 | 排名2 | 排名3 | 排名4 | 排名5 | |
权威性 | -6.0 | 4.1 | -0.6 | 12.6 | 6.1 |
流畅性优化 | -2.0 | 5.2 | 3.6 | -4.4 | 2.2 |
引用来源 | -30.3 | 2.5 | 20.4 | 15.5 | 115.1 |
引用添加 | -22.9 | -7.0 | 3.5 | 25.1 | 99.7 |
统计数据添加 | -20.6 | -3.9 | 8.1 | 10.0 | 97.9 |
这个发现凸显了GEO作为工具以民主化数字空间。许多低排名的网站是由小型内容创作者或独立企业创建的,他们传统上很难与大型企业竞争顶级搜索引擎结果。生成引擎的出现最初可能看起来对小型实体不利。然而,应用GEO方法为这些内容创作者提供了一个机会,以显著提高他们在生成引擎响应中的可见性。通过使用GEO增强他们的内容,他们可以接触到更广泛的受众,平衡竞争环境,并允许他们更有效地与大型企业竞争。
5.3 GEO策略的组合
虽然单个GEO策略在各个领域显示出显著改善,但在实践中,网站所有者预计会同时采用多种策略。为了研究通过结合GEO策略所取得的性能改善,我们考虑了前4个表现最佳的GEO方法的组合,即引用来源、流畅性优化、统计数据添加和引用添加。图4显示了结合不同GEO策略所取得的相对改善的热图。分析表明,生成引擎优化方法的组合可以提高性能,最佳组合(流畅性优化和统计数据添加)比任何单一GEO策略高出5.5%以上。此外,尽管单独使用时相对效果较差(比引用添加低8%),但引用来源在与其他方法结合使用时显著提高了性能(平均:31.4%)。这些发现强调了研究GEO方法组合的重要性,因为它们很可能被现实世界中的内容创作者所使用。
5.4 定性分析
我们在表4中进行了GEO方法的定性分析,包含了一些代表性的例子,GEO方法通过最小的更改提高了来源可见性。每种方法通过适当的文本添加和删除来优化来源。在第一个例子中,我们看到简单地添加一个语句的来源可以显著提高最终答案中的可见性,需要内容创作者付出最小的努力。第二个例子表明,尽可能添加相关统计数据可以确保在最终的生成引擎响应中提高来源的可见性。最后,第三行表明,仅仅强调文本的部分内容并使用有说服力的文本风格也可以导致可见性的改善。
6 GEO 在现实世界中:对已部署的生成引擎的实验
为了加强我们提出的生成引擎优化方法的效能,我们在Perplexity.ai上进行了评估,这是一个拥有数百万活跃用户的已部署的生成引擎。表5显示了结果。与我们的生成引擎一样,引用添加在位置调整后的字数上表现最佳,比基线高出22%。在我们生成引擎上表现良好的方法,如引用来源、统计数据添加,在两个指标上显示出高达9%和37%的改善。我们的观察,如传统SEO方法如关键词填充无效,进一步凸显了这一点,因为它比基线低10%。这些结果之所以重要有三个原因:1) 它们强调了开发不同的生成引擎优化方法以造福内容创作者的重要性,2) 它们突出了我们提出的GEO方法在不同生成引擎上的通用性,3) 它们表明内容创作者可以直接使用我们易于实施提出的GEO方法,因此具有很高的现实影响。我们建议读者参考附录C.1以获取更多细节。
表5:在GEO-bench上GEO方法的绝对印象指标,Perplexity.ai作为GE。虽然SEO方法如关键词填充表现不佳,但我们提出的GEO方法很好地适应了多个生成引擎,显著提高了内容可见性。
方法 | 位置调整后的字数 | 主观印象 |
---|---|---|
无优化 | 24.1 | 24.7 |
关键词填充 | 21.9 | 28.1 |
引用添加 | 29.1 | 32.1 |
统计数据添加 | 26.2 | 33.9 |
7 相关工作
基于证据的答案生成:以前的工作使用了几种技术来生成基于来源的答案。Nakano等人 [19] 训练GPT-3导航网络环境以生成基于来源的答案。同样,其他方法 [17, 23, 24] 通过搜索引擎获取来源以生成答案。我们的工作将这些方法统一起来,并为未来改进这些系统提供了一个共同基准。在最近的工作草案中,Kumar和Lakkaraju [11] 表明,战略性的文本序列可以操纵LLM推荐,以提高生成引擎中的产品可见性。虽然他们的方法侧重于通过对抗性文本增加产品可见性,我们的方法引入了非对抗性策略来优化任何网站内容,以提高在生成引擎搜索结果中的可见性。
检索增强语言模型:几项最近的工作解决了语言模型记忆有限的问题,通过从知识库中获取相关来源来完成一项任务 [3, 9, 18]。然而,生成引擎需要生成答案并在整个答案中提供归属。此外,生成引擎不仅限于单一文本模态,无论是输入还是输出。此外,生成引擎的框架不仅限于获取相关来源,而是包括多个任务,如查询重写、来源选择,以及决定如何以及何时执行它们。
搜索引擎优化:在过去的25年里,大量的研究致力于优化网站内容以适应搜索引擎 [2, 12, 22]。这些方法分为页面内SEO,提高内容和用户体验,以及页面外SEO,通过建立链接提高网站权威。相比之下,GEO涉及一个更复杂的、多模态、对话设置的环境。由于GEO是针对生成模型优化的,不限于简单的关键词匹配,传统的SEO策略不适用于生成引擎设置,这凸显了GEO的需求。
8 结论
在这项工作中,我们制定了配备生成模型的搜索引擎,我们称之为生成引擎。我们提出生成引擎优化(GEO)来帮助内容创作者在生成引擎下优化他们的内容。我们定义了生成引擎的印象指标,并提出并发布GEO-bench:一个包含来自多个领域和设置的多样化用户查询的基准,以及回答这些查询所需的来源。我们提出了几种优化生成引擎内容的方法,并证明这些方法可以将生成引擎响应中的来源可见性提高多达40%。除其他发现外,我们发现包括引用、相关来源的引用和统计数据可以显著提高来源的可见性。此外,我们发现了GEO方法有效性与查询领域的依赖性,以及结合多个GEO策略的潜力。我们在拥有数百万活跃用户的商业化生成引擎上展示了有希望的结果,展示了我们工作的现实影响。总之,我们的工作是第一个正式化重要且及时的GEO范式,发布算法和基础设施(基准、数据集和指标),以促进社区在生成引擎方面的快速进展。这作为理解生成引擎对数字空间的影响以及GEO在这个新搜索引擎范式中的作用的第一步。
9 限制
虽然我们严格测试了我们提出的方法在两个生成引擎上的表现,包括一个公开可用的生成引擎,但随着GE的发展,这些方法可能需要适应,类似于SEO的演变。此外,尽管我们努力确保我们的GEObench中的查询尽可能接近现实世界的查询,但查询的性质可能会随着时间的推移而改变,需要持续更新。此外,由于搜索引擎算法的黑箱性质,我们没有评估GEO方法如何影响搜索排名。然而,我们注意到,GEO方法所做的更改是文本内容的针对性更改,与SEO方法有些相似,而不影响其他元数据,如域名、反向链接等,因此,它们不太可能影响搜索引擎排名。此外,随着语言模型中更大的上下文长度变得经济化,预计未来的生成模型将能够摄取更多来源,从而减少搜索排名的影响。最后,虽然我们提出的GEObench中的每个查询都有标签并经过手动检查,但由于主观解释或标记错误,可能会有差异。
10 致谢
这项材料基于国家科学基金会根据编号2107048的资助授予的工作。任何在此材料中表达的意见、调查结果和结论或建议都是作者个人的观点,不一定反映国家科学基金会的观点。
参考文献
略
附录
附录 A:对话生成引擎
在第2.1节中,我们讨论了一个单轮生成引擎,它在给定用户查询时输出单个响应。然而,即将到来的生成引擎的一个优势将是它们能够与用户进行积极的来回对话。对话允许用户对查询或生成引擎响应提供澄清并提出后续问题。具体来说,在方程1中,输入不是单个查询 qu,而是建模为对话历史 H = (qtu, rt) 对。响应 rt+1 随后被定义为:
GE := fLE(H, PU) → rt+1
其中 t 是轮次。
此外,为了吸引用户参与对话,一个单独的LLM,Lfollow 或 Lresp,可能会根据 H、PU 和 rt+1 生成建议的后续查询。这些建议的后续查询通常旨在最大化用户参与的可能性。这不仅有利于生成引擎提供者通过增加用户互动,而且有利于网站所有者通过增强其可见性。此外,这些后续查询可以帮助用户获取更详细的信息。
附录 B:实验设置
B.1 评估生成引擎
使用的准确提示如清单1所示。
B.2 基准
GEO-bench包含来自九个数据集的查询。图2显示了每个数据集的代表性问题。此外,我们根据一组7个不同的类别对每个查询进行标记。对于标记,我们使用GPT-4模型,并手动确认标记的高召回率和精确率。然而,由于这样的自动化系统,标签可能是有噪声的,不应被仔细考虑。关于这些查询的详细信息如下:
清单2:GEO-bench中9个数据集的代表性问题
- 难度等级:查询的复杂性,从简单到复杂。
- 查询性质:查询所寻求的信息类型,如事实性、意见或比较。
- 类型:查询的类别或领域,如艺术和娱乐、金融或科学。
- 具体主题:查询的具体内容,如物理学、经济学或计算机科学。
- 敏感性:查询是否涉及敏感话题。
- 用户意图:用户查询的目的,如研究、购买或娱乐。
- 答案类型:查询所寻求的答案的格式,如事实、意见或列表。
B.3 评估指标
我们使用7种不同的主观印象指标,其提示在我们的公共存储库中提供:https://github.com/GEOoptim/GEO。GPT-3.5 turbo用于所有实验。
B.4 GEO 方法
我们提出了9种不同的生成引擎优化方法,以优化网站内容以适应生成引擎。我们对完整的GEO-bench测试集进行了这些方法的评估。此外,为了减少结果中的方差,我们在五个不同的随机种子下进行了实验,并报告了平均值。
表6:GEO方法在GEO-bench上的绝对印象指标。与基线相比,像关键词填充这样的简单方法在SEO中传统上表现不佳。然而,我们提出的方法,如统计数据添加和引用添加,在所有指标上都显示出强大的性能改进。最佳方法在位置调整后的字数和主观印象上分别比基线提高了 41% 和 28%。
方法 | 位置调整后的字数 | 主观印象 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
字数 | 位置 | 总体 | 相关性 | 影响 | 独特性 | 多样性 | 后续 | 位置 | 计数 | 平均值 | |
无生成引擎优化时的性能 | |||||||||||
无优化 | 19.7 (0.7) | 19.6 (0.5) | 19.8 (0.6) | 19.8 (0.9) | 19.8 (1.6) | 19.8 (0.6) | 19.8 (1.1) | 19.8 (1.0) | 19.8 (1.0) | 19.8 (0.9) | 19.8 (0.9) |
表现不佳的生成引擎优化方法 | |||||||||||
关键词填充 | 19.6 (0.5) | 19.5 (0.6) | 19.8 (0.5) | 20.8 (0.8) | 19.8 (1.0) | 20.4 (0.5) | 20.6 (0.9) | 19.9 (0.9) | 21.1 (1.0) | 21.0 (0.9) | 20.6 (0.7) |
独特词汇 | 20.6 (0.6) | 20.5 (0.7) | 20.7 (0.5) | 20.8 (0.7) | 20.3 (1.3) | 20.5 (0.3) | 20.9 (0.3) | 20.4 (0.7) | 21.5 (0.6) | 21.2 (0.4) | 20.9 (0.4) |
表现良好的生成引擎优化方法 | |||||||||||
易于理解 | 21.5 (0.7) | 22.0 (0.8) | 21.5 (0.6) | 21.0 (1.1) | 21.1 (1.8) | 21.2 (0.9) | 20.9 (1.1) | 20.6 (1.0) | 21.9 (1.1) | 21.4 (0.9) | 21.3 (1.0) |
权威性 | 21.3 (0.7) | 21.2 (0.9) | 21.1 (0.8) | 22.3 (0.8) | 22.9 (0.8) | 22.1 (0.9) | 23.2 (0.7) | 21.9 (0.4) | 23.9 (1.2) | 23.0 (1.1) | 23.1 (0.7) |
技术术语 | 22.5 (0.6) | 22.4 (0.6) | 22.5 (0.6) | 21.2 (0.7) | 21.8 (0.8) | 20.5 (0.5) | 21.1 (0.6) | 20.5 (0.6) | 22.1 (0.6) | 21.2 (0.2) | 21.4 (0.4) |
流畅性优化 | 24.4 (0.8) | 24.4 (0.6) | 24.4 (0.8) | 21.3 (0.9) | 23.2 (1.5) | 21.2 (1.0) | 21.4 (1.4) | 20.8 (1.3) | 23.2 (1.8) | 21.5 (1.3) | 22.1 (1.2) |
引用来源 | 25.5 (0.7) | 25.3 (0.6) | 25.3 (0.6) | 22.8 (0.9) | 26.7 (1.1) | 24.6 (0.7) | 24.9 (0.9) | 23.2 (0.9) | 26.4 (1.0) | 24.1 (1.2) | 25.5 (0.9) |
引用添加 | 27.5 (0.8) | 27.6 (0.8) | 27.1 (0.6) | 23.1 (1.4) | 26.1 (0.9) | 23.6 (0.9) | 24.5 (1.2) | 22.4 (1.2) | 26.1 (1.2) | 23.8 (1.2) | 24.8 (1.1) |
统计数据添加 | 25.8 (1.2) | 26.0 (0.8) | 25.5 (1.2) | 23.1 (1.4) | 24.2 (0.7) | 21.7 (0.3) | 22.3 (0.8) | 21.3 (0.9) | 23.5 (0.4) | 21.7 (0.6) | 22.9 (0.5) |
B.5 GEO 方法的提示
我们所有的提示都在我们的公共代码库中提供:https://github.com/GEO-optim/GEO。所有实验均使用GPT-3.5 turbo完成。
附录 C:补充结果与讨论
C.1 现实世界中的GEO:使用已部署的生成引擎进行实验
我们还在现实世界中已部署的生成引擎Perplexity.ai上评估了我们提出的生成引擎优化方法。由于Perplexity.ai不允许用户指定源URL,我们改为将源文本作为文件上传到Perplexity.ai,同时确保所有答案仅使用提供的文件源生成。我们在我们测试集的200个样本子集上评估了我们的所有方法。使用Perplexity.ai的结果如表7所示。
表7:在Perplexity.ai作为生成引擎的GEO-bench上GEO方法的性能改进。与基线相比,像关键词填充这样的简单方法在SEO中通常表现更差。然而,我们提出的方法,如统计数据添加和引用添加,在所有指标上都显示出强大的性能改进。最佳方法在位置调整后的字数和主观印象上分别比基线提高了22%和37%。
方法 | 位置调整后的字数 | 主观印象 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
字数 | 位置 | 总体 | 相关性 | 影响 | 独特性 | 多样性 | 后续 | 位置 | 计数 | 平均值 | |
无生成引擎优化时的性能 | |||||||||||
无优化 | 24.0 | 24.4 | 24.1 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 | 24.7 |
表现不佳的生成引擎优化方法 | |||||||||||
关键词填充 | 21.9 | 21.4 | 21.9 | 26.3 | 27.2 | 27.2 | 30.2 | 27.9 | 28.2 | 26.9 | 28.1 |
独特词汇 | 24.0 | 23.7 | 23.6 | 24.9 | 25.1 | 24.7 | 23.0 | 23.6 | 23.9 | 24.1 | 24.1 |
表现良好的生成引擎优化方法 | |||||||||||
权威性 | 25.6 | 25.7 | 25.9 | 28.9 | 30.9 | 31.2 | 31.7 | 31.5 | 26.9 | 29.5 | 30.6 |
流畅性优化 | 25.8 | 26.2 | 26.0 | 28.9 | 29.4 | 29.8 | 30.6 | 30.1 | 29.6 | 29.6 | 30.0 |
引用来源 | 26.6 | 26.9 | 26.8 | 19.8 | 20.7 | 19.5 | 18.9 | 20.0 | 18.5 | 18.9 | 19.0 |
引用添加 | 28.8 | 28.7 | 29.1 | 31.4 | 31.9 | 31.9 | 32.3 | 31.4 | 31.7 | 30.9 | 32.1 |
统计数据添加 | 25.8 | 26.6 | 26.2 | 31.6 | 33.4 | 34.0 | 33.7 | 34.0 | 33.3 | 33.1 | 33.9 |
结果与分析
表5和表7展示了使用Perplexity.ai作为生成引擎时,GEO方法的绝对印象指标。结果显示,与基线相比,我们的GEO方法在提高内容可见性方面表现出色。具体来说:
- 引用添加:在位置调整后的字数指标上比基线提高了22%。
- 统计数据添加:在主观印象指标上比基线提高了37%。
这些结果具有重要意义,原因有三:
- 强调不同GEO方法的重要性:这些结果表明,开发不同的生成引擎优化方法对于内容创作者来说是有益的。
- 方法的可推广性:我们的GEO方法在不同生成引擎上表现出色,展示了其广泛的适用性。
- 实际应用价值:内容创作者可以直接使用我们提出的易于实施的GEO方法,从而在现实世界中产生重大影响。
此外,我们观察到,传统SEO方法(如关键词填充)在生成引擎中表现不佳,甚至比基线低10%。这进一步支持了我们的观点,即生成引擎需要专门的优化策略,而不是简单地采用传统的SEO技术。通过在Perplexity.ai上的实验,我们验证了我们的生成引擎优化方法在不同生成引擎上的有效性。这些方法不仅提高了内容可见性,还展示了其在现实世界应用中的潜力。我们的研究为内容创作者提供了一种新的工具,以应对生成引擎带来的挑战,并优化他们的内容以获得更好的可见性和用户参与度。
C.2 讨论
领域特定优化的影响
我们的分析表明,不同的GEO方法在不同领域的效果不同。例如:
- 权威性:在辩论风格的问题和与“历史”领域相关的查询中表现突出。这与我们的直觉一致,因为更具说服力的写作形式在辩论中可能更有价值。
- 引用来源:对于事实性问题特别有益,因为引用为所呈现的事实提供了一个验证来源,从而增强了响应的可信度。
- 统计数据添加:在“法律与政府”和“意见”类型的问题中效果显著,这表明数据驱动的证据可以在特定背景下提高网站的可见性。
- 引用添加:在“人与社会”、“解释”和“历史”领域最为有效。这可能是因为这些领域通常涉及个人叙述或历史事件,直接引用可以为内容增添真实性和深度。
组合策略的影响
我们的研究还表明,结合多种GEO策略可以进一步增强性能。例如,使用流畅性优化和统计数据添加相结合的结果是性能最大。此外,引用来源在与其他方法结合使用时显著提高了性能,尽管单独使用时效果相对较差。这些发现强调了研究GEO方法组合的重要性,因为它们很可能被现实世界中的内容创作者所使用。
对SEO的影响
我们的研究结果对SEO领域具有重要意义。随着生成引擎的兴起,传统的SEO技术可能不再足够。网站所有者需要采用新的策略来优化他们的内容,以适应这种新的搜索范式。我们的GEO方法提供了一种新的思路,强调了内容质量和呈现方式的重要性,而不是仅仅依赖于关键词填充和反向链接建设。
未来工作
未来的研究可以进一步探索以下几个方面:
- 长期影响:研究GEO方法对网站长期可见性和流量的影响。
- 用户行为分析:分析用户在与生成引擎交互时的行为模式,以更好地理解如何优化内容以吸引和留住用户。
- 多模态内容优化:扩展GEO方法以优化图像、视频和其他多媒体内容,以适应生成引擎处理多模态信息的能力。
- 自动化工具开发:开发自动化工具,帮助内容创作者更轻松地实施GEO策略,并实时监控和调整他们的优化策略。
通过这些研究方向,我们可以更全面地了解生成引擎对数字空间的影响,并为内容创作者提供更有效的工具来应对这些变化。