Google 搜索排名的工作原理


每个人都应该清楚,谷歌文件泄露反垄断听证会的公开文件并没有真正告诉我们排名究竟是如何运作的。 

如今,有机搜索结果的结构非常复杂(这在很大程度上是因为使用了机器学习),甚至连负责排名算法的 Google 员工都表示,他们无法再解释为什么某个搜索结果排名在一或二。我们不知道众多信号的权重以及确切的相互作用。

尽管如此,熟悉搜索引擎的结构很重要,这样才能理解为什么优化良好的页面没有排名,或者相反,为什么看似简短且未优化的结果有时会出现在排名的顶部。最重要的是,你需要拓宽视野,了解什么是真正重要的。

所有可用信息都清楚地表明了这一点。任何稍微参与排名的人都应该将这些发现纳入自己的思维模式。您将从完全不同的角度看待您的网站,并将其他指标纳入您的分析、规划和决策中。

说实话,要真正有效地描绘出系统的结构是极其困难的。网络上的信息解释各不相同,有时甚至用词不同,尽管意思是一样的。 

举个例子:负责构建优化空间利用率的 SERP(搜索结果页面)的系统称为 Tangram。然而,在一些 Google 文档中,它也被称为俄罗斯方块,这可能是对著名游戏的引用。

经过数周的细致工作,我多次查看、分析、构建、丢弃和重组了近 100 份文档。 

本文并非力求详尽或准确。它代表了我最大的努力(即“尽我所知”)和一点哥伦布探长的调查精神。结果就是您在这里看到的。

作者创建的 Google 排名工作原理的图形概述
作者创建的 Google 排名工作原理的图形概述

等待 Googlebot 访问的新文档

当您发布新网站时,它不会立即被编入索引。Google 必须首先了解该 URL。这通常是通过更新的站点地图或通过来自已知 URL 的链接来实现的。 

经常访问的页面,例如主页,自然会更快地将此链接信息引起Google的注意。 

拖网程序系统检索新内容并跟踪何时重新访问 URL 以检查更新。这由称为调度程序的组件管理。存储服务器决定是否转发 URL 或将其放入沙盒中。 

Google 否认这个盒子的存在,但最近的泄密表明,(疑似)垃圾网站和低价值网站被放置在那里。值得一提的是,Google 显然转发了一些垃圾邮件,可能是为了进一步分析以训练其算法。 

我们的虚构文档通过了这一障碍。从我们的文档中提取出外部链接,并根据内部或外部链接进行排序。其他系统主要使用此信息进行链接分析和 PageRank 计算。(稍后会详细介绍。) 

图片链接被传输到 ImageBot,ImageBot 会调用这些链接,有时会有明显的延迟,然后将它们(与相同或相似的图片一起)放置在图片容器中。Trawler 显然使用自己的 PageRank 来调整抓取频率。如果网站的流量增加,则抓取频率会增加(ClientTrafficFraction)。

亚历山大:伟大的图书馆

Google 的索引系统 Alexandria 会为每条内容分配一个唯一的 DocID。如果内容已知(例如重复),则不会创建新的 ID;相反,URL 会链接到现有的 DocID。

重要提示:Google 区分 URL 和文档。如果标记正确,文档可以由多个包含类似内容(包括不同语言版本)的 URL 组成。来自其他域的 URL 也在此处排序。来自这些 URL 的所有信号都通过通用 DocID 应用。 

对于重复内容,Google 会选择出现在搜索排名中的规范版本。这也解释了为什么其他 URL 有时排名可能相似;“原始”(规范)URL 的确定可能会随着时间的推移而发生变化。

图 1:Alexandria 收集文档的 URL。
图 1:Alexandria 收集文档的 URL。

由于我们的文档在网络上只有一个版本,因此它被赋予了自己的 DocID。 

我们网站的各个部分都会搜索相关的关键词短语,并将其推送到搜索索引中。在那里,“命中列表”(页面上的所有重要单词)首先被发送到直接索引,该索引总结了每页多次出现的关键词。 

现在迈出了重要的一步。各个关键词短语被集成到倒排索引(单词索引)的单词目录中。单词 pencil 和所有包含该单词的重要文档都已列在那里。 

简单来说,由于我们的文档多次突出显示“铅笔”一词,因此它现在在单词索引中与其 DocID 一起列在“铅笔”条目下。 

DocID 被分配一个算法计算出的铅笔 IR(信息检索)分数,稍后用于包含在发布列表中。例如,在我们的文档中,单词 pencil 在文本中以粗体标记,并包含在 H1 中(存储在AvrTermWeight中)。此类信号和其他信号会增加 IR 分数。 

Google 将重要的文档移动到所谓的 HiveMind,即主内存。Google 使用快速 SSD 和传统 HDD(称为 TeraGoogle)来长期存储不需要快速访问的信息。文档和信号存储在主内存中。 

值得注意的是,专家估计,在最近的人工智能热潮之前,全球约有一半的网络服务器都位于谷歌。庞大的互连集群网络使数百万个主内存单元能够协同工作。谷歌的一名工程师曾在一次会议上指出,理论上,谷歌的主内存可以存储整个网络。 

有趣的是,存储在 HiveMind 中的链接(包括反向链接)似乎具有更大的权重。例如,来自重要文档的链接具有更大的权重,而来自 TeraGoogle (HDD) 中的 URL 的链接可能权重较小,甚至可能根本不被考虑。

  • 提示:为您的文档提供合理且一致的日期值。使用BylineDate(源代码中的日期)、syntaticDate(从 URL 和/或标题中提取的日期)和semanticDate(从可读内容中获取)等。
  • 通过更改日期来伪造时事性肯定会导致排名下降(降级)。lastSignificantUpdate属性记录了对文档进行最后一次重大更改的时间。修复小细节拼写错误不会影响此计数器。

每个 DocID 的附加信息和信号都动态存储在存储库 ( PerDocData ) 中。许多系统在稍后微调相关性时会访问此存储库。了解文档的最后 20 个版本存储在此处(通过CrawlerChangerateURLHistory)很有用。 

Google 有能力评估和评估随时间推移而发生的变化。如果您想彻底更改文档的内容或主题,理论上您需要创建 20 个中间版本来覆盖旧的内容信号。这就是为什么恢复过期域名(以前处于活动状态但后来被放弃或出售(可能是由于破产)的域名)不会带来任何排名优势的原因。

如果域名的 Admin-C 发生变化,其主题内容也同时发生变化,此时机器可以轻松识别这一点。然后,Google 将所有信号设置为零,原本有价值的旧域名不再比全新注册的域名更具优势。

图2:除了泄密之外,美国司法部门针对谷歌的听证会和审判的证据文件也是有用的研究来源。你甚至可以在那里找到内部电子邮件。
图2:除了泄密之外,美国司法部门针对谷歌的听证会和审判的证据文件也是有用的研究来源。你甚至可以在那里找到内部电子邮件。

QBST:有人在寻找“铅笔”

当有人在 Google 中输入“铅笔”作为搜索词时,QBST 便开始工作。系统会分析搜索短语,如果其中包含多个单词,则将相关单词发送到单词索引进行检索。 

词条加权过程相当复杂,涉及 RankBrain、DeepRank(原 BERT)和 RankEmbeddedBERT 等系统。相关词条(例如“铅笔”)随后被传递给 Ascorer 进行进一步处理。 

得分员:‘绿色圆环’已创建

Ascorer 从倒排索引中检索“pencil”的前 1,000 个 DocID,按 IR 分数排序。根据内部文件,此列表称为“绿环”。在行业内,它被称为发布列表。 

Ascorer 是 Mustang 排名系统的一部分,该系统通过使用 SimHash(一种文档指纹)进行重复数据删除、段落分析、识别原创和有用内容的系统等方法进行进一步筛选。目标是将 1,000 名候选人精简为“10 个蓝色链接”或“蓝色环”。 

我们关于铅笔的文档在发布列表中,目前排名 132。如果没有附加系统,这将是它的最终位置。

Superroot:将 1,000 变成 10!

Superroot系统负责重新排序,进行将“绿环”(1000个DocID)缩小到仅有10个结果的“蓝环”的精准工作。

Twiddlers 和 NavBoost 执行此任务。这里可能还使用了其他系统,但由于信息模糊,因此其具体细节尚不清楚。

图 3:Mustang 生成 1,000 个潜在结果,而 Superroot 将它们筛选为 10 个结果。
图 3:Mustang 生成 1,000 个潜在结果,而 Superroot 将它们筛选为 10 个结果。
  • Google Caffeine不再以这种形式存在。只保留了名称。
  • 谷歌现在与无数的微服务合作,这些微服务相互通信并生成文档的属性,这些属性被各种排名和重新排名系统用作信号,并训练神经网络进行预测。

一个又一个的过滤器:The Twiddlers

各种文件表明,有数百个 Twiddler 系统正在使用中。可以将 Twiddler 视为类似于 WordPress 中的插件。 

每个 Twiddler 都有自己特定的过滤目标。它们之所以这样设计,是因为它们相对容易创建,并且不需要更改 Ascorer 中复杂的排名算法。

修改这些算法非常困难,而且由于可能存在副作用,需要进行大量规划和编程。相比之下,Twiddler 可以并行或按顺序运行,并且不知道其他 Twiddler 的活动。

基本上有两种类型的 Twiddlers。

  • PreDoc Twiddlers 可以处理整个数百个 DocID 集,因为它们不需要或根本不需要任何额外信息。 
  • 相比之下,“Lazy”类型的 Twiddler 需要更多信息,例如来自PerDocData数据库的信息。这相应地需要更长的时间并且更加复杂。 

因此,PreDocs 首先将发布列表缩减为更少的条目,然后从较慢的过滤器开始。这节省了大量的计算能力和时间。 

有些 Twiddler 会调整 IR 分数,无论是正向调整还是负向调整,而有些 Twiddler 则会直接修改排名位置。由于我们的文档是索引中的新文档,因此,旨在提高近期文档排名机会的 Twiddler 可能会将 IR 分数乘以 1.7。此调整可能会将我们的文档从第 132 位移至第 81 位。

另一个 Twiddler 通过降低内容相似的文档的价值来增强 SERP 中的多样性 ( strideCategory )。结果,我们前面的几个文档失去了位置,使我们的 pencil 文档上升了 12 位,达到 69 位。此外,一个 Twiddler 将特定查询的博客页面数量限制为三个,将我们的排名提升到 61 位。

<img class="wp-image-445149 entered exited" src="data:;base64,” alt=”图 4:两种类型的 Twiddler – 其中超过 100 种会减少潜在的搜索结果并对其进行重新排序。” width=”545″ height=”333″ data-lazy-srcset=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-4-Two-types-of-Twiddlers-–-over-100-of-them-reduce-the-potential-search-results-and-re-sort-them.png 545w, https://searchengineland.com/wp-content/seloads/2024/08/Figure-4-Two-types-of-Twiddlers-–-over-100-of-them-reduce-the-potential-search-results-and-re-sort-them-185×113.png 185w” data-lazy-sizes=”(max-width: 545px) 100vw, 545px” data-lazy-src=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-4-Two-types-of-Twiddlers-%E2%80%93-over-100-of-them-reduce-the-potential-search-results-and-re-sort-them.png” />
图 4:两种类型的 Twiddler – 其中超过 100 种会减少潜在的搜索结果并对其进行重新排序。

我们的页面在CommercialScore属性中得到零分(代表“是”)。Mustang 系统在分析过程中确定了销售意图。Google 可能知道搜索“铅笔”后经常会跟着“购买铅笔”等精细搜索,这表明存在商业或交易意图。专为考虑此搜索意图而设计的 Twiddler 增加了相关结果,并将我们的页面提升了 20 个位置,使我们的排名上升至 41 位。

另一个 Twiddler 开始发挥作用,强制执行“第三页惩罚”,将疑似垃圾页面的最高排名限制为 31(第 3 页)。文档的最佳位置由 BadURL-demoteindex 属性定义属性可防止排名超过此阈值。DemoteForContent 、DemoteForForwardlinksDemoteForBacklinks等属性用于此目的。结果,我们上面的三个文档被降级,从而使我们的页面上升到第 38 位。

我们的文档可能已经贬值,但为了简单起见,我们假设它不受影响。让我们考虑最后一个 Twiddler,它根据嵌入来评估我们的铅笔页面与我们的域的相关性。由于我们的网站专注于书写工具,这对我们有利,但对其他 24 个文档产生负面影响。

例如,假设一个价格比较网站有各种各样的主题,但只有一个关于铅笔的“好”页面。由于这个页面的主题与网站的整体重点相差甚远,因此这个 Twiddler 会贬低它的价值。 

siteFocusScoresiteRadius等属性反映了这一主题距离。因此,我们的 IR 得分再次提升,而其他结果则下降,使我们上升至第 14 位。

如上所述,Twiddlers 有多种用途。开发人员可以尝试新的过滤器、乘数或特定位置限制。甚至可以将某个结果排在另一个结果之前或之后。 

谷歌泄露的一份内部文件警告称,Twiddler 的某些功能只能由专家使用,并需咨询核心搜索团队后才能使用。

“如果你认为你了解它们的工作原理,相信我们:你并不了解。我们也不确定我们是否了解。”

泄露的“Twiddler 快速入门指南 – Superroot”文档

还有一些 Twiddler 只创建注释,并在进入 SERP 的过程中将其添加到 DocID。例如,图像随后会出现在摘要中,或者标题和/或描述稍后会动态重写。

如果你在疫情期间想知道为何你所在国家的国家卫生当局(如美国卫生与公众服务部)在 COVID-19 搜索中始终排名第一,那么这是因为 Twiddler 使用 queriesForWhichOfficial 根据语言和国家提升了官方资源

您几乎无法控制 Twiddler 如何重新排序您的结果,但了解其机制可以帮助您更好地解释排名波动或“莫名其妙的排名”。定期查看 SERP 并记录结果类型很有价值。 

例如,即使使用不同的搜索短语,您是否始终只看到一定数量的论坛或博客文章?有多少结果是交易性的、信息性的或导航性的?相同的域名是否重复出现,还是会随着搜索短语的细微变化而变化?

如果您发现结果中只包含少数几家在线商店,那么尝试使用类似网站进行排名可能效果不佳。相反,请考虑专注于更多以信息为导向的内容。但是,不要急于下结论,因为稍后将讨论 NavBoost 系统。

Google 的质量评估者和 RankLab

全球有数千名质量评估员为 Google 工作,负责评估某些搜索结果并在新算法和/或过滤器正式上线之前对其进行测试。

谷歌解释说,“他们的评级不会直接影响排名。” 

这基本上是正确的,但这些投票确实对排名产生了重大的间接影响。

它的工作原理如下:评估者从系统接收 URL 或搜索短语(搜索结果)并回答预先确定的问题,通常在移动设备上进行评估。 

例如,他们可能会被问到:“这些内容是谁写的、什么时候写的,清楚吗?作者是否具备这个主题的专业知识?”这些问题的答案会被存储起来,用于训练机器学习算法。这些算法会分析优质可信页面与不太可靠的页面的特征。

这种方法意味着,算法不再依赖谷歌搜索团队成员来制定排名标准,而是使用深度学习根据人工评估人员提供的训练来识别模式。

让我们通过一个思想实验来说明这一点。想象一下,如果某条内容包含作者的照片、全名和 LinkedIn 个人简介链接,人们会本能地将其评为可信。缺少这些功能的页面被认为不太可信。

如果神经网络在“是”或“否”评级的同时,针对各种页面特征进行训练,它会将此特征识别为关键因素。经过几次积极的测试运行(通常持续至少 30 天),网络可能会开始使用此功能作为排名信号。因此,具有作者图像、全名和 LinkedIn 链接的页面可能会通过 Twiddler 获得排名提升,而没有这些特征的页面可能会贬值。

谷歌官方不关注作者的立场可能与这种情况相符。然而,泄露的信息通过AuthorVectors属性揭示了 isAuthor 等属性和“作者指纹”等概念,这使得作者的个人语言(术语和表述的个人使用)可区分或可识别——同样是通过嵌入。 

评分者的评估结果会被汇总为“信息满意度”(IS)分数。尽管许多评分者都会做出贡献,但只有一小部分 URL 可以获得 IS 分数。对于具有类似模式的其他页面,会推断出此分数以进行排名。

谷歌指出,“许多文档无需点击,但却非常重要。”当无法进行推断时,系统会自动将文档发送给评估者以生成分数。

“黄金”一词与质量评估者有关,表明某些文档或文档类型可能存在黄金标准。可以推断,符合人类测试人员的期望可以帮助您的文档达到这一黄金标准。此外,一个或多个 Twiddlers 可能会为被视为“黄金”的 DocID 提供显着的提升,有可能将它们推入前 10 名。

质量评估员通常不是全职的 Google 员工,他们可能通过外部公司工作。相比之下,Google 自己的专家在 RankLab 内工作,他们在那里进行实验,开发新的 Twiddler,并评估这些或改进的 Twiddler 是否提高了结果质量或仅仅过滤了垃圾邮件。 

经过验证且有效的 Twiddlers 随后被集成到 Mustang 系统中,该系统使用复杂、计算密集且相互关联的算法。

获取搜索营销人员所依赖的新闻通讯。


但用户想要什么?NavBoost 可以解决这个问题!

我们的铅笔文档尚未完全成功。在 Superroot 中,另一个核心系统NavBoost在确定搜索结果的顺序方面发挥着重要作用。NavBoost 使用“切片”来管理移动、桌面和本地搜索的不同数据集。

尽管谷歌官方否认使用用户点击数据进行排名,但联邦贸易委员会的文件显示,一封内部电子邮件指示点击数据的处理必须保密。

这不应该成为谷歌的罪魁祸首,因为否认使用点击数据涉及两个关键方面。首先,承认使用点击数据可能会引发媒体对隐私问题的愤怒,将谷歌描绘成一只跟踪我们在线活动的“数据章鱼”。然而,使用点击数据的目的是为了获得统计相关的指标,而不是监控个人用户。虽然数据保护倡导者可能会对此有不同的看法,但这种观点有助于解释谷歌的否认。

FTC 文件证实点击数据用于排名目的,并经常在此背景下提及 NavBoost 系统(2023 年 4 月 18 日的听证会上提到了 54 次)。2012 年的一次正式听证会也透露,点击数据会影响排名。

<img class="wp-image-445150 entered exited" src="data:;base64,” alt=”图 5:自 2012 年 8 月起,点击数据改变了排名,这一点已得到官方明确” width=”1600″ height=”678″ data-lazy-srcset=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking.png.webp 1600w,https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking-600×254.png.webp 600w,https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking-800×339.png.webp 800w,https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking-200×85.png.webp 200w,https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking-768×325.png.webp 768w,https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking-1536×651.png 1536w” data-lazy-sizes=”(max-width: 1600px) 100vw, 1600px” data-lazy-src=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-5-Since-August-2012-it-was-officially-clear-that-click-data-changes-the-ranking.png.webp” />
图 5:自 2012 年 8 月起(!),官方明确点击数据会改变排名

已证实,搜索结果的点击行为和网站或网页的流量都会影响排名。Google 可以直接在 SERP 中轻松评估搜索行为,包括搜索、点击、重复搜索和重复点击。

有人猜测谷歌可以从 Google Analytics 推断出域名移动数据,这导致一些人避免使用该系统。然而,这种理论有局限性。 

首先,Google Analytics 不提供对域名所有交易数据的访问权限。更重要的是,由于超过 60% 的人使用 Google Chrome 浏览器(超过 30 亿用户),Google 收集了相当一部分网络活动的数据。 

正如听证会上所强调的那样,这使得 Chrome 成为分析网络动态的关键组件。此外,核心网络生命力信号是通过 Chrome 正式收集的,并汇总到“chromeInTotal”值中。

“监控”带来的负面宣传是拒绝的原因之一,而另一个原因是担心评估点击和移动数据可能会鼓励垃圾邮件发送者和骗子使用机器人系统伪造流量来操纵排名。虽然拒绝可能令人沮丧,但其根本原因至少是可以理解的。

  • 存储的一些指标包括badClicksgoodClicks。搜索者在目标页面上停留的时间长度以及他们在什么时间(Chrome 数据)上查看了多少其他页面的信息最有可能包含在此评估中。
  • 短暂绕道前往搜索结果并快速返回搜索结果并进一步点击其他结果可能会增加错误点击的数量。搜索会话中最后一次“正确”点击的搜索结果被记录为lastLongestClick
  • 数据被压缩(即浓缩),以便从统计上实现标准化,并且不易受到操纵。
  • 如果某个页面、页面集群或某个域的起始页通常具有良好的访客指标(Chrome 数据),则 NavBoost 可以产生积极影响。通过分析域内或跨域的移动模式,甚至可以确定通过导航对用户的指导有多好。
  • 由于 Google 会测量整个搜索会话,因此理论上,在极端情况下,它甚至可以识别出完全不同的文档适合搜索查询。如果搜索者在搜索中离开他们在搜索结果中点击的域并转到另一个域(因为它甚至可能从那里链接)并保持在那里作为可识别的搜索结尾,那么这个“结尾”文档将来可能会通过 NavBoost 刷新到前面,前提是它在选择环集中可用。然而,这需要来自许多搜索者的强烈统计相关信号。

我们先来看看搜索结果中的点击量。SERP 中的每个排名位置都有一个平均预期点击率 (CTR),作为绩效基准。例如,根据 Johannes Beus 在今年柏林 CAMPIXX 上发表的分析,有机排名 1 平均获得 26.2% 的点击量,而排名 2 获得 15.5% 的点击量。

如果某个片段的实际点击率明显低于预期,NavBoost 系统会记录此差异并相应调整 DocID 的排名。如果某个结果的历史点击率明显高于或低于预期,NavBoost 会根据需要将文档的排名上调或下调(见图 6)。

这种方法很有意义,因为点击本质上代表了用户根据标题、描述和域对结果相关性的投票。这个概念甚至在官方文档中也有详细说明,如图 7 所示。

图 6:如果“expected_CRT”与实际值有较大偏差,则排名会相应调整。(数据来源:J. Beus、SISTRIX,附有编辑叠加)
图 6:如果“expected_CRT”与实际值有较大偏差,则排名会相应调整。(数据来源:J. Beus、SISTRIX,附有编辑叠加图)
<img class="wp-image-445152 entered exited" src="data:;base64,” alt=”图 7:Google 演示文稿中的幻灯片(来源:审判证据 – UPX0228,美国和原告州诉 Google LLC)” width=”1134″ height=”653″ data-lazy-srcset=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-–-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC.png 1134w, https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-–-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC-587×338.png 587w, https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-–-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC-800×461.png 800w, https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-–-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC-196×113.png 196w, https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-–-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC-768×442.png 768w” data-lazy-sizes=”(max-width: 1134px) 100vw, 1134px” data-lazy-src=”https://searchengineland.com/wp-content/seloads/2024/08/Figure-7-Slide-from-a-Google-presentation-Source-Trial-Exhibit-%E2%80%93-UPX0228-U.S.-and-Plaintiff-States-v.-Google-LLC.png” />
图 7:Google 演示文稿中的幻灯片(来源:审判证据 – UPX0228,美国和原告州诉 Google LLC)

由于我们的铅笔文档仍是新文档,因此尚无可用的 CTR 值。目前尚不清楚是否会忽略没有数据的文档的 CTR 偏差,但这似乎是可能的,因为目标是纳入用户反馈。或者,CTR 最初可能根据其他值进行估算,类似于 Google Ads 中处理质量因素的方式。

  • SEO 专家和数据分析师早就报告说,他们在全面监控自己的点击率时注意到了以下现象:如果某个搜索查询的文档新出现在前 10 名中,并且点击率明显低于预期,则可以在几天内观察到排名下降(取决于搜索量)。 
  • 相反,如果 CTR 相对于排名明显较高,排名通常会上升。如果 CTR 较低(通常通过优化标题和描述),您只有很短的时间来做出反应并调整摘要,以便获得更多点击。否则,排名会下降,随后很难恢复。测试被认为是这种现象背后的原因。如果文档证明了自己,它就可以保留下来。如果搜索者不喜欢它,它就会再次消失。这是否真的与 NavBoost 有关尚不清楚,也无法最终证明。

根据泄露的信息,谷歌似乎使用来自页面“环境”的大量数据来估计新的、未知页面的信号。

例如,NearestSeedversion建议将主页HomePageRank_NS的 PageRank转移到新页面,直到它们开发出自己的 PageRank。此外,pnavClicks似乎用于估计和分配通过导航点击的概率。

计算和更新 PageRank 非常耗时且计算量大,这就是为什么可能会使用PageRank_NS指标的原因。“NS”代表“最近种子”,这意味着一组相关页面共享一个 PageRank 值,该值会暂时或永久应用于新页面。

邻近页面的值可能也用于其他关键信号,帮助新页面在缺乏大量流量或反向链接的情况下提升排名。许多信号并非实时归因,但可能涉及明显的延迟。

  • 谷歌本身就是一个很好的例子,在听证会期间保持新鲜感。例如,如果你搜索“斯坦利杯”,搜索结果通常会显示这个著名的杯子。然而,当斯坦利杯冰球比赛正在进行时,NavBoost 会调整搜索结果,优先显示比赛信息,反映搜索和点击行为的变化。
  • 新鲜度不是指新的(即“新鲜”)文档,而是指搜索行为的变化。据 Google 称,SERP 中每天有超过十亿(这不是笔误)个新行为!因此,每次搜索和每次点击都有助于 Google 的学习。认为 Google 完全了解季节性的假设可能并不正确。Google 能够识别搜索意图的细微变化,并不断调整系统 – 这让人误以为 Google 实际上“了解”了搜索者想要什么。 

根据最新调查结果,文档的点击指标显然是在 13 个月的时间内存储和评估的(每年有一个月重叠,以便与前一年进行比较)。 

由于我们的假设域名具有强大的访问者指标和来自广告的大量直接流量,作为一个知名品牌(这是一个积极的信号),我们的新铅笔文档受益于旧的成功页面的有利信号。 

结果,NavBoost 将我们的排名从第 14 位提升到了第 5 位,进入了“蓝环”或前 10 名。包括我们的文档在内的前 10 名列表随后与其他 9 个自然结果一起转发到 Google Web 服务器。

  • 与预期相反,Google 实际上并没有提供很多个性化的搜索结果。测试可能表明,对用户行为进行建模并对其进行更改比评估单个用户的个人偏好能带来更好的结果。 
  • 这很了不起。通过神经网络进行的预测现在比我们自己的浏览和点击历史更适合我们。然而,个人偏好,例如对视频内容的偏好,仍然包含在个人结果中。 

GWS:一切结束,新开始

Google Web 服务器 (GWS) 负责组装和交付搜索结果页面 (SERP)。这包括 10 个蓝色链接,以及广告、图片、Google 地图视图、“人们还问”部分和其他元素。

Tangram 系统负责处理几何空间优化,计算每个元素需要多少空间,以及有多少结果适合可用的“盒子”。然后,Glue 系统将这些元素排列到适当的位置。

我们的铅笔文档目前排名第五,是有机结果的一部分。但是,CookBook 系统可以在最后一刻进行干预。该系统包括FreshnessNodeInstantGlue(在 24 小时内做出反应,延迟约 10 分钟)和InstantNavBoost。这些组件会生成与主题相关的额外信号,并可以在页面显示前的最后时刻调整排名。

假设一档关于辉柏嘉 250 年历史和“铅笔”一词神话的德国电视节目开始播出。几分钟内,成千上万的观众拿起智能手机或平板电脑在线搜索。这是一个典型的场景。FreshnessNode检测到“铅笔”搜索量的激增,并注意到用户是在寻找信息而不是购买,因此相应地调整了排名。 

在这种特殊情况下,InstantNavBoost会删除所有交易结果,并实时用信息结果替换它们。然后InstantGlue会更新“蓝环”,导致我们之前以销售为导向的文档从顶级排名中掉下来,并被更相关的结果取代。

图 8:为庆祝著名德国铅笔制造商 Faber-Castell 成立 250 周年而播出的有关“铅笔”一词起源的电视节目。
图 8:为庆祝著名德国铅笔制造商 Faber-Castell 成立 250 周年,播出了有关“铅笔”一词起源的电视节目。

尽管这可能令人不幸,但我们排名之旅的这个假设结局说明了一个重要的观点:获得高排名不仅仅取决于拥有出色的文档或通过高质量的内容实施正确的 SEO 措施。 

排名会受到多种因素的影响,包括搜索行为的变化、其他文档的新信号以及不断变化的情况。因此,重要的是要认识到,拥有一份优秀的文档并做好 SEO 只是更广泛、更动态的排名格局的一部分。

搜索结果的编译过程极其复杂,受数千种信号的影响。SearchLab 使用 Twiddler 进行了多次现场测试,结果表明,甚至指向您文档的反向链接也可能受到影响。

这些文档可能会从 HiveMind 移至不太重要的级别,例如 SSD 甚至 TeraGoogle,这可以削弱或消除它们对排名的影响。即使您自己的文档没有任何变化,这也可能会改变排名范围。

Google 的 John Mueller 强调,排名下降通常并不意味着你做错了什么。用户行为或其他因素的变化可能会改变结果的表现。

例如,如果搜索者随着时间的推移开始喜欢更详细的信息和更短的文本,NavBoost 将自动调整排名。然而,Alexandria 系统或 Ascorer 中的 IR 分数保持不变。

一个关键点是,SEO 必须在更广泛的背景下理解。如果文档与其搜索意图不一致,优化标题或内容将不会有效。

Twiddlers 和 NavBoost 对排名的影响通常超过传统的页面、站内或站外优化。如果这些系统限制了文档的可见性,额外的页面改进将收效甚微。

然而,我们的旅程并没有就此结束。这档关于铅笔的电视节目的影响是暂时的。一旦搜索热潮消退,FreshnessNode将不再影响我们的排名,我们将重新回到第 5 名。 

随着我们重新开始收集点击数据,预计第 5 位的点击率约为 4%(基于 SISTRIX 的 Johannes Beus)。如果我们能保持这一点击率,我们有望保持前十名。一切都会好起来的。

SEO 关键要点

  • 使流量来源多样化:确保您从各种来源获得流量,而不仅仅是搜索引擎。来自社交媒体平台等不太明显的渠道的流量也很有价值。即使 Google 的抓取工具无法访问某些页面,Google 仍然可以跟踪有多少访问者通过 Chrome 等平台或直接 URL 访问您的网站。
  • 建立品牌和域名知名度:始终致力于增强您的品牌或域名知名度。人们对您的名字越熟悉,他们就越有可能在搜索结果中点击您的网站。许多长尾关键词的排名也可以提高您域名的知名度。泄漏表明“网站权威”是一种排名信号,因此建立您的品牌声誉可以帮助提高您的搜索排名。
  • 了解搜索意图:为了更好地满足访问者的需求,请尝试了解他们的搜索意图和旅程。使用 Semrush 或 SimilarWeb 等工具查看访问者来自哪里以及访问您的网站后去了哪里。分析这些域 – 它们是否提供了您的目标网页所缺乏的信息?逐步添加这些缺失的内容,使其成为访问者搜索旅程中的“最终目的地”。请记住,Google 会跟踪相关搜索会话,并准确了解搜索者正在寻找什么以及他们在哪里搜索。
  • 优化标题和描述以提高点击率:首先查看您当前的点击率并进行调整以提高点击吸引力。将一些重要单词大写可以帮助它们在视觉上脱颖而出,从而有可能提高点击率;测试这种方法以查看它是否适合您。标题在确定您的页面是否在搜索短语中排名靠前方面起着关键作用,因此优化标题应该是首要任务。
  • 评估隐藏内容:如果您使用折叠功能“隐藏”需要点击才能显示的重要内容,请检查这些页面的跳出率是否高于平均水平。当搜索者无法立即看到他们位于正确的位置并且需要多次点击时,负面点击信号的可能性就会增加。
  • 删除表现不佳的页面:如有必要,应删除无人访问的页面(网络分析)或长期排名不佳的页面。不良信号也会传递给邻近页面!如果您在“不良”页面集群中发布新文档,则新页面几乎没有机会。“deltaPageQuality”显然实际上衡量了域或集群中各个文档之间的质量差异。
  • 增强页面结构:清晰的页面结构、便捷的导航和良好的第一印象对于获得最高排名至关重要,这通常要归功于 NavBoost。
  • 最大限度地提高参与度:访客在您网站上停留的时间越长,您的域名发出的信号就越好,这对您的所有子页面都有好处。通过提供访客所需的所有信息,力争成为访客的最终目的地,这样访客就不必在其他地方搜索。 
  • 扩展现有内容,而不是不断创建新内容:更新和增强现有内容可能更有效。ContentEffortScore衡量创建文档所付出的努力,高质量图像、视频、工具和独特内容等因素都有助于这一重要信号
  • 将标题与其介绍的内容对齐:确保(中间)标题准确反映后面的文本块。与纯词汇方法相比,使用嵌入(文本矢量化)等技术的主题分析可以更有效地识别标题和内容是否正确匹配。
  • 利用网络分析:Google Analytics 等工具可让您有效跟踪访客参与度并识别和解决任何差距。特别注意着陆页的跳出率。如果跳出率过高,请调查潜在原因并采取纠正措施。请记住,Google 可以通过 Chrome 浏览器访问此数据。
  • 瞄准竞争较少的关键词:您还可以首先关注竞争较少的关键词的排名,从而更轻松地建立积极的用户信号。
  • 培养优质反向链接 关注 HiveMind 中存储的近期或高流量页面的链接,因为这些链接提供了更有价值的信号。来自流量或参与度较低的页面的链接效果较差。此外,来自同一国家/地区内的页面以及与您的内容具有主题相关性的页面的反向链接更有益。请注意,确实存在对您的分数产生负面影响的“有害”反向链接,应避免使用。
  • 注意链接周围的上下文:排名时,不仅要考虑锚文本本身,还要考虑链接前后的文本。确保文本自然地围绕链接流动。避免使用“单击此处”之类的通用短语,这种短语二十多年来一直没有效果。 
  • 请注意 Disavow 工具的局限性:用于使不良链接无效的 Disavow 工具在泄漏中根本没有被提及。似乎算法没有考虑到它,它主要为垃圾邮件斗士提供记录。 
  • 考虑作者的专业知识:如果您使用作者参考,请确保他们在其他网站上也得到认可并展示相关的专业知识。拥有数量较少但高素质的作者比拥有许多不太可信的作者要好。根据一项专利,谷歌可以根据作者的专业知识评估内容,区分专家和外行。
  • 创建独家、有用、全面且结构良好的内容:这对于关键页面尤其重要。展示您对该主题的真正专业知识,如果可能的话,提供证据。虽然让某人撰写内容只是为了在页面上展示一些内容很容易,但如果没有真正的质量和专业知识,设定高排名期望可能并不现实。

本文版本最初于 2024 年 8 月以德文发表于《Website Boosting》第 87 期。


我们邀请投稿作者为 Search Engine Land 撰写内容,并根据他们的专业知识和对搜索社区的贡献进行选择。我们的投稿者在编辑人员的监督下工作并检查投稿的质量和与读者的相关性。他们表达的观点是他们自己的。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注