理解并解决“已发现 – 当前未编入索引”


了解您在 Google Search Console 中看到此状态的潜在原因,以及解决相关抓取和索引问题的方法。

如果您在 Google Search Console 中看到“已发现 – 当前未编入索引”,则表示 Google 知道该 URL,但尚未抓取和编入索引。 

这并不一定意味着该页面永远不会被处理。正如他们的文档所述,他们可能会稍后再处理该页面,而无需您付出任何额外的努力。 

但其他因素可能会阻止 Google 抓取和索引该网页,其中包括:

  • 服务器问题和现场技术问题限制或阻止了 Google 的抓取能力。
  • 与页面本身相关的问题,例如质量。

您还可以使用Google Search Console Inspection API对 URL 进行批量排队以查看其coverageState状态(以及其他有用的数据点)。

通过 Google Search Console 请求索引

这是一个显而易见的解决方案,并且在大多数情况下,它可以解决问题。

有时,Google 只是抓取新 URL 的速度慢而已,这种情况确实会发生。但有时,根本问题才是罪魁祸首。 

当您请求索引时,可能会发生以下两种情况之一:

  • URL 变为“已抓取 – 当前未编入索引”
  • 临时索引

两者都是潜在问题的症状。 

第二种情况是因为请求索引有时会给你的 URL 带来暂时的“新鲜度提升”,这会使 URL 超过必要的质量阈值,进而导致临时索引。


页面质量问题

这时词汇可能会令人困惑。有人问我,“如果网页还没有被抓取,Google 如何确定网页质量?”

这是一个好问题,答案是不能。

Google 会根据域中其他页面对页面质量做出假设。他们的分类同样基于 URL 模式和网站架构。

因此,将这些页面从“意识”移至抓取队列可能会因在类似页面上发现的质量不足而降低优先级。 

与针对相同用户意图和关键字的其他内容相比,具有相似 URL 模式的页面或位于网站架构相似区域的页面可能具有较低的价值主张。

可能的原因包括:

  • 主要内容有深度。
  • 推介会。 
  • 支持内容的级别。
  • 所提供内容和观点的独特性。
  • 或者甚至存在更多操纵性问题(即内容质量低下、自动生成、旋转或直接复制已建立的内容)。

致力于提高站点集群和特定页面的内容质量,可以对重新激发 Google 有目的地抓取您的内容的兴趣产生积极影响。

您还可以对网站上您承认质量不佳的其他页面不进行索引,以提高网站上优质页面与劣质页面的比例。

抓取预算和效率

抓取预算是 SEO 中经常被误解的机制。 

大多数网站都不需要担心这一点。事实上,谷歌的 Gary Illyes 曾公开声称,大约90% 的网站不需要考虑抓取预算。这通常被认为是企业网站的问题。

另一方面,抓取效率会影响各种规模的网站。如果忽视它,可能会导致 Google 抓取和处理网站的方式出现问题。

举例来说,如果您的网站: 

  • 带有参数的重复 URL。
  • 带有或不带有尾部斜杠均可解决。
  • 可在 HTTP 和 HTTPS 上使用。
  • 提供来自多个子域的内容(例如,https://website.com 和 https://www.website.com)。

…那么您可能会遇到重复问题,这会影响 Google 基于更广泛的站点假设对抓取优先级的假设。

您可能正在用不必要的 URL 和请求消耗 Google 的抓取预算。鉴于 Googlebot 会分段抓取网站,这可能会导致 Google 的资源不足以按您希望的速度发现所有新发布的 URL。

您需要定期抓取您的网站,并确保:

  • 页面解析至单个子域(根据需要)。
  • 页面解析为单个 HTTP 协议。
  • 带有参数的 URL 被规范化为根(根据需要)。
  • 内部链接不需要使用重定向。

如果您的网站使用参数(例如电子商务产品过滤器),您可以通过在robots.txt 文件中禁止这些 URI 路径来限制对这些 URI 路径的抓取。

您的服务器对于 Google 如何分配预算来抓取您的网站也起着重要作用。

如果您的服务器超载且响应速度过慢,则可能会出现抓取问题。在这种情况下,Googlebot 将无法访问该页面,从而导致您的部分内容无法被抓取。 

因此,Google 会尝试稍后再回来索引该网站,但这无疑会导致整个过程的延迟。

内部链接

当您拥有一个网站时,从一个页面到另一个页面的内部链接非常重要。 

Google 通常较少关注没有任何或足够内部链接的 URL – 甚至可能将其排除在索引之外。

您可以通过 Screaming Frog 和 Sitebulb 等爬虫检查页面的内部链接数量。

当谈到优化您的网站时,拥有一个有组织、有逻辑的网站结构和内部链接是最好的方法。 

但是如果您在这方面遇到麻烦,那么确保所有内部页面都已连接的一种方法是使用 HTML 站点地图“侵入”抓取深度。 

这些都是为用户设计的,不是为机器设计的。虽然现在它们可能被视为文物,但它们仍然有用。

此外,如果您的网站有很多 URL,最好将它们分成多个页面。您不会希望它们都链接到同一个页面。

内部链接也需要使用 <a> 标签进行内部链接,而不是依赖于诸如 之类的 JavaScript 函数onClick()。 

如果您使用的是 Jamstack 或 JavaScript 框架,请研究它或任何相关库如何处理内部链接。这些必须以 <a> 标签的形式呈现。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注