Google 更新抓取工具和用户触发抓取工具文档


Google 对其抓取工具和用户触发抓取工具文档进行了一系列更新,主要是将单页文档拆分为多个页面和文档。但 Google 还在每个抓取工具旁边添加了一个新部分,以扩展每个抓取工具影响的产品,并为每个抓取工具添加了 robots.txt 代码片段,以演示每个抓取工具如何使用用户代理令牌。

谷歌的说法。谷歌发布了关于这些变化的帖子,称:

“重新组织了 Google 抓取工具和用户触发抓取工具的文档。我们还添加了关于每个抓取工具影响哪些产品的明确说明,并为每个抓取工具添加了 robots.txt 代码片段,以演示如何使用用户代理令牌。除此之外,内容没有任何有意义的变化。”

“文档变得非常长,这限制了我们扩展有关爬虫程序和用户触发的获取器内容的能力。”

新功能。除了移动大量内容之外,Google 还添加了“受影响的产品”部分以及“示例 robots.txt 组”部分。以下是将其应用于 Googlebot 爬虫的屏幕截图,但它已添加到每个单独的爬虫中:

Google Crawler 受影响的产品示例 Robots Group 1726479983

我把每一个都拿出来给你看:

  • Googlebot:针对 Googlebot 用户代理的抓取偏好设置会影响 Google 搜索(包括 Discover 和所有 Google 搜索功能)以及其他产品,例如 Google 图片、Google 视频、Google 新闻和 Discover。
  • Googlebot 图片:针对 Googlebot-Image 用户代理的抓取偏好设置会影响 Google 图片、Discover、Google 视频以及 Google 搜索中显示图片、徽标和网站图标的所有功能。
  • Googlebot 视频:针对 Googlebot 视频用户代理的抓取偏好设置会影响与视频相关的 Google 搜索功能和其他依赖于视频的产品。
  • Googlebot 新闻:针对 Googlebot-News 用户代理的抓取偏好设置会影响 Google 新闻的所有界面(例如,Google 搜索中的新闻标签和 Google 新闻应用)。
  • Google StoreBot:针对 Storebot-Google 用户代理的抓取偏好设置会影响 Google Shopping 的所有界面(例如,Google 搜索和 Google Shopping 中的购物标签)。
  • Google-InspectionTool:针对 Storebot-Google 用户代理的抓取偏好设置会影响搜索测试工具,例如 Search Console 中的 Rich Result Test 和 URL 检查。它对 Google 搜索或其他产品没有影响。
  • GoogleOther:针对 GoogleOther 用户代理的抓取偏好设置不会影响任何特定产品。GoogleOther 是一种通用抓取工具,可供各个产品团队用来从网站抓取可公开访问的内容。例如,它可用于内部研发的一次性抓取。它对 Google 搜索或其他产品没有影响。
  • GoogleOther-Image:针对 GoogleOther-Image 用户代理的抓取偏好设置不会影响任何特定产品,与 GoogleOther 类似。GoogleOther-Image 是针对抓取可公开访问的图像网址而优化的 GoogleOther 版本。
  • GoogleOther-Video:针对 GoogleOther-Video 用户代理的抓取偏好设置不会影响任何特定产品,与 GoogleOther 类似。GoogleOther-Video 是针对抓取可公开访问的视频网址而优化的 GoogleOther 版本。
  • Google-CloudVertexBot:针对 Google-CloudVertexBot 用户代理的抓取偏好设置会影响网站所有者为构建 Vertex AI 代理而请求的抓取。它对 Google 搜索或其他产品没有影响。
  • Google-Extended: Google-Extended 是一个独立的产品令牌,网络发布者可以使用它来管理他们的网站是否有助于改进 Gemini Apps 和 Vertex AI 生成 API,包括支持这些产品的未来几代模型。Google-Extended 不会影响网站在 Google 搜索中的收录或排名。
  • APIs-Google:针对 APIs-Google 用户代理的抓取偏好设置会影响 Google API 推送通知消息的传递。
  • AdsBot 移动网络:针对 AdsBot-Google-Mobile 用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。
  • AdsBot:针对 AdsBot-Google 用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。
  • AdSense:针对 Mediapartners-Google 用户代理的抓取偏好设置会影响 Google AdSense。AdSense 抓取工具会访问参与的网站,以便向其提供相关广告。
  • Google 安全: Google 安全用户代理处理针对滥用行为的抓取,例如针对 Google 资产上公开发布的链接的恶意软件发现。因此,它不受抓取偏好的影响。
  • Feedfetcher: Feedfetcher 用于抓取 Google News 和 PubSubHubbub 的 RSS 或 Atom 提要。
  • Google 发布商中心: Google 发布商中心会获取并处理发布商明确提供的用于 Google 新闻登录页面的供稿。
  • Google Read Aloud:根据用户请求,Google Read Aloud 使用文本转语音 (TTS) 提取并读出网页。
  • Google Site Verifier: Google Site Verifier 获取 Search Console 验证令牌。

我们为什么关心。阅读这些受影响的产品部分可能会帮助您更好地了解每个抓取工具如何影响 Google 的各个方面。有些抓取工具根本不影响 Google 搜索,而有些则对 Google 搜索的运作至关重要。

新的 robots.txt 示例也可能对您和您的开发团队非常有用。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注