打开 Pages,看到「143 未收录」就慌了。先别慌。大部分行是噪音、是预期行为、或者本来就是你不想收录的页面。下面讲分类处理的顺序。
问题背景
Pages 报告(Indexing -> Pages)把 Google 知道的所有 URL 分成「已收录」和「未收录」,未收录里再按原因细分。原因从「你自己屏蔽的」到「Google 拒收的」都有。把它们当一回事处理,是独立开发者浪费几周时间的常见方式。
判断标准
- 已收录数量突然掉了,不知道原因。
- 「未收录」数远超「已收录」,想知道这要不要紧。
- 看到「Crawled — currently not indexed」「Discovered — currently not indexed」「Duplicate, Google chose different canonical」这种分类,不知道哪些要处理。
- 看到「Excluded by noindex tag」但你没有意识地加过 noindex。
快速结论
把未收录原因按数量从多到少排。每一行问自己:「这是我故意屏蔽的吗?」是的话忽略。不是的话点进去看 3 个 URL 样本,决定是改 URL、改模板、还是改 canonical。大多数分类是信息性的,不用动手。
实操步骤
- 打开 Indexing -> Pages。先看图:趋势比绝对值重要。已收录缓慢上涨 = 健康。突然下跌 = 最近发布出问题或 Google 惩罚。
- 滚到 Why pages aren’t indexed。按数量降序排。逐行问:这些 URL 我有意排除的吗?
- 「Page with redirect」「Not found (404)」「Excluded by noindex tag」「Blocked by robots.txt」「Alternate page with proper canonical tag」——通常是有意的。点进去抽 5 个 URL 确认符合预期,跳过。
- 「Crawled — currently not indexed」「Discovered — currently not indexed」「Duplicate, Google chose different canonical than user」——这几行才是真正要处理的。每种都有自己的处理方法(见相关链接)。
- 「Soft 404」——Google 认为页面太薄不像正经页。打开 3 个样本问自己:陌生人落到这页会满意吗?不会的话补内容或加 noindex。
- 分类后只修明确坏的。然后等 2-4 周再看——报告更新慢,大部分修复要等下一轮爬取才能反映。
容易踩的坑
- 想把未收录归零。做不到,也不是目标。健康的站点有几千个「未收录」URL(分页、筛选、重定向)——只抓能动手的。
- 把「Discovered」(Google 看到 URL 但没爬)和「Crawled — not indexed」(Google 爬了但决定不收录)混了。原因不一样,处理也不一样。
- 一天的下跌就开始慌。页面计数每天上下 ±10% 都正常。看 30 天趋势。
- 所有分类一起修。挑最大的能动手的桶处理,其他暂时放一放。
- 把「Indexed but not submitted in sitemap」当 sitemap bug。多半是 Google 收录了你没列的 URL——一般没事,但有时是个线索说明 URL 从哪里漏出去了。
这篇适合谁
已收录 50 页以上、想了解收录健康度、提前发现回归的站点主。
这篇不适合谁
总共不到 20 页的站。用 URL Inspection 一个个查比看报告还快。
FAQ
- Pages 报告多久更新一次?: 一天一次,但比真实情况滞后 2-7 天。最近的改动会在这周晚些时候才出现,别指望立即反馈。
- 已收录掉 5% 要担心吗?: 不用。正常波动。担心的情况:几天内掉 20% 以上且没发布过、或某个 URL 类别整体消失。
- 「Indexed, though blocked by robots.txt」是什么?: 说明 Google 不顾你的屏蔽还是收录了(一般是外链导致)。真要拿掉,把 robots.txt 的屏蔽换成页面上的
noindex标签。 - 我的「Crawled — not indexed」一直在涨,是被惩罚了吗?: 大概率不是惩罚。通常意味着内容深度、内链、或者权威不够,Google 不愿意把 URL 写入索引。看 crawled-not-indexed 修复指南。