Sitemap 提交了为什么不收录:6 种最容易忽视的原因

在 Search Console 提交了 sitemap,几周过去仍然 0 收录或只收录了几条?sitemap 提交≠收录。本文按概率排出 6 种最常见原因,给出对应的修复路径。

很多人第一次做网站会以为:sitemap 提交了 = Google 会收录全部页面。事实是:sitemap 只是”告诉 Google 这些页面存在”,决定收不收录的是页面本身。如果你提交完 sitemap 几周过去仍然没收录,下面 6 个原因覆盖了几乎所有情况。

先确认 sitemap 是真的”成功”

打开 Google Search Console → Sitemaps,确认你的 sitemap:

  • 状态:成功(绿色)
  • 已发现 URL 数量:和你网站页面数量基本一致
  • 最后读取时间:是最近的,不是几个月前

如果状态是”无法获取”、“已发现 0 个 URL”或”格式错误”——那是 sitemap 本身的问题,先修这个。

6 种”sitemap 提交了但不收录”的原因

按命中率从高到低:

1. 内容质量低 / 重复内容(最常见)

Google 的标准比想象的高。下面这些会被判定为”不值得收录”:

  • 单页文字 < 300 字
  • 大量页面只有几句话不同(thin content)
  • 翻译别人的文章
  • 大量 AI 生成、无人工编辑的”伪原创”
  • 模板生成的”地区 × 关键词”组合页

如何判断:在 Search Console 用”网址检查”工具,看一篇文章的状态。如果显示”已抓取 - 当前未编入索引”,就是质量问题。

解决:把页面内容做厚(至少 800-1500 字)、加独特视角、加图表 / 数据。

2. 新域名沙盒效应

新买的域名 Google 会”观察”几周到几个月。这段时间无论你做什么,收录都会很慢。这不是惩罚,是 Google 在判断你是不是垃圾站。

判断:域名注册时间 < 3 个月、之前没有任何外链 / 流量。

解决

  • 耐心等 4-12 周
  • 持续更新内容(每周 2-3 篇)
  • 申请 1-2 个高质量外链(朋友 / 社区)
  • 把 sitemap 重新提交几次

3. 内链稀疏,爬虫”走不动”

sitemap 让 Google 知道页面存在,但实际收录优先级靠内链。一个 0 内链的页面在 Google 眼里”不重要”。

判断

  • 文章页面只能从 sitemap 找到
  • 没有”相关文章”、“上一篇 / 下一篇”
  • 首页 / 分类页都不链到正文

解决

  • 首页 / 分类页强制链到最新文章
  • 每篇文章末尾加 3-5 条相关链接
  • 重要文章加”精选”标签让首页展示

4. 页面被 noindex 或 canonical 指别处

页面在 sitemap 里,但页面 head 里写着:

<meta name="robots" content="noindex">

或:

<link rel="canonical" href="https://otherdomain.com/page" />

Google 会”尊重”页面的指令,不会收录。

判断:右键查看任意一个不被收录的页面的源代码,搜索 noindexcanonical

解决

  • 删掉 noindex 或改成 index, follow
  • 让 canonical 指向自己

5. 站点结构太深 / 主页流量极低

如果文章从首页要点 5+ 次才能到达,Google 也可能放弃。如果你的首页本身没流量、没外链,整个站的”权重”就低,Google 收录也保守。

解决

  • 重要文章和分类放首页
  • 减少深层目录(最多 2-3 层)
  • 主动获取一些外链:发个 Reddit 帖、社区分享、相关网站友链

6. 抓取预算(crawl budget)被低质 URL 浪费

如果你的站有大量自动生成的 tag、search、filter 页面,Google 的爬虫会先把它们爬完,正经文章反而排不上号。

解决

  • 给 tag / search / filter 页加 noindex
  • 在 robots.txt 屏蔽这类 URL
  • 把它们移出 sitemap

最短修复路径

按收益从高到低:

  1. 挑 3 篇”已抓取 - 未编入索引”的文章,把内容做厚到 1500 字 → 一周看是否收录
  2. 加 3-5 条内链到每篇文章
  3. 首页改成展示最新文章,让爬虫一进来就能扩散
  4. 删掉 / noindex 所有 thin tag 页
  5. 每周 update 一次 sitemap 让 Google 重新爬

哪些情况其实不在你能控制的范围

  • 新域名(< 3 个月)
  • 全球 Google 索引 lag(确实存在,特别在新算法更新前后)
  • 你站所在的 niche 竞争太激烈(金融 / 健康 / 法律),Google 标准更高
  • Google 在做 Core Update,临时大量页面进出 index

容易误判的情况

  • 以为 sitemap 状态”成功”就万事大吉 —— 那只是说 sitemap 文件能读懂
  • 以为 “Discovered - currently not indexed” 是 bug —— 这是 Google 在排队,不是错误
  • 以为提交越多越好 —— 重复提交不会加快收录,每月一次足够
  • 以为 indexnow / Bing 提交能影响 Google —— 不会

预防建议

  • 第一天就规划好”内链网络”,不要等收录慢了才补
  • 新文章首页一定要展示 1-2 周
  • 一上线就先发 3-5 篇真正能解决问题的文章,不要发 50 篇 thin content
  • 定期看 Search Console 的”页面”报告,盯死”已抓取未编入索引”的数量
  • 把 RSS / Atom feed 也部署上,部分爬虫会用这个

常见问题(FAQ)

Q:sitemap 提交后多久会开始收录? A:老域名通常 2-7 天,新域名 2-12 周。3 个月还 0 收录就是有问题了。

Q:sitemap 里有 100 篇,但只收录了 20 篇,正常吗? A:很正常。Google 永远不会收录 100%。优质站 60-80% 是正常的,新站 10-30% 也常见。

Q:要不要 ping Google? A:以前的 google.com/ping?sitemap=... 已经废弃了。直接在 Search Console 提交就好。

Q:把没收录的页面”请求编入索引”有效吗? A:有效但有限。每天有配额(约 10 个 URL),优先用来推关键页。

Q:sitemap 一定要按主题分多个吗? A:< 1000 个 URL 一个 sitemap 就够。> 5000 用 sitemap-index 分多个,更方便管理。

相关问题

决策前的检查清单

  • 如果错误是在某次改动后立刻出现,先回滚或隔离那次改动,不要同时试一堆无关修复。
  • 如果只在生产环境出现,对比环境变量、build 产物、缓存、权限和平台设置。
  • 如果只影响某个账号或浏览器,优先查权限、cookie、插件、额度和地区可用性。
  • 如果有两个修复方向,先选最容易验证、最容易撤销的那个。

什么时候可以先停下来

当你无法复现、日志和 UI 互相矛盾、涉及账单或账号安全、或者每个修复都需要你没有的生产权限时,就该停止盲试并升级处理。向平台支持或同事求助前,把完整错误、时间点、项目 ID、复现步骤、截图和最近改动整理好。清楚的升级说明,通常比再猜一小时更快解决问题。

诊断流程

  1. 先复现一次问题,并写下准确路径。复现不了时,先收集证据,不要急着改设置。
  2. 判断影响范围:一个用户还是所有用户,一个浏览器还是全部浏览器,只在本地还是只在线上,新内容还是旧内容也受影响。
  3. 优先查最近一次改动。大多数排查不是寻找神秘根因,而是找出哪次改动制造了不一致。
  4. 把系统切成两半测:输入 vs 输出、本地 vs 线上、账号 vs 项目、源文件 vs 生成文件、prompt vs 模型。确认哪一半还在失败。
  5. 先做最小且可撤销的修复。不要同时改 DNS、权限、账单、部署和代码。
  6. 用原复现路径和一个相邻路径验证,再记录最终是哪一步修好的。

最小复现模板

问题:
- [完整错误或异常表现]

发生位置:
- URL / 工具 / 项目:
- 账号:
- 环境:local / preview / production
- 浏览器 / 设备:

复现步骤:
1.
2.
3.

预期结果:
- 

实际结果:
- 

最近改动:
- 代码:
- 配置:
- DNS / 权限 / 账单:
- Prompt / 模型 / 上传文件:

证据:
- 截图:
- Console error:
- 服务端或平台日志:

这些”假修复”别做

  • 只清缓存,却不确认底层文件、权限、路由或设置是否正确。
  • 明明是环境变量、凭证、额度或平台配置问题,却反复重装依赖。
  • 一次改好几个无关设置,最后不知道到底是哪一步起作用。
  • 从另一个框架或平台复制修复方法,却不确认路由、build 输出或鉴权模型是否相同。
  • 没看 status page 和近期反馈,就把平台临时故障当成自己的 bug。

标签: #SEO #Google #Search Console #Sitemap #收录 #排查