Search Console “页面”报告里”未编入索引”是个总词,但底下展开是 10+ 种具体状态——每种修法完全不同,把它们当一种来处理就是浪费时间。本页是 7 种最高频状态的对照表,每种给你”怎么判断 + 修法 + 通常多久能见效”。
常见原因(7 种状态对照)
1. Discovered – currently not indexed(已发现但未编入索引)
意思:Google 知道这个 URL 存在,但还没派爬虫去抓。
修法:
- 提升站点权威(外链 + 流量)
- 把垃圾 URL(参数 / tag / search)从抓取预算里腾出
- 给目标 URL 加 5+ 处内链
见效:4-8 周
详细:见 Discovered - currently not indexed
2. Crawled – currently not indexed(已抓取但未编入索引)
意思:Google 爬过这页,但判定”不值得收录”。这是质量问题。
修法:
- 内容加厚(≥ 800 字,加独特数据 / 案例 / 截图)
- 删除高度相似的兄弟页
- 加权威外链
- 改第一段,提供独特信息密度
见效:8-12 周
详细:见 Crawled - currently not indexed
3. Duplicate without user-selected canonical
意思:Google 发现这页与其他页内容近似,但你没声明 canonical,Google 自己选了一个。
修法:
- 在 head 明确写
<link rel="canonical" href="..." /> - 默认 self-canonical
- 内容真的重复就 301 一边到另一边
见效:2-4 周
4. Duplicate, Google chose different canonical than user
意思:你设了 canonical,但 Google 不同意,选了另一个 URL。
修法:
- 让你想要的 URL 信号最强(更多内链、更多外链、更长内容)
- 或投降,把次版本 301 到 Google 选的那个
- sitemap / 内链全部对齐到主版本
见效:4-8 周
详细:见 Duplicate, Google chose different canonical
5. Alternate page with proper canonical tag(信息提示)
意思:这是分页 / 参数变体 / hreflang 备用,按你 canonical 指示不收录,是正常的。
修法:通常不用修。验证:
curl -sL https://yourdomain.com/that-url | grep -oE '<link rel="canonical" href="[^"]+"'
如果 canonical 指向的页面是你确实想被收录的主版本,标”OK”忽略。
详细:见 Alternate page with proper canonical tag
6. Excluded by ‘noindex’ tag
意思:页面 head 里有 <meta name="robots" content="noindex">,Google 尊重你的指示。
修法:
- 故意 noindex 的(admin / preview / draft):保持,但确认那些页面不该出现在 sitemap 里
- 不该 noindex 的:删除 meta tag,重新部署,URL Inspection 重新请求收录
如何判断是不是故意的:
curl -sL https://yourdomain.com/page | grep -i noindex
# 找到了说明确实有 noindex
见效:取消 noindex 后 1-2 周
7. Blocked by robots.txt
意思:robots.txt 屏蔽了爬虫访问。Google 不能进,谈不上收录。
修法:
curl -s https://yourdomain.com/robots.txt
# 找到对应的 Disallow 规则
如果该屏蔽:保持,但把这些 URL 从 sitemap 里删掉。 如果是误屏蔽:编辑 robots.txt 删掉对应 Disallow,部署后 Search Console → robots.txt 测试器 → 验证 → Request indexing。
见效:取消屏蔽后 1-2 周
最短修复路径
Step 1:按状态分组,先看影响最大的
打开 Search Console → 页面 → 滚到下面的”为什么未编入索引”。把每行状态对应的 URL 数记下来:
Crawled - currently not indexed: 320 ← 质量问题,最值得修
Discovered - currently not indexed: 180 ← 抓取预算 / 权威问题
Alternate page with proper canonical: 95 ← 信息提示,不用动
Duplicate, Google chose different canonical: 12 ← canonical 信号弱
Excluded by 'noindex': 4 ← 检查是不是故意的
Blocked by robots.txt: 2 ← 同上
按总数 × 重要性优先级排序,先打最值钱的。
Step 2:每次只解决一种状态,分批验证
不要同时改 canonical、内容、robots.txt——出问题归因不了。建议:
- 第 1 周:删除 Excluded by noindex / robots.txt 里的误屏蔽
- 第 2-3 周:处理 Duplicate(统一 canonical + 301)
- 第 4-8 周:内容加厚(解决 Crawled - not indexed)
- 第 4 周之后:拉外链 + 内链优化(解决 Discovered - not indexed)
每改一类等 2-4 周看效果。
Step 3:用一张追踪表盯长期趋势
| 周次 | Discovered | Crawled | Duplicate | Excluded noindex | Total not indexed |
|------|------------|---------|-----------|------------------|-------------------|
| W1 | 180 | 320 | 12 | 4 | 516 |
| W3 | 175 | 318 | 8 | 0 | 501 |
| W5 | 165 | 290 | 5 | 0 | 460 |
| W8 | 140 | 240 | 2 | 0 | 382 |
下降趋势 = 修对了;不下降 = 重新诊断。
Step 4:每种状态独立验证
修完 Excluded by noindex 后,挑 1-2 个 URL 在 URL Inspection 里 Request indexing,1-2 周后回看是否变成”URL on Google”。
不要等 Search Console 报告自动更新(数据延迟 2-3 天,且只挑样本)。
预防建议
- 别发薄页 / 重复内容(避免 Crawled - not indexed)
- 模板上线前用爬虫检查 canonical / noindex / robots.txt 三处
- robots.txt 用注释说明每条 Disallow 的原因,避免后人误改
- 故意 noindex 的页面不要进 sitemap,否则 Excluded by noindex 永远报警
- 每月做一次”未编入索引”状态扫描,问题越早发现成本越低