页面被踢出索引怎么排查:3 个原因 + 修复路径

曾收录、有排名、带流量的页突然 URL is not on Google,且不是 noindex 也没 404——这是 Google 主动 deindex 了。本文给一套区分技术回归、质量降权、合并归并的排查路径。

之前正常收录、排名、带流量的页面,某一天突然从索引消失。site:yourdomain.com/that-url 搜不到,URL Inspection 显示 “URL is not on Google”,且不是 noindex / 404 / robots.txt 屏蔽——这是 Google 主动从索引移除(deindex)了。

跟”从未收录”完全不同:以前能进,现在不能 = 你做了什么改动 OR Google 对你站的整体评估变了。下面是逐项排查路径。

常见原因

1. 技术回归:noindex / 404 / redirect 意外加上

最容易遗漏,也最容易修。常见场景:

  • 模板改动加了 <meta name="robots" content="noindex"> 但没人发现
  • 某次部署 server 配置变了,对应 URL 返回 301 到别处
  • CMS 升级后这一类页面默认变成 draft / private
  • canonical 被改成指向另一个 URL

如何判断

# 看页面是否真的可访问且 200
curl -sI https://yourdomain.com/that-url | head -5

# 看是否有 noindex
curl -sL https://yourdomain.com/that-url | grep -i noindex

# 看 canonical 是不是指自己
curl -sL https://yourdomain.com/that-url | grep -oE '<link rel="canonical" href="[^"]+"'

# 看 robots.txt
curl -s https://yourdomain.com/robots.txt | grep -E "Disallow.*your-url"

任意一个有问题就是技术原因。

2. 合并 / 重组时选了别的 URL

如果你最近合并了相似文章、改了 URL 结构、做了大量 301——Google 在重新评估时可能把你某个想保留的 URL 标为”合并到 X”,从索引移除原 URL。

如何判断:Search Console → URL 检查 → 看”Google-selected canonical”,如果指向另一个 URL,那是 Google 把它合并了。

3. 全站质量评估变化(Core Update / Helpful Content Update)

Google 每年几次大规模算法更新(Core Update、Helpful Content Update、Spam Update)。如果你大量页面突然 deindex,时间点对得上某次更新——是算法评估调整。

如何判断:去 searchengineroundtable.comsearch.google/updates 查最近更新时间。和你看到 deindex 的时间对比。

4. 内容被判为”unhelpful / 低价值”

跟 #3 相关但更具体:

  • 大量 AI 批量生成内容
  • 内容跟其他站雷同
  • 第一段就是泛泛而谈
  • 没有第一手信息

5. 域名被罚(Manual Action)

少见但严重。Search Console → 安全和手动操作 → 手动操作 里如果有提示就是手动处罚。常见原因:买外链、cloaking、薄附属内容、不自然链接。

6. 服务器持续 5xx 错误

如果某段时间你的 server 频繁返回 500/503/504,Google 多次抓不到会暂时移出索引。修好后通常 1-2 周内自动恢复。

如何判断:Search Console → 抓取统计信息 → 看”按响应”是不是有大量 5xx。

7. 重复内容被合并到别处

跟 #2 类似但场景是”你的页面跟别的站太像”,Google 选了别人作为 canonical。

最短修复路径

Step 1:URL Inspection 看 Google 给的具体状态

打开 Search Console → 顶部输入框 → 输入丢失的 URL → 等结果。看:

  • Page indexing: 显示什么状态?
  • Crawl: 上次抓取时间
  • Google-selected canonical: 是不是指别处
  • Indexing allowed: 是不是 No

根据状态对应不同修法:

状态原因修法
Excluded by ‘noindex’你加了 noindex删 meta
Not found (404)URL 真坏了修服务端
Blocked by robots.txtrobots.txt 屏蔽修 robots
Duplicate, Google chose different合并到别处加强信号 / 接受合并
Crawled - currently not indexed内容质量问题加深内容
URL is not on Google(无明确原因)Core Update 评估整站质量改进

Step 2:检查 server / canonical / robots.txt 三个技术点

# 一键检查脚本
URL="https://yourdomain.com/lost-page"

echo "=== HTTP 状态 ==="
curl -sI "$URL" | head -3

echo "=== noindex ==="
curl -sL "$URL" | grep -i noindex || echo "无"

echo "=== canonical ==="
curl -sL "$URL" | grep -oE '<link rel="canonical" href="[^"]+"' || echo "无"

echo "=== robots.txt 是否屏蔽 ==="
PATH_PART=$(echo "$URL" | sed 's|https\?://[^/]*||')
curl -s "$(echo $URL | grep -oE 'https?://[^/]*')/robots.txt" | grep -E "Disallow.*$PATH_PART" || echo "未屏蔽"

任何一项异常先修这一项。

Step 3:对比丢失 URL 的内容与现状

打开 Wayback Machine 看丢失之前的快照,对比现在的页面:

  • 字数减少了吗?
  • 主题改了吗?
  • 关键信号(H1、title、image)变了吗?

如果重做改薄了 / 改主题了,那是 deindex 的直接原因。补回来。

Step 4:检查 Core Update 时间窗

查最近 90 天内 Google 公告:

  • 2026 March Core Update
  • 2026 Spam Update

如果你的 deindex 时间点在 update rollout 期间(update 通常持续 2 周),那是算法评估。这种情况下技术修复没用,需要整站质量改进。

Step 5:如果是技术回归,修完 Request indexing

修好 noindex / canonical / 404 后,在 URL Inspection 点 “Request indexing”,通常 24 小时内 Google 重新抓取。

Step 6:质量问题需要 4-12 周改造

如果是 Helpful Content 类问题:

  • 把最薄的 20% 页面合并或 noindex
  • 给保留的页面加:原创案例、独有数据、第一人称经验、对比表
  • 拿 3-5 条新外链
  • 4-8 周后回看,正常情况会有 30-60% 页面回到索引

预防建议

  • 每周看一次 Search Console → 页面 → 索引数量趋势,跌 > 10% 就要排查
  • 关键页面每次部署后做”冒烟测试”:curl 看 HTTP 200 + 无 noindex + canonical 对
  • CMS 升级 / 模板改造前先备份当前 sitemap 和索引数量
  • CI 加 production 健康检查:每天抽样 50 URL 用 curl 验证 200 + 无 noindex
  • Google 公告 Core Update 时记录时间,方便后续归因

相关阅读

标签: #SEO #Google #Search Console #收录