Crawled currently not indexed 怎么办——真正的原因和修复

Google 爬了你的页面但决定不收录。原因几乎总是内容质量、重复、或权威——不是技术问题。真实的修复清单。

这是独立开发者最常 Google 的 Search Console 错误,也是最被误解的一个。「Crawled — currently not indexed」不是技术故障。它的意思是:Google 读了页面,决定不把它放进索引。下面讲这到底意味着什么、怎么处理。

问题背景

和「Discovered — not indexed」(Google 还没读过)不同,「Crawled — not indexed」意味着 Google 已经完整抓了 HTML、渲染了页面、做出了决定。这个决定几乎总是三种原因之一:内容相对已经排名的页面不够好、页面和你自己其他内容重复、或者你的站点权威还不够 Google 在索引里腾位置。技术修复救不了你,内容和外链才能。

判断标准

  • Search Console Pages 报告里「Crawled — currently not indexed」桶越来越大。
  • 受影响的 URL 上线了几周后掉了,或者从一开始就没被收录。
  • 页面正常渲染、返回 200、canonical 自指、也在 sitemap 里。
  • site:你的域名/这个 URL/ 在 Google 搜不到。
  • 同站其他页面收录正常——所以不是全站性问题。

快速结论

挑 3 个受影响的 URL。对每个问:(1)内容相对这个关键词的 Top 1-5 是否有明显差异?(2)这页有没有 ≥ 3 个内链指过来?(3)相对网上已有的 100 篇同主题,这页有没有独特价值?三个都不能肯定的话,重写。三个都能肯定的话,问题是站点权威 + 时间——继续发、继续连内链、等。

实操步骤

  1. URL Inspection 跑一遍。Search Console → 顶部搜索框粘 URL → “Test Live URL”。看 3 个状态:

    Page Availability:   URL is available to Google      ← 必须 ✓
    Indexing:            User-declared canonical: <url>  ← 必须自指
                         Google-selected canonical: ...   ← 这两条一致才行
    Crawl:               Last crawl: <date>               ← 应该有日期

    命令行复核:

    # 1. robots.txt 没拦
    curl -s https://yoursite.com/robots.txt | grep -E "Disallow|Allow"
    
    # 2. 页面 meta 没 noindex
    curl -s https://yoursite.com/article-slug/ | grep -iE "<meta[^>]*name=['\"]robots"
    
    # 3. canonical 自指
    curl -s https://yoursite.com/article-slug/ | grep -iE "<link[^>]*rel=['\"]canonical"
    
    # 4. 服务器返回 200
    curl -sI https://yoursite.com/article-slug/ | head -1

    任一不通过:那才是真问题,不是 “crawled not indexed”。修完跳到步骤 6。

  2. 对比 Google 上目标关键词 Top 3。从 GSC 找这个 URL 当前曝光最高的 query,在隐身窗口 / 国外节点搜,记录前 3 页的:

    | Rank | URL | 字数 | H2 数 | 含独家数据? | 含截图? | 发布日期 | 内链数 |
    |------|-----|------|------|-----------|--------|---------|--------|
    | 1    | ... |      |      |           |        |         |        |
    | 2    | ... |      |      |           |        |         |        |
    | 3    | ... |      |      |           |        |         |        |

    你的页面要么在某一维度(字数 / 数据 / 截图 / 时效)明显胜出,要么角度上完全不同(“为 X 类用户写""反共识""一手数据”)。两者都没有 → Google 不需要再收一个相同的页。

  3. 审内链——本站指向这个 URL 的内链数

    # 全站 grep 内链数
    grep -rE "\\(/zh/articles/article-slug/?\\)" src/content/ | wc -l
    
    # 或抓 sitemap 后用 Screaming Frog 免费版(500 URL 内)

    阈值:

    0 条内链  → 站内孤儿,等于"自己都不重要"
    1-2 条   → 仍偏低,加 3-5 条
    ≥5 条     → 内链没问题,原因在别的地方

    加内链策略:在站内 grep 出关键词出现的页(“在 X 概念出现的所有页”),每页选 1 处插自然内链:

    grep -rEl "关键概念A" src/content/ | head -10
    # 逐个手工挑句子里能自然嵌内链的位置
  4. 全站薄内容审计——Google 评估的是整站质量,单页拉不起来:

    # 统计每篇正文字数
    for f in src/content/articles/zh/**/*.mdx; do
      wc -w "$f"
    done | sort -n | head -50
    &lt; 300 字            可能是过于薄;考虑合并或删
    300-800 字         看主题:troubleshooting/FAQ 类够,深 how-to 不够
    ≥ 800 字           一般够,看质量
    
    全站如果 ≥ 20% 是 &lt; 500 字的同质内容 → 整站权威被拉低

    行动:建一份 thin_content.csv,标 merge / rewrite / noindex,按 scale-content-with-ai-safely 的 #8 复盘流程清理。

  5. 给具体这一页加独家内容。最有效的补法(按 ROI 排序):

    1. 加 1 张你自己做的真实数据图(你的 GA / 用户调研 / 实测)
       工具:Datawrapper(免费)/ Google Sheets chart → PNG
    2. 加 1 节"我们自己测过:N 天 / N 个样本,结果是 X"
    3. 加 1 段反共识:"多数文章说 X,但我们实测发现 Y,原因是 Z"
    4. 加比较表格:列出 3-5 个常见替代方案 + 你的具体维度对比
    5. 加 FAQ 区:从 GSC 取真实 query,每条 ≤2 句答

    不要做:

    - 加同义句重复同样信息
    - 加无关 H2 凑长度("行业背景" "未来展望" 这种)
    - 改写得更"营销" 而不是更具体
  6. 改完 Request indexing。GSC URL Inspection → “Test Live URL” → 通过后 → “Request Indexing”。

    - 每个 URL / 天上限 ~10 次(GSC 自己限)
    - 等待时间 2-4 周(不会立刻收)
    - 收了 → 下个 URL 重复这套
    - 没收 → 问题在站点权威,不是这一页本身
    
    每月最多对 20-30 个 URL 做 Request indexing;多了 GSC 会 throttle,且没必要——
    Google 收录是基于站点信号的,单 URL 申请只是加速,不是开后门。
  7. 长期:每月 ≥ 1 条高质量外链。这是从 “crawled not indexed” 桶里挪出 URL 最强的信号:

    有效外链类型(按权威性排):
    1. 行业头部 newsletter / blog 主动引用       很难,但 1 条顶 50 条普通
    2. Hacker News / Product Hunt 当天上首页      可遇不可求
    3. Reddit / X 大账号转发                      可主动 outreach
    4. 同领域独立博客 / 中型 newsletter 引用       中等难度
    5. GitHub star 与 README 反链                 写工具时副产品
    
    不要做的:
    - 买外链(Google 反向工程很强)
    - 互链 spam("我们交换 1 条")
    - 评论区灌外链

    每月日历加 1 件事 本月外链 outreach:选 5 个相关行业内容主,准备 1 段 30 秒的”我写过 X,你可能感兴趣”邮件,主动 reach out。5 条命中 1 条就值。

容易踩的坑

  • 当成技术 bug 处理。基本没有技术修复。重新提交 sitemap、删空白、改 meta 标签,改变不了「不够好」这个判断。
  • 反复申请收录。每次申请只是让 Google 重新确认它原来的决定。先改页面,只申请一次。
  • 加字数但不加价值。Google 不是「越长越好」——补 500 字水分反而扣分。
  • 迷信 schema / 结构化数据修复。结构化数据影响搜索结果的展示样式,不会把「未收录」翻成「已收录」。
  • 忽视全站信号质量。一篇薄文章能容忍,一个 80% 都是薄文章的站,长尾整体会卡在这个桶里。

这篇适合谁

已经过 30+ 文章的独立内容站、博客、SaaS 营销站——尤其是看到长尾文章 Google 读了但不收录的情况。

这篇不适合谁

上线不到 30 天的全新站。新站的「Crawled — not indexed」不是判决——只是「还在评估」。先等 60-90 天再动手。

FAQ

  • 在这个桶里的页面以后还能被收录吗?: 可能。Google 会定期重新评估。如果你改好了页面、整站信号也提升,30-90 天内不少 URL 会被重新收录。如果什么都没变,它们经常会一直卡着。
  • 是惩罚吗?: 不是。是质量 / 优先级判断,不是 manual action。Manual action 会在 Manual Actions 报告里显示,写得很明确。
  • 删掉这些 URL 对站点其他页有帮助吗?: 有时有。如果 100 页薄 + 20 页好,删那 100 页能拉起这 20 页。先小范围测,别反射性大删。
  • 一个 URL 等多久能确认是真卡死了?: 实质性重写 + 申请收录后等 30 天。还是没收录、页面也确实强,瓶颈在站点权威——不是这页本身。

相关阅读

标签: #独立开发 #SEO #Google #Search Console #收录 #排查 #内容运营