内容深度不够影响收录:3 个原因 + 修复路径

Crawled - currently not indexed 多半是内容深度不够,Google 嫌的不是字数少,而是除主关键词外没独有信息。本文讲深度等于信息密度的含义和加密度方法。

Search Console 的 “Crawled - currently not indexed” 里大多数 URL 的真实原因是内容深度不够。Google 不是嫌字数少(300 字的精彩短文也能排名),而是判定”这页除了重复主关键词外没提供任何独有信息”。

“深度”不等于”长”,它指的是信息密度:具体例子、独家数据、第一手观察、可执行的步骤。下面是判定标准和修法。

常见原因

1. 主题页不足 300 字 / 全是泛泛而谈

300 字以下基本无救——除非是定义型词条(如词典)。常见的薄内容模式:

  • “X 的好处” → 列 5 条都是套话(提升效率、节省时间、增强体验…)
  • “如何 X” → 全是动词不带具体步骤(“使用工具”、“配置设置”)
  • “Y 是什么” → 维基百科开头那段的改写

如何判断:把你的文章和搜索结果里前 10 名对比,如果你的字数不到他们 30%、且没有他们没有的独特信息——深度不够。

2. 没具体示例 / 数字 / 截图

Google 用”具体信号”判断信息密度。一篇 1500 字全是抽象描述的文章 < 一篇 600 字带 3 张截图 + 2 段代码 + 1 个表格的文章。

如何判断

curl -sL https://yourdomain.com/page | grep -cE '<(img|code|pre|table)'
# < 3 = 太抽象

3. 没有第一手 / 独家信息

Google 的 Helpful Content 系统专门识别”二手信息复述”:

  • 维基百科 / 官方文档的改写
  • 别的博客文章的 paraphrase
  • AI 直接生成无人工 fact-check

要的是:你做过实验、自己的截图、行业里的数据、自己的偏好和理由。

4. 没回答用户真实想知道的相邻问题

用户搜 “Astro 部署 Vercel” 时,他可能还想知道:

  • 环境变量怎么配?
  • build command 怎么改?
  • 部署预览(preview deployments)怎么开?
  • 域名怎么绑?

只回答标题问题、不展开相邻问题 = 用户跳出找别的页 = Google 降权。

5. 大量靠 AI 生成、缺人工编辑痕迹

AI 文章的几个特征 Google 已经能识别:

  • 段落结构太”工整”(每段都 3 句、首句总结)
  • 用词偏书面化、缺口语连接词
  • 没有具体的人称、时间、地点
  • 列表不分主次(全 5 条同等长度)

最短修复路径

Step 1:用字数 + 信号密度脚本扫出薄页

// scripts/audit-depth.mjs
import fg from "fast-glob";
import fs from "node:fs";
import matter from "gray-matter";

const issues = [];
for (const f of fg.sync("src/content/**/*.{md,mdx}")) {
  const { content } = matter(fs.readFileSync(f, "utf8"));
  const text = content.replace(/```[\s\S]+?```/g, "").replace(/\!\[.*?\]\(.+?\)/g, "");
  const words = text.split(/\s+/).filter(Boolean).length;
  const images = (content.match(/!\[/g) || []).length;
  const codeBlocks = (content.match(/```/g) || []).length / 2;
  const tables = (content.match(/^\|/gm) || []).length;
  const headings = (content.match(/^##+ /gm) || []).length;

  const score = words + images * 100 + codeBlocks * 80 + tables * 50 + headings * 30;
  if (words < 600) issues.push(`THIN (${words}w, score ${score}): ${f}`);
  if (headings < 3) issues.push(`FLAT (${headings} sections): ${f}`);
  if (images + codeBlocks + tables === 0) issues.push(`ABSTRACT (no img/code/table): ${f}`);
}
console.log(issues.join("\n"));

跑完得到优先修复列表。

Step 2:对每篇薄页做”信号密度注入”

按这个顺序补:

  1. 加 1 张真实截图:自己工具的截图、对比图、流程图——比 stock photo 强 10 倍
  2. 加 1 个表格:对比 / 价格 / 时间线 / 步骤——结构化数据 Google 喜欢
  3. 加 1 段代码 / 配置 / 命令:showing 不只是 telling
  4. 加 1 个具体数字:不要”很多”、“许多”,要”127 个”、“2.3 秒”、“$29/月”
  5. 加 1 个第一人称经验:“我们 2026 年 3 月试过 X,结果 Y”

每篇文章至少 3 个上述元素。

Step 3:补”相邻问题”段落

打开 AnswerThePublic 输入你的主关键词,会出来用户实际搜的相邻问题。挑 3-5 个写进文章作为子标题。

或用 Google 自己的 “People also ask” 区块(在 SERP 上自己搜一下)。

Step 4:用第一段就告诉用户独有价值

差:

本文将为您详细介绍 Astro 部署 Vercel 的完整流程,希望对您有所帮助。

好:

2026 年 5 月我把博客从 Netlify 迁到 Vercel,整个过程 17 分钟。这篇文章把那 17 分钟记下来,包括踩的两个坑(环境变量大小写 + build command 默认值错),以及怎么把 cold start 从 800ms 降到 150ms。

第一段定调”这页有具体的、独有的、能用的信息”。

Step 5:删除最薄的 20%

不是所有页都能救。看完上面 4 步后还是薄的页面,三种处理:

  • 合并到一篇 pillar 文章里 → 301 重定向
  • 直接 410 删除 → 从 sitemap 移除
  • noindex 暂留 → 等以后有时间补深

总比留一堆薄页拖累整站权威信号好。

Step 6:发布后 4 周看 Crawled - not indexed 数量

修完后 4 周回看 Search Console,目标:

  • 修过的 URL 中 ≥ 50% 进入索引
  • 整站 Crawled - not indexed 总数下降 ≥ 20%

如果没下降,重新看哪些页修得不够——通常是补的内容仍然抽象。

预防建议

  • 写之前先列大纲——8 个以上 H2 才是合理深度
  • 每篇文章 3 元素硬规则:≥ 1 张截图 + ≥ 1 个表格或代码 + ≥ 1 个具体数字
  • 第一段必须独有:你做过 / 用过 / 测过的东西,不要泛泛而谈
  • 不写”X 是什么”系列除非你能给出维基百科没有的细节
  • AI 生成的初稿必须人工 fact-check + 加第一手经验,否则不发

相关阅读

标签: #SEO #Google #Search Console #收录