大型内容站收录缓慢:5 类原因 + 排查修复

站点有几千页但只有少量被收录——为什么会这样,真正能推进的是什么?

你站有 10,000 篇文章,Search Console 显示 Indexed 只有 2,500——25% 收录率。Crawl Stats 看 Googlebot 每天只抓 200 URL。新发的文章 2 个月才被收录。

大站点的核心约束是 crawl budget。Google 在站点、分区、页面三层用质量信号决定每天花多少抓取请求。修法不是”发更多”——是砍薄的一半,强化剩下的

症状

  • Index Coverage 报告 “Discovered — currently not indexed” 长到几千条
  • 多数新页 2+ 个月才被收录(或始终没有)
  • Crawl Stats 在 10k+ 页站点上每天只抓 100-500 URL
  • 整体收录率 < 50%

快速结论

大站点 crawl budget 成瓶颈。Google 在站点、分区、页面三层用质量信号决定花多少。修法不是”发更多”,而是”砍薄的一半,强化剩下的”。

常见原因

1. 大量页很薄或重复,吃掉抓取预算

10,000 页里如果有 5,000 是 < 300 字的薄页 / 几乎相同的程序化生成页——Googlebot 抓完它们就用光当日预算,正经文章排不上号。

如何判断

// scripts/count-thin.mjs
import fg from "fast-glob";
import fs from "node:fs";
import matter from "gray-matter";

let total = 0, thin = 0;
for (const f of fg.sync("src/content/**/*.{md,mdx}")) {
  const { content } = matter(fs.readFileSync(f, "utf8"));
  const words = content.replace(/```[\s\S]+?```/g, "").split(/\s+/).filter(Boolean).length;
  total++;
  if (words < 300) thin++;
}
console.log(`Thin (<300 words): ${thin}/${total} = ${(thin/total*100).toFixed(1)}%`);

20% 薄页就是大问题。

2. 分面导航 / URL 参数生成大量低价值 URL

电商或大型博客典型:

/products
/products?color=red
/products?color=red&size=M
/products?color=red&size=M&sort=price
... 排列组合可能爆出 10 万 URL

每个变体都被 Googlebot 当独立 URL 爬,浪费预算。

如何判断:Crawl Stats → “按 URL 类型” 看哪些路径吃预算最多。

3. 内链结构差,多数页距首页 5+ 次点击

首页 → /blog → /blog/page/15 → /blog/2023 → /blog/2023/04 → 文章

5 次点击深度的文章 = Google 视为最低优先级。

4. Sitemap 巨大,混入参数 URL / noindex 页 / 404

# 看 sitemap 大小和 URL 数
curl -s https://yourdomain.com/sitemap.xml | wc -c
curl -s https://yourdomain.com/sitemap.xml | grep -c "<loc>"

# 单文件 > 50MB 或 > 50,000 URL → Google 截断

里面还可能有 410 / noindex / 重定向的 URL,浪费 Google 时间。

5. 站点权威低,Google 限制每日抓取速率

如果你站 DR < 20 / 月流量 < 10k,整体 crawl budget 被压低,再优化结构也只能在低预算内分配。

6. 服务器响应慢 / 不稳定

Googlebot 对慢站会主动降速。如果你站对 Googlebot 平均响应 > 2s 或经常 5xx,每天抓的总量直接减半。

最短修复路径

Step 1:审 sitemap

# 列出 sitemap 里的 URL,验证每个返回 200
curl -s https://yourdomain.com/sitemap.xml | grep -oE 'https://[^<]+' > all-sitemap.txt
while read url; do
  status=$(curl -sI -o /dev/null -w "%{http_code}" "$url")
  [ "$status" != "200" ] && echo "$status $url"
done < all-sitemap.txt

删掉 sitemap 里:

  • 404 / 410 URL
  • noindex 页
  • 参数 URL(utm / sort / filter)
  • 不到 100 字的页

Step 2:识别最薄的 20-30% 页面,合并或 noindex

用 Step 1 的 thin-page 脚本找出最薄的页。决策:

字数决策
< 100410 删除
100-300noindex,follow 或合并到相关 hub
300-500扩到 800+,否则 noindex
500+保留,看质量

Step 3:通过 robots.txt 或 noindex 阻止分面 / 参数 URL

User-agent: *
Disallow: /*?utm_
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /search
Disallow: /tag/

Sitemap: https://yourdomain.com/sitemap.xml

这一步可能立刻把 crawl budget 从分面 URL 上腾出 50-80%。

Step 4:扁平化结构

旧:首页 → /blog → page/15 → 文章 (5 clicks)
新:首页 → /articles 索引 → 文章 (2 clicks)
---
// src/pages/articles/index.astro
import { getCollection } from 'astro:content';
const all = await getCollection('posts');
const grouped = groupByTopic(all);  // hub / pillar 页
---
{Object.entries(grouped).map(([topic, posts]) => (
  <section>
    <h2><a href={`/topic/${topic}/`}>{topic}</a> ({posts.length})</h2>
    <ul>{posts.map(p => <li><a href={`/articles/${p.slug}/`}>{p.data.title}</a></li>)}</ul>
  </section>
))}

重要文章 ≤ 3 次点击可达。加 hub / pillar 页集中权威。

Step 5:为最强内容争取外链

整站权威是 crawl budget 的天花板。每多 5-10 条权威外链 → crawl budget 显著上升。

聚焦在你前 20 篇最有价值的文章,每篇争取 1-3 条外链:

  • Reddit / HN 发原创内容
  • 行业站 guest post
  • awesome-list 提交
  • 数据驱动报告做新闻

Step 6:优化服务器响应

# 模拟 Googlebot 测速度
curl -sL -A "Mozilla/5.0 (compatible; Googlebot/2.1)" \
  -w "%{time_total}\n" -o /dev/null https://yourdomain.com/articles/foo/

1500ms → 加 CDN、缓存、优化 SSR。每减一半响应时间,可抓量可以翻倍。

Step 7:保持耐心 — 4-12 周

可测量改进通常 4-12 周后才出现:

  • 4 周:crawl budget 重分配,新文章抓取速率上升
  • 8 周:薄页面 deindexed,indexed 总数可能临时下降然后回升
  • 12 周:整体收录率提升 20-40%

哪些情况可能不是你操作错了

10k 页新站,Google 故意分几个月慢慢加速度。技术设置完美也不可能几周内全收。耐心 + 持续高质量内容 + 外链 = 唯一路径。

容易误判的情况

  • 逐个 URL Inspection 提交不规模化:10k 页时配额 10/天,要 1000 天
  • 以为更多 sitemap 提交能加速:sitemap 只是发现,不影响预算分配
  • 以为分页 priority 1.0 有用:Google 忽略 priority
  • 以为发更多内容能”撑起”权威:低质量批量发反向激活 SpamBrain

预防建议

  • 只在确认能带新价值时再发一篇
  • 定期内容审计:保留上半,砍掉下半
  • 参数 / 分面 URL 从第一天就 noindex 或 robots 屏蔽
  • sitemap 永远自动生成,定期跑健康检查
  • 每周看 Crawl Stats 趋势,及时发现 budget 浪费

FAQ

Q:10k 页站点多久能全收? A:现实地说 3-9 个月,新域名往往更久。完整 100% 收录极少能达到——60-80% 是好站点的实际值。

Q:Google 按固定速率收吗? A:不是。速率随站点权威、内容独特性、历史抓取健康度动态变化。

Q:能不能跟 Google 申请提高 crawl budget? A:不能直接申请。Google 设置里能限制 max crawl rate(防过载),不能要求提高。提升靠权威建设。

Q:删一半页面真的能帮其他页吗? A:能。释放 crawl budget + 提升整体质量信号,6-12 周后保留页面的收录率和排名都会上升。

相关阅读

标签: #SEO #Google #Search Console #收录 #排查 #大型站 #抓取预算