你站有 10,000 篇文章,Search Console 显示 Indexed 只有 2,500——25% 收录率。Crawl Stats 看 Googlebot 每天只抓 200 URL。新发的文章 2 个月才被收录。
大站点的核心约束是 crawl budget。Google 在站点、分区、页面三层用质量信号决定每天花多少抓取请求。修法不是”发更多”——是砍薄的一半,强化剩下的。
症状
- Index Coverage 报告 “Discovered — currently not indexed” 长到几千条
- 多数新页 2+ 个月才被收录(或始终没有)
- Crawl Stats 在 10k+ 页站点上每天只抓 100-500 URL
- 整体收录率 < 50%
快速结论
大站点 crawl budget 成瓶颈。Google 在站点、分区、页面三层用质量信号决定花多少。修法不是”发更多”,而是”砍薄的一半,强化剩下的”。
常见原因
1. 大量页很薄或重复,吃掉抓取预算
10,000 页里如果有 5,000 是 < 300 字的薄页 / 几乎相同的程序化生成页——Googlebot 抓完它们就用光当日预算,正经文章排不上号。
如何判断:
// scripts/count-thin.mjs
import fg from "fast-glob";
import fs from "node:fs";
import matter from "gray-matter";
let total = 0, thin = 0;
for (const f of fg.sync("src/content/**/*.{md,mdx}")) {
const { content } = matter(fs.readFileSync(f, "utf8"));
const words = content.replace(/```[\s\S]+?```/g, "").split(/\s+/).filter(Boolean).length;
total++;
if (words < 300) thin++;
}
console.log(`Thin (<300 words): ${thin}/${total} = ${(thin/total*100).toFixed(1)}%`);
20% 薄页就是大问题。
2. 分面导航 / URL 参数生成大量低价值 URL
电商或大型博客典型:
/products
/products?color=red
/products?color=red&size=M
/products?color=red&size=M&sort=price
... 排列组合可能爆出 10 万 URL
每个变体都被 Googlebot 当独立 URL 爬,浪费预算。
如何判断:Crawl Stats → “按 URL 类型” 看哪些路径吃预算最多。
3. 内链结构差,多数页距首页 5+ 次点击
首页 → /blog → /blog/page/15 → /blog/2023 → /blog/2023/04 → 文章
5 次点击深度的文章 = Google 视为最低优先级。
4. Sitemap 巨大,混入参数 URL / noindex 页 / 404
# 看 sitemap 大小和 URL 数
curl -s https://yourdomain.com/sitemap.xml | wc -c
curl -s https://yourdomain.com/sitemap.xml | grep -c "<loc>"
# 单文件 > 50MB 或 > 50,000 URL → Google 截断
里面还可能有 410 / noindex / 重定向的 URL,浪费 Google 时间。
5. 站点权威低,Google 限制每日抓取速率
如果你站 DR < 20 / 月流量 < 10k,整体 crawl budget 被压低,再优化结构也只能在低预算内分配。
6. 服务器响应慢 / 不稳定
Googlebot 对慢站会主动降速。如果你站对 Googlebot 平均响应 > 2s 或经常 5xx,每天抓的总量直接减半。
最短修复路径
Step 1:审 sitemap
# 列出 sitemap 里的 URL,验证每个返回 200
curl -s https://yourdomain.com/sitemap.xml | grep -oE 'https://[^<]+' > all-sitemap.txt
while read url; do
status=$(curl -sI -o /dev/null -w "%{http_code}" "$url")
[ "$status" != "200" ] && echo "$status $url"
done < all-sitemap.txt
删掉 sitemap 里:
- 404 / 410 URL
- noindex 页
- 参数 URL(utm / sort / filter)
- 不到 100 字的页
Step 2:识别最薄的 20-30% 页面,合并或 noindex
用 Step 1 的 thin-page 脚本找出最薄的页。决策:
| 字数 | 决策 |
|---|---|
| < 100 | 410 删除 |
| 100-300 | noindex,follow 或合并到相关 hub |
| 300-500 | 扩到 800+,否则 noindex |
| 500+ | 保留,看质量 |
Step 3:通过 robots.txt 或 noindex 阻止分面 / 参数 URL
User-agent: *
Disallow: /*?utm_
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /search
Disallow: /tag/
Sitemap: https://yourdomain.com/sitemap.xml
这一步可能立刻把 crawl budget 从分面 URL 上腾出 50-80%。
Step 4:扁平化结构
旧:首页 → /blog → page/15 → 文章 (5 clicks)
新:首页 → /articles 索引 → 文章 (2 clicks)
---
// src/pages/articles/index.astro
import { getCollection } from 'astro:content';
const all = await getCollection('posts');
const grouped = groupByTopic(all); // hub / pillar 页
---
{Object.entries(grouped).map(([topic, posts]) => (
<section>
<h2><a href={`/topic/${topic}/`}>{topic}</a> ({posts.length})</h2>
<ul>{posts.map(p => <li><a href={`/articles/${p.slug}/`}>{p.data.title}</a></li>)}</ul>
</section>
))}
重要文章 ≤ 3 次点击可达。加 hub / pillar 页集中权威。
Step 5:为最强内容争取外链
整站权威是 crawl budget 的天花板。每多 5-10 条权威外链 → crawl budget 显著上升。
聚焦在你前 20 篇最有价值的文章,每篇争取 1-3 条外链:
- Reddit / HN 发原创内容
- 行业站 guest post
- awesome-list 提交
- 数据驱动报告做新闻
Step 6:优化服务器响应
# 模拟 Googlebot 测速度
curl -sL -A "Mozilla/5.0 (compatible; Googlebot/2.1)" \
-w "%{time_total}\n" -o /dev/null https://yourdomain.com/articles/foo/
1500ms → 加 CDN、缓存、优化 SSR。每减一半响应时间,可抓量可以翻倍。
Step 7:保持耐心 — 4-12 周
可测量改进通常 4-12 周后才出现:
- 4 周:crawl budget 重分配,新文章抓取速率上升
- 8 周:薄页面 deindexed,indexed 总数可能临时下降然后回升
- 12 周:整体收录率提升 20-40%
哪些情况可能不是你操作错了
10k 页新站,Google 故意分几个月慢慢加速度。技术设置完美也不可能几周内全收。耐心 + 持续高质量内容 + 外链 = 唯一路径。
容易误判的情况
- 逐个 URL Inspection 提交不规模化:10k 页时配额 10/天,要 1000 天
- 以为更多 sitemap 提交能加速:sitemap 只是发现,不影响预算分配
- 以为分页 priority 1.0 有用:Google 忽略 priority
- 以为发更多内容能”撑起”权威:低质量批量发反向激活 SpamBrain
预防建议
- 只在确认能带新价值时再发一篇
- 定期内容审计:保留上半,砍掉下半
- 参数 / 分面 URL 从第一天就 noindex 或 robots 屏蔽
- sitemap 永远自动生成,定期跑健康检查
- 每周看 Crawl Stats 趋势,及时发现 budget 浪费
FAQ
Q:10k 页站点多久能全收? A:现实地说 3-9 个月,新域名往往更久。完整 100% 收录极少能达到——60-80% 是好站点的实际值。
Q:Google 按固定速率收吗? A:不是。速率随站点权威、内容独特性、历史抓取健康度动态变化。
Q:能不能跟 Google 申请提高 crawl budget? A:不能直接申请。Google 设置里能限制 max crawl rate(防过载),不能要求提高。提升靠权威建设。
Q:删一半页面真的能帮其他页吗? A:能。释放 crawl budget + 提升整体质量信号,6-12 周后保留页面的收录率和排名都会上升。