Search Console 「Crawled — currently not indexed」3400 条。滚一下:?sort=asc、?sort=desc、?page=12、?page=13、?tag=python&category=tutorials、/2024/03/、/author/jane/、/wp-content/uploads/...。crawl budget 烧在这些上而不是你文章上——真文章 index 更慢,因为 Googlebot 忙着爬参数组合。
可爬但无价值 URL 干两件坏事:浪费 crawl budget(拖慢真文章 index)+ 给 Google「站点零散无结构」信号。下面:按源分类噪音、按源屏蔽、把 crawl budget 还给重要内容。
常见原因
按命中率从高到低:
1. URL 参数暴露每种 sort / filter 组合
?sort=asc、?sort=desc&filter=x、?sort=desc&filter=x&page=2——每个组合一个独立 URL。3 个 filter × 2 sort × 10 页 = 60 个 URL 组合从一个列表页。
如何判断:GSC 报告里很多带 ? query 的 URL——按参数模式分组——高 multiplicity 参数是元凶。
2. Page 5-10 之后的分页没实质内容
/category/ai/page/12/ 显示文章 121-130——没人搜的内容。Google 爬但不 index,因为只是薄。
如何判断:GSC 里有很多 N > 5 的 /page/N/ URL——深分页占噪音一大块。
3. faceted navigation 制造 URL 组合爆炸
/products/?color=blue&size=large&brand=acme 风格。每个 facet 组合一个 URL。10 颜色 × 5 尺寸 × 20 品牌 = 一页生 1000 个 URL 组合。
如何判断:多 param URL(尤其电商风格 facet)——组合 = 少 intent 产多 URL。
4. 自动生成的归档页(年 / 月 / 作者)
/2024/、/2024/03/、/2024/03/15/、/author/jane/——你 CMS 自动生成的。每个独立 URL,多数 Google 没什么可排的。
如何判断:URL 模式 /YYYY/、/YYYY/MM/、/author/——日期 / 作者归档通常薄。
5. 内部搜索结果被误索引
/search?q=ai+tools——站内搜索结果页被爬了——Google 现在有每次搜过的页。
如何判断:URL 以 /search? 或 /?s= 开头——内部搜索结果永不该可索引。
6. WordPress / CMS 附件页
/wp-content/uploads/image.png 或 ?attachment_id=42——某些 CMS 自动生成的图片附件页——没真内容、图本身在别的 URL。
如何判断:URL 含 /wp-content/、/attachment_id= 或类似 CMS 附件模式。
最短修复路径
按收益从高到低。Step 1 分类,2-5 按源修。
Step 1:导出 + 按源分类
Search Console → Pages → 「Crawled — currently not indexed」→ Export
按模式分组:
| 类别 | 例子 | 数量 |
|---|---|---|
| 参数 sort/filter | ?sort=*、?filter=* | 1200 |
| Page >5 分页 | /page/N where N>5 | 600 |
| Facet | ?color=*&size=*&brand=* | 800 |
| 归档页 | /YYYY/、/author/* | 300 |
| 内部搜索 | /search?q=* | 200 |
| 附件 | /wp-content/uploads/* | 300 |
最大几类先修。
Step 2:参数——canonical 到无参数 URL
页面 <head>:
<link rel="canonical" href="https://yoursite.com/category/ai/" />
?sort=asc、?sort=desc&filter=x 都合并到 canonical——Google 信号集中在一 URL 不碎片化。
Google 不该爬的参数加 robots.txt:
User-agent: *
Disallow: /*?sort=*
Disallow: /*?filter=*
canonical 是合并,robots.txt 是直接屏蔽。
Step 3:深分页——page 3+ noindex
<!-- /category/ai/page/3/ 及以后 -->
<meta name="robots" content="noindex, follow" />
follow 让 Google 还能爬到页面链的文章;noindex 让页面本身不进索引。
短分类干脆做 view-all 移除分页。
Step 4:facet——默认 noindex、精选组合 index
默认:每个 facet 组合 = noindex
精选:/products/blue-shoes/(人工挑、加正文内容)= indexable
这是电商 SEO 模式——只高 intent 组合做 URL-as-content,其余是 filter 噪音。
Step 5:归档页薄就 noindex
<!-- /2024/、/author/jane/ -->
<meta name="robots" content="noindex" />
归档页有编辑内容(intro、curate)就 indexable,自动列表就 noindex。
Step 6:内部搜索 + 附件 完全屏蔽
# robots.txt
User-agent: *
Disallow: /search?
Disallow: /?s=
Disallow: /wp-content/uploads/
Disallow: /*?attachment_id=*
配合 WordPress(或你 CMS)设置:「不让搜索引擎索引搜索结果」——有 toggle 就开。
预防建议
- 规划 URL 结构最小化参数 / facet 组合——干净 URL > 参数爆炸
- 新参数模式默认 noindex,值得 index 的精选
- 内部搜索 / 附件 / 深分页 默认
noindex - 季度审 GSC 「Crawled — not indexed」找新噪音类别
- 电商 / facet 站,把可索引 URL 当编辑决定而非自动
- 收回 crawl budget 表现在新文章 index 加快——追新内容展示作为代理指标