Search Console 出现大量低价值 URL:6 类噪音来源 + 按源屏蔽

「Crawled — not indexed」涨到几千条 `?sort=`、`?page=`、tag 组合——按源分类、用 canonical / robots / noindex 屏蔽,把 crawl budget 还给真内容。

Search Console 「Crawled — currently not indexed」3400 条。滚一下:?sort=asc?sort=desc?page=12?page=13?tag=python&category=tutorials/2024/03//author/jane//wp-content/uploads/...。crawl budget 烧在这些上而不是你文章上——真文章 index 更慢,因为 Googlebot 忙着爬参数组合。

可爬但无价值 URL 干两件坏事:浪费 crawl budget(拖慢真文章 index)+ 给 Google「站点零散无结构」信号。下面:按源分类噪音、按源屏蔽、把 crawl budget 还给重要内容。

常见原因

按命中率从高到低:

1. URL 参数暴露每种 sort / filter 组合

?sort=asc?sort=desc&filter=x?sort=desc&filter=x&page=2——每个组合一个独立 URL。3 个 filter × 2 sort × 10 页 = 60 个 URL 组合从一个列表页。

如何判断:GSC 报告里很多带 ? query 的 URL——按参数模式分组——高 multiplicity 参数是元凶。

2. Page 5-10 之后的分页没实质内容

/category/ai/page/12/ 显示文章 121-130——没人搜的内容。Google 爬但不 index,因为只是薄。

如何判断:GSC 里有很多 N > 5 的 /page/N/ URL——深分页占噪音一大块。

3. faceted navigation 制造 URL 组合爆炸

/products/?color=blue&size=large&brand=acme 风格。每个 facet 组合一个 URL。10 颜色 × 5 尺寸 × 20 品牌 = 一页生 1000 个 URL 组合。

如何判断:多 param URL(尤其电商风格 facet)——组合 = 少 intent 产多 URL。

4. 自动生成的归档页(年 / 月 / 作者)

/2024//2024/03//2024/03/15//author/jane/——你 CMS 自动生成的。每个独立 URL,多数 Google 没什么可排的。

如何判断:URL 模式 /YYYY//YYYY/MM//author/——日期 / 作者归档通常薄。

5. 内部搜索结果被误索引

/search?q=ai+tools——站内搜索结果页被爬了——Google 现在有每次搜过的页。

如何判断:URL 以 /search?/?s= 开头——内部搜索结果永不该可索引。

6. WordPress / CMS 附件页

/wp-content/uploads/image.png?attachment_id=42——某些 CMS 自动生成的图片附件页——没真内容、图本身在别的 URL。

如何判断:URL 含 /wp-content//attachment_id= 或类似 CMS 附件模式。

最短修复路径

按收益从高到低。Step 1 分类,2-5 按源修。

Step 1:导出 + 按源分类

Search Console → Pages → 「Crawled — currently not indexed」→ Export

按模式分组:

| 类别 | 例子 | 数量 |
|---|---|---|
| 参数 sort/filter | ?sort=*、?filter=* | 1200 |
| Page >5 分页 | /page/N where N>5 | 600 |
| Facet | ?color=*&size=*&brand=* | 800 |
| 归档页 | /YYYY/、/author/* | 300 |
| 内部搜索 | /search?q=* | 200 |
| 附件 | /wp-content/uploads/* | 300 |

最大几类先修。

Step 2:参数——canonical 到无参数 URL

页面 <head>

<link rel="canonical" href="https://yoursite.com/category/ai/" />

?sort=asc?sort=desc&filter=x 都合并到 canonical——Google 信号集中在一 URL 不碎片化。

Google 不该爬的参数加 robots.txt

User-agent: *
Disallow: /*?sort=*
Disallow: /*?filter=*

canonical 是合并,robots.txt 是直接屏蔽。

Step 3:深分页——page 3+ noindex

<!-- /category/ai/page/3/ 及以后 -->
<meta name="robots" content="noindex, follow" />

follow 让 Google 还能爬到页面链的文章;noindex 让页面本身不进索引。

短分类干脆做 view-all 移除分页。

Step 4:facet——默认 noindex、精选组合 index

默认:每个 facet 组合 = noindex
精选:/products/blue-shoes/(人工挑、加正文内容)= indexable

这是电商 SEO 模式——只高 intent 组合做 URL-as-content,其余是 filter 噪音。

Step 5:归档页薄就 noindex

<!-- /2024/、/author/jane/ -->
<meta name="robots" content="noindex" />

归档页有编辑内容(intro、curate)就 indexable,自动列表就 noindex。

Step 6:内部搜索 + 附件 完全屏蔽

# robots.txt
User-agent: *
Disallow: /search?
Disallow: /?s=
Disallow: /wp-content/uploads/
Disallow: /*?attachment_id=*

配合 WordPress(或你 CMS)设置:「不让搜索引擎索引搜索结果」——有 toggle 就开。

预防建议

  • 规划 URL 结构最小化参数 / facet 组合——干净 URL > 参数爆炸
  • 新参数模式默认 noindex,值得 index 的精选
  • 内部搜索 / 附件 / 深分页 默认 noindex
  • 季度审 GSC 「Crawled — not indexed」找新噪音类别
  • 电商 / facet 站,把可索引 URL 当编辑决定而非自动
  • 收回 crawl budget 表现在新文章 index 加快——追新内容展示作为代理指标

相关阅读

标签: #内容运营 #站点质量 #站点审计 #排查 #低价值 URL