三周前发了一篇新文章,Google 搜不到。site:你的域名/这个 slug/ 零结果。Search Console 显示 URL 未知或者「Discovered — not indexed」。下面是真实的排查顺序,从「5 分钟能修」到「这可能是几个月的事」。
问题背景
Google 不爬新页面,原因几乎总是:配置屏蔽(5%——好修)、不在 sitemap 或没内链(25%——中等修复)、或站点权威 / 爬取优先级低(70%——慢、要靠内容)。多数独立开发者在前两条上耗几个小时,错过了第三条。
判断标准
- 几周前发的新页面在 Google 搜不到。
- Search Console 说「URL is unknown to Google」或「Discovered — currently not indexed」。
- 同站老页面收录正常。
- Crawl Stats 报告显示 Google 正常在爬你的站——只是不爬这些 URL。
快速结论
按顺序走清单。发现第一个问题就停下来修——修一处等一下,比一次改五处不知道是哪条管用要快。
实操步骤
- 对缺失的 URL 跑 URL Inspection。实时测试里的 Crawl allowed? 和 Indexing allowed? 两行能秒解 90% 的情况。任一是 No,配置 bug,修了继续。
- 确认 URL 在 sitemap 里。打开
/sitemap.xml,搜 slug。不在?修生成器。然后到 Search Console 的 Sitemaps 重新提交。 - 确认 URL 有内链。在代码库 grep slug,数出现次数。0 或 1 次的话,从首页和 2 篇相关文章连过去。孤儿页很少被 Google 收录。
- 检查渲染。看页面源代码(不是渲染后的 DOM)——正文是否真的出现在 HTML 里?只有 JS 后才出现内容的 SPA 经常爬取出问题。框架支持 SSR 或静态导出的话,用上。
- 确认 canonical。看源码,搜
<link rel="canonical"。值必须等于你想被收录的 URL。很多「页面不收录」其实是「canonical 指到了别处、Google 收录了那个 URL」。 - 看 Crawl Stats 报告(Settings -> Crawl stats)。爬取请求趋势是上升、持平、还是下降?持平或下降说明你的站在被降权——通常是内容质量。
- 1-6 全过且等了 30 天,问题就是站点权威。解决方案:更多外链、给受影响 URL 加更多内链、整体内容质量提升。没有更快的法子。
容易踩的坑
- 跳过 URL Inspection 的实时测试。它 10 秒能抓到最常见的配置 bug,大家偏偏觉得它太基础不点。
- 反复重新提交 sitemap。sitemap 影响发现,不影响爬取优先级。首次提交后,再提交也没用。
- 在 sitemap 里写
priority和changefreq。Google 公开说过两者都忽略。别浪费时间设。 - 搞一堆薄的程序化页面指望被爬。Google 现在很会识别「为了页面而页面」。
- 想用重定向链或隐藏链接「骗」Google。没用,整站还可能被惩罚。
这篇适合谁
已发 30+ 页面、有一批具体的新 URL 不被爬的站。
这篇不适合谁
全新站、目前一个页面都没收录——那是另一种问题(看 新站提交指南)。
FAQ
- 会不会是我忽略的 robots.txt 问题?: 会——这正是第 1 步(URL Inspection 实时测试)抓的。实时测试会明确报 URL 是否被屏蔽。在做其他假设之前先跑它。
- 我用 Next.js / Astro / Hugo——要担心 JS 渲染吗?: Astro 和 Hugo 是静态——没问题。Next.js 用 SSG / SSR 没问题。纯客户端 React(CRA、Vite SPA)没有 SSR 对 SEO 风险大;是这种情况先修这个。
- 一个页面卡住多久就该放弃?: 走完第 6 步等 30 天。然后接受这可能是站点权威问题,去发更多好内容 + 更多内链,别死磕一个 URL。
- 申请收录点 5 次有用吗?: 没有。系统去重。提交一次、等、看结果。重复申请只浪费每日配额。