新域名上线 4-8 周,sitemap 提交了、URL Inspection 显示 “Discovered – currently not indexed”,但爬虫从不返回去抓——更别说收录。这是 Google 给新域名打的”等等再说”状态:它知道 URL 存在,但没花预算去爬。
修这个的核心不是逼 Google 来爬一个不值得的 URL,而是整体抬升整站权威信号,让 Google 觉得”这站值得分预算”。
症状
- Search Console “页面”报告里大量 URL 是 “Discovered — currently not indexed”
- Crawl Stats 每天命中很少(10-50 URL / 天,正常活跃站点应该几百到几千)
- 没有 manual action、没有明显错误
- “Discovered” 列表的 URL 在 Search Console URL Inspection 显示 “Last crawl: N/A” 或几周前
快速结论
新域名处于 discovery / 沙盒阶段。Google 在采样并建立站点权威信号。修法是把你能控制的信号都做强,然后等。
常见原因
1. 全新域名 + 0 外链
外链是 Google 决定”花多少抓取预算在这个站”的最强信号之一。0 外链 → Google 的爬虫几乎不主动来。
如何判断:ahrefs.com/webmaster-tools 免费查 Referring Domains,新站常常 0-2 个。
2. 站内内链稀疏,每个 URL 看起来都是孤岛
Google 决定爬一个 URL 时会看”站内有多少地方链到它”。sitemap 是基础信号但权重不高。如果某 URL 只在 sitemap 里出现 1 次、站内没人链——它就在 Discovered 队列底部。
如何判断:随机点几个 “Discovered” URL,用 grep -r "/that-url/" src/ 看在代码里出现几次。
3. 多数页面薄或模板化
如果你前 30 篇文章都是 < 300 字 / 高度套模板的 AI 内容,Google 会判”批量低质站”,整体降级所有 URL 的抓取优先级。
4. Sitemap 已交但没有真实用户活动证据
新站没流量 = 没人验证 Google “这站有用”的判断 = Google 保守。哪怕你 sitemap 完美,没流量信号也会拖慢。
5. 域名历史是 expired / 之前被处罚过
如果你买的是 expired domain,可能继承了之前主人的 spam 历史。
如何判断:用 archive.org Wayback Machine 查域名历史快照。如果之前是赌博/成人/spam 站,那是继承的处罚。
最短修复路径
按效果排(不是按容易程度):
Step 1:拿到 3-10 条真实外链
行动清单(按命中率):
| 方法 | 难度 | 预计带来的链 |
|---|---|---|
| Reddit / HN 上发一个有价值的提问或资源帖(带主页链接,慎用) | 易 | 1-3 |
| 在朋友 / 同事 / 前同事的博客或公司站换友链 | 易 | 1-5 |
| 提交到行业 awesome-* GitHub 列表 | 中 | 1-3 |
| Guest post 到相关博客(哪怕粉丝 1000 也算) | 难 | 1-2 |
| 把站点提交到 directory / 工具榜(Product Hunt 之类) | 易 | 0-3 |
只要不到 5 条 dofollow 链,整个站的抓取预算就低。这一步比任何技术调整都重要。
Step 2:首页必须链到所有文章
新站首页常见错误:只显示最新 5 篇,老文章一发布就消失。
修:
---
// src/pages/index.astro
import { getCollection } from "astro:content";
const all = await getCollection("posts");
const sorted = all.sort((a, b) => b.data.publishedAt - a.data.publishedAt);
---
<h2>最新文章</h2>
<ul>{sorted.slice(0, 10).map(p => <li><a href={`/articles/${p.slug}/`}>{p.data.title}</a></li>)}</ul>
<h2>全部文章 ({sorted.length})</h2>
<ul>{sorted.map(p => <li><a href={`/articles/${p.slug}/`}>{p.data.title}</a></li>)}</ul>
或建一个独立的 /articles/ 索引页,首页一定链过去。这样任何文章永远 ≤ 2 次点击可达。
Step 3:每篇文章 600+ 字真内容、真 H1、有层级
最低保证:
<h1>只有 1 个,含主关键词<h2>至少 3 个,分段清晰- 正文 600+ 字(800-1500 最佳)
- 至少 1 张图(带 alt 描述)
- 至少 3 处内部链(链到相关文章或 hub 页)
- 至少 1 处外部权威链接(Wikipedia、官方文档、知名站)
可以用脚本检查:
// scripts/check-thin.mjs
import fg from "fast-glob";
import fs from "node:fs";
const issues = [];
for (const f of fg.sync("dist/articles/**/*.html")) {
const html = fs.readFileSync(f, "utf8");
const text = html.replace(/<[^>]+>/g, " ").replace(/\s+/g, " ").trim();
const words = text.split(/\s+/).length;
const h1s = (html.match(/<h1[\s>]/g) || []).length;
const intLinks = (html.match(/href="\/[^"]+"/g) || []).length;
if (words < 600) issues.push(`THIN (${words}w): ${f}`);
if (h1s !== 1) issues.push(`H1=${h1s}: ${f}`);
if (intLinks < 3) issues.push(`internal links=${intLinks}: ${f}`);
}
console.log(issues.join("\n"));
Step 4:跑 Lighthouse 修关键性能 + 抓取警告
npx lighthouse https://yourdomain.com/some-article --quiet --chrome-flags="--headless"
修这几项:
- LCP > 2.5s → 优化主图加载、减少 JS
- CLS > 0.1 → 给图片加固定 width/height
- 抓取性 - 任何 robots.txt 警告
- “Document has a meta description” - 缺就补
Step 5:等 8-12 周
新域名完整进入索引现实地说 8-12 周。期间:
- 保持发布节奏(每周 2-3 篇)
- 每 4 周回看一次 Search Console → 页面,看 Indexed 数量增长曲线
- 不要为了”加速”反复改 canonical / robots / sitemap
哪些情况可能不是你操作错了
沙盒文档少但行为客观存在。即使技术完美、内容优质的新站,也要等 6-12 周才能看到收录率稳定上升。如果到第 9 周开始有零星收录,第 12 周达到 30-50%,这是健康节奏。
容易误判的情况
- 每天重交 sitemap、狂点 URL Inspection:不会越过沙盒,会浪费 Search Console 配额
- 以为改 URL 结构能让 Google 重新评估:会重置一切已积累的弱信号,更慢
- 以为多发更多 AI 内容能提升信号:批量低质量内容反向激活 SpamBrain
- 以为买外链有用:付费链接很容易被算法标记,反而扣分
预防建议
- 一开始话题聚焦——Google 信任聚焦站点更快(10 篇关于”Astro 部署”比 50 篇杂题更有效)
- 前一个月获得几条优质外链,比任何技术调整都重要
- 上线日就把 Analytics + Search Console 装好,至少能监控趋势
- 上线后给 60-90 天的”安静窗口”,期间不要做大幅结构调整
FAQ
Q:新站多久能”出”沙盒? A:常常 8-16 周,差异很大。技术好 + 内容好 + 有少量外链的站常在 8-10 周;只有 sitemap 没外链没流量的站可能 4-6 个月。
Q:Google 公开承认沙盒吗? A:官方描述为对新域名的”谨慎对待”,不是单独的 sandbox 系统。但行为客观存在。
Q:从子目录搬到新独立域名也算”新站”吗? A:算。哪怕内容一字不差搬过来,Google 也会重新建权威信号。所以非必要不换域名。
Q:买 expired domain 有用吗? A:高风险。可能继承 spam 历史,也可能保留了部分外链权重。买之前查 Wayback Machine + ahrefs 的历史外链记录。