sitemap 就是一份你希望 Google 知道的 URL 列表,格式是 XML。它不会「提交」你的页面、不会提升排名,而且 Google 忽略大多数花哨生成器塞进去的元数据。下面是它真正做的事,以及能跑的最小版本。
问题背景
XML sitemap 当年是因为搜索引擎爬不动重 JS 站点才发明的。2026 年 Google 爬能力强多了,但 sitemap 仍然是说「这里是我想被收录的完整 URL 列表」的标准方式。对小站,Google 顺着内链也能找到这些 URL——sitemap 主要是上线第一天加速发现、以及暴露那些内链不强的页面。
判断标准
- 准备上线一个新站,想让 Google 快点发现 URL。
- 有一些 URL 站内链得不好(孤立页)。
- 想在 Search Console 看一份「提交了 vs 收录了」的覆盖报告。
- 看到教程说要设
<priority>和<changefreq>,纠结要不要写。
快速结论
生成 /sitemap.xml,列出所有你希望被收录的公开 URL,<lastmod> 写真实最后修改日期。跳过 <priority> 和 <changefreq>——Google 已确认两者都不读。在 Search Console 提交一次。之后每次部署自动重新生成。
实操步骤
- 用框架的 sitemap 插件。Astro:
@astrojs/sitemap;Next.js:内置app/sitemap.ts;WordPress:Rank Math 或 Yoast。手写 XML 对极小站点可以,其他情况是浪费时间。 - 验证输出。浏览器访问
https://你的域名/sitemap.xml,应该看到带<urlset>和一堆<url>的 XML。如果看到首页 HTML,路由有问题。 - 每个
<url>至少有<loc>(绝对 URL)和<lastmod>(ISO 8601 日期,如2026-05-15)。<priority>和<changefreq>跳过——Google 几年前就声明不读。 - 只放你真正想被收录的 URL。草稿、不想被爬的分页归档、搜索结果 URL、admin 页——都排除。混入 noindex URL 会触发 Search Console 警告。
- 在 Search Console -> Sitemaps 提交一次。重新提交是自动的——Google 定期重抓。只有 sitemap 路径变了才需要再提交一次。
- 几天后看 Search Console -> Sitemaps,状态应该是「Success」,「Discovered URLs」数量应该和你实际 URL 数对得上。如果显示「0 discovered」但抓取成功,说明 XML 格式坏了。
容易踩的坑
- 每个 URL 都堆
<priority>1.0</priority>。Google 不读,文件还更大。 - sitemap 里包含返回 404、301、或 noindex 的 URL。每一项都会变成 Search Console 警告。保持 sitemap 干净。
- 真的更新文章时忘了改
<lastmod>。Google 在它「相信」<lastmod>时会用它决定重爬优先级——日期不动等于编辑后被重新收录会更慢。 - 在开发服务器生成 sitemap,里面是
http://localhost:4321。一定要看线上 sitemap。 - 同时列出同一 URL 的
www.版和裸域名版。挑一个主机只列一个,另一个用 301 跳转。
这篇适合谁
任何超过 10 个 URL 的独立站,特别是有一些 URL 不在首页内链里。也是想在 Search Console 看「提交 vs 收录」覆盖率的必要条件。
这篇不适合谁
单页站,或所有 URL 都在主导航里的站。有 sitemap 也行,但区别不大——5 个 URL Google 没 sitemap 也找得到。
FAQ
- sitemap 会提升排名吗?: 不会。它提升发现速度。URL 被发现之后,排名靠的是内容、链接、意图匹配。sitemap 只是把「页面存在」到「页面进入 Google 索引」之间的时间缩短。
- sitemap 能多大?: 单个文件 50000 个 URL 或 50MB(未压缩)。超过这个数要拆多个,并用一个 sitemap index 引用它们。独立站基本不会到这个量级。
- 要不要把图片、视频放进 sitemap?: 大多数内容站不用。图片和视频 sitemap 扩展对图片站、视频站有用;普通博客的 HTML 页面 sitemap 足够了。Google 仍会爬已收录页面里的图。
- Search Console 显示「Couldn’t fetch」怎么办?: 基本是这几种之一:(a) URL 写错了;(b) robots.txt 屏蔽了 sitemap 路径;(c) sitemap 返回 404;(d) 抓取时服务器返回 500。开无痕浏览器访问那个 URL,看到的就是 Google 看到的。
相关阅读
标签: #独立开发 #SEO #Technical SEO #收录 #入门