sitemap 是什么(以及 Google 会忽略哪些字段)

一篇大白话讲清楚 sitemap.xml——它做什么、不做什么,以及大多数生成器塞进去但 Google 从来不读的四个字段。

sitemap 就是一份你希望 Google 知道的 URL 列表,格式是 XML。它不会「提交」你的页面、不会提升排名,而且 Google 忽略大多数花哨生成器塞进去的元数据。下面是它真正做的事,以及能跑的最小版本。

问题背景

XML sitemap 当年是因为搜索引擎爬不动重 JS 站点才发明的。2026 年 Google 爬能力强多了,但 sitemap 仍然是说「这里是我想被收录的完整 URL 列表」的标准方式。对小站,Google 顺着内链也能找到这些 URL——sitemap 主要是上线第一天加速发现、以及暴露那些内链不强的页面。

判断标准

  • 准备上线一个新站,想让 Google 快点发现 URL。
  • 有一些 URL 站内链得不好(孤立页)。
  • 想在 Search Console 看一份「提交了 vs 收录了」的覆盖报告。
  • 看到教程说要设 <priority><changefreq>,纠结要不要写。

快速结论

生成 /sitemap.xml,列出所有你希望被收录的公开 URL,<lastmod> 写真实最后修改日期。跳过 <priority><changefreq>——Google 已确认两者都不读。在 Search Console 提交一次。之后每次部署自动重新生成。

实操步骤

  1. 用框架的 sitemap 插件。Astro:@astrojs/sitemap;Next.js:内置 app/sitemap.ts;WordPress:Rank Math 或 Yoast。手写 XML 对极小站点可以,其他情况是浪费时间。
  2. 验证输出。浏览器访问 https://你的域名/sitemap.xml,应该看到带 <urlset> 和一堆 <url> 的 XML。如果看到首页 HTML,路由有问题。
  3. 每个 <url> 至少有 <loc>(绝对 URL)和 <lastmod>(ISO 8601 日期,如 2026-05-15)。<priority><changefreq> 跳过——Google 几年前就声明不读。
  4. 只放你真正想被收录的 URL。草稿、不想被爬的分页归档、搜索结果 URL、admin 页——都排除。混入 noindex URL 会触发 Search Console 警告。
  5. 在 Search Console -> Sitemaps 提交一次。重新提交是自动的——Google 定期重抓。只有 sitemap 路径变了才需要再提交一次。
  6. 几天后看 Search Console -> Sitemaps,状态应该是「Success」,「Discovered URLs」数量应该和你实际 URL 数对得上。如果显示「0 discovered」但抓取成功,说明 XML 格式坏了。

容易踩的坑

  • 每个 URL 都堆 <priority>1.0</priority>。Google 不读,文件还更大。
  • sitemap 里包含返回 404、301、或 noindex 的 URL。每一项都会变成 Search Console 警告。保持 sitemap 干净。
  • 真的更新文章时忘了改 <lastmod>。Google 在它「相信」<lastmod> 时会用它决定重爬优先级——日期不动等于编辑后被重新收录会更慢。
  • 在开发服务器生成 sitemap,里面是 http://localhost:4321。一定要看线上 sitemap。
  • 同时列出同一 URL 的 www. 版和裸域名版。挑一个主机只列一个,另一个用 301 跳转。

这篇适合谁

任何超过 10 个 URL 的独立站,特别是有一些 URL 不在首页内链里。也是想在 Search Console 看「提交 vs 收录」覆盖率的必要条件。

这篇不适合谁

单页站,或所有 URL 都在主导航里的站。有 sitemap 也行,但区别不大——5 个 URL Google 没 sitemap 也找得到。

FAQ

  • sitemap 会提升排名吗?: 不会。它提升发现速度。URL 被发现之后,排名靠的是内容、链接、意图匹配。sitemap 只是把「页面存在」到「页面进入 Google 索引」之间的时间缩短。
  • sitemap 能多大?: 单个文件 50000 个 URL 或 50MB(未压缩)。超过这个数要拆多个,并用一个 sitemap index 引用它们。独立站基本不会到这个量级。
  • 要不要把图片、视频放进 sitemap?: 大多数内容站不用。图片和视频 sitemap 扩展对图片站、视频站有用;普通博客的 HTML 页面 sitemap 足够了。Google 仍会爬已收录页面里的图。
  • Search Console 显示「Couldn’t fetch」怎么办?: 基本是这几种之一:(a) URL 写错了;(b) robots.txt 屏蔽了 sitemap 路径;(c) sitemap 返回 404;(d) 抓取时服务器返回 500。开无痕浏览器访问那个 URL,看到的就是 Google 看到的。

相关阅读

标签: #独立开发 #SEO #Technical SEO #收录 #入门