Gemini 文档总结太泛了怎么办

把 80 页财报丢给 Gemini 让它总结,返回 5 段空话——关键数字没提、风险跳过。本文教你怎么用抽取项加结构化输出 prompt,把高水位线总结变成可用纪要。

把一份 80 页财报上传给 Gemini 让它”总结”——返回来 5 段话,关键数字没提、风险因素全跳过、读起来像新闻通稿——这种”高水位线总结”是 Gemini(其实所有 LLM)的默认行为:在长文档上不知道你关心哪一段,就抓最显眼的章节标题铺一遍。

要拿到真正可用的总结,必须告诉它抽什么 + 以什么结构输出,而不是简单说”总结”。

常见原因

按”总结泛度”从高到低:

1. Prompt 只说”总结”(最常见)

Summarize this document → 模型不知道你要决策、还是要风险、还是要数字——给一个全方位的空泛版本。

如何判断:你的 prompt 是不是只有 “summarize” / “总结” 单个动词。

2. 长文档触发 token 压缩,重要章节被略过

100K tokens 的 PDF 在 Web 端会被压缩处理,模型可能只读”开头 20% + 末尾 10%“,中间被略过。结果:附录里的关键数据被忽略。

如何判断:报告中部章节的内容总结里完全没出现。

3. 表格 / 图表 / 代码段被丢失

PDF 解析时复杂表格容易扁平化或丢失。Gemini 看不到原始结构,总结里就缺这部分。

如何判断:原文有关键表格(比如财务数据 / 对比表),总结里完全没引用具体数字。

4. 没指定输出结构

不要求结构 → 自由发挥的散文 → 难定位关键信息。

5. 文档质量本身就低

营销 PR / SEO 文章原本就是空泛,Gemini 总结自然也空泛。

6. 模型选 Flash / Lite

Flash 在长文档上的总结深度明显弱于 Pro。

最短修复路径

Step 1:先要大纲,再钻细节

第一轮:

Read this document. Give me ONLY a section-by-section outline (no summary yet):
- Section title
- Section length (pages)
- Key claim / topic (one sentence)

收到大纲后,你筛出真正关心的 5-10 个章节,第二轮:

Now give me a detailed summary of these sections only:
{section names}

For each:
- Key facts (with numbers)
- Decisions / recommendations
- Risks mentioned
- Direct quotes for critical claims

Step 2:用结构化输出模板

不要让 Gemini 写散文。给它表格 / bullet 结构:

Summarize this 10-K filing using this exact structure:

## Business Overview
- Main revenue segments + % of total
- Geographic mix

## Financial Highlights
| Metric | This year | Last year | YoY change |
|---|---|---|---|
| Revenue | | | |
| Operating margin | | | |
| Free cash flow | | | |
| Headcount | | | |

## Risk Factors (top 5)
1. ... (with page reference)

## Strategic Initiatives
- ...

## Management Tone Indicators
- Words used more / less than last year's filing

明确格式 + 表格槽位 + 数字要求——模型不能”省略”。

Step 3:长文档拆 30-40 页一段

80 页文档:

拆成:pages 1-30, 31-60, 61-80
每段单独上传,要求按 Step 2 的模板总结
最后让 Gemini 把三段合并 + 跨段提炼总主题

避免 token 压缩跳过中部内容。

Step 4:表格 / 图表先单独抽

如果文档关键信息在表格里:

Extract every table from this document.
For each:
- Table title
- Headers (row + column)
- All cell values as markdown
- Page number

抽完表格再做语义总结,避免数字丢失。

Step 5:换 Gemini 2.5 Pro

顶部模型选择器 → Gemini 2.5 Pro(不是 Flash / Lite)

Pro 在长文档总结上深度比 Flash 高约 40%。

Step 6:明确要”决策 / 风险 / 数字”三件套

通用模板:

Extract from this document:

DECISIONS: What did the author decide or recommend?
RISKS: What risks are mentioned? Use original phrasing.
NUMBERS: All quantitative claims (dates, percentages, dollar amounts) with surrounding context.
GAPS: What questions does the document raise but not answer?

这四件套适合 90% 的商业文档。

Step 7:核实关键数字

LLM 在长文档总结里偶尔幻觉数字(< 5% 但要小心):

  1. 找出报告里 5 个关键数字
  2. 在原文 Ctrl+F 搜
  3. 不一致的让 Gemini 重抽:“Number X you reported is wrong, find the actual value on page Y”

预防建议

  • 永远先要大纲,再筛章节深挖,不一次性 “summarize”
  • 用结构化输出模板(表格 + bullet)避免散文式总结
  • 长文档(> 50 页)拆 30-40 页一段,避免 token 压缩
  • 表格 / 图表单独抽,避免数字丢失
  • 关键数字自己核实,长文档幻觉率约 5%

相关阅读

标签: #Gemini #排查 #排查