比真人学习搭子好吗？

— 不同。AI 无限耐心、晚上 11 点也在、不会评判你的错答。真人能带社交压力、创意类比，还有"你教他、他也教你"的机会（教别人会强化你自己的知识）。两个一起用——单人深度准备用 AI，问责和类比用人。

该用内置学习模式还是这套 Prompt？

— 随手刷题，内置模式（ChatGPT Study Mode、Claude Learning Mode、Gemini Guided Learning）够用、零配置。想强制执行"试满 2 次才给答案"、并拿到结尾结构化的 3 行诊断时，用自定义 Prompt——内置模式不开放这些控制。

编程 / 数学面试也用吗？

— 用。把题喂 AI，先让它给你的口头 walkthrough 打分，再写代码——讲思路、边界、复杂度，AI 一项项考你才让你碰键盘。Socratic 那部分训练你在面试官压力下能讲清自己在做什么。

AI 编出一个错的"正确答案"来考我怎么办？

— 主要风险在新研究和公司专有内容。缓解：粘源 + 加一句"只从我粘的部分考；如果要用外部知识，先问我"。Claude Projects 和 Gemini 的 100 万 token 上下文会更省心，因为源材料一直在视野里。标准教材内容上很少发生。

模型一直直接给我答案怎么办？

— 加一句："我做满 2 次尝试之前你就给了答案，那一题作废，换成提示重问。开始前确认你理解这条规则。"再跑。

— 5-8 轮、每轮 5-7 分钟，对大部分学科都好用；超过 40 分钟 retrieval 开始糊。考试周一天两段、间隔 4 小时以上，比一长段强——关于间隔的研究也支持这一点。

AI 场景化应用

把 AI 变成 Socratic 学习搭子：一套只考你、不讲给你听的 Prompt

别再让 AI 解释了。用这套 Prompt 把 ChatGPT、Claude、Gemini 变成学习搭子——考你、卡住给提示不给答案、半对就追问、5 轮结尾给你 3 行「接下来该学什么」诊断。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

重读、看讲解视频感觉很努力，但对长期记忆几乎没用；真正有用的是被考。把下面这套 Prompt 粘进 ChatGPT、Claude 或 Gemini，就能把它变成 Socratic 学习搭子：一次问一题、卡住给提示不给答案、半对就追问、结尾给 3 行诊断，明确告诉你接下来该学什么。截至 2026 年 6 月，这三家 App 都已内置学习模式（ChatGPT Study Mode、Claude Learning Mode、Gemini Guided Learning）——好用，但自定义 Prompt 能让你更严格地控制「提示纪律」和结尾诊断。

任务场景

晚上 9 点，11 天后有一场统计考试。t 检验那一章你读了三遍，“感觉懂了”——可上次也是这种感觉，期中只考了 64。标准的学习动作是再读一遍那一章，或刷一个 YouTube 讲解。这两个都是被动的，会制造”懂了的温暖错觉”，但根本没考过你。你要 AI 做另一件事：考你、你含糊其辞时反问、卡住时给提示而不给答案、5 轮之后告诉你到底还不会什么。Active recall，不是讲给你听。

为什么考你比重读管用（值得记住的那一个事实）

在 Roediger 和 Karpicke 的经典研究中（《Psychological Science》，2006），读完一段文字后，5 分钟就测的话，重读组的得分高于自测组——所以重读”感觉”是赢的。但延迟到 2 天和 1 周后再测，练过提取（retrieval）的那组保留得明显更多。重读买来的是短期信心，提取买来的才是持久记忆。2017 年一项涵盖 118 项研究的元分析（Adesope 等）给出了量化结论：当练习与真正考试之间间隔 1 到 6 天时，练习测试的收益（效应量 g ≈ 0.82）大于间隔不到一天时（g ≈ 0.56）；而且最强的效果来自混合题型——回忆 + 多选 + 场景——而不是只刷一种。一套好的 Socratic Prompt 干的正是这件事，这也是”考我”为什么强过”讲给我听”。

什么时候适合让 AI 来做

AI 在已确立学科上是真正能用的 Socratic 伙伴：本科统计、有机化学、力学、微积分、微观经济、古典哲学、文档充分的编程概念。它能按你声明的水平校准题目难度、生成好的提示（不是答案）、对半对追问、最后给出”哪里有盲点”的诊断。

AI 不可靠的地方：前沿研究、专有内容（你教授的 slide、你公司的内部框架），或任何它可能编造的话题。这些要先把源材料粘进去，并明说”只从我粘进去的部分考”。AI 也无法提供真人学习搭子那种”对面有人”的社交问责感——对部分学习者，桌子对面有人才是真正进入状态的开关。

一个具体的失败模式：你一说”不知道”，AI 立刻把答案给你，哪怕你明确禁止过。要再强化一遍：“只给提示，永远不给答案，直到我试过两次。“

该用哪家 AI（2026 年 6 月）

下面这套 Prompt 在任何聊天 App 里都能跑。三大家也各自内置了专门的学习模式，把 Socratic 提问做进了产品里，所以你严格来说并不一定要用 Prompt——但 Prompt 能让你掌控提示时机和结尾诊断，而内置模式不开放这些控制。

工具	内置学习模式	默认模型（2026 年 6 月）	最擅长	备注
ChatGPT	Study Mode（全部套餐，任意模型）	GPT-5.5	通用刷题、上传笔记 PDF/图片	免费档消息限制紧、且有广告（美区，2026 年 2 月起）；Plus $20/月
Claude	Learning Mode（全部套餐，可在 Projects 内用）	Sonnet 4.6 / Opus 4.7	严格只从你上传的材料里考	Projects 把你的 slide 和阅读材料留在上下文里；Pro $20/月、年付 $17
Gemini	Guided Learning（基于 LearnLM）	Gemini 3.1 Pro	长源材料——100 万 token 上下文	Google AI Pro $19.99/月；2026 年初前叫 “Gemini Advanced”

实用判断：考标准教材内容，三家都行——你已经付费的那家就好。要严格只从自己的 slide 或一篇 paper 考，Claude Projects 或 Gemini 的长上下文能把源材料留在视野里，模型就不太会漂到外部知识上。要做面试式口头演练，下面的自定义 Prompt 强过任何内置模式，因为它能强制执行”试满两次才给答案”这条规则。

需要先给 AI 的信息

想被考的概念或 topic
不是标准教材内容的话，把源材料粘上（章节、slide、paper）
你当前的理解，2-3 句——让 AI 校准难度
你想要的深度：定义 / 应用 / 反向论证（“什么时候这个会错”）
备考的考试 / 测试形式（多选、简答、口试、写代码面试）
你已经怀疑的具体盲点（“我老搞混 Type I 和 Type II error”）
本次时间预算（15 分钟？45 分钟？决定轮数）
你最受用的形式：场景题、定义回忆、对比（“X vs Y”）、反例（“什么时候这个不成立”）

Socratic 学习搭子 Prompt

做我的 Socratic 学习搭子，topic 是 {topic}。
源材料（非标准内容时）：{paste 或"用标准知识"}
我当前的理解（用来校准难度）：{2-3 句}
我想要的深度：{定义 / 应用 / 反向论证 / 混合}
形式偏好：{场景 / 回忆 / 对比 / 反例}
我已经怀疑的盲点：{paste 或"未知——你帮我找"}
时间预算：{分钟}——目标 {N} 轮

规则——严格执行：
1）一次问一题。等我答完再继续。
2）我答错——绝对不要给答案。给一个指向缺失概念的提示，再问同一题。
3）我半对——追问到暴露盲点；不要恭喜我。
4）我说"不知道"——问一个更小、更具体的子问题。我至少试过 2 次才允许 reveal 答案。
5）我答对——下一题难一档，或者问"如果 {条件} 变了，你的答案会变吗？"
6）不要讲解。即使我答对，也不要"很好——这里再展开讲一下"。直接下一题。
7）整场混合题型（回忆、场景、对比）——不要只停在一种。
8）5 轮之后（或我说停），给 3 行诊断：
   - 我稳的部分。
   - 我漏的或含糊带过的部分。
   - 接下来该学的那一件事 + 一个具体 artifact（教材某段、要重做的题）。

短版本——单概念刷

就 {一个概念} 考我，直到我答对或连错两次。只给提示、不给答案。3 轮之后用一句话点名我答案底下的那个 misconception。

输出示例

一段好用的 Socratic 对话：

第 1 轮 —— AI：“什么时候不用 t 检验？”

你：“小样本时。”

AI（提示，不是答案）：“t 检验对数据有两个假设。sample size 和其中一个相关，但你描述的方式不对。说出这两个假设之一。”

你：“正态性？”

AI：“对——另一个？”

你：“两组方差相等？”

AI：“对。现在回到原问题：基于这两个假设，什么时候不用 t 检验？”

一段好用的结尾 3 行诊断：“你稳的：何时用 t 检验、p-value 的含义、CI 的基本解读。你漏的：你把’小样本’当作失败模式，但真正的失败模式是非正态或方差不等——sample size 只是通过影响它们才有意义。下一步：Shapiro-Wilk（正态性）和 Levene（方差）——读你教材 §4.3，重做 4.7-4.10 题。“

怎么改输出

强制执行”只提示不给答案” —— “再读你最近 3 道题。如果我没试满 2 次你就给了答案，那一条违规。换成提示再问一遍。”
拉深度 —— “最近 3 题都是定义层。换到应用层：给一个场景，让我选用哪个检验、为什么。我选对了，追问什么条件变了会改变选择。”
强制对比题 —— “接下来 5 题写成’X vs Y’——t 检验 vs Mann-Whitney、Type I vs Type II、CI vs p-value。对比题能暴露定义题暴露不出来的 misconception。”
中途调难度 —— “我连答对 3 题，下一题加难。我连错 2 题，把一层抽象拆下来先问子问题，再回到难题。”
诊断要点到 misconception —— “结尾的 3 行诊断必须点到我答错背后的 misconception，不只是’多看看’。如果两题错共享一个 misconception，明确点名。“

容易踩的坑

让 AI 讲给你听——重读和被动听讲制造”掌握的错觉”，没考过你；考试模式才能锻炼 retrieval
卡住就让 AI 给答案——一旦你拿到答案而不是为它挣扎，整场就废了；规则 2 才是要害
考”编出来”的内容——专有材料或新研究上，AI 会编看似合理但错的；先粘源、明确约束
跳过诊断——结尾 3 行才是真的学习方向；没它就只是练习、没学习循环
整场只一种深度——5 轮都在定义层暴露不出应用盲点；混合深度和题型，否则只为一种题型过度准备
一次刷太久——超过 30-40 分钟 retrieval 疲劳，编码效率下降；一天分两段短的更好
没声明当前理解——没校准 AI 要么用简单题烦你，要么直接跨过真盲点
把”答对”当目标——目标是发现你不会什么，不是确认你会什么；错题才是信号

FAQ

比真人学习搭子好吗？ —— 不同。AI 无限耐心、晚上 11 点也在、不会评判你的错答。真人能带社交压力、创意类比，还有”你教他、他也教你”的机会（教别人会强化你自己的知识）。两个一起用——单人深度准备用 AI，问责和类比用人。
该用内置学习模式还是这套 Prompt？ —— 随手刷题，内置模式（ChatGPT Study Mode、Claude Learning Mode、Gemini Guided Learning）够用、零配置。想强制执行”试满 2 次才给答案”、并拿到结尾结构化的 3 行诊断时，用自定义 Prompt——内置模式不开放这些控制。
编程 / 数学面试也用吗？ —— 用。把题喂 AI，先让它给你的口头 walkthrough 打分，再写代码——讲思路、边界、复杂度，AI 一项项考你才让你碰键盘。Socratic 那部分训练你在面试官压力下能讲清自己在做什么。
AI 编出一个错的”正确答案”来考我怎么办？ —— 主要风险在新研究和公司专有内容。缓解：粘源 + 加一句”只从我粘的部分考；如果要用外部知识，先问我”。Claude Projects 和 Gemini 的 100 万 token 上下文会更省心，因为源材料一直在视野里。标准教材内容上很少发生。
模型一直直接给我答案怎么办？ —— 加一句：“我做满 2 次尝试之前你就给了答案，那一题作废，换成提示重问。开始前确认你理解这条规则。“再跑。
一次刷几轮？ —— 5-8 轮、每轮 5-7 分钟，对大部分学科都好用；超过 40 分钟 retrieval 开始糊。考试周一天两段、间隔 4 小时以上，比一长段强——关于间隔的研究也支持这一点。

把 AI 变成 Socratic 学习搭子：一套只考你、不讲给你听的 Prompt

一句话总结

任务场景

为什么考你比重读管用（值得记住的那一个事实）

什么时候适合让 AI 来做

该用哪家 AI（2026 年 6 月）

需要先给 AI 的信息

Socratic 学习搭子 Prompt

短版本——单概念刷

输出示例

怎么改输出

容易踩的坑

FAQ

延伸阅读

相关阅读

一句话总结

任务场景

为什么考你比重读管用（值得记住的那一个事实）

什么时候适合让 AI 来做

该用哪家 AI（2026 年 6 月）

需要先给 AI 的信息

Socratic 学习搭子 Prompt

短版本——单概念刷

输出示例

怎么改输出

容易踩的坑

FAQ

延伸阅读

相关阅读

相关文章

用 AI 复盘考试错题：按根因聚类的提分计划

用 AI 做考试复习计划：可执行排期、弱项 2 倍加权、模拟考

用 AI 讲懂一个难概念：5 种角度，总有一种击中你

用 AI 把笔记变成 Anki / Quizlet 抽认卡：从一节课到 30-80 张原子卡

用 AI 做历史时间线并核对：2026 实操流程

AI 语言学习工作流：每天 15 分钟，把你说错的地方当场改过来