任务场景
晚上 9 点,11 天后有一场统计考试。t 检验那一章你读了三遍,“感觉懂了”,上次也是这种感觉,期中只考了 64。标准的学习动作是再读一遍那一章,或刷一个 YouTube 讲解——这两个都是被动的,会制造”懂了的温暖错觉”,但并没有 test 过你。你要 AI 做另一件事:考你、你含糊其辞时 push back、卡住时给提示而不给答案、5 轮之后告诉你到底还不会什么。Active recall,不是 lecture mode。
什么时候适合让 AI 来做
AI 在已确立学科上是真正能用的 Socratic 伙伴——本科统计、有机化学、力学、微积分、微观经济、古典哲学、文档充分的编程概念。它能按你声明的水平校准题目难度、生成好的提示(不是答案)、对半对追问、最后给出”哪里有盲点”的诊断。
AI 不可靠的地方:前沿研究、专有内容(你教授的 slide、你公司的内部框架)、或任何它可能编造的话题。这些先粘源材料进去、并明说”只从我粘进去的部分考”。AI 也无法提供真人学习搭子那种”对面有人”的社交问责感——对部分学习者,桌子对面有人才是真正能进入状态的开关。
常见失败模式:你一说”不知道”,AI 立刻给答案,哪怕你明确禁止过。要再强化:“只给提示,永远不给答案,直到我试过两次。“
需要先给 AI 的信息
- 想被考的概念或 topic
- 不是标准教材内容的话,把源材料粘上(章节、slide、paper)
- 你当前的理解,2-3 句——让 AI 校准难度
- 你想要的深度:定义 / 应用 / 反向论证(“什么时候这个会错”)
- 备考的考试 / 测试形式(多选、简答、口试、写代码面试)
- 你已经怀疑的具体盲点(“我老搞混 Type I 和 Type II error”)
- 本次时间预算(15 分钟?45 分钟?决定轮数)
- 你最受用的形式:场景题、定义回忆、对比(“X vs Y”)、反例(“什么时候这个不成立”)
可直接复制的 Prompt
做我的 Socratic 学习搭子,topic 是 {topic}。
源材料(非标准内容时):{paste 或"用标准知识"}
我当前的理解(用来校准难度):{2-3 句}
我想要的深度:{定义 / 应用 / 反向论证 / 混合}
形式偏好:{场景 / 回忆 / 对比 / 反例}
我已经怀疑的盲点:{paste 或"未知——你帮我找"}
时间预算:{分钟}——目标 {N} 轮
规则——严格执行:
1)一次问一题。等我答完再继续。
2)我答错——绝对不要给答案。给一个指向缺失概念的提示,再问同一题。
3)我半对——追问到暴露盲点;不要恭喜我。
4)我说"不知道"——问一个更小、更具体的子问题。我至少试过 2 次才允许 reveal 答案。
5)我答对——下一题难一档,或者问"如果 {条件} 变了,你的答案会变吗?"
6)不要 lecture。即使我答对,也不要"很好——这里再展开讲一下"。直接下一题。
7)5 轮之后(或我说停),给 3 行诊断:
- 我稳的部分。
- 我漏的或含糊带过的部分。
- 接下来该学的那一件事 + 一个具体 artifact(教材某段、要重做的题)。
短版本——单概念刷
就 {一个概念} 考我,直到我答对或连错两次。只给提示、不给答案。3 轮之后用一句话点名我答案底下的那个 misconception。
输出示例
一段好用的 Socratic 对话:
第 1 轮 —— AI:“什么时候不用 t 检验?”
你:“小样本时。”
AI(提示,不是答案):“t 检验对数据有两个假设——sample size 和其中一个相关,但你描述的方式不对。说出这两个假设之一。”
你:“正态性?”
AI:“对——另一个?”
你:“两组方差相等?”
AI:“对。现在回到原问题:基于这两个假设,什么时候不用 t 检验?”
一段好用的结尾 3 行诊断:“你稳的:何时用 t 检验、p-value 的含义、CI 的基本解读。你漏的:你把’小样本’当作失败模式,但真正的失败模式是非正态或方差不等——sample size 只是通过影响它们才有意义。下一步:Shapiro-Wilk(正态性)和 Levene(方差)——读你教材 §4.3,重做 4.7-4.10 题。“
怎么改输出
- 强制执行”只提示不给答案” —— “再读你最近 3 道题。如果我没试满 2 次你就给了答案,那一条违规。换成提示再问一遍。”
- 拉深度 —— “最近 3 题都是定义层。换到应用层:给一个场景,让我选用哪个检验、为什么。我选对了,追问什么条件变了会改变选择。”
- 强制对比题 —— “接下来 5 题写成’X vs Y’——t 检验 vs Mann-Whitney、Type I vs Type II、CI vs p-value。对比题能暴露定义题暴露不出来的 misconception。”
- 中途调难度 —— “我连答对 3 题,下一题加难。我连错 2 题,把一层抽象拆下来先问子问题,再回到难题。”
- 诊断要点到 misconception —— “结尾的 3 行诊断必须点到我答错背后的 misconception,不只是’多看看’。如果两题错共享一个 misconception,明确点名。“
容易踩的坑
- 让 AI 讲给你听——重读和被动 lecture 制造”掌握的错觉”,没 test 过;考试模式才能锻炼 retrieval
- 卡住就让 AI 给答案——一旦你拿到答案而不是为它挣扎,整场就废了;规则 1 才是要害
- 考”编出来”的内容——专有材料或新研究上,AI 会编看似合理但错的;先粘源、明确约束
- 跳过诊断——结尾 3 行才是真的学习方向;没它就只是练习、没学习循环
- 整场只一种深度——5 轮都在定义层暴露不出应用盲点;混合深度,否则只为一种题型过度准备
- 一次刷太久——超过 30-40 分钟 retrieval 疲劳,编码效率下降;一天分两段短的更好
- 没声明当前理解——没校准 AI 要么用简单题烦你,要么直接跨过真盲点
- 把”答对”当目标——目标是发现你不会什么,不是 validate 你会什么;庆祝错题,它们是信号
FAQ
- 比真人学习搭子好吗? —— 不同。AI 无限耐心、晚上 11 点也在、不会评判你的错答。真人能带社交压力、创意类比,还有”你教他他也教你”的机会(教别人会强化你自己的知识)。两个一起用。单人深度准备用 AI;问责和类比用人。
- 编程 / 数学面试也用吗? —— 用。把题喂 AI,先让它给你口头 walkthrough 打分,再写代码——讲思路、边界、复杂度,AI 一项项考你才让你碰键盘。Socratic 那部分训练你在面试官压力下能讲清自己在做什么。
- AI 编出一个错的”正确答案”来考我怎么办? —— 主要风险在新研究和公司专有内容。缓解:粘源 + 加一句”只从我粘的部分考;如果要用外部知识,先问我”。标准教材内容上很少发生。
- 模型一直直接给我答案怎么办? —— 加一句:“我做满 2 次尝试之前你就给了答案,那一题作废,换成提示重问。开始前确认你理解这条规则。“再跑。
- 一次刷几轮? —— 5-8 轮、每轮 5-7 分钟,对大部分学科都好用。超过 40 分钟 retrieval 开始糊。考试周一天两段、间隔 4 小时以上,比一长段强。