🕸️ Agent 工作流与编排问题
Agent 编排、Handoff、预算耗尽、并行冲突、状态不一致、Trace 丢失、Checkpoint 损坏。
把多个 Agent 串起来跑真实任务时,问题不再是"模型答不对",而是"流程跑偏"——Handoff 上下文丢了、预算被一个分支吃光、两个 Agent 同时改一份文件、Trace 看不到关键 tool call、Checkpoint 恢复后状态对不上。 这个 Hub 不绑定具体厂商,覆盖任何 Agent 编排框架的通用故障:编排器死锁、任务路由错、Retry 风暴、Cycle 检测缺失、Subprocess 成孤儿、Promotion 判据太宽、跨版本 Prompt 漂移。 与 [[claude-code-agent-issues]] / [[codex-agent-issues]] 的差别:那两个 Hub 解决"某个工具内部的故障";这个 Hub 解决"多个 Agent 协作时"的工作流问题。
常见问题
- Agent Handoff 把上下文弄丢了 上一个 Agent 的结论没有传给下一个;用结构化 handoff schema。
- Agent 预算在任务中途被吃光 一个分支把整轮 token 全用了;分阶段预算 + 早停。
- 两个并行 Agent 同时改一份文件 没分文件锁;用 file-ownership map 或 worktree 隔离。
- 编排器出现死锁 A 等 B,B 等 A;引入超时 + DAG 检测。
- 任务被路由到了错误的 Agent 分类器把代码任务发给写作 Agent;加入 router 验证步骤。
- 重启后 Agent 状态对不上 Checkpoint 存了一半;用原子写 + 显式版本号。
- Agent 跳过了必须的验证步骤 "看起来通过了"就 promote;强制 must-pass gate。
- Agent 输出不能被下游解析 加了 markdown 装饰;用 JSON mode + schema 校验。
- 一个不稳定的 tool 触发 Agent 重试风暴 没有指数退避;指数退避 + 熔断器。
- Trace 里看不到关键 tool call 同步执行没埋点;统一 instrumentation 入口。
- Promotion 判据太宽,劣质输出被放行 只检查"非空";加结构 + 内容 + 语义三重 gate。
- 成本统计漏算了子 Agent Parent 记录,subagent 未记;统一上报到中心账本。
- 一个 Agent 触发 rate limit,整链断 共享 API key;分 key + 全局限流器。
- Checkpoint 恢复出来的状态是损坏的 写入未 fsync;append-only WAL + checksum。
- Pre-flight 检查被 Agent 跳过 Prompt 里写"可选"被理解为"不必做";改为 must-do。
- Agent 启动的子进程变成孤儿 没用 process group;spawn 时设 detached + 清理钩。
- 多 Agent 共享 memory 被互相覆盖 No CAS;用 versioned writes 或单写者模式。
- Agent 调用图出现循环但没人发现 A→B→C→A;用 trace-id 链跟踪 + 最大深度。
- 不同版本的 Prompt 模板互相打架 生产和测试用不同版本;用 hash + registry。
- Agent 输出里夹带了 secret tool 把 env 全 echo 出来;前置 redaction filter。