Claude Computer Use 实操:自动化桌面流程

Computer Use 能真的开浏览器点按钮。关键是挑对任务、让它在安全的地方失败。

本文覆盖什么

Computer Use 可以让 Claude 真的去移光标、点按钮、填表单。Demo 拍得很顺,实际用起来更脏——弹窗、慢加载、UI 漂移。这篇讲实操:哪些任务值得自动化、单次跑要怎么圈才能安全失败、用什么复盘流程能逮住”静默漏”。

这篇适合谁

那些每周都要点同一串重复操作的运营、分析、客服和普通员工——比如周报从某个后台拉、同一种 ticket 反复填、没有 API 的内网门户里抠数据。工程师通常有更好的工具;这篇主要给非工程师看。

什么时候适合用

任务在浏览器里、可重复、以读为主时用 Computer Use。每周截图一张图表、从老的 admin 面板抠表、用结构化数据填某个已知表单——都行。涉及支付确认、不可逆按钮、实时判断的——还不到时候。

开始前准备

  • 用独立的浏览器 profile 或 VM 来跑。第一天它一定会点错。不要拿主桌面试。
  • 任务写成新人都能照做的清单。你自己都写不出来,Claude 也跟不出来。
  • 单次步数控制在 8-12 步以内。再多误差会复合,你也分不清它是在哪一步丢线。
  • 提前定好停止条件:成功长什么样、失败长什么样、模糊时停下问。

一步一步操作

  1. 起个沙箱(干净的浏览器 profile 一般够用;正式用上 VM 更稳)。目标系统先手动登录,不把账密交给模型。
  2. 打开开启了 Computer Use 的 Claude,把任务以编号清单贴进去,能写明定位就写明:“点右上的齿轮”,不要写”去设置”。
  3. 每 2-3 步加一个显式验证:“点了 Export 之后,确认页面 header 是 Exports。“验证步能把”静默漏”变成”停下问”。
  4. 跑第一次,从头到尾盯完。不是优化,是看它在哪里卡。记录超时、模糊弹窗、布局漂移。
  5. 第一次跑完,针对脆弱点加固 prompt。多半是等加载的问题,加一句”等表格渲染完再点 Export”。
  6. 一个任务连跑三次都稳了,把 prompt 存成可复用脚本。再补一行”成功长这样”,让以后的自己记得目标产物形状。

第一次跑的练习

  1. 挑你每周都要做的最无聊、最低风险那件——比如从某个仪表盘导一张 CSV。
  2. 第一次不要改 prompt 直接跑。计时一下,预计是手动的 2-3 倍时间。这次速度还不是重点。
  3. 把工具留下的屏录回看一遍,标出每个 Claude 犹豫的位置——那都是要加验证步的地方。
  4. 加固 prompt 后再跑。目标是”零犹豫”,不是”零秒”。

质量检查

  • 每个验证步都过了吗?全部 checkpoint 过但终产物错了,说明 checkpoint 放错位置。
  • 跟上周已知好的产物对一遍。仪表盘自己重排序时 Computer Use 会取错行。
  • 任务碰到共享系统的,记录 run ID 和动作清单。要让它无人值守跑,必须先有 audit trail。

怎么复用这个流程

  • 每个任务都留一份 computer-use-runbook.md:prompt、预期截图、停止条件。当 SRE runbook 写,不要当聊天片段。
  • prompt 做两套:dry-run 版只截图不点危险按钮,live 版才真按。UI 改过先 dry-run。
  • 目标站点会变的,每周跑一次小回归。UI 静默改了会破自动化,每周复跑能在周一前抓到。
  • 配合 Claude Skills,让团队在普通对话里直接按名字调起来。

推荐流程

挑一个周度导出 → 写清单 → 沙箱里跑 → 加固脆弱点 → prompt 和截图入 runbook → 每周复跑、UI 变了 dry-run → 第一个稳跑 4 次后再扩第二个。

容易踩的坑

  • 让 Computer Use 在主桌面跑。一次误点 Slack 真消息就够你后悔了。
  • 跳过验证步。失败之后它会高高兴兴再往下走 5 步。
  • 拿一次性任务来自动化。Computer Use 的回报来自重复;一次性的手做更快。
  • 把不可逆的事交给它——付款、删除、发送——这些一定要保留人工确认。
  • prompt 写成”看着办”。在 Computer Use 这等于发了张乱点许可证。

FAQ

Q:拿工作笔记本跑 Computer Use 安全吗? A:不安全。用独立浏览器 profile 或专门的 VM,账密绝不放进 prompt——目标系统先手动登录好再把 session 交给它。第一天它一定会点错地方,不要在主桌面上试。

Q:Computer Use 的实际准确度怎么样? A:结构化、简单 UI(表格、固定按钮位置)上很稳。带弹窗、modal、同意横幅、动态加载的仪表盘很脆——每 2-3 步加显式验证(“点了 Export 之后确认页面 header 是 Exports”)能把静默漏变成停下问。

Q:能过两步验证吗? A:不能。Computer Use 不能识别短信验证码、Authenticator App、硬件 key。手动登好之后把已认证的 session 留给它跑后续步骤。涉及支付确认、不可逆按钮的步骤也别交给它。

Q:成本怎么控? A:比普通 Claude 对话贵——每张屏幕截图都吃 token。把单次任务控制在 8-12 步是控成本的甜区。再长误差也会复合,分不清是在哪一步丢线,跑长任务前先拆成多个 8-12 步的子任务串起来。

相关

标签: #Claude #computer-use #automation #教程