Claude Computer Use 实操：2026 桌面自动化设置指南

挑对任务、放进沙箱、每隔几步就验证一次。一套可复现的 Computer Use 流程，含 2026 年 6 月的模型、价格与 OSWorld 数据。

发布于: 2026/05/23 更新于: 2026/06/14 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

Computer Use 能让 Claude 截屏、移光标、点击、打字，真的去操作桌面。截至 2026 年 6 月，它在 OSWorld-Verified 上用 Sonnet 4.6 得 72.5%、用 Opus 4.7 得 78.0%，大致追平甚至超过 72.4% 的人类专家基线——但这些分数来自干净的评测环境。到了真实的乱网页上（弹窗、慢加载、UI 漂移），靠谱的做法跟一个细心的运营是一样的：挑可重复、以读为主的任务，放进沙箱跑，单次控制在 8-12 步，每 2-3 个动作加一个显式验证。不想写代码就用 Claude Desktop 里的 Cowork（Pro 每月 20 美元起）；要写代码就用 API 的 computer use 工具（computer_20251124，beta header 是 computer-use-2025-11-24）。

本文覆盖什么

Computer Use 是 Anthropic 的一个工具，给 Claude 四种基本能力：截屏、控鼠标、发键盘、操作任意可见的应用。Demo 拍得很顺，实际用起来更脏。这篇讲实操：三条接入路径该选哪条、哪些任务值得自动化、单次跑要怎么圈才能安全失败、用什么复盘流程能逮住”静默漏”。

2026 年 6 月的三种用法

路径	适合	套餐 / 成本	配置
Claude Cowork（桌面 App）	非工程师、一次性或周期性桌面任务	Pro 每月 20 美元、Max 每月 100/200 美元（已含）	无需配置；跑在本地隔离 VM 里，research preview
API computer use 工具	工程师做可复用、脚本化的自动化	按 token 付费：Sonnet 4.6 $3/$15、Opus 4.7 $5/$25 每百万 token	beta header `computer-use-2025-11-24`，自建循环
官方 Docker 示例	第一天先安全试一试	仅 API token 成本	`anthropics/anthropic-quickstarts` 容器

Cowork 自 2026 年 1 月 16 日起包含在 Claude Pro 里，2 月 10 日实现 Windows 与 macOS 功能对齐。它把代码和浏览器操作都跑在你本机的一个隔离虚拟机里，所以对非工程师是风险最低的起点。API 工具配合 computer-use-2025-11-24 这个 header，支持 Opus 4.7、Opus 4.6、Opus 4.5 和 Sonnet 4.6；更老的 Sonnet 4.5 和 Haiku 4.5 仍用 computer-use-2025-01-24。

这篇适合谁

那些每周都要点同一串重复操作的运营、分析、客服——比如周报从某个后台拉、同一种 ticket 反复填、没有 API 的内网门户里抠数据。工程师通常有更好的工具（一段真脚本、一个 API 调用），所以高杠杆人群是用 Cowork 的非工程师，外加那些确实要驱动一个无 API 界面的工程师。

什么时候适合用

任务在浏览器里、可重复、以读为主时用 Computer Use。每周截图一张图表、从老的 admin 面板抠表、用结构化数据填某个已知表单——都行。涉及支付确认、不可逆按钮、实时判断的——还不到时候。模型还是会点错；在 OSWorld-Verified 上，78% 到 100% 之间的差距，恰恰就是你在生产里会撞上的那一长串动态 UI。

开始前准备

隔离它。 用最小权限的专用 VM 或容器来跑，绝不在主桌面上跑。Anthropic 自己的建议就是把环境沙箱化，让误点或 prompt 注入碰不到敏感数据。Cowork 用本地 VM 替你做好了这件事；用 API 则要自己搭沙箱。
任务写成新人都能照做的编号清单，你不在场也能跟。你自己都写不出来，Claude 也跟不出来。
单次控制在 8-12 步。 每个动作都是一次独立的 API 往返（截屏、判断、动作、再截屏），所以步数越长误差越复合、成本越涨。超过约 12 步你就分不清它是在哪一步丢线。
提前定好停止条件： 成功长什么样、失败长什么样、模糊时停下问。

一步一步操作（API 或 Cowork）

起沙箱。 Cowork 自动搞定。用 API 则跑官方 Docker 容器，或自建一个带 Xvfb 虚拟显示的 VM。目标系统先手动登录，不把账密交给模型。万不得已要登录时，账密只放在 <robot_credentials> XML 标签里，绝不写进普通正文。
设个合理的分辨率。 官方示例默认 1024x768（XGA）。Opus 4.7 长边最高支持 2576 像素、坐标与图像像素 1:1，但更小的截图更快也更便宜。要是小字（文件名、tab 标题、行号）让它读不准，开 zoom 动作（设 enable_zoom: true），别直接把整屏分辨率拉满。
把任务以编号清单贴进去，写明定位： “点右上的齿轮”，不要写”去设置”。在消息里把指令文字放在参考截图之前——在图像被处理前先描述目标，能实打实提升点击准确度。
每 2-3 个动作加一个验证步。 Anthropic 建议这样提示：“每一步之后截屏并仔细判断是否拿到了正确结果。只有确认这一步对了才往下走。“验证步能把”静默漏”变成”停下问”。
第一次跑从头到尾盯完。 不是优化，是看它在哪里卡。记录超时、模糊弹窗、布局漂移。
针对脆弱点加固。 多半是等加载的问题：加一句”等表格渲染完再点 Export”，再跑。
连跑三次都稳了再把 prompt 存下来。 补一行”成功长这样”，让以后的自己记得目标产物形状。

第一次跑的练习

挑你每周都要做的最无聊、最低风险那件——比如从某个仪表盘导一张 CSV。
第一次不要改 prompt 直接跑。预计是手动的 2-3 倍时间；这次速度还不是重点。
把屏录回看一遍，标出每个 Claude 犹豫的位置——那都是要加验证步的地方。
加固 prompt 后再跑。目标是”零犹豫”，不是”零秒”。

质量检查

每个验证步都过了吗？ 全部 checkpoint 绿但终产物错，说明 checkpoint 放错位置。
跟上周已知好的产物对一遍。 仪表盘在两次跑之间自己重排序时，Computer Use 会取错行。
碰到共享系统的任务记录 run ID 和动作清单。 要让它无人值守跑，必须先有 audit trail。

成本与准确度，用真数字说话

每个动作都是一次带新截图的 API 调用，截图是图像、会吃输入 token；computer use beta 还会给每次调用的 system prompt 额外加上大约 466-499 个 token。这就是为什么它的 token 消耗远高于普通对话，也是为什么单次 8-12 步对控成本很关键。要省钱，常规 UI 活儿优先用 Sonnet 4.6（每百万 token 输入 $3 / 输出 $15）而不是 Opus 4.7（$5 / $25）——Sonnet 4.6 在 OSWorld-Verified 上的 72.5% 基本与上一代 Opus 持平（Opus 4.6 约 72.7%），而 Opus 4.7 的优势（78.0%）主要体现在难的、动态的流程上。

模型	OSWorld-Verified	API 价格（输入/输出，每百万）	何时用
Claude Sonnet 4.6	72.5%	$3 / $15	常规、结构化 UI 任务的默认选择
Claude Opus 4.7	78.0%	$5 / $25	难的、动态的、多步流程
人类专家（基线）	约 72.4%	—	两个模型如今都已达到的标准线

基准数据为 2026 年 6 月时点；把它当成”干净环境下的天花板”，不是你那个仪表盘的实际表现。

安全：大家最爱跳过的一节

Computer Use 会读屏并据此动作，所以藏在网页或图片里的恶意指令可能劫持整个流程（prompt 注入）。Anthropic 给了两道防线：模型被训练去抵抗被注入的指令；还有一个分类器扫描截图，一旦发现疑似注入就引导 Claude 先问用户再动作。两者都替代不了隔离。把账密和敏感数据挡在沙箱外，凡是不可逆的操作都保留人工确认，并在把它指向已登录应用之前先看 Anthropic 的 computer use 安全指南。

怎么复用这个流程

每个任务都留一份 computer-use-runbook.md：prompt、预期截图、停止条件。当 SRE runbook 写，不要当聊天片段。
prompt 做两套：dry-run 版只截图不点危险按钮，live 版才真按。UI 改过先 dry-run。
目标站点常变的，每周跑一次小回归。UI 静默改了会破自动化，每周复跑能在周一前抓到。
配合 Claude Skills，让团队在普通对话里直接按名字调起来。

容易踩的坑

让它在主桌面跑。 一次误点 Slack 真消息就够你后悔了。
跳过验证步。 失败之后它会高高兴兴再往下走五步。
拿一次性任务来自动化。 回报来自重复；一次性的手做更快。
把不可逆的事交给它（付款、删除、发送）——这些一定保留人工确认。
prompt 写成”看着办”。 在 Computer Use 这等于发了张乱点许可证。
为了读小字把分辨率拉满。 改用 zoom 动作；全屏高清截图只会多烧 token。

FAQ

拿工作笔记本跑 Computer Use 安全吗？ 不直接安全。用 Cowork（它跑在本地隔离 VM 里），或用 API 时配一个最小权限的专用 VM 或容器。账密别放进 prompt；先手动登录，再把 session 交给它。

该用哪个 Claude 模型？ 常规、结构化 UI 用 Sonnet 4.6（它在 OSWorld-Verified 上的 72.5% 与上一代 Opus 大致持平，价格却只有约几分之一）；只有更难、更动态、多步的流程才上 Opus 4.7（78.0%）。两者都用 computer-use-2025-11-24 这个 beta header。

需要写代码吗？ 不用。Claude Desktop 里的 Cowork 提供无代码的 Computer Use，已包含在 Pro（每月 20 美元）和 Max（每月 100 和 200 美元）里。API 工具才是给工程师做脚本化、可复用自动化的。

成本怎么算？ 用 API 是按 token 付费，截图是图像、会吃 token，所以一次跑比一次对话贵得多：每次调用约多 466-499 个 system token，再加上每步一张截图。Sonnet 4.6 是每百万 token 输入 $3 / 输出 $15；Opus 4.7 是 $5 / $25。把单次控制在 8-12 步是最主要的控成本手段。

能过两步验证吗？ 不能。它读不了短信验证码、Authenticator App、硬件 key。手动登好之后，把已认证的 session 留给它跑后续步骤。

一句话总结

本文覆盖什么

2026 年 6 月的三种用法

这篇适合谁

什么时候适合用

开始前准备

一步一步操作（API 或 Cowork）

第一次跑的练习

质量检查

成本与准确度，用真数字说话

安全：大家最爱跳过的一节

怎么复用这个流程

容易踩的坑

FAQ

相关

相关文章

Claude 手机语音流：路上把半篇文档说完

Claude Skills 实操：一个 Skill 到底怎么被触发（2026）

Claude 团队知识库实操：能撑半年的共享 Project

Claude vs Codex 做 PM 任务（2026 年 6 月）：哪个更省时间

Claude 分析工作流：先分类，再下结论

Claude Artifacts 进阶——可迭代输出的工作流