OpenCUA的开源计算机使用代理可与OpenAI和Anthropic的专有模型相抗衡

时间：2025-08-23 13:30:01 来源：互联网

香港大学（HKU）与多家合作机构的研究人员共同开发的新框架为创建可操作计算机的强健AI智能体提供了开源基础。该框架名为OpenCUA，包含用于扩展计算机使用代理（CUA）开发的工具、数据和方案。

使用该框架训练的模型在CUA基准测试中表现优异，不仅超越现有开源模型，更能与OpenAI、Anthropic等顶尖AI实验室的闭源代理分庭抗礼。

构建计算机使用代理的挑战

计算机使用代理专为在计算机上自主完成任务而设计，涵盖从网页浏览到复杂软件操作等场景，亦可助力企业工作流自动化。然而当前最先进的CUA系统均为闭源，其训练数据、架构和开发过程等关键细节均未公开。

研究人员在论文中指出："由于缺乏透明度会限制技术进步并引发安全隐患，学术界需要真正开放的CUA框架来研究其能力边界与风险。"

与此同时，开源项目也面临独特挑战：缺乏可扩展的基础设施来收集训练所需的大规模多样化数据。现有图形用户界面（GUI）的开源数据集数据有限，且许多研究项目未充分披露方法细节，导致研究难以复现。

论文指出："这些限制共同阻碍了通用CUA的发展，并制约了对其可扩展性、泛化能力和潜在学习路径的深入探索。"

OpenCUA框架问世

OpenCUA作为开源框架，通过规模化数据收集和模型训练来解决上述挑战。其核心是AgentNet工具，可记录人类在不同操作系统上演示的计算机任务。

该工具在标注者个人电脑后台运行，高效采集屏幕录像、键鼠输入及底层无障碍树（提供屏幕元素的结构化信息），随后将这些原始数据处理为"状态-动作轨迹"——将计算机截图（状态）与用户对应操作（点击、按键等）配对。标注者可审核编辑后提交演示数据。

借助该工具，研究人员收集了包含22,600余个任务演示的AgentNet数据集，覆盖Windows、macOS和Ubuntu三大系统，涉及200多个应用程序和网站。论文强调："该数据集真实捕捉了用户个人计算环境中的人类行为复杂性和环境动态。"

鉴于屏幕录制工具可能引发企业数据隐私顾虑，研究团队为AgentNet工具设计了多层隐私保护框架。论文合著者、港大博士生王新元向VentureBeat解释："标注者可完整查看生成数据后再决定是否提交，数据发布前还需经过人工隐私核查和大模型自动敏感内容扫描。这种分层机制能确保处理客户敏感数据或财务数据时的企业级稳健性。"

团队还构建了AgentNetBench离线基准测试，为每个步骤提供多个正确动作选项，显著提升了代理评估效率。

代理训练新范式

OpenCUA框架提出了数据处理和训练计算机使用代理的创新流程：首先将人类演示数据转化为适合视觉语言模型（VLM）训练的"状态-动作"对。但研究发现，仅用这些数据训练模型，即使数据量巨大，性能提升仍有限。

关键突破在于引入思维链（CoT）推理增强轨迹数据。该技术为每个动作生成包含规划、记忆和反思的详细"内心独白"，并分为三个层次：屏幕高级观察、分析现状并规划下一步的反思性思考，最终形成简洁可执行动作。这种方法能深化代理对任务的理解。

研究人员指出："我们发现自然语言推理对通用计算机使用基础模型至关重要，能帮助CUA内化认知能力。"

该数据合成流程是通用框架，企业可基于其专有工具进行适配。王新元表示，企业可录制内部工作流演示，使用相同的"反射器-生成器"流程创建训练数据，"无需手动构建推理轨迹，即可快速获得适配内部工具的高性能代理"。

OpenCUA实战检验

研究团队应用OpenCUA框架训练了参数量从30亿到320亿不等的开源VLM（含Qwen和Kimi-VL变体）。这些模型在测试GUI理解和任务执行能力的在线/离线基准套件中接受评估。

其中320亿参数的OpenCUA-32B在OSWorld-Verified基准测试中创下开源模型新纪录，不仅超越基于GPT-4o的OpenAI CUA，更大幅缩小了与Anthropic领先闭源模型的性能差距。

对企业开发者和产品负责人而言，该研究揭示：OpenCUA方法具有广泛适用性，可提升不同架构（稠密型和专家混合型）和规模模型的性能；训练后的代理展现出强大泛化能力，能跨任务和操作系统稳定发挥。

王新元特别指出该框架在自动化重复性企业工作流方面的优势："例如AgentNet数据集中已包含启动Amazon EC2实例和配置MTurk标注参数等演示，这些多步骤任务都具有可重复模式。"

但他同时强调，要实现实际部署还需解决安全可靠性挑战："最大难点在于确保代理不会误改系统设置或引发任务目标之外的副作用。"

研究团队已公开模型代码、数据集和权重。

随着基于OpenCUA等框架的开源代理日益强大，知识工作者与计算机的关系或将发生根本性变革。王新元展望未来：相比掌握复杂软件操作技能，清晰向AI代理阐述目标的能力将更为重要。

他描述两种主要工作模式："离线自动化——代理运用广泛的软件知识端到端完成任务"和"在线协作——代理实时响应，像同事一样与人类并肩工作"。本质上，人类将负责战略性的"做什么"，而日益精进的AI代理将处理操作性的"怎么做"。

上一篇：《下一站江湖2》誓盟碑三件套获取攻略下一篇：Meta正与Midjourney合作，并将为其“未来模型和产品”授权相关技术

OpenCUA的开源计算机使用代理可与OpenAI和Anthropic的专有模型相抗衡

构建计算机使用代理的挑战

OpenCUA框架问世

代理训练新范式

OpenCUA实战检验

相关文章

韩国汽车及电池巨头首次携手，现代起亚、三星、LG、SK On 宣布结盟

《黑神话：悟空》因游戏 DLC“未能如期推出”遭玩家差评轰炸，Steam 过去 30 天好评率降至 93%

江苏明确新能源车车网互动价格机制：谷价充电，峰价向电网放电赚差价

北京共享充电宝改按分钟计费，部分品牌涨价高达 50%

指导价 3990 元，腾龙 18-300mm F3.5-6.3 镜头尼康 Z 卡口版本上架

火狐 Firefox 142 浏览器上线支持 PWA：网页可像应用一样固定到任务栏

相关应用

该死的混蛋可下载

该死的混蛋可存档

最近更新