在科技界的瞩目下,OpenAI于近日通过一场直播活动,震撼发布了其最新的AI模型——ChatGPT Agent。这款模型将DeepResearch与Operator功能融为一体,形成了一个既能深度研究又能执行浏览器操作的AI助手。
据OpenAI介绍,ChatGPT Agent堪称他们的“Manus”,旨在满足广泛的用户需求。从技术和成本角度来看,这款模型无疑将对同类竞品构成巨大挑战。直播中,OpenAI的CEO Sam Altman与四位来自Operator和DeepResearch项目的研究员,通过演示婚礼策划等场景,展示了ChatGPT Agent的强大功能及其在各种基准测试中的卓越表现。
使用ChatGPT Agent的过程异常简便。用户只需在ChatGPT客户端点击工具菜单,选择“Agent”选项即可。该Agent能够利用虚拟计算机执行复杂任务,无缝切换思考与行动,并运用各种工具,如编写代码、浏览网页、制作Excel和PPT等。
在一次日常生活演示中,研究员为ChatGPT Agent提供了婚礼网站和酒店预订网站的链接,并给出了详细需求。ChatGPT Agent迅速响应,不仅确定了婚礼日期和场地,推荐了符合场合的服装方案,还搜索了可预订的酒店,并挑选了合适的礼物。整个过程中,用户能够同步看到Agent操作计算机屏幕的过程及每一步操作背后的思维链。
ChatGPT Agent的浏览器功能尤为引人注目。它拥有两种浏览方式:一种是文本浏览器,类似DeepResearch,能高效快速地阅读和搜索大量网页;另一种是可视化浏览器,类似Operator,可与网页UI进行实际交互,执行拖动、点击、填写表单等操作。OpenAI表示,这两种工具互补性强,共同构成了ChatGPT Agent的强大基础。
ChatGPT Agent允许用户随时打断执行,并补充新的任务指示。这在执行复杂且耗时的任务时尤为重要。Agent在执行关键步骤前会请求用户确认,以确保准确性。例如,在发送电子邮件前,它会要求用户检查草稿内容,用户也可接管浏览器自行修改。
在基准测试中,ChatGPT Agent的表现同样令人瞩目。在“人类最后考试”基准测试中,其通过率几乎翻了一番,达到42%。在FrontierMath基准测试中,也取得了27%的通过率。在WebArena、BrowserComp、Spreadsheet Bench以及Internal Banking Benchmark等基准测试中,ChatGPT Agent均表现出色,超越了DeepResearch和o3等模型。
尽管ChatGPT Agent功能强大,但OpenAI也提醒用户注意安全风险。互联网上的网络攻击、诈骗和网络钓鱼等威胁依然存在,AI Agent也无法完全免疫。因此,OpenAI采取了多项措施来防范这些风险,包括训练模型忽略可疑指令、设置多层监视器等。然而,用户仍需保持警惕,避免分享高度敏感信息,并合理使用接管模式。
最后,OpenAI宣布ChatGPT Agent将为Pro、Plus和Team用户上线。Pro用户每月将获得400次查询机会,Plus和Team用户每月将获得40次查询机会。Pro版的部署预计将于本月底完成,Plus版也将很快上线,Team版将争取在本月底前推出企业版和教育版。