在科技界万众瞩目的“双十二”尾声,OpenAI于12月20日悄然发布了其最新的o3推理模型,此举紧随谷歌前一天发布的推理模型,似乎是在向业界宣告其技术领先地位依旧稳固。o3作为9月推出的o1模型的升级版,命名上巧妙地避开了与英国电信运营商O2的潜在版权或商标冲突,直接跳跃至o3。
OpenAI介绍称,o3模型在复杂任务推理方面表现出色,尤其在科学、编码和数学等领域,相较于前代o1模型有了显著提升,尽管这伴随着处理时间的延长。以高级数学推理测试EpochAI Frontier Math为例,o3模型创造了25%的准确率纪录,而此前所有模型的准确率均未达到2%。
在迈向通用人工智能(AGI)的征途中,o3模型为OpenAI增添了一份底气。在ARC-AGI基准测试中,o3模型在高配版和低计算设置下分别获得了87.5%和75.7%的得分,是o1模型得分的三倍。然而,高计算模式下的成本高昂,每个任务可能耗资数千美元,相比之下,低计算模式则仅需约20美元。
尽管如此,ARC-AGI测试的创建者François Chollet对o3模型持谨慎态度,他认为o3在一些简单任务上的失败表明其与人类智能仍存在根本差异。他强调,只有当设计出对普通人容易但对AI难的任务变得不可能时,才标志着AGI的真正到来。
OpenAI透露,o3模型的迷你版o3-mini将于明年1月底推出,随后将发布完整的o3模型。为了安全起见,OpenAI正邀请安全研究人员申请体验o3模型,以补充现有的测试流程。
回顾OpenAI的“双十二”活动,虽然连续12个工作日的直播吸引了众多关注,但部分AI从业者却表示失望。他们认为,OpenAI此次活动更多地是在填补过去的空白,o3模型的发布更像是一个“预告”,其实际表现还需等待实际应用后才能确定。与以往快节奏、高密度的新品发布会相比,此次活动的直播时长较短,缺乏震撼感。
活动期间,OpenAI发布了多项期货产品,包括完整版o1模型、视频生成模型Sora以及在苹果设备中正式接入ChatGPT等。然而,这些产品的发布并未如预期般引起轰动。尤其是Sora模型,在沉寂298天后终于上线,却因服务器压力一度被迫关闭。与此同时,国内外多家公司也发布了视频模型,使得Sora在性价比和生成质量上并未占据明显优势。
OpenAI还推出了七个月前演示过的实时视频功能和向所有ChatGPT用户开放的搜索服务。然而,这些功能并非OpenAI首创,其最大竞争对手Anthropic早已推出类似功能。有AI从业者指出,从用户体验和交互设计上看,Anthropic的AI助手Claude呈现出更积极的创新姿态,OpenAI似乎是在参照竞争对手来完善ChatGPT。
面对外界的质疑,OpenAI通过发布o3模型再次表明其正转向新的推理范式,以应对Scaling Law收益递减、预训练数据短缺等挑战。同时,谷歌作为科技巨头,也在积极布局AI领域,与OpenAI展开了正面竞争。谷歌先后发布了量子芯片Willow、新一代大模型Gemini 2.0、推理模型以及视频和图像模型等,试图在AI智能体、视频生成和搜索等领域抢占先机。
谷歌推出的Gemini 2.0 Flash实验版本在多项基准测试中表现领先,并支持多模态输入和输出。谷歌还探索了一系列智能体项目,包括支持高级视觉和语音交互的Project Astra、能像人类一样使用网站的智能体Project Mariner以及编码智能体Jules。这些项目旨在打造全新的AI智能体,更接近通用助手的愿景。
在视频生成领域,谷歌发布了新一代视频模型Veo 2和升级后的图像生成模型Imagen 3。虽然Veo 2在理论上可以生成分辨率达4K、两分钟或以上的视频,但目前仅支持生成720P、时长8秒的视频。相比之下,ChatGPT Pro付费用户可通过Sora生成1080P、最长20秒的视频。
在搜索领域,谷歌也推出了“AI Overviews”概率功能来应对ChatGPT Search的挑战。然而,该功能因生成低质量结果而频频翻车。据最新报道,谷歌正计划为其数十亿搜索用户提供切换到AI模式的选项,以应对ChatGPT等竞争对手的冲击。
随着AI战局的瞬息万变,抢先入局者并不一定能始终保持领先。在国内,字节跳动凭借雄厚财力和顶尖人才,已呈现出赶超的趋势。而在国外,谷歌作为科技巨头,也在积极布局AI领域,试图赶超OpenAI。未来,AI领域的竞争将更加激烈和精彩。