杭州,这座融合了古老韵味与创新活力的城市,再次成为了科技领域的焦点。今年,火山引擎Force Link AI创新巡展的首站便选择在了这里,不仅吸引了新锐大模型独角兽DeepSeek的目光,也让老牌云计算巨头阿里云倍感关注。火山引擎此行,不仅仅是展示其技术实力,更是为了传递一个更为深远的信息。
火山引擎总裁谭待在一次发言中大胆预测:“如果说2024年是中国AI应用的元年,那么2025年,则极有可能是AI Agent应用的元年。”这一观点不仅得到了火山引擎内部的认可,更成为了整个行业的共识。上一次大模型行业如此团结一致,或许还要追溯到那场轰轰烈烈的“百模大战”。
然而,这种共识也带来了双刃剑效应。一方面,它使得产业方向更加明确,资源得以集中投入,促进了新技术的快速发展和新商业模式的诞生;另一方面,竞争也迅速从蓝海转变为红海,留给参与者的时间窗口日益紧迫。
火山引擎习惯于在产业共识中寻找机遇。最近,IDC发布的《中国公有云大模型服务市场格局分析,1Q25》报告显示,2024年中国公有云大模型调用量中,火山引擎以46.4%的市场份额位居第一。这一数据仅计算了B端客户的模型调用量,不包括海外用户和C端应用,充分展现了火山引擎在B端市场的强大影响力。
在Agent元年共识的大背景下,火山引擎于4月17日面向企业市场发布了豆包1.5·深度思考模型,并同步升级了文生图模型3.0、视觉理解模型,推出了OS Agent解决方案及AI云原生推理套件,旨在帮助企业更快、更省地构建和部署Agent应用。
巧合的是,同一天OpenAI也发布了其系列中能力最强的推理模型——o3模型和o4-mini模型。其中,o3模型是第一代能够在思维链中使用图像进行推理的模型,还能自主调用工具,并预告将推出一系列编程工具。这进一步证明了,大模型正在朝着更适合Agent化的方向演进。
谭待表示,要做好Agent,技术上需要做好三个准备:首先是拥有更强的模型,能够思考、计划和反思,并支持多模态;其次是要有更好的架构和工具,支持大模型操作数字和物理世界;最后是通过AI云原生,不断降低模型推理的成本和延迟,推动应用普及。
豆包深度思考模型正是为此而生。它采用了MoE架构,总参数为200B,但激活参数仅20B,能够以较小的参数实现顶尖模型的效果。同时,基于高效算法,豆包1.5·深度思考大语言模型在提供极高并发承载能力的同时,实现了20毫秒的极低延迟,使得深度思考模型能够在许多延迟敏感的场景中使用。
在专业领域的推理任务中,豆包1.5·深度思考模型表现出色。在数学推理AIME 2024测试中,其得分追平了OpenAI的o3-mini-high;在编程竞赛和科学推理测试中,其成绩也接近o1。在创意写作、人文知识问答等通用任务上,该模型也展示了优秀的泛化能力。
不仅如此,豆包1.5·深度思考模型还优化了数据处理策略,融合了可验证数据与创意性数据,满足了各类任务的需求。通过采用创新的双轨奖励机制,该模型有效实现了算法的可靠优化,兼顾了“对错分明”和“见仁见智”的任务。
豆包·文生图模型也升级为3.0版本,正式向企业开放。该版本已在即梦AI、豆包产品上线,支持2K分辨率直出,在生图结构准确性、小字生成与排版、美感、真实度等方面具有优势,并登上了权威竞技场Artificial Analysis文生图榜单的第一梯队。
在Agent元年,用户对模型的要求更高。那些在深度思考能力、多模态、推理成本、延迟等方面存在短板的模型,将承受来自客户端的巨大压力。这也是大模型落地过程中的一个确定趋势。
值得注意的是,DeepSeek之后,一些模型厂商已经开始转向垂类场景或应用领域,而云厂商则以更快的速度迭代。这是因为,DeepSeek的成功不仅仅是模型算法的更新,更是AI infra的全链路优化。目前,在AI infra方面做得最好的,当属云厂商。
谭待提到,传统的云是伴随着互联网发展起来的,当时的云原生很多是互联网应用(如web、APP)在实践中涉及的中间件、数据库、容器等方面。现在范式发生了变化,以前是人通过编写软件规则、中间件等来实现对业务的抽象,现在则是利用数据加上模型自动去解决更多的问题。
在这种情况下,上层业务对云的要求越来越多,也催生出新的产品。火山引擎把这类产品叫做AI云原生。原来的云原生是为了适应互联网发展,现在的AI云原生则是为了满足AI和Agent发展的需求。火山引擎一直在以AI云原生为理念推陈出新,如本次大会新发布的AI云原生推理套件ServingKit等。
火山引擎可能比所有云厂商更早看清AI云原生趋势。字节跳动主营业务中的搜索、广告、推荐等,都是基于人工智能技术实现的。这使得火山引擎对技术预判的感知具有天然优势。在大模型之前,外界或许对字节跳动为何涉足云计算行业感到不解,但火山引擎“等”到了大模型,新技术的发展脉络自有其“巧合”。
火山引擎此前就表示,下一个十年,计算范式应该进入AI云原生的新时代。如今,这一观点已经成为了一个显学。当通算时代的云生态被拆解,智算时代的云生态应当如何构建?火山引擎给出了自己的答案。
云计算的能力决定大模型的天花板,大模型的能力上限决定应用的天花板,大模型的交付成本决定应用创新的加速度。火山引擎打造了以AI负载为中心的基础架构新范式,并围绕AI云原生,在存储、计算、数据、安全以及新的中间件等方面推出了一系列产品。
在本次大会上,火山引擎还推出了OS Agent解决方案,并演示了由Agent操作浏览器搜索商品页实现iPhone比价的任务,甚至由Agent在远程计算机上用剪映进行视频编辑、配乐。这一方案包含了豆包1.5·UI-TARS模型以及veFaaS函数服务、云服务器、云手机等产品,可实现对代码、浏览器、电脑、手机以及其他Agent的操作。
火山引擎的AI云原生推理套件ServingKit让模型部署更快、推理成本更低,GPU消耗相比传统方案大幅下降。在实际业务场景中,基于ServingKit的算子优化,DeepSeek R1满血版TPS提升超2.4倍;智能路由使TTFT降低60%;EIC在多轮次对话中,TTFT从3秒降低到1秒,长文本推理KVCache命中率提升了10倍以上。
自发布以来,豆包大模型的日均tokens调用量实现了高速增长。从去年的4万亿到今年3月底的超过12.7万亿,不到一年的时间里增长了超过106倍。金山办公、梅赛德斯-奔驰、浙江大学、杭州银行等不同行业的众多客户都在火山引擎上使用豆包大模型,打造自己的AI业务生态。
在AI时代,云竞争的终局是能够在底层大模型到上层应用生态的极致优化。这种价值才是难以复制的护城河。火山引擎在沉淀数年后,终于在大模型时代崭露头角。它不是在通算时代内卷,而是在智算时代,用AI价值反向补全自己的能力版图。当大模型厂商再次踏入同一条河流,关键的胜负手已经不再是技术灵感的偶然,而是围绕全栈AI深度能力的多维竞争。火山引擎,无疑在这场竞争中占据了有利地位。