ITBear旗下自媒体矩阵:

2.4万亿参数加持!文心5.0原生全模态大模型上线,引领AI应用新变革

   时间:2026-01-23 03:02:39 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

百度近日正式推出并上线了其原生全模态大模型文心5.0,标志着人工智能领域又一重要突破。该模型拥有高达2.4万亿的参数规模,通过原生全模态统一建模技术,实现了对文本、图像、音频、视频等多种信息形式的全面理解与生成能力。这一创新技术路线,与业界普遍采用的“后期融合”方案截然不同,它采用统一的自回归架构,将多源数据在同一模型框架内联合训练,从而促进了多模态特征的深度融合与协同优化。

据百度集团副总裁吴甜介绍,文心5.0不仅在技术上实现了重大突破,更在应用层面展现出巨大潜力。其超大规模混合专家结构及超稀疏激活参数设计,使得模型在保持强大能力的同时,推理效率得到显著提升。通过大规模工具环境合成长程任务轨迹数据,并采用端到端多轮强化学习训练,文心5.0的智能体和工具调用能力也得到了显著增强。

在应用层面,文心5.0已经展现出其广泛适用性。个人用户现在可以通过文心APP和文心一言官网体验这一先进模型,而企业与开发者则可通过百度千帆平台进行调用。在权威基准的综合评测中,文心5.0的语言与多模态理解能力超越了Gemini-2.5-Pro、GPT-5-High等国际知名模型,稳居国际第一梯队。其图像与视频生成能力也与垂直领域专精模型相当,整体处于全球领先水平。

百度应用模型研发部负责人贾磊在分享中强调,应用模型的价值在于其实际应用效果。他介绍了基于文心基础大模型构建的矩阵模型和专精模型,这些模型分别面向产品级应用和通用场景、行业应用和垂直场景,实现了快速落地和高效应用。其中,矩阵模型包括文心Lite模型、视频大模型和语音大模型,而专精模型则涵盖搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型等。

贾磊还详细介绍了三项技术突破:基于声音Token的端到端合成大模型、5分钟超越真人的直播技术以及实时交互数字人技术。这些技术不仅提升了语音合成的自然度和表现力,还使得直播带货和数字人交互更加生动和高效。例如,基于声音Token的端到端合成大模型通过离散表示定义token,以MoE大语言模型建模韵律,实现了高质量的声音合成;而实时交互数字人技术则采用三态Token联动架构,实现了文本、语音、视频的流式控制,具有低延迟、低成本和高表现力的特点。

在推动大模型落地产业方面,百度千帆平台发挥了重要作用。该平台产品负责人张婷介绍,千帆专为行业落地打造的Agent Infra提供了包括文心5.0及全场景150+SOAT模型服务在内的丰富资源,并集成了众多工具及MCP和Agent工具链。结合数据管理和企业级服务,千帆平台能够为企业提供全周期、稳定支持多场景业务的运行环境,显著降低企业Agent创新门槛。目前,千帆平台上已累计开发超130万个Agents,以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破千万次。

随着全球AI行业的快速发展,如何将AI技术应用于真实世界与行业,从而进一步产生价值,成为行业探索的重要方向。作为国内最早发布大模型的企业之一,百度正基于其多年积累的技术实力,形成以芯片为底座、智能云为平台框架、以模型支撑各类智能体应用的“芯云模体”全栈自研生态闭环。这一生态闭环的构建,将持续推动AI技术在各行业的广泛应用和深入发展。

 
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version