随着ChatGPT的横空出世,人工智能大模型的发展进入了前所未有的快车道,智能水平的每一次迭代都仿佛在向世界宣告,这是一条永无止境的进化之旅。近期,上海人工智能实验室的一位科学家预言,大模型的未来必将向更高层次的智能能力迈进。
如今,这一“智能能力演化”的预言正逐步成为现实。12月18日,火山引擎在上海举办的“FORCE2024原动力大会·冬”上,正式推出了豆包视觉理解大模型。这款模型以其卓越的视觉内容识别能力、深度理解和推理能力,以及细腻的视觉描述能力,吸引了业界的广泛关注。
不仅如此,火山引擎在此次大会上还展示了升级的通用语言模型、音乐模型、文生图模型等,这一系列模型的发布,标志着字节跳动已经构建了国内最为全面的大模型家族,被媒体形象地称为“豆包全家桶”。
在此之前,豆包大模型已经展现出了强大的市场影响力。在11月的全球月活跃排行榜上,豆包APP的MAU(月活跃用户数)达到了5998万,仅次于ChatGPT,位列全球第二;其海外版Cici的MAU也达到了1267万,位居第22位。这些数据无疑证明了豆包大模型在ToC AI产品市场的领先地位。
从本次大会的角度来看,全新豆包大模型的发布无疑是一个重要的里程碑。这一全面升级的大模型家族,不仅满足了用户多元化的需求,更为AI的持续价值创造提供了行业最优解。在AI领域,虽然新技术层出不穷,但豆包大模型真正走进了普通人的日常生活。
豆包视觉理解大模型的发布,更是被视为大模型发展的关键一步。今年以来,大模型等智能助手的表现越来越接近人类,这得益于它们能够借助多种模态,如视觉、语言、声音等,来感知和理解世界。其中,视觉作为人类获取信息的主要渠道,其重要性不言而喻。豆包视觉理解大模型就像为大模型装上了一双“眼睛”,通过识别、理解、推理等能力,拓展了大模型的应用边界。
在发布会现场,火山引擎总裁谭待介绍称,豆包视觉理解大模型不仅可以精准识别视觉内容,还能根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。同时,它还具备细腻的视觉描述和创作能力,能够生成富有诗意的古诗和画作。
例如,当给豆包一张动物影子的照片时,它能迅速识别出这是一只猫;当给出一张地标建筑的照片时,豆包可以详细介绍背后的历史和文化细节。在推理层面,豆包也能迅速给出清晰的解题思路和解法。这些能力无疑为大模型的落地应用提供了广阔的空间。
豆包大模型的多模态交互能力也大大增强了其用户体验。用户可以通过语音、图像等多种方式与豆包进行交互,这使得豆包在产品设计上更加注重用户的便捷性和效率性。谭待表示:“当你看到一列高速行驶的列车时,最重要的事就是确保自己要登上这趟列车。”豆包大模型正是这样一列高速行驶的列车。
在价格方面,豆包视觉理解大模型也展现出了极高的性价比。其千tokens输入价格仅为3厘,一元钱即可处理284张720P的图片,比行业价格便宜85%。这一低价策略不仅吸引了大量用户,更为豆包大模型的普及提供了有力支持。
同时,火山引擎还推出了一系列平台和工具,如火山方舟、扣子专业版、HiAgent、AI全栈云等,以降低AI应用落地的门槛。这些平台和工具使得企业能够更快地落地应用,享受AI带来的便利。
目前,豆包大模型已经在消费、教育、电商、旅游、金融、医疗、汽车等领域落地应用,不断拓展AI应用的场景和边界。以飞鹤为例,通过与火山引擎合作,飞鹤搭建了智能问答机器人“鹤小飞”,大大提高了用户体验和业务管理效率。
随着豆包大模型家族的不断完善和壮大,其在B端和C端的表现都越来越强劲。在C端,豆包通用模型的日均tokens使用量已经超过了4万亿;在B端,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台。
这一系列优异的市场表现和用户反馈,不仅证明了豆包大模型的产品价值,更展现了其产业价值和生态价值。通过与产业链公司的深度合作,字节跳动与合作伙伴共同筑就了行业最优解,推动了AI技术的普及和发展。