近日,字节跳动在AI模型领域再次掀起波澜,通过其云服务平台火山引擎发布的豆包视觉理解模型,以极低的价格震撼业界。这款新模型的输入价格设定为每千tokens仅需0.003元,相较于行业平均价格,降幅高达85%。这一举措标志着多模态模型的使用成本正式进入厘计价时代,对推动AI技术的普及和应用具有重要意义。
据火山引擎介绍,豆包视觉理解模型不仅价格低廉,性能也十分卓越。以处理720P分辨率的图片为例,一元钱即可处理高达284张图片,性价比极为突出。与国内外其他知名多模态模型相比,如OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及阿里的Qwen-Vl-Max,豆包视觉理解模型在价格上均占据明显优势。
回顾今年5月,字节跳动首次发布豆包大模型时,便因定价极低而引发广泛关注。当时,豆包大模型的定价比同行低了99.3%,迅速点燃了国内大模型价格战。阿里云、百度、腾讯等头部厂商纷纷跟进降价,大模型的应用也因此得到了加速发展。火山引擎的数据显示,豆包通用模型的日均tokens使用量已突破4万亿,较首次发布时增长了33倍。
火山引擎总裁谭待在活动中表示,随着模型成本的降低和效果的提升,市场上对模型使用的反馈逐渐增多,用户开始更加关注模型的调用量和token数。他指出,火山引擎希望通过提供合理、可持续且一步到位的价格,让企业和开发者能够放心大胆地使用多模态模型。
豆包视觉理解模型在功能上也十分强大,能够精准识别视觉内容,并具备理解和推理、视觉描述等能力。在现场演示中,该模型成功识别了动物的影子轮廓、杂志内页的星云以及体检报告的某项具体指标。其应用场景广泛,包括教育领域的判卷指导和作文批改,以及旅游、电商营销等多个领域。
谭待还透露,字节跳动在类o1的推理模型领域也有所布局。豆包视觉理解模型已初步具备解答数学、物理、代码问题的能力,完整的推理模型将在进一步完善后推出。这一消息无疑为业界带来了更多的期待。
除了字节跳动外,国内其他大模型公司也在视觉方向取得了新进展。例如,独角兽月之暗面发布的视觉思考模型k1,以及私募巨头幻方量化旗下的AI公司DeepSeek开源的全新视觉模型VL2。这些新进展都表明,视觉能力在大模型领域的重要性日益凸显。
在此次火山引擎活动中,字节跳动还发布了豆包3D生成模型,并对多款产品进行了更新。其中,豆包通用模型pro已全面对齐GPT-4o,但使用价格仅为后者的1/8。音乐模型的支持时长从60秒升级至3分钟,文生图模型2.1版本则实现了精准生成汉字、一句话P图等产品化能力。字节预计,明年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,并很快上线端到端实时语音模型。
对于大模型未来的落地场景,谭待认为AI对话是一个通用的场景,但大模型在生产力、商业化场景中的增速同样不容忽视。他以近3个月的数据为例,指出豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长了16倍。他强调,聊天功能只是基础,要处理更复杂的任务,还需要深度推理、视觉理解等功能。而这些功能正是模型未来发展空间越来越大的前提。