在科技界的最新动态中,视觉理解技术迎来了前所未有的价格革命。12月18日,字节跳动于火山引擎 Force 大会上震撼发布了其豆包视觉理解模型,这一创新成果标志着视觉模型正式迈入“厘时代”。
火山引擎总裁谭待在会上宣布,豆包视觉理解模型的处理费用极为亲民,每千个tokens的输入价格仅为3厘,这一价格意味着用户仅需花费1元,即可处理约284张720P分辨率的图片。与市场上其他同类产品相比,如Claude 3.5 Sonnet的0.021元/千tokens、qwen-vl-max的0.02元/千tokens以及GPT-4o的0.0175元/千tokens,豆包模型的价格优势显著,便宜了高达85%。
谭待进一步介绍,豆包视觉理解模型不仅具备高精度的视觉内容识别能力,还展现出卓越的理解与推理智慧。它能够基于图像信息进行复杂的逻辑运算,如分析图表、处理代码以及解答学科难题等。豆包模型还拥有细腻入微的视觉描述与创作才能。
回溯至今年5月,字节跳动首次推出了豆包大模型,并在企业市场中以每千Tokens 0.0008元的超低价格亮相,这一价格使得处理1500多个汉字仅需0.8厘,相比行业平均水平便宜了99.3%,大模型的价格体系实现了从分至厘的跨越性调整。
随后,云计算领域的其他巨头也纷纷响应,阿里云宣布其9款商业化及开源系列模型降价,百度智能云则宣布文心大模型的两款主力产品ENIRE Speed与ENIRE Lite全面免费。在2024年的云栖大会上,阿里云再次宣布三款通义千问主力模型降价,最高降价幅度达到了90%。
谭待在早前的采访中曾表示,这一系列的价格调整并非简单的价格战,而是为了让技术应用更加普及,将成本控制在合理范围内。如今,这一目标已经初步实现。
在Force大会上,豆包3D生成模型首次惊艳亮相,同时,豆包大模型的多款产品也迎来了重要更新。其中,豆包通用模型pro已全面升级至与GPT-4o相当的水平,但使用价格仅为后者的八分之一。音乐模型则从生成60秒的简单旋律升级为能够创作3分钟的完整音乐作品。文生图模型2.1版本更是实现了业界首次的精准汉字生成与一句话P图功能,并已接入即梦AI和豆包App。
据统计,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,相较于七个月前首次发布时,增长了惊人的33倍。