ITBear旗下自媒体矩阵:

豆包大模型亮相火山引擎大会 性能惊艳超越前辈

   时间:2024-05-27 09:59:26 来源:ITBEAR编辑:星辉 发表评论无障碍通道

【ITBEAR科技资讯】5月27日消息,近日火山引擎原动力大会上,豆包大模型正式亮相,不仅以惊人低价引领了大模型降价风潮,更凭借其出色的模型能力成为业界焦点。

据豆包模型团队在火山引擎的产品资料中披露的一期内部测试结果,Doubao-pro-4k在MMLU、BBH、GSM8K、Humaneval等11个业界主流的公开评测集上,以总分76.8分的优异成绩脱颖而出。相较于上一代模型云雀Skylark2的64.5分,豆包模型性能提升了高达19%,并且在同期测试的国产模型中表现最佳。

此次评测工作于今年5月圆满结束,涵盖了包括豆包通用模型-pro、云雀Skylark2在内的九款国产顶尖大语言模型。评测过程中,除了云雀Skylark2,其余参评模型均为各厂商最新推出的高级版本,并通过API调用方式进行了严格测试。

评测数据显示,在评估代码能力的Humaneval和MBPP两个评测集上,豆包模型展现了惊人的实力,相较于上一代模型性能提升了约50%。同时,在专业知识和指令遵循的评测环节中,豆包分别斩获了33%和24%的显著性能提升,稳坐国产模型榜首。

不仅如此,豆包在数学能力、语言理解能力,以及综合评测集CMMLU和Ceval的评测中也取得了令人瞩目的成绩,综合得分稳居前三。在11个公开评测集上的总分达到76.8分,与OpenAI公布的GPT-4测试成绩80.1分相比,虽仍有一定差距,但已足以彰显豆包模型的强劲实力。

豆包模型于5月15日正式推出,虽然尚未参与第三方机构的测试,但其在短短时间内已经吸引了大量关注。预计未来一两个月内,多家第三方评测机构将陆续发布对该模型的详细评测报告。与此同时,与模型同名的AI对话助手“豆包”也备受瞩目,官方数据显示其月活用户数已达2600万,用户可自由体验测试该AI助手的各项功能。

此外,在智源研究院此前公布的全球91个语言模型评测报告中,云雀Skylark2在偏重考察中文能力的主观评测中拔得头筹,其中文能力甚至超越了GPT-4,展现了国产模型在中文处理领域的优势。

据ITBEAR科技资讯了解,豆包模型的优异表现不仅体现了国内AI技术的飞速发展,也为国产大模型在国际舞台上赢得了一席之地。未来,随着技术的不断进步和优化,国产大模型有望在全球AI领域发挥更加重要的作用。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version