滚动资讯

当前位置：财经 > 宏观经济 > 正文内容

大模型评测乱象频出，如何构建科学评测体系成行业焦点

时间：2024-12-23 14:13:01 来源：蓝鲸新闻编辑：快讯团队 IP：北京 发表评论无障碍通道

在人工智能领域，大模型的评测一直是衡量其能力的重要标尺。如同一场精心设计的考试，评测不仅揭示了技术的现状，还指引着模型开发的未来方向，帮助开发者识别并解决潜在问题。

然而，构建一套科学、公正的大模型评测体系远比想象中复杂。大模型如同多才多艺的考生，精通多种语言，跨领域知识广博，一旦洞悉考试模式，便能通过反复练习取得高分，这无疑给评测的公平性带来了挑战。

全球范围内，大模型评测榜单琳琅满目，据统计，数量已超过50个。不同机构依据各自标准设立的评测体系，使得同一模型在不同榜单上的排名大相径庭，这一现象引发了公众对评测公正性的广泛讨论。

为了应对这一挑战，智源研究院于2023年推出了Flageval（天秤）大语言模型评测体系，该体系覆盖了语言、多模态、语音语言等多种模型类型，并针对不同类型设计了详细的评测指标和方法。近日，智源研究院再次发布了升级后的Flageval新版本，现已涵盖全球800多个开源和闭源模型，评测题目超过200万条。

为了确保评测的公平性，智源研究院采取了一系列措施。对于开源模型，采用模型发布方推荐的推理代码和运行环境；对于闭源模型，则通过公开的API以普通用户身份进行访问，确保所有模型面对相同的评测条件。智源研究院智能评测组负责人杨熙表示，评测过程中，模型并不知道自己正在接受测试，从而避免了针对性优化的可能。

尽管如此，大模型评测仍面临诸多挑战。一些公司为了取得好成绩，不惜采取各种刷分手段，如反复提交不同版本的模型，甚至提前获取评测数据集进行训练。这些行为严重损害了评测结果的公正性和可靠性。

为了应对这些挑战，智源研究院不断更新评测题目，引入更难的考题以拉开模型间的差距。同时，评测数据集不仅包括开源社区的公开数据集，还涵盖了智源研究院自建的数据集，以确保模型不会针对特定数据集进行优化。智源还尝试了一种新颖的评测方式——让大模型进行实时辩论。

在辩论赛中，模型需要理解辩题、构建论点、反驳对方观点，这不仅考验了模型的思辨能力、逻辑推理能力，还锻炼了其语言表达能力和综合素质。智源研究院在现场演示了一场大模型之间的实时辩论赛，辩题为“功夫熊猫和孙悟空谁更适合做队友”。两个大模型展开了激烈的对话，引经据典，谈话充满张力，让观众直观地感受到了不同模型的能力差异。

智源研究院副院长兼总工程师林咏华强调，榜单排名不应成为评价模型的唯一标准。用户在选择模型时，应根据自身需求和应用场景，综合考虑模型的各项指标。评测还需要更加关注模型的实际应用能力，如响应速度、用户体验等。她表示，大模型评测是一个复杂的系统工程，需要行业共同努力，不断探索新的评测方法，构建高质量的评测数据集，并加强合作，推动统一评测标准的建立。

同时，林咏华还提到，随着技术的不断发展，更多创新的大模型评测体系将不断涌现。这些评测体系将更加贴近实际应用场景，全面考察模型的综合能力，为人工智能技术的健康发展提供有力支撑。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

黄仁勋密集减持英伟达，狂赞中国企业背后有何深意？

07-21

欧盟夹击下寻出路，为何避中国而求他国？分裂风险隐现

07-21

人民币加速“走进”非洲，美元霸权面临挑战？鲍威尔承压

07-21

Stellantis上半年预计净亏损23亿欧元，美国关税成“拦路虎”？

07-21

中美贸易战下，巴西大豆成香饽饽，美国农场主愁云满面

07-21

Stellantis上半年预计净亏损26.8亿美元，关税成主要拖累因素

07-21

高盛报告：对冲基金上周猛烈抛售日本股票，市场何去何从？

07-21

大基建热潮来袭！建材ETF强势涨停，生物科技ETF为何领跌？

07-21

保利国际控股增资至10亿，注册资本暴增9倍，高层调整布局新未来？

07-21

链博会闭幕，康宁等外企点赞：中国供应链合作平台动力强劲

07-21

金价飙升近20美元！FXStreet分析师：黄金买家迎来技术利好？

07-21

欧盟制裁俄罗斯再升级，石油价格成博弈焦点？

07-21

欧盟内部分歧加剧，中美压力下的欧盟何去何从？

07-21

人民币“出海”非洲，美元地位动摇？鲍威尔神情透露压力山大

07-21

水泥业转型之路：整合加速，创新破局，全球化寻新机

07-21

点击查看更多 +

全站最新

欧盟夹击下寻出路，为何避中国而求他国？分裂风险隐现

人民币加速“走进”非洲，美元霸权面临挑战？鲍威尔承压

Stellantis上半年预计净亏损23亿欧元，美国关税成“拦路虎”？

中美贸易战下，巴西大豆成香饽饽，美国农场主愁云满面

Stellantis上半年预计净亏损26.8亿美元，关税成主要拖累因素

高盛报告：对冲基金上周猛烈抛售日本股票，市场何去何从？

热门内容

本栏最新

欧盟夹击下寻出路，为何避中国而求他国？分裂风险隐现

人民币加速“走进”非洲，美元霸权面临挑战？鲍威尔承压

Stellantis上半年预计净亏损23亿欧元，美国关税成“拦路虎”？

中美贸易战下，巴西大豆成香饽饽，美国农场主愁云满面

Stellantis上半年预计净亏损26.8亿美元，关税成主要拖累因素

高盛报告：对冲基金上周猛烈抛售日本股票，市场何去何从？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.