近日,我国金融领域迎来了一项重要进展,上海财经大学宣布其金融领域大模型评估基准Fineval已升级至6.0版本,并首次公开发布了评测报告。此次升级特别新增了金融严谨性等关键评估维度,旨在全面衡量金融领域大模型的专业性和可靠性。
作为国内首个专注于金融领域大模型测评的高校,上海财经大学自2024年起便积极参与制定了《金融大模型应用测评指南》,为行业树立了以金融业务能力为核心的团体标准。此次Fineval 6.0的发布,标志着上海财经大学在金融领域大模型测评工作上的又一次重大突破。
在Fineval 6.0的评测中,国内外9款具有代表性的大模型接受了严格考验,其中包括DeepSeek-R1、GPT-4等通用基础模型,以及专注于金融垂直领域的模型。评测结果显示,尽管各模型在金融学术知识方面表现普遍优异,但在金融严谨性、金融行业理解等复杂场景适应能力上却存在较大差异。
值得注意的是,蚂蚁集团旗下的理财AI“蚂小财”在此次评测中脱颖而出,其模型底座在金融严谨性等维度上表现尤为突出,总分甚至超越了多款通用大模型。在金融严谨性单项评测中,“蚂小财”更是以远超行业均值的成绩位居榜首,展现了其在金融领域的深厚积淀和卓越表现。
“蚂小财”作为蚂蚁集团的AI理财管家,连接了蚂蚁财富平台生态内的众多基金公司、券商和财经媒体的内容与服务。其技术团队在通用大模型的基础上,进一步搭建了一套金融智能增强的技术体系,使得“蚂小财”在金融场景中的专业功能和交互体验得到了全面增强。
上海财经大学教授张立文作为测评团队负责人表示,金融领域作为国内AI技术应用的焦点场景之一,对AI的专业性、严谨性等能力提出了更高要求。当前,国内AI在金融领域的表现正逐步提升,逐渐从“博闻强识”向“专业审慎”转变,为下一阶段的大规模应用奠定了坚实基础。
张立文教授还指出,这些“AI+金融场景”的积极探索,不仅有助于提升国内AI技术的国际竞争力,还将为我国数字金融、普惠金融建设打开全新局面,推动金融行业向更加智能化、专业化的方向发展。