近日,非营利性机构“人工智能安全中心”(CAIS)携手数据标注与AI开发服务商Scale AI,共同推出了一项名为“人类终极考试”的全新基准测试。该测试旨在全面评估前沿AI系统的综合能力,其难度之高引起了广泛关注。
据悉,此次基准测试的问题由来自全球50个国家/地区的500多家机构的近1000名学科专家撰写,这些专家包括教授、研究人员及研究生学位持有者,涵盖了数学、人文学科和自然科学等多个领域。为了提升测试的挑战性,题目形式不仅多样,还融入了图表和图像等复杂元素,旨在全面检验AI系统在跨学科知识和多模态信息处理方面的能力。
在初步的研究结果中,所有公开的旗舰级AI系统在这一测试中的表现均不尽如人意,回答准确率均未超过10%。这一数据表明,尽管AI技术在某些特定领域取得了显著进步,但在面对复杂、综合性问题时,仍存在明显的局限性。
为了更深入地了解AI系统的性能差异,并评估新开发的AI模型,CAIS和Scale AI计划将此基准测试向研究社区全面开放。这将为研究人员提供一个宝贵的平台,以便他们深入挖掘AI系统在处理复杂问题时的表现差异。
测试的设计也充分考虑了跨学科和多模态信息处理的重要性,通过结合不同领域的专业知识和多样化的题型,力求全面反映AI系统的综合能力。这一举措不仅有助于推动AI技术的进一步发展,也为未来的研究和应用提供了更为严格的评估标准。