本文作者:李丹
美东时间10月28日周一,AI模型分析平台Artificial Analysis公布的独立AI模型基准测试显示,一个大众陌生的“神秘”图像生成模型击败了 Midjourney、Black Forest Labs 和 OpenAI 的模型。
这个新模型名为red_panda,在Artificial Analysis的图生文AI模型排行榜上,它比位居第二的模型——Black Forest Labs旗下的 Flux1.1 Pro 高出约 40 个 Elo 点。
Artificial Analysis使用 Elo评级制度比较其测试的各种模型的性能。Elo最初是为衡量国际象棋选手相对技能水平而开发的排名系统。
与AI标准的测评平台Chatbot Arena 类似,Artificial Analysis 也通过众包对模型进行排名。对于评估图像模型,Artificial Analysis 的做法是,随机选择两个模型,对模型提供独特的提示词,然后展示提示词以及模型生成的结果,由用户选择他们认为哪个模型生成的图像能更好地反映提示词的要求。下图为red_panda生成的图像示例。
当然,用户的投票评估过程中存在一些偏见。参与Artificial Analysis评测的投票者大多是人工智能(AI)爱好者,他们的选择可能无法反映更广泛的生成式AI用户群体有何偏好。
但red_panda也是排行榜上生成速度最快的模型之一。该模型生成图像的平均耗时7秒左右——比 OpenAI 的 DALL-E 3 快 100 多倍。
除了性能,red_panda留给大众可查的信息很少,不知道它从哪里来、哪家公司制造、预计什么时候可以正式发布。Artificial Analysis在社交媒体X分享测试结果时也问:什么是 red_panda?
科技媒体TechCrunch认为,现在AI实验室越来越喜欢在发布产品之前先用业内基准测试激发人们的期望,所以我们可能很快就知道red_panda的“出身”等详情。