ITBear旗下自媒体矩阵:

Kimi视觉思考模型k1上线,拍照答题还能看思维全过程

   时间:2024-12-16 13:10:36 来源:砍柴网作者:砍柴网编辑:瑞雪 发表评论无障碍通道

近日,科技界迎来了一项新的突破,知名AI研发机构月之暗面正式推出了其最新的视觉思考模型k1。这款模型采用了先进的强化学习技术,实现了端到端的图像理解和思维链技术,并且在数学、物理、化学等基础科学领域展现了强大的应用能力。

据月之暗面官方透露,k1模型在多个基础科学学科的基准测试中,表现超越了OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet等业界知名模型。这一成绩不仅彰显了k1模型的强大实力,也预示着AI在基础科学领域的应用将迎来新的发展阶段。

k1视觉思考模型已经正式上线,并集成在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com中。用户只需在最新版手机App或网页版Kimi+页面找到“Kimi视觉思考版”,即可通过拍照或上传图片的方式体验这一创新功能。在使用过程中,用户不仅能获得问题的答案,还能完整看到模型思考答案的全过程,即推理思维链CoT。

从模型训练的角度来看,k1视觉思考模型的诞生经历了两个阶段。首先,通过预训练获得基础模型,然后在基础模型上进行强化学习后训练。在预训练阶段,k1模型重点优化了字符识别能力,在OCRBench上取得了903分的优异成绩。同时,在MathVista-testmini、MMMU-val和DocVQA等多个基准测试集上,k1模型也分别获得了69.1、66.7和96.9的高分。在强化学习后训练阶段,k1模型在数据质量和学习效率方面进行了进一步优化,并在强化学习的规模化上取得了新的突破。

针对市面上缺乏针对基础科学学科的图形测试集的问题,Kimi模型研发团队自主构建了一个标准化的测试集Science Vista。该测试集涵盖了不同难度的数理化图片题目,且从分布上与实际用户需求较为匹配。这一测试集的推出,不仅为k1模型的能力评估提供了有力支持,也将为整个大模型行业的发展带来积极影响。月之暗面表示,未来该测试集将开放给全行业使用。

尽管k1视觉思考模型在多个方面展现了出色的表现,但在内部测试中,月之暗面也发现了一些局限性。例如,在分布外的泛化能力、处理更复杂问题的成功率、在噪声场景下的准确率以及多轮问答效果等方面,k1模型仍有很大的提升空间。与OpenAI的o1系列模型相比,k1模型在某些场景和泛化能力上仍存在一定的差距。不过,随着技术的不断进步和应用的深入拓展,相信k1模型将在未来实现更加出色的表现。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version