ITBear旗下自媒体矩阵:

95后AI天才少女助阵,DeepSeek大模型火爆全网,雷军千万年薪抢人才!

   时间:2024-12-29 20:13:53 来源:证券时报e公司作者:ITBEAR编辑:快讯团队 发表评论无障碍通道

在AI界,一个名为DeepSeek的公司悄然崛起,其最新发布的大语言模型DeepSeek-V3迅速吸引了全球的目光。与此同时,一位95后的AI“天才少女”罗福莉也随之走入了公众的视野,她因在DeepSeek的关键角色而备受瞩目。

DeepSeek-V3凭借其卓越的性能,成功超越了多个知名开源模型,包括阿里的Qwen2.5-72B和meta的Llama-3.1-405B,甚至与世界顶尖的闭源模型如GPT-4和Claude-3.5-Sonnet不相上下。据技术报告显示,DeepSeek-V3的参数量高达671B,激活参数为37B,使用的预训练token量更是达到了14.8万亿。

令人惊讶的是,DeepSeek-V3在如此卓越的性能背后,却拥有极低的训练成本。据DeepSeek官方透露,整个训练过程仅用了不到280万GPU小时,相比之下,meta的Llama-3405B的训练时长则高达3080万GPU小时。若以H800的租金为每GPU小时2美元计算,DeepSeek-V3的总训练成本仅为不到600万美元,不及Llama-3405B训练成本的十分之一。

DeepSeek由国内量化资管巨头幻方量化于2023年创立,专注于开发先进的大语言模型和相关技术。其早在半年前发布的DeepSeek-V2就因性能达GPT-4级别,且开源、可免费商用、API价格极低而引发了业内关注。DeepSeek之所以能实现如此高的性价比,得益于其创新的架构,如MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等。

DeepSeek不仅以高性价比的大模型赢得了市场的认可,还成为了国内大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,为其技术研发提供了坚实的算力基础。

随着DeepSeek-V3的爆火,背后的AI“天才少女”罗福莉也备受关注。据报道,小米创始人雷军以千万年薪招揽了这位DeepSeek开源大模型DeepSeek-V2的关键开发者之一,让她领导小米AI大模型团队。罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业,曾在阿里达摩院从事预训练语言模型相关工作,并在幻方量化和DeepSeek担任深度学习研究员。

罗福莉的加入,是小米全面发力AI大模型的一个重要举措。小米自2023年4月正式组建了AI实验室大模型团队以来,一直在不断挖掘AI相关的用户场景,并发挥自身技术优势,以开放的态度与合作伙伴开拓更多机会。为了支持大模型的研发,小米还正着手搭建自己的GPU万卡集群,并持续提升算力储备。

对于小米这样在手机和造车领域都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而罗福莉因其在DeepSeek-V2研发中的出色表现,以及她对性价比的深刻理解,或许正是雷军看中她的原因。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version