ITBear旗下自媒体矩阵:

DeepSeek火爆全球,国产AI模型效率领先引关注

   时间:2025-01-26 16:05:55 来源:ITBEAR作者:唐云泽编辑:快讯团队 发表评论无障碍通道

近日,幻方量化旗下的AI公司DeepSeek在全球范围内引发了轰动,其最新成果在美国主流媒体和社交平台上引发了广泛讨论。

据悉,一条在匿名平台teamblind上发布的帖子于1月24日迅速传播开来。该帖子由一名meta员工撰写,透露了meta内部因DeepSeek的模型而陷入恐慌的情况。员工在帖子中提到,DeepSeek-V3模型的出现,在基准测试中已经超越了Llama 4,令人震惊的是,这一成就竟是由一家“仅用550万美元训练预算的中国公司”所实现的。

DeepSeek的崛起甚至被一些投资者视为英伟达股价下跌的原因之一。德国世界报知名市场评论员Holger Zschaepitz表示,DeepSeek可能给美国股市带来巨大威胁,因为它以低成本构建了突破性的人工智能模型,且无需依赖尖端芯片。这不禁让人对该行业数千亿美元的资本支出产生质疑。

据了解,DeepSeek在短短两个月内,仅使用2048块H800显卡,就成功训练出了6710亿参数的DeepSeek-V3模型。相比之下,meta训练4050亿参数的Llama 3模型,则使用了16,384块更强的H100显卡,并耗时54天。这一对比显示,DeepSeek的训练效率高达meta的11倍。

DeepSeek的进展可谓迅猛。1月20日,该公司发布了DeepSeek-R1模型,并同步开源了模型权重。该模型在后训练阶段大规模应用了强化学习技术,即使在标注数据极少的情况下,也显著提升了模型推理能力。在数学、代码、自然语言推理等任务上,其性能已逼近OpenAI的o1正式版。紧接着,1月25日,AMD宣布已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,与SGLang协同工作,以实现最佳性能。

中信证券的研究报告指出,DeepSeek模型相较于GPT4模型,参数量更小意味着推理成本更低。推理成本的降低,将为AI应用的普及铺平道路,正如4G提速降费为我国移动互联网产业带来的助力一样。随着模型性价比的持续提升,国内AI应用将依托丰富的生态和成熟的流量,加速在各领域的落地。其中,Agent模式有望以更长的任务流程、更好的场景理解和更高的自主能力,成为所有互联网用户的数字助手,在企业管理、教育、办公、金融等多个领域展现其应用价值。

目前,A股市场中与DeepSeek相关的公司也备受关注。(注:此处未列出具体公司名单,以保持与原文的“不完全统计”相符)

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version