ITBear旗下自媒体矩阵:

英伟达推出Rubin CPX芯片:专攻长上下文推理,算力效率远超当前旗舰

   时间:2025-09-10 10:35:26 来源:财联社编辑:快讯团队 IP:北京 发表评论无障碍通道
 

全球AI算力芯片领域的领军者英伟达近日发布了一款专为长上下文场景设计的GPU——Rubin CPX。这款芯片旨在显著提升AI推理效率,尤其适用于编程、视频生成等需要处理超长上下文窗口的应用领域。

英伟达首席执行官黄仁勋指出,Rubin CPX是全球首款专为处理数百万级别tokens的AI推理模型打造的芯片。该产品基于英伟达计划于明年发布的下一代顶级算力芯片Rubin架构,预计将于2026年底正式出货。届时,英伟达将推出集成36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU的旗舰AI服务器NVIDIA Vera Rubin NVL144 CPX。

据技术披露,搭载Rubin CPX的机架在处理大上下文窗口任务时,性能较当前旗舰产品GB300 NVL72提升最高达6.5倍。新一代旗舰机架将提供8 exaFLOPs的NVFP4算力,较前代提升7.5倍,同时配备100 TB高速内存和1.7 PB/s的内存带宽。

英伟达强调,部署Rubin CPX的客户将获得显著经济效益。以1亿美元的新芯片投资为例,预计可为客户带来50亿美元的收入增长。这种设计理念源于对AI推理过程硬件需求的深度解析——推理过程分为上下文阶段与生成阶段,两者对计算资源的要求存在本质差异。

上下文阶段属于计算密集型任务,需要强大的数据处理能力来分析海量输入数据并生成首个输出token;而生成阶段则受内存带宽限制,依赖高速内存传输维持逐token输出性能。当前顶级GPU主要针对内存和网络受限的生成阶段优化,配备了昂贵的HBM内存,但在解码阶段这类资源存在浪费。通过分离两个阶段并针对性优化资源配置,Rubin CPX实现了算力利用率的显著提升。

具体参数方面,Rubin CPX针对长上下文场景优化,配备30 petaFLOPs的NVFP4算力和128GB GDDR7内存。英伟达调研显示,约20%的AI应用存在首token生成延迟问题。例如解码10万行代码可能耗时5-10分钟,而视频生成模型因预处理和逐帧嵌入的延迟,目前主要应用于短片制作。

在产品供应方面,英伟达将提供两种配置方案:一是与Vera Rubin芯片集成在同一托盘中的组合方案;二是针对已预订NVL144的客户,提供与Rubin机架完全匹配的独立CPX芯片机架。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version