作者:周源/
高通新一代骁龙旗舰移动平台,整体性能直逼PC级,重新定义了什么叫“性能”。
移动级消费芯片性能直追PC级芯片,这是从所未有的事。
10月22日,高通发布的骁龙8至尊版,成为高通成立以来性能最强悍的旗舰移动平台,其技术释放直如泉水“喷涌”,激射而出,故能傲视业界,难觅对手。
本代骁龙8旗舰,并没有顺延从2021年以来骁龙8Gen X的命名规则,转而改称骁龙8至尊版,英文名“Snapdragon 8 Elite”,这是为什么呢?
因为骁龙8至尊版采用和骁龙X Elite相同的CPU架构——高通自研Oryon CPU架构,放弃了此前在移动芯片组中使用的Kryo CPU架构。
这个超级计算平台(不仅仅是一颗SoC芯片),CPU采用高通历史上从未有过的全大核设计;综合性能、能效表现和AI能力,在骁龙8Gen 2(降低功耗)和骁龙8Gen 3(提升AI性能)的基础上,达到了一个全新高度。
综合而言,骁龙8至尊版的技术重点瞄准突破智能手机的端侧AI体验。
安卓阵营今年推出的令人惊叹的AI体验,比如荣耀在10月30日推出“一句话的事儿”的端侧AI智能体,能解构并自动达成用户模糊意图所指的实际需求,就来自骁龙8至尊版的底层技术能力;小米15 Pro推出的无网通信功能,也在骁龙8至尊版的NB-NTN(非地面网络)卫星通信技术看到了影子。
全大核结构统治芯片设计
评价任何芯片的性能优劣,有三个维度,统称PPA。
也就是,Power(能耗)、Performance(性能)和Area(面积)。其中,能耗排第一,其次是性能,排第三的面积,主要考量与成本相关。
这个优良特性也被骁龙8至尊版继承:基于GeekBench的测试结果,骁龙8至尊版的CPU的单/多核性能均提升45%,综合能效提升44%,整体节能提升27%;GPU性能和能效提升均为45%,参照对比第三代骁龙8(即骁龙8Gen 3)标准。
与骁龙8Gen3和骁龙8Gen 2相比,骁龙8至尊版同样采用台积电工艺。与前两代有所不同的是,本代旗舰平台采用台积电3nm工艺制程(第二代N3E),这个技术规格与苹果A18系列、联发科天玑9400相同。
本代移动旗舰平台,并非简单的SoC芯片集成,之所以称之为算力平台,是因为高通将超过40个不同组件全部封装在一起。
除了CPU、NPU、还包括射频、收发器、电源管理、超声波指纹识别和移动连接芯片等等,具有全方位的移动、AI推理、综合应用(比如影像、游戏、屏幕解锁等)和通信连接能力。
高通将之命名为骁龙8至尊版,即“Elite”,与2023年推出的笔电芯片骁龙X Elite相似,原因就是高通首次将骁龙X Elite的Oryon CPU架构引入移动平台,代际为第二代。
Oryon CPU架构主要针对日益增长的AI性能需求而设计。
因此,骁龙8至尊版是高通在首颗专为端侧生成式AI打造的移动AI芯片——骁龙8Gen 3的基础上进行了又一次技术大迭代版,是一个实打实的AI移动芯片集成平台。
与高通历史上所有SoC旗舰移动芯片最大的不同,除了这是一个集成多达40+个不同功能芯片的移动平台,还有其CPU结构第一次采用了全大核设计,CPU架构也从Kryo变成Oryon。
基于第二代自研Oryon CPU架构,骁龙8至尊版配置了两个超级核心(Prime),主频高达4.32GHz;与之搭配的是六个“性能核心”(Performance Core),主频达到惊人的3.53GHz,这与联发科天玑9400的超超大核3.62GHz的主频非常接近。
换句话说,天玑9400的超超大核,就主频参数而言,仅相当于骁龙8至尊版性能核心主频的水平。
骁龙8至尊版的两个超级核心的主频,已经不逊色于PC级CPU的主频表现,故而性能强悍。高通甚至不无骄傲的公开表示,采用第二代Oryon CPU架构的核心,比英特尔寄予厚望的Lunar Lake PC处理器更强大。
“第二代Oryon CPU与友商(指英特尔)推出的最好的PC产品(即Lunar Lake)相比表现如何?”高通首席执行官Cristiano Amon表示,“与竞品相比,我们的CPU性能提升了62%,这比英特尔刚刚发布的产品要快得多,同时能效提高了190%。”
从CPU结构看,骁龙8至尊版采用了2个超级内核和6个性能内核,小核消失。这么说的话,骁龙8Gen 3是高通最后一次采用三丛集CPU架构的移动平台。
至此,Arm于2011年推出的big.LITTLE架构正式退出骁龙旗舰移动平台的历史舞台,全大核时代正式宣告来临,芯片CPU设计思路从此为全大核结构统治。
CPU和NPU分别有哪些提升?
虽然骁龙8至尊版也采用了和骁龙X Elite相类似的Oryon CPU架构,但前者用的Oryon已是第二代,那么差别在哪里?
高通专为移动平台做了特别改进,除CPU配置不同,另外的优化主要是提升缓存。
每个超级内核(Prime)和每个性能内核(Performance Core)的L1级缓存分别提升至192KB和128KB,总计1152KB,超过1MB(1024KB);同时提升L2级缓存至24MB,2个超大核独享12MB,6个性能核分享12MB。
据高通介绍,这是一个全新的微架构,具有“即时唤醒”(Instant wake)功能,能减少各个CPU核心的频繁电源循环。
以前,高通采用的Kryo CPU架构使用的“上电序列”(Power-Up Sequence)涉及重置代码,以便核心做好运行准备。但现在,高通以“即时唤醒”技术,允许核心立即执行下一条指令,消除了上电序列带来的延迟,从而进一步提升运行效率。
同时,骁龙8至尊版支持的LP-DDR5X的速率为10.7Gbps(带宽),主频也达到了5.33GHz,比前骁龙8Gen 3的4.8GHz和骁龙8Gen 2的4.2GHz分别有11.04%和26.90%的提升。
高通表示,采用第二代高通Oryon CPU的微架构和新的内存技术,最终将带来骁龙8至尊版出色的用户体验,包括更快的应用启动速度、无缝的多任务处理和先进的生成式AI功能。
对了,与骁龙8至尊版带来的全新CPU架构和新的内存系统相比,AI才是这个移动平台更引人关注的焦点。
既然说到AI性能,那么高通始自骁龙8Gen 2采用的AI计算专用芯片“Hexagon NPU”就绕不过去,这是高通AI引擎的核心所在。
本代移动旗舰平台,对Hexagon NPU做了哪些提升?
首先,增加了标量(Scalar)和向量(Vector)加速器数量:标量加速器有8个核心,向量加速器有6个核心;其次,数据吞吐能力全线增强;第三,有个类似超大核的张量(Tensor)加速器,总体上提升了45%的NPU性能和能效,基础大语言模型上的token生成速率翻倍。
若做作用或任务拆分,张量(Tensor)加速器主要负责LVM(Logical Volume Manager)逻辑卷AI模型加速(主要作用于存储器资源效率管理);标量(Scalar)加速器负责大语言模型(LLM)AI模型加速,向量(Vector)加速器支持长文本(Long Conetext support),三者共同提升了整体运算能力,同时支持超长文本和LLM加速。
目前业界流行的部分大语言模型应用的响应速度,骁龙8至尊版处理速度超过70 tokens/s,而骁龙8Gen 3的这个速度是每秒20 tokens(70亿参数LLM)。
本代移动平台的AI能力,基于大幅升级的Hexagon NPU,能支持在端侧构建个性化多模态AI智能体。这对提升用户体验尤为关键。
骁龙8至尊版能在底层对包括自动语音识别(ASR)、大语言模型(LLM)、大视觉模型(LVM)和全新多模态大模型(LMM)等在内的多模态模型提供支持。通过异构计算,这些AI模型能在高通AI引擎的不同内核上运行。
这些技术能力,能为智能手机用户带来前所未见的全新体验。
比如,智能手机的传感器和摄像头,能根据用户的日常喜好,在端侧本地创建属于个人的神经网络(NPU),AI个人智能体因之就能更有效理解用户需求,相当于一个像真人那样的助理。
AI个人智能体和影像消除
在体验层面,靠着Hexagon NPU模块,智能手机能看懂屏幕所显示的画面,甚至能理解用户的复杂意图,并拥有即时给出解决方案的技术能力。
比如,用户将手机摄像头直接对准想要了解的事物,再向手机提问,手机能调用摄像头的实时画面,对之做出解构分析并给出答案。
还有一些更复杂的应用,比如用户对着手机用语音说一句话,智能手机有能力做用户模糊意图的任务解构,全程自动完成用户意图的需求满足。这就相当于给用户提供了一个高度“类人化”(像真人一样)的AI个人助理,这是像科幻场景那样的全新体验。
这种体验,在刚刚于10月31日荣耀发布的搭载内置了荣耀AI个人智能体YOYO的MagicOS 9.0的新一代旗舰Magic 7系列上,已经落地。Magic 7系列搭载了骁龙8至尊版。
荣耀号称搭载MagicOS 9.0的智能手机,用户只需说“一句话”,就能搞定诸如点餐饮、取消隐藏的订阅费用等复杂需求,大为拓展了AI手机的高度智慧体验,比OPPO喜欢的用AI技术修图、小米喜欢的AI摄影,无疑向前迈出了巨大的一步。
这种智能终端的AI新体验,实际上是以骁龙8至尊版的Hexagon NPU强悍底层AI技术为基础。
骁龙8至尊版能实现用户复杂意图理解这种相对更高难度的AI体验,相对来说,简单的消除静态照片多余路人这种事,就是小菜了。
但是,高通作为技术豪门,不会止步于此。这次,骁龙8 至尊版的AI能力,还被扩展到了视频领域。
高通为其AI引擎Hexagon NPU配备了一个协同硬件模块:AI ISP(图像信号处理器:Image Signal Processor)。
AI ISP的主要功能是提升计算摄影表现力,比如将更多的处理管道(Processing Pipeline)放在RAW域中运行。
这意味着当AI ISP在做自动对焦、自动校正白平衡和自动曝光等拍摄动作时,支持AI辅助增强功能,最终能实现更棒的影像表现力,比如更好的画质(更高的清晰度或亮度、更好的色彩平衡)、更高帧率的视频等。
高通用两颗Micro NPU,再加上两颗AI ISP、一颗DSP(数字信号处理器:Digital Signal Processor)和一个内存,共同组建了高通传感器中枢(Sensing Hub),整体AI性能提升60%,AI推理速度提升45%。
从参数上看,AI ISP的像素吞吐量提升33%,每秒达43亿像素;同时,这个ISP还能支持最多三个最高各4800万像素的摄像头和以30FPS录制零延迟快门的视频。
所谓的新增AI辅助增强功能体现在哪里?很简单,就是能做到在4K分辨率下实现60fps实时的视频拍摄质量。
那么,Hexagon NPU和AI ISP如何协同?作用是什么?
高通以Hexagon Direct Link技术实现两者的协同,Hexagon NPU能直接访问ISP传感器的原生原始数据,利用NPU的技术能力辅助ISP做更快的图像分割(Insight AI),进一步理解影像中的各个元素,实现更快的“虚化”或“物件消除”。
对,这就是像从OPPO Find X7系列开始推出的AI照片消除功能。
这次,在骁龙8至尊版上,还实现了视频一键消除:只需在30FPS视频中选择想要擦除的对象,就能实现消除。
基于Hexagon NPU的强悍性能,以及与AI ISP的高度协同,整个处理过程被置于端侧,而无需上云,故无延迟,体验一流。
GPU的切片架构和无网通信
历代骁龙移动平台的升级重点,除了CPU、NPU和ISP之外,还包括GPU和Modem。
其中,GPU是骁龙旗舰移动平台的传统强项模块,因之业界号称骁龙移动平台是买GPU送CPU。
也许是技术品类太多,高通这次还是没有为骁龙8 至尊版的新一代Adreno GPU取一个响亮的营销名称。
骁龙8至尊版的全新Adreno GPU首次采用切片(slice)架构——将着色器核心和其他固定功能块分成不同的切片:共分三组,每组频率都是1.1GHz(上代为900MHz),三组接受指令处理器(Cammand Processor)的统一调度。
当渲染复杂场景时,可以直接在GPU上存储12MB数据(图形缓存),减少向骁龙8至尊版内存发送额外图形数据(RAM),延迟相应也更低,故应用运行更流畅、电池寿命更长、图形更清晰,3D环境也更逼真。
这种设计思路与英伟达的GPC/TPC/SM分层结构、AMD的CU计算单元,英特尔的渲染切片(Render Slice:Xe-GPU架构的核心组件)类似。
其中,英特尔的Render Slice,包含4个Xe-Core和1个光线追踪单元,以及其他一些IP,如几何管线、光栅化管线、采样器和像素后端等,构成英特尔Arc GPU的基础。
通过这种设计,骁龙8至尊版允许使用更动态的资源分配、更高的时钟速度和更好的负载平衡,还能通过关闭切片降低功耗。
据高通给出的数据,与上代Adreno GPU相比,这次推出的新GPU性能提高40%,能效提高40%,光线追踪性能提高35%(得益于升级后的Snapdragon Elite Gaming技术)。
所谓光线追踪(简称光追),通俗说,就是模拟各种光线效果。比如反射和折射、散射和色散等现象,为手游带来栩栩如生的光线、反射和照明效果,实现更接近真实环境光的精致游戏画面。
为了提升游戏体验,骁龙8至尊版也像骁龙8Gen 2那样,将虚幻引擎5(Unreal Engine 5)的一项核心能力——Nanite解决方案首次引入端侧移动平台,同时将虚幻引擎5升级到5.3。骁龙8Gen 2曾在端侧引入虚幻引擎5的metahuman框架。
Nanite解决方案,允许开发者在游戏和实时渲染项目中,使用高多边形模型而对性能造成显著影响;metahuman框架则致力于创建逼真的数字人类角色。
通过Nanite采用全新的虚拟几何系统(Virtualized Geometry System),能使低端机器也可以运行复杂的大模型。这对于提高游戏和实时渲染项目的可访问性和性能至关重要。
这个系统的可贵之处在于其非常智能,能做到只处理并渲染人眼能观察到的细节,并采用高度压缩的数据格式,从而大大减轻渲染压力。
注意到,本代Adreno GPU依然仅支持OpenGL ES 3.2和Vulkan 1.3,与骁龙8Gen 2完全一样,作用是提升手机对大型手游的图形处理效率。
在通信连接方面,骁龙8至尊版支持AI增强5G和Wi-Fi连接的移动平台,集成骁龙X80 5G基带及射频系统,也就是第二代5G AI处理器。
骁龙80 5G基带拥有多项行业第一:首次支持下行6载波聚合、首次支持6个Rx接收器路径、首次支持AI/5G-A融合、首次支持AI多天线管理、首次支持CPE AI增强通信和首次支持NB-NTN(非地面网络)卫星通信。
小米15 Pro用的就是骁龙8 Elite,还首次搭载小米星辰通信系统,能让手机在完全没有网络的情况下,实现半径3.5公里内的双向通话。这个功能,与骁龙8 Elite的支持NB-NTN(非地面网络)卫星通信技术——允许在没有地面网络覆盖的地区实现通信连接,是不是很像?