12月初,亚马逊云科技一年一度的re:Invent大会在美国拉斯维加斯大会召开,来自世界各地的超6万名参会者,他们脖子上佩戴着不同颜色的牌子,穿梭于各个会场之间。
re:Invent大会一直就以务实著称,但这一届发布的产品之多,连很多连续参会的资深专家都感觉到信息过载——仅仅在三天时间里,亚马逊云科技CEO Matt Garman与高级副总裁Peter DeSantis、AI和数据副总裁Swami博士就发布了超过30+新品,涵盖推理芯片、AI服务器、大语言模型、生成式AI开发工具等等。
在亲身感受这些密集的产品发布过程,可以清晰地提炼出亚马逊云科技开会和演讲的套路,那就是——在服务客户过程中我们发现了XX问题,于是我们就推出了XX工具,非常简单直给。
作为亚马逊云科技最早、也是应用最深入的客户,亚马逊CEO Andy Jassy时隔多年再次亮相re:Invent,这次他不仅一口气发布了6款Amazon Nova模型(包括4款基础模型,1款图像生成模型和1款视频生成模型),更是作为亚马逊云科技最早、也是应用最深入的客户(据他透露,亚马逊内部已构建或正在构建近1000个生成式AI应用程序),他分享的关于亚马逊应用AI的三个核心问题——选择、成本和需求,完全可以作为理解本次大会的基本逻辑。搞懂了这三个问题,再看这30多个产品发布的背后思路就很清晰了。
更自由的选择
“当你尝试构建某些东西或者做决策时,常常需要在A和B之间做选择吗?这种选择其实限制了你的思路。在亚马逊云科技,我们不这么思考问题。”亚马逊云科技一年一度的re:Invent大会上,亚马逊云科技CEO Matt Garman在主题演讲时,这样表达了对技术应用的理解。
Matt认为,“做选择”实际上制造了虚假边界,“让你马上开始想自己必须选A或者选B,但我们推动团队去思考如何同时达成A和B,就可以让大家换一种方式思考”。
在Matt眼中,开发者与客户永远有选择最优产品的权利。这是亚马逊云科技成立时秉承的理念,无论是一两百款EC2,还是上百款数据库——亚马逊云科技一直都认为,客户的需求大于一切,那么需求的多样性就决定了选项的多样性。
亚马逊云科技愿景文件撰写于2003年。彼时,众多科技公司纷纷构建捆绑式的解决方案,试图大包大揽。最终形成的是庞大而单一的解决方案,虽功能全面却仅达合格水准。但合格不应是追求的终点,人们真正渴望的是最优组件。若能将所有顶尖元素整合一体,那才堪称完美。“基于此念,亚马逊云科技应运而生。”Matt说。过去18年,灵活的技术构建模块,也成为亚马逊云科技服务逐渐向上的执念。
这一理念也表现在时下热议的大模型服务上。“在亚马逊内部构建项目中所使用模型的多样性令人惊讶。给予了开发者自主选择的权利,原本以为大家都会选用Anthropic的Claude模型,毕竟过去一年多它在全球属于性能顶尖的模型,确实有很多内部开发者在使用Claude模型,但他们也会采用Llama模型、Mistral模型,甚至会使用自行研发的模型。”Andy Jassy演讲时谈及亚马逊落地生成式AI的经验,“因为一直都在汲取同一个教训,那就是永远不会出现一种工具能在某个领域一统天下的情况。就像数据库领域,探讨了10年,大家会使用各种各样的关系型数据库或者非关系型数据库;就像大数据领域讨论了很久是不是TensorFlow会一统天下,结果PyTorch更受欢迎。”
Amazon Bedrock Marketplace是Swami博士在现场发布的其中一款新品。这是一个拥有100多个领先大模型的“市场”,Amazon Bedrock中的统一体验极大简化模型开发工作流程,给用户带来了前所未有的灵活度,将让模型推理从“非A即B”的选择达到成本与延迟的“微妙平衡”。
“对一个因素的优化通常需要对另一个因素进行妥协,这是因为成本和响应延迟与道德准确性呈反比关系,因为功能更强大、高度智能的模型会消耗更多的资源。”Swami博士讲述从客户了解到的需求。而在更新的Bedrock上,新模型蒸馏功能,使得用户可以将特定知识从更大、更准确的模型转移到更小、更高效的专业模型,使其速度提高500%,成本降低75%。
但是多元化的选择,也难免面临一些天然存在的竞合关系,比如亚马逊云科技在向客户提供模型市场、模型开发平台的同时,也推出了自己的基础模型。不过,亚马逊云科技一直以来都是开放性的看待这种竞合关系。
对于亚马逊云科技的模型策略,Andy Jassy做了这样的回答:“我们一直以来的目标就是为大家提供选择,现实情况是,大家在不同的时间、出于不同的原因,都会使用不同的模型。
这其实反映了现实世界的运行规律。就好比人类不会只找一个人去获取各个领域的专业知识一样,不同的人在不同的方面各有所长。有时候大家会侧重于优化编码,有时候关注数学,有时候看重与检索增强生成(RAG)的集成,有时候聚焦智能需求,还有时候在意更低的延迟或成本问题。大多数情况下,是各种因素的组合决定的。
在亚马逊云科技,我们会为大家提供这些因素组合之后,满足需求的选择。我们认为,最近又为这个组合增添了一些非常有趣的模型。好消息是,所有这些模型都能在Amazon Bedrock中使用,大家可以按照自己期望的任何组合去使用它们,进行试验,并根据情况做出相应的调整。”
可接受的成本
云计算的成本问题,一直是Matt最为关心的问题。
2018年,亚马逊云科技曾经做过一个疯狂且颇具争议的决定:开发自己的芯片。即Amazon Graviton,以期在ARM内核变得越来越快、越来越强大的背景下提供差异化价值。现在,Amazon Graviton被几乎每个亚马逊云科技客户广泛使用。Amazon Graviton提供比x86高40%的性价比、减少60%的能源消耗,也极大缩减了云计算成本。
以图片分享网站Pinterest为例。在转向Amazon Graviton之前,Pinterest运行着数千个x86实例来运营他们的业务。转向Amazon Graviton之后,Pinterest将计算成本降低了47%,碳排放减少了62%。“他们并不孤单,90%的前1000个Amazon EC2客户都开始使用Amazon Graviton。”Matt说。
现在,生成式AI时代来了,当下最大的计算问题都与AI相关。虽然与NVIDIA有着长达14年的合作关系(搭载NVIDIA新Blackwell芯片的Amazon EC2 P6服务器将于明年年初推出),也是NVIDIA的大型生成式AI集群场所,但GPU依然成了亚马逊云科技为计算降本的新目标:推出一款专为尖端生成式AI训练和推理这类高要求工作负载而设计的GPU。
会上,亚马逊云科技最强Amazon EC2 Trn2计算实例发布。配备16个Trainium2芯片,一个Amazon EC2 Trn2实例可在单个计算节点提供20.8 petaflops的计算能力,Amazon EC2 Trn2实例提供比当前GPU服务器高出30%到40%的性价比,这些芯片通过一种称为NeuronLink的高带宽、低延迟互连连接在一起。
AI大模型公司Anthropic联合创始人兼首席计算官Tom Brown12月2日在re:Invent演讲时当场宣布,下一代的Claude模型将在Project Rainier上进行训练,他表示这将是一个新的计算集群,拥有数十万个Amazon Tranium2芯片。优化完成后,该集群预计将成为迄今为止世界上最大的AI计算集群,可供Anthropic构建和部署其未来模型。
“数十万个芯片意味着数百个密集的亿次浮点运算,比我们曾经使用过的任何集群都多五倍以上。这意味着客户将可以更低的价格、更快的速度获得更多的智能。有了Amazon Tranium2 和Project Rainier,我们不仅仅是在构建更快的人工智能,还在构建可扩展的、值得信赖的人工智能。”Tom Brown表示。
Andy Jassy在演讲时也多次谈及“成本”,他认为当生成式AI应用程序达到一定规模时,计算成本的重要性就凸显出来了,大家都迫切希望获得更高的性价比,即既能控制好延迟,也要具备合理的成本结构。据他观察,从全球范围来看,那些应用AI最为成功的公司,主要体现在成本规避和生产力提升方面,而且很多公司在这两方面都取得了进展。但亚马逊云科技的成本控制,是体现在整场的产品创新上,而非简单的价格。
需求导向,实用AI
如果一定要给亚马逊云科技的AI战略做一个定义,需求导向的实用AI或许更为精确。
“很多时候,人们用上不错的模型做了些工作,就以为打造出很棒的生成式AI应用程序了,但实际上可能只完成了大概70%的工作,而客户不会喜欢存在那30%问题的应用程序。”Andy Jassy表示。以亚马逊自己为例,加入生成式AI这个“智慧大脑”之后,亚马逊聊天机器人客户满意度提升了500个基点,“这就是实用AI的体现。”Andy Jassy说。
客户至尚和逆向工作法,是亚马逊云科技DNA的一部分。亚马逊云科技创业初期,由于合规性、审计、监管、安全、加密等考量,大部分的银行客户表示愿意采用云计算,但称可能永远不会上云。亚马逊云科技没有放弃这些金融客户,而是接下来花了十年来解决银行客户清单上的每一个问题。“今天,我很自豪地说,许多大型金融公司都是我们的客户。因此,当你在创新时,重要的是要记住,你真的要从客户开始。你要问他们什么对他们重要,但你不仅仅是交付客户要求的东西。你要为他们发明。”Matt说。
AI时代也是同理:要为客户发明好用的AI工具。
会上,Swami博士发布了新一代Amazon SageMaker。从功能上看,SageMaker AI与客户的数据强相关,是一个集合了数据调用、数据分析、大模型训练的一站式平台,定位上发生了重大的变化。
“许多客户向我们反馈,他们的分析和AI工作负载越来越多地围绕相同的数据和相同的工作流程进行融合。这正在改变其对分析服务的看法,因为事实证明,他们不再仅仅孤立地使用分析和AI工具,他们正在使用历史分析数据来训练机器学习模型,并且越来越多地将相同的数据纳入其生成式AI应用程序中。”Matt谈及从一个客户案例中获得的启发。这也不难理解,因为数据才是企业的核心资产,才是差异化的竞争力,而非模型,将企业绝对优势的数据和大模型整合在一个平台上,才会有优势。