Fireworks AI 专注于人工智能的推理部分,其工具帮助企业微调和定制模型以满足特定需求,允许企业使用其平台访问 100 多个模型。
图源:Fireworks AI
创始人兼 CEO 乔琳毕业于复旦,是加利福利亚大学圣巴巴拉分校的计算机科学博士,曾是 meta Pytorch 的负责人,在 LinkedIn 及 IBM 有过技术工作经验,团队成员内大多来自 meta、Google 等大厂,华人成员超 1/3。
Fireworks AI 选中了小而美的赛道,定制 FireAttention 推理引擎,与开源的 vLLM 相比,推理时间缩短 12 倍,降低使用成本,获得众多资本青睐。
Fireworks AI 成立于 2022 年 10 月,于 2024 年 7 月 8 日获投 5200 万美元 B 轮融资。该轮由红杉资本领投,Benchmark、NVIDIA、Databricks Ventures、Howie Liu、前 Snowflake CEO Frank Slootman、AMD、Scale AI 首席执行官 Alexandr Wang、前 meta 首席运营官 Sheryl Sandberg、MongoDB 跟投,截至本轮,Fireworks AI 估值 5.52 亿美元。
推理速度提升 12 倍
Fireworks AI 认为,人工智能的未来将是复合 AI 系统,使用各种交互部分(多个模型、模态、检索器、外部工具、数据)来处理任务。
例如,电子邮件公司 Superhuman 在其平台创建的 Ask AI 就是一个复合 AI 系统,用户只需要在收件箱里提出问题,不需要猜测关键词或搜索邮件就能获得响应。
复合 AI 系统是多模型调用、检索器与外部工具的系统,也是 Fireworks 致力于达到的目标。
红杉资本评价:" 专业地构建高性能推理堆栈、创新地实现复合 AI 系统,Fireworks AI 正在给开发人员提供以前只有科技巨头才能获得的 AI 解决方案。"
一方面,Fireworks 击中了企业务实的需求。当前,Fireworks 为开发者、企业提供大模型微调、推理和部署等服务。在模型推理方面,Fireworks AI 就像一个专业团队为企业提供成熟的解决方案。
细分场景中,企业使用的大模型通常需要进行一定程度的微调(fine-tuning),提升模型在任务上的表现。尽管大模型在通用任务上表现出色,但通过微调,企业可以更准确地解决自己的问题。
Fireworks AI 平台中允许用户通过 API 访问超过 100 种不同的模型,包括大语言模型、图像生成模型、音频、嵌入和多模态模型,企业通过这些模型进行微调和部署,从而将 AI 用于实际业务场景中。
Fireworks AI 能让各类公司,尤其是缺乏 AI 硬件、基础设施的企业低成本、高效地利用模型推出产品。在平台内,企业用户也可以用平台内有效工具将数据融入多种模型中进行产品测试。
另一方面,开源的工具和方案虽然免费易得,但 Fireworks AI 能让部署和推理更具性价比。为此,他们提供三个方面的服务。
一是无服务器(Serverless)模型。他们定制了 CUDA 内核的 FireAttention 推理引擎,在不牺牲质量的前提下,使模型推理速度比 vLLM(开源的大语言模型推理与服务引擎)快四倍。FireAttention V2 对于用于 RAG、多轮推理和多模式应用的长上下文提升,推理速度提高 12 倍。
图源:Fireworks,FireAttention 领先 vLLM,在 fp8 模式下约为 12.2 倍
" 可以是现成的开源模型,可以是我们调整的模型,也可以是客户自行调整的模型,这三种类型都可以通过我们的推理引擎 API 提供服务," 乔琳描述。
官网显示,Fireworks AI 为 100 多种模型提供极快的推理速度,及时推理广泛使用和特定领域专用的 AI 模型,如 meta Llama 3.1、Mixtral MoE 8x22b、Stable Diffusion3,针对延迟峰值、吞吐量和上下文长度进行了优化。而且,Fireworks 和英伟达一同成为首批接入零一万物 Yi-Large 大模型的美国主流平台。
图源:Fireworks
二是微调。据 TechCrunch,Fireworks AI 并不是从头开始训练基础模型,而是帮助微调其他模型以满足企业特定需求。2024 年 3 月,Fireworks AI 宣布推出微调服务,可以为包括 Mixtral 在内的 10 种模型提供 LoRA 微调服务。
此前,Stability AI 使用其分布式推理服务将 SD3SD3-turbo 推向市场,将图像处理速度提升至 0.37 秒 / 幅。
速度能提到多快?从另一案例来看,Cursor 公司使用其推测解码 API 构建了 " 快速应用 "(Fast Apply)功能,通过部署特定的微调模型结合推测解码技术,实现每秒 1000 个 tokens 的处理速度,比传统方法 Llama-3-70b 快了约 13 倍,比 GPT-4 推测编辑部署快约 9 倍。
值得注意的是,该平台将模型大小限制在 70 亿至 130 亿参数之间,减少计算资源的消耗,从而降低使用成本。尽管小模型没有大模型的知识范围广泛,但更适合处理特定场景的企业。因为其可以通过定制化的数据集和模型优化提升精确度。
乔琳表示:" 类似规模的模型(70 亿到 1000 亿参数的模型)在质量上可能会趋同,未来的关键在于,如何根据个人使用场景和工作负载定制这些模型。定制化将成为区分不同 AI 解决方案的主要因素,而不是模型的规模 "。
8 月的公告称,该公司与 Cursor、Superhuman 等个别客户合作,根据具体用例定制量化方案。
三是按需部署,让客户在 Fireworks 私有的 GPU 上运行文本模型,按秒计费。
它将自己定位为生产级基础设施,已通过 SOC 2 Type II 和 HIPAA 的合规性评估,用户可在其中按需使用。
据官网 Blog,他们推出按需(专用)部署,让开发人员可以配置自己的 GPU,这些 GPU 在专有的 Fireworks 服务堆栈(FireAttention)上运行,能让一个 H100 相当于三个 H100 在 vLLM 的吞吐量,同时速度提高约 60%。
速度上去了,价格下来了。Fireworks AI 强调,在相同配置的情况下,提速的同时,使用成本大幅降低,他们能给客户更具竞争力的价格。如,同样的 Mixtral 8x7b 模型中,通过减少 GPU 总数,切换到 7.79 美元的 Fireworks H100,该平台能节约 53% 左右的费用。
图源:Fireworks,在 Fireworks 运行 GPU 与使用 vLLM 配置 GPU 的成本对比
于开发者而言,Fireworks AI 提供了一种更灵活的方式,让他们能使用定制、小规模的模型,而不是资源密集型的完整版。正如他们的口号:" 从通用 AI 到专业 AI。"(Go from generic to specialized AI)
它可以被视为一个模型托管平台。开发人员可以接入 API 使用选定的模型来训练数据,添加生成式 AI 功能。6 月初,Fireworks AI 推出定制模型,允许开发者导入和使用来自 Hugging Face 的预训练模型,利用平台优化。
据悉,Fireworks 提供了许多开源项目所不具备的自动化服务,包括自动调整复杂性和性能优化,简化开发过程。
以上这系列生成式 AI 服务都需付费,除了企业方案外,从 Serverless 文本模型推理、图像生成、微调服务到按需的 GPU 推理等 Fireworks 都将按需收费。其中,开发人员可以最多部署 100 个模型。
7 月 11 日在获得 B 轮融资时,Fireworks 表示,他们与 vLLM 相比推理时间缩短 12 倍,与 GPT-4 相比缩短 40 倍,平台每天处理 1400 亿个令牌,API 正常运行时间为 99.99%。合作伙伴有初创 Cursor、Liner,也有数字巨头 DoorDash、Quora 等。
Fireworks 供应商包含 MongoDB、meta、Mistral、NVIDIA、AMD、AWS、Google 和甲骨文 Oracle Cloud,其中多数也是本轮的投资者。
复旦才女领队,华人超 1/3
在震撼的 Mixtral MoE 8x7B 正式发布前 2 天,Fireworks 就是第一个托管它的平台,给大模型的朋友圈留下深刻印象。凭借优化性能的成果和开发者推荐的技术积累,Fireworks 在行业中的地位逐渐提升。8 月 15 日,Fireworks 登上福布斯 " 下一个十亿美元创业公司 " 榜单。
其背后的技术团队实力不容小觑,只有 27 人,多数来自 meta、Google、AWS、Zillow、Wayfair、Plaid 等公司,其中华人面孔占相当比例,超过 1/3。并且,创始团队及工程师是前 meta Pytorch、Google Vertex AI 的核心成员,其中就包括前 Vertex AI 主管赵晨宇。
创始人及首席执行官乔琳(Lin Qiao)曾任 Pytorch 的负责人。她本硕毕业于复旦大学计算机科学专业,是加州大学圣巴巴拉分校 CS 博士。
图源:领英
乔琳拥有优秀的工作履历和出色的软件工程经验,她在 IBM 硅谷实验室担任过顾问软件工程师,曾任 LinkedIn 技术主管,也是前 meta 的高级工程总监,领导过 300 多名 AI 框架和平台的世界级工程师。
她在创立 Fireworks 前 5 年,一直与现公司联合创始人兼 CTO Dmytro Dzhulgakhov 共事。Dmytro 在哈尔科夫理工学院读研期间两次入围 ACM ICPC 世界决赛,是前 meta 的技术主管,Pytorch 的核心维护者以及 Caffe2 深度学习框架的核心开发人员。
在 meta 从业,乔琳明显能感受到的挑战是简化复杂性。乔琳在领英中描述这段职业经历是:" 我们已在所有 Facebook 数据中心、数十亿移动设备和数百万 AR/VR 设备中广泛构建部署了 Caffe2 和后来的 Pytorch"。不同类型设备的部署方式完全不同,所以在她看来,哪怕一秒钟的数据延迟都将带来极大影响。
Pytorch 是 meta 推出的深度学习框架,已成为主流,被用于训练计算机视觉的 AI 模型如特斯拉的自动辅助驾驶、SD 生图和 OpenAI 的 Whisper 等。与 Pytorch 一样,Caffe2 也是一个兼具灵活性和可扩展性的深度学习框架。这两类框架与 Fireworks 能简化开发流程、提升效率密切相关。
在红杉的访谈中,乔琳回忆,她曾清楚地看到了 Pytorch 的 " 漏斗效益 ",从最初作为研究人员的工具,变为更多通用 AI 模型的运行框架。
在 meta 时,她与团队在寻求一种方法,让用户体验变得简单,隐藏起在后端复杂的内容。她与团队延续理想主义的想法,Pytorch 前端 +Caffe2 后端,搭建了 PyTorch 1.0。原以为将 Pytorch 替换其他框架作为库是一个简单的半年项目,而这实际花费了乔琳团队 5 年时间。
考虑到高效的数据加载和有效的 Pytorch 分布式推理、扩展训练,他们必须从头开始重建整个堆栈。" 它每天维持超过 5 万亿次推理,是一个巨大的规模 ",最终在乔琳团队离开时,Pytorch 成效显著。
Pytorch 因简单易用且功能强大为开发者所喜爱。有开发人员解释:" 简单理解深度学习,就是用算法将数据训练到模型里存起来。自己用 C 语言写可以实现,用 Pytorch、TensorFlow 这样的框架也可以实现。这 Pytorch 就是 Python 的库,开发者要训练模型,只需要去调用一个一个‘方法’即可,不用自己实现复杂的算法。"
与 Pytorch 的设计思路类似,Fireworks 旨在做到为用户提供创新的复合 AI 系统,一种 " 开箱即用 " 的开放式模型,能通过微调和自定义部署实现定制能力,减少用户需考虑的复杂性。
据介绍,复合 AI 系统的 agent 使用 LLM 来完成单个任务,并共同解决复杂问题,这种方式允许开发者用最少的编码创建多回合、多任务的 AI 代理工作流,降低成本和复杂性。
乔琳表示:"Pytorch 花了 5 年时间,而 Fireworks 的使命是加速整个行业的产品上市周期,将其从 5 年压缩到 5 周,甚至是 5 天。"
此外,她在 2022 年创立 Fireworks 时就意识到:" 我们看到了 AI 行业中正在经历第一次转型的公司,无论规模大小都正承受痛苦,源于没有合适的人才、专业知识不足、缺乏软件堆栈集、升级 GPU 的窘迫。" 她想要打破这一矛盾。
在她看来,低延迟、高质量反馈是众多客户的要求。早期阶段的 GenAI 公司找不到契合市场的产品,而随时间推移,已经有一个明确的趋向,那就是定制化的小模型,从大模型到专业模型的演变。
GenAI 与传统 AI 有显著不同,它不需要从头训练模型,使得通过小规模、高质量的数据集进行模型调整成为可能。资源消耗降低,更多公司和个人可以使用这项技术,从而 GenAI 的普及度也得到提高。
于是乔琳创立 Fireworks,将其作为一个 SaaS 平台用于 AI 推理和高质量调优,实时应用程序使用其小模型堆栈可以获得低延迟,企业也可在其中定制高质量服务。
她表示,Fireworks 在未来 5 年想要构建一个提供全面知识访问的 API。目前他们已经提供超 100 个模型,涵盖大语言模型、图像生成、音频生成、视频生成等,而这些模型所涵盖的数据有限,大量信息隐藏在无法访问的公共 API 之后。为克服这一限制,Fireworks 致力于创建一个层来混合不同模型的公有 / 私有 API,实现对知识的全面访问。
乔琳打了个比方:"OpenAI 正在提供专家的混合体,它有一个路由器,坐在几个非常强大的专家之上,每个专家各司其职。而我们的愿景是,建立一个混合专家,它能接触到数百名小专家,但他们更敏捷、解决特定问题的质量更高。"
" 掘金卖铲 " 的百亿市场
乔琳在攻破 " 专注于简单性 " 的大关前,meta 有三个不同的深度学习框架,Caffe2(用于移动设备)、ONNX(用于服务器端)以及 Pytorch(用于研究),2018 年 5 月,Facebook(现 meta)正式公布 Pytorch1.0,允许开发人员从研究转向生产而无需迁移。
这三类框架与另一位 AI 大神关系匪浅,那就是 Facebook 之前的 AI 工程开发主管贾扬清。
"Caffe 之父 " 贾扬清是 Pytorch1.0 共同负责人之一,同时也是神经网络标准 ONNX 的创始人。从重合的履历线来看,2018 年他与乔琳在三类框架成功的基础上,共同领导创建了 PyTorch 1.0。
在《人物》的访谈中,贾扬清提到,可扩展性、轻便、增强计算模式、模块化设计这四个因素是 Facebook 深度学习领域努力的方向。另外,他表示,AI 工程化的本质就包括了云原生化、规模化和标准普惠化。正如他加强开源框架的普适性和易用性,加速框架对实际应用的效果。
" 未来可能不会出现大一统的深度学习框架,曾经 TensorFlow 的出现解决了大规模系统的问题,而当超大规模系统用起来不方便时,开发者就会思考如何用更像 Python、更容易迭代的方式做算法开发和迭代,Pytorch 应运而生," 贾扬清说," 解决上层 AI 应用、科研时的问题才是更为重要的一点 ",解决 GenAI 应用复杂问题,加速开发。这与乔琳 Fireworks 的创业思路如出一辙。碰巧的是,他们的创业公司走入的也是同一赛道。
2023 年 7 月,meta 的前 Pytorch 工程主管 Soumith Chintala 发推表示,他发现 Pytorch 前员工创办了一家机器学习基础架构公司 Fireworks AI。同时,他艾特了贾扬清,表示他离开了阿里也创办了另一家 ML Infra 公司。
图源:Twitter
Soumith、贾扬清、Dmytro 三人曾共同参与 2017 的机器学习顶会 NIPS,分别讲演 meta 的三个深度学习框架。有人以为会是贾扬清创业和 Dmytro 造一个 Caffe3,没想到的是,Dmytro 去了 Fireworks,贾扬清和 ONNX 的联创、etcd 的创始人成立了 Lepton AI。
在 ChatGPT 引起 AI 浪潮的年头,贾扬清没有选择大模型,而是选择了它背后的生意,帮企业部署模型。跟 Fireworks 一样,Lepton AI 提供算力、模型和服务,包括通用模型的 API、平台服务、对模型微调和部署的服务。
Lepton AI 的产品经理鱼哲强调,他们的定价目的是确保用户直接购买现成的解决方案比自己做更划算。从单项价格来看,相同模型的服务,Lepton AI 甚至优惠一些。
图源:Fireworks、Lepton AI 定价页面对比
有分析指出,AI Infra 做的就是 " 掘金卖铲 " 的生意,给大模型训练、部署和应用时提供的基础设施。AI 应用的市场有多大,AI Infra 的机会就有多大。
据 Precedence Research 数据,AI Infra 的市场规模还将不断增长,预计亚太地区增速最快,在 2024 年亚太地区达到 139 亿美元的市场规模,而北美地区则占据最大的市场份额。
图源:Precedence Research
未来,随着各行业公司领略到 AI 提升生产力的优势,将会有更多强大的 AI Infra 来服务他们应用的开发。