钛媒体App 10月25日消息,钛媒体App独家获悉,AI 大模型领域的独角兽MiniMax将于今年11月发布对标GPT-4o的Realtime API服务,将提升端到端实时多模态处理能力,并带来更低延时、更自然、更沉浸的实时语音对话,为企业协作、社交、直播、游戏等多种场景提供服务。
这是MiniMax推出的首款端到端实时语音对话产品。消息人士告诉钛媒体App,内部正在打磨这款产品,并非常希望11月发布时产品效果直接对标OpenAI GPT-4o。
据悉,今年5月,OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o,可实时进行音频、视觉和文本推理,它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。在API使用方面,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半(50%),速度提升两倍(200%)。
OpenAI CEO奥尔特曼(Sam Altman)在推文中表示,新的GPT-4o是OpenAI有史以来最好的模型,它很智能,速度很快,是原生多模态,并且它可供所有ChatGPT用户使用,无论是免费版本还是付费GPT-4版。
今年10月,实时语音技术公司、声网的兄弟公司Agora作为语音API合作者出现在了OpenAI 发布的Realtime API 公开测试版中。而MiniMax也看到了机会,开始与声网进行合作,声网创始人兼CEO赵斌在RTE 2024 第十届实时互联网大会上表示,声网与MiniMax正在打磨中国第一个Realtime API,基于该API的智能体产品,能够与人类进行轻松且流畅的实时语音交流。
除了MiniMax,目前包括科大讯飞、智谱AI、商汤科技等中国企业都在研发生成式AI对话产品,均与GPT-4o效果不相上下,OpenAI近期也开放了ChatGPT-4o对话功能。
根据艾瑞咨询的统计,2021年,对话式AI的市场规模为45亿元,带动规模126亿元。预计2026年,对话式 AI 市场规模将达108亿元,带动规模超385亿元,五年复合年均增长率(CAGR)达32.5%。