【ITBEAR科技资讯】7月31日消息,OpenAI于当地时间7月30日公布,即日起启动GPT-4o语音模式(Alpha版)的初步测试,对部分ChatGPT Plus用户开放,计划在今年秋季将该功能全面推送给所有ChatGPT Plus的订阅用户。
这一全新的语音模式是建立在GPT-4o模型基础上的,该模型是OpenAI最新的跨文本、视觉和音频的端到端统一模型。OpenAI的首席技术官米拉・穆拉蒂在早前的演讲中阐述,GPT-4o的独特之处在于它使用一个神经网络处理所有类型的输入和输出,无论是文本、图像还是音频。
据ITBEAR科技资讯了解,GPT-4o作为公司首个集多模式于一体的模型,目前仍在探索其功能与限制的初级阶段。原定于6月底的GPT-4o语音模式测试因需进一步完善模型和提高内容过滤能力而被推迟。此次推出的语音模式旨在显著减少语音反馈的延迟,提升对话的流畅性,为用户提供近乎无缝的交流体验。
先前的数据显示,GPT-3.5模型的语音反馈平均延迟为2.8秒,而GPT-4则达到了5.4秒,这对于语音交流来说显然不够理想。然而,GPT-4o语音模式的推出预计将极大地改善这一状况。
此外,OpenAI发言人林赛・麦卡勒姆强调,新推出的GPT-4o语音模式不仅反应迅速,声音自然,更能感知语音中的情感语调,如悲伤、兴奋甚至是歌唱。同时,她也明确指出,ChatGPT不会冒充他人声音,系统会阻止与预设声音不符的输出,以确保使用的合规性和安全性。