【ITBEAR科技资讯】5月14日消息,OpenAI于今日凌晨的发布会上,揭晓了其最新升级的全能型大模型GPT-4o。GPT-4o中的“o”取自“omni”,该词源自拉丁语“omnis”,意为“全能”,在英文中常用作词根,表达“全部”或“所有”的涵义。
这款新模型显著提升了处理速度和质量,能够实时对音频、视觉及文本信息进行推理分析,并支持超过50种语言。相较于前代模型,GPT-4o的反应速度大幅优化。以往GPT-3.5的语音对话平均延迟为2.8秒,GPT-4为5.4秒,且在音频输入时,由于处理方式的问题,会丢失大量信息,例如笑声、歌唱声以及情感表达等都无法被识别。然而,GPT-4o仅需232毫秒即可对音频输入作出响应,这一速度已与人类在对话中的自然反应时间相近,这无疑是对传统“语音助手”概念的一次深刻革新。
据ITBEAR科技资讯了解,GPT-4o更引入了全新的交互模式,可接受文本、音频和图像的组合输入,并能生成包含文本、音频和图像的任意组合输出,这种人机交互方式无疑更加自然且全面。GPT-4o的能力将向免费用户开放,但会设定一定的使用量限制。当免费用户达到使用限额后,系统将自动切换回GPT-3.5。
同时,OpenAI还针对开发者推出了GPT-4o的API,其价格仅为GPT-4-turbo的一半,而速度却是后者的两倍,速率限制也提高了五倍。这无疑将大大降低开发者的成本,同时提高效率。
OpenAI还宣布,GPT-4o将在未来几周内逐步向公众开放。此外,公司还推出了ChatGPT的桌面版应用,尽管目前仅支持MacOS,但Windows版本也已在紧密筹备中,预计将在不久后亮相。这一系列创新无疑将进一步推动人工智能的普及和应用。