【ITBEAR科技资讯】5月15日消息,近日,OpenAI发布的新一代AI模型GPT-4o,该模型能实时进行音频、视觉和文本推理,立即引发了业界的广泛关注。对此,360集团创始人、董事长周鸿祎也通过视频分享了自己对于GPT-4o技术原理及潜在社会影响的理解。
周鸿祎在视频中首先解析了GPT-4o的技术原理。他提到,OpenAI在发布会上简要介绍了其技术原理,这一技术并非传统地将语音翻译成文字处理后再翻译回语音,而是直接处理语音,构建了一个综合的大模型引擎,能够直接理解语音输入,包括语音中的情绪、语调、口音等细节,并能以语音形式直接输出。
据ITBEAR科技资讯了解,GPT-4o带来的全新体验中,响应时延大约只有300毫秒,已经达到了人类间自然对话的速度。这不仅能让人工智能听懂我们话语中的情绪,还可以在回答问题时表达出高兴、悲伤、失望、兴奋等复杂的情绪。
此外,周鸿祎还强调了GPT-4o的另一项重要功能,那就是可以直接通过手机摄像头获取视觉信息,从而大大提升了其视觉处理能力。他认为,尽管这一功能可能尚不及Sora,但相较于GPT-4.5只能处理图片和表格的输入,GPT-4o无疑又向前迈进了一步。
在周鸿祎看来,GPT-4.0为人工智能赋予了理解知识的能力,如同拥有了一个大脑;GPT-4.5则为其增添了一些初级的视觉能力;而GPT-4o,无疑是为其增加了能够真正理解世界、听懂人言、并自由表达情感的“眼睛”和“耳朵”。
周鸿祎提到,尽管有些人对OpenAI没有推出GPT-5.0感到失望,但通用人工智能的发展并不仅仅是在推理能力、知识能力、逻辑能力上赶超人类,更重要的是要提升其与人交互的能力。当AI能通过手机或物联网摄像头更好地理解世界,并能以接近人类的响应速度进行交互时,这将使人工智能更加接近真人,其影响将是深远的。