近期,生成式AI领域迎来了多项重要进展,各大科技公司纷纷推出创新产品和技术,引发了广泛关注。
OpenAI在最近的活动中推出了ChatGPT Projects,这一平台被视为一个万能工具箱,集成了文件上传、对话管理以及实时协作等多种高效工具。用户不仅可以通过平台自定义指令,还能集成网络搜索和Canvas等工具,从而满足个性化的工作需求。OpenAI透露,他们的长期目标是将其发展为企业级应用,提供ERP、CRM等管理功能,进一步拓展至企业用户。
与此同时,OpenAI还推出了类似电影《她》(Her)中的实时视频对话功能,并命名为OpenAI版「Her」。这一功能新增了视频聊天、屏幕共享,以及圣诞限定的圣诞老人语音。高级语音模式支持多模态交互,提供自然的对话节奏和多语言情感表达,这对于教学和协作场景尤为适用。然而,谷歌Gemini 2.0的实时AI功能被认为更为先进,OpenAI在这一领域面临着不小的竞争压力。
微软方面,他们推出了最新的小模型Phi-4,尽管其参数仅为14B,但在数学和编程能力上却超过了Llama 3.3和GPT-4o等大型模型。Phi-4采用了新的训练范式“midtraining”,显著提升了长文本处理能力,窗口长度可达16K。这一新范式通过引入长文本数据和对比学习方法,有效提升了模型的推理、知识和编程能力。
在图像和视频转换领域,Pika 2.0也推出了新功能,可以根据图片和提示词生成无缝的视频场景。这一功能特别适用于电商场景,商家可以将服装、产品等照片与特定环境结合,生成高质量的视频,从而吸引更多消费者。
谷歌与三星联合发布了首款MR眼镜,这款眼镜集成了强大的AI功能,并搭载了Android XR系统。与苹果的Vision Pro相比,这款眼镜更轻、视场角更大,价格也更具有竞争力。谷歌通过与多家厂商合作,致力于推动XR生态系统的发展,挑战苹果和meta的市场地位。
然而,在OpenAI内部却发生了一起悲剧。前研究员Suchir Balaji疑似自杀身亡,他曾揭露OpenAI在训练ChatGPT过程中违反版权法,未经授权使用大量互联网数据,损害了企业和创业者的利益。这一事件引发了公众对AI公司如何使用数据的关注,特别是对“合理使用”法律的争议。
在神经接口和AR技术方面,meta发布了一款EMG腕带和Orion AR眼镜原型,用户可以通过腕带实现隔空打字和手势控制。这一技术通过轻便设备和AI技术推动了神经接口与AR革命,有望对现有市场产生深远影响。
在学术界,AI巨佬Ilya在NeuralPS2024演讲中断言大模型预训练时代即将终结。他指出,数据量增长停滞和数据资源有限是预训练终结的主要原因。未来,AI将转向代理、合成数据、推理时间计算及生物学启示等新方法。
另一位知名学者Hinton则认为,AI的发展应回归生物学,结合现代基因工程技术,通过模拟神经网络的非线性特性,实现低功耗计算。他强调,大语言模型不仅仅是“自动完成”,它们具备深层次的理解能力,通过特征和交互学习词汇的含义。同时,Hinton认为不应开放大模型的源代码,因为AI的智能和控制能力可能引发资源争夺和不受控制的风险,需要谨慎管理。