【ITBEAR】8月23日消息,近日,一份关于AI大模型发展趋势及其对视频与语音产业影响的专题报告引起了广泛关注。该报告深入剖析了当前AI大模型的演进路径,以及其在生成视频和语音方面的应用如何重塑相关产业格局。
报告总计22页,详细阐述了大模型的多个关键发展趋势。其中,开源模型的迅猛发展尤为引人注目,其性能已接近甚至达到闭源产品的水平。例如,Llama3.1的表现力与GPT-4o和Claude 3.5 Sonnet不相上下,2024年以来,开源模型频现且不断刷新能力上限。同时,大模型正朝着“轻量化”的方向发展,性价比显著提升,这一趋势吸引了众多机构和企业的关注。在端侧模型方面,苹果和三星等科技巨头已开始布局AI硬件,苹果的AI模型尤其受到人类评分者的青睐,并支持多种实用功能。
据ITBEAR了解,AI生成视频领域也取得了显著进展。sora平台打破了时长限制,树立了新的行业标准,并采用DiT思路展现了强大的“涌现”能力。自6月以来,多家团队相继推出了AI视频产品,标志着该产业的加速发展。例如,快手的可灵产品多次升级并尝试商业化运营,智谱公司的“清影”作为大模型领域的新入局者,展现了强大的竞争力。此外,Runway的Gen-3 Alpha在画质上领跑行业,而Luma Dream Machine则凭借其丰富的3D资产经验拓展了应用场景。
在语音功能方面,GPT-4o语音为代表的技术相较于传统TTS技术提供了更多信息,包括无延迟对话、理解和表达情感等。字节跳动的Seed-TTS在表现力上已接近人类水平,而ChatTTS则能够预测和控制韵律特征。在应用端,语音功能的提升极大地增强了教育和情感陪伴应用的用户体验。例如,多邻国、可汗学院和网易有道在教育场景中广泛应用了这些技术,而Character AI则在情感陪伴方面获得了用户的好评。
整体上,报告看好AI技术对内容产业的推动作用,并预测未来游戏等应用的改造、教育赛道以及情感陪伴与社交等领域将迎来新的发展机遇。以下是报告的部分节选内容: