腾讯在12月3日正式推出了其备受期待的混元大模型文生视频功能,该功能此前已在11月底被提前“剧透”。用户现在可以通过腾讯元宝App中的“AI视频”板块申请试用,而企业客户则可以通过腾讯云接入服务。与此同时,API内测申请也已同步开放。
腾讯混元大模型的文生视频功能允许用户通过输入一段描述性文字来生成视频。混元为用户提供了三种灵感提示:转场视频、多动作视频和超写实视频。在体验过程中,用户可以选择五种视频风格(写实、动画、电影、黑白、赛博朋克)和五种比例,以及更多的高级指令选项,如景别、光线和镜头运动。
据腾讯提供的评测报告显示,腾讯混元视频生成模型在文本对齐、运动质量和视觉质量方面与国内同类模型相比表现出色。腾讯混元还宣布开源该视频生成大模型,企业和个人开发者可免费使用并开发生态插件。
腾讯混元多模态生成技术负责人凯撒表示,混元基于与Sora类似的DiT架构,并进行了升级。通过新一代文本编码器、统一的全注意力机制和图像视频混合VAE,模型在细节表现上有了显著提升。
对于选择此时上线文生视频功能的原因,凯撒表示技术已经成熟。分析师李锦清则认为,尽管文生视频的实现难度较高,但其商业空间更大,行业和企业需要解决数据等共性和特性问题。