近日,可灵AI宣布了一项重大更新,正式推出了可灵2.0视频生成模型与可图2.0图像生成模型,这一消息引起了全球用户的广泛关注。
作为AI领域的佼佼者,可灵AI此次的2.0版本升级,在多个方面实现了显著的提升。据官方介绍,可灵2.0视频生成模型在动态质量、语义响应以及画面美学上均有了长足的进步,而可图2.0图像生成模型则更加注重指令遵循、电影质感及艺术风格的表现。
自去年6月上线以来,可灵AI的用户规模迅速扩张,目前全球用户数量已突破2200万大关。在这短短的时间内,用户通过可灵AI累计生成了1.68亿个视频和3.44亿张图片素材,这一数据无疑彰显了其强大的生成能力和用户的广泛认可。月活用户数量更是在10个月内增长了25倍,这一增速令人瞩目。
在发布会上,快手高级副总裁盖坤分享了他对可灵AI的期待与愿景。他提到,早在去年三四月份,当他首次看到可灵AI的DiT模型产出结果时,就萌生了一个念头——何时能用AI将自己心目中的《三体》拍摄出来。这一愿景不仅展现了盖坤对可灵AI的厚望,也反映了AI在影视创作领域的巨大潜力。
然而,盖坤也坦言,当前AI视频生成领域仍存在诸多挑战。各家视频模型在语义分析能力和动态质量上都存在共性问题,如AI无法精准理解创作者的文字表达,以及生成的物体运动过快或不符合物理规律等。为了解决这些问题,可灵AI在2.0版本中提出了全新的交互理念——Multi-modal Visual Language(MVL)。
MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,它允许用户结合图像参考、视频片段等多模态信息,将脑海中复杂多维度的创意直接传达给AI。这一理念的提出,无疑为AI视频生成领域带来了革命性的突破。
基于MVL理念,可灵AI推出了多模态编辑功能,该功能不仅局限于图片和视频,还可以引入声音、运动轨迹等其他模态的信息。同时,可灵2.0大师版也应运而生,它在语义响应、动态质量和画面美学等方面实现了进一步提升,并上线了新的多模态视频编辑功能。这一功能允许创作者在一段视频的基础上,通过输入图片或文字,对生成的视频内容进行灵活的二次编辑和处理。
在图像生成领域,可图2.0同样表现出色。它具备复杂语义理解能力、电影级的画面质感以及多条件的可控风格化生成等优势。新版本的可图2.0提升了指令遵循能力,增强了电影美学表现力,并支持60多种风格化的效果转绘。可图2.0还上线了图像可控编辑功能,包括局部重绘和扩图等,让用户可以对图片进行增加、修改和修复。
除了面向C端订阅用户提供服务外,可灵AI还积极开拓B端市场,为商家提供API接入等服务。目前,已有超过1.5万名开发者将可灵的API应用于不同行业场景中,累计生成的图像和视频素材数量庞大。这一举措不仅拓宽了可灵AI的应用范围,也为其带来了可观的商业价值。
为了进一步激发AI爱好者的创作热情,可灵AI还发布了“可灵AI NextGen 新影像创投计划”。该计划将投入千万资金,为全球创作者提供宣发、IP打造和保障等全方位支持。通过全资出品、联合出品和技术支持等合作方式,可灵AI致力于打造一个充满活力的AIGC创作生态。