昆仑万维近期在人工智能领域迈出了重要一步,正式推出了其自研的“多模态统一预训练模型Skywork UniPic”,并慷慨地选择将此模型开源。这一模型采用了自回归路线,在单一架构内巧妙融合了图像理解、文本到图像生成及图像编辑三大核心功能,展现了强大的技术整合能力。
Skywork UniPic的问世,标志着昆仑万维在追求技术开放与创新道路上的一次重大突破。它借鉴了GPT-4o的成功经验,沿用了自回归范式,但在模型设计上进行了创新,旨在克服传统多模态模型在图像理解和语义保留方面的局限。通过引入MAR编码器和SigLIP2技术,Skywork UniPic实现了在保持模型轻量化的同时,确保在理解、生成和编辑任务上的卓越表现。
该模型的核心能力包括图文理解、图像生成和图像编辑。图文理解基于token预测技术,能够精准把握文本含义;图像生成则采用掩码自回归方式,逐步构建出细腻的图像patch;而图像编辑功能更是强大,只需输入参考图和编辑指令,即可一键完成风格转换或特效添加等操作,犹如拥有了一款智能美图工具。
在训练体系优化方面,昆仑万维团队采用了MAR训练优化体系和HARMON训练优化体系,通过引入覆盖更广视觉场景和类别的图像数据,以及渐进式分辨率提升策略,显著提升了模型的语义理解和细粒度建模能力。同时,他们还采用了分阶段参数解冻策略和渐进式多任务训练机制,确保模型在训练过程中能够逐步释放能力,适应不同任务的挑战。
随着Skywork UniPic的正式开源,昆仑万维再次展示了其在人工智能领域的开放态度和创新能力。这一模型的推出,不仅为广大开发者和研究者提供了可落地的统一模型解决方案,降低了技术应用门槛,更为AI技术的普及和发展注入了新的活力。相信在未来,Skywork UniPic将成为更多人的创意伙伴,共同探索AI技术的无限可能。