在2024年的冬日,国产AI领域迎来了一次令人瞩目的创新。智谱AI在11月29日的技术开放日上,实现了AI历史上的一个首次——AI成功发出了红包。
活动现场,智谱AI的CEO张鹏仅通过三句简单的语音指令,便让智能体AutoGLM跨越微信、支付宝等多个平台,为现场及线上观众派发了红包。这一场景不仅展示了AI技术的飞速发展,更预示着人机交互新时代的到来。
AutoGLM的成功,标志着AI Agent技术的重大突破。传统的AI助手往往局限于被动响应和单一场景交互,而AutoGLM则能够主动理解复杂指令,跨应用协同,并精准执行用户意图。除了发红包,它还能在多个复杂操作的长任务中,如跨APP比价订外卖,展现出行云流水般的自主执行能力。
然而,这只是智谱AI今年众多创新成果中的冰山一角。早在今年7月,智谱AI便发布了第四代代码生成大模型CodeGeeX,支持代码补全、注释、修复及翻译等基础功能。随后,视频生成模型“智谱清影”面世,能够生成时长6秒、清晰度达1440×960的视频。
到了10月,智谱AI又推出了端到端语音模型GLM-4-Voice,并进行了开源。这款模型与GPT-4的语音功能相媲美,能够进行实时语音对话,在情绪表达、多语言等方面实现突破,且支持随时打断。这些全方位的技术布局,展现了智谱AI在全球AI领域追赶巨头的坚定决心。
然而,在看似全面的技术进展背后,也引发了业界的一些冷静思考。在体量、资本均不及OpenAI等巨头的情况下,智谱AI如此广泛的技术覆盖,是否会影响其在各领域的深耕程度?这一问题,成为了业界关注的焦点。
以智谱AI最近发布的旗舰大模型GLM-4-Plus为例,该模型定位为一种深度推理模型,与OpenAI的o1类似。虽然它在深度推理、长文本处理和指令遵循等方面表现出色,但这种“强大”并未带来绝对优势,反而暴露出一些潜在问题。GLM-4-Plus与智谱AI本身的生态定位存在错位,其目标市场更偏向于B端,而B端市场并非单一结构,而是由不同层级和类型的需求构成。
智谱AI的B端客户主要聚焦于金融、教育、能源、通信等行业,这些企业更需要性价比高、易集成且灵活的模型,而非高算力支持的深度推理大模型。因此,GLM-4-Plus的推出,虽然在某种程度上展示了智谱AI的技术实力,但也反映了其在市场定位上的迷茫。
同样,智谱AI在多模态方向上的布局也面临挑战。其发布的多模态语音助手功能,如“智谱清言”系统,试图在C端应用领域拓展新场景。然而,与科大讯飞、字节跳动等竞争对手相比,智谱AI的表现并不突出。科大讯飞在语音领域深耕多年,其语音识别、翻译和场景化应用成熟且落地率高;而字节跳动的“豆包”则依托强大的内容生态,具有将语音AI应用到社交、娱乐和短视频生成等消费级场景中的潜力。
智谱AI的多模态语音助手和视频生成功能,虽然支持低延迟、更自然的交互,但在智力水平和视频生成质量上,与竞争对手相比仍有较大差距。例如,在视频生成方面,智谱AI的“清影”虽然主打免费、高清,并加入了AI音效选项,但生成的视频却存在古怪、扭曲和运动错误等问题。
这些“博而不精”的现象,反映出智谱AI在B端与C端两个方向上出现了摇摆。其整体战略更偏向于B端市场,但今年却试图拓展C端市场,形成了一种“两头抓”的战略。然而,在资源有限的情况下,这一策略导致了资源分散,难以形成突出的竞争优势。
更深层次的问题在于,智谱AI在商业化困境下的无奈突围。为了应对同行的价格压制,智谱AI将模型调用价格降低到行业最低水平,导致利润空间进一步被压缩。为了生存,智谱AI只能依靠融资。然而,在资本逐渐冷静的当下,想要获得新一轮融资,必须证明自己商业化的能力。
于是,智谱AI接连发布了AI生成视频模型“清影”、情感语音模型GLM-4-Voice以及AI助理工具AutoGLM等,希望通过追逐技术热点来吸引市场关注。然而,这种多线进军的策略,也折射出了中国AI创新生态与投资环境中的深层次问题——“快”往往比“深”更受青睐。