【ITBEAR】8月22日消息,标题:科大讯飞与华为互访背后的新技术揭秘:极速超拟人交互技术引关注
7月底,科大讯飞董事长刘庆峰携一众高管访问华为,与华为副董事长、轮值董事长徐直军会面,具体目的未透露。而一周后,华为常务董事、终端BG董事长余承东也带队回访科大讯飞,同样未透露访问目的。这一系列高层互动在业界引起了广泛猜测。
据ITBEAR了解,不久后,科大讯飞的投资者论坛中出现了一则传言,称华为与讯飞将终止合作,导致科大讯飞股价波动。对此,科大讯飞在投资者互动平台上迅速回应,强调与华为在多个方面保持着良好的合作关系,传言逐渐平息。
8月19日,科大讯飞公众号发布了一则名为“极速超拟人交互”的新技术演示,虽然只是四条简单的“人机对话”视频,却在业内迅速引发了关注。有知情人士透露,科大讯飞与华为之间高管互访的原因正是为了这项新技术,双方已重新签订了战略深化合作协议。
在传统智能语音技术中,无论是国外的Nuance还是国内的科大讯飞,都是通过语音识别和语音合成两个模块来实现交互。然而,随着大模型浪潮的到来,技术路径发生了变革,大模型开始替代原有的技术后台。而科大讯飞此次推出的“极速超拟人交互”技术,据称采用了端到端的神经网络建模,直接从语音映射到语音,省略了中间处理步骤,实现了更快、更流畅、更准确的交互体验。
从科大讯飞发布的视频来看,极速超拟人交互技术的最直观感受就是响应速度的提升。据统计,市面上主流语音交互技术的响应时间大多在2秒至2.5秒之间,而这项新技术将响应时间缩短至0.9秒,且支持随时打断和插话。这一速度已经逼近了人类对话的响应时间,为人机交互带来了质的飞跃。
除了速度的提升,端到端方案还带来了声音感知表达上的准确性和丰富性。传统指令型语音技术只能识别某些特定发音并给出响应,而超拟人交互技术不仅能从用户声音中获取指令信息,还能通过语速、语调、口音以及独特的声音信息来综合感知用户的各种情绪状态。在表达方面,这项技术也能以富有情感的方式回应用户,并可以根据用户需求变换表达方式,如激昂、低沉、幽默等,甚至可以模拟知名人物角色的声音。
多项数据表明,无论是国内还是全球,传统机器向联网智能终端的转型将迎来井喷式增长。而大模型赋能下的智能语音技术的进步正是推动这一增长的核心动力之一。在具体场景中,语音领域的所有应用几乎都可以用新技术重塑一遍。例如,在智能汽车行业,超拟人交互技术可以让座舱里的语音助手成为车主的陪伴者和旅行安全的守护者。在养老和育儿领域,具备逻辑推理和情绪感知能力的智能语音可以给老人和孩子带来具有趣味和温度的关怀与陪伴。对于手机和电脑等智能终端,高速响应的超拟人交互技术也将带来远超Siri的体验。
更快速、更真实、更拟人的交互技术也将激发新的交互产品可能性。有长期关注人工智能领域的投资者在社交媒体上表示,这项技术相当于人工智能语音的“ChatGPT时刻”。尽管新技术的全面落地和正式开放还有待观察,但从华为等合作伙伴以及投资者的反馈来看,外界对于超拟人交互技术的关注和赞誉已经超越了科大讯飞自身的重视程度。作为大模型浪潮之前智能语音市场的国内巨头,以及大模型浪潮以来国产大模型的头号玩家之一,科大讯飞的新技术演示能力往往落后于其落地能力。这次也不例外,超拟人交互技术在演示视频推送之前,也许已经在包括华为在内的多个合作伙伴那里悄然落地。