12月23日,阿里云通义大模型系列正式推出新一代端到端语音交互模型——Fun-Audio-Chat,这是其“百聆”语音模型家族中首个主打“语音对语音”直接多轮对话能力的开源模型。
用户可通过语音直接与模型交流,无需中间文本转换,模型亦能以语音实时回应,推动语音交互向更自然、无缝的方向演进。
该模型为8B参数规模,在多项权威语音与多模态评测中,于开源模型中取得领先表现,显示出在语音理解、生成及持续对话上的综合能力。与通义此前已开源的语音转文字模型Fun-ASR、文字转语音模型Fun-CosyVoice3不同,Fun-Audio-Chat-8B强调完整的端到端语音交互闭环,目标直指语音聊天、情感陪伴、智能终端交互及语音客服等实用场景。
在技术层面,阿里云披露了两项关键创新。一是“Core-Cocktail”两阶段训练策略,通过分阶段引入语音与多模态能力并与原有文本大模型融合,旨在缓解模型因学习新模态而导致的“灾难性遗忘”问题。二是采用多阶段、多任务的偏好对齐训练,提升模型在真实对话中捕捉语义与情绪线索的精准度,增强回应自然度。

尤为引人关注的是其算力效率优化。该模型采用“压缩—自回归—解压缩”的双分辨率架构,将音频帧率大幅降低至约5Hz,在保证语音质量的前提下,声称可节省近50%的GPU计算开销。在当前语音大模型普遍面临高昂推理成本的背景下,这一设计凸显了其推动技术落地的工程化思路。
通义此次开源,表面看是技术迭代,实则是生态策略的关键一步。
在文本大模型竞争日趋白热化之后,语音交互正成为下一个关键入口,其价值不仅在于“解放双手”,更在于它承载着更直觉、更具情感连接的人机交互未来。
阿里选择将8B规模的端到端模型开源,意在快速吸引开发者,在智能硬件、车载、客服等场景中构建早期应用生态,抢占语音交互的“操作系统”级地位。
其技术路径反映出大模型发展的一个新趋势,从“拼参数”转向“拼效率”与“拼融合”。通过架构创新将计算开销削减近半,并非单纯的技术炫耀,而是直面商业化核心痛点——推理成本。
这为众多中小开发者和硬件厂商提供了在有限算力下部署高级语音能力的可能,有望加速AI语音从云端 demo 走向真实场景的终端侧落地。
然而,真正的挑战或许不在技术指标,而在场景定义与用户体验。
端到端语音对话看似直接,实则对环境的抗干扰能力、对话的上下文连贯性、以及情感表达的细腻度提出了更高要求。
当前模型虽在评测中领先,但距离在复杂真实环境中实现如人与人交谈般流畅自然的体验,仍有长路要走。阿里此举,既是抛出了一块“技术敲门砖”,也是向业界和开发者发出共同探索的邀请函——语音交互的黄金时代是否即将到来,不仅取决于模型本身,更取决于我们能用它创造出怎样不可替代的用户价值。

