2025年11月6日,聆动通用携手科大讯飞在第八届世界声博会暨2025科大讯飞1024全球开发者节科博展上联合发布了突破性的iFlyBot-VLM视觉语言基座大模型和iFlyBot-VLA视觉-语言-动作操作大模型,标志着在连接高维环境感知与底层机器人运动控制方面取得了重大突破,实现了从感知到行动的完整技术闭环。
据了解,iFlyBot-VLA是由聆动通用联合科大讯飞研发的全栈自主可控的大规模视觉-语言-动作模型。而iFlyBot-VLM的核心创新在于将复杂的视觉和空间信息抽象为一种与具体机器人无关、可迁移的操作语言,从而实现跨不同机器人平台的无缝感知-行动闭环协调。
iFlyBot-VLM(大脑)和iFlyBot-VLA(小脑)不仅是一个技术突破,更是团队迈向通用人工智能的重要一步。未来,团队将继续增强模型的空间理解和空间感知能力,提升大小脑各自性能的同时更加二者的协同配合能力。并进一步引入世界模型预测未来状态以及扩展模型的自反思能力和多模态输入输出能力,从而提升在长程任务上的执行成功率。