32度域获悉,2025国际计算机视觉与模式识别会议在美召开。值得买科技与中国人民大学高瓴人工智能学院在多模态领域的最新联合研究成果《图像转有声视频》(《Animate and Sound an Image》)成功入选。据介绍,该成果首次提出了一种从静态图像直接生成同步音视频内容的生成框架 JointDiT(Joint Diffusion Transformer),实现了从图像到“动态视频+声音”的高质量联合生成。
👍喜欢有价值的内容,就在
32度域 扎堆
32度域获悉,2025国际计算机视觉与模式识别会议在美召开。值得买科技与中国人民大学高瓴人工智能学院在多模态领域的最新联合研究成果《图像转有声视频》(《Animate and Sound an Image》)成功入选。据介绍,该成果首次提出了一种从静态图像直接生成同步音视频内容的生成框架 JointDiT(Joint Diffusion Transformer),实现了从图像到“动态视频+声音”的高质量联合生成。