腾讯开源视频生成新工具，论文还没发先上代码的那种

生活百科5个月前发布星尘导航

72 0 0

西风发自凹非寺

量子位 | 公众号

先上代码再发论文，腾讯新开源文生视频工具火了。

名为MuseV，主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。

老规矩，先看效果。

静态的金克丝秒秒钟就能动起来朝你抛媚眼：

画中诗圣也“活”了过来：

各种风格都能驾驭，风景图也不在话下：

更有搞笑风《微笑的骑士》：

再上难度，复杂些的弹唱也处理得比较自然：

此外，加入“骨架”控制动作、姿势也可以：

腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。

不少人已趁热码住，获星500+。

还有网友已经玩上了：

围观网友直呼距离成为视频达人只差一个AI。

嘴唇也能同步

除了直接放出模型代码，目前MuseV还有demo可体验。

demo界面有两种玩法。

一种可以上传一张图然后加上在这张图的基础上进行视频生成；另一种是上传一个参考视频和一张图，使图片中的内容按照视频中的动作运动起来。

紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。

此外值得一提的是，文本、图像到视频的生成结果的所有帧直接由MuseV生成，没有时序超分辨、空间超分辨等任何后处理。

而输入视频控制姿态的生成模式下，开发团队表示需要参考视频的首帧条件和参考图像的首帧条件对齐，不然会破坏首帧的信息，效果会更差。所以一般生成流程是：

除MuseV，开发团队还表示即将发布一个实时高质量的唇同步模型——，可与MuseV一起搭配使用。

用上它，蒙娜丽莎也能对嘴型唱歌。

MuseV里面长啥样？

技术方面，据了解MuseV是在去年7月左右基于扩散模型实现的技术进展，受到Sora启发，开发团队决定开源MuseV，之后将转向扩散+方案。

也就是说，MuseV是基于扩散模型的虚拟人视频生成框架。

模型架构如下图所示：

总的来说，MuseV具有以下特点：

首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成，不会再有误差累计的问题，尤其适用于固定相机位的场景。

并行去噪算法示意图如下：

其次，MuseV提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。

而且支持图像到视频、文本到图像到视频、视频到视频的生成；兼容文图生成生态系统，包括、lora、等。

还支持多参考图像技术，包括、、、。

参考链接：

— 完 —

【火热报名中】中国AIGC产业峰会

定档4月17日

峰会已经邀请到数位代表技术、产品、投资、用户等领域嘉宾，共论生成式AI产业最新变革趋势。

目前首批确认参会嘉宾包括：微软陶然、昆仑万维方汉、美图公司吴欣鸿、联想创投宋春雨、通义千问林俊旸、逐际动力张力、人大卢志武、北大袁粒、小冰公司徐元春、金山办公姚冬、张璐、通义大模型徐栋、DCM曾振宇、澜码科技周健、得到快刀青衣、实验电影人海辛等。

欢迎报名峰会 ️

峰会将全程线上下同步直播，欢迎预约直播 ️

点这里关注我，记得标星哦～

文章版权归作者所有，未经允许请勿转载。

跨境卖家产品开发必看：如何用5个思维，系统化提升选品能力？

生活百科 # 亚马逊选品 # 产品开发 # 场景化选品

6个月前

0690

慢燃危机！关税正推高美国物价多数大企业计划进一步涨价

生活百科 # 企业涨价 # 关税 # 慢燃危机

5个月前

0680

LinkedIn 2025报告：B2B营销进入“信任时代”，视频+影响者如何撬动全球市场？

生活百科 # B2B营销 # 信任体系模型 # 信任时代

5个月前

0600

菜鸟携手韩国知名跨境美妆平台，进口韩国商品海运最快3日可达

生活百科 # 海淘 # 物流服务 # 菜鸟物流

5个月前

0550

暂无评论

暂无评论...