当前位置: 首页 > news >正文

多人对话视频生成的新发展:麻省理工学院数据集和基线模型 “CovOG

概述

由于传统的语音驱动视频生成研究仅限于单个说话者或人脸领域,本文提出了一项新任务–多人对话视频生成,其目标是生成多人之间的自然对话。

研究的重点是构建多人类互动对话数据集(MIT),这是一个 12 小时的高分辨率数据集。
该数据集收集了涉及 2 到 4 人的对话视频,并自动分配姿势估计和语音状态分数,以全面捕捉与多人对话相关的语音、听力和手势的互动。

此外,作者还开发了一个基线模型 CovOG 来应对这一新挑战。
CovOG 融合了多人姿势编码器(MPE)和交互式音频驱动程序(IAD),前者集成了每个人的姿势特征,后者根据语音特征控制面部动作,从而自然再现说话和聆听的角色变化。IAD。

这样就能生成模拟采访和脱口秀等真实场景的视频,为今后的研究发展奠定了重要基础。

拟议方法

拟议方法的核心是基线模型 “CovOG”,它是现有单人生成模型 "AnimateAnyone "的扩展。

首先,多人体姿态编码器(MPE)具有一种机制,可在卷积网络中分别处理每个人剪切出来的姿态,然后进行整合。
这样,系统就能灵活应对人数的波动,并在生成整体对话场景的同时,保持每个人的独立肢体动作。

接下来,IAD(交互式音频驱动程序)将每个说话者的语音特征和 "说话分数 "作为输入,并控制面部动作和表情。
当说话者说话时,该机制会使嘴部动作与语音同步;当说话者是听众时,该机制会产生点头和微笑等自然反应。

此外,CovOG 还使用参考图像来保持人的身份,并结合姿势和语音条件来生成视频。
这些创新技术能够生成多人对话视频,而传统的 "纯面部 "或 "单发言人 "模型则无法做到这一点,从而极大地扩展了视频合成的潜力,将自然互动纳入其中。

实验

在实验中,CovOG 的性能在麻省理工学院的数据集上进行了测试,并与传统方法进行了比较。

评估使用了表示图像质量的 SSIM 和 PSNR 以及衡量运动一致性的 FVD。

结果表明,CovOG 的表现始终优于 AnimateAnyone 和 ControlSVD 等代表性方法,而且质量稳定,特别是在多人对话情况下。

切除实验从数量上证明了这两个模块的有效性,切除 MPE 会导致整体姿势控制的丧失,而切除 IAD 则会导致不自然的面部动作。

在用户研究中,CovOG 在角色一致性、与音频的同步性和整体视频自然度方面也获得了很高的评价。
此外,在一项 "跨模态实验 "中,结合了不同视频中的身份、姿势和音频,CovOG 保持了时间上的流畅性和空间上的一致性,证明了它的多功能性。

这些结果表明,所提出的模型适用于再现逼真的多人对话。

http://www.cnnetsun.cn/news/133321.html

相关文章:

  • AI如何识别和预警危险场景?
  • 告别uni-app网络请求混乱:luch-request实战指南助你重构清晰架构
  • ConvertToUTF8插件完整使用指南:轻松解决编码乱码难题
  • 3步学会:如何用Win_ISO_Patching_Scripts制作最新Windows系统镜像
  • 30分钟搭建UDP/TCP协议测试沙盒
  • 基于vllm和gradio的大模型问答-改良版本
  • PyCharm快捷键入门:小白也能快速上手的20个必备技巧
  • Kotaemon多向量检索支持:混合嵌入空间搜索
  • 5分钟搭建Ubuntu命令速查网页应用
  • 1小时搞定:用快马平台验证Git合并方案
  • Go Mod vs 传统依赖管理:效率提升300%
  • YUM707新手入门指南:从零开始学AI编程
  • HslControls:工业级UI控件库的终极指南
  • 零基础学MoviePy:用Python做第一个视频剪辑
  • 解决uniapp在嵌入HTML页面的时候使用web-view组件样式不生效或使用iframe无法实现录音等功能
  • 3分钟学会用手机实时调试Android应用:LogcatViewer完整使用指南
  • SGLang终极性能测试与负载优化实战指南
  • ArtPlayer.js:轻量级HTML5视频播放器的终极解决方案
  • 大模型的私有化部署细节
  • MongoDB可视化实战:用Grafana打造专业级监控仪表板
  • Kotaemon冷启动优化:预加载模型减少首次等待
  • 快速验证:用AI生成SVG转Base64的API原型
  • 传统vsAI:开发猫咪APP效率提升300%
  • 如何用AI自动修复SSL连接错误?快马平台实战
  • Flowise快速原型:1小时打造你的MVP
  • 数字藏品(NFT)系统的上线
  • VectorDB本地向量数据库:从入门到精通的完整指南
  • Maven安装图解指南:零基础小白也能看懂
  • macOS防火墙LuLu终极指南:完全解析用户界面与交互体验
  • 生产环境必知:chmod -r与-r的正确使用场景