SadTalker AI——由西安交通大学开源的人工智能模型

SadTalker AI 是一款由西安交通大学开源的人工智能模型,主要用于将静态图像转换成动态视频,使图像中的人物能够根据音频内容进行讲话。

以下是对它的详细介绍:

  • 技术原理:SadTalker 使用了一种叫做 SadNet 的神经网络,先单独建模音频与运动系数的联系,学习音频中的面部表情,精确 3D 渲染,再使用条件 VAE 设计 PoseVAE,合成多样头部运动,最终将三维运动系数映射到人脸渲染,从而合成高质量的 AI 数字人视频。
  • 功能特点
    • 高质量输出:生成的人物头部运动自然,面部表情丰富,还包含眨眼动作,使人物更加生动,面部口型能与音频同步。
    • 简单易用:用户只需上传人物图片和音频,设置相关参数,点击 “生成”,即可快速生成 AI 数字人视频。
    • 参数调节:提供姿势风格、表达量表等参数调节选项,用户可根据需求控制视频效果。例如,表达量表能控制人物表情丰富程度。
    • 批量处理:支持批量大小设置,可根据显卡性能调整,以影响视频生成速度。
    • 多种模式:提供预处理和面部渲染的多种模式。预处理包括 crop、resize、full 等模式;面部渲染模式中,GFPGAN 可让面部更高清。此外,还有 idle 模式,集成到 SD 中,让简单图像即可生成视频,自动头部姿势与眨眼动作;参考视频模式,允许上传视频作为参考姿势和眨眼以及完全运动。
  • 支持格式:支持多种音频格式和图像类型,音频可以是用户自己的录音,也可以是文本转语音生成的语音。
  • 应用场景
    • 视频制作:视频内容创作者、YouTuber 和社交媒体影响者可以用它创建引人入胜的互动内容,如制作动画角色用于讲故事或讲解视频。
    • 在线教育:教师、教练或在线课程创建者能利用它生成动画化身,用于制作教育材料,让学习内容更具吸引力和互动性。
    • 虚拟主播:可以生成虚拟主播,为直播、短视频等内容提供多样化的角色和表现形式。
    • 营销推广: marketers 和广告商能借助它创建引人注目的广告、演示文稿或促销视频,通过动画角色吸引观众注意力。
  • 使用方法
    • 上传人物图片和音频(支持英文、中文、歌曲等)。
    • 设置参数,如姿势风格、表达量表等。
    • 点击 “生成”,等待视频制作完成,生成的视频保存在sadtalker\results路径下,也可在网页端下载。
  • 安装与试用
    • 本地部署:可查看 GitHub 项目地址进行部署。
    • 在线试用:需通过魔法访问 Hugging Face 或 Colab 进行在线试用。
    • 作为 SD 扩展使用:安装 SD 插件即可。
    • 模型下载:无法访问国外网站的用户,可以访问国内镜像,如阿里的魔搭。

SadTalker 的官网:https://sadtalker.github.io/

类似文章

发表回复