SadTalker AI——由西安交通大学开源的人工智能模型

SadTalker AI 是一款由西安交通大学开源的人工智能模型,主要用于将静态图像转换成动态视频,使图像中的人物能够根据音频内容进行讲话。
以下是对它的详细介绍:
- 技术原理:SadTalker 使用了一种叫做 SadNet 的神经网络,先单独建模音频与运动系数的联系,学习音频中的面部表情,精确 3D 渲染,再使用条件 VAE 设计 PoseVAE,合成多样头部运动,最终将三维运动系数映射到人脸渲染,从而合成高质量的 AI 数字人视频。
- 功能特点
- 高质量输出:生成的人物头部运动自然,面部表情丰富,还包含眨眼动作,使人物更加生动,面部口型能与音频同步。
- 简单易用:用户只需上传人物图片和音频,设置相关参数,点击 “生成”,即可快速生成 AI 数字人视频。
- 参数调节:提供姿势风格、表达量表等参数调节选项,用户可根据需求控制视频效果。例如,表达量表能控制人物表情丰富程度。
- 批量处理:支持批量大小设置,可根据显卡性能调整,以影响视频生成速度。
- 多种模式:提供预处理和面部渲染的多种模式。预处理包括 crop、resize、full 等模式;面部渲染模式中,GFPGAN 可让面部更高清。此外,还有 idle 模式,集成到 SD 中,让简单图像即可生成视频,自动头部姿势与眨眼动作;参考视频模式,允许上传视频作为参考姿势和眨眼以及完全运动。
- 支持格式:支持多种音频格式和图像类型,音频可以是用户自己的录音,也可以是文本转语音生成的语音。
- 应用场景
- 视频制作:视频内容创作者、YouTuber 和社交媒体影响者可以用它创建引人入胜的互动内容,如制作动画角色用于讲故事或讲解视频。
- 在线教育:教师、教练或在线课程创建者能利用它生成动画化身,用于制作教育材料,让学习内容更具吸引力和互动性。
- 虚拟主播:可以生成虚拟主播,为直播、短视频等内容提供多样化的角色和表现形式。
- 营销推广: marketers 和广告商能借助它创建引人注目的广告、演示文稿或促销视频,通过动画角色吸引观众注意力。
- 使用方法
- 上传人物图片和音频(支持英文、中文、歌曲等)。
- 设置参数,如姿势风格、表达量表等。
- 点击 “生成”,等待视频制作完成,生成的视频保存在
sadtalker\results
路径下,也可在网页端下载。
- 安装与试用
- 本地部署:可查看 GitHub 项目地址进行部署。
- 在线试用:需通过魔法访问 Hugging Face 或 Colab 进行在线试用。
- 作为 SD 扩展使用:安装 SD 插件即可。
- 模型下载:无法访问国外网站的用户,可以访问国内镜像,如阿里的魔搭。
SadTalker 的官网:https://sadtalker.github.io/