SadTalker AI——由西安交通大学开源的人工智能模型

SadTalker AI 是一款由西安交通大学开源的人工智能模型，主要用于将静态图像转换成动态视频，使图像中的人物能够根据音频内容进行讲话。

以下是对它的详细介绍：

技术原理：SadTalker 使用了一种叫做 SadNet 的神经网络，先单独建模音频与运动系数的联系，学习音频中的面部表情，精确 3D 渲染，再使用条件 VAE 设计 PoseVAE，合成多样头部运动，最终将三维运动系数映射到人脸渲染，从而合成高质量的 AI 数字人视频。
功能特点
- 高质量输出：生成的人物头部运动自然，面部表情丰富，还包含眨眼动作，使人物更加生动，面部口型能与音频同步。
- 简单易用：用户只需上传人物图片和音频，设置相关参数，点击 “生成”，即可快速生成 AI 数字人视频。
- 参数调节：提供姿势风格、表达量表等参数调节选项，用户可根据需求控制视频效果。例如，表达量表能控制人物表情丰富程度。
- 批量处理：支持批量大小设置，可根据显卡性能调整，以影响视频生成速度。
- 多种模式：提供预处理和面部渲染的多种模式。预处理包括 crop、resize、full 等模式；面部渲染模式中，GFPGAN 可让面部更高清。此外，还有 idle 模式，集成到 SD 中，让简单图像即可生成视频，自动头部姿势与眨眼动作；参考视频模式，允许上传视频作为参考姿势和眨眼以及完全运动。
支持格式：支持多种音频格式和图像类型，音频可以是用户自己的录音，也可以是文本转语音生成的语音。
应用场景
- 视频制作：视频内容创作者、YouTuber 和社交媒体影响者可以用它创建引人入胜的互动内容，如制作动画角色用于讲故事或讲解视频。
- 在线教育：教师、教练或在线课程创建者能利用它生成动画化身，用于制作教育材料，让学习内容更具吸引力和互动性。
- 虚拟主播：可以生成虚拟主播，为直播、短视频等内容提供多样化的角色和表现形式。
- 营销推广： marketers 和广告商能借助它创建引人注目的广告、演示文稿或促销视频，通过动画角色吸引观众注意力。
使用方法
- 上传人物图片和音频（支持英文、中文、歌曲等）。
- 设置参数，如姿势风格、表达量表等。
- 点击 “生成”，等待视频制作完成，生成的视频保存在sadtalker\results路径下，也可在网页端下载。
安装与试用
- 本地部署：可查看 GitHub 项目地址进行部署。
- 在线试用：需通过魔法访问 Hugging Face 或 Colab 进行在线试用。
- 作为 SD 扩展使用：安装 SD 插件即可。
- 模型下载：无法访问国外网站的用户，可以访问国内镜像，如阿里的魔搭。