AniPortrait——腾讯推出的一个音频驱动的真实肖像动画合成框架

AniPortrait 是腾讯推出的一个音频驱动的真实肖像动画合成框架

它能通过先进的算法，仅凭一段音频和一张静态照片，生成逼真的动态人脸动画。该技术通过捕捉音频中的语音模式、情感和节奏，并将这些信息应用到静态图片上，使之生成动态的、表情丰富的肖像动画，还能捕捉到面部的微妙表情变化，展现出高度的灵活性和多样性。此外，AniPortrait 还支持人脸重绘，添加一张照片和一段源人脸视频，就可以把照片中人物替换到源视频中。

AniPortrait 的工作原理主要分为两个阶段2：

Audio2Lmk 阶段：利用基于 transformer 的模型从音频中提取一系列 3D 面部网格和头部姿势，然后投影到 2D 面部关键点上。
- 首先，使用预训练的 wav2vec 模型来提取音频特征，该模型能够准确识别音频中的发音和语调。
- 然后，利用这些音频特征，通过两个全连接层转换成 3D 面部网格。
- 对于头部姿势的预测，同样使用 wav2vec 网络作为骨干，但不共享权重，因为姿势与音频中的节奏和语调更为相关。这样可以捕捉到微妙的表情、嘴唇运动和与音频同步的头部运动，为后续的动画生成提供基础。
Lmk2Video 阶段：结合强大的扩散模型和运动模块，将面部关键点序列转换为时间连贯且逼真的动态人像。
- 利用 Stable Diffusion 1.5 模型和 AniPortrait 的网络架构，生成流畅逼真的视频。
- 特别优化了姿势引导模块，采用 ControlNet 的多尺度策略，将关键点特征合并到不同的骨干模块中，以捕捉复杂的嘴唇运动。同时，引入了参考图像关键点作为额外输入，并通过 PoseGuider 的交叉注意力模块促进关键点之间的交互，提高了生成人像动画的运动精度，确保动画中的面部与原始照片保持一致，最终生成既真实又流畅的人脸动画。

ANIPORTRAIT官网：https://github.com/Zejun-Yang/AniPortrait