Créer un avatar vidéo photoréaliste avec ComfyUI, Animate 2.2

Introduction

Parler face caméra reste l’un des formats les plus efficaces en vidéo.
Mais c’est aussi l’un des plus contraignants : disponibilité des intervenants, tournage, décor, répétitions, cohérence d’un contenu à l’autre.

Depuis quelques mois, les avatars vidéo générés par l’IA suscitent beaucoup d’intérêt.
Souvent spectaculaires, parfois bluffants… mais rarement crédibles, notamment dès qu’il s’agit de tenir un plan face caméra.

La question n’est donc pas de savoir si l’on peut “créer un visage”.
La vraie question est ailleurs : peut-on préserver une prise de parole, avec son rythme, ses expressions et sa synchronisation labiale, tout en changeant le personnage, le décor ou l’esthétique ?

C’est précisément ce que j’ai voulu tester à travers ce use case d’avatar vidéo, réalisé avec ComfyUI et Wan Animate 2.2.

Etude de cas : avatar vidéo avec Wan Animate 2.2

Pourquoi Wan Animate 2.2 ?

Dans l’écosystème ComfyUI, Wan Animate 2.2 permet de transférer une performance vidéo vers un autre personnage. Il est disponible en natif dans les workflows de ComfyUI.

L’objectif n’est pas de “générer un visage”, mais de préserver une prise de parole : rythme, expressions du visage et synchronisation labiale.

Concrètement, lorsque je crée un personnage, qu’il soit photoréaliste ou dessiné, je peux le faire parler, de manière crédible !

Démonstration

Dans la démo présentée ici :

le personnage est remplacé

le décor peut changer

la direction artistique également

Tout en conservant le même message, la même diction, la synchronisation des lèvres !

Ce n’est pas un effet spectaculaire, mais un test de crédibilité : est-ce qu’un avatar peut aujourd’hui tenir un plan face caméra sans casser l’illusion ?

Logique de workflow

Le workflow ComfyUI utilisé repose sur une structure simple mais rigoureuse :

gestion de la vidéo source

animation via Wan Animate

contrôle de la stabilité visuelle d’une frame à l’autre

ajustements précis du rendu

une fois validé en SD, je peux décliner vers du 2K ou 4K, sur un autre workflow d’upscale.

Synchronisation labiale : Bluffant si...

La synchronisation labiale fonctionne bien si :

la vidéo source est stable et lisible

la diction est claire

les mouvements restent modérés

Wan Animate 2.2 ne corrige pas une mauvaise prise de vue.

À quoi servent vraiment les avatars vidéo aujourd’hui ?

Au-delà de la démonstration technique, les avatars vidéo ouvrent déjà des usages très concrets :

contenus pour les réseaux sociaux, par exemple la présentation ou la démonstration d’un produit à l’aide d’un mannequin virtuel

déclinaisons rapides d’un même message, adaptées à différents formats ou plateformes

présence vidéo sans contrainte de tournage, même lorsque les intervenants ne sont pas disponibles

transformation de l’apparence d’un·e comédien·ne, notamment pour des effets de de-aging ou de vieillissement

Pour les créatifs et studios, c’est un nouvel outil narratif.

Pour les agences et marques, un levier de flexibilité et d’économie – à condition de rester exigeant sur la direction artistique.

Conclusion

Créer un avatar vidéo avec ComfyUI et Wan Animate 2.2 est aujourd’hui tout à fait possible de manière crédible.

Mais ce n’est ni automatique, ni magique.

Ce use case montre surtout une chose :

l’IA devient réellement intéressante lorsqu’on cesse de la traiter comme un bouton à presser, et qu’on l’aborde comme un outil de création à part entière.

Pierre LAFOUGE

Je suis réalisateur et fondateur de Hollymotion, studio créatif spécialisé en Motion Design. Créatif et stratégique, je vous partage ici mes aventures, mes découvertes, et quelques astuces que j’ai apprises en chemin.

Pour suivre mes contenus, venez me rejoindre sur LinkedIn ou Instagram 👋