Meta a dévoilé l’état actuel de ses recherches en matière d’intelligence artificielle, en présentant notamment Movie Gen. Il s’agit d’un modèle d’IA générative qui permettra de créer et d’éditer des vidéos et de l’audio à partir de simples instructions textuelles. Movie Gen se distingue par sa capacité à produire des contenus personnalisés, fidèles, tout en facilitant l’édition précise des vidéos. Ce nouveau modèle de Meta vient se positionner face à des concurrents comme Runway, déjà populaire, ou Sora d’OpenAI et Firefly d’Adobe, eux aussi présentés cette année, mais encore inaccessibles.
Movie Gen, un générateur de vidéo par IA pas tout à fait comme les autres ?
Movie Gen est présenté par Meta comme un outil devant “aider à stimuler la créativité” des “aspirants producteurs de films” comme des “créateurs qui aiment produire des vidéos pour leur audience”.
Movie Gen : de quoi s’agit-il ?
Il s’agit donc d’une IA générative, devant être capable de produire des vidéos à partir d’un prompt et/ou d’une image, mais également du son et l’édition avancée des séquences.
Nos dernières recherches démontrent qu’il est possible de créer des vidéos et des sons personnalisés à partir de simples instructions textuelles, de modifier des vidéos existantes et de transformer une image personnelle en une vidéo unique.
Avec son modèle entraîné sur 30 milliards de paramètres, Movie Gen sera capable de produire des séquences de 16 secondes à une cadence de 16 images par seconde, proposant un rendu en 768 pixels de large. Meta promet que son modèle “surclasse” les concurrents actuels, notamment car il excelle dans la création de mouvements réalistes, les interactions objet-sujet et les mouvements de caméra.
Quelles sont les capacités de Movie Gen de Meta ?
Movie Gen combine quatre capacités principales pour répondre aux besoins de création : génération de vidéos, création personnalisée, édition avancée et production audio synchronisée.
- Génération de vidéos à partir de texte : Movie Gen est capable de créer des vidéos de 16 secondes à partir de simples descriptions textuelles, avec un rendu haute qualité et des mouvements réalistes. Il peut interpréter des éléments complexes comme les interactions sujet-objet et les dynamiques de caméra.
- Création de vidéos personnalisées : le modèle permet de générer des vidéos mettant en scène une personne spécifique à partir de son image et d’un prompt textuel.
- Édition vidéo avancée : Movie Gen se distingue par son potentiel quant à la précision de l’édition vidéo. Les utilisateurs devraient pouvoir ajouter, supprimer ou modifier des éléments spécifiques dans une vidéo existante sans affecter les autres parties du contenu. Ils pourront aussi appliquer des modifications globales comme le changement de style ou d’arrière-plan, sans transformer la structure de la séquence.
- Production audio : le modèle prend en charge la création de pistes audio jusqu’à 45 secondes, incluant des effets sonores, de la musique et des ambiances, le tout synchronisé avec la vidéo. Une technique d’extension audio doit permettre de gérer des vidéos de durées variées tout en assurant une cohérence audio optimale.
Movie Gen : une IA encore en développement, comme Sora
Actuellement, Meta n’a pas encore rendu Movie Gen accessible au grand public. L’outil est en phase de recherche et développement, et fait l’objet de tests internes. La société de Mark Zuckerberg envisage de collaborer avec des cinéastes et créateurs pour affiner le modèle avant un lancement plus large. Ces retours doivent permettre d’améliorer les fonctionnalités de génération vidéo et d’édition pour mieux répondre aux attentes des utilisateurs. L’objectif de Meta est de proposer un outil qui aidera “les gens à s’exprimer de nouvelles manières et offrir des opportunités à ceux qui n’en auraient peut-être pas autrement”.
La firme de Menlo Park ajoute “espérer que tout le monde pourra donner vie à ses visions artistiques, créer des vidéos et des contenus audio en haute définition grâce à Movie Gen”. Meta entre ainsi dans un domaine déjà investi par d’autres grands noms de l’IA. OpenAI, maison-mère de ChatGPT, développe Sora, son modèle de génération vidéo, a priori plus limité en termes d’édition que Movie Gen. De son côté, Adobe prépare Firefly Video, un modèle qui cible d’abord les créateurs professionnels. Meta semble vouloir se distinguer avec une solution combinant personnalisation et précision, tout en restant accessible à un public plus large.