Après la présentation de Make-A-Video par Meta, Google réplique. L’entreprise a dévoilé Imagen Video, son système de création de vidéo à partir d’une description écrite. Cette annonce fait suite à la présentation de Google Imagen (une solution pour transformer du texte en images) il y a quelques mois seulement, ce qui laisse supposer que ces nouveaux modèles d’intelligence artificielle transformant du texte en vidéo ont été développés très rapidement.
Des vidéos en résolution 1280 x 768
Google assure être capable de produire des vidéos d’une résolution de 1280 x 768 pixels avec 24 images par seconde à partir d’un texte. L’entreprise explique “confirmer et transférer les résultats des travaux antérieurs sur la génération d’images basées sur les modèles de diffusion à la génération de vidéo.” Sur le site sont visibles des vidéos comme “un ours en peluche courant dans New York”, “un drone survole une forêt tropicale recouverte de neige”, “un ours en peluche fait la vaisselle”.
Pour parvenir à ce résultat, Google s’appuie sur Imagen. Pour cette première solution traduite du texte en image, l’entreprise explique s’appuyer sur les grands modèles de compréhension du langage ainsi que sur des modèles de diffusion pour générer des images haute-fidélité. Google assure que les grands modèles de langage générique (comme T5) pré-entraînés sur des corpus de texte uniquement sont efficaces pour transformer du texte en image.
L’augmentation de la taille du modèle de langage dans Imagen améliore à la fois la fidélité de l’échantillon et le respect de l’image par rapport au texte, plus que d’augmentation la taille du modèle de diffusion de l’image. A la clé, l’entreprise promet “un degré de photoréalisme sans précédent”.
Des modèles entraînés sur plusieurs bases de données
Pour Imagen Video, Google entraîne son modèle sur la base de données image-texte en open source LAION-400M ainsi qu’avec 14 millions de données rapprochant une vidéo et un texte et 60 millions de données rapprochant une image et un texte. Une première vidéo est diffusée à partir du texte avec 3 images par seconde en résolution 24 x 48. Puis, cette vidéo est mise à l’échelle et des images supplémentaires sont créées par le modèle pour obtenir le rendu final.
Pour Imagen Video, Google assure pouvoir produire des vidéos sur la base du travail de certains peintres célèbres, pouvoir produire des objets rotatifs 3D tout en préservant la structure de cet objet, et pouvoir avoir un rendu dans différents styles d’animation.
Cependant Google a conscience que “ces modèles génératifs peuvent être utilisés à mauvais escient, par exemple pour générer des contenus faux, haineux, explicites ou préjudiciables.” Des filtres sont mis en place pour limiter de tels usages, mais “il existe toujours des préjugés sociaux et des stéréotypes difficiles à détecter et à filtrer”. Google ne souhaite donc pas diffuser le modèle Imagen Video ou son code source jusqu’à ce que ce problème soit résolu. Un point essentiel à l’heure où les fake news et autres deepfakes sont largement diffusées sur Internet.