Intel et Blockade Labs ont publié via un article de blog des informations sur leur développement conjoint d’un modèle d’apprentissage automatique appelé “LDM3D» (Modèle de Diffusion Latente pour 3D) pour générer des images et des cartes de profondeur associés basés sur des descriptions textuelles en langage naturel.
Le modèle a été formé à l’aide de l’ensemble de données ouvertes LAION-400M. Préparé par la communauté LAION (Large-Scale Artificial Intelligence Open Network), qui développe des outils, des modèles et des collections de données pour créer des systèmes d’apprentissage automatique gratuits. La collection LAION-400M comprend 400 millions d’images avec des descriptions textuelles.
En plus des images et de leurs descriptions textuelles, les cartes de profondeur sont également utilisées lors de la formation du modèle LDM3D, généré pour chaque image à l’aide du système d’apprentissage automatique DPT (Dense Prediction Transformer), qui vous permet de prédire la profondeur relative de chaque pixel d’une image plate.
Intel Labs, en collaboration avec Blockade Labs, a présenté le modèle de diffusion latente pour la 3D (LDM3D), le premier modèle de diffusion de l’industrie qui offre une cartographie en profondeur pour créer des images 3D avec des vues à 360 degrés vives et immersives. .
LDM3D a le potentiel de révolutionner la création de contenu, les applications métavers et les expériences numériques, transformant un large éventail d’industries, du divertissement et des jeux à l’architecture et au design.
Par rapport aux technologies de prédiction de profondeur en post-traitement, le modèle LDM3D, initialement formé profondément, fournit des informations de profondeur plus précises en phase de génération. Un autre avantage du modèle est la possibilité de générer des données de profondeur sans augmenter le nombre de paramètres : le nombre de paramètres dans le modèle LDM3D est approximativement le même que dans le dernier modèle de diffusion stable.
Pour démontrer les capacités du modèle L’application DepthFusion a été préparéeQuoi vous permet de créer des environnements interactifs pour une visualisation en mode 360 degrés à partir d’images RVB bidimensionnelles et de cartes de profondeur.
LDM3D permet aux utilisateurs de générer une image et une carte de profondeur à partir d’un message texte donné en utilisant presque le même nombre de paramètres.
LDM3D est écrit en TouchDesigner, un langage de programmation visuel adapté à la création de contenu multimédia interactif en temps réel. Le modèle LDM3D peut également être utilisé pour générer et modifier des images basées sur un modèle proposé, projeter le résultat sur une sphère pour créer un environnement, générer des images basées sur différentes positions d’observateur et générer une vidéo basée sur le mouvement de la caméra virtuelle.
La technologie proposée est censée avoir un grand potentiel pour créer de nouvelles méthodes de l’interaction utilisateur, qui peut être demandée dans diverses industries, du divertissement et des jeux à l’architecture et au design. Par exemple, LDM3D peut être utilisé pour créer des musées interactifs et des environnements de réalité virtuelle qui génèrent des environnements détaillés basés sur les désirs du langage naturel.
Le développement ressemble au système de synthèse d’images Stable Diffusion, mais permet la formation de contenu visuel en trois dimensions, comme des images panoramiques sphériques qui peuvent être visualisées en mode 360 degrés. Sur le plan pratique, le modèle peut être utilisé dans des jeux et des systèmes de réalité virtuelle pour la formation interactive d’environnements tridimensionnels.
Le modèle LDM3D est formé sur un supercalculateur Intel AI avec des processeurs Intel® Xeon® et des accélérateurs Intel® Habana Gaudi® AI.
Pour ceux qui sont intéressés par le projet, ils doivent savoir que un modèle prêt à l’emploi est proposé en téléchargement gratuit pour les systèmes d’apprentissage automatique, qui peut être utilisé avec PyTorch et un code conçu pour générer des images à l’aide de modèles du projet Stable Diffusion.
Il convient de mentionner que le modèle est distribué sous la licence permissive Creative ML OpenRAIL-M, qui permet une utilisation commerciale. La distribution sous licence ouverte permet aux chercheurs et développeurs intéressés d’améliorer le modèle en fonction de leurs besoins et de l’optimiser pour des applications hautement spécialisées.
Enfin, si vous souhaitez en savoir plus, vous pouvez consulter les détails dans le lien suivant.