Meta veut favoriser la recherche autour de l’intelligence artificielle et plus particulièrement des modèles de langage. L’entreprise a annoncé le 3 mai 2022, dans un poste de blog, partager Open Pretrained Transformer (OPT-175B), un modèle de langage avec 175 milliards de paramètres formés sur des ensembles de données accessibles au public. OPT-175B comprend les modèles pré-entraînés ainsi que le code nécessaire pour les entraîner et les utiliser.
“Pour préserver l’intégrité et prévenir les abus, nous publions notre modèle sous une licence non commerciale pour nous concentrer sur les cas d’usage de la recherche”, écrit Méta. Les universités et laboratoires de recherche peuvent accéder à ces données.
Comprendre le fonctionnement des modèles
Un modèle de langage est un modèle statistique construit à partir de la distribution de séquences de mots dans une langue naturelle. Le but est, par exemple, de prédire le mot suivant une séquence de mot. Les grands modèles de langage, comme les systèmes de traitement du langage naturel (NLP pour natural language processing), ont plus de 100 milliards de paramètres. Ces algorithmes sont entraînés grâce à des volumes massifs et variés de textes. Le but est qu’ils peuvent générer des textes créatifs, résoudre des problèmes mathématiques de base, répondre à des questions de compréhension de lecture…
Les particuliers peuvent interagir avec ces modèles parfois ou être confrontés à des décisions qui s’appuient sur ces modèles. Mais l’accès complet aux recherches dans ce domaine est limité à quelques laboratoires disposant de ressources suffisantes. Il est donc compliqué pour les chercheurs de comprendre comment ces modèles de langage fonctionnent. Des points essentiels pour améliorer la robustesse des algorithmes et réduire les problèmes liés aux biais qui peuvent perpétuer des préjugés autour de la couleur de peau, du sexe ou de la religion.
Compte tenu de l’utilisation des modèles de langage, il est essentiel que la société civile, les universitaires, les entreprises et les décideurs travaillent à élaborer des directives claires concernant l’intelligence artificielle et les grands modèles de langage.