Les chercheurs en intelligence artificielle de Meta dévoilent une avancée en matière de traduction automatisée ce 19 octobre 2022. Il s’agit de la prise en charge du hokkien, une langue associée à l’ethnie Hoklo, originaire de Chine, et parlée dans certaines régions de l’Empire du Milieu ainsi qu’à Taïwan (dont c’est l’une des langues officielles) et dans la plupart des pays d’Asie du Sud-Est. Le système permet de traduire du hokkien vers l’anglais et vice versa.
L’innovation est qu’il s’agit d’une langue orale, sans forme écrite formalisée. Les systèmes de traduction automatique s’appuient en effet uniquement sur la forme écrite. Même dans le cas d’une traduction de la voix à la volée, le système est découpé en briques logicielles qui gèrent la transcription de la parole en texte, la traduction et la synthèse vocale du texte traduit en parole.
Une autre approche de la traduction
Par opposition, le projet “Universal Speech Translator” de Meta, annoncé en février, se concentre sur la traduction directe de la voix vers la voix. Son objectif affiché est de permettre en temps réel la traduction de plusieurs centaines de langues les unes vers les autres, ce qui implique notamment de ne plus passer systématiquement par l’anglais comme c’est le cas pour beaucoup de systèmes aujourd’hui. Ces derniers ne se sont pas traduits en effet directement le français vers le japonais par exemple, mais du français vers l’anglais, puis de l’anglais vers le japonais.
L’idée est de pouvoir prendre en charge certaines langues moins utilisées, et surtout pour qu’il n’existe pas de base de textes communs avec l’anglais qui puisse servir pour l’entraînement des modèles d’IA. Les équipes de Meta soulignent à juste titre que sur les 7000 langues actuellement en usage dans le monde, plus de 40% n’ont pas de forme écrite.
Un démonstrateur encore loin du temps réel
Le premier défi à relever fut donc d’entraîner ce modèle. Les chercheurs se sont appuyés sur le mandarin comme langue intermédiaire pour créer des bases de référence du hokkien vers l’anglais. Ils ont également utilisé une technique d’encodage de voix pour créer des équivalences entre échantillons vocaux hokkien et anglais. Il a également fallu convertir des échantillons pour pouvoir les traiter, puis évaluer la qualité des traductions en résultant. Pour ce faire, Meta a utilisé un barème appelé ASR-BLEU, qui compare une transcription de la traduction automatique à une traduction humaine.
Là encore, l’absence de forme écrite de la langue rendait impossible l’approche classique, et Meta a donc développé un système pour convertir les échantillons hokkien en un système de notation phonétique appelé Tâi-Iô. Ils ont ensuite calculé la partition “BLEU” en se basant sur les syllabes. Le modèle, les données qui ont servi à l’entraînement et le benchmark pour juger de la qualité de la traduction seront mis à disposition de la communauté scientifique en open source.
Le modèle n’est capable que de traduire une seule phrase à la fois dans son état actuel, et ne fonctionne que vers et depuis l’anglais, mais Meta le présente comme une preuve que cette approche est viable. Les chercheurs compétents étendent cette technique à d’autres langues orales et ont bon espoir qu’une vraie traduction en temps réel soit possible à terme.
Ils vont notamment mettre à disposition une large base de traductions de la voix à la voix (speech-to-speech) qui ont été “data mined” par une technique développée en interne, appelée Laser. Elle contient 418 000 heures couvrant 272 paires de langues, dont plus de 8000 heures de parole en hokkien. L’objectif est que d’autres chercheurs créent leurs propres systèmes de traduction.
Sélectionné pour vous