Facebook a présenté un nouveau modèle d'IA open source capable de traduire entre 100 langues sans passer par l'anglais, pour des résultats plus précis et efficaces.
Dans un article de blog officiel, Facebook détaille son modèle de traduction multilingue (MMT), baptisé M2M-100. Ce système open source traduit entre n'importe quelle paire de 100 langues, sans recourir à des données en anglais.
Projet de recherche prometteur, M2M-100 surmonte les limites des modèles traditionnels. Angela Fan, chercheuse chez Facebook AI, explique que les approches classiques utilisent des modèles séparés par langue ou l'anglais comme intermédiaire, ce qui nuit à l'efficacité et à la précision.
En éliminant l'anglais, M2M-100 produit des traductions supérieures. Comme l'indique Fan :
Lors de la traduction du chinois vers le français, les modèles centrés sur l'anglais s'entraînent via l'anglais faute de données directes. Notre modèle s'entraîne directement sur des paires chinois-français pour mieux préserver le sens.
M2M-100 traduit bidirectionnellement entre 100 langues, grâce à un ensemble de données inédit de 7,5 milliards de paires de phrases, le plus diversifié à ce jour.
L'équipe a extrait des données web en priorisant les langues à fort besoin, les regroupant en 14 clusters par similarités, et utilisant des langages-ponts pour générer 2 200 directions de traduction. Pour les langues rares, la rétro-traduction a créé des données synthétiques.
Ce processus avance Facebook vers un modèle universel couvrant toutes les langues, dialectes et modalités.
Avec 20 milliards de traductions par jour sur son fil d'actualité, Facebook optimisera ce processus via cette IA. Bien que non encore déployé, M2M-100 bénéficiera aux utilisateurs internationaux.