Facebook a dévoilé un nouveau modèle d'IA open source capable de traduire entre 100 langues différentes. Son modèle d'IA n'a même pas besoin de convertir le texte existant en anglais, ce qui permet une traduction plus efficace et précise.
Dans un article de blog À propos de Facebook, la plateforme a détaillé son nouveau modèle de traduction automatique multilingue (MMT), également connu sous le nom de M2M-100. Chose impressionnante, ce modèle de machine learning open source "peut traduire entre n'importe quelle paire de 100 langues sans s'appuyer sur des données en anglais".
Bien qu'il s'agisse encore d'un projet de recherche, il est très prometteur. Angela Fan, assistante de recherche chez Facebook, a noté que les modèles de traduction automatique "typiques" utilisent des modèles différents pour chaque langue, ce qui les rend incroyablement inefficaces pour les grandes plateformes comme Facebook.
Même les modèles avancés ne suffisent pas, car ils utilisent l'anglais comme intermédiaire entre les langues. Cela signifie que le système doit d'abord traduire le texte source en anglais, puis le traduire dans la langue cible.
Les modèles basés sur l'anglais ne produisent pas les meilleures traductions. Fan note qu'en supprimant l'anglais de l'image, le système MMT de Facebook peut produire des traductions plus précises, en déclarant :
Lors de la traduction, par exemple, du chinois vers le français, la plupart des modèles multilingues centrés sur l'anglais s'entraînent du chinois vers l'anglais et de l'anglais vers le français, car les données de formation en anglais sont les plus largement disponibles. Notre modèle s'entraîne directement sur les données du chinois vers le français pour mieux préserver le sens.
Ainsi, au lieu d'utiliser l'anglais comme un pont, le modèle MMT de Facebook peut traduire dans les deux sens entre 100 langues différentes. Selon Fan, Facebook a construit "l'ensemble de données MMT plusieurs à plusieurs le plus diversifié à ce jour", qui se compose de 7,5 milliards de paires de phrases pour 100 langues.
Pour accomplir cet exploit, l'équipe de recherche a extrait des données de traduction linguistique sur le Web, en se concentrant d'abord sur les langues "avec le plus de demandes de traduction". Les chercheurs ont ensuite classé ces langues en 14 groupes en fonction de caractéristiques communes.
À partir de là, les chercheurs ont établi des langages de pont pour chaque groupe et extrait des données de formation pour toutes les combinaisons possibles. Cela a abouti à 7,5 milliards de phrases parallèles dans 2 200 directions.
Et en ce qui concerne les langues moins répandues, Facebook a utilisé ce qu'on appelle la rétro-traduction pour créer des traductions synthétiques.
L'ensemble de ce processus rapproche l'équipe d'IA de Facebook de son objectif de créer un "modèle unique compatible avec toutes les langues, tous les dialectes et toutes les modalités".
Facebook effectue déjà 20 milliards de traductions chaque jour sur son fil d'actualité, et Facebook AI ne fera que rendre le processus plus efficace. Bien que le nouveau modèle de traduction n'ait pas encore été mis en œuvre, il sera certainement utile pour les utilisateurs internationaux de Facebook qui ont besoin de traductions spécifiques.