Les réseaux sociaux tels que Facebook recherchent une traduction automatique efficace pour toutes les langues du monde et l'intelligence artificielle pourrait détenir la réponse
Les concepteurs d'outils de traduction automatique s'appuient encore principalement sur des dictionnaires pour rendre une langue étrangère compréhensible. Mais maintenant, il y a une nouvelle façon :les nombres.
Les chercheurs de Facebook affirment que traduire les mots en chiffres et exploiter les similitudes mathématiques entre les langues est une voie prometteuse, même si un communicateur universel à la Star Trek reste un rêve lointain.
Une traduction automatique puissante est une grande priorité pour les géants de l'Internet. Permettre au plus grand nombre de personnes dans le monde de communiquer n'est pas seulement un objectif altruiste, mais aussi de bonnes affaires.
Facebook, Google et Microsoft ainsi que le russe Yandex, Le chinois Baidu et d'autres cherchent constamment à améliorer leurs outils de traduction.
Facebook a des experts en intelligence artificielle sur le tas dans l'un de ses laboratoires de recherche à Paris.
Jusqu'à 200 langues sont actuellement utilisées sur Facebook, dit Antoine Bordes, Co-directeur européen de la recherche fondamentale en IA pour le réseau social.
La traduction automatique repose actuellement sur la possibilité de travailler à partir de grandes bases de données de textes identiques dans les deux langues. Mais pour de nombreuses paires de langues, il n'y a tout simplement pas assez de textes parallèles.
C'est pourquoi les chercheurs ont cherché une autre méthode, comme le système développé par Facebook qui crée une représentation mathématique des mots.
Chaque mot devient un "vecteur" dans un espace de plusieurs centaines de dimensions. Les mots qui ont des associations étroites dans la langue parlée se retrouvent également proches les uns des autres dans cet espace vectoriel.
Du basque à l'amazonien ?
"Par exemple, si vous prenez les mots 'chat' et 'chien', sémantiquement, ce sont des mots qui décrivent une chose similaire, ils seront donc extrêmement proches physiquement" dans l'espace vectoriel, dit Guillaume Lmple, l'un des concepteurs du système.
"Si vous prenez des mots comme Madrid, Londres, Paris, qui sont des capitales européennes, c'est la même idée."
Ces cartes linguistiques peuvent ensuite être liées les unes aux autres à l'aide d'algorithmes - d'abord grossièrement, mais finit par s'affiner, jusqu'à ce que des phrases entières puissent être mises en correspondance sans trop d'erreurs.
Lample a déclaré que les résultats sont déjà prometteurs.
Pour la paire de langues anglais-roumain, Le système de traduction automatique actuel de Facebook est « égal ou peut-être un peu pire » que le système de mots vectoriels, dit Lampe.
Mais pour la paire de langues plus rare anglais-ourdou, où le système traditionnel de Facebook n'a pas beaucoup de textes bilingues à référencer, le mot système vectoriel est déjà supérieur, il a dit.
Mais la méthode pourrait-elle permettre la traduction de, dire, basque dans la langue d'une tribu amazonienne ?
En théorie, Oui, dit Lampe, mais en pratique, un grand nombre de textes écrits sont nécessaires pour cartographier la langue, quelque chose qui manque aux langues tribales amazoniennes.
"Si vous n'avez que des dizaines de milliers de phrases, ça ne marchera pas. Il vous en faut plusieurs centaines de milliers, " il a dit.
'Saint Graal'
Des experts du centre scientifique national du CNRS en France ont déclaré que l'approche adoptée par Lample pour Facebook pourrait produire des résultats utiles, même si cela n'aboutit pas à des traductions parfaites.
Thierry Poibeau du laboratoire Lattice du CNRS, qui fait aussi des recherches sur la traduction automatique, a appelé le mot approche vectorielle « une révolution conceptuelle ».
Il a déclaré que "traduire sans données parallèles" - des dictionnaires ou des versions des mêmes documents dans les deux langues - "est quelque chose du Saint Graal" de la traduction automatique.
"Mais la question est de savoir à quel niveau de performance peut-on s'attendre" à partir du mot méthode vectorielle, dit Poibeau.
La méthode "peut donner une idée du texte original" mais la capacité d'une bonne traduction à chaque fois reste à prouver.
François Yvon, chercheur au Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur du CNRS, dit « l'enchaînement des langues est beaucoup plus difficile » lorsqu'elles sont très éloignées les unes des autres.
« La manière de désigner les concepts en chinois est complètement différente du français, " il ajouta.
Cependant, même des traductions imparfaites peuvent être utiles, dit Yvon, et pourrait s'avérer suffisant pour suivre les discours de haine, une priorité majeure pour Facebook.
© 2019 AFP