Un élève colorie un renard pendant un cours de langue autochtone quechua axé sur les noms d'animaux dans une école primaire publique de Licapa, au Pérou, le mercredi 1er septembre 2021. Environ 10 millions de personnes parlent quechua, mais essaient de traduire automatiquement les e-mails et les SMS dans la famille de langues autochtones la plus parlée des Amériques était presque impossible avant que Google ne l'introduise dans son service de traduction numérique le mercredi 11 mai 2022. Le géant de l'Internet affirme que la nouvelle technologie d'intelligence artificielle lui permet d'élargir considérablement le répertoire de Google Translate des langues, en ajoutant 24 autres cette semaine, dont le quechua et d'autres langues autochtones d'Amérique du Sud telles que le guarani et l'aymara. Crédit :AP Photo/Martin Mejia, Fichier
Environ 10 millions de personnes parlent quechua, mais essayer de traduire automatiquement les e-mails et les SMS dans la famille de langues autochtones la plus parlée des Amériques a longtemps été presque impossible.
Cela a changé mercredi, lorsque Google a ajouté le quechua et une variété d'autres langues à son service de traduction numérique.
Le géant de l'Internet affirme que la nouvelle technologie d'intelligence artificielle lui permet d'élargir considérablement le répertoire de Google Translate des langues du monde. Il en a ajouté 24 cette semaine, dont le quechua et d'autres langues autochtones d'Amérique du Sud telles que le guarani et l'aymara. Il ajoute également un certain nombre de langues africaines et sud-asiatiques largement parlées qui manquaient dans les produits technologiques populaires.
"Nous avons examiné les langues avec de très grandes populations mal desservies", a déclaré Isaac Caswell, chercheur chez Google, aux journalistes.
Les nouvelles de la vitrine annuelle de la technologie d'E / S de la société californienne peuvent être célébrées dans de nombreux coins du monde. Mais cela attirera probablement les critiques de ceux qui sont frustrés par les produits technologiques précédents qui n'ont pas compris les nuances de leur langue ou de leur culture.
Le quechua était la lingua franca de l'empire inca, qui s'étendait de ce qui est aujourd'hui le sud de la Colombie au centre du Chili. Son statut a commencé à décliner suite à la conquête espagnole du Pérou il y a plus de 400 ans.
L'ajouter aux langues reconnues par Google est une grande victoire pour les militants de la langue quechua comme Luis Illaccanqui, un Péruvien qui a créé le site Web Qichwa 2.0, qui comprend des dictionnaires et des ressources pour apprendre la langue.
"Cela contribuera à mettre le quechua et l'espagnol sur le même statut", a déclaré Illaccanqui, qui n'était pas impliqué dans le projet de Google.
Illaccanqui, dont le nom de famille en quechua signifie "tu es l'éclair", a déclaré que le traducteur contribuera également à maintenir la langue vivante auprès d'une nouvelle génération de jeunes et d'adolescents, "qui parlent quechua et espagnol en même temps et sont fascinés par réseaux sociaux."
L'enseignante Carmen Cazorla écrit dans la langue indigène quechua lors d'un cours sur les plantes médicinales dans une école primaire publique de Licapa, au Pérou, le mercredi 1er septembre 2021. Environ 10 millions de personnes parlent quechua, mais essaient de traduire automatiquement les e-mails et les SMS en la famille de langues autochtones la plus parlée des Amériques était presque impossible avant que Google ne l'introduise dans son service de traduction numérique le mercredi 11 mai 2022. Le géant de l'Internet affirme que la nouvelle technologie d'intelligence artificielle lui permet d'élargir considérablement le répertoire de Google Traduction des langues du monde , en ajoutant 24 autres cette semaine, dont le quechua et d'autres langues autochtones d'Amérique du Sud telles que le guarani et l'aymara. Crédit :AP Photo/Martin Mejia
Caswell a qualifié la nouvelle de "très grand pas en avant technologique" car jusqu'à récemment, il n'était pas possible d'ajouter des langues si les chercheurs ne pouvaient pas trouver une quantité suffisante de textes en ligne - tels que des livres numériques, des journaux ou des publications sur les réseaux sociaux - pour leur Des systèmes d'IA pour apprendre.
Les géants américains de la technologie n'ont pas fait leurs preuves en matière de bon fonctionnement de leur technologie linguistique en dehors des marchés les plus riches, un problème qui leur a également rendu plus difficile la détection de fausses informations dangereuses sur leurs plateformes. Jusqu'à cette semaine, Google Traduction était proposé dans des langues européennes telles que le frison, le maltais, l'islandais et le corse, chacune comptant moins d'un million de locuteurs, mais pas dans les langues d'Afrique de l'Est telles que l'oromo et le tigrinya, qui comptent des millions de locuteurs.
Les nouvelles langues seront déployées cette semaine. Ils ne seront pas encore compris par l'assistant vocal de Google, qui les limite pour l'instant à des traductions de texte à texte. Google a déclaré qu'il travaillait sur l'ajout de la reconnaissance vocale et d'autres fonctionnalités, telles que la possibilité de traduire un panneau en pointant une caméra dessus.
Cela sera important pour les langues largement parlées comme le quechua, en particulier dans le domaine de la santé, car de nombreux médecins et infirmières péruviens qui ne parlent que l'espagnol travaillent dans les zones rurales et "sont incapables de comprendre les patients qui parlent principalement le quechua", a déclaré Illaccanqui.
"La prochaine frontière, ou défi, est de travailler sur la parole", a déclaré Arturo Oncevay, un chercheur péruvien en traduction automatique à l'Université d'Édimbourg qui a cofondé une coalition de recherche pour améliorer la technologie des langues autochtones à travers les Amériques. "Les langues indigènes des Amériques sont traditionnellement orales."
Dans son annonce, Google a averti que la qualité des traductions dans les langues nouvellement ajoutées "est encore loin derrière" les autres langues qu'il prend en charge, telles que l'anglais, l'espagnol et l'allemand, et a noté que les modèles "feront des erreurs et montreront leurs propres préjugés". " Mais l'entreprise n'a ajouté de langues que si ses systèmes d'IA atteignaient un certain seuil de compétence, a déclaré Caswell.
"S'il y a un nombre important de cas où c'est très mal, alors nous ne l'inclurons pas", a-t-il déclaré. "Même si 90 % des traductions sont parfaites, mais que 10 % sont des bêtises, c'est un peu trop pour nous."
Google a déclaré que ses produits prennent désormais en charge 133 langues. Les 24 dernières sont le plus grand lot à être ajouté depuis que Google a intégré 16 nouvelles langues en 2010. Ce qui a rendu l'expansion possible, c'est ce que Google appelle un modèle de traduction automatique « zero-shot » ou « zéro ressource », qui apprend à traduire dans une autre langue sans jamais en voir un exemple.
L'année dernière, Meta, la société mère de Facebook et d'Instagram, a lancé un concept similaire appelé Universal Speech Translator.
Des livres écrits en langue indigène quechua sont assis derrière un élève lors d'un cours sur les plantes médicinales, dans une école primaire publique de Licapa, au Pérou, le mercredi 1er septembre 2021. Environ 10 millions de personnes parlent quechua, mais essaient de traduire automatiquement les e-mails et les messages texte dans la famille de langues autochtones la plus parlée des Amériques étaient presque impossibles avant que Google ne l'introduise dans son service de traduction numérique le mercredi 11 mai 2022. Le géant de l'Internet affirme que la nouvelle technologie d'intelligence artificielle lui permet d'élargir considérablement le répertoire de Google Translate de les langues du monde, en ajoutant 24 autres cette semaine, dont le quechua et d'autres langues autochtones d'Amérique du Sud telles que le guarani et l'aymara. Crédit :AP Photo/Martin Mejia
Le modèle de Google fonctionne en formant un "modèle unique d'IA neuronale gigantesque" sur environ 100 langages riches en données, puis en appliquant ce qu'il a appris à des centaines d'autres langages qu'il ne connaît pas, a déclaré Caswell. "Imaginez que vous soyez un grand polyglotte et que vous commenciez simplement à lire des romans dans une autre langue, vous pouvez commencer à reconstituer ce que cela pourrait signifier en fonction de votre connaissance de la langue en général", a-t-il déclaré.
Il a déclaré que le nouveau groupe allait de langues plus petites comme le mizo, parlées dans le nord-est de l'Inde par environ 800 000 personnes, à des langues plus largement parlées comme le lingala, parlé par environ 45 millions de personnes en Afrique centrale.
Il y a plus de 15 ans, en 2006, Microsoft a attiré l'attention en Amérique du Sud avec une fonctionnalité logicielle traduisant les menus et commandes familiers de Microsoft en quechua. Mais c'était avant la vague actuelle d'avancées de l'IA dans la traduction en temps réel.
Américo Mendoza-Mori, spécialiste des langues à l'Université de Harvard, qui parle le quechua, a déclaré que l'attention de Google apportait une visibilité nécessaire à la langue dans des endroits comme le Pérou, où les locuteurs du quechua manquent encore dans de nombreux services publics. La survie de bon nombre de ces langues "dépendra de leur utilisation dans des contextes numériques", a-t-il déclaré.
Un autre spécialiste des langues, Roberto Zariquiey, s'est dit sceptique quant à la capacité de Google à créer un outil efficace de revitalisation linguistique pour le quechua, l'aymara ou le guarani sans une participation plus étroite des groupes communautaires de la région.
"Les langues sont profondément liées aux vies, aux cultures, aux groupes ethniques et aux organisations politiques", a déclaré Zariquiey, linguiste à l'Université pontificale catholique du Pérou. "Cela devrait être pris en compte."
—-
Les nouvelles langues ajoutées sont :Assamais, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sanskrit, Sepedi, Sorani Kurde, Tigrinya, Tsonga et Twi.