Développement d'un outil de traduction automatique pour aider les demandeurs d'asile à la frontière

Crédit :domaine public CC0

Imaginez que vous fuyez la persécution chez vous, que vous surviviez à un voyage difficile, que vous arriviez dans un nouveau pays pour demander l'asile et que vous soyez refoulé à la frontière parce que personne ne parle votre langue. C'est la réalité pour des centaines de migrants arrivant aux États-Unis en provenance de régions reculées d'Amérique centrale qui ne parlent pas de langues communes, comme l'espagnol ou le portugais.

Une pénurie de traducteurs pour les demandeurs d'asile autochtones parlant des langues traditionnelles signifie que beaucoup doivent attendre des mois, voire des années au Mexique pour demander l'asile, créant un long arriéré dans un système d'immigration déjà débordé.

"Le système d'immigration américain est conçu pour gérer l'anglais et l'espagnol", a déclaré Katy Felkner, titulaire d'un doctorat. étudiant en informatique à l'USC Viterbi School of Engineering, "mais il y a plusieurs centaines de personnes par an qui sont des locuteurs de langues minoritaires, en particulier des langues autochtones du Mexique et d'Amérique centrale, qui ne peuvent accéder à aucune des ressources et l'aide juridique qui existe pour les migrants hispanophones. »

Dans d'autres cas, les personnes sont incapables d'expliquer les menaces qui pèsent sur leur vie dans leur ville natale, ce qui pourrait constituer la base d'une demande d'asile. Lorsque les migrants ne peuvent pas comprendre ou être compris, il n'y a aucun moyen d'établir la menace pour leur sécurité lors d'un "entretien crédible sur la peur" mené par le Département américain de la sécurité intérieure.

Les statistiques sont stupéfiantes :les immigrés demandeurs d'asile sans avocat l'ont emporté dans seulement 13 % de leurs cas, tandis que ceux qui avaient un avocat l'ont emporté dans 74 % de leurs cas, selon une étude de la Fordham Law Review.

Felkner, qui mène ses recherches à l'Institut des sciences de l'information (ISI) de l'USC sous la direction de Jonathan May, professeur agrégé de recherche, travaille à l'élaboration d'une solution :un système de traduction automatique pour les langues indigènes mexicaines et d'Amérique centrale pouvant être utilisé par des organisations fournissant des services juridiques. aide aux réfugiés et demandeurs d'asile.

"Les gens sont directement touchés parce qu'il n'y a pas d'interprètes disponibles pour leur langue dans les organisations d'aide juridique", a déclaré Felkner. "C'est une manière concrète et immédiate d'utiliser le traitement du langage naturel pour le bien social."

"Les gens sont directement touchés parce qu'il n'y a pas d'interprètes disponibles pour leur langue dans les organisations d'aide juridique." Katy Felkner.

Donner une chance équitable aux demandeurs d'asile

Felkner travaille actuellement sur un système pour une langue guatémaltèque, qui est l'une des 25 langues les plus couramment parlées au tribunal de l'immigration ces dernières années, selon le New York Times.

"Nous essayons de fournir un système de traduction approximatif pour permettre aux organisations à but non lucratif et aux ONG qui n'ont pas les ressources nécessaires pour embaucher des interprètes de fournir un certain niveau d'assistance juridique et de donner aux demandeurs d'asile une chance équitable de passer cet entretien de peur crédible", a déclaré Felkner.

L'intérêt de Felkner pour les langues a commencé lors de son diplôme de premier cycle à l'Université de l'Oklahoma, où elle a obtenu un double diplôme en informatique et en lettres, avec un accent sur le latin. Au cours de sa première année d'université, elle a travaillé sur un projet appelé Digital Latin Library, écrivant du code Python pour créer des versions numériques de textes anciens.

"C'est ce qui m'a fait penser à la technologie du langage", a déclaré Felkner. "J'ai appris par moi-même quelques bases du traitement du langage naturel et j'ai fini par me concentrer sur la traduction automatique car je pense que c'est l'un des domaines qui a l'impact humain le plus immédiat, et aussi l'un des problèmes les plus difficiles dans ce domaine."

Alors que Felkner et May se concentrent actuellement sur le développement d'un traducteur texte-texte, l'objectif final, dans des années, est un système de traduction parole-parole multilingue :l'avocat parlerait anglais ou espagnol, et le système traduirait automatiquement dans la langue autochtone du demandeur d'asile, et vice-versa.

Repousser la limite inférieure

Les systèmes de traduction sont formés à l'aide de données parallèles :en d'autres termes, ils apprennent en voyant des paires de traductions, ou le même texte dans les deux langues, au niveau de la phrase. Mais il existe très peu de données parallèles dans les langues autochtones, y compris le kʼicheʼ, bien qu'il soit parlé par environ un million de personnes.

En effet, les données parallèles n'existent que lorsqu'il existe une raison impérieuse de traduire vers ou depuis cette langue. Essentiellement, a déclaré Felkner, si c'est commercialement viable - Disney doublant des films de l'anglais vers l'espagnol, par exemple - ou s'il découle d'une motivation religieuse.

Dans de nombreux cas, en raison de l'influence des missionnaires dans toute l'Amérique latine, la seule source de données parallèle - le même texte dans les deux langues - est la Bible, ce qui ne donne pas beaucoup de travail aux chercheurs.

"Imaginez que vous êtes un anglophone essayant d'apprendre l'espagnol, mais le seul espagnol que vous êtes autorisé à voir est le Nouveau Testament", a déclaré Felkner. "Ce serait assez difficile."

C'est une mauvaise nouvelle pour les modèles d'apprentissage en profondeur gourmands en données utilisés par les systèmes de traduction linguistique qui privilégient la quantité à la qualité.

"Les modèles doivent voir un mot, une phrase, une construction grammaticale plusieurs fois pour voir où cela est susceptible de se produire et à quoi cela correspond dans l'autre langue", a déclaré Felkner. "Mais nous n'avons pas cela pour le kʼicheʼ et d'autres langues autochtones aux ressources extrêmement faibles."

Les chiffres parlent d'eux-mêmes. De l'anglais au kʼicheʼ, Felkner a environ 15 000 phrases de données parallèles et 8 000 phrases de l'espagnol au kʼicheʼ. En revanche, le modèle espagnol-anglais qu'elle a entraîné pour certains travaux de base comportait 13 millions de phrases de données d'entraînement.

"Nous essayons de travailler avec pratiquement aucune donnée", a déclaré Felkner. "Et c'est le cas pour à peu près toutes les langues à faibles ressources, encore plus dans les Amériques."

Une tactique dans le travail existant à faibles ressources utilise comme point de départ des langues étroitement liées et à ressources plus élevées :par exemple, pour traduire de l'anglais vers le roumain, vous commencerez à entraîner le modèle en espagnol.

Mais comme les langues autochtones des Amériques se sont développées séparément de l'Europe et de l'Asie, la majorité d'entre elles ont peu de ressources, et la plupart d'entre elles ont des ressources extrêmement faibles, un terme inventé par Felkner pour décrire une langue avec moins de 30 000 phrases de données parallèles.

"Nous essayons vraiment de repousser la limite inférieure du peu de données dont vous pouvez disposer pour former avec succès un système de traduction automatique", a déclaré Felkner.

Créer quelque chose à partir de rien

Mais Felkner, avec sa formation en linguistique, n'a pas été découragée. Au cours des deux dernières années, elle a travaillé sur la création de données linguistiques pour les modèles en utilisant quelques astuces du métier dans le traitement du langage naturel.

Une tactique consiste à apprendre au modèle à accomplir la tâche abstraite de traduction, puis à le configurer pour qu'il fonctionne sur la langue spécifique en question. "C'est le même principe que d'apprendre à conduire un bus en apprenant d'abord à conduire une voiture", a déclaré Felkner.

Pour ce faire, Felkner a pris un modèle anglais vers espagnol, puis l'a affiné pour Kʼicheʼ vers l'espagnol. Il s'est avéré que cette approche, appelée apprentissage par transfert, s'est révélée prometteuse même dans un cas de ressources extrêmement faibles. "C'était très excitant", a déclaré Felkner. "L'approche d'apprentissage par transfert et la pré-formation à partir d'une langue non étroitement liée n'avaient jamais vraiment été testées dans cet environnement aux ressources extrêmement limitées, et j'ai trouvé que cela fonctionnait."

Elle a également puisé dans une autre ressource :utiliser des livres de grammaire publiés par des linguistes de terrain entre le milieu et la fin des années 70 pour générer des données synthétiques plausibles qui peuvent être utilisées pour aider les modèles à apprendre. Felkner utilise les livres de grammaire pour écrire des règles qui l'aideront à construire des phrases syntaxiquement correctes à partir des dictionnaires. Le terme technique pour cela est le bootstrap ou l'augmentation des données - ou familièrement, "faire semblant jusqu'à ce que vous le fassiez".

"Nous utilisons cela comme données de pré-formation, pour enseigner essentiellement aux modèles les bases de la grammaire", a déclaré Felkner. "Ensuite, nous pouvons enregistrer nos données réelles, telles que les données parallèles de la Bible, pour la période de mise au point où elles apprendront ce qui est sémantiquement significatif ou ce qui a réellement du sens."

Enfin, elle teste une technique qui consiste à analyser les noms des côtés anglais et kʼiche de la Bible, à les remplacer par d'autres noms, puis à utiliser un ensemble de règles pour infléchir correctement les phrases pour la grammaire.

Par exemple, si les données d'entraînement contiennent la phrase :« le garçon a donné un coup de pied au ballon », les chercheurs pourraient utiliser cette approche pour générer des phrases telles que « la fille a donné un coup de pied au ballon », « le médecin a donné un coup de pied au ballon », « l'enseignant a donné un coup de pied au ballon ». ballon", qui peuvent tous devenir des données d'entraînement.

"L'idée est d'utiliser ces exemples générés synthétiquement pour construire essentiellement une version approximative du système, afin que nous puissions tirer le meilleur parti de la petite quantité de données réelles dont nous disposons, et l'ajuster exactement là où nous veux que ce soit », a déclaré Felkner.

Impact humanitaire immédiat

Travailler dans la traduction d'une langue à ressources extrêmement limitées n'est pas facile, et cela peut parfois être frustrant, admet Felkner. Mais le défi et le potentiel de changer des vies la poussent à réussir.

Au cours de la prochaine année, elle prévoit d'entreprendre une visite sur le terrain pour observer comment les organisations d'aide juridique travaillent à la frontière et où son système pourrait s'intégrer à leur flux de travail. Elle travaille également sur un site Web de démonstration pour le système, qu'elle espère dévoiler en 2023, et une fois développé, elle espère que le système pourra un jour être appliqué à d'autres langues autochtones.

"L'escalade sur des langages à ressources élevées peut permettre à votre Alexa, Google Home ou Siri de mieux vous comprendre, mais ce n'est pas transformateur de la même manière", a déclaré Felkner. "Je fais ce travail parce qu'il a un impact humanitaire immédiat. Comme JFK l'a dit un jour, nous choisissons d'aller sur la lune non pas parce que c'est facile, mais parce que c'est difficile. Je pense souvent que les choses qui valent la peine d'être faites sont difficiles. ." + Explorer plus loin