De gauche à droite, Ray Ptucha, professeur assistant en génie informatique, Robbie Jimerson, doctorant en informatique, tous deux de RIT, et Emily Prud'hommeaux, professeur assistant en informatique, dirigent le projet NSF d'utiliser la technologie de l'intelligence artificielle pour préserver la langue Seneca. Crédit :A. Sue Weisler/RIT
Un nouveau projet de recherche au Rochester Institute of Technology contribuera à garantir la préservation de la langue menacée de la nation indienne Seneca. En utilisant l'apprentissage en profondeur, une forme d'intelligence artificielle, Les chercheurs du RIT développent une application de reconnaissance vocale automatique pour documenter et transcrire la langue traditionnelle du peuple Seneca. L'ouvrage se veut également une ressource technologique pour préserver d'autres langues rares ou en voie de disparition.
"La motivation pour cela est personnelle. La première étape dans la préservation et la revitalisation de notre langue est la documentation de celle-ci, " a déclaré Robert Jimerson (Sénèque), doctorant en informatique et sciences de l'information au RIT et membre de l'équipe de recherche. Il a réuni des anciens de la tribu et des amis proches, tous les locuteurs de Sénèque, pour aider à produire une documentation audio et textuelle de cette langue amérindienne parlée couramment par moins de 50 personnes.
Comme toutes les langues, Sénèque a différents dialectes. Il présente également des défis uniques en raison de son système complexe de construction de nouveaux mots, dans lequel une phrase entière peut être exprimée en un seul mot.
Jimerson est capable de faire le pont entre la technologie et la langue.
"Sous la capuche, ce sont des données. Avec de nombreuses langues autochtones, vous n'avez pas ce volume de données, " il a dit, expliquant que certaines langues, tandis que parlé, peut ne pas avoir autant d'outils linguistiques formels - dictionnaires, du matériel grammatical ou des cours approfondis pour les locuteurs non natifs, similaires à celles de l'espagnol ou du chinois. "L'un des processus les plus coûteux et les plus longs de documentation du langage est de le collecter et de le transcrire. Nous envisageons de prendre des réseaux profonds et peut-être de changer l'architecture, faire des données synthétiques pour créer plus de données, mais comment faire en sorte que cela fonctionne dans l'apprentissage en profondeur ? Comment augmentez-vous les données que vous possédez déjà ?"
Ce processus d'obtention de données est coordonné par une vaste équipe qui comprend Jimerson; la chercheuse principale du projet Emily Prud'hommeaux, professeur adjoint d'informatique au Boston College et professeur de recherche au College of Liberal Arts du RIT; Ray Ptucha, professeur adjoint d'ingénierie informatique au Kate Gleason College of Engineering du RIT et expert en systèmes et technologies d'apprentissage en profondeur ; et Karen Michaelson, professeur de linguistique, l'Université d'État de New York à Buffalo. L'équipe de recherche a reçu 181 $, 682 dans le financement sur quatre ans de la National Science Foundation pour « Recherche collaborative :apprentissage en profondeur de la reconnaissance vocale pour le document Seneca et d'autres langues extrêmement sous-financées ».
"C'est un projet passionnant car il rassemble des gens de tellement de disciplines et d'horizons, de l'ingénierie et de l'informatique à la linguistique et à la pédagogie des langues, " a déclaré Prud'hommeaux. " En plus de nous permettre de développer une technologie de pointe, ce projet soutient les étudiants de premier cycle et des cycles supérieurs et engage les membres d'une communauté autochtone que peu de gens connaissent ici, dans l'ouest de l'État de New York. »
Les chercheurs ont lancé le projet fin juin, rassembler les membres de la communauté et les linguistes pour la collecte de données - acquérir et traduire les données actuelles et nouvelles, enregistrements originaux de conversations Seneca, puis conversion des données en sortie textuelle à l'aide de modèles d'apprentissage en profondeur.
"Ce que vous essayez vraiment de faire, c'est de trouver cette ligne entre les nouvelles données que vous pouvez obtenir et le changement de l'architecture d'un réseau, " expliqua Jimerson.
Depuis l'été, l'équipe dispose d'un peu plus de 50 heures de matériel enregistré avec des personnes travaillant à plein temps sur les traductions qui incluent la décomposition de la langue en symboles phonétiques individuels et l'utilisation de ces informations pour commencer à former les modèles.
« Nous utilisons un processus appelé apprentissage par transfert qui commence par un modèle formé avec un langage anglais facilement disponible pour obtenir les bases, formation initiale au système, Ensuite, nous allons ré-entraîner les réseaux neuronaux et les affiner en fonction du langage Seneca. Nous obtenons de très bons résultats, " dit Ptucha, qui est un expert en systèmes et technologies d'apprentissage en profondeur. La technologie d'apprentissage en profondeur se compose de plusieurs couches de neurones artificiels, organisé en une hiérarchie de plus en plus abstraite. Ces architectures ont produit des résultats de pointe sur tous les types de problèmes de reconnaissance de formes, y compris les applications de reconnaissance d'images et de parole.
"Personne n'a vraiment essayé ça avant, entraîner un modèle de reconnaissance vocale automatisé sur quelque chose d'aussi limité en ressources que Seneca. Robbie est l'expert de la transcription de Seneca et de la formation des autres sur la façon de le faire. C'est un gars assez rare, " dit Ptucha,
Ce projet actuel est une continuation du travail de Jimerson pour élargir les ressources linguistiques disponibles pour sa communauté. En 2013, alors qu'il était étudiant diplômé au Golisano College of Computing and Information Sciences du RIT, il a développé un dictionnaire de traduction en ligne de la langue Seneca pour le programme de revitalisation de la langue Seneca. Le projet a été financé par la nation Seneca et attribué au programme Future Steward de RIT.