• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Créer les outils pour connecter isiXhosa et isiZulu à l'ère numérique

    Les outils logiciels peuvent utiliser plusieurs langues dans des espaces entièrement nouveaux. Crédits :Zubada/Shutterstock

    Nous vivons dans un monde où environ 7000 langues sont parlées, et un pays où les technologies de l'information et de la communication deviennent de plus en plus omniprésentes. Cela impose des exigences croissantes à plus, et plus avancé, Technologies du langage humain (HLT).

    Ces technologies comprennent des méthodes de calcul, programmes informatiques et dispositifs électroniques spécialisés pour l'analyse, produire ou modifier des textes et des discours.

    S'engager avec une langue comme l'anglais est facilité grâce aux nombreux outils pour vous accompagner, tels que les correcteurs orthographiques dans les navigateurs et la saisie semi-automatique pour les messages texte. C'est principalement parce que l'anglais a une grammaire relativement simple et bien étudiée, plus de données que le logiciel peut apprendre, et un financement substantiel pour développer des outils. La situation est quelque peu à très différente pour la plupart des langues du monde.

    Cela commence à changer. Les multinationales à but lucratif telles que Google, Facebook et Microsoft, par exemple, ont investi dans le développement de HLT également pour les langues africaines.

    Chercheurs et scientifiques, moi-même inclus étudient et créent également ces technologies. Il a une pertinence directe pour la société :les langues, et les identités et les cultures qui s'y mêlent, sont une ressource nationale pour n'importe quel pays. Dans un pays comme l'Afrique du Sud, apprendre différentes langues peut favoriser la cohésion et l'inclusion.

    Juste apprendre une langue, cependant, ne suffit pas s'il n'y a pas d'infrastructure pour le soutenir. Par exemple, à quoi ça sert de chercher sur le Web, dire, isiXhosa lorsque les algorithmes du moteur de recherche ne peuvent de toute façon pas traiter les mots correctement et ne renvoient donc pas les résultats que vous recherchez ? Où sont les correcteurs orthographiques pour vous aider dans la rédaction des e-mails, dissertations scolaires, ou des articles de presse ?

    C'est pourquoi nous avons posé des bases théoriques et créé des outils de preuve de concept pour plusieurs langues sud-africaines. Cela inclut les correcteurs orthographiques pour isiZulu et isiXhosa et la génération de texte dans ces langues principalement à partir d'une entrée structurée.

    Utiliser les règles du langage pour développer des outils

    Le développement d'outils pour le groupe de langues Nguni – et isiZulu et isiXhosa en particulier – n'était pas simplement une affaire de copier-coller d'outils à partir de l'anglais. J'ai dû développer de nouveaux algorithmes capables de gérer une grammaire assez différente. J'ai également collaboré avec des linguistes pour comprendre les détails de chaque langue.

    Par exemple, même générer automatiquement le nom pluriel dans isiZulu à partir d'un nom au singulier nécessitait une nouvelle approche qui combinait la syntaxe - la façon dont il est écrit - avec la sémantique (le sens) des noms en utilisant son système de classes de noms caractéristique. En anglais, simplement des règles basées sur la syntaxe peuvent faire le travail.

    Les approches basées sur des règles sont également préférées pour les analyseurs morphologiques, qui divise chaque mot en ses parties constitutives, et pour la génération du langage naturel. La génération du langage naturel consiste à prendre des données structurées, informations ou connaissances, comme les nombres dans les colonnes d'une feuille de calcul, et créer un texte lisible à partir d'eux.

    Un moyen simple de réaliser cela est d'utiliser des modèles où le logiciel s'insère dans les valeurs données par les données ou la théorie logique. Ce n'est pas possible pour isiZulu, car les constituants de la phrase dépendent du contexte.

    Un moteur de grammaire est nécessaire pour générer correctement même les phrases les plus élémentaires. Nous avons élaboré les principaux aspects du flux de travail dans le moteur. Ceci est étendu avec plus de détails sur les verbes.

    Utiliser beaucoup de texte pour développer des outils

    L'approche basée sur des règles est gourmande en ressources. Cette, en combinaison avec le battage médiatique mondial autour du "Big Data", a mis en avant les approches basées sur les données.

    L'espoir est que des outils de meilleure qualité puissent désormais être développés avec moins d'efforts et qu'il sera plus facile de réutiliser ces outils pour des langues apparentées. Cela peut fonctionner, à condition d'avoir beaucoup de texte de bonne qualité, appelé corpus.

    De tels corpus sont en cours d'élaboration, et le Centre sud-africain de ressources linguistiques numériques (SADiLaR) récemment créé vise à mettre en commun les ressources informatiques. Nous avons étudié les effets d'un corpus sur la qualité d'un correcteur orthographique isiZulu, qui a montré que l'apprentissage du modèle linguistique basé sur les statistiques sur des textes anciens comme la Bible ne se transfère pas bien aux textes modernes tels que les nouvelles du journal Isolezwe, ni vice versa.

    Le correcteur orthographique a une précision d'environ 90% dans la détection d'erreurs sur un seul mot et il semble contribuer à l'intellectualisation d'isiZulu.

    Ses algorithmes utilisent des trigrammes et des probabilités de leur occurrence dans le corpus pour calculer la probabilité qu'un mot soit correctement orthographié, plutôt qu'une approche basée sur un dictionnaire qui n'est pas pratique pour agglutiner des langues. Les algorithmes ont été réutilisés pour isiXhosa simplement en lui alimentant un petit corpus isiXhosa :il atteignait déjà environ 80% de précision même sans optimisations.

    Les approches basées sur les données sont également poursuivies dans les outils de recherche d'informations en ligne, c'est à dire., développer des moteurs de recherche comme un « Google pour isiZulu ». Algorithmes pour la traduction automatique basée sur les données, d'autre part, peut facilement être induit en erreur par des données d'entraînement hors domaine à partir desquelles il doit apprendre les modèles.

    Pertinence pour l'Afrique du Sud

    Ce type de génération de langage naturel pourrait être incroyablement utile en Afrique du Sud. Le pays compte 11 langues officielles, avec l'anglais comme langue des affaires. Cela a entraîné la mise à l'écart des 10 autres, et en particulier ceux qui manquaient déjà de ressources.

    Cette tendance va à l'encontre des droits des citoyens et des obligations de l'État tels qu'ils sont énoncés dans la Constitution. Ces obligations vont au-delà de la simple promotion de la langue. Prendre, par exemple, le droit d'avoir accès au système de santé publique. Une étude a montré que seulement 6 % des consultations patient-médecin avaient lieu dans la langue maternelle du patient. Les 94 % restants n'ont essentiellement pas reçu les soins de qualité qu'ils méritaient en raison des barrières linguistiques.

    Le genre de recherche sur laquelle je travaille avec mon équipe peut aider. Il pourrait contribuer à, entre autres, la réalisation de technologies telles que la génération automatique de notes de sortie de patient dans sa propre langue, prévisions météo textuelles, et des exercices d'apprentissage des langues en ligne.

    Cet article a été initialement publié sur The Conversation. Lire l'article original.




    © Science https://fr.scienceaq.com