• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Utilisation de l'apprentissage multitâche pour une traduction vocale à faible latence

    Crédit :Suan Moo, Unsplash.com

    Des chercheurs du Karlsruhe Institute of Technology (KIT), en Allemagne, ont récemment appliqué l'apprentissage automatique multitâche à la traduction de la parole neuronale à faible latence. Leur étude, qui a été prépublié sur ArXiv , aborde certaines des limites des techniques existantes de traduction automatique neuronale (NMT).

    Les progrès dans le domaine de l'apprentissage en profondeur ont conduit à des améliorations significatives de la parole humaine et de la traduction de texte. NMT, une approche largement utilisée de la traduction automatique, entraîne un grand réseau de neurones à lire une phrase et à fournir une traduction précise, généralement en modélisant des phrases entières dans un modèle intégré.

    Par rapport aux approches traditionnelles, telles que la traduction automatique basée sur des règles ou statistique, NMT réalise généralement des traductions plus fluides, à la fois pour la parole et le texte écrit. Bien qu'il puisse capturer efficacement des dépendances plus complexes entre les langues source et cible, pour toujours bien performer, cette approche nécessite des quantités substantielles de données d'apprentissage.

    "Lors de l'application de la traduction de phrases partielles aux systèmes de traduction automatique neuronale, nous rencontrons le problème que le système MT n'a été formé que sur des phrases complètes, et ainsi le décodeur est polarisé pour générer des phrases cibles complètes, " les chercheurs ont écrit dans leur article. " Lors de la réception d'entrées qui sont des phrases partielles, les sorties de traduction ne sont pas garanties de correspondre exactement au contenu d'entrée. Nous observons que la traduction est souvent « fantasmée » par le modèle pour être une phrase complète, comme cela se serait produit dans les données d'entraînement."

    Dans d'autres cas, le décodeur peut tomber dans un état de surgénération, répéter plusieurs fois le dernier mot qui lui a été donné dans sa traduction. Pour résoudre ces problèmes, les chercheurs du KIT se sont concentrés sur la traduction de la parole dans les cas où un NMT doit fournir une traduction initiale en temps réel, avant qu'un locuteur ait fini sa phrase.

    "Dans ce travail, nous visons à remédier au problème de la traduction partielle des phrases en NMT, " les chercheurs ont écrit. " Idéalement, nous voulons un modèle capable de générer des traductions appropriées pour les phrases incomplètes, sans aucun compromis lors d'autres cas d'utilisation de la traduction."

    Comme les ensembles de données avec des phrases partielles ne sont pas facilement disponibles, les chercheurs ont créé des données artificielles qui pourraient être utilisées dans le processus de formation. Ils ont formé le réseau à l'aide d'un apprentissage multitâche, une stratégie d'apprentissage en profondeur qui a souvent été utilisée dans le traitement du langage naturel (TALN) pour former un modèle unique pour différentes tâches, réduire les dépenses et améliorer ses performances.

    Leur étude a obtenu des résultats prometteurs, suggérant que les systèmes NMT pourraient être adaptés pour bien fonctionner même dans les cas où des données spécifiques à la tâche ne sont pas disponibles, sans perdre les performances de la tâche initiale pour laquelle ils ont été formés. "Nous avons d'abord montré que des techniques simples pour générer des données artificielles sont efficaces pour obtenir une sortie plus fluide avec moins de correction, " ont conclu les chercheurs dans leur article. " Nous avons également illustré que l'apprentissage multitâche peut aider à adapter le modèle à la nouvelle condition d'inférence, sans perdre la capacité originale de traduire des phrases complètes."

    Leur adaptation de NMT a permis d'obtenir des traductions de haute qualité avec une faible latence, minimiser le nombre de mots corrigés de 45 pour cent. À l'avenir, leur étude pourrait avoir des implications pratiques significatives, aider à développer de meilleurs outils pour la traduction vocale en temps réel.

    © 2018 Tech Xplore




    © Science https://fr.scienceaq.com