Crédit :CC0 Domaine Public
Une nouvelle méthodologie pour améliorer la traduction automatique est disponible ce mois-ci via l'Université d'Amsterdam. Le projet DataAptor, financé par NWO/STW, fait de plus en plus progresser les machines de traduction en sélectionnant des ensembles de données.
La méthodologie est utilisée dans l'application Matching Data, offert par TAUS, un important groupe de réflexion dans le domaine de la traduction automatique. Cette application s'attaque à un grand défi de la traduction numérique :pour une bonne traduction, il est nécessaire de former la machine de traduction avec des sources fiables et des ensembles de données contenant le type de mots pertinent. Par exemple, traduire un texte juridique nécessite un vocabulaire complètement différent et un type de traduction différent de celui par exemple, un article de journal.
Mise en œuvre réussie
En 2013, le projet DataAptor, supervisé par le professeur Khalil Sima'an de l'UvA Institute for Logic, Langage et calcul, a reçu un financement de la fondation technologique STW (maintenant :NWO Domain Applied and Engineering Sciences) pour faire face à ce problème. Les résultats de la recherche du projet DatAptor ont maintenant été mis en œuvre avec succès par le groupe de réflexion TAUS. Ils proposent la nouvelle technologie sous le nom de Matching Data.
Sur le blog de TAUS, Sima'an déclare :« Notre rêve était de faire du World Wide Web lui-même la source de toutes les sélections de données. Mais nous avons décidé de commencer plus modestement et de faire du très grand référentiel de données TAUS notre terrain de chasse d'abord. Dans DatAptor nous avons appris que chaque domaine est un mélange de plusieurs sous-domaines. La combinatoire des sous-domaines dans un très grand référentiel recèle une multitude de nouveaux, sélections inexploitées. Par conséquent, si l'utilisateur fournit un corpus de requêtes représentant son domaine d'intérêt, la méthode Matching Data est susceptible de trouver une sélection appropriée dans le référentiel."