Les textes de 34 versions de la Bible en anglais ont été utilisés pour aider à améliorer les systèmes de transfert de style informatisés. Le résultat peut créer différentes versions de passages écrits pour convenir à des publics spécifiques. Crédit :Photo biblique :Chris Downer. Illustration composite :Keith Carlson.
À la recherche d'inspiration pour améliorer les traducteurs de texte sur ordinateur, des chercheurs du Dartmouth College se sont tournés vers la Bible pour se guider. Le résultat est un algorithme formé sur différentes versions des textes sacrés qui peut convertir des œuvres écrites en différents styles pour différents publics.
Les outils Internet pour traduire du texte entre des langues comme l'anglais et l'espagnol sont largement disponibles. La création de traducteurs de style – des outils qui conservent le texte dans la même langue mais transforment le style – a été beaucoup plus lente à émerger. En partie, les efforts pour développer les traducteurs ont été entravés par la difficulté d'acquérir l'énorme quantité de données nécessaires. C'est là que l'équipe de recherche s'est tournée vers la Bible.
En plus d'être une source de conseils spirituels pour de nombreuses personnes à travers le monde, l'équipe dirigée par Dartmouth a vu dans la Bible « un grand, ensemble de données de texte parallèle aligné auparavant inexploité." Au-delà de fournir une inspiration infinie, chaque version de la Bible en contient plus de 31, 000 versets que les chercheurs ont utilisés pour produire plus de 1,5 million de paires uniques de versets source et cible pour les ensembles de formation en apprentissage automatique.
Selon les recherches publiées dans la revue Science ouverte de la Royal Society , ce n'est pas le premier jeu de données parallèle créé pour la traduction de style. Mais c'est le premier qui utilise la Bible. D'autres textes qui ont été utilisés dans le passé, allant de Shakespeare aux entrées Wikipedia, fournir des ensembles de données qui sont soit beaucoup plus petits, soit pas aussi bien adaptés à la tâche d'apprentissage de la traduction de style.
"La Bible en anglais se décline en de nombreux styles d'écriture différents, ce qui en fait le texte source parfait avec lequel travailler pour la traduction de style, " a déclaré Keith Carlson, un doctorat étudiant à Dartmouth et auteur principal du document de recherche sur l'étude.
Comme avantage supplémentaire pour l'équipe de recherche, la Bible est déjà soigneusement indexée par l'utilisation cohérente du livre, numéros de chapitre et de verset. L'organisation prévisible du texte à travers les versions élimine le risque d'erreurs d'alignement qui pourraient être causées par les méthodes automatiques de correspondance des différentes versions du même texte.
"La Bible est un ensemble de données 'divines' avec lesquelles travailler pour étudier cette tâche, " a déclaré Daniel Rockmore, professeur d'informatique à Dartmouth et auteur collaborateur de l'étude. "Les humains ont accompli la tâche d'organiser les textes de la Bible pendant des siècles, nous n'avons donc pas eu à faire confiance à des algorithmes d'alignement moins fiables."
Pour définir le "style" de l'étude, les chercheurs font référence à la longueur de la phrase, l'utilisation de voix passives ou actives, et le choix des mots pouvant donner lieu à des textes plus ou moins simples ou formels. D'après l'étude :« Différentes formulations peuvent exprimer différents niveaux de politesse ou de familiarité avec le lecteur, afficher différentes informations culturelles sur l'écrivain, être plus facile à comprendre pour certaines populations.
L'équipe a utilisé 34 versions de la Bible stylistiquement distinctes, dont la complexité linguistique va de la "Version King James" à la "Bible en anglais de base". Les textes ont été introduits dans deux algorithmes :un système de traduction automatique statistique appelé « Moses » et un cadre de réseau de neurones couramment utilisé dans la traduction automatique, "Seq2Seq."
Alors que différentes versions de la Bible ont été utilisées pour entraîner le code informatique, des systèmes pourraient finalement être développés qui traduisent le style de tout texte écrit pour différents publics. A titre d'exemple, un traducteur de style pourrait prendre une sélection en anglais de "Moby Dick" et la traduire en différentes versions adaptées aux jeunes lecteurs, anglophones non natifs, ou l'un des divers publics.
"La simplification de texte n'est qu'un type spécifique de transfert de style. Plus largement, nos systèmes visent à produire un texte ayant le même sens que l'original, mais fais-le avec des mots différents, " dit Carlson.
Le Dartmouth College a une longue histoire d'innovation en informatique. Le terme "intelligence artificielle" a été inventé à Dartmouth lors d'une conférence de 1956 qui a créé la discipline de recherche sur l'IA. Parmi les autres avancées, citons la conception de BASIC, le premier langage de programmation à usage général et accessible, et le système de partage de temps de Dartmouth qui a contribué au système d'exploitation moderne.