• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Comment l'IA pourrait aider à traduire la langue écrite des civilisations anciennes

    L'OI a commencé des expéditions archéologiques dans l'ancienne ville de Persépolis dans les années 1930, où ils ont découvert des dizaines de milliers de tablettes d'argile contenant de l'écriture cunéiforme. Une collaboration entre l'OI et le Département d'informatique utilisant un programme d'apprentissage automatique pourrait permettre une traduction plus rapide de ces tablettes. Crédit :l'OI

    Il y a vingt-cinq siècles, la « paperasse » de l'empire achéménide de Perse a été enregistrée sur des tablettes d'argile, dont des dizaines de milliers ont été découvertes en 1933 dans l'Iran moderne par des archéologues de l'Institut oriental de l'Université de Chicago. Depuis des décennies, les chercheurs ont minutieusement étudié et traduit à la main ces documents anciens, mais ce processus de déchiffrement manuel est très difficile, lente et sujette aux erreurs.

    Depuis les années 1990, les scientifiques ont recruté des ordinateurs pour les aider - avec un succès limité, en raison de la nature tridimensionnelle des tablettes et de la complexité des caractères cunéiformes. Mais une percée technologique à l'Université de Chicago pourrait enfin permettre la transcription automatisée de ces tablettes, qui révèlent de riches informations sur l'histoire achéménide, société et langue—possible, libérer les archéologues pour une analyse de plus haut niveau.

    C'est la motivation derrière DeepScribe, une collaboration entre des chercheurs de l'OI et du département d'informatique de l'UCicago. Avec un ensemble de formation de plus de 6, 000 images annotées des archives des fortifications de Persépolis, le projet financé par le Center for Data and Computing construira un modèle capable de "lire" les tablettes non encore analysées de la collection, et potentiellement un outil que les archéologues peuvent adapter à d'autres études de l'écriture ancienne.

    « Si nous pouvions proposer un outil flexible et extensible, qui peut s'étendre à différents scripts et périodes de temps, ce serait vraiment un changement de terrain, " dit Susanne Paulus, professeur agrégé d'assyriologie.

    "C'est un bon problème d'apprentissage automatique"

    La collaboration a commencé lorsque Paulus, Sandra Schloen et Miller Prosser de l'OI ont rencontré Asst. Le professeur Sanjay Krishnan du Département d'informatique lors d'un événement du Neubauer Collegium sur les humanités numériques. Schloen et Prosser supervisent OCHRE, une plate-forme de gestion de base de données soutenue par l'OI pour capturer et organiser les données des fouilles archéologiques et d'autres formes de recherche. Krishnan applique des techniques d'apprentissage en profondeur et d'IA à l'analyse de données, y compris la vidéo et d'autres types de données complexes. Le chevauchement était immédiatement apparent des deux côtés.

    "Du point de vue de la vision par ordinateur, c'est vraiment intéressant parce que ce sont les mêmes défis auxquels nous sommes confrontés. La vision par ordinateur au cours des cinq dernières années s'est tellement améliorée; il y a dix ans, cela aurait été ondulé à la main, nous ne serions pas allés si loin, " a déclaré Krishnan. " C'est un bon problème d'apprentissage automatique, car la précision est ici objective, nous avons un ensemble d'entraînement étiqueté et nous comprenons assez bien le script et cela nous aide. Ce n'est pas un problème complètement inconnu."

    Sur la photo, des points chauds décrivant des signes cunéiformes sur une tablette élamite des archives de la fortification de Persépolis. Crédit :l'OI

    Cet ensemble de formation est dû à plus de 80 ans d'études approfondies par les chercheurs d'OI et d'UCicago et à une récente tentative de numériser des images haute résolution de la collection de tablettes (actuellement plus de 60 téraoctets et toujours en croissance) avant leur retour en Iran. En utilisant cette collection, des chercheurs ont créé un dictionnaire de la langue élamite inscrit sur les tablettes, et les étudiants apprenant à déchiffrer le cunéiforme ont construit une base de données de plus de 100, 000 "points chauds, " ou des signes individuels identifiés.

    Avec les ressources du Centre de calcul de recherche UChicago, Krishnan a utilisé cet ensemble de données annoté pour former un modèle d'apprentissage automatique, similaires à ceux utilisés dans d'autres projets de vision par ordinateur. Lorsqu'il est testé sur des tablettes non incluses dans le kit de formation, le modèle a pu déchiffrer avec succès les signes cunéiformes avec une précision d'environ 80 %. Les recherches en cours tenteront d'augmenter ce nombre tout en examinant ce qui représente les 20% restants.

    Beaucoup de travail numérique lourd

    Mais même une précision de 80 % peut immédiatement aider les efforts de transcription. De nombreuses tablettes décrivent des transactions commerciales de base, semblable à "une boîte de reçus Walmart, " a déclaré Paulus. Et un système qui n'arrive pas à se décider peut toujours être utile.

    « Si l'ordinateur pouvait simplement traduire ou identifier les parties hautement répétitives et laisser à un expert le soin de remplir les noms de lieux ou les verbes difficiles ou les choses qui nécessitent une interprétation, cela fait beaucoup de travail, " dit Paulus, le conservateur de la collection de tablettes à l'OI. "Et si l'ordinateur ne peut pas prendre une décision définitive, si ça pouvait nous redonner des probabilités ou les quatre premiers rangs, alors un expert a un point de départ. Ce serait génial."

    Plus ambitieuse encore, l'équipe imagine DeepScribe comme un outil de déchiffrement à usage général qu'elle peut partager avec d'autres archéologues. Peut-être que le modèle peut être recyclé pour les langues cunéiformes autres que l'élamite, ou peut faire des suggestions éclairées sur le texte qui a été écrit sur des morceaux manquants de tablettes incomplètes. Un modèle d'apprentissage automatique pourrait également aider à déterminer l'origine des tablettes et autres artefacts de provenance inconnue, une tâche actuellement traitée par les tests chimiques.

    Des projets similaires financés par la CADC utilisent des approches de vision par ordinateur pour les applications, telles que l'étude de la biodiversité chez les bivalves marins et le démêlement du style du contenu dans le travail artistique. La collaboration espère également inspirer de futurs partenariats entre l'OI et le Département d'informatique, à mesure que l'archéologie numérique croise de plus en plus les approches informatiques avancées.

    "Je pense que cela a aidé quelque chose qui se serait terminé lors d'un dîner-conversation à devenir une véritable collaboration, " a déclaré Krishnan. " Cela nous a amenés à faire plus que parler. "


    © Science https://fr.scienceaq.com