Lecture 1, Plus de 400 éditions de "Robinson Crusoe" en un été est impossible. Une équipe d'étudiants a donc essayé de former des ordinateurs pour qu'ils le fassent pour eux. Crédit :Duke Research Blog
Depuis que le récit du naufrage de Daniel Defoe "Robinson Crusoe" a été publié pour la première fois il y a près de 300 ans, des milliers d'éditions et de versions dérivées ont été publiées, dans des centaines de langues.
Une équipe de recherche dirigée par Grant Glass, un doctorat étudiante en littérature anglaise et comparée à l'Université de Caroline du Nord à Chapel Hill, voulait savoir comment l'histoire a changé au fil des différentes éditions, imitations et traductions, et de voir quelles parties ont résisté à l'épreuve du temps.
Les lire tous au rythme d'un par jour prendrait des années. Au lieu, les chercheurs forment des ordinateurs à le faire pour eux.
Cet été, L'équipe de Glass du programme de recherche d'été Data+ a utilisé des algorithmes informatiques et des techniques d'apprentissage automatique pour passer au crible 1, 482 versions en texte intégral de Robinson Crusoé, compilé à partir d'archives en ligne.
"Souvent, nous pensons à un livre comme gravé dans la pierre, " Glass a dit. "Mais un projet comme celui-ci vous montre que c'est désordonné. Il y a beaucoup de variations là-dedans."
« Quand vous prenez un livre, il est important de savoir de quelle copie il s'agit, parce que cela peut affecter la façon dont vous pensez à l'histoire, " dit Verre.
Le simple fait de mettre les textes sous une forme qu'un ordinateur pourrait traiter s'est avéré la moitié de la bataille, a déclaré Orgil Batzaya, membre de l'équipe de premier cycle, une double majeure Duke en mathématiques et en informatique.
Les livres étaient déjà scannés et mis en ligne, les étudiants ont donc utilisé un logiciel pour télécharger les scans sur Internet, via un processus appelé "grattage". Mais le traitement des pages numérisées de vieux livres imprimés, dont certains avaient des taches, taches ou type usé, et les convertir dans un format lisible par machine s'est avéré plus délicat qu'ils ne le pensaient.
Le logiciel a eu du mal à décoder les orthographes étranges ("deliver'd, « « , " "persuasion, " "rivage" versus "shoar"), polices différentes entre les éditions, et autres bizarreries.
Caractères spéciaux propres aux polices du XVIIIe siècle, comme la curieuse version en forme de f de la lettre "s, ", même les humains lisent "diftance" et "poffible" avec un zézaiement mental.
Leurs premières tentatives ont abouti à Charabia. "La reconnaissance optique de caractères résultante était complètement inutilisable, " a déclaré Gabriel Guedes, membre de l'équipe et senior de Duke.
Lors d'une session d'affiches Data+ en août, Guèdes, Batzaya et Lucian Li, double majeur en histoire et informatique, ont présenté leurs premiers résultats :une collection de nuages de points colorés, Plans, organigrammes et graphiques linéaires.
Guedes a souligné des grappes de points sur un graphique de réseau. "Ici, les éditions rouges sont américaines, les éditions bleues viennent du Royaume-Uni, " a déclaré Guedes. " Le graphique du réseau reconnaît la similitude entre toutes ces éditions et les regroupe. "
Une fois qu'ils ont transformé les pages numérisées en textes lisibles par machine, l'équipe les a intégrés à un algorithme d'apprentissage automatique qui mesure la similitude entre les documents.
L'algorithme prend en compte des morceaux de textes - des phrases, paragraphes, même des romans entiers et les convertit en vecteurs de grande dimension.
Créer cette représentation numérique de chaque livre, Guedes a dit, permettait d'effectuer des opérations mathématiques sur eux. Ils ont additionné les vecteurs de chaque livre pour trouver leur somme, calculé la moyenne, et regardé pour voir quelle édition était la plus proche de l'édition "moyenne". Il s'est avéré qu'il s'agissait d'une version de Robinson Crusoé publiée à Glasgow en 1875.
Ils ont également analysé l'importance de points d'intrigue spécifiques pour déterminer la proximité d'une édition donnée avec l'édition « moyenne » :qu'en est-il du moment où Crusoé repère une empreinte dans le sable et se rend compte qu'il n'est pas seul ? Ou le temps où Crusoé et vendredi, après avoir quitté l'île, combattre des loups affamés dans les Pyrénées ?
Les résultats de l'équipe pourraient être choquants pour ceux qui n'ont pas l'habitude de voir 300 ans de publication réduits à un graphique à barres. Mais en utilisant des ordinateurs pour comparer des milliers de livres à la fois, Les chercheurs en « humanités numériques » disent qu'il est possible de tracer des modèles et des tendances à grande échelle que les humains qui se penchent sur des livres individuels ne peuvent pas.
"C'est vraiment quelque chose que seul un ordinateur peut faire, " Guedes a dit, pointant vers une carte en accéléré montrant comment l'histoire de Crusoé s'est propagée à travers le monde, construit à partir de données sur le lieu et la date de publication pour 15, 000 éditions.
"C'est une forme de 'lecture à distance', " a déclaré Guedes. " Vous utilisez cette énorme quantité d'informations pour aider à tirer des conclusions sur l'histoire de la publication, le mouvement des idées, et les connaissances en général à travers le temps."