OCR4all :outil moderne pour les textes anciens

Page d'une version française du "Narrenschiff" (Ship of Fools). Ces anciennes polices peuvent être converties de manière fiable en texte lisible par ordinateur avec OCR4all. Crédit :Bibliothèque d'État et universitaire de Dresde, CC BY-SA 4.0

Les historiens et autres spécialistes des sciences humaines sont souvent confrontés à des objets de recherche difficiles :des ouvrages imprimés vieux de plusieurs siècles, difficiles à déchiffrer et souvent dans un état de conservation insatisfaisant. Bon nombre de ces documents ont maintenant été numérisés (généralement photographiés ou numérisés) et sont disponibles en ligne dans le monde entier. A des fins de recherche, c'est déjà un pas en avant.

Cependant, il reste un défi à relever :remettre les anciennes polices numérisées sous une forme moderne avec un logiciel de reconnaissance de texte lisible par les non-spécialistes comme par les ordinateurs. Des scientifiques du Centre de philologie et de numérique de la Julius-Maximilians-Universität Würzburg (JMU) en Bavière, Allemagne, ont apporté une contribution significative au développement ultérieur dans ce domaine.

Avec OCR4all, l'équipe de recherche JMU met un nouvel outil à la disposition de la communauté scientifique. Il convertit les impressions historiques numérisées avec un taux d'erreur de moins d'un pour cent en textes lisibles par ordinateur. Et il offre une interface utilisateur graphique qui ne nécessite aucune expertise informatique. Avec des outils antérieurs de ce genre, la convivialité n'était pas toujours au rendez-vous, car les utilisateurs devaient principalement travailler avec des commandes de programmation.

Développé en collaboration avec les sciences humaines

Le nouvel outil OCR4all a été développé sous la direction de Christian Reul avec ses collègues en informatique le professeur Frank Puppe (Chaire d'intelligence artificielle et d'informatique appliquée) et Christoph Wick ainsi qu'Uwe Springmann (expert en sciences humaines numériques) et de nombreux étudiants et assistants.

OCR4all est issu du projet JMU Kallimachos, qui est financé par le ministère fédéral allemand de l'éducation et de la recherche. Cette coopération entre les sciences humaines et l'informatique sera poursuivie et institutionnalisée dans le tout nouveau Centre JMU de philologie et de numérique.

En développant OCR4all, des informaticiens ont collaboré avec les sciences humaines à JMU, y compris des études allemandes et romanes et des études de littérature dans le projet "Narragonien numérique". L'objectif était de numériser le "Narrenschiff, " une satire morale de Sebastian Brant, un best-seller du XVe siècle qui a été traduit dans de nombreuses langues. Par ailleurs, OCR4all a été fréquemment utilisé dans le Kolleg du JMU « Médiéval et premiers temps modernes ».

OCR4all est accessible gratuitement au public sur la plateforme GitHub (avec instructions et exemples) :https://github.com/OCR4all

Chaque imprimerie avait sa propre police

Christian Reul explique les défis impliqués dans le développement d'OCR4all :La reconnaissance automatique de texte (OCR =Optical Character Recognition) fonctionne très bien pour les polices modernes depuis un certain temps déjà. Cependant, cela n'a pas encore été le cas pour les fontes historiques.

"L'un des plus gros problèmes était la typographie, " explique Reul. L'une des raisons à cela est que les premiers imprimeurs du XVe siècle n'utilisaient pas de polices uniformes. " Leurs timbres d'impression étaient tous sculptés par eux-mêmes, chaque imprimerie avait pratiquement ses propres lettres."

Taux d'erreur inférieurs à un pour cent

Que ce soit "e" ou "c, " que ce soit "v" ou "r" - il n'est souvent pas facile de distinguer dans les anciennes gravures, mais les logiciels peuvent apprendre à reconnaître de telles subtilités. Faire cela, il doit être formé sur des échantillons de matériel. Dans son travail, Reul a développé des méthodes pour rendre la formation plus efficace. Dans une étude de cas avec six gravures historiques des années 1476 à 1572, le taux d'erreur moyen dans la reconnaissance automatique de texte a été réduit de 3,9 à 1,7 pour cent.

Non seulement la méthodologie a été améliorée, L'informaticien de JMU Christoph Wick a également affiné de manière décisive la composante technique en développant l'outil OCR Calamari, qui est également disponible gratuitement et a depuis été entièrement intégré dans OCR4all, promettant des résultats encore meilleurs. Maintenant, même pour les ouvrages imprimés les plus anciens, des taux d'erreur inférieurs à un pour cent peuvent être atteints en général.

Projets lexicaux

Reul a également convaincu des partenaires externes de la qualité de la recherche OCR de Würzburg. En coopération avec le "Zentrum für digitale Lexikographie der deutschen Sprache" (Berlin), Le "Wörterbuch der deutschen Sprache" (Dictionnaire de la langue allemande) de Daniel Sanders a été indexé numériquement, et une publication scientifique sur ces travaux est en cours de préparation. Les différentes lignes de ce texte contiennent souvent des polices différentes, représentant différentes informations sémantiques. Ici, l'approche existante de la reconnaissance des caractères a été étendue de telle manière que non seulement le texte mais aussi la typographie et donc la structure de contenu complexe du lexique puissent être reproduits très précisément.

L'informaticien de Würzburg achèvera bientôt sa thèse de doctorat, mais il est également prêt à continuer à travailler avec l'OCR à l'avenir :" L'informatique derrière l'OCR est extrêmement excitante, » dit-il. Un projet possible dans un futur proche :les créateurs de « l'Idiotikon, " un dictionnaire de la langue suisse-allemande, ont manifesté leur intérêt pour une collaboration car ils pourraient bien avoir besoin des connaissances spécialisées de Würzburg.

Enseignement automatique :comment l'expertise des gens rend l'IA encore plus puissante

Les utilisateurs de Twitter plus jeunes, mieux éduqué que le grand public :enquête

Électronique