Construire une archive numérique pour les documents papier en décomposition

La conversion de documents papier vieillissants en archives numériques peut être un effort laborieux. Crédit :Archives numériques des sociétés esclaves, CC BY-ND

Les documents papier sont encore des archives inestimables du passé, même dans un monde numérique. Sources primaires stockées dans des archives locales dans toute l'Amérique latine, par exemple, décrire une société multiethnique vieille de plusieurs siècles aux prises avec des questions de race, classe et religion.

Cependant, les archives papier sont vulnérables aux inondations, humidité, insectes, et les rongeurs, entre autres menaces. L'instabilité politique peut réduire l'argent utilisé pour maintenir les archives et la négligence institutionnelle peut transformer des documents précieux en déchets moisis.

En étroite collaboration avec des collègues du monde entier, Je crée des archives numériques et des outils spécialisés qui nous aident à tirer des enseignements de ces archives, qui retracent la vie des personnes libres et asservies d'ascendance africaine dans les Amériques des années 1500 aux années 1800. Notre effort, les archives numériques des sociétés esclavagistes, est l'un des nombreux projets de sciences humaines qui ont accumulé d'importantes collections d'images numériques de documents papier.

L'objectif est de garantir que ces informations, y compris certaines issues de documents qui n'existent plus physiquement, soient accessibles aux générations futures.

Mais préserver l'histoire en prenant des photographies haute résolution de documents vieux de plusieurs siècles n'est qu'un début. Les progrès technologiques aident les universitaires et les archivistes comme moi à mieux préserver ces documents et à en tirer des enseignements, mais ne facilitez pas toujours les choses.

Une archive à Cuba contient des trésors de papier difficiles à utiliser et à étudier, même en personne. Crédit :Archives numériques des sociétés esclaves, CC BY-ND

Collecte de documents

Depuis 2003, les archives numériques des sociétés esclaves ont collecté plus de 700, 000 images numérisées de documents historiques documentant la vie de millions d'Africains et de personnes d'ascendance africaine en Amérique du Nord et du Sud.

Les membres de l'équipe de base, des universités aux États-Unis, Canada, et le Brésil, se rendre sur les sites de projets dans toute l'Amérique latine, où ils forment des étudiants et des archivistes locaux à numériser les documents ecclésiastiques et gouvernementaux de leurs communautés. Nous donnons à ces communautés les caméras, ordinateurs et autres matériels dont ils ont besoin pour conserver numériquement les documents empilés dans les coins des sous-sols des églises du XVIIIe siècle, ou sur le point d'être jetés par les archives municipales écrasées dans l'espace.

Nous leur enseignons également une compétence cruciale pour l'archivage et la récupération :comment créer des métadonnées, les informations descriptives pour aider les gens à trouver ce qui les intéresse, par exemple si un document est un acte de mariage ou un acte de baptême, et de quelle année et de quelle ville il s'agit. De bonnes métadonnées permettent aux visiteurs du site Web du projet de, par exemple, rechercher tous les actes de baptême de la Colombie du XVIIe siècle.

De la numérisation à la préservation

Heures supplémentaires, nous nous sommes beaucoup améliorés dans la numérisation de documents. Dans les images plus anciennes, il n'est pas rare de voir le doigt du photographe s'éloigner du cadre. Certaines de ces images plus anciennes sont stockées sous forme de fichiers JPEG à relativement faible résolution, un format qui compresse la taille du fichier image en supprimant certaines données lors de son enregistrement. La plupart de ces fichiers sont toujours parfaitement lisibles même lorsqu'un spectateur effectue un zoom avant, mais certains ne le sont pas et devront être à nouveau numérisés à l'avenir.

Beaucoup de gens s'impliquent, à la fois enseigner et apprendre à photographier correctement des documents. Crédit :Archives numériques des sociétés esclaves, CC BY-ND

Notre préservation la plus récente adhère aux normes rigoureuses de la British Library, qui finance une grande partie de notre travail. Ces images sont prises en très haute résolution et stockées dans plusieurs formats de fichiers, notamment TIFF, qui reste la norme d'archivage.

Transformer une collection d'images numérisées en une véritable archive numérique est un effort long et minutieux. Au début de ce processus, nous avons rencontré un curieux problème concernant les photographies prises lors de nos premiers efforts de numérisation. Les logiciels modernes ont souvent mal interprété l'orientation de ces images, nous donnant des pages tournées à 90 degrés vers la droite ou la gauche ou même complètement à l'envers. Dans les cas où un volume entier a été tourné de la même manière incorrecte, il pourrait être corrigé automatiquement, mais d'autres avec une gamme d'erreurs ont dû être corrigées à la main pour permettre aux chercheurs de travailler plus facilement avec le matériel.

Nous avons également constaté que les noms de fichiers de données peuvent causer des problèmes. De nombreux appareils photo attribuent des noms par défaut aux images, comme DSCN9126.jpg, qui ne sont pas utiles pour déterminer ce que sont les images. Nous devons renommer chaque image d'une manière standard qui indique comment elle s'intègre dans notre collection.

Pour le moment, nous avons choisi simplement de numéroter les images de manière séquentielle dans chaque volume; une autre option raisonnable serait de préfixer chacun de ces nombres avec un identifiant faisant référence au volume d'où provient l'image.

Ce ne sont pas des obstacles majeurs, mais eux et d'autres dans le même esprit prennent un certain temps à comprendre et à traiter correctement. Mais cet effort porte ses fruits lorsque les personnes souhaitant explorer la collection ont plus de facilité à trouver et à utiliser nos images.

Avec soin, la préservation numérique peut redonner vie à des documents en ruine. Crédit :Archives numériques des sociétés esclaves, CC BY-ND

Où les stocker ?

Once we've captured the images, we need to save them somewhere.

Maintenant, the Slave Societies Digital Archive collection is close to 20 terabytes—roughly the space needed to store all the text in the Library of Congress.

Few institutions have the resources, personnel or expertise needed to store humanities data at such large scales. Data storage isn't exorbitantly expensive, but it's also not cheap—especially when the data needs to be accessed regularly, as opposed to being stored in a static backup or archival copy.

For many years, the Vanderbilt University Library hosted the data, but we outgrew what that organization could afford. We had been backing up many of our most important records on the Digital Preservation Network, a consortium of universities that pooled resources to fund a reliable digital storage system for scholarly production. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. At the moment, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Par conséquent, we're far less likely to lose our data than at any previous point in the project's history.

If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

Opening access

Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

For several years, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 hours.

Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.