L'équipe, dirigée par le professeur d'informatique Jure Leskovec, a créé un système appelé « Data Wrangler » capable de nettoyer et de transformer automatiquement les données brutes dans un format plus accessible et plus utilisable.
"Les données brutes du gouvernement sont souvent confuses et difficiles à comprendre", a déclaré Leskovec. "Notre objectif était de créer un outil capable de rendre ces données plus accessibles aux personnes souhaitant les utiliser à des fins de recherche, de journalisme ou à d'autres fins."
Data Wrangler fonctionne en utilisant diverses techniques d'apprentissage automatique et de traitement du langage naturel pour identifier et corriger les erreurs dans les données, ainsi que pour extraire des informations significatives du texte.
Le système peut être utilisé pour analyser une grande variété de données gouvernementales, notamment les dossiers financiers, les statistiques de la criminalité et les données environnementales.
Leskovec et son équipe ont déjà utilisé Data Wrangler pour analyser plusieurs grands ensembles de données, notamment l'American Community Survey du US Census Bureau et les données d'arrestation et de fouille du département de police de la ville de New York.
Les résultats de ces analyses ont été publiés dans plusieurs revues universitaires et ont été utilisés par des journalistes et des décideurs politiques pour éclairer leurs travaux.
"Nous pensons que Data Wrangler a le potentiel de révolutionner la façon dont les gens utilisent les données gouvernementales", a déclaré Leskovec. "En rendant ces données plus accessibles et utilisables, nous pouvons permettre aux gens de prendre de meilleures décisions concernant leur vie et leur communauté."
Les recherches de l'équipe ont été publiées dans la revue "Nature Machine Intelligence".