Ahmed Eldawy. Crédit :UC Riverside
Disons que vous faites des recherches qui nécessitent des millions de tweets géolocalisés. Ou peut-être êtes-vous un journaliste qui souhaite cartographier les meurtres à Chicago de 2001 à nos jours. Vous devez trouver de grands ensembles de données spatio-temporelles, mais où ?
Bien qu'il existe des centaines d'ensembles de données accessibles au public, les localiser peut prendre des mois de recherche. Lorsque des sources potentielles sont trouvées, ils fournissent rarement suffisamment d'informations pour qu'un chercheur puisse décider si l'ensemble contient réellement le type de données dont il a besoin sans télécharger le fichier souvent volumineux et le trier d'abord.
Grâce à un informaticien de l'Université de Californie, Bord de rivière, trouver le bon jeu de données est désormais aussi simple que de mettre en signet un site Web, et ça ne coûte absolument rien.
Ahmed Eldawy, professeur assistant d'informatique au Marlan and Rosemary Bourns College of Engineering, et son groupe ont passé les trois dernières années à rechercher sur Internet des ensembles de données spatio-temporelles publics, étudier leurs attributs, et résumant les résultats pour chaque ensemble sur des cartes interactives qui montrent à l'utilisateur exactement ce qu'il obtient.
"Les personnes qui travaillent sur la science des données ont besoin d'ensembles de données mais peuvent passer beaucoup de temps à les trouver, " a déclaré Eldawy. "Je voulais créer une archive qu'ils puissent trouver facilement."
Appelé le référentiel actif spatio-temporel UCR, ou UCR STAR, les archives sont mises à disposition en tant que service à la communauté des chercheurs pour fournir un accès facile à de grands ensembles de données spatio-temporelles via une interface exploratoire interactive. Les utilisateurs peuvent rechercher et filtrer ces ensembles de données comme s'ils achetaient leur recherche, sauf que tout est gratuit.
"L'interface cartographique visualise les données, donc vous pouvez voir si c'est un bon ajustement, " a déclaré Eldawy. "C'est comme un catalogue d'ensembles de données."
Au cœur de l'UCR STAR, la carte fournit une interface d'exploration interactive pour l'ensemble de données. Similaire à Google Maps ou à d'autres cartes Web, les utilisateurs peuvent zoomer et dézoomer et se déplacer pour obtenir un aperçu rapide de la distribution des données, couverture, et précision.
Les détails importants sont affichés une fois qu'un ensemble de données est sélectionné, comme la page d'accueil d'origine, un lien vers la source de téléchargement d'origine, taille en octets, nombre d'enregistrements, format de fichier, et d'autres informations utiles. La fonction de téléchargement de sous-ensembles permet aux utilisateurs de télécharger rapidement les données dans une région géographique donnée, ce qui réduit la taille du téléchargement. Ils peuvent également intégrer leur vue personnalisée sur une page Web ou partager le lien via les médias sociaux et le marquer pour le revoir plus tard.
UCR STAR contient 102 ensembles de données et 5 milliards d'enregistrements. Les jeux de données ont été cartographiés à l'aide de Da Vinci, un framework open source construit sur Apache Spark qu'Eldawy a conçu pour fonctionner avec des données spatiales. Le site Web UCR STAR est mieux accessible via un navigateur de bureau, mais possède également une interface limitée adaptée aux mobiles.