Crédit :CC0 Domaine public
Google, dès le premier jour, est devenu grand en se lançant dans la recherche d'informations. Des années plus tard, Google parle sérieusement des ensembles de données. Google lance un nouveau moteur de recherche pour aider les scientifiques à trouver les ensembles de données dont ils ont besoin.
Mercredi, La chercheuse en IA de Google, Natasha Noy, a annoncé le lancement de Google Dataset Search. Vous bénéficiez désormais d'un accès facile aux ensembles de données, si vous êtes scientifique, ou simplement "geek" des données dans un autre type de poursuite, à la recherche de données pour votre travail et pour vos histoires et pour votre curiosité intellectuelle.
L'objectif est de vous apporter plus d'une interface unique. Jon Fingas dans Engagé examiné comment cela peut bénéficier à la recherche de données.
"L'outil offre un accès plus direct aux données présentées dans un standard ouvert qui indique clairement qui a créé l'information, comment il a été collecté et comment vous êtes autorisé à l'utiliser. Vous pouvez non seulement rechercher des données climatiques pour un rapport, mais assurez-vous qu'il est pertinent et légal à utiliser."
Il s'agit d'une poussée mondiale (comme internationale) qui fonctionne dans plusieurs langues avec la prise en charge de langues supplémentaires à venir. Jacques Vincent dans Le bord a cité Noy :"Je pense qu'au cours des dernières années, le nombre de référentiels a explosé."
"Entrez simplement ce que vous recherchez et nous vous guiderons vers l'ensemble de données publié sur le site du fournisseur de référentiel, " dit-elle. Actuellement, les ensembles de données et les données associées ont tendance à être répartis sur plusieurs référentiels de données et on peut constater que les informations sur ces ensembles de données ne sont ni liées ni indexées par les moteurs de recherche. Pour la personne effectuant une recherche, la découverte de données devient au mieux fastidieuse.
Ils soutiennent sérieusement un écosystème où les fournisseurs d'ensembles de données eux-mêmes sont encouragés, via des directives que Google a développées, décrire leurs données « de manière à ce que Google (et les autres moteurs de recherche) puisse mieux comprendre le contenu de leurs pages, " elle a dit.
Ils ont utilisé le standard ouvert schema.org pour leur approche à ce sujet. Sur la liste de souhaits de Noy :que tous les fournisseurs d'ensembles de données adhèrent à cette norme commune. On espère que davantage de référentiels de données utiliseront la norme schema.org pour décrire leurs ensembles de données. De cette façon, dit non, les ensembles de données font partie d'un « écosystème robuste ».
« Un outil de recherche comme celui-ci ne vaut que par les métadonnées que les éditeurs de données sont prêts à fournir. Nous espérons voir beaucoup d'entre vous utiliser les normes ouvertes pour décrire vos données, permettant à nos utilisateurs de trouver les données qu'ils recherchent."
Jon Fingas dans Engagé :"C'est loin d'être une ressource définitive pour le moment. C'est un début, cependant, et Google espère sans aucun doute que cela encouragera les autres à rendre leurs données publiques plus consultables."
Et si tout cela ne suffisait pas, Google va couper certains chemins pour tirer le meilleur parti des données sur les données sur les données.
Selon Le bord , Jeni Tennison, chef de l'Open Data Institute, a déclaré qu'idéalement, Google publiera son propre ensemble de données sur la manière dont la recherche d'ensembles de données est utilisée. Elle a dit que Google devrait publier un ensemble de données sur la recherche d'ensembles de données qui serait indexé par Dataset Search, ajouta Vincent. Il la cita :
"Il est important de comprendre simplement comment les gens recherchent... le type de termes qu'ils utilisent, comment ils les expriment, " dit Tennison. " Si nous voulons comprendre comment les gens recherchent des données et les rendre plus accessibles, ce serait formidable si Google ouvrait ses propres données à ce sujet." En d'autres termes, il ajouta, Google devrait publier un ensemble de données sur la recherche d'ensembles de données qui serait indexé par la recherche d'ensembles de données.
© 2018 Tech Xplore