Dataset Search est un nouveau moteur de recherche Google dédié aux données publiques gouvernementales et scientifiques lancé par Google le 5 septembre. Il s’ajoute à une série d’initiatives visant à simplifier l’accès aux données scientifiques pour les datajournalistes, scientifiques ou n’importe quel utilisateur à la recherche de références pour son travail ou simplement pour satisfaire sa curiosité. L’utilisateur a accès à différents formats de données : fichier csv, xml, tableau excel, image contenant des données… jusqu’ici pas facile à analyser pour les moteurs.

Ce petit nouveau rejoint la liste des moteurs spécialisés de Google comme Google Scholar, lancé en 2004, qui inventorie les articles scientifiques et Google Public Date Explorer qui centralise les données publiques de la Banque mondiale et Eurostat. Avec Dataset Search, Google souhaite créer un véritable écosystème de partage. Afin d’enrichir sa base, pour le moment plutôt incomplète (sources pour la plupart américaines et sujets limités), il encourage vivement les éditeurs/fournisseurs de données à suivre ces directives :

  • Décrire les informations en utilisant le standard schema.org Dataset
  • Pousser les urls concernées via le sitemap
  • Dans le cas de republication ou d’utilisation de données, utiliser les property :
    • « sameAs » >pour indiquer l’URL lors d’une simple republication
    • « isBasedOn » > dans le cas où le dataset a été modifié ou agrégé.
    • « identifier » > pour attacher un Digital Object identifiers

Sur la page de résultats, Dataset Search affiche pour chaque élément de données sélectionné (colonne de gauche) et correctement balisé, une vue complète sur la référence (colonne de droite) : le(s) auteur(s), la date de publication, le format, une description plus ou moins détaillées… L’utilisateur n’a plus qu’à s’amuser !