Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Entrepôt de données ouvertes à l‘IRD Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril 2019 Desconnets J-C, Aventurier P., Sabot F., Banon S., Doucouré C., Coupin T.
Données en danger ! Perte de 17 % par an (Pierre Corvol Collège de France) https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pdf
Autour de la reproductibilité des expériences 1500 chercheurs répondent à Nature “More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments” Nature may 2016 : https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Une science durable au Sud… Recherche interdisciplinaire dans les zones à fort enjeux u Structurer et accéder, croiser les données des différents champs disciplinaires Des objectifs et actions dans le domaine numérique u « Contribuer à la réduction de la fracture numérique entre Nord et Sud » • Infrastructures (réseau, calcul, stockage) • Outils performants partagés • Renforcement de capacités u « Inciter à la science et à l’innovation ouverte »
..Ouverte et reproductible Une ambition affichée dans le Schéma Directeur Numérique 2020-2025 « Non reproductible single occurrences are of no significance to science » Karl Popper, The Logic of Scientific Discovery, 1934 Extrait de « Preserving Software: challenges and opportunities for reproductibility of Science », Robert de Di Cosmo, 2016)
Motivations Données cibles Observatoires, pôles de données, base de données accessibles sur le web Données non structurées, non numérisées, enfouies dans les PC, historiques non rattachées à des BD accessibles en interne ou externe Distribution des données de la recherche (Ferguson et al., 2014) 8
Motivations Changer les pratiques de gestion des données stockage partage nouvelles publications citations découverte description Identification dépôt réutilisation Plan de Conception projet Conception projet démarrage démarrage acquisitionde acquisition de Analysede Analyse de gestion de de recherche projet données données finprojet fin projet de recherche projet données données données bornes du projet publication publication oubli cycle de vie au cours du projet résultats résultats destruction cycle de vie dans l’entrepôt 9 valorisation
Motivations Au service de l’institut En interne u Répondre au plan national de la science ouverte u Améliorer la connaissance et la gestion de notre patrimoine de données Pour nos partenaires Sud u Améliorer l’accessibilité de nos données aux partenaires du Sud u Être un support pour des initiatives de science ouverte au sud (réplication de l’entrepôt, mise à disposition, renforcement de capacités) 10
Attentes des chercheurs Des données venant de différents domaines avec des caractéristiques diverses (exemples) u Génomique u Ecosystèmes marins exploités u Agro biodiversité u Santé u Géosciences u Sciences sociales Des attentes très variées u Données en danger u Reproduction d’expériences u Demande de DOI u Création de data paper u Partage des données avec d’autres équipes 11
Objectifs de l’entrepôt Première pièce de l’écosystème «des données pour la science ouverte » À court terme (2019-2020) u Fournir un service (plateforme + accompagnement + curation) aux chercheurs pour maitriser la diffusion de leurs données et leur préservation À moyen terme (2020-2025) u Assurer la découverte des ressources IRD déposées dans d’autres entrepôts, pôles de données, infrastructures de recherche (fonction d’annuaire) 12
Plateforme technique 12/06/19 13
Principes généraux de conception • Limitées à la découverte et l’accès aux données • Métadonnées et données FAIR • Moissonnage des métadonnées par divers protocoles OAI-PMH, CSW Standard Identification system (DOI, ORCID…) Use Extend Metadata core Specific metadata model Harvest domain standard (Dublin Core) Control metadata value Fonctionnalités de découverte intéropérabilité étendues Domain categories Spatial location Species taxonomies 14
Exigences utilisateurs • Attribution de DOI • Flexibilité pun jeu de données (enrichissement des métadonnées cœur à l’aide de standards issus d’un domaine spécifique) • Possibilité de gestion des dépôts par les chercheurs : chaque dossier de dépôts peut être géré par un administrateur spécifique avec des droits limités • Procédure de publication qui permet • Lien temporaire pour les relectures • Versioning des données • Métriques (téléchargement, visite, livre d’or) 15
Plateforme logicielle pour l’entrepôt IRD Outil open source Dataverse • Logiciel open source, créé en 2006 par Harvard • Installer une instance locale de Dataverse et participer au réseau de Dataverse (Cirad, INRA, Science Po…) • Intégrer un « écosystème » d’entrepôts interopérables https://dataverse.org/ 16
Dataverse Interface web – découverte des données Recherche générale Un jeu de données Une collection Recherche ciblée
Dataverse Interface web – Citation et accès aux données La citation du jeu de données Les données associées
Organisation autour de l’entrepôt 12/06/19 19
Organisation en interne Articulation entre pôle Science et pôle Appui SIV - Service de Valoriisation D-DUNI – DRH – Service Service Etudes Développement et des Développement compétences MIDN MCST – Service IST
Sensibilisation et Accompagnement avec les référents « données » des UMR Séminaire d’information u Fondamentaux u Recueils des besoins u Tests Session de dépôt de données : DataThon u Découverte de la plateforme u Mise en place des pratiques de dépôt u Dépôt de données 21
Fonctionnement de l’entrepôt Le chercheur dépose et décrit ses données • Création d’un espace et formation d’une personne référente (chaque unité, projet peuvent créer un espace de dépôt personnalisable « Dataverse », ….) Référencement dans les Description moteurs et les et dépôt de outils de données recherche Un administrateur des données l’accompagne Statuts possibles : ouvert / fermé/ embargo/ métadonnées seules Publication Validation du du jeu de dépôt données
Référents « données » des unités de recherche Référent « données » Relais entre Des référents par UMR u Avoir quelqu’un de formé sur le dépôt, partage des données u Point de contact avec les coordinateurs/administrateurs de l’entrepôt Référent, pas intégrateur u Va sensibiliser ou former les membres de son UMR u Aide, mais ne fait pas « tout le travail » de l’intégration 23
Adhérence avec l’existant 12/06/19 24
Adhérence avec l’existant – en interne L’entrepôt interconnecté Open Source Chercheurs Open Data Open Access 25
Adhérence avec l’existant - – en externe L’entrepôt interconnecté Entrepôts ESR Français Observatoires Pôle de données PNDB Système Terre Moteur de recherche 26
Feuille de route 2019-2020 1 • Renforcement de Ouverture et partage des données au Sud l’ouverture des données scientifiques au Sud Politique de gestion et Colloque d’ouverture des Lancement Ouverture Science ouverte données entrepôt à Dakar Tests Service entrepôt + accompagnement Déclinaison au Sud de la Science ouverte Politique Printemps Eté Octobre 2020 2019 2019 2019 27
Axes de collaborations à l’échelle nationale et internationale Coordination pour la gouvernance des données u Principes de dépôts dans un contexte d’unité multi-tutelles ou consortium de projet Mutualisation des actions pédagogiques et informatiques u Ressources pédagogiques u Développements mutuels de composants supplémentaires u Partage d’expériences et d’expertise Harmonisation des pratiques pour l’interconnexion des entrepôts u Standards (métadonnées, données) u Terminologies u Protocole d’interconnexion des entrepôts u Licences d’utilisation 28
Vous pouvez aussi lire