Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Entrepôt de données ouvertes à l‘IRD Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril 2019 Desconnets J-C, Aventurier P., Sabot F., Banon S., Doucouré C., Coupin T.
Données en danger ! Perte de 17 % par an (Pierre Corvol Collège de France) https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pdf
Autour de la reproductibilité des expériences
1500 chercheurs répondent à Nature
“More than 70% of researchers have tried
and failed to reproduce another
scientist's experiments, and more than
half have failed to reproduce their own
experiments”
Nature may 2016 : https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970Une science durable au Sud…
Recherche interdisciplinaire dans les zones à fort enjeux
u Structurer et accéder, croiser les données des différents champs
disciplinaires
Des objectifs et actions dans le domaine numérique
u « Contribuer à la réduction de la fracture numérique entre Nord
et Sud »
• Infrastructures (réseau, calcul, stockage)
• Outils performants partagés
• Renforcement de capacités
u « Inciter à la science et à l’innovation ouverte »..Ouverte et reproductible
Une ambition affichée dans le Schéma Directeur Numérique 2020-2025
« Non reproductible single occurrences are of no significance to science »
Karl Popper, The Logic of Scientific Discovery, 1934
Extrait de « Preserving Software: challenges and opportunities for reproductibility of Science », Robert de Di Cosmo, 2016)Motivations
Données cibles
Observatoires, pôles
de données, base de
données accessibles
sur le web
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des BD
accessibles en interne ou externe
Distribution des données de la recherche
(Ferguson et al., 2014) 8Motivations
Changer les pratiques de gestion des données
stockage
partage
nouvelles
publications
citations
découverte description Identification
dépôt
réutilisation
Plan de
Conception projet Conception projet démarrage
démarrage acquisitionde
acquisition de Analysede
Analyse de
gestion de
de recherche projet données données finprojet
fin projet
de recherche projet données données
données
bornes du projet
publication
publication oubli
cycle de vie au cours du projet résultats
résultats
destruction
cycle de vie dans l’entrepôt
9
valorisationMotivations
Au service de l’institut
En interne
u Répondre au plan national de la science ouverte
u Améliorer la connaissance et la gestion de notre patrimoine de
données
Pour nos partenaires Sud
u Améliorer l’accessibilité de nos données aux partenaires du Sud
u Être un support pour des initiatives de science ouverte au sud
(réplication de l’entrepôt, mise à disposition, renforcement de
capacités)
10Attentes des chercheurs
Des données venant de différents domaines avec des
caractéristiques diverses (exemples)
u Génomique
u Ecosystèmes marins exploités
u Agro biodiversité
u Santé
u Géosciences
u Sciences sociales
Des attentes très variées
u Données en danger
u Reproduction d’expériences
u Demande de DOI
u Création de data paper
u Partage des données avec d’autres équipes
11Objectifs de l’entrepôt
Première pièce de l’écosystème «des données pour la science
ouverte »
À court terme (2019-2020)
u Fournir un service (plateforme + accompagnement + curation) aux
chercheurs pour maitriser la diffusion de leurs données et leur
préservation
À moyen terme (2020-2025)
u Assurer la découverte des ressources IRD déposées dans d’autres
entrepôts, pôles de données, infrastructures de recherche (fonction
d’annuaire)
12Plateforme technique 12/06/19 13
Principes généraux de conception
• Limitées à la découverte et l’accès aux données
• Métadonnées et données FAIR
• Moissonnage des métadonnées par divers protocoles OAI-PMH, CSW
Standard
Identification
system (DOI,
ORCID…)
Use
Extend Metadata core
Specific metadata model Harvest
domain standard
(Dublin Core)
Control
metadata value
Fonctionnalités de découverte intéropérabilité
étendues Domain
categories
Spatial
location
Species
taxonomies
14Exigences utilisateurs
• Attribution de DOI
• Flexibilité pun jeu de données (enrichissement des métadonnées
cœur à l’aide de standards issus d’un domaine spécifique)
• Possibilité de gestion des dépôts par les chercheurs : chaque dossier
de dépôts peut être géré par un administrateur spécifique avec des
droits limités
• Procédure de publication qui permet
• Lien temporaire pour les relectures
• Versioning des données
• Métriques (téléchargement, visite, livre d’or)
15Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse
• Logiciel open source, créé en 2006 par Harvard
• Installer une instance locale de Dataverse et participer au réseau de
Dataverse (Cirad, INRA, Science Po…)
• Intégrer un « écosystème » d’entrepôts interopérables
https://dataverse.org/ 16Dataverse
Interface web – découverte des données
Recherche générale
Un jeu de données
Une collection
Recherche cibléeDataverse
Interface web – Citation et accès aux données
La citation du jeu de
données
Les données
associéesOrganisation autour de l’entrepôt 12/06/19 19
Organisation en interne
Articulation entre pôle Science et pôle Appui
SIV - Service de
Valoriisation
D-DUNI – DRH – Service
Service Etudes Développement
et des
Développement compétences
MIDN
MCST – Service
ISTSensibilisation et Accompagnement
avec les référents « données » des UMR
Séminaire d’information
u Fondamentaux
u Recueils des besoins
u Tests
Session de dépôt de données : DataThon
u Découverte de la plateforme
u Mise en place des pratiques de dépôt
u Dépôt de données
21Fonctionnement de l’entrepôt
Le chercheur dépose et décrit ses données
• Création d’un espace et formation d’une personne référente
(chaque unité, projet peuvent créer un espace de dépôt
personnalisable « Dataverse », ….)
Référencement
dans les Description
moteurs et les et dépôt de
outils de données
recherche
Un administrateur des
données l’accompagne
Statuts possibles :
ouvert / fermé/
embargo/
métadonnées seules Publication
Validation du
du jeu de
dépôt
donnéesRéférents « données » des unités de recherche
Référent « données »
Relais entre
Des référents par UMR
u Avoir quelqu’un de formé sur le dépôt, partage des données
u Point de contact avec les coordinateurs/administrateurs de l’entrepôt
Référent, pas intégrateur
u Va sensibiliser ou former les membres de son UMR
u Aide, mais ne fait pas « tout le travail » de l’intégration
23Adhérence avec l’existant 12/06/19 24
Adhérence avec l’existant – en interne
L’entrepôt interconnecté
Open Source
Chercheurs
Open Data
Open Access
25Adhérence avec l’existant - – en externe
L’entrepôt interconnecté
Entrepôts
ESR Français
Observatoires
Pôle de
données
PNDB
Système Terre
Moteur de
recherche
26Feuille de route 2019-2020 1
• Renforcement de
Ouverture et partage des données au Sud l’ouverture des données
scientifiques au Sud
Politique de gestion et
Colloque d’ouverture des
Lancement
Ouverture Science ouverte données
entrepôt à Dakar
Tests Service entrepôt + accompagnement
Déclinaison au Sud de la Science ouverte
Politique
Printemps Eté Octobre 2020
2019 2019 2019
27Axes de collaborations à l’échelle nationale et
internationale
Coordination pour la gouvernance des données
u Principes de dépôts dans un contexte d’unité multi-tutelles ou
consortium de projet
Mutualisation des actions pédagogiques et informatiques
u Ressources pédagogiques
u Développements mutuels de composants supplémentaires
u Partage d’expériences et d’expertise
Harmonisation des pratiques pour l’interconnexion des entrepôts
u Standards (métadonnées, données)
u Terminologies
u Protocole d’interconnexion des entrepôts
u Licences d’utilisation
28Vous pouvez aussi lire