Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...

La page est créée Francis Michel
 
CONTINUER À LIRE
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Entrepôt de données ouvertes à l‘IRD
 Un service en ligne pour l’ouverture et le partage des
 données scientifiques au Sud
 Toulouse, le 8 avril 2019

Desconnets J-C, Aventurier P., Sabot F., Banon S., Doucouré C., Coupin T.
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Contexte

12/06/19   2
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Données en danger !
Perte de 17 % par an (Pierre Corvol Collège de France)

https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pdf
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Autour de la reproductibilité des expériences
1500 chercheurs répondent à Nature

                                                                       “More than 70% of researchers have tried
                                                                       and failed to reproduce another
                                                                       scientist's experiments, and more than
                                                                       half have failed to reproduce their own
                                                                       experiments”

Nature may 2016 : https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Une science durable au Sud…

       Recherche interdisciplinaire dans les zones à fort enjeux
        u   Structurer et accéder, croiser les données des différents champs
            disciplinaires

        Des objectifs et actions dans le domaine numérique
         u   « Contribuer à la réduction de la fracture numérique entre Nord
             et Sud »
               • Infrastructures (réseau, calcul, stockage)
               • Outils performants partagés
               • Renforcement de capacités
         u   « Inciter à la science et à l’innovation ouverte »
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
..Ouverte et reproductible
Une ambition affichée dans le Schéma Directeur Numérique 2020-2025

       « Non reproductible single occurrences are of no significance to science »
       Karl Popper, The Logic of Scientific Discovery, 1934

     Extrait de « Preserving Software: challenges and opportunities for reproductibility of Science », Robert de Di Cosmo, 2016)
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Motivations et objectifs

12/06/19                   7
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Motivations
Données cibles

     Observatoires, pôles
     de données, base de
     données accessibles
     sur le web
                                         Données non structurées, non
                                         numérisées, enfouies dans les PC,
                                         historiques non rattachées à des BD
                                         accessibles en interne ou externe

             Distribution des données de la recherche
             (Ferguson et al., 2014)                                           8
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Motivations
        Changer les pratiques de gestion des données

                                                                     stockage

                                  partage
       nouvelles
      publications
       citations
                                                                   découverte       description      Identification

                                                                                                               dépôt
                                                   réutilisation

                        Plan de
Conception projet Conception projet             démarrage
                                               démarrage           acquisitionde
                                                                   acquisition de     Analysede
                                                                                      Analyse de
                      gestion de
                    de recherche                  projet              données           données               finprojet
                                                                                                            fin   projet
  de recherche                                   projet              données           données
                        données

             bornes du projet
                                                                                       publication
                                                                                      publication                             oubli
             cycle de vie au cours du projet                                            résultats
                                                                                       résultats
                                                                                                                           destruction
            cycle de vie dans l’entrepôt
                                                                                                                                         9
               valorisation
Entrepôt de données ouvertes à l'IRD - Un service en ligne pour l'ouverture et le partage des données scientifiques au Sud Toulouse, le 8 avril ...
Motivations
Au service de l’institut

     En interne
     u   Répondre au plan national de la science ouverte
     u   Améliorer la connaissance et la gestion de notre patrimoine de
         données

     Pour nos partenaires Sud
     u   Améliorer l’accessibilité de nos données aux partenaires du Sud
     u   Être un support pour des initiatives de science ouverte au sud
         (réplication de l’entrepôt, mise à disposition, renforcement de
         capacités)

                                                                           10
Attentes des chercheurs

  Des données venant de différents domaines avec des
  caractéristiques diverses (exemples)
   u   Génomique
   u   Ecosystèmes marins exploités
   u   Agro biodiversité
   u   Santé
   u   Géosciences
   u   Sciences sociales

  Des attentes très variées
  u    Données en danger
  u    Reproduction d’expériences
  u    Demande de DOI
  u    Création de data paper
  u    Partage des données avec d’autres équipes
                                                       11
Objectifs de l’entrepôt
Première pièce de l’écosystème «des données pour la science
ouverte »

  À court terme (2019-2020)
  u   Fournir un service (plateforme + accompagnement + curation) aux
      chercheurs pour maitriser la diffusion de leurs données et leur
      préservation

  À moyen terme (2020-2025)
  u   Assurer la découverte des ressources IRD déposées dans d’autres
      entrepôts, pôles de données, infrastructures de recherche (fonction
      d’annuaire)

                                                                            12
Plateforme technique

12/06/19               13
Principes généraux de conception
 • Limitées à la découverte et l’accès aux données
 • Métadonnées et données FAIR
 • Moissonnage des métadonnées par divers protocoles OAI-PMH, CSW

                                     Standard
                                   Identification
                                   system (DOI,
                                     ORCID…)

                                            Use

                        Extend   Metadata core
    Specific metadata               model                        Harvest
    domain standard
                                  (Dublin Core)

                                            Control
                                            metadata value
Fonctionnalités de découverte                                              intéropérabilité
étendues                                  Domain
                                         categories
                                                       Spatial
                                                      location
                                       Species
                                     taxonomies
                                                                                              14
Exigences utilisateurs

  • Attribution de DOI

  • Flexibilité pun jeu de données (enrichissement des métadonnées
   cœur à l’aide de standards issus d’un domaine spécifique)
  • Possibilité de gestion des dépôts par les chercheurs : chaque dossier
   de dépôts peut être géré par un administrateur spécifique avec des
   droits limités

  • Procédure de publication qui permet
         • Lien temporaire pour les relectures
         • Versioning des données
  • Métriques (téléchargement, visite, livre d’or)

                                                                    15
Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse

   • Logiciel open source, créé en 2006 par Harvard
   • Installer une instance locale de Dataverse et participer au réseau de
    Dataverse (Cirad, INRA, Science Po…)
   • Intégrer un « écosystème » d’entrepôts interopérables

                                                https://dataverse.org/       16
Dataverse
Interface web – découverte des données

                               Recherche générale

                                                    Un jeu de données

                                                    Une collection

            Recherche ciblée
Dataverse
Interface web – Citation et accès aux données

                                                La citation du jeu de
                                                données

                                                Les données
                                                associées
Organisation autour de l’entrepôt

12/06/19                            19
Organisation en interne
Articulation entre pôle Science et pôle Appui

                                                         SIV - Service de
                                                          Valoriisation

                 D-DUNI –                DRH – Service
               Service Etudes           Développement
                     et                      des
               Développement             compétences

                                 MIDN

                MCST – Service
                    IST
Sensibilisation et Accompagnement
avec les référents « données » des UMR

Séminaire d’information
 u   Fondamentaux
 u   Recueils des besoins
 u   Tests
Session de dépôt de données : DataThon
 u   Découverte de la plateforme
 u   Mise en place des pratiques de dépôt
 u   Dépôt de données

                                            21
Fonctionnement de l’entrepôt
 Le chercheur dépose et décrit ses données

          • Création d’un espace et formation d’une personne référente
            (chaque unité, projet peuvent créer un espace de dépôt
            personnalisable « Dataverse », ….)

                      Référencement
                         dans les              Description
                      moteurs et les           et dépôt de
                         outils de              données
                        recherche

                            Un administrateur des
                            données l’accompagne
Statuts possibles :
ouvert / fermé/
embargo/
métadonnées seules     Publication
                                              Validation du
                        du jeu de
                                                  dépôt
                        données
Référents « données » des unités de recherche
  Référent « données »
Relais entre

    Des référents par UMR

    u   Avoir quelqu’un de formé sur le dépôt, partage des données
    u   Point de contact avec les coordinateurs/administrateurs de l’entrepôt

   Référent, pas intégrateur
    u   Va sensibiliser ou former les membres de son UMR
    u   Aide, mais ne fait pas « tout le travail » de l’intégration

                                                                                23
Adhérence avec l’existant

12/06/19                    24
Adhérence avec l’existant – en interne
L’entrepôt interconnecté

                                    Open Source

                           Chercheurs

                                                  Open Data
  Open Access

                                                              25
Adhérence avec l’existant - – en externe
L’entrepôt interconnecté

                                            Entrepôts
                                           ESR Français

                                           Observatoires
                                                  Pôle de
                                                  données
                                                                 PNDB
                                                                 Système Terre

                               Moteur de
                               recherche

                                                            26
Feuille de route 2019-2020                                           1
                                                                         • Renforcement de
Ouverture et partage des données au Sud                                    l’ouverture des données
                                                                           scientifiques au Sud

                                                        Politique de gestion et
                                       Colloque            d’ouverture des
                       Lancement
         Ouverture                  Science ouverte             données
         entrepôt                       à Dakar

        Tests           Service entrepôt + accompagnement
             Déclinaison au Sud de la Science ouverte
                                                      Politique

                Printemps     Eté          Octobre                2020
                   2019      2019           2019

                                                                                                     27
Axes de collaborations à l’échelle nationale et
internationale
   Coordination pour la gouvernance des données
        u   Principes de dépôts dans un contexte d’unité multi-tutelles ou
            consortium de projet

   Mutualisation des actions pédagogiques et informatiques
    u   Ressources pédagogiques
    u   Développements mutuels de composants supplémentaires
    u   Partage d’expériences et d’expertise

   Harmonisation des pratiques pour l’interconnexion des entrepôts
        u   Standards (métadonnées, données)
        u   Terminologies
        u   Protocole d’interconnexion des entrepôts
        u   Licences d’utilisation

                                                                             28
Vous pouvez aussi lire