ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums

La page est créée Jean-Paul Philippe
 
CONTINUER À LIRE
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
ESGF: une infrastructure pour la
         gestion des données climatiques à
                    l’échelle internationale
                      Marie-Pierre Moine (CERFACS)
                   Éric Gerbier (Météo-France/CNRM)
Et aussi…

au CNRM : Laurent Franchistéguy, Serge Legouis, Stéphane Sénési
au CERFACS : Christian Pagé, Nicolas Monnier, Gérard Dejean, Patrick Laporte
à l’IPSL : Sébastien Denvil, Guillaume Levavasseur, Nicolas Carenton

Atelier CRiP Stockage, Big data & HPC– Toulouse -11 février 2016
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Un exposé en 2 volets…

Contexte HPC & méga-données de la modélisation
                 climatique
           (Marie-Pierre Moine, CERFACS/GLOBC)

  Mise à disposition des résultats de simulations
             climatiques via l’ESGF
                  (Éric Gerbier, CNRM/CTI)

                                                         2
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Les piliers de la modélisation climatique

      Modèles de Climat
                                                       Infrastructure HPC

•   Modèles couplés                                    •   Simulations à l ’échelle de la
    océan/atmosphère                                       décennie/siècle/millénaire
•   Globaux (GCM) ou                                   •   Pas de temps des modèles
    régionaux (RCM)                                        sub-horaire
•   Résolution 25-100 km                               •   Sorties à fréquence mensuelle,
                                                           journalière ou sub-journalière
                           Infrastructure de données

    Communautés d’utilisateurs (climat + impacts: ressources en eau,
               aménagement du territoire, santé, …)
                                                                                   3
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Ecosystème HPC en Europe & en France

6 PF, 458 752 cores 2 PF, 92 160 cores
JUQUEEN : IBM BlueGene/Q CURIE : Bull Bullx GENCI/CEA
GAUSS/FZJ                Bruyères-le-Châtel, France
Jülich, Germany

          0.5 PF, 25 800 cores
         BEAUFIX : Bull Bullx Meteo-France
                                               Simulations
         Toulouse, France                    CNRM-CERFACS

                                                                        4
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Une science (et des codes numériques) en évolution

                                              5
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Une science (et des codes numériques) en évolution

Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)

                                                            6
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Une science (et des codes numériques) en évolution

                                            Représenter de + en + de
                                            processus physiques dans
                                            les modèles (ex. cycles
                                            biogéochimiques)

Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)

                                                                       7
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Une science (et des codes numériques) en évolution

                                                      Représenter de + en + de
                                                      processus physiques dans
                                                      les modèles (ex. cycles
                                                      biogéochimiques)

Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)

                        « capturer » la variabilité
                        interne du système
                        (approche ensembliste)

                                                                                 8
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Une science (et des codes numériques) en évolution

                                                      Représenter de + en + de
                                                      processus physiques dans
                                                      les modèles (ex. cycles
                                                      biogéochimiques)

Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)

                        « capturer » la variabilité       « capturer » le champ
                        interne du système                des futurs possibles
                        (approche ensembliste)            (approche multi-
                                                          modèles)

                                                                                 9
ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
Le challenge « méga-données » en climat

Overpeck et al.
(Science 2011)

                  Projected increase in global
                     climate data holdings

                                             10
CMIP, un cadre d’expériences coordonnées
                                                 internationalement
Coupled Model Intercomparison Project
   Exercice international coordonné par le World Climate Research Program (WCRP-
    WGCM)
   Base scientifique des rapports du GIEC (Groupe d'Experts Intergouvernemental sur
    l'évolution du Climat, IPCC)
   Tous les ~6 ans: 2001, 2007, 2013, (2022)
   Un cadre expérimental commun (initialisation, forçages, durée de simulations,…)

                             Evaluation des
                              modèles
                             Compréhension des
                              mécanismes
                             Projections
                              climatiques sous
                              différents scénarios

                                                              Rapport du GIEC 2013
                                                                                 11
Base de données CMIP5 (2012)

 ~30 groupes de modélisation
~60 configurations de modèles
~[50-160] types d’expériences
   ~1000 variables (output)
   [3400 -12 000] ans de
         simulation
Base de données CMIP5 (2012)

                                             Total : [2-3] PB
                                         4.5 millions de fichiers

 ~30 groupes de modélisation
~60 configurations de modèles   Volumes de données CMIP5 par groupe (TB)
~[50-160] types d’expériences
   ~1000 variables (output)
   [3400 -12 000] ans de
         simulation

                                                                    13
Base de données CMIP5 (2012)

                                             Total : [2-3] PB
                                         4.5 millions de fichiers

 ~30 groupes de modélisation
~60 configurations de modèles   Volumes de données CMIP5 par groupe (TB)
~[50-160] types d’expériences
   ~1000 variables (output)
   [3400 -12 000] ans de
         simulation

                                    En route vers CMIP6… 2022
                                    … o(Ebytes) ??
                                                                    14
Système d’archivage et de distribution (ESG…ESGF)

       CMIP3 (2005-2006)
              36 TB
Central archive at PCMDI (LLNL)
        Earth System Grid

       6700 users
       1.2 PB downloaded
            (CMIP3 only)
Système d’archivage et de distribution (ESG…ESGF)

       CMIP3 (2005-2006)                 CMIP5 (2010-2012)
              36 TB                      1.8PB (up to 3 PB)
Central archive at PCMDI (LLNL)   Distributed data infrastructure
        Earth System Grid           Earth System Grid Federation

                                                    Courtesy K. Taylor (PCDMI)
       6700 users                  27 000 users
       1.2 PB downloaded           1 500 users active per month
            (CMIP3 only)                  (all ESGF data hodings)
                                                                       16
Standards de données et métadonnées
                                                         en climat
   Identifiable de manière univoque
   Explicite
   Traçable (PID, versionning)
   Comparable lors d’exercices multi-
    modèles
 Non corrompue / cohérente
    (contrôle qualité)
 Conforme aux spécifications d’un
    exercice

                                                              17
Standards de données et métadonnées
                                                         en climat
   Identifiable de manière univoque
   Explicite
   Traçable (PID, versionning)
   Comparable lors d’exercices multi-
    modèles
 Non corrompue / cohérente
    (contrôle qualité)
 Conforme aux spécifications d’un
    exercice

 Ré-employable par d’autres secteurs
    d’activité
 Préservable dans des archives
    numériques
 Interopérable à travers les systèmes
    de distribution/exploitation

                                                              18
Standards de données et métadonnées
                                                         en climat
   Identifiable de manière univoque
   Explicite
   Traçable (PID, versionning)                 NetCDF
   Comparable lors d’exercices multi-      CF-conventions      (OGC standard)
    modèles
 Non corrompue / cohérente               DRS (Data Reference   CMOR
    (contrôle qualité)                          Syntax)
 Conforme aux spécifications d’un
                                               Controlled
    exercice
                                               vocabulary
                                             CIM (Common
 Ré-employable par d’autres secteurs     Information Model)
    d’activité
 Préservable dans des archives             THREDDS XML
    numériques                                 catalog
 Interopérable à travers les systèmes
    de distribution/exploitation

                                                                       19
Publication des données sur le réseau ESGF
       Serveur (datanode)                          Plateforme de
       TDS (THREEDS Data Server)             distribution (indexnode)
         +PostgreSQL database                        apacheSolR
D’après Guillaume
Levavasseur (IPSL)

                                                                  20
Publication des données sur le réseau ESGF
       Serveur (datanode)                            Plateforme de
       TDS (THREEDS Data Server)               distribution (indexnode)
         +PostgreSQL database                           apacheSolR
D’après Guillaume
Levavasseur (IPSL)

  1    Publication sur le datanode         2    Publication sur l’indexnode
       Génération des catalogues XML            Renseignement de l’index +
       (métadonnées) + alimentation             accès à la web front-end
       de la base locale                        (diffusion)

                                                                             21
Publication des données sur le réseau ESGF
       Serveur (datanode)                                      Plateforme de
       TDS (THREEDS Data Server)                         distribution (indexnode)
         +PostgreSQL database                                      apacheSolR
D’après Guillaume
Levavasseur (IPSL)

  1    Publication sur le datanode                   2    Publication sur l’indexnode
       Génération des catalogues XML                      Renseignement de l’index +
       (métadonnées) + alimentation                       accès à la web front-end
       de la base locale                                  (diffusion)

                         esg-mapfiles                    esg-publisher

               Liste des fichiers à publier    Extrait les métadonnées  PostgreSQL
               Calcul des CHECKSUM             Génère les catalogues  THREEDS XML22
Données exposées sur l ’ESGF (public)
               https://esgf-node.ipsl.upmc.fr/

                                       23
Données exposées sur l ’ESGF (public)
               https://esgf-node.ipsl.upmc.fr/

                                       24
Données exposées sur l ’ESGF (publiques)
Recherche par            https://esgf-node.ipsl.upmc.fr/
 catégories /
  mots-clés

                     Search          Résultats de la
                                    requête (jeux de
                                   données pertinents)

                                                 25
Un dataNode CNRM-CERFACS

                         DataNode
                         CNRM-
                         CERFACS

Administré par Météo-France (CNRM/CTI)
(avec le support d’ESGF-France)

                                    26
Vous pouvez aussi lire