ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
ESGF: une infrastructure pour la
gestion des données climatiques à
l’échelle internationale
Marie-Pierre Moine (CERFACS)
Éric Gerbier (Météo-France/CNRM)
Et aussi…
au CNRM : Laurent Franchistéguy, Serge Legouis, Stéphane Sénési
au CERFACS : Christian Pagé, Nicolas Monnier, Gérard Dejean, Patrick Laporte
à l’IPSL : Sébastien Denvil, Guillaume Levavasseur, Nicolas Carenton
Atelier CRiP Stockage, Big data & HPC– Toulouse -11 février 2016Un exposé en 2 volets…
Contexte HPC & méga-données de la modélisation
climatique
(Marie-Pierre Moine, CERFACS/GLOBC)
Mise à disposition des résultats de simulations
climatiques via l’ESGF
(Éric Gerbier, CNRM/CTI)
2Les piliers de la modélisation climatique
Modèles de Climat
Infrastructure HPC
• Modèles couplés • Simulations à l ’échelle de la
océan/atmosphère décennie/siècle/millénaire
• Globaux (GCM) ou • Pas de temps des modèles
régionaux (RCM) sub-horaire
• Résolution 25-100 km • Sorties à fréquence mensuelle,
journalière ou sub-journalière
Infrastructure de données
Communautés d’utilisateurs (climat + impacts: ressources en eau,
aménagement du territoire, santé, …)
3Ecosystème HPC en Europe & en France
6 PF, 458 752 cores 2 PF, 92 160 cores
JUQUEEN : IBM BlueGene/Q CURIE : Bull Bullx GENCI/CEA
GAUSS/FZJ Bruyères-le-Châtel, France
Jülich, Germany
0.5 PF, 25 800 cores
BEAUFIX : Bull Bullx Meteo-France
Simulations
Toulouse, France CNRM-CERFACS
4Une science (et des codes numériques) en évolution
Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)
6Une science (et des codes numériques) en évolution
Représenter de + en + de
processus physiques dans
les modèles (ex. cycles
biogéochimiques)
Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)
7Une science (et des codes numériques) en évolution
Représenter de + en + de
processus physiques dans
les modèles (ex. cycles
biogéochimiques)
Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)
« capturer » la variabilité
interne du système
(approche ensembliste)
8Une science (et des codes numériques) en évolution
Représenter de + en + de
processus physiques dans
les modèles (ex. cycles
biogéochimiques)
Résoudre de + en +
de processus
physiques
explicitement
(mésoéchelle, échelle
des tourbillons,…)
« capturer » la variabilité « capturer » le champ
interne du système des futurs possibles
(approche ensembliste) (approche multi-
modèles)
9Le challenge « méga-données » en climat
Overpeck et al.
(Science 2011)
Projected increase in global
climate data holdings
10CMIP, un cadre d’expériences coordonnées
internationalement
Coupled Model Intercomparison Project
Exercice international coordonné par le World Climate Research Program (WCRP-
WGCM)
Base scientifique des rapports du GIEC (Groupe d'Experts Intergouvernemental sur
l'évolution du Climat, IPCC)
Tous les ~6 ans: 2001, 2007, 2013, (2022)
Un cadre expérimental commun (initialisation, forçages, durée de simulations,…)
Evaluation des
modèles
Compréhension des
mécanismes
Projections
climatiques sous
différents scénarios
Rapport du GIEC 2013
11Base de données CMIP5 (2012)
~30 groupes de modélisation
~60 configurations de modèles
~[50-160] types d’expériences
~1000 variables (output)
[3400 -12 000] ans de
simulationBase de données CMIP5 (2012)
Total : [2-3] PB
4.5 millions de fichiers
~30 groupes de modélisation
~60 configurations de modèles Volumes de données CMIP5 par groupe (TB)
~[50-160] types d’expériences
~1000 variables (output)
[3400 -12 000] ans de
simulation
13Base de données CMIP5 (2012)
Total : [2-3] PB
4.5 millions de fichiers
~30 groupes de modélisation
~60 configurations de modèles Volumes de données CMIP5 par groupe (TB)
~[50-160] types d’expériences
~1000 variables (output)
[3400 -12 000] ans de
simulation
En route vers CMIP6… 2022
… o(Ebytes) ??
14Système d’archivage et de distribution (ESG…ESGF)
CMIP3 (2005-2006)
36 TB
Central archive at PCMDI (LLNL)
Earth System Grid
6700 users
1.2 PB downloaded
(CMIP3 only)Système d’archivage et de distribution (ESG…ESGF)
CMIP3 (2005-2006) CMIP5 (2010-2012)
36 TB 1.8PB (up to 3 PB)
Central archive at PCMDI (LLNL) Distributed data infrastructure
Earth System Grid Earth System Grid Federation
Courtesy K. Taylor (PCDMI)
6700 users 27 000 users
1.2 PB downloaded 1 500 users active per month
(CMIP3 only) (all ESGF data hodings)
16Standards de données et métadonnées
en climat
Identifiable de manière univoque
Explicite
Traçable (PID, versionning)
Comparable lors d’exercices multi-
modèles
Non corrompue / cohérente
(contrôle qualité)
Conforme aux spécifications d’un
exercice
17Standards de données et métadonnées
en climat
Identifiable de manière univoque
Explicite
Traçable (PID, versionning)
Comparable lors d’exercices multi-
modèles
Non corrompue / cohérente
(contrôle qualité)
Conforme aux spécifications d’un
exercice
Ré-employable par d’autres secteurs
d’activité
Préservable dans des archives
numériques
Interopérable à travers les systèmes
de distribution/exploitation
18Standards de données et métadonnées
en climat
Identifiable de manière univoque
Explicite
Traçable (PID, versionning) NetCDF
Comparable lors d’exercices multi- CF-conventions (OGC standard)
modèles
Non corrompue / cohérente DRS (Data Reference CMOR
(contrôle qualité) Syntax)
Conforme aux spécifications d’un
Controlled
exercice
vocabulary
CIM (Common
Ré-employable par d’autres secteurs Information Model)
d’activité
Préservable dans des archives THREDDS XML
numériques catalog
Interopérable à travers les systèmes
de distribution/exploitation
19Publication des données sur le réseau ESGF
Serveur (datanode) Plateforme de
TDS (THREEDS Data Server) distribution (indexnode)
+PostgreSQL database apacheSolR
D’après Guillaume
Levavasseur (IPSL)
20Publication des données sur le réseau ESGF
Serveur (datanode) Plateforme de
TDS (THREEDS Data Server) distribution (indexnode)
+PostgreSQL database apacheSolR
D’après Guillaume
Levavasseur (IPSL)
1 Publication sur le datanode 2 Publication sur l’indexnode
Génération des catalogues XML Renseignement de l’index +
(métadonnées) + alimentation accès à la web front-end
de la base locale (diffusion)
21Publication des données sur le réseau ESGF
Serveur (datanode) Plateforme de
TDS (THREEDS Data Server) distribution (indexnode)
+PostgreSQL database apacheSolR
D’après Guillaume
Levavasseur (IPSL)
1 Publication sur le datanode 2 Publication sur l’indexnode
Génération des catalogues XML Renseignement de l’index +
(métadonnées) + alimentation accès à la web front-end
de la base locale (diffusion)
esg-mapfiles esg-publisher
Liste des fichiers à publier Extrait les métadonnées PostgreSQL
Calcul des CHECKSUM Génère les catalogues THREEDS XML22Données exposées sur l ’ESGF (public)
https://esgf-node.ipsl.upmc.fr/
23Données exposées sur l ’ESGF (public)
https://esgf-node.ipsl.upmc.fr/
24Données exposées sur l ’ESGF (publiques)
Recherche par https://esgf-node.ipsl.upmc.fr/
catégories /
mots-clés
Search Résultats de la
requête (jeux de
données pertinents)
25Un dataNode CNRM-CERFACS
DataNode
CNRM-
CERFACS
Administré par Météo-France (CNRM/CTI)
(avec le support d’ESGF-France)
26Vous pouvez aussi lire