ESGF: une infrastructure pour la gestion des données climatiques à l'échelle internationale - Itiforums
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
ESGF: une infrastructure pour la gestion des données climatiques à l’échelle internationale Marie-Pierre Moine (CERFACS) Éric Gerbier (Météo-France/CNRM) Et aussi… au CNRM : Laurent Franchistéguy, Serge Legouis, Stéphane Sénési au CERFACS : Christian Pagé, Nicolas Monnier, Gérard Dejean, Patrick Laporte à l’IPSL : Sébastien Denvil, Guillaume Levavasseur, Nicolas Carenton Atelier CRiP Stockage, Big data & HPC– Toulouse -11 février 2016
Un exposé en 2 volets… Contexte HPC & méga-données de la modélisation climatique (Marie-Pierre Moine, CERFACS/GLOBC) Mise à disposition des résultats de simulations climatiques via l’ESGF (Éric Gerbier, CNRM/CTI) 2
Les piliers de la modélisation climatique Modèles de Climat Infrastructure HPC • Modèles couplés • Simulations à l ’échelle de la océan/atmosphère décennie/siècle/millénaire • Globaux (GCM) ou • Pas de temps des modèles régionaux (RCM) sub-horaire • Résolution 25-100 km • Sorties à fréquence mensuelle, journalière ou sub-journalière Infrastructure de données Communautés d’utilisateurs (climat + impacts: ressources en eau, aménagement du territoire, santé, …) 3
Ecosystème HPC en Europe & en France 6 PF, 458 752 cores 2 PF, 92 160 cores JUQUEEN : IBM BlueGene/Q CURIE : Bull Bullx GENCI/CEA GAUSS/FZJ Bruyères-le-Châtel, France Jülich, Germany 0.5 PF, 25 800 cores BEAUFIX : Bull Bullx Meteo-France Simulations Toulouse, France CNRM-CERFACS 4
Une science (et des codes numériques) en évolution Résoudre de + en + de processus physiques explicitement (mésoéchelle, échelle des tourbillons,…) 6
Une science (et des codes numériques) en évolution Représenter de + en + de processus physiques dans les modèles (ex. cycles biogéochimiques) Résoudre de + en + de processus physiques explicitement (mésoéchelle, échelle des tourbillons,…) 7
Une science (et des codes numériques) en évolution Représenter de + en + de processus physiques dans les modèles (ex. cycles biogéochimiques) Résoudre de + en + de processus physiques explicitement (mésoéchelle, échelle des tourbillons,…) « capturer » la variabilité interne du système (approche ensembliste) 8
Une science (et des codes numériques) en évolution Représenter de + en + de processus physiques dans les modèles (ex. cycles biogéochimiques) Résoudre de + en + de processus physiques explicitement (mésoéchelle, échelle des tourbillons,…) « capturer » la variabilité « capturer » le champ interne du système des futurs possibles (approche ensembliste) (approche multi- modèles) 9
Le challenge « méga-données » en climat Overpeck et al. (Science 2011) Projected increase in global climate data holdings 10
CMIP, un cadre d’expériences coordonnées internationalement Coupled Model Intercomparison Project Exercice international coordonné par le World Climate Research Program (WCRP- WGCM) Base scientifique des rapports du GIEC (Groupe d'Experts Intergouvernemental sur l'évolution du Climat, IPCC) Tous les ~6 ans: 2001, 2007, 2013, (2022) Un cadre expérimental commun (initialisation, forçages, durée de simulations,…) Evaluation des modèles Compréhension des mécanismes Projections climatiques sous différents scénarios Rapport du GIEC 2013 11
Base de données CMIP5 (2012) ~30 groupes de modélisation ~60 configurations de modèles ~[50-160] types d’expériences ~1000 variables (output) [3400 -12 000] ans de simulation
Base de données CMIP5 (2012) Total : [2-3] PB 4.5 millions de fichiers ~30 groupes de modélisation ~60 configurations de modèles Volumes de données CMIP5 par groupe (TB) ~[50-160] types d’expériences ~1000 variables (output) [3400 -12 000] ans de simulation 13
Base de données CMIP5 (2012) Total : [2-3] PB 4.5 millions de fichiers ~30 groupes de modélisation ~60 configurations de modèles Volumes de données CMIP5 par groupe (TB) ~[50-160] types d’expériences ~1000 variables (output) [3400 -12 000] ans de simulation En route vers CMIP6… 2022 … o(Ebytes) ?? 14
Système d’archivage et de distribution (ESG…ESGF) CMIP3 (2005-2006) 36 TB Central archive at PCMDI (LLNL) Earth System Grid 6700 users 1.2 PB downloaded (CMIP3 only)
Système d’archivage et de distribution (ESG…ESGF) CMIP3 (2005-2006) CMIP5 (2010-2012) 36 TB 1.8PB (up to 3 PB) Central archive at PCMDI (LLNL) Distributed data infrastructure Earth System Grid Earth System Grid Federation Courtesy K. Taylor (PCDMI) 6700 users 27 000 users 1.2 PB downloaded 1 500 users active per month (CMIP3 only) (all ESGF data hodings) 16
Standards de données et métadonnées en climat Identifiable de manière univoque Explicite Traçable (PID, versionning) Comparable lors d’exercices multi- modèles Non corrompue / cohérente (contrôle qualité) Conforme aux spécifications d’un exercice 17
Standards de données et métadonnées en climat Identifiable de manière univoque Explicite Traçable (PID, versionning) Comparable lors d’exercices multi- modèles Non corrompue / cohérente (contrôle qualité) Conforme aux spécifications d’un exercice Ré-employable par d’autres secteurs d’activité Préservable dans des archives numériques Interopérable à travers les systèmes de distribution/exploitation 18
Standards de données et métadonnées en climat Identifiable de manière univoque Explicite Traçable (PID, versionning) NetCDF Comparable lors d’exercices multi- CF-conventions (OGC standard) modèles Non corrompue / cohérente DRS (Data Reference CMOR (contrôle qualité) Syntax) Conforme aux spécifications d’un Controlled exercice vocabulary CIM (Common Ré-employable par d’autres secteurs Information Model) d’activité Préservable dans des archives THREDDS XML numériques catalog Interopérable à travers les systèmes de distribution/exploitation 19
Publication des données sur le réseau ESGF Serveur (datanode) Plateforme de TDS (THREEDS Data Server) distribution (indexnode) +PostgreSQL database apacheSolR D’après Guillaume Levavasseur (IPSL) 20
Publication des données sur le réseau ESGF Serveur (datanode) Plateforme de TDS (THREEDS Data Server) distribution (indexnode) +PostgreSQL database apacheSolR D’après Guillaume Levavasseur (IPSL) 1 Publication sur le datanode 2 Publication sur l’indexnode Génération des catalogues XML Renseignement de l’index + (métadonnées) + alimentation accès à la web front-end de la base locale (diffusion) 21
Publication des données sur le réseau ESGF Serveur (datanode) Plateforme de TDS (THREEDS Data Server) distribution (indexnode) +PostgreSQL database apacheSolR D’après Guillaume Levavasseur (IPSL) 1 Publication sur le datanode 2 Publication sur l’indexnode Génération des catalogues XML Renseignement de l’index + (métadonnées) + alimentation accès à la web front-end de la base locale (diffusion) esg-mapfiles esg-publisher Liste des fichiers à publier Extrait les métadonnées PostgreSQL Calcul des CHECKSUM Génère les catalogues THREEDS XML22
Données exposées sur l ’ESGF (public) https://esgf-node.ipsl.upmc.fr/ 23
Données exposées sur l ’ESGF (public) https://esgf-node.ipsl.upmc.fr/ 24
Données exposées sur l ’ESGF (publiques) Recherche par https://esgf-node.ipsl.upmc.fr/ catégories / mots-clés Search Résultats de la requête (jeux de données pertinents) 25
Un dataNode CNRM-CERFACS DataNode CNRM- CERFACS Administré par Météo-France (CNRM/CTI) (avec le support d’ESGF-France) 26
Vous pouvez aussi lire