GIEC/IPCC PRODIGUER un noeud français de distribution de données - Sébastien Denvil et Olivier Marti Pôle de Modélisation, IPSL
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
PRODIGUER un noeud français de distribution de données GIEC/IPCC Sébastien Denvil et Olivier Marti Pôle de Modélisation, IPSL Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 1
Le contexte : le compte à rebours du rapport GIECC/IPCC Fin 2009 Æ Automne 2010 : Simulations climatiques Fin 2010 Æ ? Distribution des résultats de simulations Fin 2010 Æ Début 2012 : Publications scientifiques Début 2013 : Publication du rapport GIECC/IPCC AR5 (Assessment Report #5) Octobre 2013 : Prix Nobel Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 2
Plan de l’exposé Pourquoi Prodiguer : PROjet de Diffusion Internationale des données du GIEC AR5, Une plateformE pour la Recherche Les grilles de données orientées «Climat » La voie Européenne du CMCC (Centre Euro Méditerranéen pour le Changement Climatique, Italie) La voie Américaine ESG (Earth System grid) La voie Européenne C3 Grid (Communauty Climat Collaborative Grid, Allemagne) Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 3
Ordres de grandeurs Modèles climatiques. Résolutions couramment utilisées actuellement : Atmosphère 2.5° (280 Km) : 144 x 96 x 19 Océan 2° (220 Km) : 180 x 149 x 31 Atm 2.5° - Océan 2° : 7.5 GB/an, 300 ans Î 2,5 TB Atm 1.0° - Océan 2° : 25 GB/an, 300 ans Î 7,5 TB Atm 0.5° - Océan 0,5° : 150 GB/an, 30 ans Î 5 TB Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 4
Impact d’une hausse de capacité Augmentation du nombre de simulations, développements du modèle, simulations d’ensemble, régionalisation … Augmentation d’un facteur 10 Atm 2.5° - Océan 2° : 2,5 TB Î 25 TB Atm 1.0° - Océan 2° : 7,5 TB Î 75 TB Atm 0.5° - Océan 0.5° : 5 TB Î 50 TB Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 5
Impact d’une hausse de capacité Résolution spatiale: 280 Km -> 110 Km -> 50 Km Augmentation d’un facteur ~ 10-20 Résolution temporelle: cycle diurne, « sortie 3 heures » Augmentation d’un facteur ~ 4 LMDz 0.5° (50 Km) Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 6
Impact des avancées majeures Qualité: Amélioration de la couche limite atmosphérique, nuages, convection, physique océanique, nouveau modèle de glace, amélioration du modèle de surface, hydrologie … Augmentation d’un facteur 2-3 Complexité: Chimie atmosphérique (sulfates, ozone…), Biogéochimie (cycle du carbone, dynamique des écosystèmes) … Augmentation d’un facteur 10+ Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 7
L’exercice GIECC : quelques chiffres AR 4 (Assessment Report #4), 2007 35 Terabytes 77,000 fichiers Quantité de données distribuée : 303 Terabytes 1 098 000 fichiers. Les groupes ont généré et exploités probablement 10x plus de données AR 5 (Assessment Report #4), ~ 2013 Un facteur 10 à 20 Une volonté de distribué une plus grande proportion des données La base de données doit être distribuée Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 8
Gestion actuelle des données Principalement centralisée, stocké sur un san Accès Dods pour les centres de calcul (http) Système basique de récupération de données Accès à des données brutes Sécurité/Authentification/Restriction d’accès aux données : pas un problème Pas de post-processing à la demande Pas d’intégration des metadata Ne supporte pas les requêtes d’interrogation de haut niveau Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 9
Gestion des données par Prodiguer Bouger les données un minimum, les garder proche des centres de calcul d’origine quand c’est possible Protocole d’accès aux données, liens forts avec les centres de calcul Quand on doit bouger les données, le faire vite et avec un minimum d’intervention humaine Management des ressources de stockage, réseaux rapides Garder une trace de ce que l’on a, particulièrement de ce qui est sur “deep storage” Metadata et Catalogues de données Exploiter une fédération de sites Intergiciel de grille Î Grille de données Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 10
Cas simple d’intercomparison Scénario Courant Scénario Futur Parcourir la base de données Rechercher, Interroger, PCMDI centralisée Parcourir des données Télécharger les données distribuées Organiser les données en local Site distant Regriller les données en local ¾ Demande de données Faire les diagnostics ¾ Regrillages Produire les résultats ¾ Diagnostics Le portail renvoie le résultat Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 11
CMCC : l’exemple venu d’Italie Le Paradigme de la grille : Centres associés Partenaires Grille de Données & Calculs Environnement du CMCC : un incubateur de la technologie proposée FEEM CVR Interdisciplinaire : INGV Climatologue et “Computer Scientists” Points Clés : Transparence et Interopérabilité UNITUS Expertise et savoir faire : Grille & “Computing Science (Unile)” UNISS SANNIO CIRA IAMB UNILE Middleware : CRMPA Globus, Unicore, gLite, etc. SPACI Gestion des Metadata : Grid Metadata Handling System (GMHS) Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 12
Le Earth System Grid Objectif ESG Portail CMIP3 IPCC AR4 ESG Supporter l’infrastructure nécessaire 28 TB de données au PCMDI aux communautés climats nationales 68,400 fichiers et internationales. ESG procure une Expériences coordonnée par l’IPCC technologie cruciale pour accéder de manière sécurisé, monitorer, Données de modèles provenant de 11 pays. cataloguer, transporter, distribuer les données dans la grille d’aujourd’hui. 818 utilisateurs enregistrés Downloads IPCC Downloads (10/12/06) 123 TB Worldwide ESG user base 543,500 fichiers 600 500 Daily 7-Day Averag 400 300 GB/jour GB/day 300 (moyenne) 200 100 0 4 4 05 05 05 05 05 05 05 05 05 5 5 5 06 06 06 06 06 06 06 06 06 6 /0 /0 /0 /0 /0 /0 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ 1/ /1 /1 /1 /1 /1 /1 1/ 2/ 3/ 4/ 5/ 6/ 7/ 8/ 9/ 1/ 2/ 3/ 4/ 5/ 6/ 7/ 8/ 9/ 11 12 10 11 12 10 Nov 2004 – Oct 2006 200 publications scientifiques basées sur l’analyse des données CMIP3 IPCC AR4 Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 13
Le plan de route ESG vers l’AR5 Evolution d’ESG 2006 Début 2009 2011 Base de données centrales Test grandeur nature Partage de données complet • Archive centralisée de • Metadata fédérées • Fédération synchronisée données traitées ¾ metadata, données • Portails fédérés • Agrégation temporelle • Suite complète d’analyse • Interface utilisateur unifiée “server-side” avec CDAT • Distribution par transfert de • “Quick look server-side” fichiers • Intégration Modèles/Données analyse avec CDAT • Pas d’implication dans • ESG intégrée dans les postes • Indépendant de la de travail orientés analyse l’analyse localisation avec CDAT • Portail orienté caddy de • Partage de données manuel supermarché • Intégration GIS • Publication manuel • Métrique d’intercomparison de • Connexion d’ESG au poste de travail orienté analyse (i.e., modèle CDAT and CDAT-LAS) • Support, maintenance … AR5, AR5, Archive de Données ESG satellite, satellite, In In situ situ AR4 AR4 biogéochimie, biogéochimie, Terabytes Petabytes écosystèmes écosystèmes Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 14
Le produit européen : C3Grid C3 Portal Des interfaces bien définies : DMS / Scheduler Data Discovery Web Service MDS C3Grid compute C3Grid Workflow Submission Web storage Service Interface GT 4 Job Submission WSRF Interface OAI -PMH Data Request GridFTP server WS server OAI-PMH Interface ISO grid 19139 workspace Data Request (Staging) Web Service Adapter to propriatary (meta -)data access solutions Interface WN WN data Metadata compute GridFTP Data Access Interface providers Data repository Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 15
Interopérabilité : Etendre C3 Grid (1) Faire d‘un environnement externe un pourvoyeur de données C3Grid C3Grid a) Fournir un serveur OAI-PMH / avec des metadatas ISO disponibles b) Implémenter un Web Service prenant OAI-PMH Data Request GridFTP Job server WS server Interface en charge des requêtes de données ISO c) Fournir un accès par GridFTP 19139 grid workspace Adapter to propriatary (meta-)data access solutions (2) Fournir une interface de soumission WN WN compute a) Implémenter un “Data Request Web Metadata Data repository Service“ déclenchant du processing b) Wrapper les jobs C3Grid en utilisant une interface de soumission de job générale (gLite, GT4, …) Prototype suivant cette approche pour interfacer l‘infrastructure EGEE • EGEE Conf. `06 demo: pas d’intégration à un portail, fonctionnalités basique • EGEE User Forum `07 manchester • EGEE rehearsal demo `07 Geneva Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 16
Conclusions PRODIGUER : projet déposé en septembre 2008 au GIS climat Dans le sillon IS-ENES (FP7), METAFOR (FP7) : standard de métadonnées, outils associés Mise en œuvre de ces outils au plan national et intégration à une grille européenne Doit se faire en étroite collaboration avec les centres de calcul nationaux Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 17
Permettre une proximité virtuelle entre les résultats des grandes simulations et les scientifiques But de ESG Sites ESG actuels • Très grande base de données distribuées ¾Fédération simple de sites ¾A travers les US et autour du monde • “Jeux de données Virtuels” à travers sous ensemble et agrégation • Recherche / exploration basé sur les Metadata • Accès à des outils d’analyse, orienté Web • Flexible et robuste • “Server-side” analyse http://www-pcmdi.llnl.gov Infrastructures de Recherche / e-infrstructures Prodiguer - Mercredi 18 juin 2008 18
Vous pouvez aussi lire