GIEC/IPCC PRODIGUER un noeud français de distribution de données - Sébastien Denvil et Olivier Marti Pôle de Modélisation, IPSL

La page est créée Melanie Robert
 
CONTINUER À LIRE
PRODIGUER un noeud français
  de distribution de données
         GIEC/IPCC

      Sébastien Denvil et Olivier Marti
        Pôle de Modélisation, IPSL

                        Infrastructures de Recherche / e-infrstructures
                               Prodiguer - Mercredi 18 juin 2008          1
Le contexte : le compte à rebours du rapport
                  GIECC/IPCC

ƒ Fin 2009 Æ Automne 2010 : Simulations climatiques

ƒ Fin 2010 Æ ? Distribution des résultats de simulations

ƒ Fin 2010 Æ Début 2012 : Publications scientifiques

ƒ Début 2013 : Publication du rapport GIECC/IPCC AR5
(Assessment Report #5)

ƒ Octobre 2013 : Prix Nobel

                                Infrastructures de Recherche / e-infrstructures
                                       Prodiguer - Mercredi 18 juin 2008          2
Plan de l’exposé

„   Pourquoi Prodiguer :
    PROjet de Diffusion Internationale des données du GIEC
    AR5, Une plateformE pour la Recherche
„   Les grilles de données orientées «Climat »
      „   La voie Européenne du CMCC (Centre Euro Méditerranéen pour le
          Changement Climatique, Italie)
      „   La voie Américaine ESG (Earth System grid)
      „   La voie Européenne C3 Grid (Communauty Climat Collaborative
          Grid, Allemagne)

                                        Infrastructures de Recherche / e-infrstructures
                                               Prodiguer - Mercredi 18 juin 2008          3
Ordres de grandeurs

Modèles climatiques. Résolutions couramment utilisées
  actuellement :
      Atmosphère 2.5° (280 Km) : 144 x 96 x 19
      Océan 2° (220 Km) : 180 x 149 x 31

„   Atm 2.5° - Océan 2° : 7.5 GB/an, 300 ans Î 2,5 TB
„   Atm 1.0° - Océan 2° : 25 GB/an, 300 ans Î 7,5 TB
„   Atm 0.5° - Océan 0,5° : 150 GB/an, 30 ans Î 5 TB

                                   Infrastructures de Recherche / e-infrstructures
                                          Prodiguer - Mercredi 18 juin 2008          4
Impact d’une hausse de capacité

Augmentation du nombre de simulations, développements du
  modèle, simulations d’ensemble, régionalisation …

        Augmentation d’un facteur 10

„   Atm 2.5° - Océan 2° : 2,5 TB Î 25 TB
„   Atm 1.0° - Océan 2° : 7,5 TB Î 75 TB
„   Atm 0.5° - Océan 0.5° : 5 TB Î 50 TB

                                  Infrastructures de Recherche / e-infrstructures
                                         Prodiguer - Mercredi 18 juin 2008          5
Impact d’une hausse de capacité

Résolution spatiale: 280 Km -> 110 Km -> 50 Km
  Augmentation d’un facteur ~ 10-20

Résolution temporelle: cycle diurne, « sortie 3 heures »
  Augmentation d’un facteur ~ 4

                                              LMDz 0.5° (50 Km)

                                 Infrastructures de Recherche / e-infrstructures
                                        Prodiguer - Mercredi 18 juin 2008          6
Impact des avancées majeures

„   Qualité: Amélioration de la couche limite atmosphérique,
    nuages, convection, physique océanique, nouveau modèle de
    glace, amélioration du modèle de surface, hydrologie …
        Augmentation d’un facteur 2-3

„   Complexité: Chimie atmosphérique (sulfates, ozone…),
    Biogéochimie (cycle du carbone, dynamique des
    écosystèmes) …
        Augmentation d’un facteur 10+

                                  Infrastructures de Recherche / e-infrstructures
                                         Prodiguer - Mercredi 18 juin 2008          7
L’exercice GIECC : quelques chiffres

„   AR 4 (Assessment Report #4), 2007
    ‰   35 Terabytes
    ‰   77,000 fichiers
    ‰   Quantité de données distribuée :
        „   303 Terabytes
        „   1 098 000 fichiers.
    ‰   Les groupes ont généré et exploités probablement 10x plus de
        données
„   AR 5 (Assessment Report #4), ~ 2013
    ‰   Un facteur 10 à 20
    ‰   Une volonté de distribué une plus grande proportion des données
    ‰   La base de données doit être distribuée

                                           Infrastructures de Recherche / e-infrstructures
                                                  Prodiguer - Mercredi 18 juin 2008          8
Gestion actuelle des données

„   Principalement centralisée, stocké sur un san
„   Accès Dods pour les centres de calcul (http)
„   Système basique de récupération de données
„   Accès à des données brutes
„   Sécurité/Authentification/Restriction d’accès aux données :
    pas un problème
„   Pas de post-processing à la demande
„   Pas d’intégration des metadata
„   Ne supporte pas les requêtes d’interrogation de haut niveau

                                    Infrastructures de Recherche / e-infrstructures
                                           Prodiguer - Mercredi 18 juin 2008          9
Gestion des données par Prodiguer

„   Bouger les données un minimum, les garder proche des
    centres de calcul d’origine quand c’est possible
    ‰   Protocole d’accès aux données, liens forts avec les centres de
        calcul
„   Quand on doit bouger les données, le faire vite et avec un
    minimum d’intervention humaine
    ‰   Management des ressources de stockage, réseaux rapides
„   Garder une trace de ce que l’on a, particulièrement de ce qui
    est sur “deep storage”
    ‰   Metadata et Catalogues de données
„   Exploiter une fédération de sites
    ‰   Intergiciel de grille Î Grille de données

                                          Infrastructures de Recherche / e-infrstructures
                                                 Prodiguer - Mercredi 18 juin 2008          10
Cas simple d’intercomparison
    Scénario Courant                   Scénario Futur
„ Parcourir la base de données „ Rechercher, Interroger,
PCMDI centralisée                Parcourir des données
„ Télécharger les données        distribuées
„ Organiser les données en local „ Site distant
„ Regriller les données en local    ¾ Demande de données

„ Faire les diagnostics             ¾ Regrillages

„ Produire les résultats            ¾ Diagnostics

                                 „ Le portail renvoie le résultat

                                      Infrastructures de Recherche / e-infrstructures
                                             Prodiguer - Mercredi 18 juin 2008          11
CMCC : l’exemple venu d’Italie
Le Paradigme de la grille :                     Centres associés                       Partenaires
   Grille de Données & Calculs
     Environnement du CMCC :
   un incubateur de la technologie
   proposée                                            FEEM
                                                                       CVR
     Interdisciplinaire :                                      INGV
   Climatologue et “Computer Scientists”
     Points Clés :
   Transparence et Interopérabilité
                                                              UNITUS
    Expertise et savoir faire :
   Grille & “Computing Science (Unile)”        UNISS                                   SANNIO
                                                                             CIRA               IAMB        UNILE
    Middleware :                                                                     CRMPA
   Globus, Unicore, gLite, etc.                                                                             SPACI

    Gestion des Metadata :
   Grid Metadata Handling
   System (GMHS)

                                           Infrastructures de Recherche / e-infrstructures
                                                  Prodiguer - Mercredi 18 juin 2008                    12
Le Earth System Grid
          Objectif ESG                                Portail CMIP3 IPCC AR4 ESG
Supporter l’infrastructure nécessaire      28 TB de données au PCMDI
 aux communautés climats nationales        „   68,400 fichiers
 et internationales. ESG procure une
                                           „   Expériences coordonnée par l’IPCC
 technologie cruciale pour accéder de
 manière sécurisé, monitorer,              „   Données de modèles provenant de 11 pays.
 cataloguer, transporter, distribuer les
 données dans la grille d’aujourd’hui.
                                           818 utilisateurs enregistrés
                                           Downloads
                                                                                                         IPCC Downloads (10/12/06)
                                           „   123 TB
   Worldwide ESG user base                 „   543,500 fichiers
                                                                                        600

                                                                                        500
                                                                                                 Daily    7-Day Averag

                                                                                        400

                                           „   300 GB/jour

                                                                             GB/day
                                                                                        300

                                               (moyenne)
                                                                                        200

                                                                                        100

                                                                                           0

                                                                                             4

                                                                                                          4

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                        05

                                                                                                          5

                                                                                                          5

                                                                                                          5

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                        06

                                                                                                          6
                                                                                          /0

                                                                                                       /0

                                                                                                       /0

                                                                                                       /0

                                                                                                       /0

                                                                                                       /0
                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/

                                                                                                     1/
                                                                                       /1

                                                                                                    /1

                                                                                                    /1

                                                                                                    /1

                                                                                                    /1

                                                                                                    /1
                                                                                                  1/

                                                                                                  2/

                                                                                                  3/

                                                                                                  4/

                                                                                                  5/

                                                                                                  6/

                                                                                                  7/

                                                                                                  8/

                                                                                                  9/

                                                                                                  1/

                                                                                                  2/

                                                                                                  3/

                                                                                                  4/

                                                                                                  5/

                                                                                                  6/

                                                                                                  7/

                                                                                                  8/

                                                                                                  9/
                                                                                      11

                                                                                           12

                                                                                                 10

                                                                                                 11

                                                                                                 12

                                                                                                 10
                                                                                                                         Nov 2004 – Oct 2006

                                           200 publications scientifiques basées
                                           sur l’analyse des données CMIP3 IPCC
                                           AR4

                                                           Infrastructures de Recherche / e-infrstructures
                                                                  Prodiguer - Mercredi 18 juin 2008                                            13
Le plan de route ESG vers l’AR5
                                   Evolution d’ESG

            2006                            Début 2009                                        2011
Base de données centrales            Test grandeur nature                      Partage de données complet
• Archive centralisée de             • Metadata fédérées                       • Fédération synchronisée
  données traitées                                                                 ¾ metadata, données
                                     • Portails fédérés
• Agrégation temporelle                                                        • Suite complète d’analyse
                                     • Interface utilisateur unifiée             “server-side” avec CDAT
• Distribution par transfert de      • “Quick look server-side”
  fichiers                                                                     • Intégration Modèles/Données
                                       analyse avec CDAT
• Pas d’implication dans                                                       • ESG intégrée dans les postes
                                     • Indépendant de la                         de travail orientés analyse
  l’analyse                            localisation                              avec CDAT
• Portail orienté caddy de           • Partage de données manuel
  supermarché                                                                  • Intégration GIS
                                     • Publication manuel                      • Métrique d’intercomparison de
• Connexion d’ESG au poste de
  travail orienté analyse (i.e.,                                                 modèle
  CDAT and CDAT-LAS)                                                           • Support, maintenance …

                                                                                                   AR5,
                                                                                                    AR5,
                          Archive de Données ESG                                             satellite,
                                                                                             satellite, In
                                                                                                         In situ
                                                                                                            situ
     AR4
     AR4                                                                                      biogéochimie,
                                                                                              biogéochimie,
                 Terabytes                                      Petabytes                     écosystèmes
                                                                                               écosystèmes
                                                          Infrastructures de Recherche / e-infrstructures
                                                                 Prodiguer - Mercredi 18 juin 2008                 14
Le produit européen : C3Grid

        C3 Portal
                                                                         Des interfaces bien définies :

          DMS / Scheduler                                                      Data Discovery Web Service
MDS                     C3Grid
                                                               compute         C3Grid Workflow Submission Web
                                             storage                           Service Interface
                                                                               GT 4 Job Submission WSRF Interface

          OAI -PMH         Data Request          GridFTP
           server               WS                server
                                                                              OAI-PMH Interface
             ISO
                                                  grid
            19139                              workspace                      Data Request (Staging) Web Service
        Adapter to propriatary (meta -)data access solutions
                                                                              Interface
                                                WN
                                                 WN
data
          Metadata
                                                compute                       GridFTP Data Access Interface
providers                         Data repository

                                                                            Infrastructures de Recherche / e-infrstructures
                                                                                   Prodiguer - Mercredi 18 juin 2008          15
Interopérabilité : Etendre C3 Grid
(1) Faire d‘un environnement externe un
    pourvoyeur de données C3Grid                                               C3Grid
     a) Fournir un serveur OAI-PMH / avec
         des metadatas ISO disponibles
     b) Implémenter un Web Service prenant                      OAI-PMH         Data Request         GridFTP           Job
                                                                 server              WS               server        Interface
         en charge des requêtes de données
                                                                  ISO
     c) Fournir un accès par GridFTP                             19139
                                                                                                       grid
                                                                                                    workspace

                                                              Adapter to propriatary (meta-)data access solutions
(2) Fournir une interface de soumission
                                                                                                     WN
                                                                                                      WN
                                                                                                     compute
     a) Implémenter un “Data Request Web                        Metadata
                                                                                       Data repository
          Service“ déclenchant du processing
     b) Wrapper les jobs C3Grid en utilisant
          une interface de soumission de job
          générale (gLite, GT4, …)

Prototype suivant cette approche pour interfacer l‘infrastructure EGEE
• EGEE Conf. `06 demo: pas d’intégration à un portail, fonctionnalités basique
• EGEE User Forum `07 manchester
• EGEE rehearsal demo `07 Geneva

                                                        Infrastructures de Recherche / e-infrstructures
                                                               Prodiguer - Mercredi 18 juin 2008                            16
Conclusions

„   PRODIGUER : projet déposé en septembre 2008 au GIS
    climat
„   Dans le sillon IS-ENES (FP7), METAFOR (FP7) : standard de
    métadonnées, outils associés
„   Mise en œuvre de ces outils au plan national et intégration à
    une grille européenne
„   Doit se faire en étroite collaboration avec les centres de calcul
    nationaux

                                      Infrastructures de Recherche / e-infrstructures
                                             Prodiguer - Mercredi 18 juin 2008          17
Permettre une proximité virtuelle entre les résultats
          des grandes simulations et les scientifiques

              But de ESG                               Sites ESG actuels
• Très grande base de données distribuées
     ¾Fédération simple de sites
     ¾A travers les US et autour du monde
• “Jeux de données Virtuels” à travers sous
  ensemble et agrégation
• Recherche / exploration basé sur les Metadata
• Accès à des outils d’analyse, orienté Web
• Flexible et robuste
• “Server-side” analyse
     http://www-pcmdi.llnl.gov

                                                  Infrastructures de Recherche / e-infrstructures
                                                         Prodiguer - Mercredi 18 juin 2008          18
Vous pouvez aussi lire