Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...

La page est créée Hervé David
 
CONTINUER À LIRE
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules

                 Activité Stockage de masse
                                  DOMA-FR
                                                           Pierre-Emmanuel Brinette
                                                                    21 janvier 2020
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Agenda

}   Retour sur les tests de Data Carousel atlas
}   Performances et stockage sur bande
}   Nouvelle robotique

DOMA FR                                       21/01/2020   2
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules

                                                      Data carousels

DOMA FR                                                                    21/01/2020               3
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Retour sur les tests de data carousel 2019

}   Eléments repris de la présentation de Aresh Vadaee à LCG
    France (12/2019)
    ◦ https://indico.in2p3.fr/event/20020/contributions/76863/

}   Data Carousel ?
    ◦ Orchestration/Coordination entre la gestion du workflow (WFMS), la
      gestion des données (DDM/Rucio) et le SE Tape des sites.
    ◦ La production est exécuté sur des données résidente sur bandes qui
      sont stagées au fur est à mesure sur disque (fenêtre glissantes).
    ◦ Seule une petite portion des données est épinglée sur disque pendant
      une durée donnée.

}   Tests data carousel :
    ◦ Déterminer la faisabilité du modèle sur les différents workload atlas

DOMA FR                                                     21/01/2020        4
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Retour sur les tests de data carousel 2019

                (P1R2)
                                                            ✓         Septembre 2018

                                   https://indico.in2p3.fr/event/18092/contributions/66407/

                  (P2R2)
                                                          ✓            Aout 2019

                                                                      Janvier 2020

DOMA FR                                                               21/01/2020              5
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Améliorations apportées suite au test P1R2
}   P1R2 Configuration :
    ◦ Rucio sent ~5000 files / h to FTS
    ◦ Treqs queue handle ~ 3000 requests at time
    ◦ So tape containing lot of files may be mounted multiple time within 26 hours
}   Improvements for P2R2:
    ◦ Sent more requests to FTS at time (ie: 10 k/h)
    ◦ Increase # of restore / pool to increase (ie: 400/p)

                   FTS
                                                              P2R2 : 4800 Requests
                                                               3000 requests

                                      dCache pool
                                                                                     Stage
            dCache                                                 Treqs
                                dCache pool         Stage &                     36                   HPSS
                                                    Copy                        drives
                                                                                MAX
                                                                                                     300
                         12 pools @ 10 Gbits                                                          TB
                         250 restores / pool
                         P2R2 : 400 restores/pool
DOMA FR                                                                                 21/01/2020          6
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Résultats du tests P2R2

}   Au CC, résultats mesurés par atlas très inférieurs à ceux
    du test P1R2
    P1 Avg      P1 stable   P2R2 Avg    P2R2 Stable   P2 Duration      P2 # files
    troughput   troughput   troughput   troughput

    2,1 GB/s    3 GB/s      401 MB/s    524 MB/s      21 days          311 K

}   Vu de notre coté, le staging s’est déroulé correctement:

DOMA FR                                                         21/01/2020          7
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Résultats du tests P2R2

}   Problème de FTS au CERN
    ◦ FTS n’a pas pu déclencher dans les temps les transferts entre
      les buffers tapes et disques
    ◦ Les requêtes de transferts ont échouées
    ◦ Les fichiers déjà stagés ont été purgés sur les buffers tapes
      avant d’être transférés
    ◦ Les fichiers ont été redemandés ultérieurement.
      – à fichiers stagées ~ 2,7 x par HPSS (860 k / 311 k)
    ◦ + 1 crash du daemon FTS

    https://indico.cern.ch/event/843988/contributions/3543611/attachment
    s/1904532/3146356/FTS_Data_Carousel_PostMortem.pdf

DOMA FR                                                   21/01/2020       8
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Configuration actuelle (pour le test P3)
}   Current Configuration :
    ◦ Rucio sent min 5000 f/h and max 1000 files / h to FTS
    ◦ Increase # of restore / pool to increased (ie: 800/p)
    ◦ Treqs queue handle will handle up to 9600 requests at time

                 FTS   NOW : min 5k – max 10 k               NOW : 9600 Requests
                                                             P2R2 : 4800 Requests
                                                              3000 requests

                                    dCache pool
                                                                                    Stage
           dCache                                                  Treqs

                              dCache pool         Stage &                      36                    HPSS
                                                  Copy                         drives
                                                                               MAX
                                                                                                     300
                       12 pools @ 10 Gbits                                                            TB
                       250 restores / pool
                       P2R2 : 400 restores/pool NOW : 800 restores/pool

DOMA FR                                                                                 21/01/2020          9
Activité Stockage de masse - DOMA-FR Pierre-Emmanuel Brinette 21 janvier 2020 Centre de Calcul de l'Institut National de Physique Nucléaire et de ...
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules

          Performances et stockage sur bande

DOMA FR                                                                      21/01/2020              10
Performances et stockage sur bande

}   Rappel : Treqs : Tape Request scheduler
    ◦ Centralise les requêtes de fichiers sur bandes (pour dcache/xrootd/irods)
    ◦ Ordonnance la lecture des fichiers par bande (queue)
    ◦ Déclenche périodiquement les staging dans HPSS

}   Augmenter le temps d’intégration dans Treqs
    ◦ De 2mn à 10 mn ?

}   Objectif :
    ◦   Accumuler plus de requêtes avant de les envoyer à HPSS
    ◦   Augmenter la probabilité de stager plus de fichiers / bande
    ◦   Réduire le nombre de montage d’une même bande
    ◦   Meilleure efficacité du montage (plus de données lu)

}   Changements effectués en automne (5 mn) puis le 09/01/2020 (10 mn)
    ◦ treqs.dynamic.stager.event_scheduler_rate = 600
    ◦ Les staging des queues sont maintenant déclenchés toutes les 10 mn

DOMA FR                                                                    21/01/2020   11
Performances et stockage sur bande

}   Impact :                                                          2283 montages / 24h
    ◦ Les demandes de montage se font par paquet toutes les 10 mn      619 bandes unique
      –   Jusqu’à 36 demandes envoyées en même temps                Taux de remontage : 3,6 x
}   Observation
    ◦ Les bandes semblent utilisée moins de 10 minutes                  Bande KTA614
    ◦ Les demandes de staging arrivent au goute à goute
      –   Particulièrement vrai pour les accès XRootD
}   Performances
    ◦ Déclenchement toute les 5mn :
      –   Réduction du nombre de montage / heure
      –   Réduction de 400 m/h à 250 m/h
    ◦ Déclenchement tte les 10 mn: Gain / perte non mesurée

DOMA FR                                                                    21/01/2020       12
Performances et stockage sur bande

}       Bande KTA614
        ◦ Bande Alice
         – Données écrites le 05/12/2018
        ◦ Bande remontée 30x / 24h
        ◦ 84 fichiers relus en 24h (161 Go)

    }   Accès à la bande KTA614 depuis le 1er janvier :
         ◦ 1550 fichiers relus (2,83 To)
         ◦ 533 montages ( ~ 25x / jour)
DOMA FR                                                   21/01/2020   13
Performances et stockage sur bande

}   Et les « Tape Family » ?
    ◦ Regrouper les données d’un même dataset sur les même lot de bande
}   But:
    ◦ Eviter de mélanger des données de nature différente entre elles
    ◦ Optimiser les relecture
    ◦ Minimiser les montages
}   Pour le CC :
    ◦ Mécanisme peu flexible dans HPSS
    ◦ Nécessiterai des adaptations coté client (dcache/xrootd)
    ◦ Consomme beaucoup de bande
      – Bandes potentiellement non remplies
      – Quid des repack ?

}   Question : Vaut il mieux ?
    ◦ Relire 10 fichiers sur 10 bandes ?
    ◦ Ou 100 fichiers sur 1 seul bande ?

DOMA FR                                                            21/01/2020   14
Performances et stockage sur bande
}   Test bête et méchant
                                                                          Kesako RAO ?
    ◦ Relecture de 100 fichiers sur 10 tapes (AVEC RAO)
       –   Echantillon aléatoire                                          Recommended Access
       –   Taille : 1 Mo à 48 Go, moyenne 9500 Mo                         Ordering :
       –   Volume total à relire : 950 078 Mo                             C’est le lecteur qui
           Durée totale : 16m31.125s (montage compris)
                                                                          détermine le meilleur ordre
       –
       –   Débit : 958 Mo/s soit 95,8 Mo/lecteur
                                                                          pour relire un ensemble de
    ◦ Relecture de 100 fichiers sur 1 tape (AVEC RAO)                     fichiers sur une bande.
       –
       –
           Echantillon aléatoire
           Taille : 2 Mo à 56 Go, moyenne 8550 Mo
                                                                          Fonctionalité disponible sur
       –   Volume total à relire : 855 066Mo                              les lecteurs « Entreprise »
       –   Durée totale : 52m42.101s (montage compris)                    TOR : Tape Ordered Recall
       –   Débit : 270 Mo/s pour 1 seul lecteur !

}   Que conclure ?
    ◦ RAO apporte une réelle efficacité lorsque l’on relit beaucoup de fichier !
       –   Performances au niveau nominal du lecteur ! (avec en + gain dû à la compression)
    ◦ Meilleure utilisation des ressources
    ◦ Mais du point du vue utilisateur, c’est la durée totale qui prime

DOMA FR                                                                                   21/01/2020     15
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules

                                           Nouvelle robotique

DOMA FR                                                                    21/01/2020              16
Evolution de la robotique

                            }   Nouveau robot
                                ◦ SPECTRA LOGIC Tfinity
                                ◦ 5 frames
                                ◦ Capacité 3300 bandes
                            }   Technologie IBM
                                ◦ Bandes Jaguar E
                                  – 20 To / bande
                                ◦ 12 Lecteurs IBM TS1160
                                  – 400 Mo /s
                            }   Capacité : + 60 PB
                            }   Extensions (H2023):
                                ◦ 9 frames
                                ◦ ~ 7000 bandes (140 PB)
                                ◦ 48 lecteurs max
                            }   Mise en service au printemps
                                2020

DOMA FR                                     21/01/2020     17
Technologie spectra

                                 }   Terapack
                                     ◦ Medias « certifiés »
                                     ◦ Bandes nettoyées des
                                       éventuelles poussières
                                       résiduelles.
                                     ◦ Utilisation de la mémoire RFID
                                       interne pour stocker des
                                       informations de qualité des
                                       médias.
                                 }   Suivi du cycle de vie des
                                     médias
                                 }   Double bras
https://www.youtube.com/watch?
                                     (performance/redondance)
v=IgW5h3URowE                    }   TAOS (à tester)
DOMA FR                                             21/01/2020      18
Implantation

DOMA FR        21/01/2020   19
Et les performances ?
}   TS1160 vs T10000-D
                                      T10000-D                     TS1160 / JE
    Débit non compressé               252 Mo/s                     400 Mo/s
    Capacité                          8,5 To                       20 To
    Consommation                      90 W                         61 W
    BER                               < 10E-19                     < 10E-20
    Temps d’accès moyen au 1er        57 s                         50 s
    fichier
    Temps de rembobinage              97 s                         50 s

    Nombre de lecteurs installés      56                           12
    Bande passante théorique          14 000 Mo/s                  4 800 Mo/s

}   Spectra Tfinity
    ◦ Double accesseurs
    ◦ Performances moindre que les librairie IBM
      –   360 montage par heure maximum !
      –   Mais au sein d’un même complexe (vs SL8500 où les bandes peuvent changer de complexe)

DOMA FR                                                                              21/01/2020   20
Calendrier 2020

}   Installation Janvier février 2020 ?
    ◦ 12 Lecteurs TS-1160
    ◦ 20 PB de bande JE
}   Tests / Commissioning février mars-avril 2020
}   Mise progressive en production fin du printemps 2020 dans HPSS
    ◦ Pour l’écriture des nouvelles données
      – Les pledges 2020 seront pourvus en JE
    ◦ COS 14 (fichiers > 2 Go)
    ◦ Sous-système atlas puis autres sous système
}   Eté 2020
    ◦ Extension aux autre COS 12, 11 puis 10
    ◦ Extension aux autre sous-système
}   Automne-Hiver 2020
    ◦ Acquisition de lecteurs supplémentaire ?
    ◦ Démarrage des repack SL8500 T10K-D à Spectra JE.
      – Au total ~ 80 Po à déplacer
    ◦ Acquisition de média

DOMA FR                                                  21/01/2020   21
2021 and beyond

}   2021
    ◦ Acquisition lecteurs et cartouches
    ◦ Repack ~ 15-20 Po (SL8500 à Spectra)
}   2022-2023
    ◦ Extension libraire à 7000 cartouches
    ◦ Repack ~ 30 Po / ans (SL8500 à Spectra)
}   2024
    ◦ Fin des repack T10000-D à Jaguar
    ◦ Librairie Spectra Pleine ( ~ 140 Po) !
    ◦ Acquisition d’une nouvelle librairie !

DOMA FR                                         21/01/2020   22
En guise de conclusion

}   Piste d’améliorations
    ◦ Collecte de métriques et de stats coté HPSS
      –   Performances des lecteurs/montage
      –   Performances des transferts
      –   Discriminer les lectures des écritures
      –   …
    ◦ à Prochaine version HPSS (7.5.3) plus verbeuse
    ◦ Réduire le nombre de COS HPSS
      – Eviter la fragmentation de ressources disque et bande
      – Merge du COS 11 (64 Mo – 512 Mo) et du COS 12 (512 Mo – 2Go)

}   TREQS :
      – Implémenter les fonctionnalités RAO !
      – Gros travail de développement

DOMA FR                                                   21/01/2020   23
Vous pouvez aussi lire