Introduction & Motivation - perfSONAR
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Introduction & Motivation Event Presenter, Organization, Email Date Ce document est un résultat du projet perfSONAR (http://www.perfsonar.net) et est distribué sous licence CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/). 06/05/18 © 2018, http://www.perfsonar.net 4
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 6
Problématique • L’écosystème du réseau mondial de recherche et d’éducation est composé de centaines de réseaux internationaux, nationaux, régionaux et locaux. 06/05/18 © 2018, http://www.perfsonar.net 7
Problématique • Bien que ces réseaux s’interconnectent, chaque réseau est détenu et géré par des organisations distinctes (les “domaines”) avec différentes politiques, clients, modèles de financement, matériel, bande passante et configurations. 06/05/18 © 2018, http://www.perfsonar.net 8
La Communauté R&É • L’écosystème du réseau mondial de Recherche et d'Éducation se compose de centaines de ressources internationales, nationales, régionales et locales - chacune détenue et exploitée indépendamment. • Cet ensemble complexe et hétérogène de réseaux doit fonctionner de manière transparente de “bout en bout” pour soutenir les collaborations scientifiques et de recherche qui sont distribuées à l’échelle mondiale. • La mobilité des données est requise; Il n'y a pas de marché liquide pour les ressources HPC (les gens utilisent ce qu'ils peuvent obtenir - DOE, XSEDE, NOAA, etc., etc.) • Pour rester compétitif, nous devons apprendre les modèles d'utilisation et les soutenir • Cela peut signifier s'assurer que votre réseau, et les réseaux d'autres, sont fonctionnels 06/05/18 © 2018, http://www.perfsonar.net 9
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 11
Comprendre les tendances 100PB A few large collaborations have internal software and networking organizations 10PB Medium collaboration scale, e.g. HPC codes 1PB Small collaboration scale, e.g. light and neutron sources Data Scale 100TB 10TB Large collaboration scale, e.g. LHC 1TB 100GB 10GB Collaboration Scale http://www.es.net/science-engagement/science-requirements-reviews/ 06/05/18 © 2018, http://www.perfsonar.net 12
Exemples de taux de transfert This table available at: http://fasterdata.es.net/home/requirements-and-expectations 06/05/18 © 2018, http://www.perfsonar.net 13
Défis pour le passage au Réseau • Les causes des problèmes de performance sont compliquées pour les utilisateurs. • Manque de communication et de collaboration entre le bureau du CIO et les chercheurs sur le campus. • Manque d'expertise informatique au sein • Le Fossé des Capacités d'une collaboration scientifique ou d'une installation expérimentale Les attentes de performance de l'utilisateur sont faibles ("Le réseau est trop lent", "Je l'ai essayé et cela n'a pas fonctionné"). • Le changement culturel est difficile ("nous avons toujours expédié des disques!"). • Les scientifiques veulent faire de la science et non un support informatique 06/05/18 © 2018, http://www.perfsonar.net 14
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 16
Parlons performance … "In any large system, there is always something broken.” Jon Postel • Les réseaux modernes sont généralement conçus pour être taille-unique • Ex : Si vous avez déjà entendu parler de «réseau convergé», la conception est de faciliter la CIA (confidentialité, intégrité, disponibilité/availability) • Tout est TCP – Le mouvement des données en vrac est pratiqué par tous (déplacer les données du microscope, vers le stockage, puis les unités de traitement et les personnes - et tout le monde est dans des lieux différents) – Ca ne marche pas lorsque TCP traîne QUELQUE PART sur le chemin – Mais il est plus facile de continuer avec TCP que de l’améliorer (+20 ans et pas encore le mot final) • TCP souffre surtout de l'imprévisibilité : la perte et les délais de paquets sont l'ennemi – Mémoires tampons de petite taille sur les équipements réseau et les serveurs – Mauvais choix d’applications – Désorganisation du flux causée par une sécurité exagérée – Congestion par de nombreux petits utilisateurs • Tout commence par connaître vos utilisateurs et connaître votre réseau 06/05/18 © 2018, http://www.perfsonar.net 17
Où sont les problèmes ? Liens saturés ou défecteux Problèmes de latence même dans entre domaines des réseaux courts Campus Source Backbone Campus Destination S D NREN Réseau Régional Liens internes congestionnés 06/05/18 © 2018, http://www.perfsonar.net 18
Tester localement ne suffit pas Mauvaise performance au délà de Bonne performance quand RTT < ~10 ms ~10 ms RTT Campus R&E Campus Source Backbone Destination S D Switch avec petits Régional Régional buffers 06/05/18 © 2018, http://www.perfsonar.net 19
Défauts réseau mineurs • Défauts mineurs : il y a de la connectivité, mais pas une performance optimale. • TCP a été conçu justement pour cacher les erreurs de transmission : • “As long as the TCPs continue to function properly and the internet system does not become completely partitioned, no transmission errors will affect the users.” (From IEN 129, RFC 716) • Ces défauts mineurs ont surtout un effet sur les gros flux et les longues distances. • Une coupure d’un lien, un nœud qui tombe, c’est facile à détecter à corriger • Les défauts mineurs peuvent rester cacher durant des années… • Un problème réseau peut facilement en masquer d’autres. 06/05/18 © 2018, http://www.perfsonar.net 21
Définition du problème : défaut majeurs et mineurs • Les “défauts majeurs” sont faciles à comprendre : • Fibre coupée • Coupure de courant • Matériel en panne • Les systèmes de monitoring classique sont bons contre ces défauts : • Le NOC reçoit un voyant rouge sur ses écrans • Ingénieurs notifiés en direct (mail, sms, …) • Les “défauts mineurs” sont différents et non détectés • La connectivité (ping, traceroute, web, email) fonctionne • Mais la performance est mauvaise • Doit-on y prêter attention ? 06/05/18 © 2018, http://www.perfsonar.net 22
Défauts mineurs, pertes de paquets et dégradation de performance de TCP Local With loss, high performance (LAN) beyond metro distances is essentially impossible International Metro Area Regional Continental Measured (TCP Reno) Measured (HTCP) Theoretical (TCP Reno) Measured (no loss) 06/05/18 © 2018, http://www.perfsonar.net 23
Causes des Pertes de Paquets • Congestion du réseau • Facile à confirmer via SNMP, facile à réparer avec $$ • Ce n’est pas un ‘défaut mineur’, mais seulement un problème de capacité • Souvent on pense que la congestion est le problème, alors que ce n’est pas le cas • Switch a buffers trop petits • Difficile à confirmer • Firewall sous dimensionné • Difficile à confirmer • Connecteurs fibres sales, mauvais éléments optiques ou niveau faibles • Parfois facile à confirmer par les compteurs d’erreurs sur le matériel • Serveur surchargé ou lent qui ne peut traiter tous les paquets • Facile à confirmer par la charge CPU 06/05/18 © 2018, http://www.perfsonar.net 24
Le problème des switches avec buffers sous-dimensionnés 06/05/18 © 2018, http://www.perfsonar.net 25
The Science DMZ en 1 Slide Se compose de quatre composants clés, tous requis: • “ Pas de Friction” sur le réseau • Des périphériques réseau hautement adaptés (câbles performants, longues files d'attente) © 2013 Globus • Possibilité de circuit virtuel • Politique de sécurité spécifiques aux flux scientifiques • Situé à la frontière du réseau • Data Transfer Nodes (DTNs) dédiés et performants • Matériel, OS, bibliothèques optimisées pour le transfert • Outils de transfert de données optimisés tels que Globus ou GridFTP • Mesure des performances / nœud test © 2013 Wikipedia • perfSONAR • Formation et accompagnement des utilisateurs Plus d’infos à http://fasterdata.es.net/science-dmz/ 06/05/18 © 2018, http://www.perfsonar.net 27
Le modèle Science DMZ Border Router Enterprise Border Router/Firewall WAN 10G 10GE Clean, Site / Campus 10GE High-bandwidth access to Science WAN path DMZ resources perfSONAR 10GE Site / Campus LAN Science DMZ Switch/Router 10GE perfSONAR Per-service security policy control points High performance High Latency WAN Path Data Transfer Node with high-speed storage Low Latency LAN Path 06/05/18 © 2018, http://www.perfsonar.net 28
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 30
Mais... Il n’y a pas que le réseau • Probablement vous vous dites « Je n'ai aucun contrôle sur certaines parties de mon campus et encore moins sur les 5 réseaux qui me séparent de mes collaborateurs » • Cependant, des gains importants sont possibles dans les zones isolées de la pile OSI • Les choses que vous contrôlez : • Choix des applications de transfert des données (oubliez SCP et RSYNC) • Configuration du matériel local (serveurs, périphériques réseau) • Déploiement et configuration d'outils de diagnostic, p.ex. perfSONAR • Utilisation des outils de diagnostic • Là où vous aurez besoin d'aide : • Configuration du matériel distant • Prendre en charge les problèmes lorsque l’outils de diagnostic alerte • Faire en sorte que quelqu'un en fasse « son boulot » 06/05/18 © 2018, http://www.perfsonar.net 31
Monitoring Réseau • Tout le monde fait du monitoring • On a besoin de comprendre l’état du réseau • Cette information peut-elle aider des utilisateurs extérieurs ? • Les outils de monitoring fonctionnent-ils en multi-domaine ? • Au-delà des méthodes passives, il y a des outils actifs • Par exemple, on veut connaitre le débit attaignable, peut-on automatiser cette mesure ? • Ne serait-il pas utile d’avoir un historique des mesures de performance sur une journée ? Une semaine ? Un an ? Et vers plusieurs destinations ? • perfSONAR = Measurement Middleware 06/05/18 © 2018, http://www.perfsonar.net 32
perfSONAR • Tous les schemas Science DMZ précédents contiennent plusieurs perfSONAR • Pour avoir un comportement consistant, il faut de la précision Border Router perfSONAR Enterprise Border Router/Firewall • La précision vous demande d’avoir la capacité de trouver WAN 10G 10GE et résoudre les problèmes. Clean, Site / Campus 10GE High-bandwidth access to Science WAN path DMZ resources perfSONAR 10GE Site / Campus LAN • Vous ne pouvez pas réparer ce que vous ne pouvez pas détecter Science DMZ Switch/Router • Vous ne pouvez pas détecter ce que vous ne pouvez pas voir 10GE perfSONAR • perfSONAR vous permet de voir Per-service security policy control points High performance Data Transfer Node with high-speed storage • Particulièrement important lorsqu’on déploie des services à haute performance – S’il y a un problème sur l’infrastructure, il faut la réparer – Si le problème ne vient pas de votre infrastructure, il faut le prouver • Plusieurs acteurs sur un chemin de bout-en-bout • La capacité à montrer que tout marche bien chez vous aide à localiser le problème 06/05/18 © 2018, http://www.perfsonar.net 33
Qu’est-ce que perfSONAR ? • perfSONAR est un outil pour: • Prévoir et définir les performances du réseau • Trouver des problèmes réseau ("défauts mineurs") • Aider à résoudre ces problèmes • Et tout cela dans un environnement multi-domaines • Ces problèmes sont tous plus difficiles lorsque plusieurs réseaux sont impliqués • perfSONAR fournit un moyen standard de publier des données de monitoring actives et passives • Ces données sont intéressantes pour les chercheurs en technologies réseau ainsi que pour les opérateurs du réseau 06/05/18 © 2018, http://www.perfsonar.net 35
Historique de perfSONAR • L’origine de perfSONAR se trouve dans la "End 2 End Performance Initiative" de Internet2, en 2000. • Qu'est-ce qui a changé depuis l’an 2000 ? • Des bonnes choses : • TCP est moins fragile; Cubic est le nouveau algorithme de Congestion Control, il y a l’auto-tuning et des buffers TCP plus importants partout • Des transferts parallèles fiables via des outils tels que Globus Online • Des outils commerciaux à haute performance basés sur UDP comme Aspera • Des moins bonnes : • Le fossé d’expertise est toujours important • L'utilisation des Jumbo Frames est encore faible • Les switches et routeurs avec petits buffers sont toujours nombreux • Les pare-feux sous-dimensionnés / mal configurés sont communs • Les défauts mineurs passent toujours inaperçus pendant des mois • Les attentes en matière de performance du réseau sont encore trop faibles 06/05/18 © 2018, http://www.perfsonar.net 36
Simuler la Performance • Il est impossible d'effectuer des mouvements de données en masse tout le temps — comme on le voit dans d'autres domaines scientifiques, il faut utiliser des simulations. • La performance du réseau se résume à quelques paramètres clés : • Débit (« combien puis-je tirer du réseau ») • Latence (temps nécessaire pour arriver à destination) • Perte de paquets / duplication / ordonnancement (un échantillon de paquets arrive-t-il à destination sans anomalies graves ?) • Utilisation du réseau (le contraire du «débit» pour à un moment donné) • Nous pouvons mesurer ces paramètres grâce à une sélection d'outils de mesure actifs et passifs — c’est la boîte à outils perfSONAR (toolkit) 06/05/18 © 2018, http://www.perfsonar.net 37
perfSONAR Toolkit • Le “perfSONAR Toolkit” est une suite, libre, d’outils de mesures et de protocoles standardisés • http://docs.perfsonar.net/install_getting.html • Tous les composants sont disponibles en RPMs et DEBs pour CentOS 7, Debian 8 et 9 ou Ubuntu 14 et 16 (à la v. 4.0.2) • Les outils perfSONAR sont beaucoup plus précis si on les exécute sur un serveur perfSONAR dédié • Très facile à installer et à configurer • Généralement en moins de 30 minutes 06/05/18 © 2018, http://www.perfsonar.net 38
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 39
Déploiement de type “Beacon” • Ce déploiement type consiste à établir un ensemble de tests vers d'autres sites / installations • Pour répondre aux questions sur le quoi et le pourquoi : • Des tests réguliers avec des outils choisis permettent d'établir des normes – le débit que nous verrons au cours de la journée – et voir quand les pertes de paquet apparaissent. • Nous le faisons à des « points clés » pour simuler comment une activité réelle (par exemple, un transfert Globus) aurait lieu. • Si la performance est « mauvaise », n'attendez pas beaucoup de l'outil de déplacement des données. 06/05/18 © 2018, http://www.perfsonar.net 40
But : trouver l’aiguille dans le ballot de foin • Avant tout perfSONAR vous permet de maintenir un réseau sain et performant car il permet d'identifier les « défauts mineurs » dans le réseau. • Les systèmes de monitoring classiques ont leurs limites : • Les problèmes de performance ne sont généralement visibles qu’aux extrémités • Les composants de réseau individuels (ex : les routeurs) n'ont aucune connaissance de ces extrémités • perfSONAR teste le réseau de manière fondamentalement différente aux systèmes de monitoring classiques • Plus de déploiements de perfSONAR = meilleure visibilité du réseau. 06/05/18 © 2018, http://www.perfsonar.net 41
Statistiques de Déploiement • Chiffres d’août 2015 • Chaque nouvelle version de perfSONAR augmente le nombre de déploiements • 2100 nœuds début 2018 06/05/18 © 2018, http://www.perfsonar.net 43
http://stats.es.net/ServicesDirectory/ 06/05/18 © 2018, http://www.perfsonar.net 44
perfSONAR Dashboard: placer la barre plus haut, améliorer la visibilité État en un coup d’œil : • Pertes de paquets • Débit • Exactitude Exemples publics : http://pas.net.internet2.edu/ http://ps-dashboard.es.net/ Fonctionnalités phares : • Historiques des tests • Possibilité de corrélations entre événements • Très utile pour la localisation et la détermination des fautes 06/05/18 © 2018, http://www.perfsonar.net 45
Plan • Problématique de la Connectivité Réseau • Soutien aux Utilisateurs Scientifiques • Performance du Réseau & Comportements de TCP avec Pertes de Paquets • Qu’est-ce que perfSONAR? • Aperçu du Déploiement • Conclusions 06/05/18 © 2018, http://www.perfsonar.net 47
Une communauté active et grandissante • Les listes de discussions vous donnent : • Un accès instantané aux conseils et à l'expertise de la communauté. • La possibilité de partager vos paramétrages, vos expériences et vos résultats avec d'autres pour aider à réparer les problèmes à l'échelle mondiale. • L'adhésion à la communauté augmente automatiquement la portée et la puissance de perfSONAR • Plus il y a de déploiements, plus il y a de possibilités pour mesurer, comparer et identifier les problèmes. 06/05/18 © 2018, http://www.perfsonar.net 48
La communauté perfSONAR • Le projet perfSONAR œuvre à une communauté d’utilisateurs plus forte et pouvant s’entraider et également à favoriser le dévelopement du logiciel. • perfSONAR Mailing Lists • Liste des nouvelles/annonces (faible volume) : • https://mail.internet2.edu/wws/subrequest/perfsonar-announce • Liste des utilisateurs : • https://mail.internet2.edu/wws/subrequest/perfsonar-users 06/05/18 © 2018, http://www.perfsonar.net 49
Ressources • perfSONAR website • http://www.perfsonar.net/ • perfSONAR documentation • http://docs.perfsonar.net/ • perfSONAR mailing lists • http://www.perfsonar.net/about/getting-help/ • perfSONAR directory • http://stats.es.net/ServicesDirectory/ • perfSONAR YouTube Channel • https://www.youtube.com/perfSONARProject • FasterData Knowledgebase • http://fasterdata.es.net/ 06/05/18 © 2018, http://www.perfsonar.net 50
Introduction & Motivation Event Presenter, Organization, Email Date Ce document est un résultat du projet perfSONAR (http://www.perfsonar.net) et est distribué sous licence CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/). 06/05/18 © 2018, http://www.perfsonar.net 51
Vous pouvez aussi lire