GUIDE D'EXEMPLES VMWARE VSPHERE BITFUSION - 11 MAI 2021 MISE À JOUR POUR INCLURE VMWARE VSPHERE BITFUSION 3.5 VMWARE VSPHERE BITFUSION 3.0 ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Guide d'exemples VMware vSphere Bitfusion 11 mai 2021 Mise à jour pour inclure VMware vSphere Bitfusion 3.5 VMware vSphere Bitfusion 3.0
Guide d'exemples VMware vSphere Bitfusion Vous trouverez la documentation technique la plus récente sur le site Web de VMware, à l'adresse : https://docs.vmware.com/fr/ VMware, Inc. VMware France SAS. 3401 Hillview Ave. Tour Franklin Palo Alto, CA 94304 100-101 Terrasse Boieldieu www.vmware.com 92042 Paris La Défense 8 Cedex France www.vmware.com/fr © Copyright 2020-2021 VMware, Inc. Tous droits réservés. Informations relatives aux copyrights et marques commerciales. VMware, Inc. 2
Table des matières À propos du Guide d'exemples vSphere Bitfusion 4 1 Présentation de l'utilisation de TensorFlow avec vSphere Bitfusion 5 2 Installation et exécution de TensorFlow avec vSphere Bitfusion 6 Installation de NVIDIA CUDA 6 Installer NVIDIA CUDA sous Ubuntu 6 Installer NVIDIA CUDA sur CentOS ou Red Hat Linux 7 Installer NVIDIA cuDNN 8 Installer Python sur CentOS et Red Hat Linux 9 Installer TensorFlow 10 Installer des évaluations TensorFlow 10 Exécuter les évaluations TensorFlow 12 VMware, Inc. 3
À propos du Guide d'exemples vSphere Bitfusion Le Guide d'exemples vSphere Bitfusion fournit des informations sur l'utilisation de vSphere Bitfusion pour exécuter TensorFlow sur VMware vSphere. VMware prend l'intégration au sérieux. Pour promouvoir ce principe au sein de notre communauté de clients, de partenaires et interne, nous créons du contenu à l'aide d'une langue inclusive. Le Guide d'exemples vSphere Bitfusion explique comment installer des évaluations TensorFlow et Open Source, puis exécuter les évaluations à l'aide de vSphere Bitfusion. Ce guide sert de base pour comprendre comment utiliser TensorFlow et d'autres applications et infrastructures d'intelligence artificielle (IA) et d'apprentissage automatique (ML) sous vSphere Bitfusion. Public cible Ces informations sont destinées à toute personne souhaitant utiliser vSphere Bitfusion avec des plates-formes d'apprentissage automatique. Elles sont destinées aux administrateurs système Linux expérimentés qui maîtrisent les technologies de machine virtuelle et les opérations de centre de données utilisant VMware vSphere. VMware, Inc. 4
Présentation de l'utilisation de TensorFlow avec vSphere Bitfusion 1 Pour utiliser TensorFlow avec vSphere Bitfusion, vous devez installer et configurer plusieurs composants. Pour utiliser TensorFlow avec vSphere Bitfusion, effectuez les tâches suivantes. 1 Installez vSphere Bitfusion. Reportez-vous à Guide d'installation de VMware vSphere Bitfusion. 2 Installez NVIDIA CUDA 11. 3 Installez NVIDIA cuDNN 8. 4 Si vous utilisez CentOS ou Red Hat Linux, vous devez installer Python 3. 5 Installez TensorFlow 2.4. 6 Installez les évaluations TensorFlow. 7 Exécutez les évaluations TensorFlow pour mesurer les performances du système. VMware, Inc. 5
Installation et exécution de TensorFlow avec vSphere Bitfusion 2 Pour utiliser TensorFlow avec vSphere Bitfusion, vous installez et configurez plusieurs modules logiciels et structures de programmation. Ce chapitre contient les rubriques suivantes : n Installation de NVIDIA CUDA n Installer NVIDIA cuDNN n Installer Python sur CentOS et Red Hat Linux n Installer TensorFlow n Installer des évaluations TensorFlow n Exécuter les évaluations TensorFlow Installation de NVIDIA CUDA CUDA est une plate-forme informatique parallèle et un modèle de programmation développé par NVIDIA pour utilisation générale sur les unités de traitement graphique (GPU). CUDA accélère considérablement les applications informatiques en utilisant la puissance de traitement des GPU. CUDA est utilisé par les évaluations TensorFlow. Installer NVIDIA CUDA sous Ubuntu Vous pouvez installer CUDA sous Ubuntu Linux. Vérifiez que vous avez installé le client vSphere Bitfusion sur le système d'exploitation Ubuntu. Procédure 1 Accédez à un répertoire sur la machine virtuelle dans laquelle vous souhaitez télécharger la distribution NVIDIA CUDA. cd VMware, Inc. 6
Guide d'exemples VMware vSphere Bitfusion 2 Téléchargez et déplacez le fichier cuda-ubuntu2004.pin. wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda- ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 3 Téléchargez la distribution NVIDIA CUDA pour votre Ubuntu 20.04 à l'aide de la commande wget. wget 4 Installez le module CUDA 11 pour Ubuntu 20.04 à l'aide de la commande dpkg -i. sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb 5 Installez les clés pour authentifier le module logiciel à l'aide de la commande apt-key. La commande apt-key gère la liste des clés utilisées par apt pour authentifier les modules. Les modules qui ont été authentifiés à l'aide de ces clés sont considérés comme fiables. sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub 6 Mettez à jour et installez le module logiciel CUDA. sudo apt-get update sudo apt-get install cuda 7 (Facultatif) Pour confirmer la taille de la partition GPU ou pour vérifier les ressources disponibles sur votre déploiement vSphere Bitfusion, exécutez l'application de surveillance (nvidia-smi) de l'interface de gestion du système NVIDIA. bitfusion run -n 1 nvidia-smi 8 Accédez au répertoire contenant les exemples de fichiers de multiplication de matrice CUDA (matrixMul). cd /usr/local/cuda/samples/0_Simple/matrixMul 9 Exécutez les commandes make et bitfusion run sur l'exemple de fichier matrixMul. sudo make bitfusion run -n 1 ./matrixMul Étape suivante Installez et configurez NVIDIA cuDNN. Reportez-vous à la section Installer NVIDIA cuDNN. Installer NVIDIA CUDA sur CentOS ou Red Hat Linux Vous pouvez installer CUDA 11 sur CentOS 8 ou Red Hat Linux 8. VMware, Inc. 7
Guide d'exemples VMware vSphere Bitfusion Procédure 1 Sur la machine virtuelle, accédez au répertoire dans lequel vous souhaitez télécharger la distribution NVIDIA CUDA. cd 2 Pour télécharger le package NVIDIA CUDA 11 pour CentOS 8 ou Red Hat Linux 8, exécutez la commande wget. wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo- rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm 3 Pour installer le module CUDA, exécutez la commande rpm -i. sudo rpm -i cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm 4 Exécutez les commandes yum clean all et yum -y install comme indiqué pour mettre à jour votre environnement et installer le module logiciel CUDA. sudo yum clean all sudo yum -y install cuda 5 (Facultatif) Pour confirmer la taille de la partition GPU ou pour vérifier les ressources disponibles sur votre déploiement vSphere Bitfusion, exécutez l'application de surveillance (nvidia-smi) de l'interface de gestion du système NVIDIA. bitfusion run -n 1 nvidia-smi 6 Accédez au répertoire contenant les exemples de fichiers de multiplication de matrice CUDA (matrixMul). cd /usr/local/cuda/samples/0_Simple/matrixMul 7 Exécutez les commandes make et bitfusion run sur l'exemple de fichier matrixMul. sudo make bitfusion run -n 1 ./matrixMul Étape suivante Installez et configurez NVIDIA cuDNN. Reportez-vous à la section Installer NVIDIA cuDNN. Installer NVIDIA cuDNN cuDNN est une bibliothèque à accélération GPU de primitives à utiliser avec des réseaux neuronaux profonds. VMware, Inc. 8
Guide d'exemples VMware vSphere Bitfusion Conditions préalables Créez un compte de développeur NVIDIA à partir duquel télécharger le module cuDNN correspondant à votre version de NVIDIA CUDA et adapté à votre distribution Linux. Consultez https://developer.nvidia.com/cudnn. Procédure 1 Installez le module cuDNN en exécutant la séquence de commandes pour votre distribution Linux. u Ubuntu version 20.04 sudo dpkg -i libcudnn8_8.0.5.39-1+cuda11.0_amd64.deb u CentOS 8 et Red Hat Linux 8 sudo rpm -ivh libcudnn8-8.0.5.39-1.cuda11.0.x86_64.rpm 2 Pour vérifier que cuDNN est installé, exécutez ldconfig -p | grep cudnn. Étape suivante n Si vous utilisez CentOS ou Red Hat Linux, vous devez installer Python 3. Reportez-vous à la section Installer Python sur CentOS et Red Hat Linux. n Si vous utilisez Ubuntu Linux, vous pouvez installer TensorFlow. Reportez-vous à la section Installer TensorFlow. Installer Python sur CentOS et Red Hat Linux Pour CentOS et Red Hat Linux, vous devez installer Python 3. Si vous utilisez Ubuntu, vous n'avez pas besoin d'effectuer cette procédure. Ubuntu est préinstallé avec Python 3. Procédure 1 Mettez à jour tous les modules actuellement installés en exécutant la commande yum update. sudo yum update 2 Pour installer Python 3, exécutez la commande dnf. sudo dnf install python3 3 Vérifiez que vous utilisez Python 3 avec la commande python3 -V. python3 -V Python 3.6.8 4 (Facultatif) Prenez un snapshot de votre environnement. VMware, Inc. 9
Guide d'exemples VMware vSphere Bitfusion Étape suivante Installez TensorFlow. Reportez-vous à la section Installer TensorFlow. Installer TensorFlow TensorFlow est la structure d'apprentissage automatique (ML) que vous utilisez avec Bitfusion. Installez TensorFlow à l'aide de pip3, qui est le programme d'installation de module pour Python 3. Procédure 1 Si vous installez TensorFlow sur Ubuntu 20.04, installez des ressources Python supplémentaires. sudo apt-get -y install python3-testresources 2 Installez pip3 en exécutant la séquence de commandes pour votre distribution et votre version Linux. n Ubuntu 20.04 sudo apt-get install -y python3-pip n CentOS 8 et Red Hat Linux 8 sudo yum install -y python36-devel sudo pip3 install -U pip setuptools 3 Installez TensorFlow à l'aide de la commande pip3 install. sudo pip3 install tensorflow-gpu==2.4 Étape suivante Vous pouvez exécuter des évaluations TensorFlow pour tester les performances de votre déploiement vSphere Bitfusion. Reportez-vous à la section Installer des évaluations TensorFlow. Installer des évaluations TensorFlow Les évaluations TensorFlow sont des applications ML Open Source conçues pour tester les performances de l'infrastructure TensorFlow. Vous branchez et téléchargez les évaluations TensorFlow dans votre environnement local. Dans Git, une branche est une ligne de développement distincte. VMware, Inc. 10
Guide d'exemples VMware vSphere Bitfusion Procédure 1 Installez Git. sudo yum -y update sudo yum install git 2 Créez le répertoire ~/bitfusion et faites-en votre répertoire de travail. mkdir bitfusion cd ~/bitfusion 3 Clonez le référentiel Git des évaluations Tensorflow sur votre environnement local. git clone https://github.com/tensorflow/benchmarks.git 4 Accédez au répertoire des évaluations et répertoriez les branches du référentiel. cd benchmarks git branch -a master remotes/origin/HEAD -> origin/master ... remotes/origin/cnn_tf_v1.13_compatible ... remotes/origin/cnn_tf_v2.1_compatible ... 5 Effectuez une extraction Git et répertoriez le référentiel des évaluations TenserFlow. git checkout cnn_tf_v2.1_compatible Branch cnn_tf_v2.1_compatible set up to track remote branch cnn_tf_v2.1_compatible from origin. Switched to a new branch ‘cnn_tf_v2.1_compatible’ git branch cnn_tf_tf_v2.1_compatible master Étape suivante Vous pouvez exécuter des évaluations TensorFlow pour tester les performances de votre déploiement vSphere Bitfusion. Reportez-vous à la section Exécuter les évaluations TensorFlow. VMware, Inc. 11
Guide d'exemples VMware vSphere Bitfusion Exécuter les évaluations TensorFlow Exécutez les évaluations TensorFlow pour tester les performances de votre déploiement de vSphere Bitfusion et de TensorFlow. En exécutant les évaluations TensorFlow et en utilisant différentes configurations, vous pouvez comprendre comment les charges de travail ML répondent dans votre environnement vSphere Bitfusion. Procédure 1 Pour accéder au répertoire ~/bitfusion/, exécutez cd ~/bitfusion/. 2 Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion run. En exécutant les commandes dans l'exemple, vous utilisez l'intégralité de la mémoire d'un seul GPU et les données ML préinstallées dans le répertoire /data. bitfusion run -n 1 -- python3 \ ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \ --data_format=NCHW \ --batch_size=64 \ --model=resnet50 \ --variable_update=replicated \ --local_parameter_device=gpu \ --nodistortions \ --num_gpus=1 \ --num_batches=100 \ --data_dir=/data \ --data_name=imagenet \ --use_fp16=False 3 Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion run avec le paramètre -p 0.67. En exécutant les commandes dans l'exemple, vous utilisez 67 % de la mémoire d'un seul GPU et les données ML préinstallées du répertoire /data. Le paramètre -p 0.67 permet d'exécuter une autre tâche dans les 33 % restants de la partition de mémoire de GPU. bitfusion run -n 1 -p 0.67 -- python3 \ ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \ --data_format=NCHW \ --batch_size=64 \ --model=resnet50 \ --variable_update=replicated \ --local_parameter_device=gpu \ --nodistortions \ --num_gpus=1 \ --num_batches=100 \ --data_dir=/data \ --data_name=imagenet \ --use_fp16=False VMware, Inc. 12
Guide d'exemples VMware vSphere Bitfusion 4 Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion run avec des données synthétisées. En exécutant les commandes de l'exemple, vous utilisez l'intégralité de la mémoire d'un seul GPU, sans employer de donnée ML préinstallée. TensorFlow peut créer des données synthétisées avec un ensemble d'images. bitfusion run -n 1 -- python3 \ ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \ --data_format=NCHW \ --batch_size=64 \ --model=resnet50 \ --variable_update=replicated \ --local_parameter_device=gpu \ --nodistortions \ --num_gpus=1 \ --num_batches=100 \ --use_fp16=False Résultats Vous pouvez désormais exécuter des évaluations TensorFlow dans vSphere Bitfusion avec des GPU partagés à partir d'un serveur distant. Les évaluations prennent en charge de nombreux modèles et paramètres pour vous aider à explorer un espace important dans la discipline d'apprentissage automatique. Pour plus d'informations, consultez Guide de l'utilisateur de VMware vSphere Bitfusion. VMware, Inc. 13
Vous pouvez aussi lire