GUIDE D'EXEMPLES VMWARE VSPHERE BITFUSION - 11 MAI 2021 MISE À JOUR POUR INCLURE VMWARE VSPHERE BITFUSION 3.5 VMWARE VSPHERE BITFUSION 3.0 ...

 
CONTINUER À LIRE
Guide d'exemples VMware
vSphere Bitfusion
11 mai 2021
Mise à jour pour inclure VMware vSphere Bitfusion 3.5
VMware vSphere Bitfusion 3.0
Guide d'exemples VMware vSphere Bitfusion

Vous trouverez la documentation technique la plus récente sur le site Web de VMware, à l'adresse :

https://docs.vmware.com/fr/

VMware, Inc.                                      VMware France SAS.
3401 Hillview Ave.                                Tour Franklin
Palo Alto, CA 94304                               100-101 Terrasse Boieldieu
www.vmware.com                                    92042 Paris La Défense 8 Cedex
                                                  France
                                                  www.vmware.com/fr

               ©
Copyright          2020-2021 VMware, Inc. Tous droits réservés. Informations relatives aux copyrights et marques
commerciales.

VMware, Inc.                                                                                                   2
Table des matières

         À propos du Guide d'exemples vSphere Bitfusion 4

     1 Présentation de l'utilisation de TensorFlow avec vSphere Bitfusion 5

     2 Installation et exécution de TensorFlow avec vSphere Bitfusion 6
               Installation de NVIDIA CUDA     6
                  Installer NVIDIA CUDA sous Ubuntu        6
                  Installer NVIDIA CUDA sur CentOS ou Red Hat Linux   7
               Installer NVIDIA cuDNN      8
               Installer Python sur CentOS et Red Hat Linux    9
               Installer TensorFlow   10
               Installer des évaluations TensorFlow   10
               Exécuter les évaluations TensorFlow    12

VMware, Inc.                                                                  3
À propos du Guide d'exemples vSphere
Bitfusion

Le Guide d'exemples vSphere Bitfusion fournit des informations sur l'utilisation de vSphere
Bitfusion pour exécuter TensorFlow sur VMware vSphere.

VMware prend l'intégration au sérieux. Pour promouvoir ce principe au sein de notre
communauté de clients, de partenaires et interne, nous créons du contenu à l'aide d'une langue
inclusive.

Le Guide d'exemples vSphere Bitfusion explique comment installer des évaluations TensorFlow et
Open Source, puis exécuter les évaluations à l'aide de vSphere Bitfusion. Ce guide sert de base
pour comprendre comment utiliser TensorFlow et d'autres applications et infrastructures
d'intelligence artificielle (IA) et d'apprentissage automatique (ML) sous vSphere Bitfusion.

Public cible
Ces informations sont destinées à toute personne souhaitant utiliser vSphere Bitfusion avec des
plates-formes d'apprentissage automatique. Elles sont destinées aux administrateurs système
Linux expérimentés qui maîtrisent les technologies de machine virtuelle et les opérations de
centre de données utilisant VMware vSphere.

VMware, Inc.                                                                                      4
Présentation de l'utilisation de
TensorFlow avec vSphere
Bitfusion
                                                                                                1
Pour utiliser TensorFlow avec vSphere Bitfusion, vous devez installer et configurer plusieurs
composants.

Pour utiliser TensorFlow avec vSphere Bitfusion, effectuez les tâches suivantes.

1   Installez vSphere Bitfusion. Reportez-vous à Guide d'installation de VMware vSphere
    Bitfusion.

2   Installez NVIDIA CUDA 11.

3   Installez NVIDIA cuDNN 8.

4   Si vous utilisez CentOS ou Red Hat Linux, vous devez installer Python 3.

5   Installez TensorFlow 2.4.

6   Installez les évaluations TensorFlow.

7   Exécutez les évaluations TensorFlow pour mesurer les performances du système.

VMware, Inc.                                                                                    5
Installation et exécution de
TensorFlow avec vSphere
Bitfusion
                                                                                            2
Pour utiliser TensorFlow avec vSphere Bitfusion, vous installez et configurez plusieurs modules
logiciels et structures de programmation.

Ce chapitre contient les rubriques suivantes :

n   Installation de NVIDIA CUDA

n   Installer NVIDIA cuDNN

n   Installer Python sur CentOS et Red Hat Linux

n   Installer TensorFlow

n   Installer des évaluations TensorFlow

n   Exécuter les évaluations TensorFlow

Installation de NVIDIA CUDA
CUDA est une plate-forme informatique parallèle et un modèle de programmation développé par
NVIDIA pour utilisation générale sur les unités de traitement graphique (GPU). CUDA accélère
considérablement les applications informatiques en utilisant la puissance de traitement des GPU.
CUDA est utilisé par les évaluations TensorFlow.

Installer NVIDIA CUDA sous Ubuntu
Vous pouvez installer CUDA sous Ubuntu Linux.

Vérifiez que vous avez installé le client vSphere Bitfusion sur le système d'exploitation Ubuntu.

Procédure

1   Accédez à un répertoire sur la machine virtuelle dans laquelle vous souhaitez télécharger la
    distribution NVIDIA CUDA.

      cd 

VMware, Inc.                                                                                        6
Guide d'exemples VMware vSphere Bitfusion

2   Téléchargez et déplacez le fichier cuda-ubuntu2004.pin.

      wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-
      ubuntu2004.pin
      sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600

3   Téléchargez la distribution NVIDIA CUDA pour votre Ubuntu 20.04 à l'aide de la commande
    wget.

      wget 

4   Installez le module CUDA 11 pour Ubuntu 20.04 à l'aide de la commande dpkg -i.

      sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb

5   Installez les clés pour authentifier le module logiciel à l'aide de la commande apt-key.

    La commande apt-key gère la liste des clés utilisées par apt pour authentifier les modules.
    Les modules qui ont été authentifiés à l'aide de ces clés sont considérés comme fiables.

      sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub

6   Mettez à jour et installez le module logiciel CUDA.

      sudo apt-get update
      sudo apt-get install cuda

7   (Facultatif) Pour confirmer la taille de la partition GPU ou pour vérifier les ressources
    disponibles sur votre déploiement vSphere Bitfusion, exécutez l'application de surveillance
    (nvidia-smi) de l'interface de gestion du système NVIDIA.

      bitfusion run -n 1 nvidia-smi

8   Accédez au répertoire contenant les exemples de fichiers de multiplication de matrice CUDA
    (matrixMul).

      cd /usr/local/cuda/samples/0_Simple/matrixMul

9   Exécutez les commandes make et bitfusion run sur l'exemple de fichier matrixMul.

      sudo make
      bitfusion run -n 1 ./matrixMul

Étape suivante

Installez et configurez NVIDIA cuDNN. Reportez-vous à la section Installer NVIDIA cuDNN.

Installer NVIDIA CUDA sur CentOS ou Red Hat Linux
Vous pouvez installer CUDA 11 sur CentOS 8 ou Red Hat Linux 8.

VMware, Inc.                                                                                        7
Guide d'exemples VMware vSphere Bitfusion

Procédure

1   Sur la machine virtuelle, accédez au répertoire dans lequel vous souhaitez télécharger la
    distribution NVIDIA CUDA.

      cd 

2   Pour télécharger le package NVIDIA CUDA 11 pour CentOS 8 ou Red Hat Linux 8, exécutez la
    commande wget.

      wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-
      rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm

3   Pour installer le module CUDA, exécutez la commande rpm -i.

      sudo rpm -i cuda-repo-rhel8-11-0-local-11.0.3_450.51.06-1.x86_64.rpm

4   Exécutez les commandes yum clean all et yum -y install comme indiqué pour mettre à
    jour votre environnement et installer le module logiciel CUDA.

      sudo yum clean all
      sudo yum -y install cuda

5   (Facultatif) Pour confirmer la taille de la partition GPU ou pour vérifier les ressources
    disponibles sur votre déploiement vSphere Bitfusion, exécutez l'application de surveillance
    (nvidia-smi) de l'interface de gestion du système NVIDIA.

      bitfusion run -n 1 nvidia-smi

6   Accédez au répertoire contenant les exemples de fichiers de multiplication de matrice CUDA
    (matrixMul).

      cd /usr/local/cuda/samples/0_Simple/matrixMul

7   Exécutez les commandes make et bitfusion run sur l'exemple de fichier matrixMul.

      sudo make
      bitfusion run -n 1 ./matrixMul

Étape suivante

Installez et configurez NVIDIA cuDNN. Reportez-vous à la section Installer NVIDIA cuDNN.

Installer NVIDIA cuDNN
cuDNN est une bibliothèque à accélération GPU de primitives à utiliser avec des réseaux
neuronaux profonds.

VMware, Inc.                                                                                       8
Guide d'exemples VMware vSphere Bitfusion

Conditions préalables

Créez un compte de développeur NVIDIA à partir duquel télécharger le module cuDNN
correspondant à votre version de NVIDIA CUDA et adapté à votre distribution Linux. Consultez
https://developer.nvidia.com/cudnn.

Procédure

1   Installez le module cuDNN en exécutant la séquence de commandes pour votre distribution
    Linux.

    u    Ubuntu version 20.04

           sudo dpkg -i libcudnn8_8.0.5.39-1+cuda11.0_amd64.deb

    u    CentOS 8 et Red Hat Linux 8

           sudo rpm -ivh libcudnn8-8.0.5.39-1.cuda11.0.x86_64.rpm

2   Pour vérifier que cuDNN est installé, exécutez ldconfig -p | grep cudnn.

Étape suivante

n   Si vous utilisez CentOS ou Red Hat Linux, vous devez installer Python 3. Reportez-vous à la
    section Installer Python sur CentOS et Red Hat Linux.

n   Si vous utilisez Ubuntu Linux, vous pouvez installer TensorFlow. Reportez-vous à la section
    Installer TensorFlow.

Installer Python sur CentOS et Red Hat Linux
Pour CentOS et Red Hat Linux, vous devez installer Python 3.

Si vous utilisez Ubuntu, vous n'avez pas besoin d'effectuer cette procédure. Ubuntu est
préinstallé avec Python 3.

Procédure

1   Mettez à jour tous les modules actuellement installés en exécutant la commande yum update.

      sudo yum update

2   Pour installer Python 3, exécutez la commande dnf.

      sudo dnf install python3

3   Vérifiez que vous utilisez Python 3 avec la commande python3 -V.

      python3 -V
      Python 3.6.8

4   (Facultatif) Prenez un snapshot de votre environnement.

VMware, Inc.                                                                                      9
Guide d'exemples VMware vSphere Bitfusion

Étape suivante

Installez TensorFlow. Reportez-vous à la section Installer TensorFlow.

Installer TensorFlow
TensorFlow est la structure d'apprentissage automatique (ML) que vous utilisez avec Bitfusion.

Installez TensorFlow à l'aide de pip3, qui est le programme d'installation de module pour
Python 3.

Procédure

1   Si vous installez TensorFlow sur Ubuntu 20.04, installez des ressources Python
    supplémentaires.

    sudo apt-get -y install python3-testresources

2   Installez pip3 en exécutant la séquence de commandes pour votre distribution et votre
    version Linux.

    n     Ubuntu 20.04

            sudo apt-get install -y python3-pip

    n     CentOS 8 et Red Hat Linux 8

            sudo yum install -y python36-devel
            sudo pip3 install -U pip setuptools

3   Installez TensorFlow à l'aide de la commande pip3 install.

        sudo pip3 install tensorflow-gpu==2.4

Étape suivante

Vous pouvez exécuter des évaluations TensorFlow pour tester les performances de votre
déploiement vSphere Bitfusion. Reportez-vous à la section Installer des évaluations TensorFlow.

Installer des évaluations TensorFlow
Les évaluations TensorFlow sont des applications ML Open Source conçues pour tester les
performances de l'infrastructure TensorFlow.

Vous branchez et téléchargez les évaluations TensorFlow dans votre environnement local. Dans
Git, une branche est une ligne de développement distincte.

VMware, Inc.                                                                                      10
Guide d'exemples VMware vSphere Bitfusion

Procédure

1   Installez Git.

      sudo yum -y update
      sudo yum install git

2   Créez le répertoire ~/bitfusion et faites-en votre répertoire de travail.

      mkdir bitfusion
      cd ~/bitfusion

3   Clonez le référentiel Git des évaluations Tensorflow sur votre environnement local.

      git clone https://github.com/tensorflow/benchmarks.git

4   Accédez au répertoire des évaluations et répertoriez les branches du référentiel.

      cd benchmarks
      git branch -a

      master
      remotes/origin/HEAD -> origin/master
      ...
      remotes/origin/cnn_tf_v1.13_compatible
      ...
      remotes/origin/cnn_tf_v2.1_compatible
      ...

5   Effectuez une extraction Git et répertoriez le référentiel des évaluations TenserFlow.

      git checkout cnn_tf_v2.1_compatible

      Branch cnn_tf_v2.1_compatible set up to track remote branch cnn_tf_v2.1_compatible
      from origin.
      Switched to a new branch ‘cnn_tf_v2.1_compatible’

      git branch

      cnn_tf_tf_v2.1_compatible
      master

Étape suivante

Vous pouvez exécuter des évaluations TensorFlow pour tester les performances de votre
déploiement vSphere Bitfusion. Reportez-vous à la section Exécuter les évaluations TensorFlow.

VMware, Inc.                                                                                     11
Guide d'exemples VMware vSphere Bitfusion

Exécuter les évaluations TensorFlow
Exécutez les évaluations TensorFlow pour tester les performances de votre déploiement de
vSphere Bitfusion et de TensorFlow.

En exécutant les évaluations TensorFlow et en utilisant différentes configurations, vous pouvez
comprendre comment les charges de travail ML répondent dans votre environnement vSphere
Bitfusion.

Procédure

1   Pour accéder au répertoire ~/bitfusion/, exécutez cd ~/bitfusion/.

2   Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion
    run.

    En exécutant les commandes dans l'exemple, vous utilisez l'intégralité de la mémoire d'un
    seul GPU et les données ML préinstallées dans le répertoire /data.

      bitfusion run -n 1 -- python3 \
      ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \
      --data_format=NCHW \
      --batch_size=64 \
      --model=resnet50 \
      --variable_update=replicated \
      --local_parameter_device=gpu \
      --nodistortions \
      --num_gpus=1 \
      --num_batches=100 \
      --data_dir=/data \
      --data_name=imagenet \
      --use_fp16=False

3   Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion
    run avec le paramètre -p 0.67.

    En exécutant les commandes dans l'exemple, vous utilisez 67 % de la mémoire d'un seul GPU
    et les données ML préinstallées du répertoire /data. Le paramètre -p 0.67 permet
    d'exécuter une autre tâche dans les 33 % restants de la partition de mémoire de GPU.

      bitfusion run -n 1 -p 0.67 -- python3 \
      ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \
      --data_format=NCHW \
      --batch_size=64 \
      --model=resnet50 \
      --variable_update=replicated \
      --local_parameter_device=gpu \
      --nodistortions \
      --num_gpus=1 \
      --num_batches=100 \
      --data_dir=/data \
      --data_name=imagenet \
      --use_fp16=False

VMware, Inc.                                                                                      12
Guide d'exemples VMware vSphere Bitfusion

4   Pour utiliser le script d'évaluation tf_cnn_benchmarks.py, exécutez la commande bitfusion
    run avec des données synthétisées.

    En exécutant les commandes de l'exemple, vous utilisez l'intégralité de la mémoire d'un seul
    GPU, sans employer de donnée ML préinstallée. TensorFlow peut créer des données
    synthétisées avec un ensemble d'images.

      bitfusion run -n 1 -- python3 \
      ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \
      --data_format=NCHW \
      --batch_size=64 \
      --model=resnet50 \
      --variable_update=replicated \
      --local_parameter_device=gpu \
      --nodistortions \
      --num_gpus=1 \
      --num_batches=100 \
      --use_fp16=False

Résultats

Vous pouvez désormais exécuter des évaluations TensorFlow dans vSphere Bitfusion avec des
GPU partagés à partir d'un serveur distant. Les évaluations prennent en charge de nombreux
modèles et paramètres pour vous aider à explorer un espace important dans la discipline
d'apprentissage automatique. Pour plus d'informations, consultez Guide de l'utilisateur de
VMware vSphere Bitfusion.

VMware, Inc.                                                                                       13
Vous pouvez aussi lire