Guide de l'utilisateur de VMware vSphere Bitfusion - 5 novembre 2020 VMware vSphere Bitfusion 2.5 - VMware Docs

 
CONTINUER À LIRE
Guide de l'utilisateur de VMware
vSphere Bitfusion

5 novembre 2020
VMware vSphere Bitfusion 2.5
Guide de l'utilisateur de VMware vSphere Bitfusion

Vous trouverez la documentation technique la plus récente sur le site Web de VMware, à l'adresse :

https://docs.vmware.com/fr/

VMware, Inc.                                         VMware France SAS.
3401 Hillview Ave.                                   Tour Franklin
Palo Alto, CA 94304                                  100-101 Terrasse Boieldieu
www.vmware.com                                       92042 Paris La Défense 8 Cedex
                                                     France
                                                     www.vmware.com/fr

               ©
Copyright          2020 VMware, Inc. Tous droits réservés. Informations relatives aux copyrights et marques
commerciales.

VMware, Inc.                                                                                                  2
Table des matières

     1 À propos de Guide de l'utilisateur de VMware vSphere Bitfusion 4

     2 Comprendre VMware vSphere Bitfusion 5

     3 Utilisation de vSphere Bitfusion avec l'interface de ligne de commande 9
               Démarrage d'applications avec la commande Run               9
                  Allocation de GPU avec la commande RUN             10
                  Partitionnement de la mémoire d'un GPU            10
                  Exemples de partitionnement de GPU           11
               Démarrage d'applications avec des GPU réservés              12
               Démarrer et arrêter le service vSphere Bitfusion           14
               Fichiers de configuration de vSphere Bitfusion        15
               Référence des commandes vSphere Bitfusion             16

     4 Gestion de vSphere Bitfusion avec le plug-in vSphere Bitfusion 20
               Ajout de serveurs vSphere Bitfusion supplémentaires                  21
               Supprimer un serveur vSphere Bitfusion      22
               Désactiver ou supprimer un client vSphere Bitfusion              22
               Afficher les journaux du serveur vSphere Bitfusion              23
               Effectuer un contrôle de santé d'un serveur vSphere Bitfusion                   23
               Liste de contrôles de santé vSphere Bitfusion        24
               Afficher les informations GPU d'un client vSphere Bitfusion                25
               Afficher les informations GPU d'un serveur vSphere Bitfusion                26
               Définir un intervalle d'actualisation d'affichage global             26
               Modifier les paramètres d'un client vSphere Bitfusion                26
               Modifier les paramètres d'un serveur vSphere Bitfusion                27

     5 Surveillance de l'environnement vSphere Bitfusion 29
               Surveillance de vSphere Bitfusion dans le plug-in vSphere Bitfusion                  29
               Surveillance de vSphere Bitfusion dans l'interface de ligne de commande                   30
               Télécharger les données de surveillance de vSphere Bitfusion                    32

     6 Sauvegarder et restaurer un cluster vSphere Bitfusion 33
               Sauvegarder un cluster vSphere Bitfusion        33
               Restaurer un cluster vSphere Bitfusion     34

VMware, Inc.                                                                                                  3
À propos de Guide de l'utilisateur
de VMware vSphere Bitfusion                                                                   1
Le document Guide de l'utilisateur de VMware vSphere Bitfusion fournit des informations sur
                                                   ®         ®
l'utilisation et la configuration de VMware vSphere Bitfusion .

Le document Guide de l'utilisateur de VMware vSphere Bitfusion décrit comment allouer et
partitionner des GPU, et les associer à des charges de travail, et comment configurer et surveiller
vSphere Bitfusion.

Public cible
Ce guide est destiné aux utilisateurs avancés qui connaissent bien ESXi, vCenter Server et
l'interface de ligne de commande (CLI).

VMware, Inc.                                                                                      4
Comprendre VMware vSphere
Bitfusion                                                                                     2
VMware vSphere Bitfusion virtualise des accélérateurs matériels tels que les unités de traitement
graphique (GPU) pour fournir un pool de ressources partagées et accessibles en réseau qui
traitent les charges de travail d'intelligence artificielle (IA) et d'apprentissage automatique (ML).

Architecture et composants du vSphere Bitfusion
vSphere Bitfusion dispose d'une architecture client-serveur. Le produit permet à plusieurs
machines virtuelles (VM) clientes d'exécuter des applications d'intelligence artificielle (IA) et
d'apprentissage automatique (ML) pour partager l'accès aux GPU distants sur des machines
virtuelles exécutant le logiciel du serveur vSphere Bitfusion. Vous exécutez les applications sur
les machines de client vSphere Bitfusion, tandis que les GPU qui fournissent l'accélération sont
installés sur les machines de serveur vSphere Bitfusion sur un réseau.

Serveur vSphere Bitfusion

    Le serveur vSphere Bitfusion s'exécute sur un hôte ESXi disposant de GPU localement
    installés en tant que dispositif VMware, qui est une machine virtuelle (VM) préconfigurée avec
    des logiciels et des services prépackagés. Le serveur nécessite un accès aux GPU locaux,
    généralement via VMware vSphere® DirectPath I/O™.

Client vSphere Bitfusion

    Un client vSphere Bitfusion s'exécute sur des machines virtuelles qui exécutent des
    applications IA et ML.

Plug-in vSphere Bitfusion
    Les serveurs vSphere Bitfusion enregistrent un plug-in vSphere Bitfusion dans VMware
    vCenter Server. Le plug-in assure la surveillance et la gestion des clients et des serveurs
    vSphere Bitfusion.

Cluster vSphere Bitfusion

    Le cluster vSphere Bitfusion est l'ensemble de tous les serveurs et clients vSphere Bitfusion
    d'une instance de vCenter Server.

Groupe vSphere Bitfusion

VMware, Inc.                                                                                            5
Guide de l'utilisateur de VMware vSphere Bitfusion

     Le client vSphere Bitfusion crée un groupe vSphere Bitfusion pendant le processus
     d'installation. Seuls les membres du groupe peuvent utiliser vSphere Bitfusion. Certains
     fichiers de configuration sont configurés avec des autorisations appropriées et les membres
     du groupe héritent des limites appropriées pour fonctionner efficacement avec vSphere
     Bitfusion.

vSphere Client

     vSphere Client vous permet de vous connecter aux instances de vCenter Server à l'aide d'un
     navigateur Web pour y gérer votre infrastructure vSphere. Vous accédez au plug-in vSphere
     Bitfusion via vSphere Client.

Interface de ligne de commande (CLI)

     Vous pouvez gérer des serveurs et des clients vSphere Bitfusion à l'aide de commandes
     d'interface de ligne de commande (CLI).

vCenter Server

     vCenter Server est le logiciel de gestion de serveur qui fournit une plate-forme centralisée
     pour contrôler votre environnement vSphere.

La figure suivante est un exemple d'un petit cluster vSphere Bitfusion, tel qu'un ensemble de
machines client-serveur vSphere Bitfusion et vCenter Server sur un réseau commuté. Une
configuration minimale de clusters vSphere Bitfusion est un client, un serveur et une instance de
vCenter Server. Vous pouvez créer de grands clusters avec plusieurs clients et plusieurs
serveurs.

VMware, Inc.                                                                                        6
Guide de l'utilisateur de VMware vSphere Bitfusion

                               Base de données distribuée

                                          Dispositif
                                          vSphere
                                          Bitfusion

                                                                                      1
                                           ESXi 7                                              vCenter
                                                                                                Server

                                    GPU                GPU

                                                                                                   2

                                      Synchronisation
                                    des communications

                                                                                              VM de client
                                                                                               vSphere
        Base de données distribuée                      Base de données distribuée
                                                                                               Bitfusion

                                                                                      3
                 Dispositif                                        Dispositif
                 vSphere                                           vSphere
                 Bitfusion                                         Bitfusion              ESXi 6.7 ou versions
                                                                                              ultérieures

                  ESXi 7                                            ESXi 7

           GPU                GPU                            GPU                GPU

1    Le serveur vSphere Bitfusion principal enregistre un plug-in vSphere Bitfusion dans vCenter
     Server.

2    Le plug-in vSphere Bitfusion active une machine virtuelle de client vSphere Bitfusion.

3    Le client vSphere Bitfusion dispose d'un accès autorisé à tous les serveurs vSphere Bitfusion
     dans le cluster vSphere Bitfusion.

Note Avant d'utiliser VMware vSphere Bitfusion, vous devez déployer un serveur vSphere
Bitfusion, puis installer et activer un client vSphere Bitfusion. Pour plus d'informations, consultez
le Guide d'installation de VMware vSphere Bitfusion.

Avantages de vSphere Bitfusion
Pour exécuter des applications IA et ML, vSphere Bitfusion peut effectuer les tâches suivantes.

n    Allouer des ressources GPU et y accéder à partir de serveurs vSphere Bitfusion.

VMware, Inc.                                                                                                     7
Guide de l'utilisateur de VMware vSphere Bitfusion

     Les applications peuvent partager des ressources GPU qui ne sont pas dédiées à des
     machines individuelles et vous pouvez exécuter chaque application sur une machine, un
     conteneur et un environnement configurés. Les applications consomment les services
     d'accélération GPU d'un pool de serveurs vSphere Bitfusion sur un réseau, et consomment les
     ressources uniquement pendant la durée d'exécution d'une application ou d'une session. Les
     GPU reviennent au pool lorsque les applications ou les sessions sont terminées.

n    Accéder aux partitions des ressources GPU pour un partage simultané avec d'autres
     applications.

     Une autre option pour partager des GPU consiste à partitionner les GPU. La mémoire d'un
     GPU physique peut être divisée en fractions d'une taille arbitraire et allouée à différentes
     applications en même temps. vSphere Bitfusion effectue le partage avec une technologie
     d'interposition. vSphere Bitfusion intercepte les appels d'API normalement adressés à un
     accélérateur local sur un bus hôte PCIe et envoie les appels d'API et les données associées
     sur un réseau. vSphere Bitfusion fournit des services de partage pour les applications IA et
     ML, et prend en charge l'API CUDA pour cibler les GPU NVIDIA.

VMware, Inc.                                                                                        8
Utilisation de vSphere Bitfusion
avec l'interface de ligne de
commande
                                                                                             3
Vous pouvez utiliser, gérer et configurer vSphere Bitfusion à l'aide de commandes d'interface de
ligne de commande (CLI) sur le client vSphere Bitfusion.

Vous pouvez utiliser les commandes de l'interface de ligne de commande pour exécuter des
applications dans vSphere Bitfusion, partitionner la mémoire GPU et gérer le service vSphere
Bitfusion de plusieurs manières.

Ce chapitre contient les rubriques suivantes :

n   Démarrage d'applications avec la commande Run

n   Démarrage d'applications avec des GPU réservés

n   Démarrer et arrêter le service vSphere Bitfusion

n   Fichiers de configuration de vSphere Bitfusion

n   Référence des commandes vSphere Bitfusion

Démarrage d'applications avec la commande Run
Le client vSphere Bitfusion peut exécuter des applications d'apprentissage automatique sur des
GPU partagés distants. À l'aide de la commande run, vous pouvez démarrer une application
unique dans vSphere Bitfusion.

La commande vSphere Bitfusion pour démarrer une application est run avec un argument
obligatoire pour le nombre de GPU. Pour distinguer les arguments vSphere Bitfusion des
applications, utilisez un séparateur à deux traits d'union ou placez l'application entre guillemets.
Pour démarrer une application dans vSphere Bitfusion, remplacez les valeurs d'espaces réservés
par des valeurs réelles et exécutez l'une des commandes suivantes.

n   bitfusion run -n num_gpus other switches -- applications and arguments

n   bitfusion run -n num_gpus other switches "applications and arguments"

En exécutant la commande run, vous pouvez effectuer les trois tâches suivantes.

1   Allouer des GPU à partir du pool partagé

2   Démarrer une application dans un environnement qui peut accéder aux GPU lorsque
    l'application effectue des appels CUDA

VMware, Inc.                                                                                           9
Guide de l'utilisateur de VMware vSphere Bitfusion

3     Désallouer les GPU lorsque l'application se ferme

La commande run encapsule les commandes request_gpus, client et release_gpus. Vous
pouvez utiliser les commandes individuelles pour allouer des GPU et exécuter plusieurs
applications sur les mêmes GPU. Pour plus d'informations, consultez Démarrage d'applications
avec des GPU réservés.

Allocation de GPU avec la commande RUN
Vous pouvez exécuter la commande run pour allouer des GPU pour une seule application.
L'application s'exécute dans toute la ressource mémoire des GPU.

Tous les GPU demandés à l'aide de la commande run doivent être alloués à partir d'un seul
serveur vSphere Bitfusion et le serveur doit répertorier les GPU en tant que périphériques
distincts avec différentes adresses de PCIe.

Par exemple, l'application IA, asimov_i.py, prend deux arguments : le nombre de GPU et la taille
d'un lot.

n     Lorsque l'application attend 1 GPU, exécutez bitfusion run -n 1 -- python asimov_i.py
      --num_gpus=1 --batchsz=64

n     Lorsque l'application attend 2 GPU, exécutez bitfusion run -n 2 -- python asimov_i.py
      --num_gpus=2 --batchsz=64

Par défaut, vSphere Bitfusion attend 30 minutes pour que suffisamment de GPU soient
disponibles. Pour modifier l'intervalle par défaut, utilisez l'argument --timeout value, -t value.
Entrez le délai d'expiration en secondes ou heure et unité, par exemple, secondes (s), minutes
(m) et heures (h).

Par exemple, vous pouvez définir les valeurs suivantes pour l'argument value.
10                                        10 secondes

10s                                       10 secondes

10m                                       10 minutes

10h                                       10 heures

Partitionnement de la mémoire d'un GPU
Vous pouvez exécuter votre application dans une partition dédiée de la mémoire d'un GPU, et
d'autres applications peuvent utiliser la mémoire de GPU restante.

Les arguments de partitionnement de GPU sont des arguments facultatifs de la commande run.
Vous utilisez les arguments pour exécuter votre application uniquement dans une partition d'une
mémoire de GPU.

n     Le partitionnement de GPU est dynamique. Une partition est allouée avant l'exécution d'une
      application et désallouée après.

VMware, Inc.                                                                                         10
Guide de l'utilisateur de VMware vSphere Bitfusion

n    Les applications qui partagent les mêmes GPU sont isolées les unes des autres en utilisant
     des processus clients, des flux réseau, des processus de serveur et des partitions de
     mémoire distincts.

n    vSphere Bitfusion ne partitionne pas la ressource de calcul des GPU. Les applications sont en
     concurrence pour les ressources de calcul lorsque les mêmes cellules de calcul sont requises.
     Sinon, les applications s'exécutent simultanément.

La taille de la partition peut être spécifiée en Mo ou en tant que fraction de la mémoire GPU
totale.

Partitionnement de la capacité de la mémoire de GPU par fraction (nombre > 0,0 et
Guide de l'utilisateur de VMware vSphere Bitfusion

Dans l'exemple suivant, l'argument -p demande 33 % de la mémoire de chacun des deux GPU
demandés. Les GPU doivent résider physiquement sur le même serveur. Si les GPU sont des
périphériques de 16 Go ou si le plus petit GPU est un périphérique de 16 Go, une capacité
d'environ 5 461 Mo est allouée sur chaque GPU. Lorsqu'aucune autre application n'est en cours
d'exécution, asimov_i.py peut accéder à toute la puissance de calcul des deux GPU.

Exécutez bitfusion run -n 2 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=64

Vous pouvez exécuter simultanément plusieurs applications à partir d'un seul client sur le même
GPU.

Par exemple, pour démarrer deux instances d'application simultanées en arrière-plan, exécutez
les deux commandes suivantes.

1     bitfusion run -n 1 -p 0.66 -- python asimov_i.py --num_gpus=1 --batchsz=64 &

2     bitfusion run -n 1 -p 0.33 -- python asimov_i.py --num_gpus=1 --batchsz=32 &

Interface de gestion du système NVIDIA (nvidia-smi)
Vous pouvez exécuter l'application de surveillance de l'interface de gestion du système NVIDIA
nvidia-smi, notamment pour contrôler la taille de votre partition GPU ou vérifier les ressources
disponibles sur un serveur vSphere Bitfusion. L'application est fournie par le pilote NVIDIA.

Par exemple, pour demander une partition de 1 024 Mo sur un GPU, exécutez bitfusion run -n
1 -m 1024 -- nvidia-smi.

La sortie de l'application nvidia-smi affiche la valeur de partition demandée de 1024MiB.

    Requested resources:
    Server List: 172.16.31.241:56001
    Client idle timeout: 0 min
    Wed Sep 23 15:21:17 2020
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 440.100       Driver Version: 440.64.00    CUDA Version: 10.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU Name         Persistence-M| Bus-Id         Disp.A | Volatile Uncorr. ECC |
    | Fan Temp Perf Pwr:Usage/Cap|             Memory-Usage | GPU-Util Compute M. |
    |===============================+======================+======================|
    |   0 Tesla T4              Off | 00000000:13:00.0 Off |                     0 |
    | N/A   36C    P8     9W / 70W |        0MiB / 1024MiB |       0%      Default |
    +-------------------------------+----------------------+----------------------+

    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    | GPU        PID   Type   Process name                             Usage      |
    |=============================================================================|
    | No running processes found                                                  |
    +-----------------------------------------------------------------------------+

Démarrage d'applications avec des GPU réservés
Vous pouvez allouer plusieurs GPU et exécuter plusieurs applications sur les mêmes GPU.

VMware, Inc.                                                                                       12
Guide de l'utilisateur de VMware vSphere Bitfusion

Alors que la commande run alloue un GPU, exécute des applications et annule l'allocation de GPU
collectivement, vSphere Bitfusion possède trois commandes individuelles pour effectuer les
mêmes tâches. En utilisant les commandes individuelles, vous pouvez utiliser le même GPU pour
plusieurs applications et avoir un meilleur contrôle lorsque vous intégrez vSphere Bitfusion à
d'autres outils et workflows, tels que le logiciel de planification, SLURM.

n    Pour allouer des GPU, exécutez request_gpus.

n    Pour démarrer des applications dans un environnement pouvant accéder aux GPU lorsque
     l'application effectue des appels CUDA, exécutez client.

n    Pour annuler l'allocation des GPU, exécutez release_gpus.

     Note La commande request_gpus crée un fichier et des variables d'environnement qui
     peuvent être transmis à d'autres outils. Les outils peuvent exécuter la commande client
     avec la même configuration d'allocation.

Les arguments de la commande run sont répartis entre les commandes request_gpus et client.

Pour comprendre l'utilisation des commandes individuelles, reportez-vous à l'exemple de
workflow suivant qui utilise l'application IA asimov_i.py.

1    Pour allouer des GPU afin de démarrer plusieurs applications séquentielles, exécutez
     bitfusion request_gpus -n 1 -m 5461.

       Requested resources:
       Server List: 172.16.31.241:56001
       Client idle timeout: 0 min

2    Pour démarrer une application en exécutant la commande client, exécutez bitfusion
     client nvidia-smi.

       Wed Sep 23 15:26:02 2020
       +-----------------------------------------------------------------------------+
       | NVIDIA-SMI 440.100      Driver Version: 440.64.00    CUDA Version: 10.2     |
       |-------------------------------+----------------------+----------------------+
       | GPU Name         Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
       | Fan Temp Perf Pwr:Usage/Cap|            Memory-Usage | GPU-Util Compute M. |
       |===============================+======================+======================|
       |   0 Tesla T4             Off | 00000000:13:00.0 Off |                     0 |
       | N/A   36C    P8    10W / 70W |       0MiB / 5461MiB |       0%      Default |
       +-------------------------------+----------------------+----------------------+

       +-----------------------------------------------------------------------------+
       | Processes:                                                       GPU Memory |
       | GPU        PID   Type   Process name                             Usage      |
       |=============================================================================|
       | No running processes found                                                  |
       +-----------------------------------------------------------------------------
       +                                            |

VMware, Inc.                                                                                     13
Guide de l'utilisateur de VMware vSphere Bitfusion

3    Pour démarrer une autre application en exécutant la commande client, exécutez bitfusion
     client -- python asimov_i.py --num_gpus=1 --batchsz=64.

4    Pour annuler l'allocation des GPU, exécutez bitfusion release_gpus.

Démarrer et arrêter le service vSphere Bitfusion
Vous pouvez arrêter et démarrer vSphere Bitfusion pour apporter une modification de
configuration ou effectuer un débogage.

vSphere Bitfusion s'exécute en tant qu'application normale sur les serveurs et les clients vSphere
Bitfusion. Un service systemd démarre le logiciel du serveur vSphere Bitfusion lorsque le serveur
vSphere Bitfusion démarre. Pour arrêter, démarrer et redémarrer le service vSphere Bitfusion ou
vérifier le journal du service, vous devez accéder à un serveur vSphere Bitfusion en utilisant la
ligne de commande. Le fichier systemd se trouve dans /lib/systemd/system/bitfusion-
manager.service.

Note En général, les administrateurs et les utilisateurs ne sont pas en interaction avec le serveur
vSphere Bitfusion depuis l'interface de ligne de commande. L'interaction doit s'effectuer à l'aide
du plug-in vSphere Bitfusion.

Procédure

1    Ouvrez une application de terminal et exécutez ssh customer@ip_address.

     Vous pouvez obtenir l'adresse IP du serveur vSphere Bitfusion depuis le plug-in vSphere
     Bitfusion.

2    Entrez le mot de passe du client que vous avez spécifié lors du déploiement du dispositif
     OVA (Open Virtual Appliance) vSphere Bitfusion.

3    Démarrez, arrêtez ou surveillez le service vSphere Bitfusion.

     Vous pouvez utiliser l'alias bitfusion pour bitfusion-manager.service.

     Action                                          Commande de l'interface de ligne de commande

     Vérifier le service Bitfusion                   sudo systemctl status bitfusion

     Arrêter le service Bitfusion                    sudo systemctl stop bitfusion

     Démarrer le service Bitfusion                   sudo systemctl start bitfusion

     Redémarrer le service Bitfusion                 sudo systemctl restart bitfusion

     Vérifier le journal du service                  sudo journalctl -u bitfusion-manager.service
     Bitfusion
                                                     Note Vous ne pouvez pas utiliser d'alias.

VMware, Inc.                                                                                         14
Guide de l'utilisateur de VMware vSphere Bitfusion

Fichiers de configuration de vSphere Bitfusion
Après le démarrage d'une instance du serveur vSphere Bitfusion, vSphere Bitfusion crée et
maintient les fichiers de configuration servers.conf et bitfusion-Limits.conf sur les machines
virtuelles (VM) clientes. Les machines virtuelles clientes doivent être déployées sur des hôtes
ESXi faisant partie du même environnement vCenter Server que l'instance de serveur de vSphere
Bitfusion.

Fichier de configuration de serveurs
vSphere Bitfusion crée un fichier à haute priorité spécifique à l'utilisateur dans ~/.bitfusion/
Servers.conf. Vous pouvez également créer un fichier système /etc/bitfusion/servers.conf,
que vSphere Bitfusion utilise avec une priorité inférieure à celle du fichier spécifique à l'utilisateur.
Vous utilisez la commande cat pour afficher une liste de serveurs.

Pour comprendre l'utilisation de la commande, reportez-vous à l'exemple suivant.

cat ~/.bitfusion/servers.conf

Le fichier de configuration des serveurs répertorie les adresses IPv4 de tous les serveurs et ports
vSphere Bitfusion auxquels un client vSphere Bitfusion peut accéder. Le port 56001 par défaut
n'est pas répertorié.

    172.31.51.20
    172.31.51.26:56003
    172.31.51.42 56003

Vous pouvez exécuter la commande run avec une autre liste de serveurs vSphere Bitfusion qui
est un sous-ensemble de la liste de serveurs principale des serveurs GPU gérés par vSphere
Bitfusion dans le fichier ~/.bitfusion/servers.conf. Pour créer une liste de sous-ensemble de
serveurs vSphere Bitfusion, vous pouvez effectuer l'une des étapes suivantes. vSphere Bitfusion
prend uniquement en charge les adresses IPv4.

n     Vous pouvez utiliser --servers value, -s value et fournir un sous-ensemble de la liste de
      serveurs principale dans un fichier de votre choix. Vous devez modifier l'argument value avec
      un chemin d'accès au fichier servers.conf.

n     Vous pouvez utiliser --server_list value, -l value et fournir un sous-ensemble de la liste
      principale de serveurs dans la ligne de commande. Vous devez remplacer l'argument value
      par le format "ip_address:port;ip_address:port".

      Vous devez placer la liste entre guillemets, car un point-virgule est utilisé comme séparateur
      lorsque vous répertoriez plusieurs adresses et que l'interpréteur de ligne de commande peut
      analyser la liste comme plusieurs commandes.

Fichier de configuration de limites
Les limites suivantes s'appliquent aux membres du groupe vSphere Bitfusion. Tout utilisateur du
client vSphere Bitfusion doit être membre du groupe vSphere Bitfusion.

VMware, Inc.                                                                                            15
Guide de l'utilisateur de VMware vSphere Bitfusion

Le fichier de configuration bitfusion-limits.conf est installé sur le client vSphere Bitfusion
dans /etc/security/limits.d/bitfusion-limits.conf par le module client. Le fichier contient
les paramètres suivants, que vous pouvez afficher et appliquer à l'aide de l'utilitaire Linux
standard, ulimit.

n    Nombre maximal de fichiers ouverts

       @bitfusion soft nofile 100000
       @bitfusion hard nofile 100000

n    Espace d'adresses illimité en mémoire verrouillée

       @bitfusion soft memlock unlimited
       @bitfusion hard memlock unlimited

n    Taille maximale d'ensemble de résidents illimitée

       @bitfusion soft rss unlimited
       @bitfusion hard rss unlimited

Note Si la limite de ressources pour les fichiers ouverts est trop faible, vSphere Bitfusion peut
obtenir une erreur de connexion : Erreur d'impossibilité d'allocation mémoire. Pour
résoudre ce problème, définissez la limite de fichiers ouverts sur 4 096 ou sur une valeur plus
élevée en exécutant la commande ulimit -n 4096.

Référence des commandes vSphere Bitfusion
Cette section répertorie les commandes d'interface de ligne de commande vSphere Bitfusion
disponibles et leurs tâches. Des commandes d'interface de ligne de commande supplémentaires
peuvent être fournies par l'équipe du support VMware.

Allouer des GPU
Pour allouer plusieurs GPU pour une seule application, exécutez la commande run.

Pour allouer plusieurs GPU et démarrer une session, où vous pouvez exécuter plusieurs
applications sur les mêmes GPU, exécutez request_gpus.

Démarrer les applications dans l'environnement vSphere Bitfusion
accédant aux GPU
Pour démarrer une seule application, exécutez la commande run.

Pour démarrer plusieurs applications dans une session démarrée avec la commande
request_gpus, exécutez la commande client.

VMware, Inc.                                                                                        16
Guide de l'utilisateur de VMware vSphere Bitfusion

Annuler l'allocation des GPU
Pour annuler l'allocation des GPU dans une session démarrée avec la commande request_gpus,
exécutez la commande release_gpus.

Répertorier les GPU disponibles
Pour vérifier l'installation d'un serveur vSphere Bitfusion et trouver la liste des GPU disponibles,
exécutez la commande list_gpus.

    - server 0 [172.31.51.20:56001]: running 0 tasks
    |- GPU 0: free memory 12000 MiB / 12000 MiB
    |- GPU 1: free memory 12000 MiB / 12000 MiB
    |- GPU 2: free memory 12000 MiB / 12000 MiB
    |- GPU 3: free memory 12000 MiB / 12000 MiB
    - server 1 [172.31.51.26:56003]: running 0 tasks
    |- GPU 0: free memory 12000 MiB / 12000 MiB
    |- GPU 1: free memory 12000 MiB / 12000 MiB
    - server 2 [172.31.51.42:56003]: running 0 tasks
    |- GPU 0: free memory 12000 MiB / 12000 MiB
    |- GPU 1: free memory 12000 MiB / 12000 MiB

Exécuter un contrôle de santé
Vous pouvez accéder au contrôle de santé à partir de la ligne de commande.

n     Pour contrôler la santé de tous les serveurs vSphere Bitfusion et du client Bitfusion, exécutez
      bitfusion health.

n     Pour contrôler uniquement la santé du client vSphere Bitfusion, exécutez bitfusion
      localhealth.

Demander de l'aide
Pour obtenir la liste complète des commandes de l'interface de ligne de commande vSphere
Bitfusion ou plus d'informations sur une commande spécifique, exécutez la commande help.

    NAME:
        bitfusion - Run application with VMware Bitfusion

    USAGE:
       bitfusion   "application"
       bitfusion   -- [application]
       bitfusion help [command]

       For more information, system requirements, and advanced usage please visit docs.bitfusion.io

    COMMANDS:
            tls-certs, TC         Manage TLS certificates used by bitfusion server. Requires root privileges.
            version, v            Display full Bitfusion version
            localhealth, LH       Run health check on current node only
            dealloc               Deallocate license certificate. Requires root priviledges.
            crashreport           Send crash report to bitfusion

VMware, Inc.                                                                                                    17
Guide de l'utilisateur de VMware vSphere Bitfusion

         license          Check license status
         list_gpus        List the available GPUs in a shared pool
         initdb           Init database setup
         token            Fetch and manipulate tokens
         register         Register remote server as the plugin
         unregister       Unregister remote plugin
         removenode       Remove unavailable nodes
         user             Manage bitfusion users
         help, h          Shows a list of commands or help for one command
    Client Commands:
         client, c     Run application
         health, H     Run health check on all specified servers and current node
         request_gpus Request GPUs from a shared pool
         release_gpus Release GPUs back into a shared pool. Options must match a previous
 request_gpus command
         run           Request GPUs from a shared pool, run a client command, then release the GPUs
         stats         Gather stats from all servers.
         smi           Display smi-like info for all servers.
         local         Run a CUDA application locally
         net_perf      Gather network performance data from all SRS servers.
    Server Commands:
         server, s                Run dispatcher service - listens for 'bitfusion client' commands
         resource_scheduler, srs Run Bitfusion resource scheduler (SRS) on GPU server
         analytics                Run Bitfusion analytics server
         manager                  Run Bitfusion manager server

 EXAMPLES:
    $ sudo bitfusion init -l 

     $ bitfusion resource_scheduler --srs_port 50001

     $ bitfusion run -n 4 -- 

Vérifier la version de vSphere Bitfusion
Pour vérifier la version de vSphere Bitfusion installée, exécutez la commande version.

 Bitfusion version: 2.5.0 release

Afficher les informations GPU
Pour afficher les informations GPU, exécutez la commande smi. Pour obtenir une sortie similaire,
vous pouvez également démarrer l'application nvidia-smi avec la commande run.

 +----------------------------------------------------------------------------------------+
 | 172.16.31.243:56001                                           Driver Version: 440.64.00 |
 +--------------------------------------+-------------------------+-----------------------+
 | GPU Name               Persistence-M | Virt Mem     Alloc / All | BusId Vol Uncorr ECC |
 | Fan Temp Perf          Pwr:Usage/Cap | Phy Mem      Used / All | GPU-Util    Compute M. |
 |======================================+=========================+=======================|
 | 0    Tesla T4               Disabled | 0        MB / 15109   MB | 00000000:13:00.0    0 |
 | 0 %   36C P8              10W / 70W | 11        MB / 15109   MB |   0%          Default |
 +--------------------------------------+-------------------------+-----------------------+

VMware, Inc.                                                                                          18
Guide de l'utilisateur de VMware vSphere Bitfusion

 +----------------------------------------------------------------------------------------+
 | 172.16.31.241:56001                                                                    |
 +----------------------------------------------------------------------------------------+

Tester la bande passante
Pour tester la bande passante et la latence entre le client et les serveurs vSphere Bitfusion,
exécutez la commande net_perf.

Interface réseau unique

 Displayed results are calculated from round-trip measurements
 BW(1MB) = 1000/(LAT(1MB) - LAT(1B))

 [ ] ens160 => [10.202.8.169] net1 ( tcp) Single packet lat = 51 us, bw(1MB) = 1.71 GB/s
 [ ] ens160 => [10.202.8.185] net1 ( tcp) Single packet lat = 48 us, bw(1MB) = 1.09 GB/s
 [ ] ens160 => [10.202.8.233] net1 ( tcp) Single packet lat = 50 us, bw(1MB) = 0.87 GB/s

Interfaces réseau multiples

 Displayed results are calculated from round-trip measurements
 BW(1MB) = 1000/(LAT(1MB) - LAT(1B))

 [   ]   ens160 => [10.202.8.169] net1 ( tcp) Single packet lat = 51 us, bw(1MB) = 1.71 GB/s
 [   ]   ens160 => [10.202.8.185] net1 ( tcp) Single packet lat = 48 us, bw(1MB) = 1.09 GB/s
 [   ]   ens160 => [10.202.8.233] net1 ( tcp) Single packet lat = 50 us, bw(1MB) = 0.87 GB/s
 [   ]   ens192f0 => [10.202.8.169] net2 ( tcp) Single packet lat = 47 us, bw(1MB) = 2.14 GB/s
 [   ]   ens192f0 => [10.202.8.185] net2 ( tcp) Single packet lat = 49 us, bw(1MB) = 1.11 GB/s
 [   ]   ens192f0 => [10.202.8.233] net2 ( tcp) Single packet lat = 50 us, bw(1MB) = 1.15 GB/s
 [   ]   vmw_pvrdma0 => [10.202.8.169] vmw_pvrdma0 (infiniband) Single packet lat = 19 us, bw(1MB)
 =   3.66 GB/s   Single packet Write lat = 8 us, bw = 10.101 GB/s
 [   ]   vmw_pvrdma0 => [10.202.8.185] vmw_pvrdma0 (infiniband) Single packet lat = 21 us, bw(1MB)
 =   3.45 GB/s   Single packet Write lat = 8 us, bw = 10.5263 GB/s
 [   ]   vmw_pvrdma0 => [10.202.8.233] vmw_pvrdma0 (infiniband) Single packet lat = 21 us, bw(1MB)
 =   3.46 GB/s   Single packet Write lat = 8 us, bw = 10.4167 GB/s

VMware, Inc.                                                                                                 19
Gestion de vSphere Bitfusion avec
le plug-in vSphere Bitfusion                                                                4
Vous pouvez gérer, configurer et surveiller vSphere Bitfusion à l'aide du plug-in vSphere
Bitfusion.

Après le premier démarrage du serveur vSphere Bitfusion, ce dernier enregistre un plug-in dans
vCenter Server. Tous les serveurs et clients vSphere Bitfusion supplémentaires doivent être
activés pour rejoindre un cluster vSphere Bitfusion et pour utiliser le plug-in vSphere Bitfusion.

Le plug-in vSphere Bitfusion fournit une interface utilisateur graphique (GUI) dans le volet de
navigation principal et le menu déroulant de vCenter Server. L'interface utilisateur graphique
affiche les données suivantes.

n   Allocation GPU

n   Utilisation des ressources de mémoire et de calcul

n   Trafic réseau

n   Rapports de journalisation

n   Rapports de santé

Vous pouvez utiliser le plug-in pour gérer les limites d'allocation et les intervalles d'inactivité.
Vous pouvez également effectuer d'autres fonctions de gestion, telles que l'arrêt des connexions
clientes, la mise hors ligne normale des serveurs et la suppression d'hôtes du cluster vSphere
Bitfusion.

Ce chapitre contient les rubriques suivantes :

n   Ajout de serveurs vSphere Bitfusion supplémentaires

n   Supprimer un serveur vSphere Bitfusion

n   Désactiver ou supprimer un client vSphere Bitfusion

n   Afficher les journaux du serveur vSphere Bitfusion

n   Effectuer un contrôle de santé d'un serveur vSphere Bitfusion

n   Liste de contrôles de santé vSphere Bitfusion

n   Afficher les informations GPU d'un client vSphere Bitfusion

n   Afficher les informations GPU d'un serveur vSphere Bitfusion

n   Définir un intervalle d'actualisation d'affichage global

VMware, Inc.                                                                                         20
Guide de l'utilisateur de VMware vSphere Bitfusion

n    Modifier les paramètres d'un client vSphere Bitfusion

n    Modifier les paramètres d'un serveur vSphere Bitfusion

Ajout de serveurs vSphere Bitfusion supplémentaires
Vous pouvez ajouter des serveurs supplémentaires à votre cluster vSphere Bitfusion lorsque
vous avez besoin de plus de ressources GPU. Pour ajouter un nouveau serveur dans un cluster
de vSphere Bitfusion, vous déployez d'abord le dispositif vSphere Bitfusion sur une machine
virtuelle, activez le relais du GPU vers la machine virtuelle du serveur vSphere Bitfusion,
personnalisez le modèle OVF du dispositif vSphere Bitfusion et activez la machine virtuelle
comme serveur vSphere Bitfusion.

Après le démarrage du premier serveur vSphere Bitfusion, vSphere Bitfusion enregistre un plug-
in vSphere Client dans vCenter Server, ce qui établit un cluster vSphere Bitfusion unique
contenant un serveur vSphere Bitfusion. Pour ajouter un nouveau serveur à votre cluster, vous
devez effectuer les étapes répertoriées comme condition préalable et activer le serveur dans
vCenter Server avant de mettre la machine virtuelle sous tension. Les serveurs vSphere Bitfusion
supplémentaires doivent faire partie de la même instance de vCenter Server que le premier
serveur vSphere Bitfusion.

Conditions préalables

n    Vérifiez que tous les serveurs vSphere Bitfusion existants sont dans un état sain.

n    Vérifiez que vous avez déployé le dispositif vSphere Bitfusion.

n    Vérifiez que vous avez personnalisé le modèle OVF du dispositif vSphere Bitfusion.

n    Vérifiez que vous avez activé le relais des GPU vers la machine virtuelle vSphere Bitfusion.

Procédure

1    Dans la vue Hôtes et clusters dans vCenter Server, cliquez avec le bouton droit sur la
     machine virtuelle du serveur.

2    Sélectionnez Bitfusion > Activer Bitfusion.

3    Dans la boîte de dialogue Activation de Bitfusion, sélectionnez l'option Pour un serveur, cela
     lui permettra d'être utilisé comme serveur de GPU, puis cliquez sur Activer.

4    Mettez sous tension la machine virtuelle du serveur.

     Note Ne mettez pas sous tension la machine virtuelle avant de l'activer dans vCenter Server.
     Sinon, le nouveau serveur vSphere Bitfusion remplace le plug-in vSphere Client, ce qui élimine
     le cluster et crée un cluster.

Résultats

Lorsqu'un nouveau serveur vSphere Bitfusion rejoint le cluster, vCenter Server fournit un jeton,
un certificat et une configuration pour accéder au cluster vSphere Bitfusion.

VMware, Inc.                                                                                        21
Guide de l'utilisateur de VMware vSphere Bitfusion

Supprimer un serveur vSphere Bitfusion
Pour effectuer des opérations de dépannage ou de maintenance sur un serveur vSphere
Bitfusion, vous devez supprimer le serveur du cluster vSphere Bitfusion.

Lors de la mise hors tension d'un serveur vSphere Bitfusion pour maintenance ou pour effectuer
un dépannage, l'état de santé du cluster vSphere Bitfusion change. Lorsque le cluster n'est pas
dans un état sain, vous ne pouvez pas ajouter de nouveaux serveurs vSphere Bitfusion ni
effectuer d'opération de sauvegarde. Si la moitié des serveurs est mise hors tension, votre cluster
n'est pas opérationnel. Lors de la mise hors tension d'un serveur pour une durée plus longue,
vous pouvez éliminer tout risque potentiel en supprimant le serveur du cluster.

L'exécution de la procédure suivante supprime immédiatement le serveur du cluster vSphere
Bitfusion. Toutes les applications en cours d'exécution qui utilisent les GPU subissent
immédiatement une panne de GPU et renvoient généralement une condition d'erreur.

Conditions préalables

n    Empêchez les nouvelles connexions de clients au serveur spécifique dans les paramètres du
     serveur.

n    Vérifiez qu'aucune application n'est en cours d'exécution sur le serveur.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.

3    Dans le menu déroulant Actions, sélectionnez Supprimer.

Résultats

Vous avez supprimé le serveur sélectionné du cluster vSphere Bitfusion.

Étape suivante

Après la suppression du serveur vSphere Bitfusion, laissez la machine virtuelle fonctionner
pendant 10 minutes ou plus avant de la mettre hors tension. Pendant ce temps, le stockage de
sauvegarde se rééquilibre.

Note Une fois l'opération de suppression terminée, pour réutiliser le matériel sous-jacent en tant
que serveur vSphere Bitfusion, vous devez supprimer la machine virtuelle (VM) du serveur
vSphere Bitfusion et redéployer le dispositif du serveur vSphere Bitfusion.

Désactiver ou supprimer un client vSphere Bitfusion
Vous pouvez empêcher un client de démarrer de nouvelles tâches d'application ou empêcher
immédiatement le client d'accéder à tous les serveurs vSphere Bitfusion.

VMware, Inc.                                                                                     22
Guide de l'utilisateur de VMware vSphere Bitfusion

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Clients, sélectionnez un client dans la liste.

3    Désactivez ou supprimez un client vSphere Bitfusion.

     n    Dans le menu déroulant Actions, sélectionnez Désactiver.

          Cette option empêche le client de démarrer de nouvelles applications et permet aux
          applications en cours d'exécution de se terminer. Une fois le client désactivé, vous
          pouvez toujours afficher les données historiques du client et réactiver le client
          ultérieurement.

     n    Dans le menu déroulant Actions, sélectionnez Supprimer.

          Cette option empêche immédiatement le client d'accéder à tous les serveurs vSphere
          Bitfusion. Une fois le client supprimé, vous pouvez uniquement afficher les données
          historiques du client dans la base de données du serveur vSphere Bitfusion.

Afficher les journaux du serveur vSphere Bitfusion
Les journaux du serveur peuvent fournir des analyses utiles lors du dépannage d'un serveur
vSphere Bitfusion.

Pour examiner les problèmes potentiels liés à vSphere Bitfusion, vous pouvez consulter le journal
d'activité d'un serveur vSphere Bitfusion spécifique. Par exemple, vous pouvez consulter les
journaux pour identifier les problèmes d'empreinte numérique ou les problèmes de GUID vCenter
Server qui se sont produits lors du processus d'enregistrement du plug-in vSphere Bitfusion.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.

3    Dans le menu déroulant Actions, sélectionnez Journaux.

Effectuer un contrôle de santé d'un serveur vSphere
Bitfusion
Vous pouvez vérifier les performances, la stabilité, les ressources système et les versions
logicielles d'un serveur vSphere Bitfusion en effectuant un contrôle de santé.

Vous pouvez vérifier l'état de santé d'un serveur vSphere Bitfusion sélectionné et, si nécessaire,
effectuer un dépannage. Le contrôle de santé examine les performances, la stabilité, les
ressources système et les versions logicielles d'un serveur vSphere Bitfusion sélectionné et de
l'environnement vCenter Server immédiat du serveur. Chaque contrôle de santé peut renvoyer
un état réussite, marginal ou fatal.

VMware, Inc.                                                                                         23
Guide de l'utilisateur de VMware vSphere Bitfusion

Par exemple, le contrôle de santé vérifie que tous les nœuds sont en cours d'exécution, qu'il y a
suffisamment d'espace libre et que la connexion à vCenter Server est opérationelle. Pour afficher
la liste de tous les contrôles de santé disponibles, consultez Liste de contrôles de santé vSphere
Bitfusion.

Procédure

1     Dans vSphere Client, sélectionnez Menu > Bitfusion.

2     Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.

3     Dans le menu déroulant Actions, sélectionnez Santé.

      La boîte de dialogue Journaux de santé s'affiche et les résultats des contrôles de santé sont
      affichés. L'état, le type, le nom et les détails de la vérification s'affichent.

4     (Facultatif) Désactivez un contrôle de santé spécifique en cliquant sur le bouton bascule.

      Le contrôle de santé désactivé est toujours effectué en arrière-plan, mais l'état du contrôle ne
      modifie pas l'état de santé global du serveur dans l'onglet Serveurs.

5     Cliquez sur Enregistrer et quitter.

Étape suivante

n     Afficher les journaux du serveur vSphere Bitfusion

n     Sauvegarder un cluster vSphere Bitfusion

Liste de contrôles de santé vSphere Bitfusion
vSphere Bitfusion effectue les contrôles suivants lorsqu'un contrôle de santé d'un serveur est
lancé à partir du plug-in vSphere Bitfusion.

Liste de contrôles de santé
Nom                  Type                     Description

cass_buckets         Stabilité                Valide les compartiments utilisés par Cassandra pour stocker les données
                                              d'utilisation et d'autres éléments.

cass_node_num        Stabilité                Confirme que Cassandra et Bitfusion voient le même nombre de serveurs dans
                                              le cluster.

cass_nodetool        Stabilité                Confirme que Cassandra détecte que le cluster est dans un état sain.

cass_replication     Stabilité                Confirme le facteur de réplication.

compute_mode         Stabilité                Confirme que le mode de calcul des GPU est défini de manière appropriée.

network              Stabilité                Vérifie s'il existe des paquets abandonnés sur le réseau.

ecc                  Stabilité                Vérifie s'il existe des erreurs ECC sur les GPU.

gpu_api              Stabilité                Confirme que les API GPU correspondent.

pci_nvml             Stabilité                Confirme que tous les GPU peuvent être énumérés.

pci_p2p              Stabilité                Vérifie que PCIe P2P est pris en charge.

VMware, Inc.                                                                                                             24
Guide de l'utilisateur de VMware vSphere Bitfusion

Nom                  Type                     Description

temperature          Stabilité                Vérifie que la température des GPU est inférieure à 100 degrés Celsius.

vcenter_check        Stabilité                Vérifie que le serveur peut se connecter à vCenter Server.

xid                  Stabilité                Vérifie s'il existe des échecs de GPU Xid.

bogomips             Performances             Valide les performances. La mesure est utilisée par le noyau Linux.

hostmem              Performances             Vérifie qu'il y a suffisamment de mémoire d'hôte sur le système.

iface_compat         Performances             Vérifie que la configuration réseau est valide.

memops               Performances             Vérifiez que memops est activé pour les GPU.

mtu                  Performances             Vérifie que les trames jumbo sont activées pour le réseau.

nvidia_stats         Performances             Valide les statistiques des GPU.

nvidia_topo          Performances             Valide la topologie d'hôte.

pci_width            Performances             Vérifie que les GPU utilisent la capacité maximale de la voie PCIe.

ulimit_n             Performances             Vérifie que la limite maximale des descripteurs de fichiers est appropriée.

diskspace            Ressource système        Confirme l'espace libre sur le serveur.

install              Ressource système        Valide l'installation de Bitfusion.

pciinfo              Ressource système        Valide la configuration PCI.

shadow_mem           Ressource système        Vérifie qu'il y a au moins la même quantité de mémoire système que la mémoire
                                              tampon de trame sur les GPU.

cuda_version         Version du logiciel      Vérifie la version de CUDA.

libdep               Version du logiciel      Vérifie que les dépendances logicielles pour Bitfusion sont installées.

driver_version       Version du logiciel      Vérifie la version du pilote NVIDIA.

Afficher les informations GPU d'un client vSphere Bitfusion
Vous pouvez afficher le nombre de GPU, alloués entièrement et partiellement pour un client
vSphere Bitfusion spécifique. En outre, le modèle de GPU et la mémoire allouée sont affichés.

Pour afficher les informations GPU associées à un serveur spécifique, consultez Afficher les
informations GPU d'un serveur vSphere Bitfusion.

Procédure

1     Dans vSphere Client, sélectionnez Menu > Bitfusion.

2     Dans l'onglet Clients, sélectionnez un client dans la liste.

3     Dans le menu déroulant Actions, sélectionnez GPU.

VMware, Inc.                                                                                                                25
Guide de l'utilisateur de VMware vSphere Bitfusion

Afficher les informations GPU d'un serveur vSphere
Bitfusion
Vous pouvez afficher les informations associées au GPU, telles que la version du pilote, la taille
de la partition et les ressources disponibles pour vos serveurs vSphere Bitfusion.

Les informations affichées sont semblables à la sortie de l'application nvidia-smi. Par exemple,
vous pouvez afficher la température de GPU, la vitesse du ventilateur, les processus en cours
d'exécution et les ressources disponibles sur un serveur vSphere Bitfusion.

Si vous souhaitez afficher les GPU alloués et partiels pour un client vSphere Bitfusion spécifique,
consultez Afficher les informations GPU d'un client vSphere Bitfusion.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.

3    Dans le menu déroulant Actions, sélectionnez GPU.

Définir un intervalle d'actualisation d'affichage global
Vous pouvez configurer le plug-in vSphere Bitfusion pour actualiser régulièrement les données
qu'il affiche pour les clusters, les serveurs et les clients.

L'intervalle d'actualisation contrôle la fréquence à laquelle le plug-in vSphere Bitfusion actualise
les informations affichées. Vous pouvez également désactiver l'actualisation automatique dans
l'interface utilisateur graphique et appuyer manuellement sur le bouton Actualiser ou accéder à
un nouvel onglet.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Paramètres, cliquez sur Paramètres d'application.

3    Définissez un intervalle d'actualisation global.

     a    Cochez la case Activer l'actualisation.

     b    Entrez un Intervalle d'actualisation.

          La valeur est indiquée en secondes.

4    Cliquez sur Enregistrer.

Modifier les paramètres d'un client vSphere Bitfusion
Vous pouvez modifier les paramètres spécifiques au client à partir du plug-in vSphere Bitfusion,
comme le quota de GPU actuel, la déconnexion automatique et l'intervalle d'inactivité d'arrêt
automatique.

VMware, Inc.                                                                                           26
Guide de l'utilisateur de VMware vSphere Bitfusion

La procédure suivante modifie uniquement les paramètres d'un client vSphere Bitfusion
spécifique. Vous pouvez modifier les paramètres globaux de tous les clients vSphere Bitfusion
dans l'onglet Paramètres > Valeurs par défaut globales des clients.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Clients, sélectionnez un client dans la liste.

3    Dans le menu déroulant Actions, sélectionnez Paramètres.

4    Modifiez un ou plusieurs paramètres de client si nécessaire.

     n    Entrez un Quota de GPU actuel.

          Le quota est le nombre maximal de GPU qu'un client vSphere Bitfusion peut allouer à
          toutes les applications clientes. Vous pouvez utiliser des valeurs non entières. Par
          exemple, un quota de 3,5 permet à un client d'exécuter simultanément une application sur
          deux GPU et une deuxième application sur 3 GPU de demi-taille. La valeur par défaut de
          64 est suffisante pour s'approcher d'un quota illimité.

     n    Cochez la case Déconnecter automatiquement les GPU inactifs et entrez un intervalle
          d'inactivité en minutes.

          Cette option permet à vSphere Bitfusion de désallouer les GPU clients et de renvoyer les
          GPU dans le pool si l'intervalle d'inactivité d'arrêt automatique est atteint.

     n    Pour utiliser les paramètres globaux de client pour ce client vSphere Bitfusion, cliquez sur
          Correspondance des valeurs par défaut.

5    Cliquez sur Enregistrer.

Modifier les paramètres d'un serveur vSphere Bitfusion
Vous pouvez modifier les paramètres spécifiques au serveur à partir du plug-in vSphere Bitfusion,
par exemple autoriser les nouvelles connexions clientes et entrer un intervalle de mesures.

La procédure suivante modifie uniquement les paramètres d'un serveur vSphere Bitfusion
spécifique. Pour modifier les paramètres globaux de tous les serveurs vSphere Bitfusion dans
l'onglet Paramètres > Valeurs par défaut globales de serveur.

Procédure

1    Dans vSphere Client, sélectionnez Menu > Bitfusion.

2    Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.

3    Dans le menu déroulant Actions, sélectionnez Paramètres.

4    Modifiez un ou plusieurs paramètres de serveur si nécessaire.

     n    Cochez ou décochez la case Autoriser les nouvelles connexions client.

VMware, Inc.                                                                                         27
Vous pouvez aussi lire