UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND - PRODUIT PAR TABOR CUSTOM PUBLISHING AVEC
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND PRODUIT PAR TABOR CUSTOM PUBLISHING AVEC : POUR LE COMPTE DE :
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND IMPACT SOCIÉTAL DE L'INTELLIGENCE ARTIFICIELLE Appareils photos, smartphones, voitures : nous sommes ▷▷ Baidu : un système de reconnaissance vocale développé entourés de milliards de capteurs qui créent d'énormes par Baidu et baptisé Deep Speech 2 reconnaît sans volumes de données, sans compter les données utilisées difficulté l'anglais ou le mandarin et peut, dans certains par les entreprises, établissements éducatifs et autres cas, traduire avec plus d'exactitude qu'un être humain. organisations. À l'ère du Big Data, l'intelligence artificielle (IA), l'apprentissage machine et l'apprentissage profond ▷▷ Facebook : les logiciels DeepMask et SharpMask permettent de tirer de ces quantités massives de données un de Facebook, utilisés avec les réseaux neuronaux niveau de connaissances sans précédent. MultiPathNet, permettent de comprendre une image à partir de chacun de ses pixels. Lors du gala 2017 de l'Internet Association qui s'est tenu à Washington, D.C., Jeff Bezos, PDG d'Amazon, a évoqué ▷▷ Google (Alphabet) : le PDG de Google, Sundar Pichai en ces termes les possibilités offertes par l'intelligence signale que lorsqu'un utilisateur se sert de Google Maps, artificielle et l'apprentissage machine : « C'est une nouvelle Google StreetView reconnaît automatiquement, grâce à Renaissance, un nouvel Âge d'or ». « L'apprentissage machine l'IA, les panneaux de rue ou les enseignes d'entreprises et l'intelligence artificielle nous permettent de trouver qui permettent d'identifier le lieu. des solutions à des problèmes qui, pendant des dizaines d'années, relevaient de la science-fiction. Compréhension du ▷▷ Microsoft : le système d'IA de Microsoft utilise dans langage naturel, vision par ordinateur, c'est impressionnant, PowerPoint un système de vision cognitif qui permet comme une nouvelle Renaissance. » L'apprentissage machine d'analyser des photos et de générer automatiquement et l'IA constituent une couche horizontale habilitante. Ils du texte alternatif ou de proposer des schémas illustrant ouvrent des possibilités immenses à chaque entreprise, l'opération. chaque organisme officiel, chaque organisation caritative. Au ▷▷ NVIDIA : NVIDIA DRIVE™ PX, une plate-forme de calcul fond, il n'existe pas une institution au monde qui ne puisse ouverte pour les systèmes IA automobiles, permet aux tirer profit de l'apprentissage machine. » constructeurs et à leurs fournisseurs directs d’accélérer Différentes entreprises technologiques, comme Amazon, la production des véhicules automatisés et autonomes. Apple, Baidu, Facebook, Google (Alphabet), Microsoft et NVIDIA, ont mis en place des équipes dédiées à des projets d'IA dans des domaines divers : reconnaissance des images, L'IMPORTANCE DE L'IA compréhension du langage naturel, recherches visuelles, robotique, véhicules autonomes ou synthèse vocale. Voici Une enquête menée par Forrester et intitulée « Artificial quelques exemples de projets innovants menés par ces Intelligence: What’s Possible for Enterprises in 2017 » entreprises dans le domaine de l'IA, l'apprentissage machine (Intelligence artificielle : quelles possibilités pour les ou l'apprentissage profond : entreprises en 2017) montre que l'IA est désormais une réalité et qu'un nombre croissant d'organisations, de ▷▷ Amazon : Amazon utilise l'IA et des algorithmes chercheurs et d'établissements éducatifs s'y intéressent. d'apprentissage complexes qui analysent en continu D'après cette enquête, « seulement 12 % des 391 entreprises la dynamique du marché pour identifier les produits et professionnels des technologies interrogés utilisent recommandés et sélectionner ceux qui doivent figurer actuellement un système d'IA. En revanche, 58 % d'entre eux dans la Buy Box Amazon. étudient les technologies d'IA et les moyens à déployer pour ▷▷ Apple : Siri, l'assistant virtuel d'Apple présent sur pouvoir les utiliser dans leur entreprise, et 39 % sont passés les iPhones et d'autres équipements Apple, utilise à l'identification et à la conception de ces capacités. Ce l'apprentissage profond pour effectuer des recherches rapport, publié en novembre 2016, concluait également que et apporter des réponses pertinentes à l'utilisateur via 36 % des personnes interrogées sensibilisaient leur entreprise une interface vocale. au potentiel offert par l'IA ou préparaient une analyse de rentabilité sur le sujet. » TABOR CUSTOM PUBLISHING 2
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND LE BIG BANG DE L'INTELLIGENCE ARTIFICIELLE L'émergence de l'IA date de ce que l'on a appelé Big Bang de sur investissement lié à l'exposition de leurs logos pendant l'IA, la rencontre frontale de trois technologies déterminantes, l'événement. Ce processus manuel peut prendre jusqu'à les algorithmes d'apprentissage profond, le traitement parallèle six semaines, tandis que la réorientation des dépenses de basé sur des processeurs graphiques (GPU) et le Big Data. marketing peut demander un trimestre entier. APPRENTISSAGE PROFOND : Le logiciel SAP Brand Impact utilise des réseaux de neurones profonds entraînés sur un système NVIDIA DGX-1. L'analyse UN NOUVEAU MODÈLE INFORMATIQUE par apprentissage profond de SAPi renvoie instantanément des chiffres précis sur la visibilité des logos dans la vidéo. Avec QUI DÉVELOPPE SON PROPRE LOGICIEL le logiciel SAP, des résultats vérifiables sont disponibles en un jour. La Figure 1 montre un exemple d'analyse d'une vidéo. Jusqu'à présent, les programmes étaient conçus pour traiter les données de façon séquentielle selon les instructions contenues dans du code spécifique. Avec l'apprentissage profond, les systèmes informatiques analysent les données pour en tirer des informations utiles et des prévisions. L'apprentissage machine renvoie à tout programme informatique capable d'apprendre seul, sans être programmé par un humain. L'apprentissage profond (en anglais deep learning, deep structured learning ou hierarchical learning) est un élément de l'apprentissage machine utilisant des réseaux neuronaux artificiels. Certains systèmes d'apprentissage profond sont entièrement ou partiellement supervisés, d'autres ne le sont pas du tout. Figure 1. SAP Brand Impact — identification des logos de la marque en quasi-temps réel. (Source : SAP). L'IA À L'ŒUVRE POUR MESURER GPU : UNE NOUVELLE GÉNÉRATION DE L'IMPACT DES MARQUES PROCESSEURS PARALLÈLES Avec le produit SAP Brand Impact, l'apprentissage Les nouvelles capacités de calcul reposent généralement profond est utilisé pour analyser la visibilité des sur des processeurs (CPU) ou des processeurs graphiques marques d'une entreprise. L'application SAP a été (GPU) multi-cœurs. Il n'est pas rare qu'un processeur compte exposée à des milliers d'images ou de vidéos, et jusqu'à 20 cœurs et qu'un processeur graphique comporte entraînée à reconnaître les logos et autre identifiants de des milliers de cœurs, comme illustré sur la Figure 2. CPU marques sur les images, sans que le logiciel soit et GPU sont des processeurs parallèles capables de traiter en formellement programmé. De nombreuses marques parallèle plusieurs tâches simultanées. financent des événements télévisés et recourent généralement à un processus manuel pour évaluer le retour TABOR CUSTOM PUBLISHING 3
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND En 1997, NVIDIA a été l'un des pionniers de l'informatique pétrole. Et le volume de données continue de croître. Selon le accélérée par GPU, un nouveau modèle informatique qui rapport IDC The Digital Universe in 2020 (L'univers numérique accélère les charges de travail massivement parallèles. Cette en 2020), « l'univers numérique représente l'ensemble des méthode permet de transférer au processeur graphique données nouvellement créées, notamment les vidéos en certains éléments de calcul intensif de l'application, le restant streaming et les données numériques enregistrées, dont le du code étant toujours exécuté sur un processeur classique. volume augmente à un rythme incroyable. Leur taille double Basé sur NVIDIA Volta™, la dernière architecture GPU de tous les deux ans : alors qu'elle était de 4,4 zettaoctets en NVIDIA, le Tesla® V100 délivre au sein d’un seul GPU des 2013, elle devrait dépasser les 50 zettaoctets en 2020. » performances équivalent à celles de 100 CPU. La technologie d'apprentissage profond et les réseaux neuronaux ne sont pas nouveaux. Mais alors, pourquoi Aujourd'hui, on utilise aussi bien des GPU que des CPU l'apprentissage profond a-t-il pris une telle ampleur, et quel multi-cœurs pour accélérer les applications d'apprentissage est l'intérêt du Big Data ? Andrew Ng, éminent spécialiste profond, d'analyse et d'ingénierie : les spécialistes des de l'IA, a décrit l'évolution du Big Data et de l'apprentissage données, les chercheurs et les ingénieurs peuvent désormais profond lors de la Conférence Spark 2016ii. Il a montré que relever des défis auparavant irréalisables. Les nouveaux si l'on prend un algorithme d'apprentissage classique, par algorithmes d'apprentissage profond s'appuient sur des exemple pour une analyse de régression logistique, et qu'on réseaux neuronaux massivement parallèles inspirés du l'alimente avec davantage de données, les performances du cerveau humain. Ce ne sont plus des spécialistes qui système cessent d'augmenter à partir d'un certain seuil. En programment des logiciels, mais le modèle d'apprentissage effet, l'algorithme n'a plus la capacité de tirer de nouvelles profond qui écrit son propre code en apprenant à partir de informations de ces données supplémentaires. Mais selon nombreux exemples. Pour des tâches courantes comme le lui, les réseaux neuronaux profonds ne présentent pas cette traitement des images, des vidéos ou du texte, il atteint une limite. Plus l'entraînement du réseau neuronal se fait sur un précision supérieure à celle des humains. volume important de données, plus sa précision augmente, La figure 2 donne un exemple d'association entre calcul comme le montre la figure 3. Si l'apprentissage profond parallèle et nouveaux algorithmes d'apprentissage profond connaît une telle expansion, c'est grâce à des algorithmes massivement parallèles, et du taux de précision (supérieur à innovants, aux bonds de performances obtenus avec les celui d'un être humain) obtenu pour l'identification d'images. systèmes à GPU et à la croissance constante du Big Data. BIG DATA Figure 2. Le Big Bang de l'intelligence artificielle, alimenté par le calcul parallèle, les nouveaux Figure 3. Les performances de l'apprentissage profond augmentent avec le volume de algorithmes et le Big Data. Avec l'aimable autorisation de Pure Storage. données. (Source : Andrew Ng). Les données constituent la ressource la plus importante d'une entreprise. En Mai 2017, The Economist affirmait même qu'elles étaient désormais plus précieuses que le TABOR CUSTOM PUBLISHING 4
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND DES SOLUTIONS DE STOCKAGE CLASSIQUES INCOMPATIBLES AVEC L'APPRENTISSAGE PROFOND L'APPRENTISSAGE PROFOND AU PROFIT Si le calcul parallèle et les algorithmes ont connu des progrès importants, les technologies de stockage et de transfert du DES ENTREPRISES Big Data s'appuient essentiellement sur des technologies héritées conçues à l'époque du traitement en série. Seul un nouveau type de système de stockage peut fournir les volumes massifs de données nécessaires à ces nouveaux Les entreprises et les établissements qui ont déjà investi dans modèles informatiques. l'IA ou l'apprentissage profond en tirent d'ores et déjà des En quelques années à peine, la capacité de calcul exigée par bénéfices : l'apprentissage profond et la capacité de calcul des GPU ont Enquête Forrester : 25 % des personnes interrogées notent été multipliées par plus de dix. En revanche, dans le même un renforcement de l'efficacité des processus métier, 24 % temps, les disques et les SSD n'ont pas vu leurs performances une amélioration de la satisfaction des clients et 18 % des augmenter. Alors que le volume des données non structurées économies de coûts. explose, les systèmes de stockage hérités ont du mal à répondre aux besoins en performances des nouveaux outils Établissement de soins : le déploiement d'un système du Big Data. d'analyse prédictive agile a permis de découvrir que 70 % Aujourd'hui, la plupart des déploiements s'appuient sur un des ressources étaient consommées par 10 % des salariés stockage en attachement direct (DAS) ou sur un stockage couverts, en raison de maladies chroniques et de problèmes distribué en attachement direct (DDAS), où les jeux de de gestion des soins. données sont répartis sur les différents disques de chaque Datacenter : l'outil d'IA DeepMind réduit de 40 % les dépenses serveur. Les DDAS ont permis aux spécialistes des données consacrées au refroidissement des datacenters. d'effectuer leurs analyses sur des systèmes/composants standard basiques, par exemple des processeurs X86 et des Réduction du coût des tests sur des puces d'ordinateur : un disques durs standard, mais cette façon de faire comporte des gros fabricant de puces a pu économiser 3 millions de dollars risques. Lorsque les technologies modernes d'analyse ont été sur ses coûts de fabrication grâce à l'analyse prédictive mises au point, il n'existait pas de plate-forme de stockage appliquée aux tests. qui soit capable d'accueillir de tels volumes de données, et Apprentissage machine sur le Tour de France : en 2017, le assez rapide pour garantir aux logiciels d'analyse du Big Data Tour de France a eu recours à l'apprentissage machine pour un débit suffisant. effectuer des prévisions et rassembler les données historiques L'analyse moderne a pour objectif d'analyser les données et et celles recueillies lors de la compétition 2017, afin de d'en extraire des renseignements utiles. Mais ces données, qui proposer des informations toujours plus détaillées. proviennent notamment des fichiers journaux et des appareils Pour un réseau électrique intelligent : des recherches IoT (Internet de Objets), sont souvent non structurées. Or, conduites par l'institut McKinsey Global Institute ont abouti à les anciens systèmes ne sont pas adaptés à l'analyse de la conclusion que l'IA pouvait rendre le réseau électrique plus données semi-structurées et non structurées souvent utilisées intelligent grâce à des capteurs et à l'apprentissage machine, par l'intelligence artificielle et l'apprentissage profond, et qui permettraient des réglages en temps réel augmentant ils risquent de ne fonctionner qu'avec des données très l'efficacité du système de génération d'électricité. normalisées. Voilà pourquoi les systèmes de stockage hérités constituent désormais le principal frein pour les applications : Renforcer l'efficacité des travailleurs : Dans certaines usines, les performances sont ralenties par des technologies de la plate-forme Skylight d'UpSkill et ses lunettes de réalité traitement en série vieilles de plusieurs dizaines d'années, augmentée permettent aux travailleurs d'accéder aux dans une pile inadaptée aux données non structurées. Si les informations qui leur sont nécessaires pour accomplir leurs données doivent représenter la nouvelle devise de la quatrième tâches plus efficacement et réduire les risques d'erreur. révolution industrielle, pourquoi l'industrie du stockage L'efficacité des travailleurs a augmenté en moyenne de 32 %. reste-t-elle bloquée à l'époque du traitement en série ? TABOR CUSTOM PUBLISHING 5
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND FLASHBLADE, UNE PLATE-FORME CONÇUE POUR L'APPRENTISSAGE PROFOND À l'ère du Big Data, les applications font appel à des batteries peuvent être adaptées aux besoins du client. Cette imposantes composées de puissants serveurs et à des élasticité est due à la conception massivement parallèle de réseaux extrêmement rapides pour accéder à des pétaoctets l'architecture, depuis le logiciel jusqu'à la mémoire flash. de données à analyser ou à utiliser pour la découverte Enfin, grâce à un modèle économique Evergreen™ original, les scientifique ou le rendu cinéma. Ces nouvelles applications clients n'ont pas à racheter de la capacité dont ils disposent exigent un stockage rapide et performant, incompatible avec déjà, et ils peuvent mettre à niveau les technologies à mesure les solutions héritées. qu'elles évoluent sans interrompre le service, diminuer les performances ou porter atteinte à l'intégrité des données. Un Ce qu'il faut, c'est une architecture de stockage nouvelle et exemple de châssis FlashBlade est illustré à la Figure 4. innovante, capable de prendre en charge des applications sophistiquées, de garantir les meilleures performances sur tous les aspects de la concurrence (nombre d'opérations d'E/S par seconde, débit, latence et capacité) et d'offrir un niveau de densité inédit. Une solution remplit toutes ces conditions : c'est FlashBlade™, la nouvelle plate-forme de stockage 100 % flash de Pure Storage®. FlashBlade peut prendre en charge les applications d'analyse du Big Data et les charges de travail concurrentes dont découleront les découvertes, les connaissances et les créations de demain. PURE STORAGE Depuis quatre ans, Gartner classe Pure Storage parmi les Leaders de son Magic Quadrant de la catégorie baies de Figure 4. Châssis FlashBlade : 1,6 pétaoctet dans 4U. Avec l'aimable autorisation stockage flash, en raison des innovations de l'entreprise de Pure Storage. dans le domaine de stockage de données 100 % flash. Depuis qu'elle a dévoilé sa plate-forme de stockage évolutif FlashBlade, Pure Storage a nettement augmenté la fourniture de solutions de stockage pour des domaines aussi divers que l'analyse en temps réel et l'analyse du Big Data, l'analyse financière et la fabrication. L'architecture FlashBlade est conçue de A à Z pour les applications d'analyse modernes : elle garantit des performances élevées et des économies de coût, et c'est une solution de stockage évolutive, simple à gérer et à utiliser, qui peut accueillir des pétaoctets de données opérationnelles. Elle est spécialement destinée aux supports flash. En revanche, rien n'est prévu pour les disques mécaniques. FlashBlade est spécifiquement dimensionnée pour les charges de travail massivement parallèles indispensables aux opérations d'apprentissage profond. Elle a pour principale caractéristique de fournir des performances élastiques à l'échelle souhaitée : les performances, la capacité, la connectivité et la fonctionnalité TABOR CUSTOM PUBLISHING 6
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND UN DÉBIT DE DONNÉES ADAPTÉ À L'INTELLIGENCE ARTIFICIELLE Le plus souvent, les systèmes d'apprentissage profond seconde sous AlexNet avec le Framework Microsoft CNTK. utilisent essentiellement des fichiers de petite taille pour Le modèle d'entraînement utilise des petits fichiers en accès alimenter les ordinateurs en cours d'apprentissage. Dans aléatoire, que les anciens systèmes sont incapables de l'exemple illustré à la Figure 5, la tâche d'apprentissage traiter efficacement. Ici, une plate-forme FlashBlade peut profond s'exécute sur des serveurs NVIDIA DGX-1 et sur la assurer un débit suffisant pour garantir des performances plate-forme de stockage de données FlashBlade. Dans cet d'apprentissage optimales sur l'ensemble des systèmes exemple, chaque serveur DGX-1 traite 13 000 images par DGX-1. Figure 5. Exemple de configuration de FlashBlade pour le débit requis par l'IA. Avec l'aimable autorisation de Pure Storage. TABOR CUSTOM PUBLISHING 7
DATANAMI : UNE PLATE-FORME DE DONNÉES MODERNE POUR ACCÉLÉRER L'APPRENTISSAGE PROFOND RÉSUMÉ Les données se multiplient à un rythme phénoménal et FlashBlade, l'infrastructure de stockage 100 % flash de Pure devraient poursuivre sur cette lancée. De nouvelles techniques Storage, répond à ces exigences. Plus le volume de données de traitement des données, notamment l'intelligence est important, plus les performances de FlashBlade sont artificielle, l'apprentissage machine et l'apprentissage élevées. Quelle que soit la taille des fichiers, FlashBlade profond, permettent à des applications spécialement conçues assure une évolutivité véritablement linéaire de la capacité non seulement d'analyser ces données, mais d'apprendre de et des performances. C'est ce qui explique qu'elle soit aussi ces analyses et d'effectuer des prévisions. bien adaptée aux applications d'analyse modernes pour l'IA et l'apprentissage profond. Le traitement parallèle des données nécessite des systèmes informatiques composés de processeurs et de processeurs « Les environnements informatiques modernes ont engendré graphiques multicœurs, ainsi que de réseaux extrêmement des outils d'analyse de plus en plus complexes et performants, rapides. Or les solutions de stockage héritées reposent sur ainsi que de précieuses données », a déclaré Par Botes, VP des architectures vieilles de plusieurs dizaines d'années, Engineering chez Pure Storage. « Avec FlashBlade, notre peu évolutives et inadaptées au calcul parallèle massif mission est d'accélérer le Big Data, grâce à une plate-forme exigé par l'apprentissage machine. Comme ces stockages 100 % flash, à forte capacité, rapide et simple à déployer – et hérités ralentissent le traitement du Big Data, une nouvelle qui apporte de la valeur, quel que soit le secteur, quel que soit technologie de stockage s'impose, qui soit capable d'assurer le segment. » à l'analyse des données des performances suffisantes. À PROPOS DE PURE STORAGE Pure Storage iii(NYSE : PSTG) aide les entreprises à repousser transformation opérationnelle et informatique avec des les limites du possible. Composée de FlashArray, FlashBlade solutions intelligentes, conviviales, efficaces et Evergreen. et FlashStack, une solution convergente proposée en Le NPS (Net Promoter Score) de 83,5 certifié par Satmetrix collaboration avec Cisco, la plate-forme de données de bout assure les clients de Pure Storage, des entreprises de toutes en bout de Pure repose sur des logiciels innovants connectés tailles et de secteurs d'activité de plus en plus divers, d'une au cloud qui permettent de la gérer depuis n'importe où sur satisfaction complète. un appareil mobile. Elle bénéficie en outre du modèle de possession Evergreen. La technologie 100 % flash de Pure, alliée à un modèle économique axé sur le client, facilite la i NVIDIA and SAP Partner to Create a New Wave of AI Business Applications, https://blogs.nvidia.com/ blog/2017/05/10/nvidia-sap-partner/. ii AI: The New Electricity, Andrew Ng, Spark 2016 Summit, https://www.youtube.com/watch?v=4eJhcxfYR4I. iii Pure Storage, FlashBlade and the “P” logo are trademarks or registered trademarks of Pure Storage in the U.S. and other countries. All other trademarks are the property of their respective owners. TABOR CUSTOM PUBLISHING 8
Vous pouvez aussi lire