HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris

La page est créée Joël Devaux
 
CONTINUER À LIRE
HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
HADOOP,
MAP REDUCE...
RETOUR SUR 10 ANS
  D’INNOVATIONS
 TECHNOLOGIQUES
HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
HADOOP,
                                                             MAPREDUCE…

HADOOP,                                          UNE SI COURTE
MAPREDUCE…
RETOUR SUR CES
                                                 HISTOIRE…
TECHNOLOGIES
                                                     La fondation Apache commence à
QUI ONT CHANGÉ                           DÉBUT
                                          2000
                                                 travailler sur Lucene, outil d’indexation de
                                                 textes supposé créer une bibliothèque open
LE VISAGE DE                                     source à échelle mondiale.

L’ANALYTIQUE                                         Le besoin de créer un nouveau moteur
                                                 de recherche de grande échelle se fait sentir

HADOOP, MAPREDUCE, YARN, SPARK…
                                         2002    pour collecter des données de divers
                                                 contenus pdf, html, word, etc… : c’est le
                                                 projet Nutch de la fondation Apache.
SI CES NOMS N’ÉVOQUENT RIEN AU
NÉOPHYTE, ILS RASSEMBLENT À LEUR
SEULE ÉVOCATION TOUS LES FANTASMES                   Jeffrey Dean et Sanjay Ghemawat,
                                                 employés chez Google, créent l’algorithme
D’UNE DÉCENNIE SUR LE TRAITEMENT
                                         2004    MapReduce pour paralléliser les traitements de
GÉNÉRALISÉ DES BIG DATA. LEUR HISTOIRE           grands volumes de données sur plusieurs ser-
                                                 veurs. MapReduce fonctionne alors sur Google
EST PARFOIS AMPLIFIÉE OU ROMANCÉE                File System.
(L’ÉLÉPHANT HADOOP ET LA FAMEUSE
                                                     Doug Cutting, qui a mené les projets
PELUCHE DU FILS DE DOUG CUTTING…)                Lucene et Nutch et travaille désormais chez
POUR APPORTER UN PEU DE                  2006    Yahoo, combine un système de fichier
                                                 distribué qu’il a créé (DFS) avec MapReduce
LÉGÈRETÉ À LA COMPLEXITÉ DE LEUR                 et nomme ce framework Hadoop.
MODE DE FONCTIONNEMENT. MAIS, DIX
ANS, APRÈS, L’ÉCOSYSTÈME HADOOP EST
TOUJOURS LA NORME ET CONTINUE DE
FASCINER.
                                         2009       Yahoo décide de rendre le code d’Hadoop
                                                 public et le lègue à la fondation Apache

PETITE REVUE DE TECH.

                                         2010       Création des modules complémentaires :
                                                 HBase, Hive, Pig, Zookeeper

                                                     La version 2 d’Hadoop est disponible,
                                                 intégrant des fonctionnalités temps réel et
                                         2013    un traitement in-memory grâce à la couche
                                                 Yarn qui réduit l’utilisation de MapReduce au
                                                 strict nécessaire

   WWW.GUIDEDUBIGDATA.COM                  2
HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
LA SILICON                                                                   MapReduce, Google File System                                           HDFS, Zookeeper

VALLEY EN
POINTE SUR LA                                                                                                                                                   Kafka

CREATION DU
BIG DATA                                                                                               Spark                                                     Hive

                                                                                                     QUELQUES BRIQUES DE
                                                                                                 L’ECOSYSTEME HADOOP
                                                    YARN
                                                                     Gestion de ressources
                                                    Mesos                                                                                                                               Hive
                                                                                                                                                         Langage d'abstraction
                                                  ZooKeeper           Gestion des services                                                                                              Pig
                                                                                                       Gestion
                                                            Ambari          Administration                                        Abstraction                           Impala

                                                       HDFS             Gestion de fichiers                                                              SQL            Hawq

                                                                                                                                                                        Phoenix
                HBase
                                  BD distribuée
          Cassandra

      Lucene                                                    Stockage
ElasticSearch           Indexation de contenu                                                    Ecosystème Hadoop
         Solr

                                                                                                                                                                                  Kafka
                                                                                                                                                      Ingestion streaming
                                                                                                                                                                                  Flume
                          Spark                                                                                                                                                    Samza
                                             Interactif                                                                         Streaming
                            Tez                                                                                                                                                    Storm
                                                                                                                                                      Traitement streaming
                        Mapreduce                                    Modèles de calcul                                                                                             Spark streaming
                           Mahout                  Batch
                                                                                                                                                                                   S4
                                                                                               HUE
                             Hama
                                                                                              SCOOP
                                                                                                             Utilitaires
                                                                                               Oozie

                                                                                                        Extrait de « Maîtrisez l’utilisation des technologies Hadoop » par Juvénal Chokogoué

                                                                                                         3
HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
HADOOP,
                                                                                                                          MAPREDUCE…

                                                                                                           Administration                 Ambari

                                                                                                           Workflow             Oozi
                                                                                     MapReduce

                                                                                     Spark                 Coordination               Zookeeper

                                                                                     Mahout                                                        Hive
                                                Modèles de calcul
                                                                                     HAMA                  Langage d'abstraction                   Pig

                                                                                     Tez                                                           Cascading
            HBase

                               Bases de données                                                                             Impala
        Cassandra
                                                                                                           SQL              Phoenix

                                                                                                                            Hawq
                                                                                                 HUE
                                                      Interface Utilisateur                                                                    Lucene

                                                                                                           Indexation de contenu               Lucy

                                                                                                                                               Solr

                                        Hadoop Infrastructure                                              Intégration               Sqoop

                                                                                                                                     Storm

                                                                                                                                     Samza
                                                                                                           Temps réel
          YARN
                                                                                                                                     Spark Streaming
        MESOS               Gestionnaire de ressources
                                                                                                                                     S4

                                                                                                                                   Flume
                                               HDFS                                                        Streaming
                                                                  Système de fichier distribué                                     Kafka

Extrait de « Maîtrisez l’utilisation des technologies Hadoop » par Juvénal Chokogoué

YARN                                                    tion de langages d’exécution comme HiveQL            calculs parallèles. Il est particulièrement ef-
Principale évolution constatée de l’écosys-             ou Pig Latin. Il est capable pour chaque re-         ficace pour enlever aux développeurs le sou-
tème Hadoop, YARN (Yet Another Resource                 quête d’obtenir le chemin le plus court d’exé-       ci d’une panne… leur permettant ainsi de se
Negotiator) permet à Hadoop d’utiliser                  cution et de stocker les données en mémoire,         concentrer sur le codage de leurs applications
d’autres modes de calcul que MapReduce et               là où MapReduce fonctionne sur disque.               métiers.
ainsi de viser le temps réel en dépassant le            Cependant, contrairement à Spark, il n’est pas
modèle de traitement en batch. Sa fonction :            utilisable sur les tâches de machine learning.       HIVE
optimiser l’utilisation des ressources du clus-                                                              Hive est l’un des tout premiers outils qui ait
ter et les partager entre plusieurs modes de            HBASE                                                cherché à faciliter l’expérience de l’utilisateur
calcul. Ce changement fondamental dans le               SGBD NoSQL en colonne. Littéralement : sys-          en développant un langage proche du SQL
paradigme Hadoop a permis l’ouverture des               tème de gestion de bases de données com-             (syntaxe HiveQL) pour effectuer des requêtes
plateformes vers le temps réel, le streaming            plexes (ne relevant pas du SQL), orienté en          de calcul MapReduce.
et le in-memory.                                        colonnes pour le requêtage. C’est l’un des
                                                        premiers outils à avoir vu le jour pour entre-       PIG
SPARK                                                   poser les données diverses sans forcément            Dans le même esprit que Hive, les créateurs
C’est un moteur de calcul in-memory paral-              recourir à des outils d’indexation en amont…         de Pig ont développé un langage, Pig Latin,
lélisé particulièrement efficace pour le trai-          particulièrement pratique pour les gros vo-          permettant un accès simplifié aux requêtes
tement des tâches répétitives (notamment à              lumes ! La fonction première d’HBase est de          pour tous types d’utilisateurs (développeurs
l’œuvre dans les travaux de machine learning).          stocker des données et de permettre un accès         comme non-développeurs). Son champ d’ac-
Il permettrait d’accélérer les traitements              facilité et temps réel à celles-ci via l’écosys-     tion reste cependant plus important que Hive
Hadoop standards jusqu’à cent fois. Parmi               tème Hadoop.                                         sur la complexité des requêtes (mais son utili-
ses modules applicatifs, Spark Streaming, qui                                                                sation requiert un travail de formation et d’ap-
permet d’utiliser des données produites au fil          ZOOKEEPER                                            prentissage).
de l’eau, serait l’un des plus en vogue…                Outil de coordination plébiscité par les déve-
                                                        loppeurs, Zookeeper supervise les échanges           STORM
TEZ                                                     entre les nœuds d’un cluster, permettant ain-        C’est un système qui combine gestion en
Tez vise avant tout à optimiser MapReduce               si aux données et aux modules (HBase, Storm,         streaming et traitement en streaming pour
pour limiter la latence générée par l’utilisa-          etc.) de se synchroniser lors d’exécutions de        résoudre totalement les problèmes de latence

     WWW.GUIDEDUBIGDATA.COM                                                      4
HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
sur Hadoop. Le principal avantage de Storm       1/ VA-T-ON UN JOUR DÉPASSER HADOOP ?               pour qu’Hadoop soit totalement adopté au ni-
est d’avoir ouvert les calculs en stream à un    Depuis l’invention d’Hadoop et le passage          veau opérationnel, c’est que l’on donne accès
vaste champ d’utilisateurs métiers et à des      d’une approche centralisée à une approche          à l’ensemble des données en un point unique
problématiques de flux (utile pour les réseaux   distribuée, il faut bien le dire : peu de para-    qui soit… Hadoop (et non une infinité de data
sociaux par exemple).                            mètres ont évolué dans l’outil. Yarn et Spark      warehouses en silos), comme le proposent les
                                                 ont été les développements les plus notables,      data lake actuellement.
FLUME                                            avec un objectif d’accélération des traite-
L’idée de ce type d’outil est de permettre le    ments, mais cela fait déjà 5 ans qu’ils ont vu     5/ JUSTEMENT, VAUT-IL MIEUX PRIVILÉ-
transfert sous Hadoop de gros volumes de         le jour et les briques supplémentaires n’ont       GIER UNE APPROCHE DATA LAKE OU UNE
données de streaming. Cela permet notam-         pas été particulièrement innovantes. Le socle,     APPROCHE CLOUD ?
ment d’intégrer au fil de l’eau des données      lui, est resté le même… et finalement ce n’est     Concrètement, s’ils veulent intégrer Hadoop
externes mais aussi internes pourvu qu’un        pas étonnant : une technologie révolution-         dans leurs process, les DSI ont 3 stratégies qui
système d’accès de type data lake ait été mis    naire comme celle-ci nécessite au moins un         se présentent : une intégration verticale, une
en place.                                        cycle de dix ou vingt ans pour commencer à         intégration horizontale ou le Cloud.
                                                 être dépassée. Hadoop a résolu les problèmes       L’intégration verticale, elle consiste à ache-
                                                 de latence et de volume, ce qui était sa rai-      ter Hadoop dans une solution en package qui
                                                 son d’être. Aujourd’hui, ce sont les challenges    comprendra tous les modules que l’on a déjà
                                                 applicatifs qui ont pris le relais et c’est donc   évoqués. Le problème sera alors celui de la
                                                 au niveau de l’écosystème (et non de la plate-     compatibilité avec les technologies de l’entre-
                                                 forme) Hadoop que se jouent désormais les          prise car il faudra probablement du dévelop-
                                                 prochaines avancées. On n’a pas besoin d’Ha-       pement spécifique pour interfacer leur SI.
                                                 doop pour faire de l’IA, mais on a besoin de       L’intégration horizontale, elle consiste à utili-
                                                 Spark, Kafka ou encore Samza !                     ser Hadoop seul et l’exploiter avec des tech-
                                                                                                    nologies propriétaires. Forcément, cela offre
                                                 2/L’IA, L’IOT, LA BLOCKCHAIN… EST-CE-QUE           de la flexibilité pour des entreprises qui ont
                                                 CES TECHNOLOGIES SONT SUSCEPTIBLES                 déjà un gros capital technologique et des lo-
                                                 DE BOUSCULER L’ÉCOSYSTÈME HADOOP ?                 giciel designés en interne selon des langages
                                                 Hadoop n’est pas une fin en soi et le passage      spécifiques… mais ce n’est pas accessible à
                                                 aux objets connectés va probablement ame-          tout le monde.
                                                 ner un changement de paradigme car HDFS
                                                 est un traitement sur disque qui induit une        L’option Cloud semble alors la plus ouverte
                                                 latence inappropriée pour les volumes à gé-        car elle permet d’utiliser Hadoop sans avoir à
                                                 rer. Ce seront vraisemblablement les briques       en supporter le coût ni la complexité. Pour les
                                                 de traitement streaming (Spark Streaming,          start-ups, c’est une façon de se lancer dans
                                                 Storm, Kafka) qui assureront le travail direc-     le Big Data et l’IA à moindre frais tout en lais-
                                                 tement dans le capteur ou sur un hardware ré-      sant le temps à l’écosystème de mûrir. Reste
                                                 cepteur. Mais pour l’instant, même s’il y a des    à trouver une parade fiable à la question de la
                                                 travaux engagés sur ces questions, aucun édi-      sécurité… un autre challenge pour les années
                                                 teur ne prend le risque de packager une offre.     qui viennent !
                                                 Quant à la Blockchain, Hadoop est tout à fait
                                                 approprié pour assurer les traitements dans

                          JUVENAL                le framework global. Idem pour l’IA bien sûr…

                                                 3/… ET L’OPEN SOURCE ?

                   CHOKOGOUÉ                     L’Open Source a été au cœur du projet Big
                                                 Data et on peut encore en mesurer ses béné-
                                                 fices. Libérer la recherche de sa dimension
     AUTEUR ET LEAD DATA
                     ENGINEER EN
                                                 commerciale, tout en favorisant un modèle
                                                 communautaire, c’était la meilleure façon de
                                                 booster l’innovation. Il faut continuer dans
                                                 cette voie : je suis persuadé que les prochains
                                                                                                                                    Interview
                                                 développements viendront encore de l’Open
                                                 Source…
              PRESTATION À LA
                                                 4/ A-T-ON RÉUSSI À METTRE HADOOP AU
          SOCIÉTÉ GÉNÉRALE                       NIVEAU DES MÉTIERS ?
                                                 C’est vrai que la première préoccupation des
                                                 entreprises a été de mettre Hadoop au niveau
                                                 la DSI et des Data Analystes pour entrer tout
                                                 de suite dans le vif du sujet. C’est aussi pour
                « Je suis persuadé               cela qu’ils ont eu tendance à plugger l’éco-
                                                 système Hadoop sur des architectures exis-
                                                 tantes. Et puis, une fois passée l’euphorie, ils
                 que les prochains               se sont rendu compte que c’était l’utilisateur
                                                 métier qui définissait l’adoption ou non de la
                                                 technologie. C’est pour cela qu’il faut abso-
    développements viendront                     lument qu’Hadoop se transforme pour être
                                                 compatible SQL : la plupart des analystes tra-
                                                 vaillent encore avec ce mode de requête, voire
    encore de l’Open Source »                    même sur Excel ou VBA. Et l’autre condition

                                                                        5
HADOOP,
    MAP REDUCE...
    RETOUR SUR 10 ANS
      D’INNOVATIONS
     TECHNOLOGIQUES

Participez à Big Data Paris

et profitez d’une opportunité
 unique de vous informer et
 networker avec l’ensemble
des acteurs de l’écosystème
         Big Data.

     Inscriptions sur
    WWW.BIGDATAPARIS.COM
Vous pouvez aussi lire