HADOOP, MAP REDUCE - RETOUR SUR 10 ANS D'INNOVATIONS TECHNOLOGIQUES - Big Data Paris
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
HADOOP, MAPREDUCE… HADOOP, UNE SI COURTE MAPREDUCE… RETOUR SUR CES HISTOIRE… TECHNOLOGIES La fondation Apache commence à QUI ONT CHANGÉ DÉBUT 2000 travailler sur Lucene, outil d’indexation de textes supposé créer une bibliothèque open LE VISAGE DE source à échelle mondiale. L’ANALYTIQUE Le besoin de créer un nouveau moteur de recherche de grande échelle se fait sentir HADOOP, MAPREDUCE, YARN, SPARK… 2002 pour collecter des données de divers contenus pdf, html, word, etc… : c’est le projet Nutch de la fondation Apache. SI CES NOMS N’ÉVOQUENT RIEN AU NÉOPHYTE, ILS RASSEMBLENT À LEUR SEULE ÉVOCATION TOUS LES FANTASMES Jeffrey Dean et Sanjay Ghemawat, employés chez Google, créent l’algorithme D’UNE DÉCENNIE SUR LE TRAITEMENT 2004 MapReduce pour paralléliser les traitements de GÉNÉRALISÉ DES BIG DATA. LEUR HISTOIRE grands volumes de données sur plusieurs ser- veurs. MapReduce fonctionne alors sur Google EST PARFOIS AMPLIFIÉE OU ROMANCÉE File System. (L’ÉLÉPHANT HADOOP ET LA FAMEUSE Doug Cutting, qui a mené les projets PELUCHE DU FILS DE DOUG CUTTING…) Lucene et Nutch et travaille désormais chez POUR APPORTER UN PEU DE 2006 Yahoo, combine un système de fichier distribué qu’il a créé (DFS) avec MapReduce LÉGÈRETÉ À LA COMPLEXITÉ DE LEUR et nomme ce framework Hadoop. MODE DE FONCTIONNEMENT. MAIS, DIX ANS, APRÈS, L’ÉCOSYSTÈME HADOOP EST TOUJOURS LA NORME ET CONTINUE DE FASCINER. 2009 Yahoo décide de rendre le code d’Hadoop public et le lègue à la fondation Apache PETITE REVUE DE TECH. 2010 Création des modules complémentaires : HBase, Hive, Pig, Zookeeper La version 2 d’Hadoop est disponible, intégrant des fonctionnalités temps réel et 2013 un traitement in-memory grâce à la couche Yarn qui réduit l’utilisation de MapReduce au strict nécessaire WWW.GUIDEDUBIGDATA.COM 2
LA SILICON MapReduce, Google File System HDFS, Zookeeper VALLEY EN POINTE SUR LA Kafka CREATION DU BIG DATA Spark Hive QUELQUES BRIQUES DE L’ECOSYSTEME HADOOP YARN Gestion de ressources Mesos Hive Langage d'abstraction ZooKeeper Gestion des services Pig Gestion Ambari Administration Abstraction Impala HDFS Gestion de fichiers SQL Hawq Phoenix HBase BD distribuée Cassandra Lucene Stockage ElasticSearch Indexation de contenu Ecosystème Hadoop Solr Kafka Ingestion streaming Flume Spark Samza Interactif Streaming Tez Storm Traitement streaming Mapreduce Modèles de calcul Spark streaming Mahout Batch S4 HUE Hama SCOOP Utilitaires Oozie Extrait de « Maîtrisez l’utilisation des technologies Hadoop » par Juvénal Chokogoué 3
HADOOP, MAPREDUCE… Administration Ambari Workflow Oozi MapReduce Spark Coordination Zookeeper Mahout Hive Modèles de calcul HAMA Langage d'abstraction Pig Tez Cascading HBase Bases de données Impala Cassandra SQL Phoenix Hawq HUE Interface Utilisateur Lucene Indexation de contenu Lucy Solr Hadoop Infrastructure Intégration Sqoop Storm Samza Temps réel YARN Spark Streaming MESOS Gestionnaire de ressources S4 Flume HDFS Streaming Système de fichier distribué Kafka Extrait de « Maîtrisez l’utilisation des technologies Hadoop » par Juvénal Chokogoué YARN tion de langages d’exécution comme HiveQL calculs parallèles. Il est particulièrement ef- Principale évolution constatée de l’écosys- ou Pig Latin. Il est capable pour chaque re- ficace pour enlever aux développeurs le sou- tème Hadoop, YARN (Yet Another Resource quête d’obtenir le chemin le plus court d’exé- ci d’une panne… leur permettant ainsi de se Negotiator) permet à Hadoop d’utiliser cution et de stocker les données en mémoire, concentrer sur le codage de leurs applications d’autres modes de calcul que MapReduce et là où MapReduce fonctionne sur disque. métiers. ainsi de viser le temps réel en dépassant le Cependant, contrairement à Spark, il n’est pas modèle de traitement en batch. Sa fonction : utilisable sur les tâches de machine learning. HIVE optimiser l’utilisation des ressources du clus- Hive est l’un des tout premiers outils qui ait ter et les partager entre plusieurs modes de HBASE cherché à faciliter l’expérience de l’utilisateur calcul. Ce changement fondamental dans le SGBD NoSQL en colonne. Littéralement : sys- en développant un langage proche du SQL paradigme Hadoop a permis l’ouverture des tème de gestion de bases de données com- (syntaxe HiveQL) pour effectuer des requêtes plateformes vers le temps réel, le streaming plexes (ne relevant pas du SQL), orienté en de calcul MapReduce. et le in-memory. colonnes pour le requêtage. C’est l’un des premiers outils à avoir vu le jour pour entre- PIG SPARK poser les données diverses sans forcément Dans le même esprit que Hive, les créateurs C’est un moteur de calcul in-memory paral- recourir à des outils d’indexation en amont… de Pig ont développé un langage, Pig Latin, lélisé particulièrement efficace pour le trai- particulièrement pratique pour les gros vo- permettant un accès simplifié aux requêtes tement des tâches répétitives (notamment à lumes ! La fonction première d’HBase est de pour tous types d’utilisateurs (développeurs l’œuvre dans les travaux de machine learning). stocker des données et de permettre un accès comme non-développeurs). Son champ d’ac- Il permettrait d’accélérer les traitements facilité et temps réel à celles-ci via l’écosys- tion reste cependant plus important que Hive Hadoop standards jusqu’à cent fois. Parmi tème Hadoop. sur la complexité des requêtes (mais son utili- ses modules applicatifs, Spark Streaming, qui sation requiert un travail de formation et d’ap- permet d’utiliser des données produites au fil ZOOKEEPER prentissage). de l’eau, serait l’un des plus en vogue… Outil de coordination plébiscité par les déve- loppeurs, Zookeeper supervise les échanges STORM TEZ entre les nœuds d’un cluster, permettant ain- C’est un système qui combine gestion en Tez vise avant tout à optimiser MapReduce si aux données et aux modules (HBase, Storm, streaming et traitement en streaming pour pour limiter la latence générée par l’utilisa- etc.) de se synchroniser lors d’exécutions de résoudre totalement les problèmes de latence WWW.GUIDEDUBIGDATA.COM 4
sur Hadoop. Le principal avantage de Storm 1/ VA-T-ON UN JOUR DÉPASSER HADOOP ? pour qu’Hadoop soit totalement adopté au ni- est d’avoir ouvert les calculs en stream à un Depuis l’invention d’Hadoop et le passage veau opérationnel, c’est que l’on donne accès vaste champ d’utilisateurs métiers et à des d’une approche centralisée à une approche à l’ensemble des données en un point unique problématiques de flux (utile pour les réseaux distribuée, il faut bien le dire : peu de para- qui soit… Hadoop (et non une infinité de data sociaux par exemple). mètres ont évolué dans l’outil. Yarn et Spark warehouses en silos), comme le proposent les ont été les développements les plus notables, data lake actuellement. FLUME avec un objectif d’accélération des traite- L’idée de ce type d’outil est de permettre le ments, mais cela fait déjà 5 ans qu’ils ont vu 5/ JUSTEMENT, VAUT-IL MIEUX PRIVILÉ- transfert sous Hadoop de gros volumes de le jour et les briques supplémentaires n’ont GIER UNE APPROCHE DATA LAKE OU UNE données de streaming. Cela permet notam- pas été particulièrement innovantes. Le socle, APPROCHE CLOUD ? ment d’intégrer au fil de l’eau des données lui, est resté le même… et finalement ce n’est Concrètement, s’ils veulent intégrer Hadoop externes mais aussi internes pourvu qu’un pas étonnant : une technologie révolution- dans leurs process, les DSI ont 3 stratégies qui système d’accès de type data lake ait été mis naire comme celle-ci nécessite au moins un se présentent : une intégration verticale, une en place. cycle de dix ou vingt ans pour commencer à intégration horizontale ou le Cloud. être dépassée. Hadoop a résolu les problèmes L’intégration verticale, elle consiste à ache- de latence et de volume, ce qui était sa rai- ter Hadoop dans une solution en package qui son d’être. Aujourd’hui, ce sont les challenges comprendra tous les modules que l’on a déjà applicatifs qui ont pris le relais et c’est donc évoqués. Le problème sera alors celui de la au niveau de l’écosystème (et non de la plate- compatibilité avec les technologies de l’entre- forme) Hadoop que se jouent désormais les prise car il faudra probablement du dévelop- prochaines avancées. On n’a pas besoin d’Ha- pement spécifique pour interfacer leur SI. doop pour faire de l’IA, mais on a besoin de L’intégration horizontale, elle consiste à utili- Spark, Kafka ou encore Samza ! ser Hadoop seul et l’exploiter avec des tech- nologies propriétaires. Forcément, cela offre 2/L’IA, L’IOT, LA BLOCKCHAIN… EST-CE-QUE de la flexibilité pour des entreprises qui ont CES TECHNOLOGIES SONT SUSCEPTIBLES déjà un gros capital technologique et des lo- DE BOUSCULER L’ÉCOSYSTÈME HADOOP ? giciel designés en interne selon des langages Hadoop n’est pas une fin en soi et le passage spécifiques… mais ce n’est pas accessible à aux objets connectés va probablement ame- tout le monde. ner un changement de paradigme car HDFS est un traitement sur disque qui induit une L’option Cloud semble alors la plus ouverte latence inappropriée pour les volumes à gé- car elle permet d’utiliser Hadoop sans avoir à rer. Ce seront vraisemblablement les briques en supporter le coût ni la complexité. Pour les de traitement streaming (Spark Streaming, start-ups, c’est une façon de se lancer dans Storm, Kafka) qui assureront le travail direc- le Big Data et l’IA à moindre frais tout en lais- tement dans le capteur ou sur un hardware ré- sant le temps à l’écosystème de mûrir. Reste cepteur. Mais pour l’instant, même s’il y a des à trouver une parade fiable à la question de la travaux engagés sur ces questions, aucun édi- sécurité… un autre challenge pour les années teur ne prend le risque de packager une offre. qui viennent ! Quant à la Blockchain, Hadoop est tout à fait approprié pour assurer les traitements dans JUVENAL le framework global. Idem pour l’IA bien sûr… 3/… ET L’OPEN SOURCE ? CHOKOGOUÉ L’Open Source a été au cœur du projet Big Data et on peut encore en mesurer ses béné- fices. Libérer la recherche de sa dimension AUTEUR ET LEAD DATA ENGINEER EN commerciale, tout en favorisant un modèle communautaire, c’était la meilleure façon de booster l’innovation. Il faut continuer dans cette voie : je suis persuadé que les prochains Interview développements viendront encore de l’Open Source… PRESTATION À LA 4/ A-T-ON RÉUSSI À METTRE HADOOP AU SOCIÉTÉ GÉNÉRALE NIVEAU DES MÉTIERS ? C’est vrai que la première préoccupation des entreprises a été de mettre Hadoop au niveau la DSI et des Data Analystes pour entrer tout de suite dans le vif du sujet. C’est aussi pour « Je suis persuadé cela qu’ils ont eu tendance à plugger l’éco- système Hadoop sur des architectures exis- tantes. Et puis, une fois passée l’euphorie, ils que les prochains se sont rendu compte que c’était l’utilisateur métier qui définissait l’adoption ou non de la technologie. C’est pour cela qu’il faut abso- développements viendront lument qu’Hadoop se transforme pour être compatible SQL : la plupart des analystes tra- vaillent encore avec ce mode de requête, voire encore de l’Open Source » même sur Excel ou VBA. Et l’autre condition 5
HADOOP, MAP REDUCE... RETOUR SUR 10 ANS D’INNOVATIONS TECHNOLOGIQUES Participez à Big Data Paris et profitez d’une opportunité unique de vous informer et networker avec l’ensemble des acteurs de l’écosystème Big Data. Inscriptions sur WWW.BIGDATAPARIS.COM
Vous pouvez aussi lire