DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION - FCT Solutions
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PRÉSENTATION Le BIG DATA (littéralement Megadonnées) désigne la propriété de données recueillies en masse et leur traitement par des méthodes technologies spécifiques permettant de mieux les visualiser pour obtenir des indicateurs permettant des prises de décisions stratégiques PUBLIC Développeur, Business analyst, Consultant BI, ingénieur d’étude, Concepteur, chef de projet. Minimum : 4 participants Maximum : 12 participants (8 en Intra) PRÉ-REQUIS Une première expérience autour de la programmation et la maîtrise de SQL seront fortement appréciées. Il est fortement recommandé de suivre le module 1 «ENJEUX ET PERSPECTIVES DU BIG DATA » OBJECTIFS Comprendre les fondamentaux du Big Data Comprendre les problématiques majeures auxquelles réponds le Big Data Maîtriser les principaux outils de l’écosystème Hadoop et des autres Frameworks Big Data tels qu’Apache Spark Maîtriser les Bases de données NoSQL Apprendre à développer des applications distribuées sur Hadoop et Apache Spark Maîtriser les fondamentaux de l’analyse de données à large échelle et mise en place de traitements de Machine Learning et de visualisation DURÉE, DATES ET LIEUX 5 jours soit 35 heures (travail personnel non compris) Toutes nos sessions inter-entreprises (dates et villes) sur www.fctsolutions.com Intra-entreprise dans toute la France : nous déployons sur demande cette formation dans vos locaux MODALITÉS PÉDAGOGIQUES ET D’ÉVALUATION Remise d'un support de cours au démarrage QCM de validation des acquis / Durée : 20 minutes (20 questions) et correction animée et encadrée par le formateur (40 minutes) afin de s’assurer de la compréhension de chacun. Cas d’usage empruntés à des problématiques existant auprès d’entreprises de la branche Les travaux pratiques sont réalisés sur poste informatique. Remise d'une attestation de fin de formation validant les objectifs 1/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION JOUR 1 I. APERÇU DE L’ECOSYSTEME BIG DATA Comprendre le Big Data Historique et Hype Cycle du Big Data Les différentes problématiques liées au Big Data Classification des Frameworks et des outils Big Data par cas d’usages. Les types, les sources et les volumes de données traitées par le Big Data La scalabilité horizontale Vs la scalabilité verticale Impact du Big Data sur les entreprises à l’échelle nationale et mondiale Retour d’expérience sur l’état du marché Big Data Français : ce qui a été fait, ce qui est en train de se faire et ce qui se fera à court, à moyen et à long termes II. APERÇU DES FRAMEWORKS ET DES OUTILS DU BIG DATA Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data. Historique des technologies Big Data : Google’s GFS & MapReduce. Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc. Classification des outils du Big Data selon leurs cas d’usage : Stockage et traitement de la donnée Les bases de données et la gestion des données La sérialisation Le management et le monitoring L’analyse et la visualisation des données Le transfert des données La sécurité et le contrôle d’accès Solutions Big Data sur le Cloud Retour d’expérience sur les Frameworks et les outils Big Data utilisés : leurs avantages, leurs limites et leurs évolutions III. LES FONDAMENTAUX D’HADOOP 1. Introduction à Hadoop Historique d’Hadoop Caractéristiques clés d’Hadoop Les types de données traitées par Hadoop. Architecture générale d’Hadoop Comparaison d’Hadoop avec les autres systèmes (les RDBMS, Grid Computing, Volunteer Computing) 2. MapReduce : Traitement simplifié de données sur des grands Clusters Bref historique de MapReduce. Exemple d’introduction à MapReduce Aperçu de l’anatomie d’un programme MapReduce MapReduce : plus qu’un paradigme de programmation (tolérance aux pannes, localisation des données, etc.) APIs et langages de programmation supportés par Hadoop : API Java, Hadoop PIPES, Hadoop Streaming, Scoobi, etc. 2/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION JOUR 2 3. HDFS : Hadoop Distributed File System Bref historique de HDFS Conception de HDFS Concepts fondamentaux de HDFS : i. Blocks ii. Namenodes et Datanodes iii. Block Caching iv. HDFS Federation. v. HDFS High Availability Interagir avec HDFS i. Le Shell HDFS - Les commandes HDFS - Manipulation des principales commandes HDFS ii. L’API Java - Présentation de l’API - Lecture des à partir d’une Hadoop URL - Lecture des données en utilisant l’API FileSystem - Ecriture des données - Les répertoires - Interroger le Système de Fichiers - Supprimer les données iii. Flux de données - Anatomie du processus de lecture d’un fichier - Anatomie du processus d’écriture dans un fichier - Cohérence du modèle iv. Copier les données en parallèle avec DistCP - Copie des données Intra-Cluster - Copie des données Inter-Cluster - Maintenir le Cluster HDFS équilibré 4. YARN : Gestionnaire de ressources du Cluster Hadoop Bref historique de YARN : de MapReduce 1 à YARN Anatomie du processus d’exécution d’une application YARN Demandes de ressources Durée de vie de l’application Création d’une application YARN. Applications pouvant tourner sur YARN : MapReduce, Spark, Tez, etc. YARN vs MapReduce 1 Bref rappel sur le principe de MapReduce 1 : JobTracker, TaskTracker, etc. Caractéristiques clés de YARN : Sacalabilité, Haute Disponibilité, Allocation dynamique des ressources, Multi-tenant Ordonnancement dans YARN 5. Hadoop I/O : Les Entrées/Sorties dans Hadoop Intégrité des données Intégrité des données dans HDFS LocalFileSystem. ChecksumFileSystem. Compression des données 3/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION Codecs : Compression et Décompression dans Hadoop. Compression des données en entrée d’un traitement MapReduce. Compression des données générées par un traitement MapReduce. Sérialisation des données Jour 1L’interface Writable Les types de données Writables : IntWritable, LongWritable, Text, etc. Créer un type de données Writable personnalisé. I. LES QUESTIONS CLES A SE POSER LORS DE LA MISE EN PLACE D’UN PROJET BIG DATA Les Frameworks de sérialisation : Avro, Parquet, etc. Structures 1. Quels de données sont les basées différents sur des fichiers cas d’usage de l'application ? SequenceFiles. 2. Quelles sont les sources de données ? MapFiles. 3. Les mesures de qualité et de performances ? Autres formats fichiers et formats orientés colonnes. 4. Quel est le cycle de vie de la donnée ? Par quelles transformations passe-t-elle ? Comment la gouverner ? IV. MAPREDUCE 5. Comment gérer les différentes charges de travail et héberger des projets différents sur la même 1.infrastructure Développement ? d’une application MapReduce L’API de 6. Quelles configuration. sont les principaux modèles d'architecture d'un SI Big Data ? C’est quoi le "Data Lake" ? Mise en place 7. Comment de l’environnement dimensionner de développement. l'infrastructure et mesurer la scalabilité du système ? Tests unitaires avec MRUnit. 8. C'est quoi le cycle de vie d'un projet Big Data ? Exécution d’une application MapReduce en mode local. 9. Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ? Exécution d’une application MapReduce sur le Cluster. 10. Comparaison des Suivre l’évolution deprincipales distributions l’exécution d’une d’Hadoop application : Apache MapReduce avec laHadoop Web UI. vs HortonWorks vs Cloudera vs MapR Analyse des résultats d’une application MapReduce. Analyser les logs et débugger une application MapReduce. II. ARCHITECTURE BIG DATA Création de Workflows de traitements et automatisation de leurs exécutions avec Oozie. 1. Limites des architectures classiques JOUR2.3Avantages des nouvelles architectures Big Data a. Structures différentes de données (structurées, semi-structurées et non structurées) 2. Fonctionnement de MapReduce b. Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage Anatomie de l’exécution d’un Job MapReduce c.Soumission Performances du Job.élevées du traitement de données massives sous différentes latences (Batch ou en Streaming) Initialisationetduscalabilité Job. en termes de traitements d.Attribution Haute disponibilité des tâches. e.Exécution Agilité dudessystème tâches. et son impact positif sur son évolution et sa maintenance f. Progrès Impact de surl’exécution d’un l’entreprise etJob sa et mise à jour de en transformation sonClient-Centric statut. Achèvement du Job. 3. Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donné Echecs a. Architecture du Data Lake et centralisation des données Echec d’une tâche. b. Cas d’usages basés sur le Data Lake Echec de l’Application Master. c.Echec Le modèle du Node « en couches » de données Manager. d.Echec Data duLake vs DataManager. Ressource Warehouse Les fonctions Shuffle, Sort et Group. 4. LaExécution qualité de latâches des donnée (Dataquality) dans un système Big Data a.Environnement d’exécution Causes du problème ded’une tâchede la qualité Map ou Reduce. données dans les systèmes Big Data Exécution Spéculative. b. Mise en place de la Gouvernance Applicative pour assurer la qualité des données Output Committers. i. Identification des actions clés à mettre en place pour garantir la qualité de la donnée ii. Retour d’expérience sur la mise en place de projets de gouvernance de la donnée chez des clients grands 3. Types et formats de données dans MapReduce comptes Les formats par défaut des Entrées et des Sorties d’un Job MapReduce. 5. LaLes formats d’entrées de MapReduce qualité des traitements dans un système Big Data Input Splits et Records. a. Importance de la supervision des chaînes de traitements Text Input. b.Binary Exploitation Input. efficaces des logs et détection des anomalies en temps réelle c.Inputs Mise multiples en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle Database Input 6. Types d’architectures Les formats de sorties Big Data selon les exigences temporelles de MapReduce Text Output. Batch a.chitectures b.Binary Output. Streaming Architectures c.Sorties Lambda Multiples. Architectures Lazy Output. Database Output. 4/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION 4. Caractéristiques de MapReduce Compteurs Compteurs intégrées. Java Compteurs personnalisés : User-Defined Java Counters. Streaming Compteurs personnalisés : User-Defined Streaming Counters. Sorting Partial Sort. Total Sort. Secondary Sort. Jointures Jointures côté Map. Jointures côté Reduce. Les principales classes de la librairie MapReduce JOUR 4 V. LES DISTRIBUTIONS D’HADOOP 1. Présentation des principales distributions d’Hadoop Apache Hadoop. Hortonworks. Cloudera. MapR. Autres distributions d’Hadoop. 2. Critères de choix d’une distribution Services offerts par la distribution. Coût du logiciel. Maturité des outils et présence de la documentation. Les niveaux de support. 3. Présentation de la distribution HortonWorks Classification des services par cas d’usage Data Lifecycle et Gouvernance : Falcon, Atlas. Flux de données : Sqoop, Flume, Kafka, NFS, WebHDFS. Transformation des données : MapReduce, Pig, Spark. SQL : Hive. NoSQL : HBase, Accumulo, Phoenix. Streaming : Storm, Spark Streaming. Recherche : Solr. Sécurité : Ranger, Knox, Atlas, HDFS Encryption. Provisionning, Managing et Monitoring : Ambari, Cloudbreak, ZooKeeper. Ordonnancement : Oozie. Présentation de l’interface graphique HUE d’accès aux services du Cluster 5/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION VI. LES BASES DE DONNEES DISTRIBUEES & NOSQL 1. Introduction au NoSQL. 2. Les types de Bases de Données NoSQL Les Bases de Données orientées Colonnes : HBase, Cassandra, Accumulo, etc. Les Bases de Données orientées Documents : MongoDB, Couchbase, CouchDB, etc. Les Bases de Données orientées Clé-Valeur : Redis, Riak, Voldemort, etc. Les Bases de Données orientées Graph : Neo4J, InfiniteGraph, mapgraph, etc. 3. Les propriétés ACID des bases de données. 4. Outils d’ingestion : Sqoop, Flume, Nifi, etc. 5. Outils pour requêter les données Hive. Impala. Autres outils pour requêter les données. 6. Analyse de données en mode Batch avec Hive Introduction à Hive Architecture de Hive HiveQL : Hive Query Language Interaction avec Hive - Shell Hive. - Connexions JDBC et ODBC. - Actions Oozie. Formats de données et compression de données dans Hive. 7. Analyse de données en temps réel avec Impala Introduction à Impala. Architecture d’Impala. Impala SQL Language. Interaction avec Impala - Shell Impala. - Connexions JDBC et ODBC. - Actions Oozie. Formats de données et compression de données dans Impala 8. Manipulation des données en temps réel avec HBase Introduction à HBase. Concepts de base et Architecture de HBase. Interaction avec HBase - Java - MapReduce. - Spark. - Rest et Thrift. HBase vs RDBMs JOUR 5 VII. ANALYSE DE DONNEES AVEC APACHE SPARK Introduction à Spark. Historique de Spark : d'un "Apache incubator project" à un "Apache top level project". Architecture générale de Spark. Les principales opérations et APIs de Spark. Problématiques auxquelles répond Spark Langages de programmation supportés par Spark : Scala, Java, Python, R. Spark vs Hadoop. 6/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
FICHE FORMATION 2019 FORMATION DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION PROGRAMME DE LA FORMATION Analyse de données avec Spark Limites des outils classiques d'analyse de données. Comment peut-on utiliser Spark pour faire de l'analyse de données à large échelle. Comment utiliser le calcul distribué pour l'exploration des jeux de données. Spark en pratique : systèmes de recommandations, log mining, reconnaissance d'entités nommées, etc. Utilisation du langage R sur Spark avec SparkR. Machine Learning à large échelle avec Spark Les éléments algorithmiques et statistiques requis pour le développement de solutions de Machine Learning à large échelle. Aperçu sur les principales problématiques et techniques de la machine learning. Utilisation de Spark pour la résolution de ces problématiques. Spark en pratique : comment implémenter des algorithmes distribués pour les principaux modèles statistiques en utilisant Spark. Machine Learning à large échelle avec Spark : Niveau avancé Conception et mise en place de solutions distribuées pour différents types de Machnine Learning tels que l'apprentissage supervisé et l'apprentissage non-supervisé. La distribution du modèle (Model Parallelism) et les compromis à trouver entre le calcul et la communication dans un contexte distribué. Etat de l'art sur les algorithmes distribués pour le filtrage collaboratif, les arbres de décision, les Random Forests, le Custering, le Topic Modeling et l'Hyperparameter Tuning. L'implémentation de ces algorithmes en utilisant la libraire MLib de Spark et le package spark.ml. Spark avancé pour la data science et le data engineering Les principaux cas d'usage de Spark. Etude approfondie de l'architecture de Spark. Etude approfondie des détails internes de Spark tels que la fonction Shuffle, le Catalyst Optimizer (framework d'optimisation de requêtes) de Spark SQL et le projet Tugsten. Spark Streaming. Spark ML et Spark MLib VIII. TRAVAUX PRATIQUES Description du jeu de données utilisé Le jeu de données utilisé « International_airline_activity_Australia.csv » (5.8 MB), est publié par le « Département des Infrastructures et du Développement régional du Gouvernement Australien ». Il contient des données (Aéroport, Ville de départ, Airline, Pays de destination, Ville de destination, date, etc.) sur des réservations de billets d’avions à l’échelle internationale1. Dans tous les TPs, nous utiliserons le même jeu de données afin de pouvoir voir l’impact de l’utilisation d’outils différents sur les différents facteurs clés liés aux traitements Big Data TP 1 : Création d’un programme Java MapReduce tournant sur Hadoop 2.x en local mode et en mode distribué TP 2 : MapReduce Streaming sur Hadoop 2.x local mode et en mode distribué TP 3 : Interaction avec HDFS en utilisant le Shell HDFS et l’API Java TP 4 : Manipulation des SequeceFiles avec MapReduce sur Hadoop 2.x en mode pseudo-distribué et en mode distribué TP 5 : Manipulation des AvroFiles sur Hadoop 2.x en mode pseudo-distribué et en mode distribué TP 6 : Job chaining avec JobControl + custom Writable TP7 : Analyse des données en mode Batch avec Apache Hive TP 8 : Analyse des données en temps réel avec Cloudera Impala (Si la distribution d’Hadoop adoptée sera Cloudera) TP 9 : Analyse de données avec Apache Pig et stockage dans HBase TP 10 : Transfert des données entre Hadoop et MySQL avec Apache Sqoop TP 11 : Analyse de données avec Apache Spark TP 12 : Industrialisation et automatisation des traitements à l’aide d’Apache Oozie. 7/7 13, boulevard Voltaire / 75011 Paris www.fctsolutions.com Tél. : 01 43 67 32 52 Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75 contact@fctsolutions.com
Vous pouvez aussi lire