DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION - FCT Solutions

La page est créée Gilles Lemoine
 
CONTINUER À LIRE
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION - FCT Solutions
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

                     PRÉSENTATION
                       Le BIG DATA (littéralement Megadonnées) désigne la propriété de données recueillies en masse et leur
                       traitement par des méthodes technologies spécifiques permettant de mieux les visualiser pour obtenir
                       des indicateurs permettant des prises de décisions stratégiques

                       PUBLIC
                       Développeur, Business analyst, Consultant BI, ingénieur d’étude, Concepteur, chef de projet.
                       Minimum : 4 participants
                       Maximum : 12 participants (8 en Intra)

                       PRÉ-REQUIS
                       Une première expérience autour de la programmation et la maîtrise de SQL seront fortement appréciées.
                       Il est fortement recommandé de suivre le module 1 «ENJEUX ET PERSPECTIVES DU BIG DATA »

                       OBJECTIFS
                        Comprendre les fondamentaux du Big Data
                        Comprendre les problématiques majeures auxquelles réponds le Big Data Maîtriser les principaux outils
                         de l’écosystème Hadoop et des autres Frameworks Big Data tels qu’Apache Spark
                        Maîtriser les Bases de données NoSQL
                        Apprendre à développer des applications distribuées sur Hadoop et Apache Spark
                        Maîtriser les fondamentaux de l’analyse de données à large échelle et mise en place de traitements de
                         Machine Learning et de visualisation

                       DURÉE, DATES ET LIEUX
                        5 jours soit 35 heures (travail personnel non compris)
                        Toutes nos sessions inter-entreprises (dates et villes) sur www.fctsolutions.com
                        Intra-entreprise dans toute la France : nous déployons sur demande cette formation dans vos locaux

                       MODALITÉS PÉDAGOGIQUES ET D’ÉVALUATION
                        Remise d'un support de cours au démarrage
                        QCM de validation des acquis / Durée : 20 minutes (20 questions) et correction animée et encadrée par
                         le formateur (40 minutes) afin de s’assurer de la compréhension de chacun.
                        Cas d’usage empruntés à des problématiques existant auprès d’entreprises de la branche
                        Les travaux pratiques sont réalisés sur poste informatique.
                        Remise d'une attestation de fin de formation validant les objectifs

                                                                                                                                                                                                              1/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

            PROGRAMME DE LA FORMATION

           JOUR 1
           I. APERÇU DE L’ECOSYSTEME BIG DATA

                  Comprendre le Big Data
                  Historique et Hype Cycle du Big Data
                  Les différentes problématiques liées au Big Data
                  Classification des Frameworks et des outils Big Data par cas d’usages.
                  Les types, les sources et les volumes de données traitées par le Big Data
                  La scalabilité horizontale Vs la scalabilité verticale
                  Impact du Big Data sur les entreprises à l’échelle nationale et mondiale
                  Retour d’expérience sur l’état du marché Big Data Français : ce qui a été fait, ce qui est en train de se faire et ce qui se fera
                  à court, à moyen et à long termes

           II. APERÇU DES FRAMEWORKS ET DES OUTILS DU BIG DATA

                  Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data.
                  Historique des technologies Big Data : Google’s GFS & MapReduce.
                  Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc.
                  Classification des outils du Big Data selon leurs cas d’usage :
                          Stockage et traitement de la donnée
                          Les bases de données et la gestion des données
                          La sérialisation
                          Le management et le monitoring
                          L’analyse et la visualisation des données
                          Le transfert des données
                          La sécurité et le contrôle d’accès
                  Solutions Big Data sur le Cloud
                  Retour d’expérience sur les Frameworks et les outils Big Data utilisés : leurs avantages, leurs limites et leurs évolutions

           III. LES FONDAMENTAUX D’HADOOP

                  1.     Introduction à Hadoop
                            Historique d’Hadoop
                            Caractéristiques clés d’Hadoop
                            Les types de données traitées par Hadoop.
                            Architecture générale d’Hadoop
                            Comparaison d’Hadoop avec les autres systèmes (les RDBMS, Grid Computing, Volunteer Computing)

                  2.     MapReduce : Traitement simplifié de données sur des grands Clusters
                            Bref historique de MapReduce.
                            Exemple d’introduction à MapReduce
                            Aperçu de l’anatomie d’un programme MapReduce
                            MapReduce : plus qu’un paradigme de programmation (tolérance aux pannes, localisation des données, etc.)
                            APIs et langages de programmation supportés par Hadoop : API Java, Hadoop PIPES, Hadoop Streaming, Scoobi,
                            etc.

                                                                                                                                                                                                               2/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

            PROGRAMME DE LA FORMATION

           JOUR 2
                  3. HDFS : Hadoop Distributed File System
                         Bref historique de HDFS
                         Conception de HDFS
                         Concepts fondamentaux de HDFS :
                               i. Blocks
                               ii. Namenodes et Datanodes
                               iii. Block Caching
                               iv. HDFS Federation.
                               v. HDFS High Availability
                               Interagir avec HDFS
                               i. Le Shell HDFS
                               - Les commandes HDFS
                               - Manipulation des principales commandes HDFS
                               ii. L’API Java
                               - Présentation de l’API
                               - Lecture des à partir d’une Hadoop URL
                               - Lecture des données en utilisant l’API FileSystem
                               - Ecriture des données
                               - Les répertoires
                               - Interroger le Système de Fichiers
                               - Supprimer les données
                               iii. Flux de données
                               - Anatomie du processus de lecture d’un fichier
                               - Anatomie du processus d’écriture dans un fichier
                               - Cohérence du modèle
                               iv. Copier les données en parallèle avec DistCP
                               - Copie des données Intra-Cluster
                               - Copie des données Inter-Cluster
                               - Maintenir le Cluster HDFS équilibré

                  4. YARN : Gestionnaire de ressources du Cluster Hadoop
                            Bref historique de YARN : de MapReduce 1 à YARN
                            Anatomie du processus d’exécution d’une application YARN
                            Demandes de ressources
                            Durée de vie de l’application
                            Création d’une application YARN.
                            Applications pouvant tourner sur YARN : MapReduce, Spark, Tez, etc.
                            YARN vs MapReduce 1
                            Bref rappel sur le principe de MapReduce 1 : JobTracker, TaskTracker, etc.
                            Caractéristiques clés de YARN : Sacalabilité, Haute Disponibilité, Allocation dynamique des ressources, Multi-tenant
                            Ordonnancement dans YARN

                  5. Hadoop I/O : Les Entrées/Sorties dans Hadoop
                            Intégrité des données
                            Intégrité des données dans HDFS
                            LocalFileSystem.
                            ChecksumFileSystem.
                            Compression des données

                                                                                                                                                                                                              3/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

         PROGRAMME DE LA FORMATION
                     Codecs : Compression et Décompression dans Hadoop.
                     Compression des données en entrée d’un traitement MapReduce.
                     Compression des données générées par un traitement MapReduce.
                     Sérialisation des données
           Jour 1L’interface Writable
                     Les types de données Writables : IntWritable, LongWritable, Text, etc.
                     Créer un type de données Writable personnalisé.
           I. LES QUESTIONS CLES A SE POSER LORS DE LA MISE EN PLACE D’UN PROJET BIG DATA
                     Les Frameworks de sérialisation : Avro, Parquet, etc.
                     Structures
                1. Quels         de données
                          sont les           basées
                                    différents       sur des fichiers
                                                cas d’usage   de l'application ?
                     SequenceFiles.
                2. Quelles sont les sources de données ?
                     MapFiles.
                3. Les mesures de qualité et de performances ?
                     Autres formats fichiers et formats orientés colonnes.
              4. Quel est le cycle de vie de la donnée ? Par quelles transformations passe-t-elle ? Comment la gouverner
              ?
        IV. MAPREDUCE
              5. Comment gérer les différentes charges de travail et héberger des projets différents sur la même
            1.infrastructure
               Développement  ? d’une application MapReduce
                   L’API de
              6. Quelles     configuration.
                          sont  les principaux modèles d'architecture d'un SI Big Data ? C’est quoi le "Data Lake" ?
                   Mise en place
              7. Comment           de l’environnement
                             dimensionner                de développement.
                                               l'infrastructure  et mesurer la scalabilité du système ?
                   Tests unitaires avec MRUnit.
              8. C'est quoi le cycle de vie d'un projet Big Data ?
                   Exécution d’une application MapReduce en mode local.
              9. Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ?
                   Exécution d’une application MapReduce sur le Cluster.
              10. Comparaison      des
                   Suivre l’évolution deprincipales    distributions
                                          l’exécution d’une           d’Hadoop
                                                             application        : Apache
                                                                         MapReduce  avec laHadoop
                                                                                            Web UI. vs HortonWorks vs Cloudera vs
              MapR Analyse des résultats d’une application MapReduce.
                         Analyser les logs et débugger une application MapReduce.
           II. ARCHITECTURE     BIG DATA
                   Création de Workflows de traitements et automatisation de leurs exécutions avec Oozie.

                  1. Limites des architectures classiques
        JOUR2.3Avantages des nouvelles architectures Big Data
                        a. Structures différentes de données (structurées, semi-structurées et non structurées)
               2. Fonctionnement de MapReduce
                        b. Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage
                      Anatomie de l’exécution d’un Job MapReduce
                        c.Soumission
                             Performances du Job.élevées du traitement de données massives sous différentes latences (Batch ou en
                        Streaming)
                           Initialisationetduscalabilité
                                               Job.       en termes de traitements
                        d.Attribution
                             Haute disponibilité
                                        des tâches.
                        e.Exécution
                             Agilité dudessystème
                                              tâches. et son impact positif sur son évolution et sa maintenance
                        f. Progrès
                            Impact de surl’exécution  d’un
                                           l’entreprise   etJob
                                                             sa et mise à jour de en
                                                                transformation    sonClient-Centric
                                                                                      statut.
                           Achèvement       du  Job.
                 3. Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donné
                      Echecs
                        a. Architecture du Data Lake et centralisation des données
                           Echec d’une tâche.
                        b. Cas d’usages basés sur le Data Lake
                           Echec de l’Application Master.
                        c.Echec
                             Le modèle
                                    du Node « en   couches » de données
                                               Manager.
                        d.Echec
                             Data duLake    vs DataManager.
                                        Ressource     Warehouse
                         Les fonctions Shuffle, Sort et Group.
                  4. LaExécution
                        qualité de latâches
                                 des   donnée (Dataquality) dans un système Big Data
                         a.Environnement  d’exécution
                            Causes du problème     ded’une tâchede
                                                      la qualité Map ou Reduce.
                                                                   données  dans les systèmes Big Data
                           Exécution Spéculative.
                         b. Mise en place de la Gouvernance Applicative pour assurer la qualité des données
                          Output    Committers.
                             i. Identification des actions clés à mettre en place pour garantir la qualité de la donnée
                             ii. Retour d’expérience sur la mise en place de projets de gouvernance de la donnée chez des clients grands
               3. Types et    formats de données dans MapReduce
                          comptes
                      Les formats par défaut des Entrées et des Sorties d’un Job MapReduce.
                 5. LaLes  formats d’entrées de MapReduce
                       qualité    des traitements dans un système Big Data
                          Input Splits et Records.
                        a. Importance de la supervision des chaînes de traitements
                          Text Input.
                        b.Binary
                            Exploitation
                                   Input. efficaces des logs et détection des anomalies en temps réelle
                        c.Inputs
                            Mise multiples
                                   en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle
                          Database Input
                 6. Types   d’architectures
                      Les formats    de sorties Big Data selon les exigences temporelles
                                                de MapReduce
                          Text Output. Batch
                        a.chitectures
                        b.Binary   Output. Streaming
                            Architectures
                        c.Sorties
                            Lambda  Multiples.
                                        Architectures
                          Lazy Output.
                          Database Output.                                                                                                                                                                        4/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

         PROGRAMME DE LA FORMATION
                       4. Caractéristiques de MapReduce
                                 Compteurs
                                     Compteurs intégrées.
                                     Java Compteurs personnalisés : User-Defined Java Counters.
                                     Streaming Compteurs personnalisés : User-Defined Streaming Counters.
                                 Sorting
                                     Partial Sort.
                                     Total Sort.
                                     Secondary Sort.
                                 Jointures
                                     Jointures côté Map.
                                     Jointures côté Reduce.
                                 Les principales classes de la librairie MapReduce

                JOUR 4
                V. LES DISTRIBUTIONS D’HADOOP

                       1. Présentation des principales distributions d’Hadoop
                                 Apache Hadoop.
                                 Hortonworks.
                                 Cloudera.
                                 MapR.
                                 Autres distributions d’Hadoop.

                       2. Critères de choix d’une distribution
                                 Services offerts par la distribution.
                                 Coût du logiciel.
                                 Maturité des outils et présence de la documentation.
                                 Les niveaux de support.

                       3. Présentation de la distribution HortonWorks
                                 Classification des services par cas d’usage
                                    Data Lifecycle et Gouvernance : Falcon, Atlas.
                                    Flux de données : Sqoop, Flume, Kafka, NFS, WebHDFS.
                                    Transformation des données : MapReduce, Pig, Spark.
                                    SQL : Hive.
                                    NoSQL : HBase, Accumulo, Phoenix.
                                    Streaming : Storm, Spark Streaming.
                                    Recherche : Solr.
                                    Sécurité : Ranger, Knox, Atlas, HDFS Encryption.
                                    Provisionning, Managing et Monitoring : Ambari, Cloudbreak, ZooKeeper.
                                    Ordonnancement : Oozie.
                                 Présentation de l’interface graphique HUE d’accès aux services du Cluster

                                                                                                                                                                                                             5/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

     PROGRAMME DE LA FORMATION
      VI. LES BASES DE DONNEES DISTRIBUEES & NOSQL

                       1.     Introduction au NoSQL.

                       2. Les types de Bases de Données NoSQL
                             Les Bases de Données orientées Colonnes : HBase, Cassandra, Accumulo, etc.
                             Les Bases de Données orientées Documents : MongoDB, Couchbase, CouchDB, etc.
                             Les Bases de Données orientées Clé-Valeur : Redis, Riak, Voldemort, etc.
                             Les Bases de Données orientées Graph : Neo4J, InfiniteGraph, mapgraph, etc.

                       3. Les propriétés ACID des bases de données.

                       4. Outils d’ingestion : Sqoop, Flume, Nifi, etc.

                       5. Outils pour requêter les données
                             Hive.
                             Impala.
                             Autres outils pour requêter les données.

                       6. Analyse de données en mode Batch avec Hive
                         Introduction à Hive
                         Architecture de Hive
                         HiveQL : Hive Query Language
                         Interaction avec Hive
                         -    Shell Hive.
                         -    Connexions JDBC et ODBC.
                         -    Actions Oozie.
                    Formats de données et compression de données dans Hive.

                       7. Analyse de données en temps réel avec Impala
                             Introduction à Impala.
                             Architecture d’Impala.
                             Impala SQL Language.
                             Interaction avec Impala
                             -    Shell Impala.
                             -    Connexions JDBC et ODBC.
                             -    Actions Oozie.
                             Formats de données et compression de données dans Impala

                       8. Manipulation des données en temps réel avec HBase
                             Introduction à HBase.
                             Concepts de base et Architecture de HBase.
                             Interaction avec HBase
                             -    Java
                             -    MapReduce.
                             -    Spark.
                             -    Rest et Thrift.
                             HBase vs RDBMs

      JOUR 5
      VII. ANALYSE DE DONNEES AVEC APACHE SPARK
               Introduction à Spark.
                          Historique de Spark : d'un "Apache incubator project" à un "Apache top level project".
                          Architecture générale de Spark.
                          Les principales opérations et APIs de Spark.
                       Problématiques auxquelles répond Spark
                          Langages de programmation supportés par Spark : Scala, Java, Python, R.
                          Spark vs Hadoop.                                                                                                                                                                      6/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

     PROGRAMME DE LA FORMATION
                       Analyse de données avec Spark
                             Limites des outils classiques d'analyse de données.
                             Comment peut-on utiliser Spark pour faire de l'analyse de données à large échelle.
                             Comment utiliser le calcul distribué pour l'exploration des jeux de données.
                             Spark en pratique : systèmes de recommandations, log mining, reconnaissance d'entités nommées, etc.
                             Utilisation du langage R sur Spark avec SparkR.

                       Machine Learning à large échelle avec Spark
                            Les éléments algorithmiques et statistiques requis pour le développement de solutions de Machine Learning à
                          large échelle.
                            Aperçu sur les principales problématiques et techniques de la machine learning.
                            Utilisation de Spark pour la résolution de ces problématiques.
                            Spark en pratique : comment implémenter des algorithmes distribués pour les principaux modèles statistiques en
                          utilisant Spark.

                       Machine Learning à large échelle avec Spark : Niveau avancé
                             Conception et mise en place de solutions distribuées pour différents types de Machnine Learning tels que
                          l'apprentissage supervisé et l'apprentissage non-supervisé.
                             La distribution du modèle (Model Parallelism) et les compromis à trouver entre le calcul et la communication dans
                          un contexte distribué.

                          Etat de l'art sur les algorithmes distribués pour le filtrage collaboratif, les arbres de décision, les Random Forests,
                        le Custering, le Topic Modeling et l'Hyperparameter Tuning.
                          L'implémentation de ces algorithmes en utilisant la libraire MLib de Spark et le package spark.ml.
                       Spark avancé pour la data science et le data engineering
                          Les principaux cas d'usage de Spark.
                          Etude approfondie de l'architecture de Spark.
                          Etude approfondie des détails internes de Spark tels que la fonction Shuffle, le Catalyst Optimizer (framework
                        d'optimisation de requêtes) de Spark SQL et le projet Tugsten.
                          Spark Streaming.
                          Spark ML et Spark MLib

      VIII. TRAVAUX PRATIQUES

             Description du jeu de données utilisé
             Le jeu de données utilisé « International_airline_activity_Australia.csv » (5.8 MB), est publié par le « Département des
             Infrastructures et du Développement régional du Gouvernement Australien ». Il contient des données (Aéroport, Ville de
             départ, Airline, Pays de destination, Ville de destination, date, etc.) sur des réservations de billets d’avions à l’échelle
             internationale1.
             Dans tous les TPs, nous utiliserons le même jeu de données afin de pouvoir voir l’impact de l’utilisation d’outils différents sur
             les différents facteurs clés liés aux traitements Big Data

             TP 1 : Création d’un programme Java MapReduce tournant sur Hadoop 2.x en local mode et en mode distribué
             TP 2 : MapReduce Streaming sur Hadoop 2.x local mode et en mode distribué
             TP 3 : Interaction avec HDFS en utilisant le Shell HDFS et l’API Java
             TP 4 : Manipulation des SequeceFiles avec MapReduce sur Hadoop 2.x en mode pseudo-distribué et en mode distribué
             TP 5 : Manipulation des AvroFiles sur Hadoop 2.x en mode pseudo-distribué et en mode distribué
             TP 6 : Job chaining avec JobControl + custom Writable
             TP7 : Analyse des données en mode Batch avec Apache Hive TP 8 : Analyse des données en temps réel avec Cloudera Impala (Si
             la distribution d’Hadoop adoptée sera Cloudera)
             TP 9 : Analyse de données avec Apache Pig et stockage dans HBase
             TP 10 : Transfert des données entre Hadoop et MySQL avec Apache Sqoop
             TP 11 : Analyse de données avec Apache Spark
             TP 12 : Industrialisation et automatisation des traitements à l’aide d’Apache Oozie.

                                                                                                                                                                                                                  7/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com
Vous pouvez aussi lire