DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION - FCT Solutions

La page est créée Gilles Lemoine

Éducation

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION - FCT Solutions

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

                     PRÉSENTATION
                       Le BIG DATA (littéralement Megadonnées) désigne la propriété de données recueillies en masse et leur
                       traitement par des méthodes technologies spécifiques permettant de mieux les visualiser pour obtenir
                       des indicateurs permettant des prises de décisions stratégiques

                       PUBLIC
                       Développeur, Business analyst, Consultant BI, ingénieur d’étude, Concepteur, chef de projet.
                       Minimum : 4 participants
                       Maximum : 12 participants (8 en Intra)

                       PRÉ-REQUIS
                       Une première expérience autour de la programmation et la maîtrise de SQL seront fortement appréciées.
                       Il est fortement recommandé de suivre le module 1 «ENJEUX ET PERSPECTIVES DU BIG DATA »

                       OBJECTIFS
                        Comprendre les fondamentaux du Big Data
                        Comprendre les problématiques majeures auxquelles réponds le Big Data Maîtriser les principaux outils
                         de l’écosystème Hadoop et des autres Frameworks Big Data tels qu’Apache Spark
                        Maîtriser les Bases de données NoSQL
                        Apprendre à développer des applications distribuées sur Hadoop et Apache Spark
                        Maîtriser les fondamentaux de l’analyse de données à large échelle et mise en place de traitements de
                         Machine Learning et de visualisation

                       DURÉE, DATES ET LIEUX
                        5 jours soit 35 heures (travail personnel non compris)
                        Toutes nos sessions inter-entreprises (dates et villes) sur www.fctsolutions.com
                        Intra-entreprise dans toute la France : nous déployons sur demande cette formation dans vos locaux

                       MODALITÉS PÉDAGOGIQUES ET D’ÉVALUATION
                        Remise d'un support de cours au démarrage
                        QCM de validation des acquis / Durée : 20 minutes (20 questions) et correction animée et encadrée par
                         le formateur (40 minutes) afin de s’assurer de la compréhension de chacun.
                        Cas d’usage empruntés à des problématiques existant auprès d’entreprises de la branche
                        Les travaux pratiques sont réalisés sur poste informatique.
                        Remise d'une attestation de fin de formation validant les objectifs

                                                                                                                                                                                                              1/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

            PROGRAMME DE LA FORMATION

           JOUR 1
           I. APERÇU DE L’ECOSYSTEME BIG DATA

                  Comprendre le Big Data
                  Historique et Hype Cycle du Big Data
                  Les différentes problématiques liées au Big Data
                  Classification des Frameworks et des outils Big Data par cas d’usages.
                  Les types, les sources et les volumes de données traitées par le Big Data
                  La scalabilité horizontale Vs la scalabilité verticale
                  Impact du Big Data sur les entreprises à l’échelle nationale et mondiale
                  Retour d’expérience sur l’état du marché Big Data Français : ce qui a été fait, ce qui est en train de se faire et ce qui se fera
                  à court, à moyen et à long termes

           II. APERÇU DES FRAMEWORKS ET DES OUTILS DU BIG DATA

                  Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data.
                  Historique des technologies Big Data : Google’s GFS & MapReduce.
                  Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc.
                  Classification des outils du Big Data selon leurs cas d’usage :
                          Stockage et traitement de la donnée
                          Les bases de données et la gestion des données
                          La sérialisation
                          Le management et le monitoring
                          L’analyse et la visualisation des données
                          Le transfert des données
                          La sécurité et le contrôle d’accès
                  Solutions Big Data sur le Cloud
                  Retour d’expérience sur les Frameworks et les outils Big Data utilisés : leurs avantages, leurs limites et leurs évolutions

           III. LES FONDAMENTAUX D’HADOOP

                  1.     Introduction à Hadoop
                            Historique d’Hadoop
                            Caractéristiques clés d’Hadoop
                            Les types de données traitées par Hadoop.
                            Architecture générale d’Hadoop
                            Comparaison d’Hadoop avec les autres systèmes (les RDBMS, Grid Computing, Volunteer Computing)

                  2.     MapReduce : Traitement simplifié de données sur des grands Clusters
                            Bref historique de MapReduce.
                            Exemple d’introduction à MapReduce
                            Aperçu de l’anatomie d’un programme MapReduce
                            MapReduce : plus qu’un paradigme de programmation (tolérance aux pannes, localisation des données, etc.)
                            APIs et langages de programmation supportés par Hadoop : API Java, Hadoop PIPES, Hadoop Streaming, Scoobi,
                            etc.

                                                                                                                                                                                                               2/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

            PROGRAMME DE LA FORMATION

           JOUR 2
                  3. HDFS : Hadoop Distributed File System
                         Bref historique de HDFS
                         Conception de HDFS
                         Concepts fondamentaux de HDFS :
                               i. Blocks
                               ii. Namenodes et Datanodes
                               iii. Block Caching
                               iv. HDFS Federation.
                               v. HDFS High Availability
                               Interagir avec HDFS
                               i. Le Shell HDFS
                               - Les commandes HDFS
                               - Manipulation des principales commandes HDFS
                               ii. L’API Java
                               - Présentation de l’API
                               - Lecture des à partir d’une Hadoop URL
                               - Lecture des données en utilisant l’API FileSystem
                               - Ecriture des données
                               - Les répertoires
                               - Interroger le Système de Fichiers
                               - Supprimer les données
                               iii. Flux de données
                               - Anatomie du processus de lecture d’un fichier
                               - Anatomie du processus d’écriture dans un fichier
                               - Cohérence du modèle
                               iv. Copier les données en parallèle avec DistCP
                               - Copie des données Intra-Cluster
                               - Copie des données Inter-Cluster
                               - Maintenir le Cluster HDFS équilibré

                  4. YARN : Gestionnaire de ressources du Cluster Hadoop
                            Bref historique de YARN : de MapReduce 1 à YARN
                            Anatomie du processus d’exécution d’une application YARN
                            Demandes de ressources
                            Durée de vie de l’application
                            Création d’une application YARN.
                            Applications pouvant tourner sur YARN : MapReduce, Spark, Tez, etc.
                            YARN vs MapReduce 1
                            Bref rappel sur le principe de MapReduce 1 : JobTracker, TaskTracker, etc.
                            Caractéristiques clés de YARN : Sacalabilité, Haute Disponibilité, Allocation dynamique des ressources, Multi-tenant
                            Ordonnancement dans YARN

                  5. Hadoop I/O : Les Entrées/Sorties dans Hadoop
                            Intégrité des données
                            Intégrité des données dans HDFS
                            LocalFileSystem.
                            ChecksumFileSystem.
                            Compression des données

                                                                                                                                                                                                              3/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

FICHE FORMATION 2019
FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

PROGRAMME DE LA FORMATION
Codecs : Compression et Décompression dans Hadoop.
Compression des données en entrée d’un traitement MapReduce.
Compression des données générées par un traitement MapReduce.
Sérialisation des données
Jour 1L’interface Writable
Les types de données Writables : IntWritable, LongWritable, Text, etc.
Créer un type de données Writable personnalisé.
I. LES QUESTIONS CLES A SE POSER LORS DE LA MISE EN PLACE D’UN PROJET BIG DATA
Les Frameworks de sérialisation : Avro, Parquet, etc.
Structures
1. Quels de données
sont les basées
différents sur des fichiers
cas d’usage de l'application ?
SequenceFiles.
2. Quelles sont les sources de données ?
MapFiles.
3. Les mesures de qualité et de performances ?
Autres formats fichiers et formats orientés colonnes.
4. Quel est le cycle de vie de la donnée ? Par quelles transformations passe-t-elle ? Comment la gouverner
?
IV. MAPREDUCE
5. Comment gérer les différentes charges de travail et héberger des projets différents sur la même
1.infrastructure
Développement ? d’une application MapReduce
L’API de
6. Quelles configuration.
sont les principaux modèles d'architecture d'un SI Big Data ? C’est quoi le "Data Lake" ?
Mise en place
7. Comment de l’environnement
dimensionner de développement.
l'infrastructure et mesurer la scalabilité du système ?
Tests unitaires avec MRUnit.
8. C'est quoi le cycle de vie d'un projet Big Data ?
Exécution d’une application MapReduce en mode local.
9. Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ?
Exécution d’une application MapReduce sur le Cluster.
10. Comparaison des
Suivre l’évolution deprincipales distributions
l’exécution d’une d’Hadoop
application : Apache
MapReduce avec laHadoop
Web UI. vs HortonWorks vs Cloudera vs
MapR Analyse des résultats d’une application MapReduce.
Analyser les logs et débugger une application MapReduce.
II. ARCHITECTURE BIG DATA
Création de Workflows de traitements et automatisation de leurs exécutions avec Oozie.

1. Limites des architectures classiques
JOUR2.3Avantages des nouvelles architectures Big Data
a. Structures différentes de données (structurées, semi-structurées et non structurées)
2. Fonctionnement de MapReduce
b. Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage
Anatomie de l’exécution d’un Job MapReduce
c.Soumission
Performances du Job.élevées du traitement de données massives sous différentes latences (Batch ou en
Streaming)
Initialisationetduscalabilité
Job. en termes de traitements
d.Attribution
Haute disponibilité
des tâches.
e.Exécution
Agilité dudessystème
tâches. et son impact positif sur son évolution et sa maintenance
f. Progrès
Impact de surl’exécution d’un
l’entreprise etJob
sa et mise à jour de en
transformation sonClient-Centric
statut.
Achèvement du Job.
3. Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donné
Echecs
a. Architecture du Data Lake et centralisation des données
Echec d’une tâche.
b. Cas d’usages basés sur le Data Lake
Echec de l’Application Master.
c.Echec
Le modèle
du Node « en couches » de données
Manager.
d.Echec
Data duLake vs DataManager.
Ressource Warehouse
Les fonctions Shuffle, Sort et Group.
4. LaExécution
qualité de latâches
des donnée (Dataquality) dans un système Big Data
a.Environnement d’exécution
Causes du problème ded’une tâchede
la qualité Map ou Reduce.
données dans les systèmes Big Data
Exécution Spéculative.
b. Mise en place de la Gouvernance Applicative pour assurer la qualité des données
Output Committers.
i. Identification des actions clés à mettre en place pour garantir la qualité de la donnée
ii. Retour d’expérience sur la mise en place de projets de gouvernance de la donnée chez des clients grands
3. Types et formats de données dans MapReduce
comptes
Les formats par défaut des Entrées et des Sorties d’un Job MapReduce.
5. LaLes formats d’entrées de MapReduce
qualité des traitements dans un système Big Data
Input Splits et Records.
a. Importance de la supervision des chaînes de traitements
Text Input.
b.Binary
Exploitation
Input. efficaces des logs et détection des anomalies en temps réelle
c.Inputs
Mise multiples
en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle
Database Input
6. Types d’architectures
Les formats de sorties Big Data selon les exigences temporelles
de MapReduce
Text Output. Batch
a.chitectures
b.Binary Output. Streaming
Architectures
c.Sorties
Lambda Multiples.
Architectures
Lazy Output.
Database Output. 4/7

13, boulevard Voltaire / 75011 Paris www.fctsolutions.com
Tél. : 01 43 67 32 52
Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
contact@fctsolutions.com

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

         PROGRAMME DE LA FORMATION
                       4. Caractéristiques de MapReduce
                                 Compteurs
                                     Compteurs intégrées.
                                     Java Compteurs personnalisés : User-Defined Java Counters.
                                     Streaming Compteurs personnalisés : User-Defined Streaming Counters.
                                 Sorting
                                     Partial Sort.
                                     Total Sort.
                                     Secondary Sort.
                                 Jointures
                                     Jointures côté Map.
                                     Jointures côté Reduce.
                                 Les principales classes de la librairie MapReduce

                JOUR 4
                V. LES DISTRIBUTIONS D’HADOOP

                       1. Présentation des principales distributions d’Hadoop
                                 Apache Hadoop.
                                 Hortonworks.
                                 Cloudera.
                                 MapR.
                                 Autres distributions d’Hadoop.

                       2. Critères de choix d’une distribution
                                 Services offerts par la distribution.
                                 Coût du logiciel.
                                 Maturité des outils et présence de la documentation.
                                 Les niveaux de support.

                       3. Présentation de la distribution HortonWorks
                                 Classification des services par cas d’usage
                                    Data Lifecycle et Gouvernance : Falcon, Atlas.
                                    Flux de données : Sqoop, Flume, Kafka, NFS, WebHDFS.
                                    Transformation des données : MapReduce, Pig, Spark.
                                    SQL : Hive.
                                    NoSQL : HBase, Accumulo, Phoenix.
                                    Streaming : Storm, Spark Streaming.
                                    Recherche : Solr.
                                    Sécurité : Ranger, Knox, Atlas, HDFS Encryption.
                                    Provisionning, Managing et Monitoring : Ambari, Cloudbreak, ZooKeeper.
                                    Ordonnancement : Oozie.
                                 Présentation de l’interface graphique HUE d’accès aux services du Cluster

                                                                                                                                                                                                             5/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

     PROGRAMME DE LA FORMATION
      VI. LES BASES DE DONNEES DISTRIBUEES & NOSQL

                       1.     Introduction au NoSQL.

                       2. Les types de Bases de Données NoSQL
                             Les Bases de Données orientées Colonnes : HBase, Cassandra, Accumulo, etc.
                             Les Bases de Données orientées Documents : MongoDB, Couchbase, CouchDB, etc.
                             Les Bases de Données orientées Clé-Valeur : Redis, Riak, Voldemort, etc.
                             Les Bases de Données orientées Graph : Neo4J, InfiniteGraph, mapgraph, etc.

                       3. Les propriétés ACID des bases de données.

                       4. Outils d’ingestion : Sqoop, Flume, Nifi, etc.

                       5. Outils pour requêter les données
                             Hive.
                             Impala.
                             Autres outils pour requêter les données.

                       6. Analyse de données en mode Batch avec Hive
                         Introduction à Hive
                         Architecture de Hive
                         HiveQL : Hive Query Language
                         Interaction avec Hive
                         -    Shell Hive.
                         -    Connexions JDBC et ODBC.
                         -    Actions Oozie.
                    Formats de données et compression de données dans Hive.

                       7. Analyse de données en temps réel avec Impala
                             Introduction à Impala.
                             Architecture d’Impala.
                             Impala SQL Language.
                             Interaction avec Impala
                             -    Shell Impala.
                             -    Connexions JDBC et ODBC.
                             -    Actions Oozie.
                             Formats de données et compression de données dans Impala

                       8. Manipulation des données en temps réel avec HBase
                             Introduction à HBase.
                             Concepts de base et Architecture de HBase.
                             Interaction avec HBase
                             -    Java
                             -    MapReduce.
                             -    Spark.
                             -    Rest et Thrift.
                             HBase vs RDBMs

      JOUR 5
      VII. ANALYSE DE DONNEES AVEC APACHE SPARK
               Introduction à Spark.
                          Historique de Spark : d'un "Apache incubator project" à un "Apache top level project".
                          Architecture générale de Spark.
                          Les principales opérations et APIs de Spark.
                       Problématiques auxquelles répond Spark
                          Langages de programmation supportés par Spark : Scala, Java, Python, R.
                          Spark vs Hadoop.                                                                                                                                                                      6/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

FICHE FORMATION 2019
                                                                                                                                                                                                   FORMATION
DEVELOPPER DES APPLICATIONS BIG DATA ET LA DATA VISUALISATION

     PROGRAMME DE LA FORMATION
                       Analyse de données avec Spark
                             Limites des outils classiques d'analyse de données.
                             Comment peut-on utiliser Spark pour faire de l'analyse de données à large échelle.
                             Comment utiliser le calcul distribué pour l'exploration des jeux de données.
                             Spark en pratique : systèmes de recommandations, log mining, reconnaissance d'entités nommées, etc.
                             Utilisation du langage R sur Spark avec SparkR.

                       Machine Learning à large échelle avec Spark
                            Les éléments algorithmiques et statistiques requis pour le développement de solutions de Machine Learning à
                          large échelle.
                            Aperçu sur les principales problématiques et techniques de la machine learning.
                            Utilisation de Spark pour la résolution de ces problématiques.
                            Spark en pratique : comment implémenter des algorithmes distribués pour les principaux modèles statistiques en
                          utilisant Spark.

                       Machine Learning à large échelle avec Spark : Niveau avancé
                             Conception et mise en place de solutions distribuées pour différents types de Machnine Learning tels que
                          l'apprentissage supervisé et l'apprentissage non-supervisé.
                             La distribution du modèle (Model Parallelism) et les compromis à trouver entre le calcul et la communication dans
                          un contexte distribué.

                          Etat de l'art sur les algorithmes distribués pour le filtrage collaboratif, les arbres de décision, les Random Forests,
                        le Custering, le Topic Modeling et l'Hyperparameter Tuning.
                          L'implémentation de ces algorithmes en utilisant la libraire MLib de Spark et le package spark.ml.
                       Spark avancé pour la data science et le data engineering
                          Les principaux cas d'usage de Spark.
                          Etude approfondie de l'architecture de Spark.
                          Etude approfondie des détails internes de Spark tels que la fonction Shuffle, le Catalyst Optimizer (framework
                        d'optimisation de requêtes) de Spark SQL et le projet Tugsten.
                          Spark Streaming.
                          Spark ML et Spark MLib

      VIII. TRAVAUX PRATIQUES

             Description du jeu de données utilisé
             Le jeu de données utilisé « International_airline_activity_Australia.csv » (5.8 MB), est publié par le « Département des
             Infrastructures et du Développement régional du Gouvernement Australien ». Il contient des données (Aéroport, Ville de
             départ, Airline, Pays de destination, Ville de destination, date, etc.) sur des réservations de billets d’avions à l’échelle
             internationale1.
             Dans tous les TPs, nous utiliserons le même jeu de données afin de pouvoir voir l’impact de l’utilisation d’outils différents sur
             les différents facteurs clés liés aux traitements Big Data

             TP 1 : Création d’un programme Java MapReduce tournant sur Hadoop 2.x en local mode et en mode distribué
             TP 2 : MapReduce Streaming sur Hadoop 2.x local mode et en mode distribué
             TP 3 : Interaction avec HDFS en utilisant le Shell HDFS et l’API Java
             TP 4 : Manipulation des SequeceFiles avec MapReduce sur Hadoop 2.x en mode pseudo-distribué et en mode distribué
             TP 5 : Manipulation des AvroFiles sur Hadoop 2.x en mode pseudo-distribué et en mode distribué
             TP 6 : Job chaining avec JobControl + custom Writable
             TP7 : Analyse des données en mode Batch avec Apache Hive TP 8 : Analyse des données en temps réel avec Cloudera Impala (Si
             la distribution d’Hadoop adoptée sera Cloudera)
             TP 9 : Analyse de données avec Apache Pig et stockage dans HBase
             TP 10 : Transfert des données entre Hadoop et MySQL avec Apache Sqoop
             TP 11 : Analyse de données avec Apache Spark
             TP 12 : Industrialisation et automatisation des traitements à l’aide d’Apache Oozie.

                                                                                                                                                                                                                  7/7

  13, boulevard Voltaire / 75011 Paris                                                                                                                                   www.fctsolutions.com
  Tél. : 01 43 67 32 52
                                       Organisme de formation et de certification - SARL au capital de 100 000 euros / Siret n° 450 005 459 00034 / Enregistrement (ce numéro ne vaut pas agrément) n° 11 75 38 056 75
  contact@fctsolutions.com

Vous pouvez aussi lire