Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data

La page est créée Enzo Rodrigues
 
CONTINUER À LIRE
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Abdelkrim Hadjidj
                                                          Architect Big Data
                                                          Responsable offre Big Data
                                                          Abdelkrim.hadjidj@fastconnect.fr

Your business technologists. Powering progress   © Confidential
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Sommaire

   1   Introduction

   2   Big Data Uses Cases

   3   Les Technologies Big Data

       Ingestion des données

       Stockage des données

       Traitement des données

       Analyse & restitution des données

                                           2
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Big Data ?

▶ Être capable de gérer les nouvelles formes de données
  – Provenant de différentes sources (réseaux sociaux, capteurs machines,
     mobiles, centres d’appels, …)
  – Ayant différentes structures ou souvent non structurés
▶ Être capable d'en extraire les connaissances cachées afin de les réutiliser pour
  augmenter la performance des métiers

▶ Dérivations du BIG DATA
  – SMART DATA
  – FAST DATA

  « Ceux qui contrôleront les données et sauront
  les utiliser détiendront la valeur ajoutée »
  Une référence au GAFA : Google, Apple, Facebook, Amazon

                                                3
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Les 5 V du Big Data

volume : calcul à                   véracité des
moindre coût sur des                informations et
volumes de données                  traçabilité
toujours plus grands                des sources

                               vélocité : une vitesse
     variété : données
                               de traitement pouvant
     internes / externes
                               aller jusqu’au temps
     structurées ou non
                               réel

                           4
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Des idées remises en question

                Totalité des
                 données                Données brutes

              Exploration globale        Temps réel

                                    5
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
La donnée, une matière première abondante
et de différents types

Externes

                                      IoT
            Fournisseurs de         Réseaux
               données              sociaux
                 B2B                  Web
                                   Open Data

                                   CMS
            DataWarehouse      Email, Chat,
                ODS             Stockage,
                CRM              Réseaux
                 ERP             sociaux
                               d’Entreprise
                                   non
Internes      Structurées      Structurées
                               6
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Questions à se poser

                                               •   Approche Batch, Temps réel ?
                                               •   Structurées ou non ?
                                               •   Volume ? Historique ?
                                               •   Sécurité ?

•   Simple (meta) ?
•   Complexe
    (annotations,
    corrélations) ?
•   Recherche                                         •   Quelle représentation de
    (taxonomie,                                           la réalité (descriptif) ?
    sémantique) ?                                     •   Quels algorithmes à
                                                          exécuter pour le prédictif
                                                          ?
•   Délai de restitution de la
    valeur métier ? s/mn/h ?
•   Outil de DataViz multi
    dimensions
•   Rapports dynamiques ?
•   Outil de recherche « full text »
    et sémantique ?
•
    7   | 12-02-2015 | © Highly Confidential
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Sommaire

   1   Introduction

   2   Big Data Uses Cases

   3   Les Technologies Big Data

       Ingestion des données

       Stockage des données

       Traitement des données

                                   8
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Big Data Uses Cases
Transformer les données en valeur métier

  Advaced,
 innovative
  solutions
     for      SMART MACHINES DYNAMIC PRICING     CUSTOMER 360° OFFRES PREDICTIVEs
  ultimate
  business
  Insights

               OPTIMISATION    MAINTENANCE        DETECTION DES   SURVEILLANCE DU
                                                     FRAUDES          RISQUE

                                             9
Abdelkrim Hadjidj Architect Big Data Responsable offre Big Data
Vision 360°

Utilisateur 1
                           Utilisateur 3        Utilisateur 1
           Utilisateur 2                                                   Utilisateur 3
                                                           Utilisateur 2

                                                            Data Lake

                                           10
Analyse prédictive d’incidents techniques

 Source de                                  Supervision
                      Plateforme
  données                                        &
                       Big Data
 Capteurs                                   Intervention

                 Flat files

                                   11
Détection de fraudes

▶ Objectif :
  – Détecter les fraudes en temps de réel sur
    un gros flux d’évènements
  – Changer les patterns de fraude à chaud
  – Identifier de nouveaux patterns sur un
    large historique
  – Déclencher des actions automatiques
    suite à une fraude

▶ Solution In-Memory + Big Data:
  – Architecture in-memory scalable avec un
    CEP pour la détection en temps réel
  – Hadoop et machine learning pour
    identifier des patterns.
  – Visualisation à l’aide de dashboard.
  – Alimentation d’un outil de gestion de
    fraude (BPM)

                                                12
Analyse de logs applicatifs

▶ Objectif :
  – Centralisation d’un gros volume de logs
  – Analyse du comportement des utilisateurs
  – Analyse des performances de l’application           Logs
  – Aide au troubleshooting
  – Détection des attaques et risques sur la sécurité
  – Être plus proactif que réactif                             Hadoop

▶ Solution avec Hadoop ELK :
  – Collecte des logs en temps réel avec Logstash
  – Traitement et analyse avec Hadoop
  – Indexation et recherche avec ElasticSearch
  – Dashboard avec Kibana
  – Scalabilité horizontale

                                              13
Sommaire

   1   Introduction

   2   Big Data Uses Cases

   3   Les Technologies Big Data

       Ingestion des données

       Stockage des données

       Traitement des données

       Analyse & restitution des données

                                           14
Les étapes du projet

                                               (2) Raffinement,
                                                  traitements

     WWW

       (1) Collecte d’une                                             (3) Réalisation d’un
      source de données                                               rapport / Dashboard
                                            Plateforme BigData

                                            (0) Mise en place d’une
                                              plateforme BigData

                                                 (4) Feedback

15 | 12-02-2015   | © Highly Confidential
Plusieurs solutions pour différents besoins

                          Hadoop ecosystem
       Data ingestion                          NoSQL
                            Batch analysis

                             Fast Data
       Full Text Search                       Analytics
                             Real-Time

                                         16
C’est quoi Hadoop ?

▶ Solution Open Source Big Data fournissant un socle
  – Distribué
  – Scalable
  – Pour du stockage et du traitement distribué

▶ Les origines d’Hadoop
  – Basé sur les publications de Google concernant leur
   système d’indexation
  – Initié par Doug Cutting, auteur de Lucène
  – Projet officiel Apache depuis 2009

▶ Distributeurs
  – Fondation Apache
  – Cloudera
  – MapR
  – HortonWorks
  – …
                                             17
Architecture Hadoop

                                             Streaming/   Traitements
                                Requêtage

                                                                        Supervision et Management
            Intégration au SI                In-memory      avancés

 SQL
                                Framework de traitement distribué

                                        Stockage distribué

                                              18
Architecture Hadoop

                        Pig
                                 Spark      Mahout
                       Hive
          Sqoop                  Storm      Giraph
                      Impala
                                                       Hue
           Flume
 SQL                                                 Zookeeper
           Kafka               MapReduce               Oozie
                               YARN (v2)
           Web-                                       Ranger
           HDSF
                                           HBase        …
            CLI
                                 HDFS

                                 19
Hadoop HDFS

              Serveur Master /
                 Scheduler
Application

                             20
Hadoop MapReduce

                   Serveur Master /
                      Scheduler
Application

                                  21
Requêtage

                                                          Meta-
                                  (schéma à la demande)
                                                          data
            SQL

                          HIVE / Pig / Impala / etc.

                  Extraction                      Extraction
                  Filtre etc.                     Filtre etc.

                         22
Sqoop

▶ Sqoop est un outil d’import/export entre
  – Bases de données relationelles et NoSQL et
  Data warehouse
  – HDFS, Hive, HBase

▶ Principes:
  – Utilise JDBC pour se connecter aux bases de données
  – Génère des jobs MapReduce
  – Permet également d’importer des dumps MySQL et PostgreSQL

▶ Cas d’usage
  – Alimenter le data warehouse Hive avec les données clients issues du CRM
  – Exporter les résultats d’analyses dans une base Oracle

                                            23
Flume

▶ Flume est un outil permettant de collecter, agréger et déplacer de larges
  volumes de logs dans HDFS
▶ Une architecture distribuée, basée sur des topologies d’agents et collecteurs
▶ Cas d’usage
  – Collecter les logs des plateformes de production
  – Collecter des données métiers au fil de l’eau

                                              24
Le NoSQL

▶ NoSQL = « Not only SQL »

▶ Des caractéristiques communes
  – Stockage distribué, tolérant à la panne par réplication
  – Relâchement de la contrainte de Cohérence
  – Support d’un nombre de transactions/seconde très important (tps) en
    conservant une latence faible (ms)

                                            25
Les types des bases NoSQL

                            26
Search

  Text
  Data
(PDF, Email,          Search
   etc.)            Web Portal

               27
Big Data in-memory

▶ Hadoop n’est pas adapté aux traitement avec plusieurs passes
  – Chaque itération est un « Map-Reduce »
  – Les données sont stockées sur disque à chaque itération
  – Lenteur d’exécution

    Distributed Memory

                                            28
Storm: traitement de streams Big Data

▶ Traitement au fil de l’eau de gros volume de données
issues de flux temps réél

▶ Storm est
  – Scalable: plusieurs milliers de workers
  – Tolérant aux pannes: ré-assignement des tâches suite à un échec
  – Fiable: traitement de chaque message au moins une fois ou exactement une
    fois
  – Rapide: in-memory

▶ Concepts
  – Spout
  – Bolt
  – Topology

                                             29
Analyse des données

▶ L’analyse des données fait appel à plusieurs disciplines
  – Statistiques et mathématique
  – Business Intelligence                                    Chord diagram
  – Data Science
  – Visualisation
  – …

                                                             Nuage de mots

                                               30
Différentes données, différentes solutions

                                 31
Merci

       Pour plus d’information, merci de contacter:
                     Abdelkrim Hadjidj
                    +33 6 50 55 67 99
            abdelkrim.hadjidj@fastconnect.fr

Atos, the Atos logo, Atos Consulting, Atos Worldline, Atos Sphere, Atos
Cloud and Atos WorldGrid are registered trademarks of Atos SA. 2015

© 2015 Atos. Confidential information owned by Atos, to be used by the
recipient only. This document, or any part of it, may not be reproduced,
  copied, circulated and/or distributed nor quoted without prior written
                           approval from Atos.

                                        32
Vous pouvez aussi lire