Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel

 
CONTINUER À LIRE
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
UMR 5205 CNRS

                                    Big Data
L’émergence d’un nouveau métier de Data Scientist
                                                                      Haytham Elghazel
     Laboratoire d’InfoRmatique en Image et S ystèmes d’information
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
Le Business Intelligence

                           2
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
Pour résumer
But du BI : fournir la bonne information au bon
moment, dans le bon format et à la bonne
personne
 Que s’est-il passé (constat)
 Que se passe t’il
 Pourquoi est ce arrivé
 Que va t’il se passé               Data Mining

 Que désirons nous qu’il se passe

                                                  3
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données
Les 20 dernières années : des grands investissements
dans les infrastructures des entreprises, augmentant
leurs moyens de collecte de données
Chaque service est maintenant ouvert à la collecte
des données mais aussi instrumentalisé pour la
collecte des données: production, logistique,
propriétés ou profils des consommateurs, compagnes
de marketing, etc..
En même temps, l’information est maintenant
largement disponible sur des évenements en dehors
des entreprises : les tendances du marché, les
nouveautés de l'industrie, et les comportement des
concurrents.

                                                       4
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données : Linky

Le nouveau compteur intelligent Linky

  Un projet Smart Grid : Linky est l’objet
  connecté qui sera déployé dans 35
  millions de foyers français d’ici 2020.

  Un suivi de la consommation toutes les
  10 minutes : Big Data par excellence

  C’est aussi pour prévoir le pics de consommation, éviter le
  lancement de centrales électriques, détecter les fraudes

                                                           5
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données : Linky

Linky peut-il aussi savoir quel appareil ménager j’utilise ?
combien de téléviseurs je possède ? A quelle heure je prends
ma douche ? mes habitudes et donc mon profil de
consommateur : Une publicité adaptée

                                                           6
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données : Freebox

La Freebox Révolution

  Peu de données à la signature
  d’un contrat

  Et après …

    Plein de nouvelles données : à quel heure vous rentrez chez
    vous, à quel heure vous couchez, vos préférences télé, etc.
    Une bonne analyse de vos habitudes conduira à vous
    recommander la bonne chaine au bon moment (le client est
    satisfait mais le FAI aussi)

                                                            7
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données : les applis mobile

Nouvelles applications Web/mobiles :
La recommandation ou la publicité
n’est plus fonction du profil d’un client
ou de sa manière de naviguer
Mais plutôt de sa ressemblance aux
autres clients
Quant ces nouvelles applications
deviennent des plateformes
collaboratives (Collaborative filtering)

                                             8
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
L'omniprésence des données : les applis mobile

                                             9
Big Data L'émergence d'un nouveau métier de Data Scientist - Haytham Elghazel
Un enjeu : l’entreprise étendue

                                  10
Quelles données ?
Prolifération des données
  90% des données dans le monde ont été créées au cours des deux
  dernières années seulement

  données produites principalement par le Web, les grands acteurs
  d’Internet, les réseaux sociaux

Type de données
  données structurées (données relationnelles), peu structurées (XML) ou non
  structurées (textes, images, etc.)

Volumétrie des données
  grandes quantités de données, données continues (datastreams)

                     Avènement du Big data
                                                                          11
Avènement du Big data
Le big data (données massives), désigne des données
tellement volumineuses qu'elles en deviennent difficiles à
travailler avec des outils classiques de gestion de base de
données ou de traitement de l'information.

Dans ces nouveaux ordres de grandeur, la collecte, le
stockage, la recherche, l’administration, le partage,
l'analyse et la visualisation des données doivent être
redéfinis au sein de notre activité.

Selon les experts et les grandes institutions, le phénomène
du big data s’annonce comme l'un des grands défis
informatiques de cette décennie et en ont fait une de leurs
nouvelles priorités de recherche et de développement.

                                                              12
Certains disent que Big Data s’écrit avec
                1, 2, 3 «V»

                                        13
Pour d’autres, le Big Data est avant tout
               une force..
Cette large disponibilité des données rend leur
exploitation indispensable aux entreprises en vue
d’améliorer la compétitivité.
Au même moment, les ordinateurs sont de plus en
plus performants, les réseaux informatiques de
plus en plus omniprésents, et les algorithmes sont
de plus en plus développés de manière à pouvoir
travailler sur différents fragments des données
La convergence de tous ces phenomènes a
donné lieu à la forte demande des entreprises
pour l’application des outils de data mining : On
parle ici du Big Data Analytics

                                                     14
Quelles perspectives pour le Big Data Analytics ?

Des outils de Datamining qui offrent une analyse
plus poussée des données permettant de
découvrir de nouvelles connaissances et donc de
nouveaux besoins :
 la détection de tendances pour la recommandation
 l’établissement de typologies et de segmentations
 ou encore des prédictions ou des prévisions
Les perspectives du traitement des big data sont
énormes et pour partie encore insoupçonnées. Il
peut aider les entreprises à réduire les risques et
faciliter la prise de décision

                                                      15
L’Analytics s’est étendu, des simples
 données d’entreprise au Big Data

  Volume                             Vitesse                                  Varieté

 12               terabytes
   de Tweets créés quotidiennement
                                      5         millions
                                      de transactions commerciales
                                      par seconde
                                                                              100’s
                                                                               en provenance de caméras
                                                                               de surveillance
                                                                                                          de flux
                                                                                                          vidéo

Analyse de sentiment et d’opinions   Identification de fraudes potentielles   Surveillance / Analyse comportements

  180               Millions
   de dossiers de prêts par jour
                                      500                 millions
                                      d’enregistrement d’appels
                                                                               80%                 des données
                                                                                                   créées

                                                                              sont des images, des vidéos, des
                                      chaque jour                             documents, courriers, e-mail, …
   Découvrir les risques cachés        Prévention de l’attrition client       Amélioration de la satisfaction client

 16
Et quelles solutions ?

Un problème : les données deviennent de plus en
plus volumineuses. Les algorithmes de Data Mining
classiques se trouvent donc impuissants devant une
telle situation.
La solution : parallélisation massive du processus
d’analyse.
 Paradigme MapReduce patron de développement
 informatique popularisé par Google et utilisé dans le
 framework Hadoop (High-availability distributed object-
 oriented platform)

 Hadoop offre une solution idéale et facile à
 implémenter au problème.

                                                           17
La solution : Apache Hadoop
Projet de la fondation Apache
Plate-forme Open Source, composants complètement ouverts,
tout le monde peut participer.
Un système de fichier distribué : Hadoop Distributed File System
(HDFS)
Modèle simple pour les développeurs: il suffit de développer des
tâches MapReduce, depuis des interfaces simples accessibles
via des librairies (API) dans des langages multiples (Java, Python,
etc.).
Déployable très facilement (paquets Linux pré-configurés),
configuration très simple elle aussi.
S'occupe de toutes les problématiques liées au calcul distribué,
comme l’accès et le partage des données, la tolérance aux
pannes, ou encore la répartition des tâches aux machines
membres du cluster : le programmeur a simplement à s'occuper
du développement logiciel pour l'exécution de la tâche.
                                                                 18
Utilisateurs d’Hadoop

                        19
Utilisateurs d’Hadoop par taille du cluster

                                          20
Une technologie en plein essort
Pour exécuter un problème large de manière distribué, il
faut pouvoir découper le problème en plusieurs
problèmes de taille réduite à exécuter sur chaque
machine du cluster.
De multiples approches existent et ont existé pour cette
division d'un problème en plusieurs « sous-tâches ».
MapReduce est un paradigme (un modèle) visant à
généraliser les approches existantes pour produire une
approche unique applicable à tous les problèmes.
MapReduce existait déjà depuis longtemps mais la
présentation du paradigme sous une forme rigoureuse,
généralisable à tous les problèmes et orientée calcul
distribué a été popularisé par google en 2004.

                                                      21
Le modèle MapReduce

Une transparence pour le programmeur :
 une parallélisation automatique sur l’ensemble
 d’unités de calcul en terme de :
  distribution des traitements
  distribution des données

 équilibrage de charge
 stockage et transfert de données
 tolérance aux pannes
 éviter les goulots d’étranglement

                                             22
MapReduce: les différentes étapes

On distingue donc 4 étapes distinctes dans un traitement
MapReduce:

 Découper (split) les données d'entrée en plusieurs fragments.
 Mapper chacun de ces fragments pour obtenir des couples
 (clef ; valeur).
 Grouper (shuffle) ces couples (clef ; valeur) par clef.
 Réduire (reduce) les groupes indexés par clef en une forme
 finale, avec une valeur pour chacune des clefs distinctes.

En modélisant le problème à résoudre de la sorte, on le rend
parallélisable

                                                            23
Flux de données MapReduce

                            24
Au dela du MapReduce

Pour le Big Data analytics : de nouvelles alternatives
et des nouveaux outils de la fondation apache
développés autour d’Hadoop (Spark, Flume, Pig,
Mahoot, Zeppelin.)

                                                    25
L’émergence du métier de Data Scientist

 Un métier avec une démarche empirique qui se
 base sur des données pour apporter une
 réponse à des problèmes
  Imaginons un problème ou une question
  Collecter les données
  Préparer les données
  Concevoir un modèle de Data Mining adapté
  Optimiser le modèle
  Visualiser et comprendre les résultats
  Déploiement, industrialisation
                                                26
Data Scientist
Data scientist: A person who is better at statistics than
any software engineer and better at software
engineering than any statistician

                                                            27
Data Scientist
Faire parler les données

Donner du sens aux données
brutes, trouver leur logique sous-
jacente et en déduire des faits
importants sur l’environnement de
l’entreprise

Partager ces découvertes avec les
responsables métier pour leur
permettre de prendre des décisions
pertinentes.

                                     28
Data Scientist
“Data scientist : The sexiest Job of the 21th
Century”
    T.H. Davenport, DJ. Patil, Harvard Business Review, oct. 2012.

Le rôle du data scientist gagne en importance
dans les entreprises

Dans les 10 prochaines années, le profil data
scientist sera très recherché

                                                                     29
Vous pouvez aussi lire