11 Objectifs et principes du - Machine Learning - CentraleSupelec

La page est créée Christophe Fischer
 
CONTINUER À LIRE
11 Objectifs et principes du - Machine Learning - CentraleSupelec
29/05/2018

Big Data : Informatique pour les données et calculs massifs

     11 – Objectifs et principes du
          Machine Learning

                     Stéphane Vialle

           Stephane.Vialle@centralesupelec.fr
           http://www.metz.supelec.fr/~vialle

  Objectifs du « Machine Learning »
  Taxonomie des algorithmes
  Entrainement, validation et tests
  Evaluation et métriques de performances
  Problèmes liés à la grande dimension

                                                              2

                                                                          1
29/05/2018

        Objectifs du Machine Learning
Le Machine Learning (ML) est un ensemble :
   • d’outils statistiques,
   • d’algorithmes informatiques
   • et d’outils informatiques
   qui permettent d’automatiser la construction d’une fonction de
   prédiction f à partir d’un ensemble d’observations (l’ensemble
   d’apprentissage)

    Le ML est une discipline hybride à cheval sur les mathématiques
     (statistiques essentiellement) et l’informatique (algorithmique,
     codage performant et large échelle)

                                                                    3

        Objectifs du Machine Learning
Un modèle de Machine Learning est un algorithme qui permet de
construire une fonction de prédiction f à partir d’un jeu de données
d’apprentissage :
   • La construction de f constitue l’apprentissage ou l’entrainement
     du modèle
   • Une prédiction correspond à l’évaluation de la fonction de
     prédiction sur les variables prédictives d’une observation x : f(x)

                                                                    4

                                                                                   2
29/05/2018

        Objectifs du Machine Learning
L’objectif du Machine Learning est de trouver des corrélations :
   • L’objectif n’est pas de trouver des causes en examinant une
     chronologie (comme dans une démarche scientifique)
   • Mais d’identifier des corrélations pertinentes entre les variables
     prédictives des observations et les variables cibles

    Rien n’impose qu’une variable prédictive soit la cause d’un
     phénomène décrit par une variable cible

   Par exemple, il y a une corrélation entre :
      • la couleur des dents d’un fumeur (variable prédictive, observation)
      • et le taux de goudron dans ses poumons (variable cible)
   Mais la couleur de ses dents n’est pas la cause de l’état de ses
   poumons!                                                           5

        Objectifs du Machine Learning
L’objectif du Machine Learning est de trouver des corrélations :
   Certains modèles peuvent expliquer leur processus
    « Expliquer leur raisonnement » (ex : arbre de décisions)
   Mais la plupart du temps il faut se contenter de détection de
   corrélations sans explications, car le ML ne cherche pas des
   relations de cause à effet (en fait il ne raisonne pas!).

                                                                      6

                                                                                      3
29/05/2018

        Objectifs du Machine Learning
Compétences et rôle du data scientist :
   Avoir une double connaissance pour choisir un bon modèle :
     • Connaissance du problème métier que l’on veut modéliser
     • Connaissance des hypothèses présupposées par chaque
        algorithme

   Etre capable de choisir le bon outil/algorithme de ML

   Etre capable de guider le processus d’apprentissage :
     • En explorant et préparant les données
     • En choisissant certaines variables prédictives plus significatives

     Rmq : La visualisation des données est souvent primordiale pour
           être capable d’améliorer le processus d’apprentissage
                                                                             7

        Objectifs du Machine Learning
Qualités d’un bon algorithme de ML en environnement industriel
   Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014
   • Déployabilité : être capable de passer à l’échelle sur un
     environnement distribué
      Un algorithme complexe qui ne passe pas à l’échelle ne sera probablement
      pas utile !
   • Robustesse : supporter des données incohérentes et
     incomplètes, des données du monde réel.
      Les algorithmes très pointus mais très sensibles aux données « sales » ne
      seront pas applicable facilement.
      Ne pas être trop sensible aux données aberrantes est un atout si on ne peut
      pas bien préparer les données.
   • Transparence
   • Adéquation aux compétences disponibles
   • Proportionnalité                                                        8

                                                                                            4
29/05/2018

         Objectifs du Machine Learning
Qualités d’un bon algorithme de ML en environnement industriel
   Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014
   • Déployabilité
   • Robustesse
   • Transparence : détecter automatiquement une dégradation des
     performances de l’application quand le processus
     d’apprentissage progresse !
       Reboucler avec une évaluation globale de l’application … pas simple.
       Très utile pour les algorithmes d’apprentissage continu « online »
   • Adéquation aux compétences disponibles : ne pas exiger
     d’expertise trop poussée pour l’implantation et l’optimisation
       Les statisticiens/data scientists ne sont pas des informaticiens, et
       réciproquement ! Si un algorithme nécessite des compétences pointues en
       Math et en Informatique, il va coûter cher… Même pb en HPC
                                                                              9
   • Proportionnalité

         Objectifs du Machine Learning
Qualités d’un bon algorithme de ML en environnement industriel
   Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014
   •   Déployabilité
   •   Robustesse
   •   Transparence
   •   Adéquation aux compétences disponibles
   •   Proportionnalité : le temps et l’argent investis dans un
       algorithme de ML ou dans son optimisation doivent être
       proportionnels au gain obtenu
       Souci classique, mais révélateur de mauvaises expériences !

  Ces « qualités » en environnement industriel révèlent les difficultés
  / mauvaises surprises déjà rencontrées. L’analyse de données (Big
  Data) est toujours très prometteuse, mais la période utopique est
  terminée.                                                        10

                                                                                          5
29/05/2018

          Objectifs du « Machine Learning »
          Taxonomie des algorithmes
          Entrainement, validation et tests
          Evaluation et métriques de performances
          Problèmes liés à la grande dimension

                                                                            11

           Taxonomie des algorithmes
Deux axes de classement des algorithmes de ML
   • Le mode d’apprentissage :
          algorithmes supervisés et non‐supervisés
   • Le type de problème traité pour les algorithmes supervisés
           algorithmes de régression et de classification

           Algorithme            Mode d’apprentissage   Type de problème
   Régressions linéaires,             Supervisé            Régression
   polynomiales et régularisés
   Naïve Bayes                        Supervisé           Classification
   Arbre de décision                  Supervisé          Régression ou
                                                         classification
   Clustering hiérarchique          Non‐supervisé        (classification)
   ….
                                                                            12

                                                                                         6
29/05/2018

            Taxonomie des algorithmes
Mode d’apprentissage supervisé :
  • Les données sont des ensembles de couples entrée‐sortie
  • Les sorties peuvent être
      • des mesures observées
           (ex. sorties de capteurs)
      • des indications d’experts
           (ex. insuffisant/superficiel/maitrisé/expert)
  • Ces algorithmes cherchent à mettre au point/à apprendre une
    fonction de prédiction qui associe les entrées aux sorties

                                                                            13

            Taxonomie des algorithmes
Mode d’apprentissage supervisé :
   Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien
   identifiables et disjoints

      x2                                On va introduire une variable de plus :
                                        l’Id du groupe de sortie (0 ou 1)
                            gr 1        Et l’algorithme « apprendra » des
                 gr 0
                                   x1   couples : ((x1,x2), grId)

   L’algorithme mettra au point une fonction de prédiction
              f : (x1,x2)  grId
   qui tentera de répondre correctement pour tous les points
   sur lesquels on l’aura entraîné, mais aussi sur d’autres points          14

                                                                                          7
29/05/2018

           Taxonomie des algorithmes
Mode d’apprentissage non‐supervisé :
  • Les données sont uniquement des ensembles d’entrées
  • Les algorithmes cherchent à organiser tous seuls les données en
    groupes
  • Ces algorithmes cherchent aussi à mettre au point / à apprendre
    une fonction de prédiction d’un groupe de sortie
  • Certains décident seuls du nombre de groupes, d’autres peuvent
    être contraint pour construire k groupes ou des groupes d’un
    rayon maximal
  Rmq : ici l’apprentissage ne se fait plus à partir d’une indication
  fournie par un expert, mais seulement à partir de fluctuations dans
  les valeurs d’entrée
                                                                   15

           Taxonomie des algorithmes
Mode d’apprentissage non‐supervisé :
   Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien
   identifiables et disjoints

      x2                        On n’introduit aucune variable
                                supplémentaire
                        gr 1    Et l’algorithme construira tout seul des
               gr 0             groupes de points d’entrée à partir de
                          x1    leurs seules coordonnées (x1, x2)

   L’algorithme mettra toujours au point une fonction de prédiction
              f : (x,y)  grId
   qui tentera de répondre correctement pour tous les points
   sur lesquels on l’aura entraîné, mais aussi sur d’autres points 16

                                                                                   8
29/05/2018

              Taxonomie des algorithmes
Algorithmes supervisés de régression et de classification
   • Dans le cas des algorithmes supervisés de régression
     la sortie peut prendre une infinité de valeurs (réelles)
   • Dans le cas des algorithmes supervisés de classification
     la sortie peut prendre un ensemble fini de valeurs (ex : {1,…k})
        (ce sont les « étiquettes » des valeurs d’entrée)

    €                                       Décision
                                              Admis

                              m²             Refusé
                                                            Note d’examen
     Prix(taille en m²)                     Décision(note d’examen)
      Problème de régression                Problème de classification
       pour estimer le prix                   pour décider l’admission ou le refus
                                                                                17

             Objectifs du « Machine Learning »
             Taxonomie des algorithmes
             Entrainement, validation et tests
             Evaluation et métriques de performances
             Problèmes liés à la grande dimension

                                                                                18

                                                                                             9
29/05/2018

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche de base :
     Soit m l’ensemble des observations disponibles
      On le coupe en deux :
       • mentrainement : 70% de m
       • mtest         : 30% de m
      On entraine le modèle sur mentrainement, et on le teste sur mtest
     Mais en fait on entre dans une boucle d’optimisation :
                  mentrainement               mtest
                entrainement                  test

                              réglage modèle
      on optimise le modèle en affinant ses paramètres             19

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche de base :
                   mentrainement               mtest
                 entrainement                  test

                                  réglage modèle

          On risque d’optimiser le modèle pour les observations
           de test (mtest) !!

                                                                    20

                                                                                  10
29/05/2018

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche améliorée :
    Soit m l’ensemble des observations disponibles
      On le coupe en trois :
       • mentrainement : 60% de m
       • mtest         : 20% de m               Pour la boucle d’optimisation
       • mvalidation : 20% de m
     Une fois le modèle optimisé et entrainé, on valide (ou non) sa
     généricité sur un jeu de données encore jamais utilisé
           mentrainement                 mtest                mvalidation
         entrainement                    test               validation

                       réglage modèle
                                                                            21

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche par validation croisée :
      On coupe toujours l’ensemble des observations en trois :
       • mentrainement : 60% de m
       • mtest         : 20% de m   Pour la boucle d’optimisation
       • mvalidation : 20% de m

 On isole les données de mtest, mais on utilise les autres données
 pour participer tantôt à mentrainement et tantot à mvalidation

                  mentrainement         mtest          mvalidation
                entrainement            test          validation

                            réglage modèle
                                                                            22

                                                                                        11
29/05/2018

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche par validation croisée : « leave‐k‐out cross‐validation »
        • mtest         : 20% de m
        • mentrainement : 80% de m – k observations
        • mvalidation : k observations
 On réalise toutes les combinaisons possibles : N = Ck80%
 Les N erreurs calculées sont utilisées pour évaluer la performance
 globale du modèle
 Approche méthodique mais longue !
                     mentrainement            mtest        mvalidation
                   mentrainement                         mvalidation
                 mentrainement
                    entrainement
                                               test    mvalidation
                                                          validation
                 entrainement                test      validation            Ck80%
                entrainement               test       validation
                                 réglage modèle
                                réglage modèle
                              réglage modèle                                     23

      Entrainement, validation et tests
Segmentation de l’ensemble des observations disponibles
 Approche par validation croisée : «k‐fold cross‐validation »
    • mtest        : 20% de m
    • 80% de m découpés aléatoirement en q paquets de même taille
       • mentrainement : q‐1 paquets
       • mvalidation : 1 paquet
 On teste toutes les combinaisons possibles de paquets : q possibilités
 Les q erreurs calculées sont utilisées pour évaluer la performance
 globale du modèle
 Approche moins systématique mais plus rapide !
                     mentrainement            mtest        mvalidation
                   mentrainement
                   entrainement                test      m
                                                         validation
                                                            validation
                 m
                 entrainement
                    entrainement             test      m
                                                       validation
                                                          validation
                                                                         q
                entrainement               test       validation
                                 réglage modèle
                                réglage modèle
                              réglage modèle                                     24

                                                                                             12
29/05/2018

      Objectifs du « Machine Learning »
      Taxonomie des algorithmes
      Entrainement, validation et tests
      Evaluation et métriques de performances
          • Exemples pour les méthodes de régression
          • Exemples pour les méthodes de classification
      Problèmes liés à la grande dimension

                                                                  25

           Evaluation des régressions
Métriques de performances pour les problèmes de régression
  Valeurs observées : ( i)
  Valeurs prédites par le modèle : ( i)
  Prévision naïve de référence : moyenne des observations : ( )
  Erreur de prédiction du modèle :   ‐
  Erreur de prédiction naïve : ‐

  Erreur moyenne absolue :    ∑          −                        MAE

  Racine de la moyenne du carré des erreurs :     ∑       −        RMSE

   Signale plus sévèrement les grandes erreurs

                                                                  26

                                                                                 13
29/05/2018

           Evaluation des régressions
Métriques de performances pour les problèmes de régression
  Valeurs observées : ( i)
  Valeurs prédites par le modèle : ( i)
  Prévision naïve de référence : moyenne des observations : ( )
  Erreur de prédiction du modèle :   ‐
  Erreur de prédiction naïve : ‐

                                     ∑                 ∑     −
  Coefficient de détermination (R²) : ∑           1
                                           −           ∑     −
   Taux de fluctuation du au modèle
   « Mesure de l’adéquation du modèle aux données observées … »
      0         1:   R² proche de 1  adéquation parfaite
                     R² proche de 0  adéquation nulle
                                                                  27

      Objectifs du « Machine Learning »
      Taxonomie des algorithmes
      Entrainement, validation et tests
      Evaluation et métriques de performances
          • Exemples pour les méthodes de régression
          • Exemples pour les méthodes de classification
      Problèmes liés à la grande dimension

                                                                  28

                                                                              14
29/05/2018

                     Evaluation des classifications
Matrice de confusion : exemple sur une classification binaire

                                     Observations
                                +                 ‐                 Total
                 +       Vrais positifs    Faux positifs       Positifs prédits
Prédictions

                              (VP)              (FP)               (VP+FP)
                 ‐       Faux négatifs     Vrais négatifs      Négatifs prédits
                              (FN)              (VN)              (FN+VN)
               Total    Total des vrais   Total des vrais         Total des
                       positifs observés négatifs observés      échantillons
                           (VP+FN)           (FP+VN)                  (N)

                                                                             29

                     Evaluation des classifications
Matrice de confusion : déduction d’indicateurs de performance

                                     Observations
                                +                     ‐              Total
                 +            250                    150              400
Prédictions

                              (VP)                  (FP)           (VP+FP)
                 ‐             50                    550              600
                              (FN)                  (VN)           (FN+VN)
               Total          300                    700             1000

              • Taux d’erreurs : (FP+FN)/N
              • Rappel, recall ou sensibilité : VP/(VP+FN)  Taux de vrais positifs
              • Précision : VP/(VP+FP)

                                                                             30

                                                                                             15
29/05/2018

                     Evaluation des classifications
Matrice de confusion : déduction d’indicateurs de performance

                                    Observations
                               +                     ‐               Total
                 +           250                    150               400
Prédictions

                             (VP)                  (FP)            (VP+FP)
                 ‐            50                    550               600
                             (FN)                  (VN)            (FN+VN)
               Total         300                    700              1000

              • Taux d’erreurs : (FP+FN)/N : 20%
              • Rappel, recall ou sensibilité : VP/(VP+FN) : 83%
              • Précision : VP/(VP+FP) : 63%

                                                                             31

                     Evaluation des classifications
Matrice de confusion : exemple sur une classification binaire
                         Observations
                    +                   ‐                 Total
Prédictions

       +         250 (VP)           150 (FP)               400
       ‐         50 (FN)            550 (VN)               600
     Total         300                700                 1000
   • F1 score : indicateur agrégé de la précision et du rappel
                 agrégation de ratios par moyenne harmonique
                 moyenne de la précision et du rappel
                 F1 = 2 x (1/(1/precision + 1/rappel))
                 F1 = 2 x (precision*rappel)/(precision+rappel)
                 F1 = 2.VP/(2.VP + FP + FN) , 0 ≤ F1 score ≤ 1
                 Le facteur 2x permet d’avoir un F1 score de 1 quand à la fois la
                 précision et le rappel valent 1                            32

                                                                                           16
29/05/2018

          Evaluation des classifications
Qualité d’un clustering :
                                                            X2
   Regroupement automatique de données
   dans un espace de dimension n, en k
   clusters (voir chapitre « clustering »)
                                                                     X1
   Critère de similarité intra‐cluster
       Un cluster     de       points     , de centre

                 ∑                                      ∑    ∑
       Rayon =                          Diamètre =
                                                                 .
       On cherche habituellement à minimiser ces Rayon ou Diamètres
        Pout obtenir les clusters les plus compacts possibles 33

          Evaluation des classifications
Qualité d’un clustering :
                                                            X2
   Regroupement automatique de données
   dans un espace de dimension n, en k
   clusters (voir chapitre « clustering »)
                                                                     X1
   Critère de dissimilarité inter‐clusters
   Soit deux clusters et , on calcule une distance inter‐cluster que
   l’on cherche à maximiser :
                                    ∑     ∑
              Ex : D(      ,   )=                       ,
                                               .

              ou : D(      ,   )=        min
                                          ,
              ou ….                                                       34

                                                                                      17
29/05/2018

       Objectifs du « Machine Learning »
       Taxonomie des algorithmes
       Entrainement, validation et tests
       Evaluation et métriques de performances
       Problèmes liés à la grande dimension

                                                               35

       Problèmes de la grande dimension
La malédiction de la dimension
   Richard Belleman, 1961.
   Le volume englobant les données augmente exponentiellement avec
   la dimension de l’espace des données
    Souvent les données deviennent éparses dans un espace en
     grande dimension
    Les modèles de régression deviennent moins pertinents :
      • On peut expliquer un nuage de point épars par de nombreux
        modèles !
      • Une fluctuation dans une variable peut entraîner de gros
        changements dans le modèle qui devient instable
    Les modèles de classification sont également perturbés par des
     données éparses (plus complexe)
                                                               36

                                                                             18
29/05/2018

       Problèmes de la grande dimension
De plus en plus de caractéristiques encodées dans chaque donnée
  Chaque dimension correspond à une caractéristique du système

  Problème des caractéristiques corrélées (partiellement ou fortement)
  Problème des caractéristiques non pertinentes pour l’analyse

   Complique l’utilisation d’un modèle

                                                                     37

       Problèmes de la grande dimension
Des volumes de données énormes

   Si les données ne sont pas éparses, alors leur volume devient
   vraiment énorme
   Problèmes de stockage, d’interrogation en temps limité, de
    chargement en RAM…

   Et de plus en plus de difficultés à représenter les données et
    à les visualiser…

                                                                     38

                                                                                 19
29/05/2018

Objectifs et principes du
  Machine Learning

                            39

                                        20
Vous pouvez aussi lire