L'Apprentissage Semi-Supervisé Quelques éléments - Vincent Lemaire

La page est créée Fabrice Hernandez
 
CONTINUER À LIRE
L'Apprentissage Semi-
Supervisé
          Quelques éléments
 Frank Meyer
 France Telecom R&D /TECH/SUSI/TSI

 The present document contains information that remains the property of France Telecom. The recipient’s
 acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
 and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
 any of its contents whatsoever without France Telecom’s prior written agreement.

                                                                                                                  (Nom du fichier) - D1 - 06-07-2006
Sommaire

     0. Quelques rappels & terminologie usuelle

     1. Classification semi-supervisée
           1.1 Problématique
           1.2 Panorama général des méthodes

     2. Clustering semi-supervisé

     3. Le cas de l'apprentissage de métrique

France Télécom R&D                                Distribution of this document is subject to France Telecom’s authorization
                                                                                                         Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4

     ➨ Terminologie traditionnelle en data mining / apprentissage automatique
             Exemples = instances = points = records = objets = lignes des données

              Variables = attributs = coordonnées = features = propriétés = colonnes de
             données

             Classe = label = variable cible = variable à prédire (domaine supervisé)

             Classification = classification supervisée = apprentissage supervisé
                Exemples de méthodes : arbre de décision C5 ou CART, réseaux
              de neurones type perceptron, régression linéaire, régression logistique,
              K-plus-proches-voisins, Support Vector Machine...

              Clustering = classification non supervisée (= malheureusement parfois
             classification en français)
                  exemples de méthodes : K-Means, Classification Hiérarchique
               Ascendante, carte de Kohonen

France Télécom R&D                                             Distribution of this document is subject to France Telecom’s authorization
                                                                                                                      Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 2/4
       o Apprentissage supervisé (en anglais,                               Y
         classification) :
                  o  On a des points de n classes différentes
                    (par exemple n=2), l'ensemble
                    d'apprentissage
                  o On voudra par la suite classer des
                    nouveaux points : C'est l'ensemble des
                    points pour lesquels on voudra appliquer
                    un modèle
                          Espace descriptif (ici à 2 dimensions)

                                                                                                                                     *
                      X                     Y                      Classe

                      2                     5                      vert
Ensemble                                                                                                                            X
d'apprentissage       7                     4                      rouge

                      (...)                 (...)                  (...)
      Nouvel          8                     3                      ?
      élément :

France Télécom R&D                                                          Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                   Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 3/4
       o Classification, suite :                                                    Y
                  o On cherche donc un modèle qui va
                    définir des frontières dans l'espace de
                    description (c'est l'apprentissage)
                  o On en déduit, pour de nouveaux points
                    pas encore classés, leur classe
                    d'appartenance

                          Espace descriptif (ici à 2 dimensions)

                                                                                                                                             *
                      X                     Y                      Classe

                      2                     5                      vert
Ensemble                                                                                                                                    X
d'apprentissage       7                     4                      rouge

                      (...)                 (...)                  (...)
      Nouvel          8                     3                      Prédit : rouge
      élément :

France Télécom R&D                                                                  Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                           Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 4/4
       o Apprentissage non supervisé ("clustering")
                                                                   X
                  o  On a des points sans information de
                    classe
                  o On cherche des groupes dans les
                    données
                  o On en déduit, pour de nouveaux points
                    pas encore classés, leur groupe (cluster)
                    d'appartenance                                                                                             *
                          Espace descriptif (ici à 2 dimensions)

                      X                     Y                      X

                      2                     5
Ensemble
d'apprentissage       7                     4

                      (...)                 (...)
      Nouvel
      élément :
                      10                    2                                                                                  *
                                                                                                                                               Y

France Télécom R&D                                                     Distribution of this document is subject to France Telecom’s authorization
                                                                                                                              Tech/Susi/Tsi - 2006
Chapitre 1 – Classification semi-
 supervisée
     ➨ Principe :
              En classification supervisée traditionnelle, on apprend à partir d'un
             ensemble d'apprentissage composé de données labellisées

              Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général
             il est peu coûteux d'obtenir les données sans label
                   Exemples :
                       – appétence (oui / non) pour une offre commerciale en fonction
                      du profil client => nécessite une campagne sur des centaines ou
                      milliers de clients
                       – réaction à un nouveau médicament ( OK /pas OK) en fonction
                      de paramètres du diagnostic => nécessite des dizaines de tests
                      sur des volontaires
             Par contre : il est souvent peu coûteux d'obtenir les données descriptives
             (sans le "résultat", le label)

              Apprentissage semi-supervisé : on va apprendre avec un peu de
             données labellisées et beaucoup de données non labellisées

France Télécom R&D                                               Distribution of this document is subject to France Telecom’s authorization
                                                                                                                        Tech/Susi/Tsi - 2006
1. 1 Problématique                                          Résultat d'une hypothèse de
                                                            densité : bon.

   ➨ Comment apprendre aussi à partir de
      données non labellisées ?
             On utilise des hypothèses
            complémentaires, par exemple de densités,
            de modèles sous-jacents...

   ➨ A-t-on des garanties que cela fonctionne
      dans le cas général ?
             Aucune. On doit poser des hypothèses et
            tester (plusieurs essais en général
            nécessaires)

   ➨ 2 dilemmes encore non résolus :
             Est-il plus coûteux d'acquérir les labels ou
            de tester plusieurs hypothèses ?
             Vaut il mieux utiliser une méthode de
            classification non supervisée ou méthode
            supervisée traditionnelle puissante ?

                                                              Résultat d'une hypothèse de
                                                              densité : mauvais !

France Télécom R&D                                                    Distribution of this document is subject to France Telecom’s authorization
                                                                                                                             Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 1/5

     ➨ Méthodes de mélange
              Hypothèse : les différentes classes sont générées par exemple par des
             gaussiennes
              Principe : on utilise un algorithme type Expectation Maximization. On
             s'assure que le modèle s'adapte bien à la distribution des points labellisés
             mais aussi des points non labellisés

France Télécom R&D                                              Distribution of this document is subject to France Telecom’s authorization
                                                                                                                       Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 2/5

     ➨ Self-Training
             Principe :
                 On utilise un algorithme de classification traditionnel qu'on entraîne
              avec les données d'apprentissage labellisées
                  On classifie les données d'apprentissage mais non labellisées avec
              l'algorithme
                  On sélectionne les exemples prédits avec la meilleure confiance et
              on les considère maintenant comme données d'apprentissage
              labellisées
                  ... le processus peut être répété plusieurs fois.

                   Le classifieur utilise donc ses propres prédictions pour apprendre
               lui-même.

France Télécom R&D                                              Distribution of this document is subject to France Telecom’s authorization
                                                                                                                       Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 3/5

     ➨ Co-Training
             Principe :
                  On suppose que les variables peuvent être séparées en 2 sous-
              ensembles A et B et que chaque sous-ensemble est suffisant pour
              apprendre un bon classifieur.
                  On entraîne 2 classifieurs respectivement sur l'ensemble A et
              l'ensemble B, avec les points labellisés uniquement.
                  Puis chaque classifieur
                     – labellise (classe) les points non labellisés
                     – donne les points avec les labels prédits pour lesquels il a le plus
                    confiance à l'autre classifieur qui va les utiliser comme nouveaux
                    points labellisés

                 Peut être vu comme un self-training croisé à 2 classifieurs

France Télécom R&D                                              Distribution of this document is subject to France Telecom’s authorization
                                                                                                                       Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 4/5
     ➨ Eviter les coupures dans les régions denses
             Principe :
                  On suppose que dans les régions denses on a plutôt une classe
              bien représentée
                  On utilise un classifieur traditionnel mais on va ajouter à
              l'algorithme un dispositif de pénalisation des frontières denses
                                                         Frontière naturelle, mais à éviter (région dense)

France Télécom R&D                                          Distribution of this document is subject to France Telecom’s authorization
                                                                                                                   Tech/Susi/Tsi - 2006
Méthodes de classification semi-
supervisées 5/5
     ➨ Méthodes basées sur des graphes
             Principe :
                 On doit représenter les données sous forme de graphe. Par
              exemple, on construit un graphe des 2 plus proches voisins.
                 On applique ensuite un algorithme qui va "diffuser" les labels sur les
              noeuds labellisés
                  Problème : algorithmes souvent en complexité O(n3) ou plus

France Télécom R&D                                             Distribution of this document is subject to France Telecom’s authorization
                                                                                                                      Tech/Susi/Tsi - 2006
Chapitre 2 : Clustering semi-supervisé
     ➨ C'est du clustering, mais en fait :
               on dispose d'un "superviseur" qui va nous apporter
                 quelques exemples labellisés
                 ou quelques informations sous la forme de contraintes : tel exemple
               ne doit pas ressembler à tel autre, tel exemple doit être dans le même
               cluster que tel autre...
               on évaluera les résultats selon un mode supervisé (pureté des clusters
              selon les classes cibles en général)

     ➨ Avantages
              Clustering plus "significatif"
              Peut être vu comme une méthode supervisée simple et souvent
              performante même avec peu d'information supervisée

     ➨ 2 grandes façons de procéder
           1. Apprendre une métrique puis utiliser un algorithme de clustering
              standard,
           2. ou bien utiliser un algorithme qui travaille directement sur les contraintes.

France Télécom R&D                                               Distribution of this document is subject to France Telecom’s authorization
                                                                                                                        Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé -
Principes
              Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par
              exemple des liens "cannot link" et "must link" entre quelques instances

                                   must link

                 cannot
                 link

                          En résultat on obtient des groupes (sans
                          label). On est vraiment dans le domaine
                          non supervisé.

France Télécom R&D                                                   Distribution of this document is subject to France Telecom’s authorization
                                                                                                                            Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé, principes
              Semi-supervision par labellisation : l'utilisateur ajoute des labels sur
              certaines instances (sur l'exemple, des labels "rouges" et "verts")

                      En résultat on obtient des groupes qu'on
                      peut labelliser par les instances qu'ils
                      contiennent. En fait on est plutôt dans un
                      domaine supervisé.

France Télécom R&D                                                 Distribution of this document is subject to France Telecom’s authorization
                                                                                                                          Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 1

     ➨ XING 2003 : clustering par apprentissage de métrique
             Utilisation de contraintes de type Must Link
                   avec signification particulière : "doit être proche"
             Information supervisée : un ensemble de couples Must Link (xi,yi)
              Utilisation d'une fonction de coût
                    idée de base : somme des distances des couples => coût
                    avec une contrainte complémentaire : la métrique ne doit pas être
               nulle, la somme des poids des attributs est constante
              Deux algorithmes pour trouver une métrique diagonale (poids des
             attributs) ou matrice pleine (poids attributs + coefficients de covariance)
                    utilise une technique d'optimisation de la fonction de coût en faisant
               varier les paramètres recherchés.
                       – Type "descente de gradient" (algo de Newton)

France Télécom R&D                                               Distribution of this document is subject to France Telecom’s authorization
                                                                                                                        Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 2

     ➨ Bilenko 2004 : clustering par apprentissage de métrique
               Utilisation de contraintes de type Must Link et Cannot Link
                     avec signification "standard"
                         – a Must Link b => a et b doivent être dans le même cluster
                         – a Cannot Link b => a et b doivent être dans des clusters différents
               Information supervisée : un ensemble de couples Must Link (xi,yi) et un ensemble
              de couples Cannot Link (xi,yi)
              Utilisation d'une fonction de coût
                   Coût de chaque contrainte non respectée :
                        – a ML b non respectée => coût proportionnel à la distance qui les sépare
                        – a CL b non respectée => coût symétrique au coût ML
                   + Coût du clustering :
                        – somme distances aux barycentres des instances à leur cluster
                        – avec une métrique sous-jacente "matrice pleine" (permet de clusters de
                       formes variables, non limités à la forme "sphérique")
              Optimisations (complexes) effectuées à l'intérieur de l'algorithme K-Means

France Télécom R&D                                                    Distribution of this document is subject to France Telecom’s authorization
                                                                                                                             Tech/Susi/Tsi - 2006
3. Apprentissage de métrique
     ➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une
       fonction de distance
              Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante,
             cartes de Kohonen...
              Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ,
             Algorithme à K plus proche voisins
              ... ET Les Méthodes semi-supervisées

     ➨ Performances de ces algorithmes : dépendent directement de la qualité
       de la métrique utilisée.
              Généralement, métrique choisie "manuellement" ou "intuitivement" : souvent
             il s'agit d'une distance euclidienne sur les attributs explicatifs normalisés dans
             une intervalle [0;1] (suppression de l'influence de l'échelle de chaque attribut)
              L'apprentissage de métrique : apprendre une fonction de distance
             (paramétrée) automatiquement... pour qu'elle soit bien adaptée au problème
             qu'on traite.

France Télécom R&D                                                Distribution of this document is subject to France Telecom’s authorization
                                                                                                                         Tech/Susi/Tsi - 2006
Usages de l'apprentissage de
métrique
     ➨ Principales utilisations actuelles dans la littérature

             Les méthodes de clustering dites semi-supervisées
                Permet d'adapter les clusters formés en utilisant quelques informations
              supervisées (labels ou contraintes)
                Correspond à un domaine du clustering semi-supervisé
                Etudié depuis peu

              Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers
             ou méthodes à plus K plus proches voisins
                  Permet de résoudre le principal problème des classifieurs à plus
               proches voisins : l'inadaptation de la fonction de distance si elle prend en
               compte de nombreux attributs non significatifs
                  Etudié depuis longtemps (sous la terminologie "Feature weighting
               methods", ou "pondération de variables")

France Télécom R&D                                             Distribution of this document is subject to France Telecom’s authorization
                                                                                                                      Tech/Susi/Tsi - 2006
Distances : Rappels et exemples

     ➨ Définition d'une métrique
                 Une métrique ou distance sur un ensemble X est
                 une application d : X.X => [0;+∞[ vérifiant les                                                               n

                 propriétés suivantes :                                                            d ( x, y ) =            ∑i= 1
                                                                                                                                   ( xi − yi ) 2
                    1. d(x,y) = d(y,x)                       symétrie
                    2. d(x,y) = 0 x=y           identité (*)                                                                                     1
                                                                                                                          n
                                                                                                                             P
                                                                                                                                                      P
                    3. d(x,y) + d(y,z) ≥ d(x,z) inégalité triangulaire                             d P ( x, y ) =  ∑ xi − yi 
                  On dit alors que (X,d) est un espace métrique                                                    i= 1      

     ➨ Exemples de métriques.                                                                        d ∞ ( x, y ) = max i xi − yi
                 Soit x=(x1,...,xn) et y (y1,...,yn) deux points d'un
                 espace à n dimensions                                                                                              n
                      Distance euclidienne "classique" :                                         d Manhantan ( x, y ) =           ∑
                                                                                                                                   i= 1
                                                                                                                                          xi − yi
                      Norme P
                      Norme infinie
                      distance de Manhattan                                                  d Triviale ( x, y ) = 1 si x ≠ y et 0 si x = y
                      distance triviale
       (*) si (2) n'est pas respecté on devrait parler en fait de pseudo-métrique.

France Télécom R&D                                                                   Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                             Tech/Susi/Tsi - 2006
Représentation d'une distance
paramétrable
     1. Pondération des attributs                                                  n
               Par exemple, distance euclidienne pondérée
               par des poids wi,...,wn
                                                              d ( x, y ) =       ∑
                                                                                 i= 1
                                                                                        wi2 ( xi − yi ) 2

     3. Représentation par une matrice M positive
               Permet de prendre en compte des éléments
               de covariances entre les attributs
                                                              d ( x, y ) =         ( x − y)T M ( x − y)

     ➨ Avantage d'une métrique de type matrice
        diagonale : revient à une pondération des
        attributs
               résultats plus lisibles (notion d'importance
               de l'attribut)
               paramètres augmentant seulement de
               manière linéaire avec la dimension
               (quadratique dans le cas d'une matrice non
               diagonale)

France Télécom R&D                                                     Distribution of this document is subject to France Telecom’s authorization
                                                                                                                              Tech/Susi/Tsi - 2006
Algorithmes d'apprentissage de
métrique

     ➨ Idée sous-jacente
              Obtenir une distance faible pour les objets similaires
              Obtenir une distance nulle ou très faible pour des objets identiques
             ("identique" peut être relatif à une classe)
              Obtenir une distance importante pour des objets différents ("différent"
             peut être relatif à une classe).

     ➨ Notion d'objets similaires ou dissimilaires ?
              Implique une idée de supervision : on aura besoin d'une information
             indiquant des exemples d'objets similaires et d'objets différents

France Télécom R&D                                              Distribution of this document is subject to France Telecom’s authorization
                                                                                                                       Tech/Susi/Tsi - 2006
Discriminer selon la distance...
                           n
                                                    Distance non paramétrée non utilisable : la
     d ( x, y ) =       ∑i= 1
                                ( xi − yi ) 2       distance sera corrompue par la contribution de
                                                    nombreux attributs non significatifs

                                                A1                A2                  A3              A4                   A5                    Classe
                                                (informatif       (informatif)        (Bruit)         (Bruit)              (Bruit)               cible
                                                )
                                                1                 1                   3               5                    4                     Oui

                                                5                 4                   2               1                    2                     Non

                                                1                 2                   4               1                    4                     Oui
   Distance paramétrée
   intégrant un poids sur chaque
   attribut :
                     n
  d ( x, y ) =      ∑
                    i= 1
                           wi2 ( xi − yi ) 2    renforcer le poids des
                                                attributs significatifs
                                                                                                diminuer voire supprimer le poids des
                                                                                                attributs bruités ou non informatifs.

                                                Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une
                                                métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des
                                                performances.

France Télécom R&D                                                                               Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                                        Tech/Susi/Tsi - 2006
Principe de l'apprentissage de métrique

     ➨ Utiliser une information indiquant des exemples d'objets similaires et
       différents
              Utiliser des contraintes sur des paires d'objets : les objets x et y doivent
             être similaires ou les objets x et y doivent être dissimilaires
              Ou bien : Utiliser une information de classe dans un contexte
             d'apprentissage supervisé classique.

     ➨ Calculer les paramètres de la métrique
              Utiliser une fonction de coût + un algorithme d'optimisation
              ou utiliser un algorithme spécifique

     ➨ Evaluer la métrique
              Utilise un ensemble de test, et de nouveau une information indiquant des
             exemples d'objets similaires ou différents

France Télécom R&D                                                Distribution of this document is subject to France Telecom’s authorization
                                                                                                                         Tech/Susi/Tsi - 2006
RELIEF 1/3

     ➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour
       de l'apprentissage supervisé

     ➨ La famille Relief est connue pour ses bonnes performances dans
       l'estimation du poids des attributs

     ➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant
       en modèle sous-jacent un modèle à plus proche voisin.

     ➨ Pour chaque attribut A et pour toute instance x de l'ensemble
       d'apprentissage :
            W[A]= P(valeur différente de A / le plus proche voisin de x est de même classe) -
             P(valeur différente de A / le plus proche voisin de x est de classe différente)

France Télécom R&D                                                     Distribution of this document is subject to France Telecom’s authorization
                                                                                                                              Tech/Susi/Tsi - 2006
RELIEF 2/3

     ➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage
        et n le nombre d'attribut. RELIEF (pour 2 classes) :

               Mettre tous les poids W[J] à 0
               Pour i=1 jusqu'à m faire
                    choisir au hasard une instance Ri
                    trouver instance la plus proche de Ri de même classe, notée H (Hit)
                    trouver l'instance la plus proche de Ri de classe différente, notée M (Miss)
                    pour J=1 jusqu'à n faire
                         W[J] = W[J] - diff(J,Ri,H) / m + diff(J,Ri,M) / m
                   Fin
               Fin

     ➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la
        recherche des plus proches voisins : on utilise en général une distance
        classique, non pondérée

France Télécom R&D                                                      Distribution of this document is subject to France Telecom’s authorization
                                                                                                                               Tech/Susi/Tsi - 2006
RELIEF 3/3

     ➨ Relief F

             Généralisation de Relief pour du multi-classe (un peu plus complexe).

                   Utilise des K plus proches voisins
                   Peut gérer des données incomplètes ou bruitées

France Télécom R&D                                            Distribution of this document is subject to France Telecom’s authorization
                                                                                                                     Tech/Susi/Tsi - 2006
ANNEXES

The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.

                                                                                                                 (Nom du fichier) - D29 - 06-07-2006
Exemple de bench effectué

     ➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de
       métrique dans le cas où on ne dispose que de très peu de données
              application visée : clustering semi-supervisé interactif
              suppose qu'on ne peut pas avoir des centaines ou des milliers
             d'exemples "gratuitement"

     ➨ Principe
              Limitation à 100 instances par data set
                    excepté pour Iris, ensemble d'apprentissage relativement petit
              Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus
             proche voisin sur l'ensemble d'apprentissage
              Quelques fichiers de données de l'UCI + 2 datasets artificiels
              20 cross-validations, et uniquement 100 "cycles d'apprentissage"
              Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur

France Télécom R&D                                               Distribution of this document is subject to France Telecom’s authorization
                                                                                                                        Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
                                                                                                                   Centroids
                         DataSet     FCPG         RELIEFF       VNS         STOCHAS              LAZY               Classe

      data\ionosphere.txt            15.65737      15.89641     13.98406     14.58167            15.87649            12.66932

      data\iris.txt                         4.4         4.2           3.9           4.8                 4.5                  3.6

      data\sonar.txt                 17.40741      19.12037     17.91667     17.91667            17.36111            17.26852

      data\segment.txt               13.83937      11.31222     11.67195     12.01357            13.88688            11.67873

      data\letter.txt                61.05729      50.85402     54.01608     55.01256            61.05729            60.60176

      data\vehicle.txt               39.89946      39.23592     40.19437     39.36327            39.84584            40.37534

      data\glass.txt                 34.69298      34.21053     30.57018      29.7807            34.73684            37.85088

      data\waveform40.txt            32.01429      25.72143     32.30204     32.77857            32.49388            24.72653

      data\DataTLearningMetric.txt      10.05           2.7           6.5           6.1              10.15                   2.9

      data\xorIn20Dim.txt            26.77778               0   3.677778     0.866667            37.04444            44.07778

                                                                 100 instances en apprentissage.

France Télécom R&D                                                           Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                    Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
       70

       60

       50                                                  FCPG
                                                           RELIEFF
       40
                                                           VNS
       30                                                  STOCHAS
                                                           LAZY
       20                                                  CentroidsClasse

       10

        0                                   t

                                            t
                                          xt
                                          xt
                                            t
                                            t

                                           t
                                           t

                                           t
                                         tx

                                        .tx
                                        .tx

                                          t
                                        .tx

                                       .tx
                                       .tx

                                       .tx

                                      .tx
                                      r.t
                                      t.t

                                      e.

                                    ss
                                    ar
                                     is

                                   im
                                    re

                                  40

                                  ric
                                  en

                                  tte

                                 icl
                                 \ir

                               on

                                la
                               he

                               D
                              m

                              et
                              m

                             \le

                             eh
                             ta

                              g

                            20
                            \s
                           sp

                            or

                            M
                          eg

                           a\
                         da

                          ta

                          \v
                         ta

                        In
                       ng
                        ef
                          t

                                                    Rappel : 100
                      no

                      da

                      ta
                       \s

                     da
                     da

                     or
                    av
                    ta

                    ni
                   da
                  \io

                  \x
                 ar
                 \w
                da

                                                    instances en
                ta

               ta
             Le
              ta
            da

            da
           da

          aT

                                                    apprentissage.
        at
      \D
    ta
 da

France Télécom R&D                          Distribution of this document is subject to France Telecom’s authorization
                                                                                                   Tech/Susi/Tsi - 2006
Points de repères

        dataset      Train size                performances/techniques
        Ionosphere   200 instances             moins de 10% d'erreur, moins de 6% avec C4.5
                                               de l'ordre de 15% d'erreur sur un MLP à plusieurs couches cachées,
        sonar        100 instances             25% pour C4.5
                                               de l'ordre de 12 à 13 % pour du CART ou du Neural Network, 18%
        segment                          210   reporté sur du Kppv
                                               de l'ordre de 56% d'erreur pour un système à base de fenêtres de
        letter       1% soit 200 instances     Parzen

                     16000 instances           2% d'erreur avec technique type SVM

                                         90%   35% avec du naïve Bayes, 12% avec CART

        vehicle      pas d'information
        waveform                         90%   entre 25% et 20% d'erreur respectivement pour naïve bayes et C4.5

France Télécom R&D                                                                             Distribution of this document is subject to France Telecom’s authorization
                                                                                                                                                      Tech/Susi/Tsi - 2006
Références

     ➨ Méthodes à K-plus proches voisins ou "Lazy learners"
              D. Wettschereck, D.W. Aha, and T. Mohri, `A review and empirical
             comparison of feature weighting methods for a class of lazy learning
             algorithms', AI Review, 11, 273--314, (1997).

     ➨ Relief
             Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical
             Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003)

     ➨ Clustering semi-supervisé
              E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht
             application to clustering with side-information, advances in NIPS 2003.
              M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric
             learning in semi supervised cluserting, ICML 2004.

France Télécom R&D                                              Distribution of this document is subject to France Telecom’s authorization
                                                                                                                       Tech/Susi/Tsi - 2006
Vous pouvez aussi lire