L'Apprentissage Semi-Supervisé Quelques éléments - Vincent Lemaire
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
L'Apprentissage Semi- Supervisé Quelques éléments Frank Meyer France Telecom R&D /TECH/SUSI/TSI The present document contains information that remains the property of France Telecom. The recipient’s acceptance of this document implies his or her acknowledgement of the confidential nature of its contents and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes any of its contents whatsoever without France Telecom’s prior written agreement. (Nom du fichier) - D1 - 06-07-2006
Sommaire 0. Quelques rappels & terminologie usuelle 1. Classification semi-supervisée 1.1 Problématique 1.2 Panorama général des méthodes 2. Clustering semi-supervisé 3. Le cas de l'apprentissage de métrique France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4 ➨ Terminologie traditionnelle en data mining / apprentissage automatique Exemples = instances = points = records = objets = lignes des données Variables = attributs = coordonnées = features = propriétés = colonnes de données Classe = label = variable cible = variable à prédire (domaine supervisé) Classification = classification supervisée = apprentissage supervisé Exemples de méthodes : arbre de décision C5 ou CART, réseaux de neurones type perceptron, régression linéaire, régression logistique, K-plus-proches-voisins, Support Vector Machine... Clustering = classification non supervisée (= malheureusement parfois classification en français) exemples de méthodes : K-Means, Classification Hiérarchique Ascendante, carte de Kohonen France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 2/4 o Apprentissage supervisé (en anglais, Y classification) : o On a des points de n classes différentes (par exemple n=2), l'ensemble d'apprentissage o On voudra par la suite classer des nouveaux points : C'est l'ensemble des points pour lesquels on voudra appliquer un modèle Espace descriptif (ici à 2 dimensions) * X Y Classe 2 5 vert Ensemble X d'apprentissage 7 4 rouge (...) (...) (...) Nouvel 8 3 ? élément : France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 3/4 o Classification, suite : Y o On cherche donc un modèle qui va définir des frontières dans l'espace de description (c'est l'apprentissage) o On en déduit, pour de nouveaux points pas encore classés, leur classe d'appartenance Espace descriptif (ici à 2 dimensions) * X Y Classe 2 5 vert Ensemble X d'apprentissage 7 4 rouge (...) (...) (...) Nouvel 8 3 Prédit : rouge élément : France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 4/4 o Apprentissage non supervisé ("clustering") X o On a des points sans information de classe o On cherche des groupes dans les données o On en déduit, pour de nouveaux points pas encore classés, leur groupe (cluster) d'appartenance * Espace descriptif (ici à 2 dimensions) X Y X 2 5 Ensemble d'apprentissage 7 4 (...) (...) Nouvel élément : 10 2 * Y France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Chapitre 1 – Classification semi- supervisée ➨ Principe : En classification supervisée traditionnelle, on apprend à partir d'un ensemble d'apprentissage composé de données labellisées Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général il est peu coûteux d'obtenir les données sans label Exemples : – appétence (oui / non) pour une offre commerciale en fonction du profil client => nécessite une campagne sur des centaines ou milliers de clients – réaction à un nouveau médicament ( OK /pas OK) en fonction de paramètres du diagnostic => nécessite des dizaines de tests sur des volontaires Par contre : il est souvent peu coûteux d'obtenir les données descriptives (sans le "résultat", le label) Apprentissage semi-supervisé : on va apprendre avec un peu de données labellisées et beaucoup de données non labellisées France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
1. 1 Problématique Résultat d'une hypothèse de densité : bon. ➨ Comment apprendre aussi à partir de données non labellisées ? On utilise des hypothèses complémentaires, par exemple de densités, de modèles sous-jacents... ➨ A-t-on des garanties que cela fonctionne dans le cas général ? Aucune. On doit poser des hypothèses et tester (plusieurs essais en général nécessaires) ➨ 2 dilemmes encore non résolus : Est-il plus coûteux d'acquérir les labels ou de tester plusieurs hypothèses ? Vaut il mieux utiliser une méthode de classification non supervisée ou méthode supervisée traditionnelle puissante ? Résultat d'une hypothèse de densité : mauvais ! France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Méthodes de classification semi- supervisées 1/5 ➨ Méthodes de mélange Hypothèse : les différentes classes sont générées par exemple par des gaussiennes Principe : on utilise un algorithme type Expectation Maximization. On s'assure que le modèle s'adapte bien à la distribution des points labellisés mais aussi des points non labellisés France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Méthodes de classification semi- supervisées 2/5 ➨ Self-Training Principe : On utilise un algorithme de classification traditionnel qu'on entraîne avec les données d'apprentissage labellisées On classifie les données d'apprentissage mais non labellisées avec l'algorithme On sélectionne les exemples prédits avec la meilleure confiance et on les considère maintenant comme données d'apprentissage labellisées ... le processus peut être répété plusieurs fois. Le classifieur utilise donc ses propres prédictions pour apprendre lui-même. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Méthodes de classification semi- supervisées 3/5 ➨ Co-Training Principe : On suppose que les variables peuvent être séparées en 2 sous- ensembles A et B et que chaque sous-ensemble est suffisant pour apprendre un bon classifieur. On entraîne 2 classifieurs respectivement sur l'ensemble A et l'ensemble B, avec les points labellisés uniquement. Puis chaque classifieur – labellise (classe) les points non labellisés – donne les points avec les labels prédits pour lesquels il a le plus confiance à l'autre classifieur qui va les utiliser comme nouveaux points labellisés Peut être vu comme un self-training croisé à 2 classifieurs France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Méthodes de classification semi- supervisées 4/5 ➨ Eviter les coupures dans les régions denses Principe : On suppose que dans les régions denses on a plutôt une classe bien représentée On utilise un classifieur traditionnel mais on va ajouter à l'algorithme un dispositif de pénalisation des frontières denses Frontière naturelle, mais à éviter (région dense) France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Méthodes de classification semi- supervisées 5/5 ➨ Méthodes basées sur des graphes Principe : On doit représenter les données sous forme de graphe. Par exemple, on construit un graphe des 2 plus proches voisins. On applique ensuite un algorithme qui va "diffuser" les labels sur les noeuds labellisés Problème : algorithmes souvent en complexité O(n3) ou plus France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Chapitre 2 : Clustering semi-supervisé ➨ C'est du clustering, mais en fait : on dispose d'un "superviseur" qui va nous apporter quelques exemples labellisés ou quelques informations sous la forme de contraintes : tel exemple ne doit pas ressembler à tel autre, tel exemple doit être dans le même cluster que tel autre... on évaluera les résultats selon un mode supervisé (pureté des clusters selon les classes cibles en général) ➨ Avantages Clustering plus "significatif" Peut être vu comme une méthode supervisée simple et souvent performante même avec peu d'information supervisée ➨ 2 grandes façons de procéder 1. Apprendre une métrique puis utiliser un algorithme de clustering standard, 2. ou bien utiliser un algorithme qui travaille directement sur les contraintes. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé - Principes Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par exemple des liens "cannot link" et "must link" entre quelques instances must link cannot link En résultat on obtient des groupes (sans label). On est vraiment dans le domaine non supervisé. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé, principes Semi-supervision par labellisation : l'utilisateur ajoute des labels sur certaines instances (sur l'exemple, des labels "rouges" et "verts") En résultat on obtient des groupes qu'on peut labelliser par les instances qu'ils contiennent. En fait on est plutôt dans un domaine supervisé. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 1 ➨ XING 2003 : clustering par apprentissage de métrique Utilisation de contraintes de type Must Link avec signification particulière : "doit être proche" Information supervisée : un ensemble de couples Must Link (xi,yi) Utilisation d'une fonction de coût idée de base : somme des distances des couples => coût avec une contrainte complémentaire : la métrique ne doit pas être nulle, la somme des poids des attributs est constante Deux algorithmes pour trouver une métrique diagonale (poids des attributs) ou matrice pleine (poids attributs + coefficients de covariance) utilise une technique d'optimisation de la fonction de coût en faisant varier les paramètres recherchés. – Type "descente de gradient" (algo de Newton) France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 2 ➨ Bilenko 2004 : clustering par apprentissage de métrique Utilisation de contraintes de type Must Link et Cannot Link avec signification "standard" – a Must Link b => a et b doivent être dans le même cluster – a Cannot Link b => a et b doivent être dans des clusters différents Information supervisée : un ensemble de couples Must Link (xi,yi) et un ensemble de couples Cannot Link (xi,yi) Utilisation d'une fonction de coût Coût de chaque contrainte non respectée : – a ML b non respectée => coût proportionnel à la distance qui les sépare – a CL b non respectée => coût symétrique au coût ML + Coût du clustering : – somme distances aux barycentres des instances à leur cluster – avec une métrique sous-jacente "matrice pleine" (permet de clusters de formes variables, non limités à la forme "sphérique") Optimisations (complexes) effectuées à l'intérieur de l'algorithme K-Means France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
3. Apprentissage de métrique ➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une fonction de distance Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante, cartes de Kohonen... Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ, Algorithme à K plus proche voisins ... ET Les Méthodes semi-supervisées ➨ Performances de ces algorithmes : dépendent directement de la qualité de la métrique utilisée. Généralement, métrique choisie "manuellement" ou "intuitivement" : souvent il s'agit d'une distance euclidienne sur les attributs explicatifs normalisés dans une intervalle [0;1] (suppression de l'influence de l'échelle de chaque attribut) L'apprentissage de métrique : apprendre une fonction de distance (paramétrée) automatiquement... pour qu'elle soit bien adaptée au problème qu'on traite. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Usages de l'apprentissage de métrique ➨ Principales utilisations actuelles dans la littérature Les méthodes de clustering dites semi-supervisées Permet d'adapter les clusters formés en utilisant quelques informations supervisées (labels ou contraintes) Correspond à un domaine du clustering semi-supervisé Etudié depuis peu Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers ou méthodes à plus K plus proches voisins Permet de résoudre le principal problème des classifieurs à plus proches voisins : l'inadaptation de la fonction de distance si elle prend en compte de nombreux attributs non significatifs Etudié depuis longtemps (sous la terminologie "Feature weighting methods", ou "pondération de variables") France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Distances : Rappels et exemples ➨ Définition d'une métrique Une métrique ou distance sur un ensemble X est une application d : X.X => [0;+∞[ vérifiant les n propriétés suivantes : d ( x, y ) = ∑i= 1 ( xi − yi ) 2 1. d(x,y) = d(y,x) symétrie 2. d(x,y) = 0 x=y identité (*) 1 n P P 3. d(x,y) + d(y,z) ≥ d(x,z) inégalité triangulaire d P ( x, y ) = ∑ xi − yi On dit alors que (X,d) est un espace métrique i= 1 ➨ Exemples de métriques. d ∞ ( x, y ) = max i xi − yi Soit x=(x1,...,xn) et y (y1,...,yn) deux points d'un espace à n dimensions n Distance euclidienne "classique" : d Manhantan ( x, y ) = ∑ i= 1 xi − yi Norme P Norme infinie distance de Manhattan d Triviale ( x, y ) = 1 si x ≠ y et 0 si x = y distance triviale (*) si (2) n'est pas respecté on devrait parler en fait de pseudo-métrique. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Représentation d'une distance paramétrable 1. Pondération des attributs n Par exemple, distance euclidienne pondérée par des poids wi,...,wn d ( x, y ) = ∑ i= 1 wi2 ( xi − yi ) 2 3. Représentation par une matrice M positive Permet de prendre en compte des éléments de covariances entre les attributs d ( x, y ) = ( x − y)T M ( x − y) ➨ Avantage d'une métrique de type matrice diagonale : revient à une pondération des attributs résultats plus lisibles (notion d'importance de l'attribut) paramètres augmentant seulement de manière linéaire avec la dimension (quadratique dans le cas d'une matrice non diagonale) France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Algorithmes d'apprentissage de métrique ➨ Idée sous-jacente Obtenir une distance faible pour les objets similaires Obtenir une distance nulle ou très faible pour des objets identiques ("identique" peut être relatif à une classe) Obtenir une distance importante pour des objets différents ("différent" peut être relatif à une classe). ➨ Notion d'objets similaires ou dissimilaires ? Implique une idée de supervision : on aura besoin d'une information indiquant des exemples d'objets similaires et d'objets différents France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Discriminer selon la distance... n Distance non paramétrée non utilisable : la d ( x, y ) = ∑i= 1 ( xi − yi ) 2 distance sera corrompue par la contribution de nombreux attributs non significatifs A1 A2 A3 A4 A5 Classe (informatif (informatif) (Bruit) (Bruit) (Bruit) cible ) 1 1 3 5 4 Oui 5 4 2 1 2 Non 1 2 4 1 4 Oui Distance paramétrée intégrant un poids sur chaque attribut : n d ( x, y ) = ∑ i= 1 wi2 ( xi − yi ) 2 renforcer le poids des attributs significatifs diminuer voire supprimer le poids des attributs bruités ou non informatifs. Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des performances. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Principe de l'apprentissage de métrique ➨ Utiliser une information indiquant des exemples d'objets similaires et différents Utiliser des contraintes sur des paires d'objets : les objets x et y doivent être similaires ou les objets x et y doivent être dissimilaires Ou bien : Utiliser une information de classe dans un contexte d'apprentissage supervisé classique. ➨ Calculer les paramètres de la métrique Utiliser une fonction de coût + un algorithme d'optimisation ou utiliser un algorithme spécifique ➨ Evaluer la métrique Utilise un ensemble de test, et de nouveau une information indiquant des exemples d'objets similaires ou différents France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
RELIEF 1/3 ➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour de l'apprentissage supervisé ➨ La famille Relief est connue pour ses bonnes performances dans l'estimation du poids des attributs ➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant en modèle sous-jacent un modèle à plus proche voisin. ➨ Pour chaque attribut A et pour toute instance x de l'ensemble d'apprentissage : W[A]= P(valeur différente de A / le plus proche voisin de x est de même classe) - P(valeur différente de A / le plus proche voisin de x est de classe différente) France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
RELIEF 2/3 ➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage et n le nombre d'attribut. RELIEF (pour 2 classes) : Mettre tous les poids W[J] à 0 Pour i=1 jusqu'à m faire choisir au hasard une instance Ri trouver instance la plus proche de Ri de même classe, notée H (Hit) trouver l'instance la plus proche de Ri de classe différente, notée M (Miss) pour J=1 jusqu'à n faire W[J] = W[J] - diff(J,Ri,H) / m + diff(J,Ri,M) / m Fin Fin ➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la recherche des plus proches voisins : on utilise en général une distance classique, non pondérée France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
RELIEF 3/3 ➨ Relief F Généralisation de Relief pour du multi-classe (un peu plus complexe). Utilise des K plus proches voisins Peut gérer des données incomplètes ou bruitées France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
ANNEXES The present document contains information that remains the property of France Telecom. The recipient’s acceptance of this document implies his or her acknowledgement of the confidential nature of its contents and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes any of its contents whatsoever without France Telecom’s prior written agreement. (Nom du fichier) - D29 - 06-07-2006
Exemple de bench effectué ➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de métrique dans le cas où on ne dispose que de très peu de données application visée : clustering semi-supervisé interactif suppose qu'on ne peut pas avoir des centaines ou des milliers d'exemples "gratuitement" ➨ Principe Limitation à 100 instances par data set excepté pour Iris, ensemble d'apprentissage relativement petit Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus proche voisin sur l'ensemble d'apprentissage Quelques fichiers de données de l'UCI + 2 datasets artificiels 20 cross-validations, et uniquement 100 "cycles d'apprentissage" Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs Centroids DataSet FCPG RELIEFF VNS STOCHAS LAZY Classe data\ionosphere.txt 15.65737 15.89641 13.98406 14.58167 15.87649 12.66932 data\iris.txt 4.4 4.2 3.9 4.8 4.5 3.6 data\sonar.txt 17.40741 19.12037 17.91667 17.91667 17.36111 17.26852 data\segment.txt 13.83937 11.31222 11.67195 12.01357 13.88688 11.67873 data\letter.txt 61.05729 50.85402 54.01608 55.01256 61.05729 60.60176 data\vehicle.txt 39.89946 39.23592 40.19437 39.36327 39.84584 40.37534 data\glass.txt 34.69298 34.21053 30.57018 29.7807 34.73684 37.85088 data\waveform40.txt 32.01429 25.72143 32.30204 32.77857 32.49388 24.72653 data\DataTLearningMetric.txt 10.05 2.7 6.5 6.1 10.15 2.9 data\xorIn20Dim.txt 26.77778 0 3.677778 0.866667 37.04444 44.07778 100 instances en apprentissage. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs 70 60 50 FCPG RELIEFF 40 VNS 30 STOCHAS LAZY 20 CentroidsClasse 10 0 t t xt xt t t t t t tx .tx .tx t .tx .tx .tx .tx .tx r.t t.t e. ss ar is im re 40 ric en tte icl \ir on la he D m et m \le eh ta g 20 \s sp or M eg a\ da ta \v ta In ng ef t Rappel : 100 no da ta \s da da or av ta ni da \io \x ar \w da instances en ta ta Le ta da da da aT apprentissage. at \D ta da France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Points de repères dataset Train size performances/techniques Ionosphere 200 instances moins de 10% d'erreur, moins de 6% avec C4.5 de l'ordre de 15% d'erreur sur un MLP à plusieurs couches cachées, sonar 100 instances 25% pour C4.5 de l'ordre de 12 à 13 % pour du CART ou du Neural Network, 18% segment 210 reporté sur du Kppv de l'ordre de 56% d'erreur pour un système à base de fenêtres de letter 1% soit 200 instances Parzen 16000 instances 2% d'erreur avec technique type SVM 90% 35% avec du naïve Bayes, 12% avec CART vehicle pas d'information waveform 90% entre 25% et 20% d'erreur respectivement pour naïve bayes et C4.5 France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Références ➨ Méthodes à K-plus proches voisins ou "Lazy learners" D. Wettschereck, D.W. Aha, and T. Mohri, `A review and empirical comparison of feature weighting methods for a class of lazy learning algorithms', AI Review, 11, 273--314, (1997). ➨ Relief Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003) ➨ Clustering semi-supervisé E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht application to clustering with side-information, advances in NIPS 2003. M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric learning in semi supervised cluserting, ICML 2004. France Télécom R&D Distribution of this document is subject to France Telecom’s authorization Tech/Susi/Tsi - 2006
Vous pouvez aussi lire