L'UTILISATION DES CARTES DE KOHONEN DANS LA CLASSIFICATION - CEREQ Patrick Rousset
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Quel apport pour une nouvelle méthode dans l’analyse de grandes bases de données par rapport à des méthodes performantes et éprouvées? • L’évolution des enquêtes va vers plus d’information : – plus d’individus enquêtés. – plus de questions posées. • L’ajout d’information doit aboutir à plus de connaissance. Ceci implique par exemple: – Résoudre les problèmes de visualisation et de synthèse. – Dépasser les 3 ou 4 dimensions principales. – Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d’axes). – Percevoir des nuances de comportement chez certaines sous populations.
Plan • Présentation de la classification de Kohonen. • Quelques outils graphiques d’analyse spécifiques. • Quelques exemples de typologies à l’aide de cet algorithme. • Comparaison avec le couple classification-analyse factorielle. • Quelques aspects théoriques sur l’algorithme.
La classification de Kohonen • Classification à nombre de classes fixé. • Adaptée aux données de grandes tailles. • Introduit une notion de voisinage entre les classes. • Utilise un support graphique : la carte associée qui représente au mieux les résultats. • Peut se voir comme une généralisation des centres mobiles (en particulier la version stochastique de Forgy).
La carte : Un réseau d’unités organisées selon une structure particulière. Le réseau peut avoir plusieurs structures : 1 2 3 4 5 6 7 • La ficelle 1 2 3 C 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 A 29 30 31 32 33 34 35 B • La grille 36 37 38 39 40 41 42 43 44 45 46 47 48 49 D C A B • Le cylindre LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE D
Caractérisation de la peau du visage. En collaboration avec Christiane Guinot (CERIES) • Les données: La qualité de la peau de jeunes femmes. – Individus: 212 jeunes femmes volontaires. – 17 variables binaires correspondent au relevé de la présence ou de l’absence de 17 critères (visuels comme «l’aspect gras de la peau» ou tactiles comme «la sensation rêche au toucher») : • La distance utilisée est la distance euclidienne.
Carte, classification et notion de voisinage. Classer les individus revient à associer à chacun d’eux une unité de la carte. Dans cet exemple Les individus deon a choisi classes une grille voisines à 49 sont unités qui proches danssymbolisent 49 classes. l’espace d’entrée. Leur organisation sur la carte traduit la proximité inter-classes. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Quelques outils graphiques d’analyse. Le principe est dans tous les cas d’utiliser les cases pour représenter une ou plusieurs caractéristiques de la classe associée. • Nom des individus. • Liste de propriétés. • Tableau de fréquences. • Camemberts, histogrammes. • Courbes. • Box plots. • Etc…
Cartographie d’une variable qualitative endogène ou exogène. L’exemple du critère “peau jaune” 25 % des individus de la classe 14 ont une «peau jaune » 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Cartographie d’une variable qualitative endogène ou exogène. L’exemple du critère “peau jaune” Bleu: le critère est présent Rose: absent
La carte comme aide à l’interprétation. • La carte traduit au mieux la structure de voisinage. • Elle permet de traiter ensemble les classes voisines qui ont une caractéristique commune (on parle alors de caractéristique d’une région de la carte). • Elle permet de percevoir des effets locaux ( une caractéristique qui distingue deux classes voisines). • Elle indique lorsqu’une caractéristique se ventile sur deux régions (deux zones non connexes sur la carte).
2 niveaux de classification. Les centres de classes sont regroupés en macro-classes à l’aide d’une classification hiérarchique. La couleur de fond de chaque unité indique la macro-classe. Ces Macro-classes regroupent en général des régions connexes et sont donc cohérentes avec la structure de voisinage. La couleur de fond des unités indique la macro-classe d’appartenance.
Quelques exemples de typologies à l’aide des cartes de Kohonen. • La structuration de l’offre de formation. • Les profils de consommation des ménages canadiens. • Les courbes : • La consommation électrique journalière nationale polonaise. • Les parcours professionnels.
Exemple 1 : La structuration de l’offre de formation. En collaboration avec Josiane Vero (CEREQ) 428 organismes décrivent 1200 pôles de formation à travers 8 dimensions elles-même détaillées en items. • L’individu est le pôle. • Les variables sont les items des dimensions. • La distance est la distance du χ². Les dimensions d’un pôle de formation pouvant être : • Un domaine ou une spécialité de formation. • Un public particulier. • Un diplôme ou titre préparé. • Un type de financeur ou client particulier. • modalité de réalisation des formations (alternance, fest, …). • Un niveau de formation visé. • Une offre de service intégrant des prestations en amont ou en aval de la formation. • Un territoire particulier.
La structuration de l’offre de formation Diplômes d'Etat Diplômes d'Etat Services multiples Services amont Services amont Local NiveauIV Salariés Zone région Demandeurs d'emploi Salariés Financement public 1. 2. 3. Demandeurs d’emploi Services aux personnes Tertiaire administratif Financement public Financement public et à la collectivité Salariés Local Territoire national Local Niveau V et VI Niveau V et VI Niveau V et VI Titres homologués Titres homologués Niveau III Salariés Titres homologués Service aval Service aval Service amont Service amont Territoire national Niveau Vbis et VI Niveau V et VI Service aux personnes Titres homologués 5. et à la collectivité Tertiaire administratif Diplômes d'état Service aval Services multiples Niveau IV, II et I 4. territoire national Public multiple Formations diplômantes 6. Titres homologués 7. certificats Tertiaire administratif Niveau I et III Tertiaire administratif Niveau III Diplômes d'état Titres homologués Salariés Salariés Salariés Public multiple Territoire national Services multiples Diplômes d'état Titres homologués Diplômes d'état Financement public Services amont Service amont Niveau I et II Financement employeur Modalités de réalisation Niveau IV Modalités de réalisation Services amont Modalité de réalisation Niveau III 9. Salariés 10. Formations 8. Spécialités Financement employeur Disciplinaires industrielles générales Financement employeur Financement employeur Territoire national Niveau IV Services amont Niveau III
Cartographie des catégories de prestataires de formation continue. Répartition du chiffre d’affaire. 1. « Demandeursd’emploi 2. « Services aux personnes Financement public » et à la collectivité » 3. « Tertiaire administratif » Associatif : 42% Privé lucratif : 43% Associatif : 62% Privé lucratif : 35% Public : 25% Entreprise : 25% Public : 18% Associatif : 22% 5. « Tertiaire administratif Service aval » 4. « Formations diplômantes » Entreprise : 41% En % du Privé lucratif : 28% produit total Associatif : 25% Public : 41% 6. « Titres homologués » 7. « certificats » >25% Privé lucratif : 28% Public : 38% Entreprise : 51% Associatif : 27% Associatif : 30% Associatif : 29% Privé lucratif : 25% Privé lucratif : 16% [10-15%] 9. « Salariés 10. « Formations 8. « Spécialités industrielles » Financement Disciplinaires employeur » Générales » [5-10%] Privé lucratif : 27% Entreprise : 28% Privé lucratif : 50% Privé lucratif : 28% Public : 26% Associatif : 23% Entreprise : 14%
Exemple 2 : Profil de consommation des canadiens Statistiques Canada alcool al.dom al.ext charges comm. La consommation d’environ 10000 ménages entre 1986 et 1992 divers don est décrite par un profil en pourcentage dans 20 produits : education valeurs de la consommation (y1,…yj,…y20) habill. logement yj 20 loisirs profil (x1,…xj,…x20) où x j = ∑y i et ∑x j =1 j =1 loterie meubles santé i secu La distance utilisée est la distance du χ² soin tabac tr.pers tr.pub. vehicule
Croisement de la classification avec une variable qualitative exogène. Cartographie des locataires Cartographie de la richesse locataire propriétaire pauvres quasi pauvres moyens quasi riches riches
Exemple 3: Profils de courbes : La consommation électrique nationale Polonaise. dimanche 01 mars 1987 lundi 02 mars 1987 lumière chauffage activité domestique Chauffage et activité industrielle et Chauffage et professionnelle activité domestique repas repas 0 10 20 0 10 20 Heure Heure Loisir de soirée (télé) et repas • Influence du chauffage • de la production industrielle Activité industrielle et professionnelle • de l’activité domestique lundi 08 août 1988. 0 10 20 Heure
Résultat de la classification : les cartes NB= 38 NB= 47 NB= 49 NB= 12 NB= 26 NB= 15 NB= 40 NB= 59 NB= 61 NB= 30 NB= 39 NB= 21 NB= 25 NB= 13 NB= 28 NB= 10 NB= 88 NB= 32 NB= 45 NB= 12 NB= 26 NB= 51 NB= 44 NB= 25 NB= 20 NB= 5 NB= 29 NB= 45 NB= 26 NB= 42 C NB= 14 NB= 50 NB= 11 NB= 9 NB= 44 NB= 32 NB= 3 NB= 0 NB= 0 NB= 34 A B NB= 16 NB= 48 NB= 38 NB= 13 NB= 41 NB= 19 NB= 6 NB= 46 NB= 29 NB= 17 NB= 20 NB= 1 NB= 4 NB= 24 NB= 41 NB= 0 NB= 18 NB= 28 NB= 28 NB= 40 LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE NB= 48 NB= 75 NB= 9 NB= 4 NB= 17 NB= 20 NB= 21 NB= 31 NB= 33 NB= 33 NB= 22 NB= 31 NB= 18 NB= 24 NB= 33 NB= 17 NB= 19 NB= 35 NB= 42 NB= 43 NB= 47 NB= 35 NB= 33 NB= 25 NB= 22 NB= 22 NB= 14 NB= 14 NB= 42 NB= 37 D NB= 66 NB= 24 NB= 33 NB= 42 NB= 47 NB= 36 NB= 10 NB= 21 NB= 48 NB= 52
Cartographie des jours Certains samedi sont ouvrés Particularité des lundi Les samedi Les dimanche et ponts et jours fériés dimanche lundi mar->ven samedi
Cartographie des mois : Le suivi des mois se lit sur la carte janvier février mars avril mai juin juillet août septembre octobre novembre décembre j ours de s em ai ne d'octobre à m ars 11 et 12 1 2 10 sam edi d'hi ver 11 12 jours de semaine de février et m ars 3 10 2 di manc he d'octobre à février 1 3 jours de semaine d'avril et s eptem bre dim anche de m ars , avril et s eptem bre samedi et dimanche d'été jours de semaine de m ai à aout
Exemple 4 : Parcours professionnels. • Données extraites de « Génération 92 » (2422 parcours de jeunes femmes sorties au niveau du bac). • Les variables du calendrier représentent les situations mensuelles des 57 mois consécutifs de juillet 92 à avril 97. • Codage de la situation mensuelle selon 7 états. • Choix d’une distance entre les trajectoires qui intègre une distance entre les états suivant le coût en temps du passage par l’état pour atteindre le CDI. 1- CDI ou CDD stabilisé sur CDI 5- Recherche d’emploi 2- CDD 6- Inactivité 3- CES 7- Formation études 4- Contrat de qualification ou d’apprentissage
Représentation de l’évolution mensuelle de la part de chaque état pour les individus. D’après les travaux d’Yvette Grelet Exemple d’une classe où : Dans les premiers mois, environ 50% des individus sont sur un contrat CDD, 25% en CDI et 25% au chômage. Dans les derniers mois, 100% sont en CDI.
Les individus sont répartis dans leurs classes d’affectation. Perte de CDI CES-Chômage CQ ->CDI CDI immédiat CDD ->CDI
Comparaison avec le couple classique : Classification-Analyse factorielle La différence dominante est la suivante : • L’analyse factorielle rend bien compte des grandes distances. • La carte de Kohonen met plus souvent en évidence des effets de petites distances. La carte de Kohonen peut se percevoir comme « l’ajustement des données par une surface » non linéaire qui généralise « l’ajustement par un plan ».
Cas d’une structure non linéaire. Une distribution en fer à cheval. Les points sont représentés sur les axes d’origine, les couleurs du graphique de type correspondent à une classification de type Ward.
plan principal plan secondaire Carte de Kohonen
L’exemple de “la qualité de la peau” a une structure de type “fer à cheval”. Les centroïdes de la classification de Kohonen sont reliés à leurs voisins et projetés sur le plan principal (des centroïdes) Couleur des macro-classes Bord de la surface (partie cachée en pointillé)
Le couple “classification - carte de Kohonen” remplace “classification - analyse factorielle”. • Une classification C est faite à partir d’une méthode au choix. • La carte de Kohonen ne sert dans ce cas qu’à visualiser la classification C et non à classer. • Restriction: La distance choisie pour l’algorithme de Kohonen est cohérente avec celle de la classification (Euclidienne pour Euclidienne ou Ward, χ² pour χ², etc.).
Classification – Analyse factorielle Exemple de la qualité de la peau Sur observe On le plan principal, plusieurs on repère zones les individus par leur classe de recouvrement (classification hiérarchique distance de Ward à 6 niveaux)
Classification – Analyse factorielle. Certaines distances intra-classes paraissent très grande sur le plan à cause d’un effet d’écrasement.
Comparaison de deux classifications. Hiérarchique avec la distance de Ward Segmentation Classification issue de la segmentation Classification hiérarchique (distance de Groupe 1 Groupe 5 Groupe 2 Groupe 3 Groupe 4 Groupe 6 Ward) ) ' ! + # % Classe 1 ) 14,2% 0,5% 2,4% 8,5% 0,5% Classe 2 # 12,7% 6,6% Classe 3 ' 3,3% 8,0% 4,3% Classe 4 ! 0,9% 0,9% 2,8% 15,1% 2,4% Classe 5 + 11,3% Classe 6 % 0,5% 5,2%
La projection des classifications sur la carte. Hiérarchique Segmentation Classes 1->6 cas 10% de la classe 1, 20% de la classe 2, ..., 60% de la classe 6
La classification projetée une surface. ++ + ++ # # ! ! # ! # ! # ! ! !! # ! # ! !! Correspondance couleur symbole ! # # )) % # ) ) # # % ) ) # # ) # ) ) )
Visualisation la structure intrinsèque des données à partir des cartes. • La représentation par la carte dispose les unités de façon ordonnées ce qui traduit mal la distorsion du nuage de points. • Certains outils graphiques servent à rendre compte de la structure intrinsèque des données : • En représentant la distance entre classes voisines. • En représentant la matrice des distances inter-classes.
Distance locale. Les bords des Le coté unités droit est sont séparés détaché par des espaces d’épaisseur du centre proportionnelle à la distance entre les centres de classe.
Propriétés • La distance locale permet de visualiser la structure locale. • Elle est simple à utiliser. • Par contre elle ne fait pas apparaître les distances entre les classes éloignées. Elle ne permet pas entre autre de percevoir un éventuel repliement de la carte.
Visualisation de la structure des données à partir de la carte. • La Matrice (49x49) des distances entre les centres de classes a 2401 valeurs. • Elle contient toute l’information pour comprendre la structure des données. • Mais elle est impossible à lire sous cette forme. d(C1,C1) d(C1,C2) d(C1,C3) ,,, d(C1,C47) d(C1,C48) d(C1,C49) d(C2,C1) d(C2,C2) d(C2,C3) d(C2,C47) d(C2,C78) d(C2,C49) d(C3,C1) d(C1,C1) d(C3,C2) d(C1,C2) d(C1,C3) d(C3,C3) d(C1,C4) d(C1,C5) d(C1,C6)d(C3,C48) d(C3,C47) d(C1,C7) d(C3,C49) , d(C1,C8) d(C1,C9) d(C1,C10) d(C1,C11) d(C1,C12) d(C1,C13) d(C1,C14) , , , , , d(C47,C1) d(C47,C2) d(C47,C3) d(C47,C47) d(C47,C48) d(C47,C49) d(C48,C1) d(C48,C2) d(C48,C3) d(C48,C47) d(C48,C48) d(C48,C49) d(C49,C1) d(C49,C2) d(C49,C3) ,,, d(C49,C47) d(C49,C48) d(C49,C49) Représentation de la distance entre la classe1 et toutes les autres. d(C1,C43) d(C1,C44) d(C1,C45) d(C1,C46) d(C1,C47) d(C1,C48) d(C1,C49)
Visualisation de la structure des données. Représentation de la distance inter classes. • La grille est divisée en boîtes et chaque boîte en cases. Le côté droit est éloigné du Les angles “haut • l’intensité deà couleur gauche” etdu couple (boîte c, casereste c’)decorrespond à la la distribution “bas à droite” distance sontles entre proches classes c et c’ (la plus claire est la plus petite).
Visualisation de la structure des données. Conclusion. • On peut représenter la structure locale de façon simple. • La représentation complète de la structure intrinsèque est très précise mais assez lourde du fait de la grande quantité d’information présente.
Conclusion : Quel apport au final. • Résoudre les problèmes de visualisation et de synthèse. • Dépasser les 3 ou 4 dimensions principales : localement. • Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d’axes). • Percevoir des nuances de comportement chez certaines sous populations. • Le gain essentiel est de voir autrement.
Annexe.
Les algorithmes de classification. Les classiques : - La classification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné à priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. - L’algorithme de Kohonen (SOM). nombre de classes fixé, données de grande taille, cartes de Kohonen, notion de voisinage entre les classes.
L’algorithme de Kohonen : Une généralisation des Centres Mobiles - On détermine une structure de voisinage entre les classes. - Initialisation aléatoire des représentants de classes. - A chaque itération : - On tire au hasard une observation x(t+1). - On détermine le représentant R le plus proche de x et sa classe C. - On modifie - Cas Centres Mobiles (Forgy 1965) : seul R. - Cas Kohonen : R et les représentants des classes voisines de C. Par la formule : R (t + 1) = R(t ) + ε (t )( x(t + 1) − R(t )) Remarque : Si R et R’ sont modifiés ensemble, ils se rapprochent R(t + 1) − R ' (t + 1) = (1 − ε (t )) R (t ) − R (t ) A la fin les représentants des classes voisines et leurs individus sont aussi voisins.
L’état des travaux théoriques. • La démonstration de la convergence n’est pas aboutie (hormis dans un cadre restreint). • La structure de la carte peut varier lorsque l’on relance l’algorithme. • Une relance multiple à l’aide de bootstraps permet de contrôler la cohérence. • Cette méthode (avec bootstraps) utilisée sur certains exemples ont confirmé une cohérence de la structure (les classes voisines restent voisines « assez souvent »).
Exemple 5 : Les hedge funds – Classer les Hedge Funds sans à priori sur leur catégorie. – Vérifier la crédibilité des types existants (Micropal). – Caractériser les types à partir de leur mesure de performance. Les données : 294 fonds entre January 1975 to September 2000 (67 Months).
Exemple : Les hedge funds Funds are represented in their own class Representative funds and macro- classes
Interpretation of One-to-one Representative Fund Distances 3 specific categories A ring zone A large central area
Characterization of K-classes with a Four-level Fund Style Typology (MSDW) Multiple Styles Directional Trading (1) Relative Value (2) Specialist Credit (3) Grey or Stock Selection (4) Magenta
Dispatching Funds onto the Map Interpretation from a Four-level Fund Style typology Contingency of (Fund Style ∩ k-class) = nik nik Contingency of Fund Style = ni. Bar chart size = n i. Directional Trading (1) Relative Value (2) Specialist Credit (3) Stock Selection (4)
Characterization of K-classes with a Performance Measurement • High Sharpe’s Ratios (grey level) can be found on the whole map • Medium-high (yellow level) are mainly in the green zone • Low and Medium-low Ratios (magenta and blue levels) are mainly located in the central zone of the map (green and magenta zone) Low Sharpe’s Ratios (1) Medium-low (2) Medium-high (3) High (4)
Characterization of K-classes with a Performance Measurement Conditional versus Unconditional Conditional versus Unconditional Sharpe’s Ratio density Box-plot of Sharpe’s Ratios
Vous pouvez aussi lire