TD 2: AFCM Analyse Factorielle des Correspondances Multiples
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
TD 2: AFCM Analyse Factorielle des Correspondances Multiples 1 Questions de cours 1. Rappeler les objectifs d’une AFCM. Définir la ressemblance entre deux individus, entre deux variables, entre deux modalités de deux variables différentes (exemple: +65 ans et les retraités), et entre deux modalités de la même variable (exemple: entre les plus de 60 ans et les plus de 65 ans). 2. Lors d’un stage en entreprise, l’objectif est de traiter les résultats d’une enquête (par exemple sur les habitudes de voyage des bretons) comprenant une trentaine de questions (variables qualitatives). Dans un premier temps, l’analyse commence comme toujours par des statistiques descriptives. On décide alors de réaliser des tableaux croisés entre les différentes variables qualitatives (on se demande par exemple quels sont les CSP qui partent en camping, à l’hôtel....). Comment choisir les variables des tableaux croisés à réaliser? 3. Dans une enquête, je dispose à la fois de variables quantitatives (5 vars) et qualitatives (30 vars). Comment analyser simultanément ces variables de nature différente? 2 AFCM sur des données bancaires Le jeu de données contient 68 clients d’un organisme de crédit ayant souscrit un crédit à la consommation. Les 11 variables qualitatives et les modalités associées à cet exemple sont les suivantes: • Marché : rénovation d’un bien (appartement, maison), voiture, scooter, moto, mobilier-ameublement, side-car, île. Cette variable indique le bien pour lequel les clients ont réalisé un emprunt. • Apport : oui, non. Cette variable indique si les clients possèdent un apport personnel avant de réaliser l’emprunt. Un apport personnel représente une garantie pour l’organisme de crédit. • Impayé : 0, 1 ou 2, 3 et plus. Cette variable indique le nombre d’échéances impayées par le client, soit le nombre de fois où il n’a pas réussi à rembourser son emprunt. • Taux d’endettement : 1 (faible), 2, 3, 4 (fort). Cette variable indique le niveau d’endettement du client. Le taux d’endettement est calculé comme le rapport entre les charges (ensemble des dépenses) et le revenu. Ce taux a été discrétisé en 4 classes. • Assurance : sans assurance, AID (assurance invalidité et décès), AID + Chômage, Senior (pour les plus de 60 ans). Cette variable indique le type d’assurance à laquelle le client a souscrit. • Famille : union libre (concubinage), marié, veuf, célibataire, divorcé, pacsé. • Enfants à charge : 0, 1, 2, 3, 4 et plus, 8. • Logement : propriétaire, accédant à la propriété (personne qui n’a pas encore fini de rembourser son emprunt immobilier), locataire, logé par la famille, logé par l’employeur. • Profession : ouvrier non qualifié, ouvrier qualifié, retraité, cadre moyen, cadre supérieur, ministre. • Intitulé : M, Mme, Melle. • Age : 20 (18 à 29 ans), 30 (30 à 39), 40 (40 à 49), 50 (50 à 59), 60 et plus. Le but de cette étude est de caractériser la clientèle de l’organisme de crédit. Nous voulons dans un premier temps mettre en évidence différents profils de comportements bancaires, c’est-à-dire effectuer une typologie des individus. Nous voulons ensuite étudier la liaison entre la signalétique et les principaux facteurs de variabilité des profils de comportements bancaires (i.e. caractériser les clients aux comportements particuliers). 1. Importer le fichier "creditmaster.csv". 1
2. Avant de commencer l’analyse, on peut remarquer qu’il y a une modalité mqt correspondant à une valeur manquante. Cette modalité correspond à l’individu 68. Nous décidons donc de supprimer cet individu (qui correspond à une erreur dans le fichier). credit=credit[-68,] summary(credit) Attention la modalité manquante mqt correspond toujours à un niveau pour chacune des variables, il faut alors la supprimer: for (i in 1:ncol(credit)) credit[,i]
10. Etude des modalités: quelles sont les modalités qui contribuent le plus à la création du premier axe? du deuxième? Ces modalités sont-elles situées forcément aux extrémités du graphique? Commenter la qualité de représentation de ces modalités: les résultats obtenus vous semblent-ils surprenants? res.MCA$var 11. Interpréter la proximité entre la modalité "Senior" de la variable Assurance et "Rénovation" de la vari- ableMarché . Revenir aux données brutes pour confirmer votre interprétation. table(credit[,"Assurance"],credit[,"Marche"]) 12. Construire le tableau des pourcentages en ligne puis des pourcentages en colonne et commenter. 13. Commenter le tableau des contributions aux Chi2. Test
3 AFCM des cétacés baleines à fanons (1) Baleines à fanons baleines grises (2) baleines à bosse (3) cachalots (4) Physeteroidea baleines à bec (5) dauphins (6) Baleines à dents Delphinoidea marsouins (7) belougas (8) Platanistoidea dauphins d’eau douce (9) Figure 1: Classification des cétacés d’après Grasse Le fichier cetaces.txt contient les observations sur 36 cétacés de 15 variables qualitatives : 1. Cou (absent, présent) 2. Forme de la tête (cylindrique, conique, front incurvé, globulaire, plat, convexe) 3. Taille de la tête (grosse, moyenne) 4. Bec (aucun, grand, étroit et court, étroit et long) 5. Nageoire dorsale (aucune, triangulaire, falciforme, falciforme arrière) 6. Palmes (petites, larges et courtes, moyennes, longues et étroites) 7. Dents (sur machoire inférieure, sur les deux, sans dent et long fanon, sans dent et mince fanon, sans dent et large fanon) 8. Sillon de la gorge (absent, petit, grand) 9. Event (à gauche, à droite, vertical, vertical avec 2 trous) 10. Couleur (ventre plus clair que le dos, noirâtre, sans pigmentation, taché, sans) 11. Vertèbres cervicales (libres, partiellement ou totalement soudées) 12. Os lacrymaux et jugulaires (forment un pièce, sont indépendants, absents) 13. Os de la tête (symétrique, faiblement asymétriques, asymétriques, fortement asymétriques, absents) 14. Habitat (rivières, mers tempérés et chaudes, mers froides, côtes, variable) 15. Alimentation (calmars, poissons, phoques, planctons) 4
Figure 2: Baleine à bosse Figure 3: Marsouin La première colonne du tableau cetaces.txt contient le groupe de classification auquel l’individu appartient et ne fait pas partie des variables à analyser. Nous allons essayer d’analyser ce tableau selon trois niveaux : • vérification de la séparation des individus selon la classification ; • interprétation des axes par variable (et non pas par modalité) ; • relations entre modalités. 3.1 Vérification de la classification • Quel est le type de graphique à faire ? En retenant les 3 premiers axes, vérifier la séparation des baleines à fanons, des platanistoidea, des physeteroidea et des delphinoidea. Remarquer qu’il est difficile de bien séparer les physeteroidea et les delphinoidea. – Créer une variable qualitative à 4 modalités "classif": Fanons, Physeteroidea, Delphinoidea et Pla- tanistoidea – Essayer d’obtenir un graphique "propre" (utiliser les options invisibles, habillages de plot.MCA...), ou reconstruire les graphiques "à la main" en rajoutant toutes les options possibles titre, libellé des axes, vous pouvez aussi remettre les pourcentages d’inertie...: cetaces.acm=MCA(cetaces,...) plot(cetaces.acm,...) #Ou, plot(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],type="n",xlab="axe_1",...) text(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],col=as.numeric(classif)) – Comme on s’intéresse aux 3 premiers axes, on peut aussi réaliser un graphique en 3 dimensions: 5
library(scatterplot3d) scatterplot3d(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],cetaces.acm$ind$coord[,3] ,color=as.numeric(classif)) – Quand deux baleines se ressemblent, vous pouvez revenir aux données brutes pour confirmer votre interprétation: cetace[6:7,] 3.2 Interprétation des axes par variable • Quelles sont les variables les plus importantes? • Quelles sont les variables qui permettent de séparer les baleines à fanons ? • Quelles sont les variables qui permettent de séparer les platanistoidea ? 3.3 Interprétation des axes par modalité • Donner un sens aux axes 1 et 2 à l’aide des modalités. 6
Vous pouvez aussi lire