DATA MINING Analyses de données symboliques sur - les restaurants - Master 2 Professionnel - LAMSADE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI
SOMMAIRE I – Introduction ......................................................................................................................... 3 II – Présentation du Data Mining ............................................................................................ 4 1 – Data Mining ................................................................................................................................. 4 2 – SODAS ......................................................................................................................................... 4 3 – Autres logiciels utilisés ................................................................................................................ 6 III – Présentation des données ................................................................................................. 6 1 – Choix de la base de données ....................................................................................................... 6 2 – Sources des données .................................................................................................................... 7 3 – Eléments constituant la base de données .................................................................................. 7 a) Vue globale de la base de données...................................................................................................... 7 b) Vue détaillée de la base de données .................................................................................................... 8 4 – Choix des concepts et des individus ......................................................................................... 10 5 – Création des tables nécessaires à l’étude ................................................................................ 10 IV – Importation sous DB2SO ................................................................................................ 12 1 – Présentation de DB2SO ............................................................................................................ 12 2 – Importation des tables .............................................................................................................. 12 V – Utilisation de SODAS et analyses des données ............................................................... 16 1 – Méthode Symbolic Object Editor – dite SOE ......................................................................... 16 2 – Méthode Elementary Statistics On Symbolic Objects – dite STAT ..................................... 22 3 – Méthode de division en classe de concepts homogène – dite DIV ......................................... 25 4 – Méthode Principal Component Analysis – dite PCA ............................................................. 28 VI - Conclusion ....................................................................................................................... 30 VII – Annexes .......................................................................................................................... 31 2
I – Introduction Depuis un certain nombre d’années, les entreprises commencent à privilégier une technique qui consiste à aider à prendre une décision « business » : le Data Mining, ou fouille de données. Celui-ci sert à mieux comprendre sa clientèle, comprendre son comportement à partir de ses caractéristiques, constituer des panels représentatifs de clients, découvrir des niches inconnues mais rentables, adapter sa politique de fidélisation ; ou bien optimiser l’adéquation de son offre à la demande adapter sa politique commerciale et sa tarification aux différents segments de clientèle, adapter ses canaux de distribution et/ou ses forces de ventes à ces segments, optimiser l’impact et la rentabilité des offres promotionnelles ; ou même donner un ordre de priorité à ses actions de marketing et/ou de vente mieux cibler ses campagnes de marketing direct, évaluer la propension d’un prospect ou client à acheter un produit nouveau. En fait, le Data Mining correspond à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. Le Data Mining n'est que l'une des étapes du processus de découverte de connaissances correspondant précisément à l'extraction des connaissances à partir des données. Avant de réaliser une étude de Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse (Entrepôt de Données), ce que nous ferons partiellement pour ce projet en créant une base de données relationnelle sur quelques restaurants de France métropolitaine et Corse. Dans un premier temps, nous définirons plus précisément dans ce rapport le Data Mining, et nous présenterons le logiciel SODAS que nous allons utiliser pour analyser nos données. Ensuite nous parlerons de notre base de données, et des questions que l’on peut se poser et auxquelles nous pourrons répondre par la suite, et préparerons l’étude de cette base de données par le Data Mining. Dans un troisième temps, nous expliquerons comment nous avons procédé pour étudier notre base de données, via - entre autres - le logiciel SODAS. Enfin, nous conclurons sur ce rapport, présentant entre autres les difficultés rencontrées, les points forts et faibles de SODAS, et le Data Mining en général. 3
II – Présentation du Data Mining 1 – Data Mining Le Data Mining est un ensemble de méthodes et techniques qui permettent la prise de décisions, à travers la découverte, rapide et efficace, de schémas d’informations inconnus ou cachés à l’intérieur de grandes bases de données. Ce n’est ni un système d’interrogation de bases de données, ni un système de statistique et de visualisation. Nombreux sont les commentateurs ou les utilisateurs qui invoquent le concept de « Data Mining », et tous les outils précédemment mentionnés y ont été rattachés à un moment ou à un autre. Dans la réalité, ils appartiennent tous à deux grandes approches de détection de l’information dans les bases de données : L’approche « vérification » : l’utilisateur a l’intuition ou l’idée générale du type d’information qu’il peut obtenir de ses données. Il tire alors profit de sa base de données en "quantifiant" son intuition. Il est clair que les données extraites, et les décisions qui en découlent, dépendent exclusivement de l’intuition de l’utilisateur concernant les paramètres importants du problème (âge, géographie, ...), intuition qui est souvent correcte mais non exhaustive. L’approche « découverte » (Advanced Data Mining) ou recherche de l’information cachée : l’utilisateur comprend que la quantité de données dont il dispose étant considérable, la détection optimale et exhaustive des structures ou relations importantes est totalement hors de portée de l’utilisateur humain. Il doit alors s’appuyer sur des méthodes avancées d’analyse de données pour détecter l’information cachée (dont il se peut qu’elle soit la plus intéressante). Il pourra par exemple procéder à une segmentation de clientèle par ce type de technique, et détecter des classes ou niches, non identifiées auparavant, qui recèlent un très fort potentiel d’affaires. Il lui sera alors possible de développer des stratégies marketing finement ciblées en direction de ces niches, développant ainsi un avantage compétitif majeur. L’appellation « Data Mining » ne devrait être donnée qu’aux outils capables de détecter l’information cachée « au plus profond » de la « mine de données ». A l’évidence, cela ne concerne pas les systèmes d’interrogation de base de données, ni les tableurs, ni les systèmes statistiques, ni même les systèmes d’analyse de données traditionnels. 2 – SODAS Il s'agit d'un logiciel prototype public, apte à analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : Partir d'une base de données relationnelle (ORACLE, ACCESS, ...) Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents, ...), les variables qui les décrivent des concepts (villes, groupes socio-économiques, scénario d'accident, ...) 4
Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. Nous pouvons construire alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies), etc., selon le type de variables et le choix de l'utilisateur. Dès lors, nous pouvons créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques, ...). Vue d’ensemble de SODAS : 5
3 – Autres logiciels utilisés Les principaux fournisseurs de logiciels commerciaux sont : SAS Institute : SAS Enterprise Miner Oracle : Data Mining Décisia : SPAD Angoss Software : KnowledgeSeeker KnowledgeStudio SPSS : Clémentine StatSoft : Statistica KXEN : Analytic Framework Insightful : Insightful Miner Microsoft : SQL Server 2005 Segmentaction : Customer Mining Business Objects Les logiciels gratuits sont : Weka 3 Orange Tanagra Alpha Miner Yale III – Présentation des données 1 – Choix de la base de données Pour mener à bien ce projet, nous avons eu besoin de réfléchir sur un sujet possible de base de données, afin d’en analyser les données avec le logiciel SODAS. Des études avaient déjà été faites sur des bases de données facilement récupérables dont les sujets étaient les albums de musiques, les films ou les équipes de football du championnat de France de Ligue 1. Pour notre part, nous avons décidé de prendre comme sujet principal les restaurants de France, avec comme différentes données les nom et adresse d’un restaurant, le type de cuisine proposé, le nom du chef cuisinier, et ainsi de suite. Nous parlerons de toutes les variables de description dans la suite de ce rapport. Le but de ce projet est d’analyser cette base de données afin d’en tirer diverses conclusions qui pourraient ne pas sauter aux yeux au premier abord. 6
2 – Sources des données Afin de trouver différentes données sur les restaurants, nous avons dû rechercher sur Internet des liens qui nous permettaient de lister facilement et avec le plus de données possible divers restaurants de France. Il existe plusieurs liens fournissant ces informations, mais au final, nous n’en avons choisi qu’un, qui était clair et précis dans ces informations : http://www.linternaute.com/restaurant/ Pour d’autres données générales comme plat_ typique ou saveur, nous avons nous-même rempli la base de données. 3 – Eléments constituant la base de données a) Vue globale de la base de données Notre base de données est représentée par neuf tables : restaurant : données principales sur un restaurant cuisine : types de cuisine utilisés, et données adéquates option : différents services d’un restaurant fermeture : jours de fermeture d’un restaurant chef : les chefs des restaurants ville : rajoutée - comme les tables suivantes - pour la « taxonomie » département pays continent 7
Ces tables sont jointes de la manière suivante : b) Vue détaillée de la base de données Dans ce chapitre, nous allons détailler les tables données précédemment et expliquer les attributs qui pourraient être imprécis ou ambigus : id_restaurant est la clé primaire, l’identifiant des restaurants. Il est unique pour chaque restaurant origine_cuisine : identifiant permettant de savoir de quel pays est originaire le type de cuisine correspondant id_cuisine, id_fermeture, id_ville, id_chef, id_option : idem concernant le type de cuisine, les jours de fermeture du restaurant, sa ville, son chef et ses diverses options prix min menu : prix minimal d’un menu dans ce restaurant prix max menu : prix maximal d’un menu nb_couverts : nombre de couverts maximal dans ce restaurant nb_couverts_terrasse : idem en terrasse nb_employes : nombre d’employés du restaurant annee_creation : année de création du restaurant appreciation : note d’appréciation sur cinq du restaurant. 8
cuisine : type de cuisine origine_pays : pays d’origine de ce type de cuisine plat_typique : plat référence de ce type de cuisine saveur : pareil pour la saveur prix_moyen : prix moyen général pour ce type de cuisine. Pour chacun des attributs, autres que l’identifiant, les valeurs possibles sont OUI ou non. Pour chacun de ces attributs, autres que l’identifiant, les valeurs possibles sont OUI ou non ; OUI signifierait que le restaurant ferme le jour correspondant. annee_embauche : année d’embauche du chef cuisinier dans le restaurant auquel il a été attribué. Chaque ville appartient à un seul département, donné par id_CP. Chaque département appartient à une région, et à un seul pays, défini par id_pays. 9
. Chaque pays appartient à un seul continent, déterminé par id_continent. 4 – Choix des concepts et des individus Vu la structure de notre base de données, vous pouvez dégager facilement les concepts et individus choisis. Nos concepts seront les types de cuisine, et les individus seront les restaurants eux-mêmes. Les concepts sont au nombre de dix. Les individus, au nombre de cinquante, avec cinq restaurants par type de cuisine. Chaque concept a sa propre description, de même que pour les individus. Le choix de ces concepts et individus est donc judicieux. 5 – Création des tables nécessaires à l’étude Pour pouvoir par la suite utiliser notre base de données avec SODAS, il nous faut écrire sous Access trois requêtes permettant : de regrouper les informations utiles des individus ainsi que les concepts ; de regrouper des données des concepts ; et de spécifier la taxonomie. Requête sdsResto Cette requête va nous permettre de renvoyer les individus que nous avons choisis - définis comme individus de premier ordre – leurs caractéristiques, ainsi que les concepts associés. Nous obtenons donc le tableau suivant, qui représente une partie de la nouvelle table, avec en première colonne l’individu, en seconde le concept, et ensuite les variables de descriptions souhaitées pour l’étude : Voici en SQL la requête ci-dessous : « SELECT restaurant.nom, cuisine.cuisine, restaurant.prix_min_menu, restaurant.prix_max_menu, restaurant.nb_couverts, restaurant.nb_couverts_terrasse, restaurant.nb_employes, restaurant.annee_creation, chef.sexe, chef.salaire_net_mensuel, chef.annee_embauche, fermeture.lundi, fermeture.mardi, fermeture.samedi, fermeture.dimanche, option.tarif_etudiant, option.tarif_enfant, option.animaux_admis, option.parking, option.air_conditionne, option.acces_handicape, ville.ville, departement.region, pays.pays, continent.continent, restaurant.appreciation 10
FROM continent INNER JOIN (pays INNER JOIN (departement INNER JOIN (ville INNER JOIN (fermeture INNER JOIN ([option] INNER JOIN (chef INNER JOIN (cuisine INNER JOIN restaurant ON cuisine.id_cuisine = restaurant.id_cuisine) ON chef.id_chef = restaurant.id_chef) ON option.id_option = restaurant.id_option) ON fermeture.id_fermeture = restaurant.id_fermeture) ON ville.id_ville = restaurant.id_ville) ON departement.id_CP = ville.id_CP) ON pays.id_pays = restaurant.origine_cuisine) ON continent.id_continent = pays.id_continent; » Requête addResto Ici, nous ajoutons dans une nouvelle table des données des concepts. Voici ce que nous obtenons en tableau : La requête SQL définissant ce tableau est la suivante : « SELECT cuisine.cuisine, cuisine.plat_typique, cuisine.saveur, cuisine.prix_moyen FROM cuisine; » Requêtes pour la taxonomie Cette dernière requête permet la hiérarchisation entre les villes, départements, pays et continents. Nous avons créé deux requêtes pour établir cette hiérarchie : - taxoRegion, qui associe à une région un ou plusieurs départements et villes Le tableau correspondant est le suivant : Et sa requête SQL : « SELECT ville.ville, departement.[code postal], departement.region FROM departement INNER JOIN ville ON departement.id_CP = ville.id_CP; » - taxoContinent, qui associe un pays à un seul continent Avec comme tableau : 11
Et comme requête SQL : « SELECT pays.pays, continent.continent FROM continent INNER JOIN pays ON continent.id_continent = pays.id_continent; » IV – Importation sous DB2SO 1 – Présentation de DB2SO DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble de concepts à partir de données stockées dans une base de données relationnelle. Il est supposé qu’un ensemble d’individus est stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire un concept pour chaque groupe d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des concepts générés. 2 – Importation des tables Ici, nous allons importer notre base de données ainsi que les requêtes créées précédemment dans DB2SO, afin de pouvoir utiliser SODAS pour analyser notre base. Dans un premier temps, nous allons donc importer notre base « restaurants de france.mdb » : Puis nous sélectionnons la source de données : 12
Ainsi que la base de données : Puis nous extrayons les individus avec la requête sdsResto : Nous avons comme résultat : 13
Modifions à présent les concepts en leur rajoutant des variables descriptives - contenues dans la base de données. Pour ce faire, allons dans « modify », et utilisons la commande bleutée ci- dessous : Nos variables n’ont que des valeurs uniques et non multiples. Ce ne sont pas des intervalles, donc nous pouvons bien utiliser « Add single-valued variables ». Exécutons donc addResto : Voici le résultat de l’exécution : 14
A présent, exécutons les requêtes de taxonomie. Il faut cette fois-ci utiliser la commande « Create a taxonomy », par deux fois, pour créer les deux requêtes taxoRegion et taxoContinent. Les résultats de cette exécution sont : Puis au final, nous sauvegardons ce fichier sous le nom « requetes » : Ainsi sont créés un fichier de type gaj et un autre de type xml. Puis nous exportons ces données pour créer un fichier sds et pouvoir utiliser SODAS : Résultat : Nous pouvons à présent utiliser SODAS pour analyser notre base de données. 15
V – Utilisation de SODAS et analyses des données Dans ce chapitre, nous allons vous décrire comment nous avons utiliser le logiciel SODAS sur notre base de données, à travers plusieurs méthodes. Pour chaque méthode, nous commenterons nos choix d’attributs et les résultats associés. Mais il nous faut d’abord importer le fichier « restaurants.sds » créé dans le chapitre précédent : Etudions donc maintenant nos données, selon les méthodes. 1 – Méthode Symbolic Object Editor – dite SOE Grâce à cette méthode, nous allons pouvoir visualiser graphiquement des variables en deux ou trois dimensions, selon le concept choisi. Dans la nouvelle version de SODAS, cette méthode s’appelle VIEW. Il s’agit donc à présent d’insérer cette méthode dans SODAS : 16
Choisissons tous les paramètres : Exécutons la méthode : Nous obtenons un tableau composé des variables des individus choisis avec la requête sdsResto en colonne, ainsi que celles du concept, ajoutées lors de addResto, et nous avons en ligne les différents concepts. Voici une partie de ce tableau : 17
Choisissons les variables et concepts à étudier. Il nous faut au moins trois variables. Nous avons décidé ici de choisir les cuisines traditionnelle, bio et chinoise. En effet, nous avons pris la première car elle représente la cuisine française, la seconde car le nombre de ces restaurants en France est petit, et la troisième – à l’inverse – est représentée par une très grande quantité de restaurants en France. Les variables choisies sont le nombre de couverts et d’employés, l’année de création des restaurants, le sexe des chefs cuisiniers, ainsi que les régions où ils se trouvent, les prix moyens de ce genre de restaurant, et s’ils proposent un tarif étudiant. Voici une vue superposant les trois concepts, avec les variables choisies : Le vert représente la cuisine traditionnelle. Le rouge, la cuisine bio. Et le bleu, la cuisine chinoise. Nous avons modifié l’intervalle des années de création de notre graphique, en lui mettant l’intervalle [1985-2006] pour une meilleure lisibilité. En effet, nous avions un seul restaurant traditionnel créé en 1908, les autres ayant une année de création postérieure à 1985. 18
Une autre représentation de cette superposition est la suivante : Nous pouvons déduire de ces deux graphiques que : - les premiers restaurants sont de type traditionnel français : normal, nous sommes en France… Les autres sont apparus à partir de 1985. - les chefs-cuisinier sont à 100% masculins dans les restaurants chinois et traditionnels répertoriés dans notre base de données. Seule la cuisine bio accepte des femmes comme chefs. C’est plausible, car les femmes ont plus tendance à se soucier de la nourriture, saine ou non, que les hommes en général. - le bio essaie de s’importer un peu dans toute la France, tandis que la cuisine chinoise est consommée surtout dans les régions importantes. - le traditionnel ne s’intéresse pas trop aux étudiants, ne leur offrant que peu de réductions, à la différence des cuisines bio et chinoise. C’est une cuisine pour personnes aisées, un peu comme le bio, mais celle-ci tente de se faire connaître du grand public et percer dans ce secteur de restauration, à la différence de la cuisine traditionnelle, évidemment déjà présente en France. - Les autres renseignements nous montrent que les grands restaurants, sont de type traditionnel. De plus, un grand nombre de couverts implique un grand nombre d’employés. 19
Voici individuellement les mêmes variables : Cuisine chinoise : Nous pouvons voir ici que les années de création sont entre 1985 et 2005, nous avons la vérification du fait qu’il n’y ait aucun chef-cuisinier femme dans ce type de restaurant (de notre base de données). Le nombre d’employés et de couverts est plus clair en individuel, qu’avec les superpositions précédentes. 20
Cuisine traditionnelle : 21
Une autre représentation graphique pour la cuisine bio : Cette représentation est en deux dimensions, et les histogrammes ont été remplacés par des points, plus ou moins gros. La couleur bleutée relie les valeurs minimales et maximales des variables données. Ainsi, la région contenant le plus de restaurants bio est la région PACA. 2 – Méthode Elementary Statistics On Symbolic Objects – dite STAT Cette méthode permet d’utiliser des statistiques classiques étendues aux variables symboliques. Elle est appelée « D-STAT » dans la nouvelle version de SODAS. De la même manière qu’auparavant, il nous faut insérer et exécuter la méthode. 22
Ici, nous ne pouvons visualiser que les intervalles ou les variables qualitatives. Nous obtenons selon le type de variables utilisées des histogrammes ou des biplots (pour les intervalles). Fréquence relative des variables de type intervalle : Nous avons sélectionné ici toutes nos variables de type intervalle pour observer les fréquences relatives. Le résultat est le suivant : 23
Nous nous proposons d’analyser seulement une de ces fréquences relatives : celle du prix maximal d’un menu. De ce graphique, nous pouvons extraire les informations suivantes : - le nombre de classes est de 10. Nous l’avons choisi nous-même - chacune des classes est de largeur représentant 4,65€ - les prix maximaux des menus proposés dans l’ensemble des restaurants sont compris entre 13,5 et 60€ - la somme des valeurs maximales des dix classes est égale à 1 - les restaurants chinois proposent des prix maximum de menu compris, selon le restaurant, entre un peu plus de 13,5€ (exactement 14,8) et 30€. L’écart entre ces deux valeurs est de 15,2€. - la troisième classe, de hauteur 0,1799, est comprise entre 22,8€ et 27,45€. Cette classe signifie en fait que 17,99% des restaurants de notre base de données ont un prix maximal de menus compris entre 22,8 et 27,45€. De plus, d’après ce graphique, nous pouvons dire que tous les types de cuisine sont représentées par au moins un restaurant, qui a un prix maximal de menus compris dans cette tranche. - de manière générale, à 47,13%, les restaurants proposent des prix maximaux de menus compris entre 18,15€ et 32,1€ 24
Biplots des variables de type intervalle : Cette méthode permet a priori de construire un objet symbolique par des rectangles dans un plan constitué de deux variables de type intervalle, choisies pas l’utilisateur. Or, voici ce que nous propose la nouvelle version de SODAS, qui nous impose de mettre en axes des variables quantitatives : D’une part, nous n’obtenons donc pas de « rectangles ». D’autre part, l’interprétation ne peut être pertinente pour ce nouveau modèle de « biplots ». Avant, nous aurions peut-être pu interprété, mais là, cela ne sert à rien. En effet, les concepts sont placés sur une droite, selon leur prix moyen, et ainsi, il ne sont pas placés selon leur prix minimal ou maximal des menus : par exemple, les cuisines tex-mex et italienne n’ont pas le même tarif minimal ou maximal pour leurs menus, mais sont pourtant placés dans ce plan sur le même point. C’est incohérent. 3 – Méthode de division en classe de concepts homogène – dite DIV Cette méthode a pour but de partitionner de manière homogène les concepts en un nombre de classes défini par l’utilisateur, et en fonction de variables de description. A partir de questions conditionnelles (if-then) à réponse binaire (oui ou non), nous obtenons petit à petit un arbre de décision. Ces questions induisent la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la variance interclasse et minimiser la variance intraclasse. 25
Dans notre cas, nous avons paramétré un nombre de classes égal à cinq, et nous avons choisi comme variables de description les différentes options proposées par les restaurants : - tarif_etudiant - tarif_enfant - acces_handicape - animaux_admis - parking - air_conditionne Voici l’arbre résultant de cette méthode : La première question posée par la méthode DIV pour effectuer une première division en deux groupes des dix concepts - ou types de cuisine - est la suivante : « Les animaux sont-ils admis dans le restaurant ? » Il y a deux réponses possibles : oui ou non. Nous avons donc deux partitions possibles : le Cluster 1 ou le Cluster 2 : 26
Les types de cuisine, dont la majorité des restaurants de notre base de données donnent une réponse négative à cette question, sont placés à droite de l’arbre. Les autres à gauche, évidemment : Ensuite, d’autres questions sont posées selon les groupes. Par exemple, pour le groupe de types de cuisine tels que « animaux_admis = oui », la prochaine question est « air_conditionne = oui ? » ; tandis que l’autre groupe aura une autre question, plus pertinente selon les types de restaurants qu’il reste : « tarif_enfant = oui ? ». Au final, nous obtenons cinq classes dont les concepts les plus proches selon les options, sont regroupés ensemble dans une même partition : L’arbre de partitionnement correspondant est le suivant – les classes étant les clusters donnés ci-dessus : 27
4 – Méthode Principal Component Analysis – dite PCA La méthode d’analyse factorielle en composantes principales consiste à travailler conjointement avec un groupe de plusieurs variables quantitatives, de façon à prendre en compte des interactions qui peuvent exister entre elles. Elle permet de projeter les points d’un espace réel à n dimensions dans un espace à deux dimensions – judicieusement déterminé, et appelé plan factoriel. La projection des points de ce dernier dans un plan factoriel se fait donc avec un minimum de pertes d’information. Dans notre cas, nous avons décidé d’utiliser quatre variables de type intervalle, quatre étant le minimum de variables nécessaire à l’utilisation de la méthode dans cette version de SODAS. Ces variables sont : - prix_max_menu - nb_employes - annee_creation - appreciation Voici le plan factoriel résultant de cette méthode : Le premier axe factoriel, permet d’extraire 64,9% des informations. Le second permet lui d’en extraire 24,5%. 28
Nous avons aussi comme information : « Correlations beetween variables and factors (4 vars, 2 fact)= Var. Factor 1 Factor 2 prix_max_m 0.77669 0.97236 nb_employe 0.87235 0.83970 annee_crea 0.38257 0.60987 appreciatio 0.71765 0.84996 » et « Interval correlations beetween variables and factors (4 vars,2 fact)= Variables Factor 1 Factor 2 prix_max_m [-0.32197; 0.88803] [ 0.74604; 0.99737] nb_employe [-0.80784; 0.90932] [-0.90202; 0.83970] annee_crea [-0.99945; 0.38257] [-0.54734; 0.85762] appreciati [-0.71396; 0.84507] [-0.79570; 0.84996] » De plus, nous savons que : Les deux premières informations nous laissent penser, d’après nos connaissances en SAS, que le premier axe pourrait représenter le nombre d’employés, et le second axe représenterait un rapport qualité/prix, selon l’année de création. Ainsi, pour cette interprétation des axes, nous pouvons dire que l’intersection des axes correspondrait à la majorité des restaurants de notre base de données, selon les prix maximaux des menus, leur année de création, leur appréciation et le nombre d’employés. 29
Si un type de cuisine est proche de l’origine des axes, alors cela veut dire que ses cinq restaurants, contenus dans notre base, sont dans la moyenne des restaurants par rapport aux quatre variables citées précédemment. Ainsi, les cuisines tex-mex et chinoises sont dans la « moyenne-type » des restaurants, à la différence de la cuisine traditionnelle, qui s’étale elle du fait, d’une part de la date de création de son premier restaurant, en 1908 (les autres types de cuisine s’étant installés plus tard sur notre pays), et de son dernier restaurant en 2005, d’autre part à cause des autres variables étant elles aussi diverses et variées, selon ses restaurants. Les restaurants des autres types de cuisine ont donc plus « d’homogénéité » selon ces variables que ceux de la cuisine traditionnelle française. VI - Conclusion Tout au long de ce rapport, nous avons tenté à travers diverses méthodes d’analyser et d’interpréter une base de données Access que nous avions créés nous-mêmes à partir de recherches sur Internet. Notre base de données – sur les restaurants – était succincte, malgré un très long travail dessus. Ceci implique que les résultats des analyses développés dans ce rapport ne sont donc a priori pas représentatifs de la réalité. Travailler sur une base de données plus importante, ou avec plus de variables de description aurait été intéressant. Malgré notre démarche auprès d’instituts tels l’INSEE, nous n’avons pas pu obtenir des informations jugées intéressantes telles le nombre de restaurants selon chaque type de cuisine, par exemple. Le fait de pouvoir étudier différents aspects des restaurants, pour pouvoir analyser et interpréter ces données, a été beaucoup plus intéressant, surtout avec la découverte de la nouvelle version de SODAS, qui nous donnait beaucoup plus de possibilités, graphiquement parlant principalement. Malgré ça, le logiciel souffre de très nombreux bugs qui nous ont rebuté. Le logiciel se fermait parfois, après le paramétrage des méthodes, avec pour seule explication cette fenêtre : Nous avons vu maintes fois cette fenêtre, avec un paramétrage identique parfois, et c’est pour cela que nous avons jugé bon de vous en informer. Il serait plus agréable d’avoir plus d’informations sur ce « plantage » incessant. Certaines méthodes, du fait du changement de version du logiciel, étaient moins facile à manipuler, ou même à trouver (exemple : SOE devient VIEW dans la nouvelle version). 30
En ce qui concerne les restaurants, généralement les chefs cuisinier sont des hommes, la cuisine bio tente de s’imposer sur le marché des services de restauration, avec des tarifs étudiants, entre autres, et qui était regroupé, pour les options dans la même partition que les restaurants de type chinois ou tex-mex, assez répandus en France, et qui marchent très bien en ce moment. Preuve d’une certaine volonté d’intégration et de réussite commerciale. VII – Annexes Voici les liens utilisés pour la conception de notre rapport : Source de données de restaurants en France : http://www.linternaute.com/restaurant/ Présentation du projet et du logiciel SODAS : http://www.ceremade.dauphine.fr/~touati/sodas-presentation.htm Foire aux questions sur le Data Mining : http://www.web-datamining.net/forum/faq.asp#1 Définition du Data Mining : http://dess-droit-internet.univ-paris1.fr/bibliotheque/article.php3?id_article=143 Logiciels de Data Mining : http://lafouillededonnees.blogspirit.com/archive/2006/03/04/les-logiciels-de-data- mining1.html 31
Vous pouvez aussi lire