DATA MINING Analyses de données symboliques sur - les restaurants - Master 2 Professionnel - LAMSADE

La page est créée Florence Pascal
 
CONTINUER À LIRE
Master 2 Professionnel
                       -
           Informatique Décisionnelle

          DATA MINING
                   -
Analyses de données symboliques sur
           les restaurants

Etudiants :                       Enseignant :
Vincent RICHARD                   Edwin DIDAY
Seghir SADAOUI
SOMMAIRE

I – Introduction ......................................................................................................................... 3
II – Présentation du Data Mining ............................................................................................ 4
   1 – Data Mining ................................................................................................................................. 4
   2 – SODAS ......................................................................................................................................... 4
   3 – Autres logiciels utilisés ................................................................................................................ 6
III – Présentation des données ................................................................................................. 6
   1 – Choix de la base de données ....................................................................................................... 6
   2 – Sources des données .................................................................................................................... 7
   3 – Eléments constituant la base de données .................................................................................. 7
       a)      Vue globale de la base de données...................................................................................................... 7
       b)      Vue détaillée de la base de données .................................................................................................... 8
   4 – Choix des concepts et des individus ......................................................................................... 10
   5 – Création des tables nécessaires à l’étude ................................................................................ 10
IV – Importation sous DB2SO ................................................................................................ 12
   1 – Présentation de DB2SO ............................................................................................................ 12
   2 – Importation des tables .............................................................................................................. 12
V – Utilisation de SODAS et analyses des données ............................................................... 16
   1 – Méthode Symbolic Object Editor – dite SOE ......................................................................... 16
   2 – Méthode Elementary Statistics On Symbolic Objects – dite STAT ..................................... 22
   3 – Méthode de division en classe de concepts homogène – dite DIV ......................................... 25
   4 – Méthode Principal Component Analysis – dite PCA ............................................................. 28
VI - Conclusion ....................................................................................................................... 30
VII – Annexes .......................................................................................................................... 31

                                                                                                                                                       2
I – Introduction
        Depuis un certain nombre d’années, les entreprises commencent à privilégier une
technique qui consiste à aider à prendre une décision « business » : le Data Mining, ou fouille
de données.
Celui-ci sert à mieux comprendre sa clientèle, comprendre son comportement à partir de ses
caractéristiques, constituer des panels représentatifs de clients, découvrir des niches inconnues
mais rentables, adapter sa politique de fidélisation ; ou bien optimiser l’adéquation de son
offre à la demande adapter sa politique commerciale et sa tarification aux différents segments
de clientèle, adapter ses canaux de distribution et/ou ses forces de ventes à ces segments,
optimiser l’impact et la rentabilité des offres promotionnelles ; ou même donner un ordre de
priorité à ses actions de marketing et/ou de vente mieux cibler ses campagnes de marketing
direct, évaluer la propension d’un prospect ou client à acheter un produit nouveau.

En fait, le Data Mining correspond à l'ensemble des techniques et des méthodes qui à partir de
données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors
que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de
données.

Le Data Mining n'est que l'une des étapes du processus de découverte de connaissances
correspondant précisément à l'extraction des connaissances à partir des données. Avant de
réaliser une étude de Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse
(Entrepôt de Données), ce que nous ferons partiellement pour ce projet en créant une base de
données relationnelle sur quelques restaurants de France métropolitaine et Corse.

Dans un premier temps, nous définirons plus précisément dans ce rapport le Data Mining, et
nous présenterons le logiciel SODAS que nous allons utiliser pour analyser nos données.

Ensuite nous parlerons de notre base de données, et des questions que l’on peut se poser et
auxquelles nous pourrons répondre par la suite, et préparerons l’étude de cette base de
données par le Data Mining.

Dans un troisième temps, nous expliquerons comment nous avons procédé pour étudier notre
base de données, via - entre autres - le logiciel SODAS.

Enfin, nous conclurons sur ce rapport, présentant entre autres les difficultés rencontrées, les
points forts et faibles de SODAS, et le Data Mining en général.

                                                                                                  3
II – Présentation du Data Mining
       1 – Data Mining
         Le Data Mining est un ensemble de méthodes et techniques qui permettent la prise de
décisions, à travers la découverte, rapide et efficace, de schémas d’informations inconnus ou
cachés à l’intérieur de grandes bases de données. Ce n’est ni un système d’interrogation de
bases de données, ni un système de statistique et de visualisation. Nombreux sont les
commentateurs ou les utilisateurs qui invoquent le concept de « Data Mining », et tous les
outils précédemment mentionnés y ont été rattachés à un moment ou à un autre. Dans la
réalité, ils appartiennent tous à deux grandes approches de détection de l’information dans les
bases de données :

L’approche « vérification » : l’utilisateur a l’intuition ou l’idée générale du type d’information
qu’il peut obtenir de ses données. Il tire alors profit de sa base de données en "quantifiant" son
intuition. Il est clair que les données extraites, et les décisions qui en découlent, dépendent
exclusivement de l’intuition de l’utilisateur concernant les paramètres importants du problème
(âge, géographie, ...), intuition qui est souvent correcte mais non exhaustive.

L’approche « découverte » (Advanced Data Mining) ou recherche de l’information cachée :
l’utilisateur comprend que la quantité de données dont il dispose étant considérable, la
détection optimale et exhaustive des structures ou relations importantes est totalement hors de
portée de l’utilisateur humain. Il doit alors s’appuyer sur des méthodes avancées d’analyse de
données pour détecter l’information cachée (dont il se peut qu’elle soit la plus intéressante). Il
pourra par exemple procéder à une segmentation de clientèle par ce type de technique, et
détecter des classes ou niches, non identifiées auparavant, qui recèlent un très fort potentiel
d’affaires. Il lui sera alors possible de développer des stratégies marketing finement ciblées en
direction de ces niches, développant ainsi un avantage compétitif majeur.

L’appellation « Data Mining » ne devrait être donnée qu’aux outils capables de détecter
l’information cachée « au plus profond » de la « mine de données ». A l’évidence, cela ne
concerne pas les systèmes d’interrogation de base de données, ni les tableurs, ni les systèmes
statistiques, ni même les systèmes d’analyse de données traditionnels.

       2 – SODAS
        Il s'agit d'un logiciel prototype public, apte à analyser des données symboliques. Il est
issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir
un cadre aux différentes avancées récentes et futures du domaine.

Son idée générale est la suivante : à partir d'une base de données, construire un tableau de
données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des
concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire
des connaissances par des méthodes d'analyse de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :
    Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)
    Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,
       familles, entreprises, accidents, ...), les variables qui les décrivent des concepts (villes,
       groupes socio-économiques, scénario d'accident, ...)

                                                                                                    4
Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque
habitant est associé à sa ville).
Ce contexte est défini par une requête de la base.
Nous pouvons construire alors un tableau de données symboliques dont les nouvelles unités
statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de
premier niveau qui leur sont associés.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies), etc., selon le type de variables et le choix de l'utilisateur.

Dès lors, nous pouvons créer un fichier d'objets symboliques sur lequel une douzaine de
méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS
(histogrammes des variables symboliques, classification automatique, analyse factorielle,
analyse discriminante, visualisations graphiques, ...).

Vue d’ensemble de SODAS :

                                                                                                 5
3 – Autres logiciels utilisés
   Les principaux fournisseurs de logiciels commerciaux sont :

      SAS Institute : SAS Enterprise Miner
      Oracle : Data Mining
      Décisia : SPAD
      Angoss Software : KnowledgeSeeker KnowledgeStudio
      SPSS : Clémentine
      StatSoft : Statistica
      KXEN : Analytic Framework
      Insightful : Insightful Miner
      Microsoft : SQL Server 2005
      Segmentaction : Customer Mining
      Business Objects

   Les logiciels gratuits sont :

      Weka 3
      Orange
      Tanagra
      Alpha Miner
      Yale

III – Présentation des données
       1 – Choix de la base de données
        Pour mener à bien ce projet, nous avons eu besoin de réfléchir sur un sujet possible de
base de données, afin d’en analyser les données avec le logiciel SODAS.
Des études avaient déjà été faites sur des bases de données facilement récupérables dont les
sujets étaient les albums de musiques, les films ou les équipes de football du championnat de
France de Ligue 1.

Pour notre part, nous avons décidé de prendre comme sujet principal les restaurants de
France, avec comme différentes données les nom et adresse d’un restaurant, le type de cuisine
proposé, le nom du chef cuisinier, et ainsi de suite.

Nous parlerons de toutes les variables de description dans la suite de ce rapport.

Le but de ce projet est d’analyser cette base de données afin d’en tirer diverses conclusions
qui pourraient ne pas sauter aux yeux au premier abord.

                                                                                                6
2 – Sources des données
        Afin de trouver différentes données sur les restaurants, nous avons dû rechercher sur
Internet des liens qui nous permettaient de lister facilement et avec le plus de données
possible divers restaurants de France.
Il existe plusieurs liens fournissant ces informations, mais au final, nous n’en avons choisi
qu’un, qui était clair et précis dans ces informations :
http://www.linternaute.com/restaurant/

Pour d’autres données générales comme plat_ typique ou saveur, nous avons nous-même
rempli la base de données.

       3 – Eléments constituant la base de données
           a) Vue globale de la base de données
       Notre base de données est représentée par neuf tables :
                   restaurant : données principales sur un restaurant
                   cuisine : types de cuisine utilisés, et données adéquates
                   option : différents services d’un restaurant
                   fermeture : jours de fermeture d’un restaurant
                   chef : les chefs des restaurants
                   ville : rajoutée - comme les tables suivantes - pour la « taxonomie »
                   département
                   pays
                   continent

                                                                                                7
Ces tables sont jointes de la manière suivante :

       b) Vue détaillée de la base de données
       Dans ce chapitre, nous allons détailler les tables données précédemment et
expliquer les attributs qui pourraient être imprécis ou ambigus :

                            id_restaurant est la clé primaire, l’identifiant des restaurants.
                             Il est unique pour chaque restaurant
                            origine_cuisine : identifiant permettant de savoir de quel
                             pays est originaire le type de cuisine correspondant
                            id_cuisine, id_fermeture, id_ville, id_chef, id_option : idem
                             concernant le type de cuisine, les jours de fermeture du
                             restaurant, sa ville, son chef et ses diverses options
                            prix min menu : prix minimal d’un menu dans ce restaurant
                            prix max menu : prix maximal d’un menu
                            nb_couverts : nombre de couverts maximal dans ce
                             restaurant
                            nb_couverts_terrasse : idem en terrasse
                            nb_employes : nombre d’employés du restaurant
                            annee_creation : année de création du restaurant
                            appreciation : note d’appréciation sur cinq du restaurant.

                                                                                             8
     cuisine : type de cuisine
                 origine_pays : pays d’origine de ce type de cuisine
                 plat_typique : plat référence de ce type de cuisine
                 saveur : pareil pour la saveur
                 prix_moyen : prix moyen général pour ce type de cuisine.

               Pour chacun des attributs, autres que l’identifiant, les valeurs
                possibles sont OUI ou non.

           Pour chacun de ces attributs, autres que l’identifiant, les valeurs
            possibles sont OUI ou non ; OUI signifierait que le restaurant ferme le
            jour correspondant.

                 annee_embauche : année d’embauche du chef cuisinier dans le
                  restaurant auquel il a été attribué.

   Chaque ville appartient à un seul département, donné par id_CP.

               Chaque département appartient à une région, et à un seul pays, défini
                par id_pays.

                                                                                    9
.
                      Chaque pays appartient à un seul continent, déterminé par id_continent.

       4 – Choix des concepts et des individus
        Vu la structure de notre base de données, vous pouvez dégager facilement les concepts
et individus choisis. Nos concepts seront les types de cuisine, et les individus seront les
restaurants eux-mêmes.

Les concepts sont au nombre de dix. Les individus, au nombre de cinquante, avec cinq
restaurants par type de cuisine.

Chaque concept a sa propre description, de même que pour les individus. Le choix de ces
concepts et individus est donc judicieux.

       5 – Création des tables nécessaires à l’étude
        Pour pouvoir par la suite utiliser notre base de données avec SODAS, il nous faut
écrire sous Access trois requêtes permettant : de regrouper les informations utiles des
individus ainsi que les concepts ; de regrouper des données des concepts ; et de spécifier la
taxonomie.

Requête sdsResto

Cette requête va nous permettre de renvoyer les individus que nous avons choisis - définis
comme individus de premier ordre – leurs caractéristiques, ainsi que les concepts associés.

Nous obtenons donc le tableau suivant, qui représente une partie de la nouvelle table, avec en
première colonne l’individu, en seconde le concept, et ensuite les variables de
descriptions souhaitées pour l’étude :

Voici en SQL la requête ci-dessous :
«
SELECT restaurant.nom, cuisine.cuisine, restaurant.prix_min_menu, restaurant.prix_max_menu,
restaurant.nb_couverts, restaurant.nb_couverts_terrasse, restaurant.nb_employes,
restaurant.annee_creation, chef.sexe, chef.salaire_net_mensuel, chef.annee_embauche,
fermeture.lundi, fermeture.mardi, fermeture.samedi, fermeture.dimanche, option.tarif_etudiant,
option.tarif_enfant, option.animaux_admis, option.parking, option.air_conditionne,
option.acces_handicape, ville.ville, departement.region, pays.pays, continent.continent,
restaurant.appreciation

                                                                                                 10
FROM continent INNER JOIN (pays INNER JOIN (departement INNER JOIN (ville INNER JOIN
(fermeture INNER JOIN ([option] INNER JOIN (chef INNER JOIN (cuisine INNER JOIN restaurant ON
cuisine.id_cuisine = restaurant.id_cuisine) ON chef.id_chef = restaurant.id_chef) ON option.id_option
= restaurant.id_option) ON fermeture.id_fermeture = restaurant.id_fermeture) ON ville.id_ville =
restaurant.id_ville) ON departement.id_CP = ville.id_CP) ON pays.id_pays =
restaurant.origine_cuisine) ON continent.id_continent = pays.id_continent;
»

Requête addResto

Ici, nous ajoutons dans une nouvelle table des données des concepts.

Voici ce que nous obtenons en tableau :

La requête SQL définissant ce tableau est la suivante :
«
SELECT cuisine.cuisine, cuisine.plat_typique, cuisine.saveur, cuisine.prix_moyen
FROM cuisine;
»

Requêtes pour la taxonomie

Cette dernière requête permet la hiérarchisation entre les villes, départements, pays et
continents.
Nous avons créé deux requêtes pour établir cette hiérarchie :
       - taxoRegion, qui associe à une région un ou plusieurs départements et villes

Le tableau correspondant est le suivant :

Et sa requête SQL :
«
SELECT ville.ville, departement.[code postal], departement.region
FROM departement INNER JOIN ville ON departement.id_CP = ville.id_CP;
»

       - taxoContinent, qui associe un pays à un seul continent

Avec comme tableau :

                                                                                                   11
Et comme requête SQL :
«
SELECT pays.pays, continent.continent
FROM continent INNER JOIN pays ON continent.id_continent = pays.id_continent;
»

IV – Importation sous DB2SO
       1 – Présentation de DB2SO
       DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un
ensemble de concepts à partir de données stockées dans une base de données relationnelle. Il
est supposé qu’un ensemble d’individus est stocké dans une base de données et que ces
individus sont distribués dans des groupes. Alors, DB2SO peut construire un concept pour
chaque groupe d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur
des domaines de variables peuvent aussi être associées à des concepts générés.

       2 – Importation des tables
       Ici, nous allons importer notre base de données ainsi que les requêtes créées
précédemment dans DB2SO, afin de pouvoir utiliser SODAS pour analyser notre base.

Dans un premier temps, nous allons donc importer notre base « restaurants de france.mdb » :

Puis nous sélectionnons la source de données :

                                                                                           12
Ainsi que la base de données :

Puis nous extrayons les individus avec la requête sdsResto :

Nous avons comme résultat :

                                                               13
Modifions à présent les concepts en leur rajoutant des variables descriptives - contenues dans
la base de données. Pour ce faire, allons dans « modify », et utilisons la commande bleutée ci-
dessous :

Nos variables n’ont que des valeurs uniques et non multiples. Ce ne sont pas des intervalles,
donc nous pouvons bien utiliser « Add single-valued variables ».

Exécutons donc addResto :

Voici le résultat de l’exécution :

                                                                                             14
A présent, exécutons les requêtes de taxonomie. Il faut cette fois-ci utiliser la commande
« Create a taxonomy », par deux fois, pour créer les deux requêtes taxoRegion et
taxoContinent.
Les résultats de cette exécution sont :

Puis au final, nous sauvegardons ce fichier sous le nom « requetes » :

Ainsi sont créés un fichier de type gaj et un autre de type xml.

Puis nous exportons ces données pour créer un fichier sds et pouvoir utiliser SODAS :

Résultat :

Nous pouvons à présent utiliser SODAS pour analyser notre base de données.

                                                                                             15
V – Utilisation de SODAS et analyses des données
     Dans ce chapitre, nous allons vous décrire comment nous avons utiliser le logiciel
SODAS sur notre base de données, à travers plusieurs méthodes. Pour chaque méthode, nous
commenterons nos choix d’attributs et les résultats associés.

Mais il nous faut d’abord importer le fichier « restaurants.sds » créé dans le chapitre
précédent :

Etudions donc maintenant nos données, selon les méthodes.

       1 – Méthode Symbolic Object Editor – dite SOE
      Grâce à cette méthode, nous allons pouvoir visualiser graphiquement des variables en
deux ou trois dimensions, selon le concept choisi.

Dans la nouvelle version de SODAS, cette méthode s’appelle VIEW.
Il s’agit donc à présent d’insérer cette méthode dans SODAS :

                                                                                          16
Choisissons tous les paramètres :

Exécutons la méthode :

Nous obtenons un tableau composé des variables des individus choisis avec la requête
sdsResto en colonne, ainsi que celles du concept, ajoutées lors de addResto, et nous avons en
ligne les différents concepts.

Voici une partie de ce tableau :

                                                                                           17
Choisissons les variables et concepts à étudier. Il nous faut au moins trois variables.

Nous avons décidé ici de choisir les cuisines traditionnelle, bio et chinoise.
En effet, nous avons pris la première car elle représente la cuisine française, la seconde car le
nombre de ces restaurants en France est petit, et la troisième – à l’inverse – est représentée par
une très grande quantité de restaurants en France.
Les variables choisies sont le nombre de couverts et d’employés, l’année de création des
restaurants, le sexe des chefs cuisiniers, ainsi que les régions où ils se trouvent, les prix
moyens de ce genre de restaurant, et s’ils proposent un tarif étudiant.

Voici une vue superposant les trois concepts, avec les variables choisies :

Le vert représente la cuisine traditionnelle. Le rouge, la cuisine bio. Et le bleu, la cuisine
chinoise.

Nous avons modifié l’intervalle des années de création de notre graphique, en lui mettant
l’intervalle [1985-2006] pour une meilleure lisibilité. En effet, nous avions un seul restaurant
traditionnel créé en 1908, les autres ayant une année de création postérieure à 1985.

                                                                                                 18
Une autre représentation de cette superposition est la suivante :

Nous pouvons déduire de ces deux graphiques que :
      - les premiers restaurants sont de type traditionnel français : normal, nous sommes
         en France… Les autres sont apparus à partir de 1985.
      - les chefs-cuisinier sont à 100% masculins dans les restaurants chinois et
         traditionnels répertoriés dans notre base de données. Seule la cuisine bio accepte
         des femmes comme chefs. C’est plausible, car les femmes ont plus tendance à se
         soucier de la nourriture, saine ou non, que les hommes en général.
      - le bio essaie de s’importer un peu dans toute la France, tandis que la cuisine
         chinoise est consommée surtout dans les régions importantes.
      - le traditionnel ne s’intéresse pas trop aux étudiants, ne leur offrant que peu de
         réductions, à la différence des cuisines bio et chinoise. C’est une cuisine pour
         personnes aisées, un peu comme le bio, mais celle-ci tente de se faire connaître du
         grand public et percer dans ce secteur de restauration, à la différence de la cuisine
         traditionnelle, évidemment déjà présente en France.
      - Les autres renseignements nous montrent que les grands restaurants, sont de type
         traditionnel. De plus, un grand nombre de couverts implique un grand nombre
         d’employés.

                                                                                            19
Voici individuellement les mêmes variables :

Cuisine chinoise :

Nous pouvons voir ici que les années de création sont entre 1985 et 2005, nous avons la
vérification du fait qu’il n’y ait aucun chef-cuisinier femme dans ce type de restaurant (de
notre base de données). Le nombre d’employés et de couverts est plus clair en individuel,
qu’avec les superpositions précédentes.

                                                                                               20
Cuisine traditionnelle :

                           21
Une autre représentation graphique pour la cuisine bio :

Cette représentation est en deux dimensions, et les histogrammes ont été remplacés par des
points, plus ou moins gros.

La couleur bleutée relie les valeurs minimales et maximales des variables données.
Ainsi, la région contenant le plus de restaurants bio est la région PACA.

      2 – Méthode Elementary Statistics On Symbolic Objects –
dite STAT
      Cette méthode permet d’utiliser des statistiques classiques étendues aux variables
symboliques. Elle est appelée « D-STAT » dans la nouvelle version de SODAS.

De la même manière qu’auparavant, il nous faut insérer et exécuter la méthode.

                                                                                             22
Ici, nous ne pouvons visualiser que les intervalles ou les variables qualitatives. Nous obtenons
selon le type de variables utilisées des histogrammes ou des biplots (pour les intervalles).

Fréquence relative des variables de type intervalle :

Nous avons sélectionné ici toutes nos variables de type intervalle pour observer les fréquences
relatives. Le résultat est le suivant :

                                                                                             23
Nous nous proposons d’analyser seulement une de ces fréquences relatives : celle du prix
maximal d’un menu.

De ce graphique, nous pouvons extraire les informations suivantes :
       - le nombre de classes est de 10. Nous l’avons choisi nous-même
       - chacune des classes est de largeur représentant 4,65€
       - les prix maximaux des menus proposés dans l’ensemble des restaurants sont
          compris entre 13,5 et 60€
       - la somme des valeurs maximales des dix classes est égale à 1
       - les restaurants chinois proposent des prix maximum de menu compris, selon le
          restaurant, entre un peu plus de 13,5€ (exactement 14,8) et 30€. L’écart entre ces
          deux valeurs est de 15,2€.
       - la troisième classe, de hauteur 0,1799, est comprise entre 22,8€ et 27,45€. Cette
          classe signifie en fait que 17,99% des restaurants de notre base de données ont un
          prix maximal de menus compris entre 22,8 et 27,45€. De plus, d’après ce
          graphique, nous pouvons dire que tous les types de cuisine sont représentées par au
          moins un restaurant, qui a un prix maximal de menus compris dans cette tranche.
       - de manière générale, à 47,13%, les restaurants proposent des prix maximaux de
          menus compris entre 18,15€ et 32,1€

                                                                                           24
Biplots des variables de type intervalle :

 Cette méthode permet a priori de construire un objet symbolique par des rectangles dans un
plan constitué de deux variables de type intervalle, choisies pas l’utilisateur.

Or, voici ce que nous propose la nouvelle version de SODAS, qui nous impose de mettre en
axes des variables quantitatives :

D’une part, nous n’obtenons donc pas de « rectangles ».
D’autre part, l’interprétation ne peut être pertinente pour ce nouveau modèle de
« biplots ». Avant, nous aurions peut-être pu interprété, mais là, cela ne sert à rien. En effet,
les concepts sont placés sur une droite, selon leur prix moyen, et ainsi, il ne sont pas placés
selon leur prix minimal ou maximal des menus : par exemple, les cuisines tex-mex et italienne
n’ont pas le même tarif minimal ou maximal pour leurs menus, mais sont pourtant placés dans
ce plan sur le même point. C’est incohérent.

     3 – Méthode de division en classe de concepts homogène –
dite DIV
        Cette méthode a pour but de partitionner de manière homogène les concepts en un
nombre de classes défini par l’utilisateur, et en fonction de variables de description.
A partir de questions conditionnelles (if-then) à réponse binaire (oui ou non), nous obtenons
petit à petit un arbre de décision. Ces questions induisent la meilleure partition en deux selon
l’extension du critère d’inertie : maximiser la variance interclasse et minimiser la variance
intraclasse.

                                                                                                25
Dans notre cas, nous avons paramétré un nombre de classes égal à cinq, et nous avons choisi
comme variables de description les différentes options proposées par les restaurants :
      - tarif_etudiant
      - tarif_enfant
      - acces_handicape
      - animaux_admis
      - parking
      - air_conditionne

Voici l’arbre résultant de cette méthode :

La première question posée par la méthode DIV pour effectuer une première division en deux
groupes des dix concepts - ou types de cuisine - est la suivante : « Les animaux sont-ils admis
dans le restaurant ? »

Il y a deux réponses possibles : oui ou non. Nous avons donc deux partitions possibles : le
Cluster 1 ou le Cluster 2 :

                                                                                              26
Les types de cuisine, dont la majorité des restaurants de notre base de données donnent une
réponse négative à cette question, sont placés à droite de l’arbre. Les autres à gauche,
évidemment :

Ensuite, d’autres questions sont posées selon les groupes.
Par exemple, pour le groupe de types de cuisine tels que « animaux_admis = oui », la
prochaine question est « air_conditionne = oui ? » ; tandis que l’autre groupe aura une autre
question, plus pertinente selon les types de restaurants qu’il reste : « tarif_enfant = oui ? ».

Au final, nous obtenons cinq classes dont les concepts les plus proches selon les options, sont
regroupés ensemble dans une même partition :

L’arbre de partitionnement correspondant est le suivant – les classes étant les clusters donnés
ci-dessus :

                                                                                                   27
4 – Méthode Principal Component Analysis – dite PCA
       La méthode d’analyse factorielle en composantes principales consiste à travailler
conjointement avec un groupe de plusieurs variables quantitatives, de façon à prendre en
compte des interactions qui peuvent exister entre elles. Elle permet de projeter les points d’un
espace réel à n dimensions dans un espace à deux dimensions – judicieusement déterminé, et
appelé plan factoriel. La projection des points de ce dernier dans un plan factoriel se fait donc
avec un minimum de pertes d’information.

Dans notre cas, nous avons décidé d’utiliser quatre variables de type intervalle, quatre étant le
minimum de variables nécessaire à l’utilisation de la méthode dans cette version de SODAS.
Ces variables sont :
       - prix_max_menu
       - nb_employes
       - annee_creation
       - appreciation

Voici le plan factoriel résultant de cette méthode :

Le premier axe factoriel, permet d’extraire 64,9% des informations.
Le second permet lui d’en extraire 24,5%.

                                                                                               28
Nous avons aussi comme information :
«
Correlations beetween variables and factors (4 vars, 2 fact)=
Var.           Factor 1      Factor 2
prix_max_m     0.77669       0.97236
nb_employe     0.87235       0.83970
annee_crea     0.38257       0.60987
appreciatio    0.71765       0.84996
»

et

«
Interval correlations beetween variables and factors (4 vars,2 fact)=
Variables        Factor 1                    Factor 2
prix_max_m      [-0.32197; 0.88803]          [ 0.74604; 0.99737]
nb_employe      [-0.80784; 0.90932]          [-0.90202; 0.83970]
annee_crea      [-0.99945; 0.38257]          [-0.54734; 0.85762]
appreciati      [-0.71396; 0.84507]          [-0.79570; 0.84996]
»

De plus, nous savons que :

Les deux premières informations nous laissent penser, d’après nos connaissances en SAS, que
le premier axe pourrait représenter le nombre d’employés, et le second axe représenterait un
rapport qualité/prix, selon l’année de création.

Ainsi, pour cette interprétation des axes, nous pouvons dire que l’intersection des axes
correspondrait à la majorité des restaurants de notre base de données, selon les prix maximaux
des menus, leur année de création, leur appréciation et le nombre d’employés.

                                                                                           29
Si un type de cuisine est proche de l’origine des axes, alors cela veut dire que ses cinq
restaurants, contenus dans notre base, sont dans la moyenne des restaurants par rapport aux
quatre variables citées précédemment.

Ainsi, les cuisines tex-mex et chinoises sont dans la « moyenne-type » des restaurants, à la
différence de la cuisine traditionnelle, qui s’étale elle du fait, d’une part de la date de création
de son premier restaurant, en 1908 (les autres types de cuisine s’étant installés plus tard sur
notre pays), et de son dernier restaurant en 2005, d’autre part à cause des autres variables
étant elles aussi diverses et variées, selon ses restaurants.

Les restaurants des autres types de cuisine ont donc plus « d’homogénéité » selon ces
variables que ceux de la cuisine traditionnelle française.

VI - Conclusion
        Tout au long de ce rapport, nous avons tenté à travers diverses méthodes d’analyser et
d’interpréter une base de données Access que nous avions créés nous-mêmes à partir de
recherches sur Internet.

Notre base de données – sur les restaurants – était succincte, malgré un très long travail
dessus. Ceci implique que les résultats des analyses développés dans ce rapport ne sont donc a
priori pas représentatifs de la réalité. Travailler sur une base de données plus importante, ou
avec plus de variables de description aurait été intéressant. Malgré notre démarche auprès
d’instituts tels l’INSEE, nous n’avons pas pu obtenir des informations jugées intéressantes
telles le nombre de restaurants selon chaque type de cuisine, par exemple.

Le fait de pouvoir étudier différents aspects des restaurants, pour pouvoir analyser et
interpréter ces données, a été beaucoup plus intéressant, surtout avec la découverte de la
nouvelle version de SODAS, qui nous donnait beaucoup plus de possibilités, graphiquement
parlant principalement.

Malgré ça, le logiciel souffre de très nombreux bugs qui nous ont rebuté. Le logiciel se
fermait parfois, après le paramétrage des méthodes, avec pour seule explication cette fenêtre :

Nous avons vu maintes fois cette fenêtre, avec un paramétrage identique parfois, et c’est pour
cela que nous avons jugé bon de vous en informer. Il serait plus agréable d’avoir plus
d’informations sur ce « plantage » incessant.

Certaines méthodes, du fait du changement de version du logiciel, étaient moins facile à
manipuler, ou même à trouver (exemple : SOE devient VIEW dans la nouvelle version).

                                                                                                  30
En ce qui concerne les restaurants, généralement les chefs cuisinier sont des hommes, la
cuisine bio tente de s’imposer sur le marché des services de restauration, avec des tarifs
étudiants, entre autres, et qui était regroupé, pour les options dans la même partition que les
restaurants de type chinois ou tex-mex, assez répandus en France, et qui marchent très bien en
ce moment. Preuve d’une certaine volonté d’intégration et de réussite commerciale.

VII – Annexes
Voici les liens utilisés pour la conception de notre rapport :

Source de données de restaurants en France :
http://www.linternaute.com/restaurant/

Présentation du projet et du logiciel SODAS :
http://www.ceremade.dauphine.fr/~touati/sodas-presentation.htm

Foire aux questions sur le Data Mining :
http://www.web-datamining.net/forum/faq.asp#1

Définition du Data Mining :
http://dess-droit-internet.univ-paris1.fr/bibliotheque/article.php3?id_article=143

Logiciels de Data Mining :
http://lafouillededonnees.blogspirit.com/archive/2006/03/04/les-logiciels-de-data-
mining1.html

                                                                                            31
Vous pouvez aussi lire