Introduction - LE MARREC Vanessa Université Paris-IX Dauphine Data Mining Juin 2002 - LAMSADE

La page est créée Mathieu Royer
 
CONTINUER À LIRE
LE MARREC Vanessa

Université Paris-IX Dauphine
Data Mining
Juin 2002

                               Introduction
Les progrès de la technologie informatique dans le recueil et le transport de
données, font que dans tous les grands domaines de l'activité humaine, on recueille
maintenant des données en quantité souvent gigantesque et de toutes sortes
(numériques, textuelles, graphiques...).

Résumer ces données, à l'aide de concepts sous-jacents (une ville, un produit...),
afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue
une question cruciale.

Le logiciel libre SODAS a pour objectif de répondre à cette question. On présentera
d'abord le cadre théorique de l'Analyse des données symboliques basé sur la notion
« d'objets symboliques ». On présentera ensuite l'architecture et les outils de
l'Analyse des données symboliques développés dans SODAS. Ces outils
généralisent les méthodes de l'Analyse des données classiques et ceux de la
statistique usuelle, aussi bien en entrée, en autorisant des données plus complexes
car plus proches de la réalité, qu'en sortie, en fournissant des objets symboliques
plus aptes à exprimer des connaissances que les résultats numériques habituels.

                                           2
I. Présentation du Data Mining et du logiciel SODAS

       A/ Émergence du Data Mining

Les entreprises subissent aujourd’hui une intensification de la concurrence ou de la
pression des clients. Ces facteurs les poussent à améliorer constamment la qualité
de leurs produits et à accélérer de manière générale leurs processus de mise sur le
marché de nouveaux produits et services.

Parallèlement, les systèmes d’informations se sont développés pour contribuer à
améliorer la productivité des traitements. Depuis deux décennies environ, l’attention
des entreprises s’est progressivement détournée des systèmes opérationnels pour
se porter sur des systèmes décisionnels qui contribuent véritablement à la
différenciation stratégique de l’entreprise.

Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles
autour du concept de « Data Warehouse » ou « entrepôt de données », vastes bases
de données décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de
données disposent bien sûr de capacités de reporting, c’est-à-dire de présentation
de données ou d’agrégats sous forme de tableaux ou de graphiques, mais ils
permettent rarement de découvrir des associations ou des tendances qui se nichent
dans les tréfonds d’une base de données, d’où l’émergence du Data Mining.

En effet, le Data Mining est une réponse au besoin croissant qu’ont les entreprises
d’un surcroît de productivité dans l’analyse de leurs données.

L'objectif est alors de synthétiser des informations stockées dans une base de
données relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas
sur les données initiales mais sur les résultats obtenus.

       B/ Analyse des données symboliques

                                               3
Résumer les bases de données de taille parfois gigantesques par leurs concepts
sous-jacents de façon à en extraire des connaissances nouvelles constitue une
tâche d'importance grandissante. Savoir représenter ces connaissances par des
expressions à la fois symboliques et numériques, savoir manipuler et utiliser ces
expressions dans le but d'aider à décider, de mieux analyser, synthétiser et organiser
les observations, tel est l'objectif que s'assigne l'analyse des données symboliques.

Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type
d'entreprise…) ou obtenus par classification automatique (nuées dynamiques,
hiérarchie, pyramide, treillis de concepts) peuvent être modélisés par des données
plus complexes dites « symboliques » où les propriétés peuvent s'exprimer par des
valeurs qualitatives   ou quantitatives mais aussi par des intervalles, des
histogrammes ou des valeurs multiples munies de règles et de taxonomies.

Ces objets symboliques booléens ou modaux permettent non seulement de décrire
les concepts par leurs propriétés communes (booléennes, probabilistes...) mais aussi
de calculer leur extension dans l'ensemble des individus qu'ils représentent (des
habitants, des employés, des entreprises…).

1) Individus de premier ordre et de second ordre

Les bases de données qui se développent partout dans le monde prenant parfois
des tailles gigantesques possèdent deux niveaux d'informations. Le premier
concerne les entités de base appelées parfois « tuples » ou « individus ». Le second
concerne des entités d'un niveau plus élevé que l'on peut appeler « concepts »
pouvant représenter de grandes quantités d'informations, obtenues par classification
automatique ou par une requête.

2) Le tableau de données symboliques

                                          4
Un « tableau de données symboliques » autorise plusieurs valeurs par case, ces
valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies.
Plusieurs sources d'unités statistiques (« individus ») munies de variation interne
sont évoquées comme les bases de données, les données stochastiques, les séries
chronologiques, les données confidentielles...

L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données
traditionnelles aux tableaux de données symboliques pour en extraire des objets
symboliques.

Différents types d'objets symboliques sont considérés selon que les variables
décrivant les individus sont à valeur « intervalle », « histogramme » ou « variable
aléatoire ». On propose en particulier une modélisation stochastique où pour chaque
variable, chaque individu est décrit par une variable aléatoire, ces variables
aléatoires pouvant être dépendantes et de lois différentes d'un individu à l'autre. Les
treillis constituent la structure sous-jacente des objets symboliques. Les « pyramides
classifiantes » permettent de réduire les classes de ce treillis et d'en donner une
représentation graphique.

3) Les objets symboliques

4) Les apports de l’analyse de données symboliques

Par rapport aux approches classiques, l'Analyse des données symboliques présente
les caractéristiques et ouvertures suivantes :

      - Elle s'applique à des données plus complexes. En entrée, elle part de
données symboliques (variables à valeurs multiples, intervalle, histogramme,
distribution de probabilité…) munies de règles et de taxonomies et peut fournir en
sortie des connaissances nouvelles sous forme d'objets symboliques.
                                          5
- Elle utilise des outils adaptés à la manipulation d'objets symboliques de
généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention
et de mesures de ressemblance tenant compte des connaissances sous-jacentes
basées sur les règles et taxonomies.

       - Elle fournit des représentations graphiques exprimant entre autres la
variation interne des descriptions symboliques. Par exemple, en analyse factorielle,
un objet symbolique sera représenté par une zone, elle-même exprimable sous
forme d'objet symbolique, et pas seulement par un point.

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

       - Ils fournissent un résumé de la base plus riche que les données agrégées
habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes
aux classes décrites, ainsi que des taxonomies fournies.

       - Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des
variables initiales ou de variables significatives obtenues (axes factoriels).

       - En utilisant leur partie descriptive, ils permettent de construire un nouveau
tableau de données de plus haut niveau sur lequel une analyse de données
symbolique de second niveau peut s'appliquer.

       - Afin de modéliser des concepts, ils peuvent aisément exprimer des
propriétés joignant des variables provenant de plusieurs tableaux associés à
différentes populations. Par exemple, pour construire un objet symbolique associé à
une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants
de chaque ville et une autre relation décrivant les foyers de chaque ville.

       - Ils peuvent être facilement transformés sous forme de requête d'une Base de
Données. Ceci a au moins les deux conséquences suivantes :

                                            6
z   Ils peuvent propager les concepts qu'ils représentent d'une base à
une autre (par exemple, d'un pays à l'autre de la communauté européenne).
             z   Les objets symboliques formés à partir de la base par les outils de
l'Analyse des données symboliques permettent de définir des requêtes et donc de
fournir des questions qui peuvent être pertinentes.

      C/ Présentation du logiciel SODAS

1) Fonctionnement du logiciel

Il s'agit d'un logiciel prototype public (accessible à www.cisia.com). Il est issu de la
collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS
comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées
récentes et futures du domaine.

Il permet l'extension des méthodes de l'Analyse des données classiques (Statistiques
descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à
des données symboliques.

Son idée générale est la suivante : à partir d'une base de données, construire un
tableau de données symboliques, parfois muni de règles et de taxonomies, dans le
but de décrire des concepts résumant un vaste ensemble de données, analyser
ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse
de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :
      - Partir d'une base de données relationnelle (ORACLE, ACCESS...)
      - Définir ensuite un contexte par des unités statistiques de premier niveau
(habitants, familles, entreprises, accidents...), les variables qui les décrivent, des
concepts (villes, groupes socio-économiques, scénario d'accident...).
      - Chaque unité statistique de premier niveau est associée à un concept (par
exemple, chaque habitant est associé à sa ville).
                                          7
- Ce contexte est défini par une requête de la base.
      - On construit alors un tableau de données symboliques dont les nouvelles
unités statistiques sont les concepts décrits par généralisation des propriétés des
unités statistiques de premier niveau qui leur sont associées.

Le logiciel SODAS permet alors d’analyser les données symboliques sous forme
d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les
classifier, de donner une représentation graphique et une description symbolique des
classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de
concepts),   d'en   donner       une   représentation   graphique   plane   (analyse   en
composantes principales), de les discriminer (analyse factorielle discriminante,
arbres de décision)...

2) Interface du logiciel                                    Barre de
                                                             menus

                                                                                   Application
                                                                                      des
                                                                                    méthodes
               Les différentes
                 méthodes
                 proposées

                                             8
III. Application : étude de données sur le cinéma

       A/ Présentation des données

1) Source des données : la base BDCinéma.mdb

La base de données BDCinéma.mdb est celle qui nous servira pour notre étude. Il
s’agit d’une base de données relationnelles sous format Access. Elle a été
entièrement créée à partir de deux sites internet :
       - www.monsieurcinéma.fr
       - www.amazon.com.
Cette base de données regroupe 100 films qui ont tous été nominés pour les oscars.
Les informations concernant les films sont notamment le réalisateur, l’acteur
principal, le budget consacré ainsi que le revenu retiré…
Dans le but d’avoir une vue plus précise de cette base de données et de son
organisation, le schéma suivant permet de montrer les différentes tables créées ainsi
que leurs relations entre elles.

                                           9
2) Présentation des éléments de la base

Nous allons présenter en détail chacune des tables composant la base de données :
       - La table FILM contient les informations décrivant les 100 films de notre base.
       - La table RÉALISATEUR reprend les réalisateurs des différents films.
       - La table CONTINENT_TOURNAGE stocke les noms des continents où ont
été tournés les films.
       - La table LIEU_TOURNAGE stocke les noms des lieux de tournage des films
: chaque lieu de tournage se trouve dans l’un des continents présents dans la table
CONTINENT_TOURNAGE.
       - La table PAYS_RÉALISATEUR stocke les noms des pays d’origine des
réalisateurs.
       - La table RÉGION_RÉALISATEUR stocke les noms des régions d’origine des
réalisateurs : chaque région se trouve dans l’un des pays qui sont dans la table

PAYS_RÉALISATEUR.
       - Quatre autres tables ont été créées pour permettre l’exploitation d’écarts :
OSCARS, AGE_RÉALISATEUR, BUDGET_ÉCART, REVENU_ÉCART.
                                          10
B/ Variables et requêtes

1) Individus, variables de description et concepts

Les individus sont les films nominés aux oscars.

Les variables de description sont les suivantes :
       - L’année du film                      - L’âge du réalisateur (x 2)
       - L’acteur principal                   - Le nombre d’oscars pour chaque film
(x2)
       - Le lieu de tournage                  - Le budget (x2)
       - Le continent de tournage             - Le revenu (x2)
       - Le nom du réalisateur                - Le nombre d’oscars pour un genre de
film
       - La région d’origine du réalisateur   - Le budget moyen pour un genre de film
       - Le pays d’origine du réalisateur     - Le revenu moyen pour un genre de film

(x2) signifie que c’est une variable qui donne lieu à deux variables de description
différentes de par leur type. En effet, il y aura une variable de type multimodal et une
autre de type intervalle.
Par exemple, l’âge du réalisateur sera une variable multimodale (45 ans, 50 ans…)
mais aussi une variable intervalle (41-45, 46-50…).

Les concepts sont les différentes catégories de films (comédie, science-fiction…). Ils
sont au nombre de 17. Ce sont les suivants :
       - Action                     - Comédie fantastique        - Film historique
       - Animation                  - Comédie musicale           - Policier
       - Aventure                   - Drame                      - Science-fiction
       - Catastrophe                - Espionnage                 - Suspense
       - Comédie                    - Fantastique                - Western
       - Comédie dramatique         - Film de guerre
                                              11
2) Création de requêtes

Les requêtes utilisées sont au nombre de trois.

La requête INFO_FILM renvoie les individus de premier ordre à savoir, dans notre
étude, les films et la majorité des variables de description. Sa formulation en SQL est
la suivante :

      SELECT      DISTINCT Film.Titre, Film.Genre, Film.Année, Film.Acteur_Principal,
                         Lieu_Tournage.Lieu_Tournage,        Continent_Tournage.Continent_Tournage,
                         Film.Nombre_Oscars,              Film.[Budget(K)],            Film.[Revenu(K)],
Oscars.Oscars_Ecart,                   Budget_Ecart.[Budget_Ecart(K)],
Revenu_Ecart.[Revenu_Ecart(K)], Réalisateur.Nom AS               Nom_Réalisateur,
Région_Réalisateur.Région AS R_Région, Pays_Réalisateur.Pays AS                    R_Pays,
Réalisateur.Age AS R_Age, Age_Réalisateur.Tranche_Age AS R_Tranche_Age

      FROM        Age_Réalisateur, Oscars, Budget_Ecart, Revenu_Ecart, (Continent_Tournage
INNER                    JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id =
                         Lieu_Tournage.Continent_Tournage_id) INNER JOIN (((Pays_Réalisateur
INNER JOIN               Région_Réalisateur          ON           Pays_Réalisateur.Pays_id            =
Région_Réalisateur.Pays_id) INNER              JOIN       (Réalisateur   INNER        JOIN   Film   ON
Réalisateur.N°_Réalisateur = Film.N°_Réalisateur)                ON Région_Réalisateur.Région_id =
Réalisateur.Région_id) INNER JOIN                                Continent_Réalisateur              ON
Pays_Réalisateur.Continent_id =
      Continent_Réalisateur.Continent_id) ON Lieu_Tournage.Lieu_Tournage_id =
      Film.Lieu_Tournage_id

      WHERE       (((Film.Nombre_Oscars)            Between          [Oscars].[Oscars_Min]          And
[Oscars].[Oscars_Max])                 AND                   ((Film.[Budget(K)])               Between
[Budget_Ecart].[Budget_Min(K)] And                               [Budget_Ecart].[Budget_Max(K)])
AND ((Film.[Revenu(K)]) Between                                  [Revenu_Ecart].[Revenu_Min(K)] And
[Revenu_Ecart].[Revenu_Max(K)]) AND                              ((Réalisateur.Age)            Between
[Age_Réalisateur].[Age_Min] And
      [Age_Réalisateur].[Age_Max]));

                                                12
La deuxième requête INFO_GENRE renvoie les concepts (les genres de films), les
variables de classe et les variables de description Nombre d’oscars, Budget moyen
et Revenu moyen. Sa formulation en SQL est la suivante :

     SELECT     DISTINCTROW Film.Genre, Film.[Genre 2], Sum(Film.Nombre_Oscars) AS
NB_Oscars,             Avg(Film.[Budget(K)]) AS [Budget_Moyen(K)], Avg(Film.[Revenu(K)]) AS
                             [Revenu_Moyen(K)]

     FROM       Film

     GROUP BY Film.Genre, Film.[Genre 2];

La troisième requête PAYS insère une variable multimodale « Pays ». Sa formulation
en SQL est la suivante :

     SELECT     DISTINCT Film.Genre, Film.Pays, 1 AS Pondération

     FROM       Film;

3) Création de taxonomies

Les taxonomies sont au nombre de deux.

La première taxonomie TAXO_RÉALISATEUR reprend les deux variables « région
d’origine du réalisateur » et « Pays d’origine du réalisateur » qui sont soumises à une
hiérarchie. En effet, chaque région d’origine des réalisateurs fait partie d’un seul
pays. On ne trouvera donc pas une même région dans deux pays différents. Une
taxonomie se crée de la même manière qu’une requête. Sa formulation en SQL est
la suivante :

     SELECT     DISTINCT Région_Réalisateur.Région, Pays_Réalisateur.Pays

     FROM       Pays_Réalisateur INNER JOIN Région_Réalisateur ON Pays_Réalisateur.Pays_id
=               Région_Réalisateur.Pays_id;

                                              13
La deuxième taxonomie TAXO_TOURNAGE définit la hiérarchie présente entre les
variables « lieu de tournage du film » et « continent du tournage du film ». Chaque
lieu de tournage fait partie d’un seul continent. Sa formulation en langage SQL est la
suivante :

     SELECT      Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage

     FROM        Continent_Tournage INNER JOIN Lieu_Tournage ON
                     Continent_Tournage.Cotinent_Tournage_id                          =
Lieu_Tournage.Continent_Tournage_id;

       C/ Démarrage de SODAS : DB2SO

1) Description du module

DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un
ensemble d’assertions à partir de données stockées dans une base de données
relationnelle. Il est supposé qu’un ensemble d’individus et stocké dans une base de
données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut
construire une assertion pour chaque groupe d’individus. Dans ce processus, les
variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi
être associées à des assertions générées.
DB2SO est invoqué à partir de Import dans SODAS file.

                                            14
Après avoir défini la base de données BDCinéma.mdb, il s’agit d’exécuter chaque
requête que nous avons vu précédemment de la façon suivante :

                                       15
Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant
toutes les variables et tous les concepts définis.

Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la
commande File/Save.
Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS
de type *.sds. Ce fichier sera la base de toutes les applications SODAS.

Reprenons précisément toutes les variables que nous avons.
Les objets symboliques (concepts) sont les suivants :
     - Action                    - Comédie fantastique       - Film historique
     - Animation                 - Comédie musicale          - Policier
     - Aventure                  - Drame                     - Science-fiction
     - Catastrophe               - Espionnage                - Suspense
     - Comédie                   - Fantastique               - Western
     - Comédie dramatique        - Film de guerre

Les variables symboliques (variables de description) sont les suivantes :
     - Année                                - Pays (nationalité du film)
     - Acteur_Principal                     - Nombre_Oscars (d’un film)
     - Lieu_Tournage                        - Budget(K) (d’un film)
     - Continent_Tournage                   - Budget_Ecart(K) (d’un film)
                                           16
- Nom (du réalisateur)                - Revenu(K) (d’un film)
        - Région (d’origine du réalisateur)   - Revenu_Ecart(K) (d’un film)
        - Pays (d’origine du réalisateur)     - NB_Oscars (d’une catégorie de film)
        - Age (du réalisateur)                - Budget_Moyen(K) (d’une catégorie de
film)
        - Tranche_Age (du réalisateur)        - Revenu_Moyen(K) (d’une catégorie de
film)

Les taxonomies :

         D/ Utilisation des différentes méthodes

1) SOE

         a) Présentation de la méthode

SOE (Symbolic Object Editor) permet           de voir dans une table tous les objets
symboliques présents dans un fichier SODAS et d’opérer quelques modifications
basiques des données à l’intérieur de la table.

                                              17
SOE offre aussi des fonctionnalités pour voir des représentations graphiques en 2D
ou 3D et la représentation de chaque objet symbolique présent dans la table : c’est le
principe de l’étoile zoom.

L'étoile zoom est une représentation graphique qui permet de visualiser des données
statistiques complexes appelées objets symboliques. L'étoile zoom fournit différents
niveaux de détail de manière interactive, notamment grâce à une représentation en
deux et en trois dimensions.

Un objet symbolique est généralement le résultat d'une agrégation d'individus
multivariés si bien que chaque objet symbolique figure dans une classe d'individus.
Dès lors, il est représenté par un ensemble de variables dont les valeurs peuvent
être soit comprises dans un intervalle (pour une variable quantitative), soit pondérées
(pour une variable qualitative). Le but du travail est de représenter graphiquement de
tels objets.

La visualisation en étoile zoom est basée sur des axes radiaires, où chaque axe
représente une variable. Chaque étoile représente un objet symbolique. Le but de la
représentation est de fournir une image synthétique de l'objet, un profil, et de
comparer des profils entre eux.

       b) Application

Les objets que nous analysons sont :
       - Drame
       - Fantastique
       - Policier
Ce sont les trois objets symboliques les plus représentés. Dans notre contexte, ce
sont les catégories de films les plus représentées donc les plus nominées.

Les variables descriptives que nous analyserons pour chaque objet sont :
     - Année                               - Budget(K)

                                          18
- Continent_Tournage   - Budget_Ecart(K)
- Nombre_Oscars        - Revenu(K)
- Oscars_Ecart         - Revenu_Ecart(K)

                       19
A l’aide de ces deux graphiques, on remarque que la
plupart des films dramatiques remportent entre 0 et 1
oscar avec un fort pourcentage de 60%. On note tout de
même que 15% des drames recensés dans la base de
données ont reçu plus de 5 oscars.

Les films sont aussi en grande majorité d’origine nord-
américaine avec un pourcentage de 65% et le budget consacré à leur réalisation est
essentiellement compris entre 0 et 500 000 (65%).

Il est aussi important de noter que le budget consacré aux drames bien qu’en
moyenne il soit compris entre 0 et 500 000, il varie de façon très importante (entre
400 000 et 200 millions).

                                        20
Les films fantastiques reçoivent en grande majorité (71%) entre 0 et 1 oscar et le
maximum d’oscars reçus par un même film fantastique est de 4.

Par contre, les films fantastiques ont commencé à prendre toute leur ampleur à partir
de 1977, ceci sûrement grâce aux images de synthèse, effets spéciaux et autres
effets numériques qu’il n’y avait pas avant. En effet, souvent les films fantastiques
reçoivent des oscars de « meilleurs effets spéciaux ».

Contrairement à ce que l’on pourrait penser, les films fantastiques n’ont pas un
budget aussi important. Le maximum est ici de 125 millions de dollars.

                                         21
Là encore, une grande majorité (81%) des films policiers reçoivent entre 0 et 1 oscar.
Le maximum recensé est de 5 oscars.

Le budget consacré est au maximum de 87 millions de dollars avec une moyenne
comprise entre 0 et 500 000.

Les revenus engendrés sont quant à eux peu élevés. Le maximum est de 352
millions.

Synthèse et comparaison entre les concepts étudiés.

Parmi les trois objets symboliques, catégories les plus recensés dans notre base de
données, on remarque immédiatement que les drames sont ceux qui ont la plus forte
amplitude tant au niveau du nombre d’oscars reçus qu’au niveau du budget consacré
et du revenu engendré. On peut donc en déduire facilement que les drames sont très
appréciés par les membres du jury des oscars.

On note également que quelque soit la catégorie de films, ils sont en grande majorité
réalisés par des réalisateurs d’origine nord-américaine et tournés aux Etats-Unis.

                                          22
2) STAT

      a) Présentation de la méthode

STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques,
représentés par leur description, plusieurs méthodes de statistique élémentaire
limitées aux données. C’est un composant de SODAS et donc il fonctionne dans
SODAS avec les bases de données de SODAS.

Les méthodes dépendent du type des variables de la base et sont filtrées en fonction
de la méthode de travail :
      - fréquences relatives pour variables multimodales (a)
      - fréquences relatives pour variables intervalles (b)
      - capacités et min/max/mean pour variables multimodales probabilistes
      - biplot pour variables intervalles (d)
      - objet central.

Les données des méthodes sélectionnées peuvent être regardées de deux façons :
listing ou graphe. Le graphe peut être changé et personnalisé (texte, couleurs…).

Dans la méthode a, on calcule la fréquence relative de chaque modalité de la
variable multinominale en prenant en compte les règles données par la base. Le
graphique associé à la distribution de la variable peut être soit un histogramme soit
un diagramme circularisé.

Dans la méthode b, soit X une variable intervalle observée dans un ensemble
d’objets symboliques. On peut construire un histogramme pour la variable X sur
l’intervalle [a,b] où a est la plus petite limite et b la plus grande. Le calcul des
fréquences relatives associées à une classe Ck prend en compte le recouvrement de
Ck par les valeurs intervalle de X sur chaque objet symbolique.

                                            23
Dans la méthode d, le graphique présente un objet symbolique comme un rectangle
sur le plan à deux variables choisies par l’utilisateur. Chaque côté du rectangle
représente la distance de l’axe pour l’objet symbolique.

       b) Application

Fréquences relatives pour variables intervalles

La variable étudiée ici est le nombre d’oscars. Le nombre de classes choisi est 11.

Chaque classe a donc une largeur de 1. Il est facile de remarquer que la classe qui
prédomine est la classe [0,1]. Les films nominés remportent en général entre 0 et 1
oscar. On remarque également qu’au-delà de 1 oscar, le nombre d’oscars attribués
est très bas.

                                          24
Une autre variable peut également être étudiée : l’âge du réalisateur. On choisit
comme nombre de classes 10. Chaque classe a donc une largeur de 4,5.

On peut noter que les réalisateurs qui ont des oscars ont le plus souvent entre 45 et
50 ans. En-dessous de 40 ans, il est très rare de rencontrer des réalisateurs ayant eu
des oscars. Au-delà de 50 ans, la proportion de réalisateurs diminue de façon
constante.

Capacités et min/max/mean pour variables multimodales probabilistes

La variable étudiée est le pays d’origine du réalisateur.

                                          25
Grâce à cet histogramme, on peut noter que pour certains objets symboliques
(catégories de films), les réalisateurs d’origine américaine et ceux d’origine anglaise
sont les plus créateurs. En effet, le maximum de la modalité USA est 1 de même que
celui de la modalité Angleterre. On peut alors en penser que certaines catégories de
films qui sont nominés aux oscars ne sont réalisées que par des anglo-saxons (USA
+ Angleterre).

On peut remarquer également que la modalité USA a aussi la moyenne la plus
élevée. Elle est suivie mais déjà de loin par l’Angleterre. Ceci rejoint l’idée
précédente que les oscars sont le plus souvent attribués à des films dont les
réalisateurs sont anglo-saxons avec une plus forte proportion pour les USA.

Il apparaît au vu de cet histogramme qu’aucun pays n’est présent à la fois dans tous
les objets symboliques. Le minimum des proportions de tous les pays est 0 (Chine).

                                          26
Biplot pour variables intervalles

Les variables étudiées sont le nombre d’oscars et le budget. Il s’agit donc de voir
quelles sont les catégorisées les plus oscarisées et celles à plus fort budget..

Le résultat n’étant pas très lisible du fait du grand nombre d’objets symboliques (17),
le graphique général est divisé en deux graphiques afin d’en faciliter la lecture et
l’interprétation.

Au vu de ce graphique, on peut noter que les drames peuvent avoir aussi bien 0
oscar que 11 oscars soit le maximum dans notre base de données. Et que leur
budget a aussi la plus forte amplitude c’est-à-dire qu’il varie de 0 à 200 millions, ce
que nous avons pu déjà constater grâce à la méthode SOE.

Le film de catastrophe ne remporte aucun oscar mais pourtant avec un budget
colossal. Au contraire, le western, avec un budget consacré faible, peut remporter
jusqu’à 2 oscars.

                                           27
Dans ce graphique, on peut remarquer que les films d’aventure ont rapporté entre 0
et 7 oscars avec un budget de 75 millions maximum.

Ces deux graphiques aboutissent à la même conclusion. Ce ne sont pas forcément
les films à gros budget qui sont le plus oscarisés. Il n’y a pas de lien proportionnel
entre le budget et le nombre d’oscars obtenus.

3) DIV

                                         28
a) Présentation de la méthode

DIV (Divisive Clustering) est une méthode de classification hiérarchique qui
commence avec tous les objets d’une classe et procède par divisions successives de
chaque classe. A chaque étape, une classe est divisée en deux classes selon une
question binaire. Cette question binaire induit le meilleur partage en deux classes
selon une extension du critère de l’inertie. L’algorithme se termine après k-1
divisions, où k représente le nombre de classes données comme inputs par
l’utilisateur.

        b) Application

Les variables utilisées ici sont le nombre d’oscars et le budget. Ainsi, il sera possible
de voir la répartition entre les oscars reçus et le budget consacré.

Le nombre de classes choisi est de 5.

Le résultat obtenu est le suivant :

PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=8) :
      "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation"
      "Comédie"   "Western" "Espionnage"

Cluster 2 (n=9) :
      "Science-fiction" "Fantastique" "Comédie dramatique" "Drame" "Film
      historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale"
Explicated inertia : 44.204377

PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=8) :
      "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation"
      "Comédie" "Western" "Espionnage"
Cluster 2 (n=8) :
      "Science-fiction" "Fantastique" "Comédie dramatique" "Film
historique"       "Policier" "Aventure" "Film de guerre" "Comédie musicale"
Cluster 3 (n=1) :
      "Drame"
Explicated inertia : 62.849148

PARTITION IN 4 CLUSTERS :

                                           29
-------------------------:
Cluster 1 (n=7) :
      "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie"
      "Western" "Espionnage"
Cluster 2 (n=8) :
      "Science-fiction" "Fantastique" "Comédie dramatique" "Film
historique"       "Policier" "Aventure" "Film de guerre" "Comédie musicale"
Cluster 3 (n=1) :
      "Drame"
Cluster 4 (n=1) :
      "Catastrophe"
Explicated inertia : 75.894740

PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=2) :
      "Western" "Espionnage"
Cluster 2 (n=8) :
      "Science-fiction" "Fantastique" "Comédie dramatique" "Film
historique"       "Policier" "Aventure" "Film de guerre" "Comédie musicale"
Cluster 3 (n=1) :
      "Drame"
Cluster 4 (n=1) :
      "Catastrophe"
Cluster 5 (n=5) :
      "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie"
Explicated inertia : 83.948477

THE CLUSTERING TREE :
---------------------

                +---- Classe 1 (Ng=2)
                !
           !----4- [Budget(K)
Parmi les 8 catégories de films qui ont moins de 1,75 oscars de moyenne, il y en a 7
qui ont un budget de moins de 102 millions de dollars.

4) PCM

      a) Présentation de la méthode

PCM (Principal Component Analysis) est une extension de la méthode d’analyse en
composante principale qui prend comme input une matrice de terme général aij de
type intervalle. Chaque valeur aij est un intervalle contenant toutes les valeurs
possibles de j pour un objet i. Au lieu de représenter chaque point sur un plan
factoriel par un point comme dans la méthode ACP, dans la méthode PCM, chaque
objet est visualisé par un rectangle.

      b) Application

La variable choisie est le nombre d’oscars.

                                         31
5) TREE

       a) Présentation de la méthode

TREE propose un algorithme par agrandissement d’arbre appliqué aux données
imprécises. Celles-ci sont formellement décrites par des assertions probabilistes
dans l’analyse des données symboliques. Dans ce contexte, la procédure de partage
récursif peut être vue comme une recherche itérative d’un ensemble d’objets
symboliques qui correspond le mieux aux données initiales. A chaque étape, le
meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en paramètre.
On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de
nouveaux objets à une classe.

       b) Application

Les paramètres choisis sont les suivants :
       - Variable Class Identifier : Genre
       - Variables Set Identifier : Nombre d’oscars
       - Nombre de nœuds : 5

Le résultat obtenu est le suivant :

   ==================================
   | EDITION OF DECISION TREE       |
   ==================================

 PARAMETERS :
 Learning Set        :    17
 Number of variables :     1
 Max. number of nodes:    13
 Soft Assign         : ( 1 ) FUZZY
 Criterion coding    : ( 3 ) LOG-LIKELIHOOD
 Min. number of object by node    :        5
 Min. size of no-majority classes :        2
 Min. size of descendant nodes    :     1.00
 Frequency of test set            :     0.00

                                             32
+ --- IF ASSERTION IS TRUE (up)
    !
--- x [ ASSERTION ]
    !
    + --- IF ASSERTION IS FALSE (down)

                                    33
+----   [ 4 ]Catastrophe    (     0.00        0.00      0.00        1.00       0.00       0.00        0.00
                                      0.00      0.00        1.00      0.00        0.00       0.00       0.00
                                      0.00      0.00        0.00 )
          !
     !----2[ Nombre_Oscars
6) FDA (Factorial Discriminant Analysis)

Les paramètres choisis sont les suivants :
       - Variable class identifier : Genre
       - Variables to be selected : Nombre d’oscars

Le résultat est le suivant :
2
Vous pouvez aussi lire