Introduction - LE MARREC Vanessa Université Paris-IX Dauphine Data Mining Juin 2002 - LAMSADE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
LE MARREC Vanessa Université Paris-IX Dauphine Data Mining Juin 2002 Introduction
Les progrès de la technologie informatique dans le recueil et le transport de données, font que dans tous les grands domaines de l'activité humaine, on recueille maintenant des données en quantité souvent gigantesque et de toutes sortes (numériques, textuelles, graphiques...). Résumer ces données, à l'aide de concepts sous-jacents (une ville, un produit...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale. Le logiciel libre SODAS a pour objectif de répondre à cette question. On présentera d'abord le cadre théorique de l'Analyse des données symboliques basé sur la notion « d'objets symboliques ». On présentera ensuite l'architecture et les outils de l'Analyse des données symboliques développés dans SODAS. Ces outils généralisent les méthodes de l'Analyse des données classiques et ceux de la statistique usuelle, aussi bien en entrée, en autorisant des données plus complexes car plus proches de la réalité, qu'en sortie, en fournissant des objets symboliques plus aptes à exprimer des connaissances que les résultats numériques habituels. 2
I. Présentation du Data Mining et du logiciel SODAS A/ Émergence du Data Mining Les entreprises subissent aujourd’hui une intensification de la concurrence ou de la pression des clients. Ces facteurs les poussent à améliorer constamment la qualité de leurs produits et à accélérer de manière générale leurs processus de mise sur le marché de nouveaux produits et services. Parallèlement, les systèmes d’informations se sont développés pour contribuer à améliorer la productivité des traitements. Depuis deux décennies environ, l’attention des entreprises s’est progressivement détournée des systèmes opérationnels pour se porter sur des systèmes décisionnels qui contribuent véritablement à la différenciation stratégique de l’entreprise. Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles autour du concept de « Data Warehouse » ou « entrepôt de données », vastes bases de données décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de données disposent bien sûr de capacités de reporting, c’est-à-dire de présentation de données ou d’agrégats sous forme de tableaux ou de graphiques, mais ils permettent rarement de découvrir des associations ou des tendances qui se nichent dans les tréfonds d’une base de données, d’où l’émergence du Data Mining. En effet, le Data Mining est une réponse au besoin croissant qu’ont les entreprises d’un surcroît de productivité dans l’analyse de leurs données. L'objectif est alors de synthétiser des informations stockées dans une base de données relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas sur les données initiales mais sur les résultats obtenus. B/ Analyse des données symboliques 3
Résumer les bases de données de taille parfois gigantesques par leurs concepts sous-jacents de façon à en extraire des connaissances nouvelles constitue une tâche d'importance grandissante. Savoir représenter ces connaissances par des expressions à la fois symboliques et numériques, savoir manipuler et utiliser ces expressions dans le but d'aider à décider, de mieux analyser, synthétiser et organiser les observations, tel est l'objectif que s'assigne l'analyse des données symboliques. Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type d'entreprise…) ou obtenus par classification automatique (nuées dynamiques, hiérarchie, pyramide, treillis de concepts) peuvent être modélisés par des données plus complexes dites « symboliques » où les propriétés peuvent s'exprimer par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des valeurs multiples munies de règles et de taxonomies. Ces objets symboliques booléens ou modaux permettent non seulement de décrire les concepts par leurs propriétés communes (booléennes, probabilistes...) mais aussi de calculer leur extension dans l'ensemble des individus qu'ils représentent (des habitants, des employés, des entreprises…). 1) Individus de premier ordre et de second ordre Les bases de données qui se développent partout dans le monde prenant parfois des tailles gigantesques possèdent deux niveaux d'informations. Le premier concerne les entités de base appelées parfois « tuples » ou « individus ». Le second concerne des entités d'un niveau plus élevé que l'on peut appeler « concepts » pouvant représenter de grandes quantités d'informations, obtenues par classification automatique ou par une requête. 2) Le tableau de données symboliques 4
Un « tableau de données symboliques » autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies. Plusieurs sources d'unités statistiques (« individus ») munies de variation interne sont évoquées comme les bases de données, les données stochastiques, les séries chronologiques, les données confidentielles... L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de données symboliques pour en extraire des objets symboliques. Différents types d'objets symboliques sont considérés selon que les variables décrivant les individus sont à valeur « intervalle », « histogramme » ou « variable aléatoire ». On propose en particulier une modélisation stochastique où pour chaque variable, chaque individu est décrit par une variable aléatoire, ces variables aléatoires pouvant être dépendantes et de lois différentes d'un individu à l'autre. Les treillis constituent la structure sous-jacente des objets symboliques. Les « pyramides classifiantes » permettent de réduire les classes de ce treillis et d'en donner une représentation graphique. 3) Les objets symboliques 4) Les apports de l’analyse de données symboliques Par rapport aux approches classiques, l'Analyse des données symboliques présente les caractéristiques et ouvertures suivantes : - Elle s'applique à des données plus complexes. En entrée, elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité…) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques. 5
- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de ressemblance tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone, elle-même exprimable sous forme d'objet symbolique, et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies. - Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels). - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au moins les deux conséquences suivantes : 6
z Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne). z Les objets symboliques formés à partir de la base par les outils de l'Analyse des données symboliques permettent de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes. C/ Présentation du logiciel SODAS 1) Fonctionnement du logiciel Il s'agit d'un logiciel prototype public (accessible à www.cisia.com). Il est issu de la collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Il permet l'extension des méthodes de l'Analyse des données classiques (Statistiques descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à des données symboliques. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : - Partir d'une base de données relationnelle (ORACLE, ACCESS...) - Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...), les variables qui les décrivent, des concepts (villes, groupes socio-économiques, scénario d'accident...). - Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). 7
- Ce contexte est défini par une requête de la base. - On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Le logiciel SODAS permet alors d’analyser les données symboliques sous forme d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les classifier, de donner une représentation graphique et une description symbolique des classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une représentation graphique plane (analyse en composantes principales), de les discriminer (analyse factorielle discriminante, arbres de décision)... 2) Interface du logiciel Barre de menus Application des méthodes Les différentes méthodes proposées 8
III. Application : étude de données sur le cinéma A/ Présentation des données 1) Source des données : la base BDCinéma.mdb La base de données BDCinéma.mdb est celle qui nous servira pour notre étude. Il s’agit d’une base de données relationnelles sous format Access. Elle a été entièrement créée à partir de deux sites internet : - www.monsieurcinéma.fr - www.amazon.com. Cette base de données regroupe 100 films qui ont tous été nominés pour les oscars. Les informations concernant les films sont notamment le réalisateur, l’acteur principal, le budget consacré ainsi que le revenu retiré… Dans le but d’avoir une vue plus précise de cette base de données et de son organisation, le schéma suivant permet de montrer les différentes tables créées ainsi que leurs relations entre elles. 9
2) Présentation des éléments de la base Nous allons présenter en détail chacune des tables composant la base de données : - La table FILM contient les informations décrivant les 100 films de notre base. - La table RÉALISATEUR reprend les réalisateurs des différents films. - La table CONTINENT_TOURNAGE stocke les noms des continents où ont été tournés les films. - La table LIEU_TOURNAGE stocke les noms des lieux de tournage des films : chaque lieu de tournage se trouve dans l’un des continents présents dans la table CONTINENT_TOURNAGE. - La table PAYS_RÉALISATEUR stocke les noms des pays d’origine des réalisateurs. - La table RÉGION_RÉALISATEUR stocke les noms des régions d’origine des réalisateurs : chaque région se trouve dans l’un des pays qui sont dans la table PAYS_RÉALISATEUR. - Quatre autres tables ont été créées pour permettre l’exploitation d’écarts : OSCARS, AGE_RÉALISATEUR, BUDGET_ÉCART, REVENU_ÉCART. 10
B/ Variables et requêtes 1) Individus, variables de description et concepts Les individus sont les films nominés aux oscars. Les variables de description sont les suivantes : - L’année du film - L’âge du réalisateur (x 2) - L’acteur principal - Le nombre d’oscars pour chaque film (x2) - Le lieu de tournage - Le budget (x2) - Le continent de tournage - Le revenu (x2) - Le nom du réalisateur - Le nombre d’oscars pour un genre de film - La région d’origine du réalisateur - Le budget moyen pour un genre de film - Le pays d’origine du réalisateur - Le revenu moyen pour un genre de film (x2) signifie que c’est une variable qui donne lieu à deux variables de description différentes de par leur type. En effet, il y aura une variable de type multimodal et une autre de type intervalle. Par exemple, l’âge du réalisateur sera une variable multimodale (45 ans, 50 ans…) mais aussi une variable intervalle (41-45, 46-50…). Les concepts sont les différentes catégories de films (comédie, science-fiction…). Ils sont au nombre de 17. Ce sont les suivants : - Action - Comédie fantastique - Film historique - Animation - Comédie musicale - Policier - Aventure - Drame - Science-fiction - Catastrophe - Espionnage - Suspense - Comédie - Fantastique - Western - Comédie dramatique - Film de guerre 11
2) Création de requêtes Les requêtes utilisées sont au nombre de trois. La requête INFO_FILM renvoie les individus de premier ordre à savoir, dans notre étude, les films et la majorité des variables de description. Sa formulation en SQL est la suivante : SELECT DISTINCT Film.Titre, Film.Genre, Film.Année, Film.Acteur_Principal, Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage, Film.Nombre_Oscars, Film.[Budget(K)], Film.[Revenu(K)], Oscars.Oscars_Ecart, Budget_Ecart.[Budget_Ecart(K)], Revenu_Ecart.[Revenu_Ecart(K)], Réalisateur.Nom AS Nom_Réalisateur, Région_Réalisateur.Région AS R_Région, Pays_Réalisateur.Pays AS R_Pays, Réalisateur.Age AS R_Age, Age_Réalisateur.Tranche_Age AS R_Tranche_Age FROM Age_Réalisateur, Oscars, Budget_Ecart, Revenu_Ecart, (Continent_Tournage INNER JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id = Lieu_Tournage.Continent_Tournage_id) INNER JOIN (((Pays_Réalisateur INNER JOIN Région_Réalisateur ON Pays_Réalisateur.Pays_id = Région_Réalisateur.Pays_id) INNER JOIN (Réalisateur INNER JOIN Film ON Réalisateur.N°_Réalisateur = Film.N°_Réalisateur) ON Région_Réalisateur.Région_id = Réalisateur.Région_id) INNER JOIN Continent_Réalisateur ON Pays_Réalisateur.Continent_id = Continent_Réalisateur.Continent_id) ON Lieu_Tournage.Lieu_Tournage_id = Film.Lieu_Tournage_id WHERE (((Film.Nombre_Oscars) Between [Oscars].[Oscars_Min] And [Oscars].[Oscars_Max]) AND ((Film.[Budget(K)]) Between [Budget_Ecart].[Budget_Min(K)] And [Budget_Ecart].[Budget_Max(K)]) AND ((Film.[Revenu(K)]) Between [Revenu_Ecart].[Revenu_Min(K)] And [Revenu_Ecart].[Revenu_Max(K)]) AND ((Réalisateur.Age) Between [Age_Réalisateur].[Age_Min] And [Age_Réalisateur].[Age_Max])); 12
La deuxième requête INFO_GENRE renvoie les concepts (les genres de films), les variables de classe et les variables de description Nombre d’oscars, Budget moyen et Revenu moyen. Sa formulation en SQL est la suivante : SELECT DISTINCTROW Film.Genre, Film.[Genre 2], Sum(Film.Nombre_Oscars) AS NB_Oscars, Avg(Film.[Budget(K)]) AS [Budget_Moyen(K)], Avg(Film.[Revenu(K)]) AS [Revenu_Moyen(K)] FROM Film GROUP BY Film.Genre, Film.[Genre 2]; La troisième requête PAYS insère une variable multimodale « Pays ». Sa formulation en SQL est la suivante : SELECT DISTINCT Film.Genre, Film.Pays, 1 AS Pondération FROM Film; 3) Création de taxonomies Les taxonomies sont au nombre de deux. La première taxonomie TAXO_RÉALISATEUR reprend les deux variables « région d’origine du réalisateur » et « Pays d’origine du réalisateur » qui sont soumises à une hiérarchie. En effet, chaque région d’origine des réalisateurs fait partie d’un seul pays. On ne trouvera donc pas une même région dans deux pays différents. Une taxonomie se crée de la même manière qu’une requête. Sa formulation en SQL est la suivante : SELECT DISTINCT Région_Réalisateur.Région, Pays_Réalisateur.Pays FROM Pays_Réalisateur INNER JOIN Région_Réalisateur ON Pays_Réalisateur.Pays_id = Région_Réalisateur.Pays_id; 13
La deuxième taxonomie TAXO_TOURNAGE définit la hiérarchie présente entre les variables « lieu de tournage du film » et « continent du tournage du film ». Chaque lieu de tournage fait partie d’un seul continent. Sa formulation en langage SQL est la suivante : SELECT Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage FROM Continent_Tournage INNER JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id = Lieu_Tournage.Continent_Tournage_id; C/ Démarrage de SODAS : DB2SO 1) Description du module DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé qu’un ensemble d’individus et stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des assertions générées. DB2SO est invoqué à partir de Import dans SODAS file. 14
Après avoir défini la base de données BDCinéma.mdb, il s’agit d’exécuter chaque requête que nous avons vu précédemment de la façon suivante : 15
Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les variables et tous les concepts définis. Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la commande File/Save. Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type *.sds. Ce fichier sera la base de toutes les applications SODAS. Reprenons précisément toutes les variables que nous avons. Les objets symboliques (concepts) sont les suivants : - Action - Comédie fantastique - Film historique - Animation - Comédie musicale - Policier - Aventure - Drame - Science-fiction - Catastrophe - Espionnage - Suspense - Comédie - Fantastique - Western - Comédie dramatique - Film de guerre Les variables symboliques (variables de description) sont les suivantes : - Année - Pays (nationalité du film) - Acteur_Principal - Nombre_Oscars (d’un film) - Lieu_Tournage - Budget(K) (d’un film) - Continent_Tournage - Budget_Ecart(K) (d’un film) 16
- Nom (du réalisateur) - Revenu(K) (d’un film) - Région (d’origine du réalisateur) - Revenu_Ecart(K) (d’un film) - Pays (d’origine du réalisateur) - NB_Oscars (d’une catégorie de film) - Age (du réalisateur) - Budget_Moyen(K) (d’une catégorie de film) - Tranche_Age (du réalisateur) - Revenu_Moyen(K) (d’une catégorie de film) Les taxonomies : D/ Utilisation des différentes méthodes 1) SOE a) Présentation de la méthode SOE (Symbolic Object Editor) permet de voir dans une table tous les objets symboliques présents dans un fichier SODAS et d’opérer quelques modifications basiques des données à l’intérieur de la table. 17
SOE offre aussi des fonctionnalités pour voir des représentations graphiques en 2D ou 3D et la représentation de chaque objet symbolique présent dans la table : c’est le principe de l’étoile zoom. L'étoile zoom est une représentation graphique qui permet de visualiser des données statistiques complexes appelées objets symboliques. L'étoile zoom fournit différents niveaux de détail de manière interactive, notamment grâce à une représentation en deux et en trois dimensions. Un objet symbolique est généralement le résultat d'une agrégation d'individus multivariés si bien que chaque objet symbolique figure dans une classe d'individus. Dès lors, il est représenté par un ensemble de variables dont les valeurs peuvent être soit comprises dans un intervalle (pour une variable quantitative), soit pondérées (pour une variable qualitative). Le but du travail est de représenter graphiquement de tels objets. La visualisation en étoile zoom est basée sur des axes radiaires, où chaque axe représente une variable. Chaque étoile représente un objet symbolique. Le but de la représentation est de fournir une image synthétique de l'objet, un profil, et de comparer des profils entre eux. b) Application Les objets que nous analysons sont : - Drame - Fantastique - Policier Ce sont les trois objets symboliques les plus représentés. Dans notre contexte, ce sont les catégories de films les plus représentées donc les plus nominées. Les variables descriptives que nous analyserons pour chaque objet sont : - Année - Budget(K) 18
- Continent_Tournage - Budget_Ecart(K) - Nombre_Oscars - Revenu(K) - Oscars_Ecart - Revenu_Ecart(K) 19
A l’aide de ces deux graphiques, on remarque que la plupart des films dramatiques remportent entre 0 et 1 oscar avec un fort pourcentage de 60%. On note tout de même que 15% des drames recensés dans la base de données ont reçu plus de 5 oscars. Les films sont aussi en grande majorité d’origine nord- américaine avec un pourcentage de 65% et le budget consacré à leur réalisation est essentiellement compris entre 0 et 500 000 (65%). Il est aussi important de noter que le budget consacré aux drames bien qu’en moyenne il soit compris entre 0 et 500 000, il varie de façon très importante (entre 400 000 et 200 millions). 20
Les films fantastiques reçoivent en grande majorité (71%) entre 0 et 1 oscar et le maximum d’oscars reçus par un même film fantastique est de 4. Par contre, les films fantastiques ont commencé à prendre toute leur ampleur à partir de 1977, ceci sûrement grâce aux images de synthèse, effets spéciaux et autres effets numériques qu’il n’y avait pas avant. En effet, souvent les films fantastiques reçoivent des oscars de « meilleurs effets spéciaux ». Contrairement à ce que l’on pourrait penser, les films fantastiques n’ont pas un budget aussi important. Le maximum est ici de 125 millions de dollars. 21
Là encore, une grande majorité (81%) des films policiers reçoivent entre 0 et 1 oscar. Le maximum recensé est de 5 oscars. Le budget consacré est au maximum de 87 millions de dollars avec une moyenne comprise entre 0 et 500 000. Les revenus engendrés sont quant à eux peu élevés. Le maximum est de 352 millions. Synthèse et comparaison entre les concepts étudiés. Parmi les trois objets symboliques, catégories les plus recensés dans notre base de données, on remarque immédiatement que les drames sont ceux qui ont la plus forte amplitude tant au niveau du nombre d’oscars reçus qu’au niveau du budget consacré et du revenu engendré. On peut donc en déduire facilement que les drames sont très appréciés par les membres du jury des oscars. On note également que quelque soit la catégorie de films, ils sont en grande majorité réalisés par des réalisateurs d’origine nord-américaine et tournés aux Etats-Unis. 22
2) STAT a) Présentation de la méthode STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. C’est un composant de SODAS et donc il fonctionne dans SODAS avec les bases de données de SODAS. Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la méthode de travail : - fréquences relatives pour variables multimodales (a) - fréquences relatives pour variables intervalles (b) - capacités et min/max/mean pour variables multimodales probabilistes - biplot pour variables intervalles (d) - objet central. Les données des méthodes sélectionnées peuvent être regardées de deux façons : listing ou graphe. Le graphe peut être changé et personnalisé (texte, couleurs…). Dans la méthode a, on calcule la fréquence relative de chaque modalité de la variable multinominale en prenant en compte les règles données par la base. Le graphique associé à la distribution de la variable peut être soit un histogramme soit un diagramme circularisé. Dans la méthode b, soit X une variable intervalle observée dans un ensemble d’objets symboliques. On peut construire un histogramme pour la variable X sur l’intervalle [a,b] où a est la plus petite limite et b la plus grande. Le calcul des fréquences relatives associées à une classe Ck prend en compte le recouvrement de Ck par les valeurs intervalle de X sur chaque objet symbolique. 23
Dans la méthode d, le graphique présente un objet symbolique comme un rectangle sur le plan à deux variables choisies par l’utilisateur. Chaque côté du rectangle représente la distance de l’axe pour l’objet symbolique. b) Application Fréquences relatives pour variables intervalles La variable étudiée ici est le nombre d’oscars. Le nombre de classes choisi est 11. Chaque classe a donc une largeur de 1. Il est facile de remarquer que la classe qui prédomine est la classe [0,1]. Les films nominés remportent en général entre 0 et 1 oscar. On remarque également qu’au-delà de 1 oscar, le nombre d’oscars attribués est très bas. 24
Une autre variable peut également être étudiée : l’âge du réalisateur. On choisit comme nombre de classes 10. Chaque classe a donc une largeur de 4,5. On peut noter que les réalisateurs qui ont des oscars ont le plus souvent entre 45 et 50 ans. En-dessous de 40 ans, il est très rare de rencontrer des réalisateurs ayant eu des oscars. Au-delà de 50 ans, la proportion de réalisateurs diminue de façon constante. Capacités et min/max/mean pour variables multimodales probabilistes La variable étudiée est le pays d’origine du réalisateur. 25
Grâce à cet histogramme, on peut noter que pour certains objets symboliques (catégories de films), les réalisateurs d’origine américaine et ceux d’origine anglaise sont les plus créateurs. En effet, le maximum de la modalité USA est 1 de même que celui de la modalité Angleterre. On peut alors en penser que certaines catégories de films qui sont nominés aux oscars ne sont réalisées que par des anglo-saxons (USA + Angleterre). On peut remarquer également que la modalité USA a aussi la moyenne la plus élevée. Elle est suivie mais déjà de loin par l’Angleterre. Ceci rejoint l’idée précédente que les oscars sont le plus souvent attribués à des films dont les réalisateurs sont anglo-saxons avec une plus forte proportion pour les USA. Il apparaît au vu de cet histogramme qu’aucun pays n’est présent à la fois dans tous les objets symboliques. Le minimum des proportions de tous les pays est 0 (Chine). 26
Biplot pour variables intervalles Les variables étudiées sont le nombre d’oscars et le budget. Il s’agit donc de voir quelles sont les catégorisées les plus oscarisées et celles à plus fort budget.. Le résultat n’étant pas très lisible du fait du grand nombre d’objets symboliques (17), le graphique général est divisé en deux graphiques afin d’en faciliter la lecture et l’interprétation. Au vu de ce graphique, on peut noter que les drames peuvent avoir aussi bien 0 oscar que 11 oscars soit le maximum dans notre base de données. Et que leur budget a aussi la plus forte amplitude c’est-à-dire qu’il varie de 0 à 200 millions, ce que nous avons pu déjà constater grâce à la méthode SOE. Le film de catastrophe ne remporte aucun oscar mais pourtant avec un budget colossal. Au contraire, le western, avec un budget consacré faible, peut remporter jusqu’à 2 oscars. 27
Dans ce graphique, on peut remarquer que les films d’aventure ont rapporté entre 0 et 7 oscars avec un budget de 75 millions maximum. Ces deux graphiques aboutissent à la même conclusion. Ce ne sont pas forcément les films à gros budget qui sont le plus oscarisés. Il n’y a pas de lien proportionnel entre le budget et le nombre d’oscars obtenus. 3) DIV 28
a) Présentation de la méthode DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence avec tous les objets d’une classe et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l’inertie. L’algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l’utilisateur. b) Application Les variables utilisées ici sont le nombre d’oscars et le budget. Ainsi, il sera possible de voir la répartition entre les oscars reçus et le budget consacré. Le nombre de classes choisi est de 5. Le résultat obtenu est le suivant : PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=8) : "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=9) : "Science-fiction" "Fantastique" "Comédie dramatique" "Drame" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Explicated inertia : 44.204377 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=8) : "Suspense" "Catastrophe" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Explicated inertia : 62.849148 PARTITION IN 4 CLUSTERS : 29
-------------------------: Cluster 1 (n=7) : "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie" "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Cluster 4 (n=1) : "Catastrophe" Explicated inertia : 75.894740 PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=2) : "Western" "Espionnage" Cluster 2 (n=8) : "Science-fiction" "Fantastique" "Comédie dramatique" "Film historique" "Policier" "Aventure" "Film de guerre" "Comédie musicale" Cluster 3 (n=1) : "Drame" Cluster 4 (n=1) : "Catastrophe" Cluster 5 (n=5) : "Suspense" "Action" "Comédie fantastique" "Animation" "Comédie" Explicated inertia : 83.948477 THE CLUSTERING TREE : --------------------- +---- Classe 1 (Ng=2) ! !----4- [Budget(K)
Parmi les 8 catégories de films qui ont moins de 1,75 oscars de moyenne, il y en a 7 qui ont un budget de moins de 102 millions de dollars. 4) PCM a) Présentation de la méthode PCM (Principal Component Analysis) est une extension de la méthode d’analyse en composante principale qui prend comme input une matrice de terme général aij de type intervalle. Chaque valeur aij est un intervalle contenant toutes les valeurs possibles de j pour un objet i. Au lieu de représenter chaque point sur un plan factoriel par un point comme dans la méthode ACP, dans la méthode PCM, chaque objet est visualisé par un rectangle. b) Application La variable choisie est le nombre d’oscars. 31
5) TREE a) Présentation de la méthode TREE propose un algorithme par agrandissement d’arbre appliqué aux données imprécises. Celles-ci sont formellement décrites par des assertions probabilistes dans l’analyse des données symboliques. Dans ce contexte, la procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble d’objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en paramètre. On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de nouveaux objets à une classe. b) Application Les paramètres choisis sont les suivants : - Variable Class Identifier : Genre - Variables Set Identifier : Nombre d’oscars - Nombre de nœuds : 5 Le résultat obtenu est le suivant : ================================== | EDITION OF DECISION TREE | ================================== PARAMETERS : Learning Set : 17 Number of variables : 1 Max. number of nodes: 13 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00 32
+ --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down) 33
+---- [ 4 ]Catastrophe ( 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 ) ! !----2[ Nombre_Oscars
6) FDA (Factorial Discriminant Analysis) Les paramètres choisis sont les suivants : - Variable class identifier : Genre - Variables to be selected : Nombre d’oscars Le résultat est le suivant :
2
Vous pouvez aussi lire