Programme de formation Master (M2) - IAD Intelligence Artificielle et Décision
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Université Pierre et Marie Curie (Paris VI) Programme de formation Master (M2) – IAD Intelligence Artificielle et Décision Objectifs de la thématique "Fouille de Données" L'explosion de l'information est un des phénomènes les plus marquants de ces dernières années. Les développements technologiques liés à l'internet, aux grandes bases de données réparties ou encore aux échanges pair à pair, à l'essor de domaines comme le multimédia ou la biologie génèrent une quantité gigantesque de données. Ces données sont de natures très diverses. Elles peuvent se présenter en vrac, sous forme semi-structurée ou être déjà organisées dans des bases de données. Elles peuvent posséder un fort contenu sémantique (sites webs, corpus textuels, vidéo, musique, etc) ou un faible degré d'interprétabilité humaine (données financières, séquences biologiques, paquets IP, etc). L'objet de la fouille de données et de la recherche d'information est de développer les outils permettant de traiter ces données à grande échelle, de les analyser, de les représenter de façon synthétique et exploitable. La problématique touche plusieurs domaines de l'intelligence artificielle ainsi que plusieurs grands domaines applicatifs. Au sein du laboratoire par exemple, les équipes de recherche développent leurs techniques pour des applications comme les moteurs de recherche, l'analyse d'informations textuelles, l'indexation de vidéos, le filtrage et l'extraction d'information sur le web, les interfaces stylo (type palm, tablet-PC), les entrepôts de données, le web sémantique, l'analyse d'usages. La thématique "Fouille intelligente de données" introduit aux principaux enjeux du domaine et fournit les outils, théoriques ou pratiques, permettant de les aborder. Parmi l'ensemble des problématiques de la fouille de données, nous avons choisi de focaliser le cours Recherche d'Information et Fouille de Données sur le traitement de données à fort contenu sémantique: texte, image et vidéo ainsi que le cas des données issues du web. On y aborde en particulier les problèmes de recherche et d'extraction d'information. Trois modules complètent cette initiation au domaine et fournissent des éclairages variés sur les outils et les problématiques. La problématique de la décision est abordée par le biais de la décision multicritère qui fournit un éclairage complémentaire aux grandes familles de techniques vues dans le tronc commun (apprentissage symbolique et numérique, modélisation du raisonnement). L'interaction utilisateur qui est centrale pour la fouille et la recherche d'information au travers des interfaces, de la visualisation des contenus et des données ainsi que par l'usage des différentes modalités d'interaction, est traitée dans le cours Interaction Homme - Machine. Les grands entrepôts de données et les BD réparties font l'objet de Base de Données et Web Avancées. Enfin, le module Modélisation et Simulation de Systèmes Complexes, organisé sous la forme de TD/TP, permet de se familiariser avec des méthodes et problèmes pratiques. Page 1/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Tronc Commun Apprentissage Symbolique Introduire à l'apprentissage machine et à ses applications tant à la fouille de données qu'à la découverte scientifique ou à la modélisation cognitive, tel est le but de ce cours destiné à des étudiants de seconde année de master qui s'orientent vers la recherche. Ce cours dispense les fondements informatiques et cognitifs requis pour tout étudiant qui souhaite poursuivre ultérieurement en thèse soit en intelligence artificielle, soit en reconnaissance des formes. D'ores et déjà il existe des techniques d'intelligence artificielle qui permettent aux machines de tirer partie de leurs propres expériences et, en conséquence, d'apprendre d'elles mêmes. Au coeur de toutes ces techniques, prennent place des mécanismes de simulation du raisonnement déductif, inductif et abductif. Ce cours sera d'abord consacré à la présentation de ces techniques, désormais classiques, un accent tout particulier étant mis sur l'induction. Nous aborderons ensuite la découverte qui sera envisagée tout autant sous l'angle de la reconstruction rationnelle, à l'aide d'ordinateurs, de découvertes scientifiques anciennes que sous l'angle de l'aide à la découverte dans des domaines encore inexplorés ou encore de la découverte par exploration dans les bases de données, appelée aussi fouille de données. Nous décrirons enfin, dans le détail, des applications de l'apprentissage à l'acquisition des connaissances, à l'anticipation de comportements et à la créativité. Bibliographie: • Cornuéjols A. & Miclet L.: Apprentissage artificiel: Concept et algorithmes. Eyrolles, 2002. • Michalski, R.S., Carbonell, J.G., Mitchell T.M.(Eds.), Machine Learning: An Artificial Intelligence Approach, Volume I et II, Morgan Kaufmann 1983 et 1986. • Mitchell T.: Machine Learning. McGraw Hill, 1997. • Natarajan B, Machine Learning: a Theoretical Approach, Morgan Kaufmann Publishers, 1991. Apprentissage Numérique Le cours vise à introduire les concepts fondamentaux de l'apprentissage numérique et les avancées majeures réalisées dans le domaine ces 15 dernières années. Il introduit les principes théoriques de base et les principales classes d'algorithmes. Le rôle de l'apprentissage automatique est illustré à partir de grands domaines d'application. Problèmes génériques et cadre statistique de l'apprentissage. Quantifier le but de l'apprentissage: la notion de risque théorique. Les principes d'induction. Optimisation et apprentissage: méthodes de gradient et algorithme EM. Grandes classes de méthodes pour l'apprentissage supervisé et non supervisé: Réseaux de neurones, méthodes à noyau – "machines à vecteurs support". Apprentissage et traitement de séquences: Modèles de Markov cachés. Réseaux de neurones récurrents. Apprentissage et traitement de données structurées. La généralisation. Notion de complexité d'un modèle, Dimension de Vapnik-Chervonenkis. Choix de modèles (régularisation et contrôle de la capacité effective, boosting, comités de Page 2/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org machines). Applications: les concepts introduits sont illustrés sur des grandes classes d'application (parole, image, recherche d'information, modélisation utilisateur, vision, etc). Méthodologie Statistique du Traitement de l'Information Donner les fondements méthodologiques en modélisation statistique pour le traitement de données, nécessaires à l'approche du traitement du signal et de l'image et à l'apprentissage numérique. Il s'agit d'un module associé aux deux modules théorique, « Traitement et Reconnaissance d'Images » et « Apprentissage Numérique ». Il s'agit d'une introduction à la mise en oeuvre des techniques de modélisation statistiques utilisées dans les domaines de l'apprentissage numérique et du traitement des images. Le module est constitué de travaux sur machine encadrés et de travaux dirigés. Les TP permettront de se familiariser avec le développement de chaînes complètes pour le traitement de données réelles (texte, image, données web, etc). Ce module est couplé aux deux modules « Traitement et Reconnaissance d'Images » et « Apprentissage Numérique ». Traitement et Reconnaissance d'Images Ce cours donne tout d'abord des bases élémentaires indispensables à la manipulation des images dans les systèmes de gestion de l'information multimédia. Une technique spécifique du traitement de l'image, la morphologie mathématique, est présentée plus en détails, à titre d'exemple de traitement dédié aux spécificités de l'image. Les techniques de base de reconnaissance des formes sont ensuite présentées sur des exemples empruntés au monde de l'imagerie. Enfin une ouverture est donnée sur les principales applications de ces techniques au sein de la société. Elle s'accompagne d'une introduction aux problématiques (détection, reconnaissance, filtrage, analyse) qui seront développées dans les cours ultérieurs et permet ainsi de composer un parcours adapté parmi ceux qui sont proposés. Bibliographie: • "Le traitement des images", édité par H. Maître, Hermès, Paris, 2003. • "Diagnostic et reconnaissance des formes", B. Dubuisson}, Hermès, Paris, 1990. Modélisation du Raisonnement Ce cours a pour objectif d'étudier les principales approches développées en Intelligence Artificielle pour représenter les connaissances et pour modéliser des raisonnements les exploitant, notamment pour ce qui concerne les connaissances incertaines, imprécises, incomplètes et/ou sujettes à révision. Différents cadres de représentation de connaissances "imparfaites" et de modélisation de raisonnements associés sont présentés, tant numériques (approches probabilistes, logique floue, théorie des possibilités, théorie de l'évidence) que symboliques (raisonnements et logiques non monotones, systèmes de maintien de cohérence, logiques modales). Des exemples d'applications sont donnés. Page 3/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Modèles Décisionnels L'objectif de cette unité d'enseignement est d'exposer de manière approfondie les modèles classiques de décision dans les situations de base sur des espaces de choix multidimensionnels: décision dans l'incertain, décision multi-attributs. Discuter du bien-fondé de ces modèles dans divers contextes: représentation et compréhension des comportements observés (point de vue descriptif); aide à la décision (point de vue prescriptif); conception d'agents décisionnels artificiels (point de vue normatif). Proposer des modèles alternatifs (non probabilistes, non linéaires, non transitifs). Présenter des applications mettant en évidence l'intérêt de ces modèles dans des situations décisionnelles concrètes. • Modèle linéaire de décision dans l'incertain: Probabilités subjectives, théorie de l'utilité linéaire, critère de l'utilité espérée, attitude vis-à-vis du risque. Arbres de décision, détermination de stratégies optimales, valeur de l'information. • Modèles non linéaires dans l'incertain: modèles probabilistes non linéaires, utilité dépendant du rang ; modèles non probabilistes: capacités, utilité espérée à la Choquet. • Décision multi-attributs: utilité additive, conditions d'existence (indépendance), cardinalité, modèles graphiques pour l'élicitation des utilités. Outils de Bases de Données pour l'Intelligence Artificielle Ce cours présente un panorama des nouveaux modèles et outils de bases de données, pouvant faire appel à des techniques de l'intelligence artificielle. Ces modèles et outils sont notamment utilisés pour le développement d'applications autour du Web, d'applications liées à l'IA en général. Ce cours a pour objectif de présenter les modèles et outils spécifiques à des domaines particuliers utilisés dans des applications bases de données, tels que le spatio-temporel (bases de données géographiques), les versions, les médiateurs, le Web sémantique, les techniques d'interrogation intelligente. Bibliographie: • S. Abiteboul, P. Buneman, D. Suciu: Data on teh Web: From relations to Semi- structured Data and XML, Morgan Kaufmann, 1999. • Doucet, G. Jomier: Bases de données et internet: modèles, langages, système, Traité IC2, Hermès, 2001. Page 4/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Bases de Données Réparties Avancées L'objectif est de présenter différentes approches de modélisation et de gestion de données réparties développées autour des technologies XML et bases de données réparties. Les principaux thèmes arbordés dans cette UE sont: • Bases de Données XML • Systèmes P2P (pair à pair) de gestion de données • Gestion de transactions avancée • Réplication de données Bibliographie: • S. Abiteboul, D. Suciu, P. Buneman, "Data on the Web: From Relations to Semistructured Data and XML", ed. Morgan Kaufmann. • A.B. Chaudhri, A. Rashid, R. Zicari, "XML Data Management: Native XML and XML- Enabled Database Systems", ed. Addison-Wesley. • Oram, "Peer-to-Peer: Harnessing the Power of Disruptive Technologies", ed. O'Reilly & Associates. Insertion Professionnelle L'objectif de ce module est d'apporter aux étudiants des savoirs et des savoir-faire leur permettant de trouver un emploi et de s'insérer dans la vie professionnelle. La diversification des emplois de l'informatique nécessite, pour ceux qui sont appelés à les occuper, une bonne connaissance de l'organisation et du fonctionnement des entreprises ainsi que des différents métiers. L'informaticien doit aussi avoir des connaissances dans les domaines du droit du travail, des contrats, de la propriété industrielle et bien maîtriser les techniques et les démarches de recherche d'emploi. Les connaissances et compétences acquises dans ce module peuvent être utilement complétées par celles qui sont dispensées dans "Aspects culturels et professionnels de l'informatique". Les formes traditionnelles d'organisation et de fonctionnement des entreprises. Les nouvelles formes d'organisation et de fonctionnement des entreprises. Le droit du travail. Le contrat de travail des informaticiens et les contrats commerciaux. L'évolution des métiers de l'informatique et du marché du travail. La protection de la propriété industrielle. Les procédures de recherche d'emploi: recherche et décryptage des annonces, lettre de motivation, rédaction d'un CV, préparation à l'entretien individuel, préparation à l'entretien de groupe. Page 5/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Modules Approfondis Recherche d'Information et Fouille de Données Ce cours est une introduction aux domaines de l'extraction de connaissances à partir de données (data mining) et de la recherche d'information. Ces deux domaines partagent à la fois des outils et des problématiques communes. Tous deux visent à découvrir dans de grandes masses de données des informations pertinentes pour une requête ou un besoin d'information exprimés par l'utilisateur. Ces domaines font appel à des techniques qui ont été développées dans plusieurs des cours, il s'agit de l'apprentissage numérique et symbolique, du traitement de l'incertain, des statistiques, et des bases de données. Le cours replace les méthodes déjà introduites dans une perspective applicative propre à ces deux domaines de recherche, et développe de nouveaux aspects spécifiques à l'extraction de connaissances et la recherche d'information. Plusieurs exemples, issus de problématiques de fouille et de recherche d'information issus du monde réel viendront illustrer les approches introduites. Les principaux domaines d'application seront pris dans le Text mining, l'extraction de connaissances pour la personnalisation utilisateur, le multimédia et le webmining. Interaction Homme - Machine L'usage de systèmes interactifs ne cessant de s'accroître, il devient nécessaire d'améliorer et de faciliter l'interaction homme-machine. Le développement de nouveaux outils logiciels, langages et dispositifs d'interaction ainsi que la prise en compte des facteurs humains permettent de répondre aux besoins des utilisateurs. Ce cours a pour objectif d'initier les étudiants à la conception et réalisation de systèmes interactifs et de présenter les évolutions récentes dans le domaine des IHM du point de vue des méthodes et des réalisations. • La première partie du cours vise à enseigner les connaissances qui forment la base du domaine de l'interaction homme-machine, elle porte sur: les méthodes de conception, les interfaces graphiques et les architectures logicielles. • Dans une seconde partie, l'enseignement sera plus particulièrement centré sur les méthodes de visualisation avancées et sur l'usage des modalités de la communication humaine dans l'interaction homme-machine. Base de Données et Web Avancées Ce cours est destiné aux étudiants souhaitant acquérir la maîtrise d'outils utiles au développement d'applications alliant les techniques de l'intelligence artificielle à celles des bases de données, telle que la fouille de données, l'analyse en ligne (OLAP), la découverte de connaissances, l'apprentissage. L'accent est volontairement mis sur les aspects bases de données utiles pour ce type d'applications. Ce cours présente les entrepôts de données, les bases de données multidimensionnelles, et les outils d'analyse en ligne (OLAP) permettant de les utiliser et de les manipuler. On utilisera notamment les outils proposés par le SGBD Oracle (Intermedia, Express). Page 6/7
Duc NGUYEN Formation M2 - IAD http://ducnm.home-page.org Modélisation et Simulation de Systèmes Complexes Présenter les principaux outils de modélisation et simulation des systèmes complexes en Ecologie d'une part (fonctionnement des écosystèmes), et en Biologie et Psychologie (modèles d'inspiration neurobiologique et psychologique pour la décision individuelle et collective). Un système complexe peut être défini comme un système composé de nombreux éléments différenciés interagissant entre eux de manière non triviale (interactions non-linéaires, boucles de rétroaction, etc.). Un système complexe se caractérise par l'émergence au niveau global de propriétés nouvelles, non observables au niveau des éléments constitutifs, et par une dynamique de fonctionnement global difficilement prédictible à partir de l'observation et de l'analyse des interactions élémentaires. L'objectif de ce module est de présenter les principaux outils de modélisation et simulation des systèmes complexes (systèmes dynamiques, modèles neuronaux de Grossberg, systèmes multi-agents, agents adaptatifs) en Ecologie d'une part (fonctionnement des écosystèmes), et en Biologie et Psychologie Sociale (modèles d'inspiration neurobiologique et psychologique pour la décision individuelle et collective). Ce module donnera l'occasion d'exposer des cas pratiques et réalistes: microbiologie du sol, dynamique de populations, décisions boursières, coordination spatiale adaptative de groupes d'agents, etc. Page 7/7
Vous pouvez aussi lire