Programme de formation Master (M2) - IAD Intelligence Artificielle et Décision

La page est créée Arnaud Guichard
 
CONTINUER À LIRE
Duc NGUYEN                                                                 Formation M2 - IAD
http://ducnm.home-page.org

               Université Pierre et Marie Curie (Paris VI)

                      Programme de formation
                         Master (M2) – IAD
                 Intelligence Artificielle et Décision

                 Objectifs de la thématique "Fouille de Données"

L'explosion de l'information est un des phénomènes les plus marquants de ces dernières
années. Les développements technologiques liés à l'internet, aux grandes bases de données
réparties ou encore aux échanges pair à pair, à l'essor de domaines comme le multimédia ou la
biologie génèrent une quantité gigantesque de données. Ces données sont de natures très
diverses. Elles peuvent se présenter en vrac, sous forme semi-structurée ou être déjà
organisées dans des bases de données. Elles peuvent posséder un fort contenu sémantique
(sites webs, corpus textuels, vidéo, musique, etc) ou un faible degré d'interprétabilité humaine
(données financières, séquences biologiques, paquets IP, etc). L'objet de la fouille de données
et de la recherche d'information est de développer les outils permettant de traiter ces données
à grande échelle, de les analyser, de les représenter de façon synthétique et exploitable. La
problématique touche plusieurs domaines de l'intelligence artificielle ainsi que plusieurs
grands domaines applicatifs. Au sein du laboratoire par exemple, les équipes de recherche
développent leurs techniques pour des applications comme les moteurs de recherche, l'analyse
d'informations textuelles, l'indexation de vidéos, le filtrage et l'extraction d'information sur le
web, les interfaces stylo (type palm, tablet-PC), les entrepôts de données, le web sémantique,
l'analyse d'usages. La thématique "Fouille intelligente de données" introduit aux principaux
enjeux du domaine et fournit les outils, théoriques ou pratiques, permettant de les aborder.

Parmi l'ensemble des problématiques de la fouille de données, nous avons choisi de focaliser
le cours Recherche d'Information et Fouille de Données sur le traitement de données à fort
contenu sémantique: texte, image et vidéo ainsi que le cas des données issues du web. On y
aborde en particulier les problèmes de recherche et d'extraction d'information. Trois modules
complètent cette initiation au domaine et fournissent des éclairages variés sur les outils et les
problématiques. La problématique de la décision est abordée par le biais de la décision
multicritère qui fournit un éclairage complémentaire aux grandes familles de techniques vues
dans le tronc commun (apprentissage symbolique et numérique, modélisation du
raisonnement). L'interaction utilisateur qui est centrale pour la fouille et la recherche
d'information au travers des interfaces, de la visualisation des contenus et des données ainsi
que par l'usage des différentes modalités d'interaction, est traitée dans le cours Interaction
Homme - Machine. Les grands entrepôts de données et les BD réparties font l'objet de Base
de Données et Web Avancées. Enfin, le module Modélisation et Simulation de Systèmes
Complexes, organisé sous la forme de TD/TP, permet de se familiariser avec des méthodes et
problèmes pratiques.

                                            Page 1/7
Duc NGUYEN                                                               Formation M2 - IAD
http://ducnm.home-page.org

Tronc Commun
                               Apprentissage Symbolique

Introduire à l'apprentissage machine et à ses applications tant à la fouille de données qu'à la
découverte scientifique ou à la modélisation cognitive, tel est le but de ce cours destiné à des
étudiants de seconde année de master qui s'orientent vers la recherche. Ce cours dispense les
fondements informatiques et cognitifs requis pour tout étudiant qui souhaite poursuivre
ultérieurement en thèse soit en intelligence artificielle, soit en reconnaissance des formes.

D'ores et déjà il existe des techniques d'intelligence artificielle qui permettent aux machines
de tirer partie de leurs propres expériences et, en conséquence, d'apprendre d'elles mêmes. Au
coeur de toutes ces techniques, prennent place des mécanismes de simulation du raisonnement
déductif, inductif et abductif. Ce cours sera d'abord consacré à la présentation de ces
techniques, désormais classiques, un accent tout particulier étant mis sur l'induction.

Nous aborderons ensuite la découverte qui sera envisagée tout autant sous l'angle de la
reconstruction rationnelle, à l'aide d'ordinateurs, de découvertes scientifiques anciennes que
sous l'angle de l'aide à la découverte dans des domaines encore inexplorés ou encore de la
découverte par exploration dans les bases de données, appelée aussi fouille de données.

Nous décrirons enfin, dans le détail, des applications de l'apprentissage à l'acquisition des
connaissances, à l'anticipation de comportements et à la créativité.

Bibliographie:

   •   Cornuéjols A. & Miclet L.: Apprentissage artificiel: Concept et algorithmes. Eyrolles,
       2002.
   •   Michalski, R.S., Carbonell, J.G., Mitchell T.M.(Eds.), Machine Learning: An Artificial
       Intelligence Approach, Volume I et II, Morgan Kaufmann 1983 et 1986.
   •   Mitchell T.: Machine Learning. McGraw Hill, 1997.
   •   Natarajan B, Machine Learning: a Theoretical Approach, Morgan Kaufmann
       Publishers, 1991.

                               Apprentissage Numérique

Le cours vise à introduire les concepts fondamentaux de l'apprentissage numérique et les
avancées majeures réalisées dans le domaine ces 15 dernières années. Il introduit les principes
théoriques de base et les principales classes d'algorithmes. Le rôle de l'apprentissage
automatique est illustré à partir de grands domaines d'application.

Problèmes génériques et cadre statistique de l'apprentissage. Quantifier le but de
l'apprentissage: la notion de risque théorique. Les principes d'induction. Optimisation et
apprentissage: méthodes de gradient et algorithme EM. Grandes classes de méthodes pour
l'apprentissage supervisé et non supervisé: Réseaux de neurones, méthodes à noyau –
"machines à vecteurs support". Apprentissage et traitement de séquences: Modèles de Markov
cachés. Réseaux de neurones récurrents. Apprentissage et traitement de données structurées.
La généralisation. Notion de complexité d'un modèle, Dimension de Vapnik-Chervonenkis.
Choix de modèles (régularisation et contrôle de la capacité effective, boosting, comités de

                                           Page 2/7
Duc NGUYEN                                                             Formation M2 - IAD
http://ducnm.home-page.org
machines). Applications: les concepts introduits sont illustrés sur des grandes classes
d'application (parole, image, recherche d'information, modélisation utilisateur, vision, etc).

           Méthodologie Statistique du Traitement de l'Information

Donner les fondements méthodologiques en modélisation statistique pour le traitement de
données, nécessaires à l'approche du traitement du signal et de l'image et à l'apprentissage
numérique. Il s'agit d'un module associé aux deux modules théorique, « Traitement et
Reconnaissance d'Images » et « Apprentissage Numérique ».

Il s'agit d'une introduction à la mise en oeuvre des techniques de modélisation statistiques
utilisées dans les domaines de l'apprentissage numérique et du traitement des images. Le
module est constitué de travaux sur machine encadrés et de travaux dirigés. Les TP
permettront de se familiariser avec le développement de chaînes complètes pour le traitement
de données réelles (texte, image, données web, etc). Ce module est couplé aux deux modules
« Traitement et Reconnaissance d'Images » et « Apprentissage Numérique ».

                      Traitement et Reconnaissance d'Images

Ce cours donne tout d'abord des bases élémentaires indispensables à la manipulation des
images dans les systèmes de gestion de l'information multimédia. Une technique spécifique
du traitement de l'image, la morphologie mathématique, est présentée plus en détails, à titre
d'exemple de traitement dédié aux spécificités de l'image. Les techniques de base de
reconnaissance des formes sont ensuite présentées sur des exemples empruntés au monde de
l'imagerie. Enfin une ouverture est donnée sur les principales applications de ces techniques
au sein de la société. Elle s'accompagne d'une introduction aux problématiques (détection,
reconnaissance, filtrage, analyse) qui seront développées dans les cours ultérieurs et permet
ainsi de composer un parcours adapté parmi ceux qui sont proposés.

Bibliographie:

   •   "Le traitement des images", édité par H. Maître, Hermès, Paris, 2003.
   •   "Diagnostic et reconnaissance des formes", B. Dubuisson}, Hermès, Paris, 1990.

                           Modélisation du Raisonnement

Ce cours a pour objectif d'étudier les principales approches développées en Intelligence
Artificielle pour représenter les connaissances et pour modéliser des raisonnements les
exploitant, notamment pour ce qui concerne les connaissances incertaines, imprécises,
incomplètes et/ou sujettes à révision.

Différents cadres de représentation de connaissances "imparfaites" et de modélisation de
raisonnements associés sont présentés, tant numériques (approches probabilistes, logique
floue, théorie des possibilités, théorie de l'évidence) que symboliques (raisonnements et
logiques non monotones, systèmes de maintien de cohérence, logiques modales). Des
exemples d'applications sont donnés.

                                          Page 3/7
Duc NGUYEN                                                                Formation M2 - IAD
http://ducnm.home-page.org
                                  Modèles Décisionnels

L'objectif de cette unité d'enseignement est d'exposer de manière approfondie les modèles
classiques de décision dans les situations de base sur des espaces de choix
multidimensionnels: décision dans l'incertain, décision multi-attributs. Discuter du bien-fondé
de ces modèles dans divers contextes: représentation et compréhension des comportements
observés (point de vue descriptif); aide à la décision (point de vue prescriptif); conception
d'agents décisionnels artificiels (point de vue normatif). Proposer des modèles alternatifs (non
probabilistes, non linéaires, non transitifs). Présenter des applications mettant en évidence
l'intérêt de ces modèles dans des situations décisionnelles concrètes.

   •   Modèle linéaire de décision dans l'incertain: Probabilités subjectives, théorie de
       l'utilité linéaire, critère de l'utilité espérée, attitude vis-à-vis du risque. Arbres de
       décision, détermination de stratégies optimales, valeur de l'information.
   •   Modèles non linéaires dans l'incertain: modèles probabilistes non linéaires, utilité
       dépendant du rang ; modèles non probabilistes: capacités, utilité espérée à la Choquet.
   •   Décision multi-attributs: utilité additive, conditions d'existence (indépendance),
       cardinalité, modèles graphiques pour l'élicitation des utilités.

           Outils de Bases de Données pour l'Intelligence Artificielle

Ce cours présente un panorama des nouveaux modèles et outils de bases de données, pouvant
faire appel à des techniques de l'intelligence artificielle. Ces modèles et outils sont notamment
utilisés pour le développement d'applications autour du Web, d'applications liées à l'IA en
général.

Ce cours a pour objectif de présenter les modèles et outils spécifiques à des domaines
particuliers utilisés dans des applications bases de données, tels que le spatio-temporel (bases
de données géographiques), les versions, les médiateurs, le Web sémantique, les techniques
d'interrogation intelligente.

Bibliographie:

   •   S. Abiteboul, P. Buneman, D. Suciu: Data on teh Web: From relations to Semi-
       structured Data and XML, Morgan Kaufmann, 1999.
   •   Doucet, G. Jomier: Bases de données et internet: modèles, langages, système, Traité
       IC2, Hermès, 2001.

                                           Page 4/7
Duc NGUYEN                                                              Formation M2 - IAD
http://ducnm.home-page.org
                       Bases de Données Réparties Avancées

L'objectif est de présenter différentes approches de modélisation et de gestion de données
réparties développées autour des technologies XML et bases de données réparties.

Les principaux thèmes arbordés dans cette UE sont:

   •   Bases de Données XML
   •   Systèmes P2P (pair à pair) de gestion de données
   •   Gestion de transactions avancée
   •   Réplication de données

Bibliographie:

   •   S. Abiteboul, D. Suciu, P. Buneman, "Data on the Web: From Relations to
       Semistructured Data and XML", ed. Morgan Kaufmann.
   •   A.B. Chaudhri, A. Rashid, R. Zicari, "XML Data Management: Native XML and XML-
       Enabled Database Systems", ed. Addison-Wesley.
   •   Oram, "Peer-to-Peer: Harnessing the Power of Disruptive Technologies", ed. O'Reilly
       & Associates.

                               Insertion Professionnelle

L'objectif de ce module est d'apporter aux étudiants des savoirs et des savoir-faire leur
permettant de trouver un emploi et de s'insérer dans la vie professionnelle. La diversification
des emplois de l'informatique nécessite, pour ceux qui sont appelés à les occuper, une bonne
connaissance de l'organisation et du fonctionnement des entreprises ainsi que des différents
métiers. L'informaticien doit aussi avoir des connaissances dans les domaines du droit du
travail, des contrats, de la propriété industrielle et bien maîtriser les techniques et les
démarches de recherche d'emploi. Les connaissances et compétences acquises dans ce module
peuvent être utilement complétées par celles qui sont dispensées dans "Aspects culturels et
professionnels de l'informatique".

Les formes traditionnelles d'organisation et de fonctionnement des entreprises. Les nouvelles
formes d'organisation et de fonctionnement des entreprises. Le droit du travail. Le contrat de
travail des informaticiens et les contrats commerciaux. L'évolution des métiers de
l'informatique et du marché du travail. La protection de la propriété industrielle. Les
procédures de recherche d'emploi: recherche et décryptage des annonces, lettre de motivation,
rédaction d'un CV, préparation à l'entretien individuel, préparation à l'entretien de groupe.

                                          Page 5/7
Duc NGUYEN                                                                Formation M2 - IAD
http://ducnm.home-page.org

Modules Approfondis
                  Recherche d'Information et Fouille de Données

Ce cours est une introduction aux domaines de l'extraction de connaissances à partir de
données (data mining) et de la recherche d'information. Ces deux domaines partagent à la fois
des outils et des problématiques communes. Tous deux visent à découvrir dans de grandes
masses de données des informations pertinentes pour une requête ou un besoin d'information
exprimés par l'utilisateur.

Ces domaines font appel à des techniques qui ont été développées dans plusieurs des cours, il
s'agit de l'apprentissage numérique et symbolique, du traitement de l'incertain, des
statistiques, et des bases de données. Le cours replace les méthodes déjà introduites dans une
perspective applicative propre à ces deux domaines de recherche, et développe de nouveaux
aspects spécifiques à l'extraction de connaissances et la recherche d'information. Plusieurs
exemples, issus de problématiques de fouille et de recherche d'information issus du monde
réel viendront illustrer les approches introduites. Les principaux domaines d'application seront
pris dans le Text mining, l'extraction de connaissances pour la personnalisation utilisateur, le
multimédia et le webmining.

                             Interaction Homme - Machine

L'usage de systèmes interactifs ne cessant de s'accroître, il devient nécessaire d'améliorer et de
faciliter l'interaction homme-machine. Le développement de nouveaux outils logiciels,
langages et dispositifs d'interaction ainsi que la prise en compte des facteurs humains
permettent de répondre aux besoins des utilisateurs. Ce cours a pour objectif d'initier les
étudiants à la conception et réalisation de systèmes interactifs et de présenter les évolutions
récentes dans le domaine des IHM du point de vue des méthodes et des réalisations.

   •   La première partie du cours vise à enseigner les connaissances qui forment la base du
       domaine de l'interaction homme-machine, elle porte sur: les méthodes de conception,
       les interfaces graphiques et les architectures logicielles.
   •   Dans une seconde partie, l'enseignement sera plus particulièrement centré sur les
       méthodes de visualisation avancées et sur l'usage des modalités de la communication
       humaine dans l'interaction homme-machine.

                          Base de Données et Web Avancées

Ce cours est destiné aux étudiants souhaitant acquérir la maîtrise d'outils utiles au
développement d'applications alliant les techniques de l'intelligence artificielle à celles des
bases de données, telle que la fouille de données, l'analyse en ligne (OLAP), la découverte de
connaissances, l'apprentissage. L'accent est volontairement mis sur les aspects bases de
données utiles pour ce type d'applications.

Ce cours présente les entrepôts de données, les bases de données multidimensionnelles, et les
outils d'analyse en ligne (OLAP) permettant de les utiliser et de les manipuler. On utilisera
notamment les outils proposés par le SGBD Oracle (Intermedia, Express).

                                            Page 6/7
Duc NGUYEN                                                                Formation M2 - IAD
http://ducnm.home-page.org
               Modélisation et Simulation de Systèmes Complexes

Présenter les principaux outils de modélisation et simulation des systèmes complexes en
Ecologie d'une part (fonctionnement des écosystèmes), et en Biologie et Psychologie
(modèles d'inspiration neurobiologique et psychologique pour la décision individuelle et
collective).

Un système complexe peut être défini comme un système composé de nombreux éléments
différenciés interagissant entre eux de manière non triviale (interactions non-linéaires, boucles
de rétroaction, etc.). Un système complexe se caractérise par l'émergence au niveau global de
propriétés nouvelles, non observables au niveau des éléments constitutifs, et par une
dynamique de fonctionnement global difficilement prédictible à partir de l'observation et de
l'analyse des interactions élémentaires. L'objectif de ce module est de présenter les principaux
outils de modélisation et simulation des systèmes complexes (systèmes dynamiques, modèles
neuronaux de Grossberg, systèmes multi-agents, agents adaptatifs) en Ecologie d'une part
(fonctionnement des écosystèmes), et en Biologie et Psychologie Sociale (modèles
d'inspiration neurobiologique et psychologique pour la décision individuelle et collective). Ce
module donnera l'occasion d'exposer des cas pratiques et réalistes: microbiologie du sol,
dynamique de populations, décisions boursières, coordination spatiale adaptative de groupes
d'agents, etc.

                                           Page 7/7
Vous pouvez aussi lire