Apprentissage Automatique

 
CONTINUER À LIRE
Apprentissage
                                       Automatique

             Introduction-I

             jean-francois.bonastre@univ-avignon.fr
             www.lia.univ-avignon.fr

Définition ? (Wikipedia)
  L'apprentissage automatique (machine-learning en
  anglais) est un des champs d'étude de l'intelligence
  artificielle.
  L'apprentissage automatique fait référence au
  développement, à l'analyse et à l'implémentation de
  méthodes qui permettent à une machine (au sens large)
  d'évoluer grâce à un processus d'apprentissage, et ainsi
  de remplir des tâches qu'il est difficile ou impossible de
  remplir par des moyens algorithmiques plus classiques.

                          J.F. Bonastre               2

                                                               1
Qu’est ce que
« l’apprentissage automatique » ?

   ?

   Extraire de l’information à partir de données
  (corpus based approaches)

                              J.F. Bonastre                        3

Définition     (http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html)

  Apprentissage à partir d’exemples
   „   Classification supervisée
   Lien Apprentissage – Classification

                              J.F. Bonastre                        4

                                                                                   2
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)

  Apprentissage automatique – un carrefour

                                  J.F. Bonastre                         5

Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)

    Vision Statistique                            Vision Intelligence artificielle
      „   But = apprendre des                      „   But : imiter ou reproduire des
          fonctions à partir de données                comportements intelligents
      „   Fonctions complexes vs non                   “naturels”
          paramétriques                            „   source de problèmes
      „   Dimensionnalité de l’espace                  “classiques” (reconnaissance
      „   Taille des corpus                            d’écriture, parole, etc.)
      „   Inspiration                              „   différences
                                                        Š approche inductive –
                                                           apprentissage a partir des
                                                           exemples
                                                   „   approche probabiliste

                                  J.F. Bonastre                         6

                                                                                        3
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)

    Théorie des probabilités                      Sciences cognitives,
      „   outils d’analyse de                     neurosciences
          modèles théoriques                       „   Sources d’inspiration
    Théorie de l’optimisation                     Théorie de l’information,
      „   outils algorithmiques                   traitement du signal
                                                   „   Problèmes et
                                                       méthodologies partagés

                                  J.F. Bonastre                       7

Types d’algorithmes (Wikipedia)
    L'apprentissage supervisé : un expert (ou
    oracle) est employé pour étiqueter
    correctement des exemples. L'apprenant doit
    alors trouver ou approximer la fonction qui
    permet d'affecter la bonne étiquette à ces
    exemples.
    L'apprentissage non-supervisé
    L'apprentissage par renforcement

                                  J.F. Bonastre                       8

                                                                                4
Quelques algos (Wikipedia)
  les machines à vecteur de support
  le boosting
  les réseaux de neurones pour un apprentissage supervisé ou non-
  supervisé
  la méthode des k plus proches voisins pour un apprentissage
  supervisé
  les arbres de décision
  les méthodes statistiques comme le modèle de mixture gaussienne
  la régression logistique
  l'analyse discriminante linéaire
  la logique floue
  les algorithmes génétiques et la programmation génétique

                                J.F. Bonastre              9

A quoi ça sert ?
   ?
  Analyse financière : prévision d'évolution de marchés
  Marketing : établir un profil client, mailing
  Banque : attribution de prêts
  Médecine : aide au diagnostic,
  Télecom : détection de fraudes.
  Biométrie
  Robotique
  Reconnaissance de forme
   „   OCR
   „   Transcription de la parole
   „   Compréhension/Dialogue
  Recherche d’information (moteur internet, moteur multimédia)

                                J.F. Bonastre             10

                                                                    5
Un exemple

Un exemple d’outil                     (1)

 Navigation dans des bases de
 données audio
  „   Orientation « moteur de
      recherche »
  „   Présentation synthétique de
      l’information

 Technologies développées au
 LIA
  „   Travail (très) coopératif
  „   Nombreuses thèses
       Š dont celle de Benoît Favre
          (mars 2007) en collaboration
       Š avec Thales Communications

                                  J.F. Bonastre       12

                                                               6
Un exemple d’outil                      (2)

  Des données (~ 100h)
  Un besoin d’information
  (« Chirac »)
  Une réponse sous forme d’un
  résumé audio par
  concaténation
  Problèmes
   „   Perte du contexte
   „   Difficulté pour naviguer
   „   Nécessité de connaître
       précisément l’objectif
  Solution ? Frise

                                  J.F. Bonastre   13

Un exemple d’outil                (3)

Annexes

                                  J.F. Bonastre   14

                                                       7
Un exemple d’outil      (4)

Commentaires

   ~100 heures de parole (base publique, ESTER)
   „   Peu de couverture temporelle (les données sont
       espacées sur une longue période)
   „   Etendu à 1700 heures. Pas de soucis hormis
       l’interface (temps d’accès aux données audio)
   100 % automatique
   Analyse sémantique réalisée sur les données
  « le monde », ~ 500 millions de mots
   En ligne (http://pc-favre.iup.univ-avignon.fr:7777/)

                        J.F. Bonastre          15

Un exemple d’outil      (5)

Limites

   Démonstrateur !
   L'identité du locuteur n'est pas encore ajoutée
  au niveau des traitements sémantiques
   Id pour des marqueurs liés à la parole
   (« émotions »/style, taux d'interaction,...)
   Ajout de « curseurs »
   „   couverture thématique
   „   nouveauté

                        J.F. Bonastre          16

                                                          8
Technologies

Technologies         (1)
Paramétrisation et Séparation en classes/locuteurs…

    Représentation du signal
   (paramétrisation)
        Représentation temps-
                                                Traitement du signal
    „
        fréquence
    „   Atténuation des bruits,
        normalisations
   Traitements
   « acoustiques »
    „   Segmentation en classes               Apprentissage automatique
    „   Segmentation en locuteurs               Techniques statistiques
    „   Identification/Suivi des
        locuteurs

                              J.F. Bonastre                18

                                                                          9
Technologies (2)
  Apprentissage automatique « statistique »

                                                        GMM
   Estimateur de densité
à partir d’exemples (et connaissances)
      -> modèle de la distribution

                                         Mélange de Gaussiennes
                                                 Multidimensionnelles
                                                 Algo standards
                                                 (EM, MAP…)

                                    J.F. Bonastre                       19

  Technologies (3)
  Moteur de reconnaissance de la parole
        Modélisation acoustique                     Apprentissage automatique
         „   Modèles initiaux                         Techniques statistiques
             (par condition)                             + connaissances
         „   Adaptation au locuteur
         „   Adaptation aux conditions
       Modélisation linguistique
       Algorithme de décodage
         „   Graphe d’hypothèses très,                     Algorithmes de
             trop large                                   parcours efficaces
                                                         (Token, Stack, A*…)

                                    J.F. Bonastre                       20

                                                                                10
Technologies (4)
Modélisation acoustique
   Passer du « statique au
  dynamique »                           HMM (Modèles de Markov Cachés)
                                            Transitions (probabilités)
                                           Etats (p. émission -> GMM)
                                                 Viterbi, Baum-Welch
   Mot ->Modèles composés
                                              Lexique de mots
                                              1 mot = suite de phone
                                              1 phone = 1 phonème en contexte
                                                      = 1 HMM 3 états
       I           U          F
  Connaissances                     Choix des triphones (contextes manquants)
                                    Constitution du lexique (mots composés…)

                              J.F. Bonastre                    21

Technologies (5)
Apprentissage automatique « statistique »
   Modèles de langage
   „   Ngram : probabilité de i
                                                Difficultés :
       connaissant i-1, …, i-n                          * backoff
                                                        * corpus
       Moti-2 Moti-1 Moti
                                                        * lexique
   „   Nclass : probabilité de la                       * nettoyage
       classe i connaissant les                         * noms propres
       classes i-1, … i-n
           Š Mot -> classe                              * évolutions
           Š Ngram                                 Exemple présenté :
   Grammaires spécifiques,                                 * 3 gram
  règles, combinaison…                                     * 20 M transcriptions
                                                           * 550 M « le monde »

                              J.F. Bonastre                    22

                                                                                   11
Technologies (6)
Segmentation en phase, Entités Nommées
      Segmentation                                       Entités Nommées
 Conditional Random Fields
                                                    Noms de personnes,
     Informations hétérogènes
 „
                                                    organisations, lieux
 „   Linguistique (Transcription,
     Étiquettes syntaxiques)
                                                    Dates et quantités numériques
 „   Prosodiques (Pauses, Pente                     Stratégie mixte
     de f0, Tours de parole)                         „   Grammaires locales
                                                     „   Modèles N-gram

                                    J.F. Bonastre                     23

Segmentation en phrases – CRF (CRF++)

     Mots (bigram)
     Etiquetage morphosyntaxique (LIA_TAG)
     Changement de locuteurs
     Prosodie
      „   Fin de segments
      „   Pause avant, entre les 2 mots
      „   Fo (sur 3 horizons t.)

                                    J.F. Bonastre                     24

                                                                                    12
Technologies (7)
Extraction de connaissance, résumé
  Représentation sous forme                       Maximal Marginal Relevance
  vectorielle (~dim. 65 k)                         „   Sélection des phrases
  Latent Semantic Analysis                              Š Maximum de couverture
   „   Représentation conceptuelle                      Š Minimum de redondance
        Š Projection des phases dans               „   Séparation des calculs
           un espace conceptuel                         Š Intérêt général des
        Š Fonction des cooccurrences                       phrases/mots (pré-calculé)
        Š Rend compte de la                             Š Dépendant de la requête
           « proximité sémantique »
   „   Réduction de l’espace (SVD)
        Š Création de « concepts »
        Š Réponse « temps réel »
        Š Espace pré-appris

                                  J.F. Bonastre                        25

Maximal Margin Relevance (MMR)
   Objectifs
   „   Sélection de phrases suivant un besoin
   „   Maximiser l’information, minimiser la redondance
   „   Adaptation au contexte (efficacité et interactivité)
        Š Informations sur la forme, précalculées
        Š Informations venant du besoin utilisateur, calculées à la
           demande
   Appliquée dans un « espace sémantique »

                                  J.F. Bonastre                        26

                                                                                        13
L’espace sémantique
VSM - Modèle algébrique/vectoriel classique

  Requêtes et candidats sont exprimés sous
  forme d’un vecteur
  Une dimension = 1 mot du vocabulaire
  Une valeur = nb occurrences du mot
  dans le document concerné
  En fait, Inverse Document Frequency

                         J.F. Bonastre          27

L’espace sémantique
VSM - Modèle algébrique/vectoriel classique

   Modèle « sac de mots »
   „   Ne prend pas en compte l’ordre des mots
   „   Ne prend pas en compte les corrélations inter mots
   Evolution vers GVSM
   „   Basé sur les corrélations inter mots
   „   Complexe pour peu d’amélioration

                         J.F. Bonastre          28

                                                            14
L’espace sémantique
Latent Semantic Analysis
    Même principe que GVSM (corrélations)
    „   Le point de départ est une matrice de cooccurrence
    „   Case i,j donne le nombre de cooccurrences des mots
        i et j dans un contexte donné
    „   Le contexte ? Phrase, document, fenêtre…
    Utilisation d’une décomposition en valeurs
   singulières (SVD)
    „   Réduction de la complexité (représentation par une
        matrice de taille réduite)
    „   Emergence de « thèmes » = axes

                         J.F. Bonastre                         29

L’espace sémantique
Latent Semantic Analysis

Matrice initiale de cooccurrences              Décomposition par SVD

                                         Vecteurs singuliers     Matrice diagonale
                                           orthogonaux         des valeurs singulières
                                            (nvle base)
                                            « thèmes »

                                          Réduction à une dimension k

                         J.F. Bonastre                         30

                                                                                         15
L’espace sémantique
Latent Semantic Analysis
Projection d’un document dans LSA

                     Mesure cosine de similarité

                       J.F. Bonastre          31

Performances de la chaîne de structuration
LIA (data de la démo)

                       J.F. Bonastre          32

                                                   16
Vous pouvez aussi lire