Apprentissage Automatique
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition ? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs d'étude de l'intelligence artificielle. L'apprentissage automatique fait référence au développement, à l'analyse et à l'implémentation de méthodes qui permettent à une machine (au sens large) d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. J.F. Bonastre 2 1
Qu’est ce que « l’apprentissage automatique » ? ? Extraire de l’information à partir de données (corpus based approaches) J.F. Bonastre 3 Définition (http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html) Apprentissage à partir d’exemples Classification supervisée Lien Apprentissage – Classification J.F. Bonastre 4 2
Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Apprentissage automatique – un carrefour J.F. Bonastre 5 Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Vision Statistique Vision Intelligence artificielle But = apprendre des But : imiter ou reproduire des fonctions à partir de données comportements intelligents Fonctions complexes vs non “naturels” paramétriques source de problèmes Dimensionnalité de l’espace “classiques” (reconnaissance Taille des corpus d’écriture, parole, etc.) Inspiration différences approche inductive – apprentissage a partir des exemples approche probabiliste J.F. Bonastre 6 3
Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Théorie des probabilités Sciences cognitives, outils d’analyse de neurosciences modèles théoriques Sources d’inspiration Théorie de l’optimisation Théorie de l’information, outils algorithmiques traitement du signal Problèmes et méthodologies partagés J.F. Bonastre 7 Types d’algorithmes (Wikipedia) L'apprentissage supervisé : un expert (ou oracle) est employé pour étiqueter correctement des exemples. L'apprenant doit alors trouver ou approximer la fonction qui permet d'affecter la bonne étiquette à ces exemples. L'apprentissage non-supervisé L'apprentissage par renforcement J.F. Bonastre 8 4
Quelques algos (Wikipedia) les machines à vecteur de support le boosting les réseaux de neurones pour un apprentissage supervisé ou non- supervisé la méthode des k plus proches voisins pour un apprentissage supervisé les arbres de décision les méthodes statistiques comme le modèle de mixture gaussienne la régression logistique l'analyse discriminante linéaire la logique floue les algorithmes génétiques et la programmation génétique J.F. Bonastre 9 A quoi ça sert ? ? Analyse financière : prévision d'évolution de marchés Marketing : établir un profil client, mailing Banque : attribution de prêts Médecine : aide au diagnostic, Télecom : détection de fraudes. Biométrie Robotique Reconnaissance de forme OCR Transcription de la parole Compréhension/Dialogue Recherche d’information (moteur internet, moteur multimédia) J.F. Bonastre 10 5
Un exemple Un exemple d’outil (1) Navigation dans des bases de données audio Orientation « moteur de recherche » Présentation synthétique de l’information Technologies développées au LIA Travail (très) coopératif Nombreuses thèses dont celle de Benoît Favre (mars 2007) en collaboration avec Thales Communications J.F. Bonastre 12 6
Un exemple d’outil (2) Des données (~ 100h) Un besoin d’information (« Chirac ») Une réponse sous forme d’un résumé audio par concaténation Problèmes Perte du contexte Difficulté pour naviguer Nécessité de connaître précisément l’objectif Solution ? Frise J.F. Bonastre 13 Un exemple d’outil (3) Annexes J.F. Bonastre 14 7
Un exemple d’outil (4) Commentaires ~100 heures de parole (base publique, ESTER) Peu de couverture temporelle (les données sont espacées sur une longue période) Etendu à 1700 heures. Pas de soucis hormis l’interface (temps d’accès aux données audio) 100 % automatique Analyse sémantique réalisée sur les données « le monde », ~ 500 millions de mots En ligne (http://pc-favre.iup.univ-avignon.fr:7777/) J.F. Bonastre 15 Un exemple d’outil (5) Limites Démonstrateur ! L'identité du locuteur n'est pas encore ajoutée au niveau des traitements sémantiques Id pour des marqueurs liés à la parole (« émotions »/style, taux d'interaction,...) Ajout de « curseurs » couverture thématique nouveauté J.F. Bonastre 16 8
Technologies Technologies (1) Paramétrisation et Séparation en classes/locuteurs… Représentation du signal (paramétrisation) Représentation temps- Traitement du signal fréquence Atténuation des bruits, normalisations Traitements « acoustiques » Segmentation en classes Apprentissage automatique Segmentation en locuteurs Techniques statistiques Identification/Suivi des locuteurs J.F. Bonastre 18 9
Technologies (2) Apprentissage automatique « statistique » GMM Estimateur de densité à partir d’exemples (et connaissances) -> modèle de la distribution Mélange de Gaussiennes Multidimensionnelles Algo standards (EM, MAP…) J.F. Bonastre 19 Technologies (3) Moteur de reconnaissance de la parole Modélisation acoustique Apprentissage automatique Modèles initiaux Techniques statistiques (par condition) + connaissances Adaptation au locuteur Adaptation aux conditions Modélisation linguistique Algorithme de décodage Graphe d’hypothèses très, Algorithmes de trop large parcours efficaces (Token, Stack, A*…) J.F. Bonastre 20 10
Technologies (4) Modélisation acoustique Passer du « statique au dynamique » HMM (Modèles de Markov Cachés) Transitions (probabilités) Etats (p. émission -> GMM) Viterbi, Baum-Welch Mot ->Modèles composés Lexique de mots 1 mot = suite de phone 1 phone = 1 phonème en contexte = 1 HMM 3 états I U F Connaissances Choix des triphones (contextes manquants) Constitution du lexique (mots composés…) J.F. Bonastre 21 Technologies (5) Apprentissage automatique « statistique » Modèles de langage Ngram : probabilité de i Difficultés : connaissant i-1, …, i-n * backoff * corpus Moti-2 Moti-1 Moti * lexique Nclass : probabilité de la * nettoyage classe i connaissant les * noms propres classes i-1, … i-n Mot -> classe * évolutions Ngram Exemple présenté : Grammaires spécifiques, * 3 gram règles, combinaison… * 20 M transcriptions * 550 M « le monde » J.F. Bonastre 22 11
Technologies (6) Segmentation en phase, Entités Nommées Segmentation Entités Nommées Conditional Random Fields Noms de personnes, Informations hétérogènes organisations, lieux Linguistique (Transcription, Étiquettes syntaxiques) Dates et quantités numériques Prosodiques (Pauses, Pente Stratégie mixte de f0, Tours de parole) Grammaires locales Modèles N-gram J.F. Bonastre 23 Segmentation en phrases – CRF (CRF++) Mots (bigram) Etiquetage morphosyntaxique (LIA_TAG) Changement de locuteurs Prosodie Fin de segments Pause avant, entre les 2 mots Fo (sur 3 horizons t.) J.F. Bonastre 24 12
Technologies (7) Extraction de connaissance, résumé Représentation sous forme Maximal Marginal Relevance vectorielle (~dim. 65 k) Sélection des phrases Latent Semantic Analysis Maximum de couverture Représentation conceptuelle Minimum de redondance Projection des phases dans Séparation des calculs un espace conceptuel Intérêt général des Fonction des cooccurrences phrases/mots (pré-calculé) Rend compte de la Dépendant de la requête « proximité sémantique » Réduction de l’espace (SVD) Création de « concepts » Réponse « temps réel » Espace pré-appris J.F. Bonastre 25 Maximal Margin Relevance (MMR) Objectifs Sélection de phrases suivant un besoin Maximiser l’information, minimiser la redondance Adaptation au contexte (efficacité et interactivité) Informations sur la forme, précalculées Informations venant du besoin utilisateur, calculées à la demande Appliquée dans un « espace sémantique » J.F. Bonastre 26 13
L’espace sémantique VSM - Modèle algébrique/vectoriel classique Requêtes et candidats sont exprimés sous forme d’un vecteur Une dimension = 1 mot du vocabulaire Une valeur = nb occurrences du mot dans le document concerné En fait, Inverse Document Frequency J.F. Bonastre 27 L’espace sémantique VSM - Modèle algébrique/vectoriel classique Modèle « sac de mots » Ne prend pas en compte l’ordre des mots Ne prend pas en compte les corrélations inter mots Evolution vers GVSM Basé sur les corrélations inter mots Complexe pour peu d’amélioration J.F. Bonastre 28 14
L’espace sémantique Latent Semantic Analysis Même principe que GVSM (corrélations) Le point de départ est une matrice de cooccurrence Case i,j donne le nombre de cooccurrences des mots i et j dans un contexte donné Le contexte ? Phrase, document, fenêtre… Utilisation d’une décomposition en valeurs singulières (SVD) Réduction de la complexité (représentation par une matrice de taille réduite) Emergence de « thèmes » = axes J.F. Bonastre 29 L’espace sémantique Latent Semantic Analysis Matrice initiale de cooccurrences Décomposition par SVD Vecteurs singuliers Matrice diagonale orthogonaux des valeurs singulières (nvle base) « thèmes » Réduction à une dimension k J.F. Bonastre 30 15
L’espace sémantique Latent Semantic Analysis Projection d’un document dans LSA Mesure cosine de similarité J.F. Bonastre 31 Performances de la chaîne de structuration LIA (data de la démo) J.F. Bonastre 32 16
Vous pouvez aussi lire