Les reconnaissances de la parole - Marie-José Caraty* - C. Montacié
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Les reconnaissances de la parole Marie-José Caraty* — C. Montacié ** * Université Paris Descartes - LIPADE 45, rue des Saints Pères - 75006 Paris Marie-Jose.Caraty@ParisDescartes.fr ** STIH, Université Paris-Sorbonne, France Studia Informatica Universalis.
108 Studia Informatica Universalis. 1. La parole dans tous ses états La reconnaissance de la parole est l’une des tâches pionnières de l’In- telligence Artificielle (IA) consistant à reproduire la capacité d’un être humain à extraire des informations de la parole produite par un autre être humain. Cette tâche, trop complexe pour être reproduite par un sys- tème informatique unique, a été subdivisée en plusieurs sous-problèmes en fonction du type d’informations à extraire et à reconnaître. Les pro- blématiques les plus étudiées sont la reconnaissance du locuteur, de son état émotionnel, de la langue employee et du langage parlé. Les recherches sur la résolution des ces tâches ont donné lieu, depuis une vingtaine d’années, à des dizaines de milliers de publications, des cen- taines de bases de données de parole, des dizaines de campagnes inter- nationales d’évaluation. Les progrès ont été importants et ont permis le développement d’applications importantes en communication homme- machine comme la dictée vocale ou les systèmes de dialogues finali- sés des serveurs vocaux interactifs (SVI). Cependant de nombreuses recherches restent indispensables en raison de l’ampleur du problème et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms d’émo- tions, près de 7000 langues et quelques centaines de milliers de mots par langue. D’autres types d’information restent pour l’instant pratiquement inexploités comme l’accent, l’état physiologique, le niveau de stress ou de fatigue. La modélisation markovienne de la parole est un sujet de recherche partagé entre toutes ces problématiques. Ce modèle et ses dérivés comme les réseaux bayésiens ou les combinaisons de gaussiennes (GMM) permettent l’intégration des informations acoustiques de la pa- role continue avec des informations symboliques représentant les infor- mations transmises et à reconnaître. Des méthodes efficaces permettent d’inférer ces modèles à partir de la parole, d’estimer leurs paramètres et de proposer des méthodes de reconnaissance de complexité polyno- miale.
Combinatorial Optimization in Practice 109 1.1. Les caractéristiques individuelles et la reconnaissance du locuteur Les caractéristiques individuelles d’un locuteur permettent à ses in- terlocuteurs de le reconnaître par sa voix [1]. Ces caractéristiques sont soit des traits acoustiques [2] reliés à la physiologie de l’appareil pho- natoire (géométrie et qualité des organes de phonation), soit des traits linguistiques reliés à l’apprentissage du langage parlé comme les ac- cents régionaux [3] ou sociaux [4]. Le premier système automatique de reconnaissance du locuteur date de 1963, mais ce n’est que depuis une vingtaine d’années que ce domaine a éveillé l’intérêt d’un nombre crois- sant de chercheurs, d’industriels, de policiers et de juges [5]. L’utilisa- tion de mots-clés était indispensable dans les premières méthodes déve- loppées [6], mais la plupart des systèmes actuels sont indépendants du texte prononcé. Les techniques développées utilisent trois types d’ap- proches : statique, dynamique et linguistique. Les systèmes de recon- naissance du locuteur peuvent naturellement combiner plusieurs de ces approches. Les deux premières approches s’appuient sur des informa- tions purement acoustiques [7]. Elles se différencient par l’utilisation ou non de paramètres représentant l’évolution temporelle du signal vocal [8]. L’approche linguistique est fondée sur l’analyse du lexique employé et des variantes dialectales utilisées [9]. Les deux principales applica- tions de la reconnaissance du locuteur sont : –la vérification de l’identité pour protéger l’accès physique à des locaux sensibles ou l’accès distant à des informations confidentielles et –la vraisemblance de preuves en justice dans le cadre de la comparaison de voix de justiciables. 1.2. La langue et sa détection Près de 7000 langues sont référencées dans le monde [10] dont plus de 300 sont parlées par plus d’un million de personnes. Chacune de ces langues a des caractéristiques phonologiques (ensemble des sons) [11], morphologiques (ensemble des mots), et prosodiques (position des ac- cents et intonations dans les mots, valeur sémantique des accents) dif- férentes. Elles appartiennent à plus de 100 familles de langues (sino- thibétaine, indo-européenne, dravidien, . . .) [12] construites à partir de caractéristiques linguistiques communes. Les premières recherches
110 Studia Informatica Universalis. datent des années 1970, avec à un taux d’identification de 62% pour des segments de parole de 90 secondes en sept langues [13]. La principale problématique a été de diminuer la durée des segments tout en augmen- tant le nombre de langues. Les recherches ont pu être grandement facili- tées par la disponibilité de la base de l’Oregon Graduate Institute (OGI) dédiée à l’identification des langues et comportant des enregistrements de communications téléphoniques (voix spontanées) en 22 langues [14]. Deux approches sont étudiées pour cette problématique, l’une est pure- ment acoustique, l’autre plus difficile à mettre en IJuvre est linguistique. L’approche acoustique consiste à représenter une langue par les réalisa- tions acoustiques de ses phones [15] et des règles phonotactiques. Cette approche donne de bons résultats si les langues ont un domaine acous- tique nettement différencié, mais trouve rapidement ses limites quand le nombre de langues augmente. L’approche linguistique est basée sur la reconnaissance de mots [16] ou de syllabes spécifiques [17] d’une langue, l’importance des ressources linguistiques à mettre en IJuvre (dictionnaire et modèle de langage pour chaque langue à reconnaître) rend cette approche plus difficile mais plus prometteuse que la précé- dente. L’application principale de la détection automatique de la langue ou de la famille de langues est le routage automatique d’appels télépho- niques vers la personne ou le système de reconnaissance de la parole susceptible de traiter la langue. D’autres applications existent dans le domaine de la sécurité. 1.3. Le langage et la reconnaissance du langage parlé Depuis plus de 100 000 ans et le passage de la langue des gestes au langage parlé [18], la parole est le moyen principal de communi- cation entre les humains. Depuis près de 60 ans, la recherche en re- connaissance automatique du langage parlé est l’un des enjeux majeurs de l’intelligence artificielle. Sa problématique principale est l’associa- tion d’un signal biologique, bruité et d’une grande variabilité spatiale et temporelle [19], aux structures symboliques du langage (phonétique, phonologique, lexical, morphologique, syntaxique, sémantique, prag- matique et rhétorique). Les recherches en reconnaissance du langage parlé consistent d’une part à modéliser cette variabilité par des mé- thodes statistiques (e.g., modèles markoviens) et de recherche opéra-
Combinatorial Optimization in Practice 111 tionnelle (e.g., programmation dynamique) et d’autre part de définir des processus de transduction entre les modèles du signal de parole et cer- taines structures de la langue. Les principales tâches associées à la re- connaissance du langage parlé sont le décodage acoustico-phonétique, la détection de mots-clés et la reconnaissance des mots de la parole continue. Le décodage acoustico-phonétique (DAP) consiste à extraire d’une analyse du signal vocal, une hypothèse de treillis des phonèmes. Les meilleures performances obtenues sont de l’ordre de 75% pour de la parole lue [20] et de 60% pour de la parole conversationnelle télépho- nique [21]. La détection de mots-clés [22, 23], cherche à reconnaître et à localiser toutes les occurrences des mots d’une liste de mots-clés dans un continuum de parole donné. Le taux de détection est donné en fonc- tion du nombre de fausses alarmes par millier de mots-clés détectés et par heure de parole (fa/kw/h). Il est de 15% à 25% pour 5 fa/kw/h pour de la parole conversationnelle téléphonique [24]. La troisième tâche, la reconnaissance des mots en parole continue, consiste à reconnaître tous les mots d’une élocution prononcée de manière continue, c’est-à-dire sans pause artificielle entre les mots. Les premiers systèmes datent du début des années 90 [25]. L’apprentissage statistique à grande échelle sur des milliers d’heures de parole [26] et des centaines de millions de mots provenant de textes écrits et de transcriptions du langage parlé a permis d’obtenir des lexiques de prononciation des mots ainsi que des modélisations stochastiques de la parole et du langage parlé. Ces ressources, utilisées pour diminuer l’espace de recherche des suites de mots possibles, permettent d’obtenir des algorithmes de décodage de complexité polynomiale. Les performances de reconnaissance sont de l’ordre de 90% dans les meilleures conditions (voix lue avec une vi- tesse d’élocution contrôlée, sans émotion et sans bruit). Les taux de reconnaissance chutent fortement quand ces conditions changent [19]. Dans tous les cas, les performances des systèmes de reconnaissance du langage parlé restent très éloignées des performances humaines [27]. 1.4. La parole émotionnelle et la reconnaissance de l’émotion La réaction par le système limbique à un stimuli extérieur (e.g., si- tuation de danger) provoque une réponse émotionnelle innée de l’être humain par l’envoi de signaux vers les systèmes moteurs et le système
112 Studia Informatica Universalis. nerveux central [28]. Ces signaux perturbent les commandes de l’appa- reil phonatoire [29] et les processus cognitifs de production du langage parlé [30]. La parole émotionnelle est alors la vocalisation de la réponse émotionnelle. La parole émotionnelle peut également être apprise et produite volontairement par le locuteur sans stimuli extérieur [31]. Dans les deux cas, cette parole est porteuse d’informations sur les émotions transmises par le locuteur, qu’elles soient ressenties ou simulées. Ces informations perceptibles par un autre être humain constituent le mes- sage émotionnel [32]. Deux types de problématiques sont associés à la reconnaissance de ce message dans la parole : la représentation d’une émotion et la détection des corrélats acoustiques et linguistiques asso- ciés à cette représentation. Selon les différentes théories émotionnelles, une émotion peut être représentée par une classe d’émotions [33, 34] ou par un point dans un espace de dimension réduite [35]. Dans le cadre de la reconnaissance de l’émotion, les deux types de représentation sont utilisés : émotions positives et négatives, agréables ou désagréables ou choix parmi une liste comme par exemple {colère, peur, tristesse, joie, dégoût et surprise}. Les premiers travaux de reconnaissance automa- tique de l’émotion datent des années 80 [36]. Plus d’une vingtaine de bases de données de parole émotionnelle, validées à l’aide d’un cor- pus d’auditeurs, sont maintenant référencées [37]. Dans la littérature, les taux de reconnaissance varient de 50 à 75% pour une discrimination entre 4 à 6 émotions. De nombreux paramètres acoustiques et linguis- tiques sont étudiés comme la qualité de la parole, le timbre, la prosodie, l’accentuation et l’intonation des mots [38]. Les principales applications sont –l’amélioration des interfaces homme-machine par l’ajout d’une composante émotionnelle, –la détection automatique de situations de catastrophes ou de comportements anormaux. 2. Modélisation markovienne Plusieurs facteurs expliquent le succès et l’utilisation généralisée du cadre markovien [39] pour modéliser la parole : les propriétés ma- thématiques de convergence, le développement et la mise à disposi- tion de grandes bases de données nécessaires à l’estimation statistique, une architecture adéquate à l’intégration de connaissances symboliques (linguistique, psychologique, physiologique, . . .) avec les descriptions
Combinatorial Optimization in Practice 113 numériques du continuum de parole (observations). Les premières re- cherches ont eu lieu au début des années 70 par J. K. Baker [40] et F. Jelinek [41] et cette modélisation est aujourd’hui encore à la base des systèmes de l’état de l’art en reconnaissance de la parole. Dans le cadre markovien, le processus de décodage de la parole en une suite de symboles (identité du locuteur, langue parlée, phonèmes, mots, état émotionnel) utilise la règle de décision du maximum a poste- riori [42] : w0 = arg maxw P (w/x) (1) = arg maxw P (x/w)P P (x) (w) = arg maxw P (x/w)P (w) où : – x est la séquence d’observations représentant le continuum de pa- role, – w0 est la suite de symboles décodés, – P (x/w), la probabilité d’observer la séquence d’observations x pour un continuum de parole étiqueté avec la suite de symboles w,et – P (w), la probabilité d’un continuum de parole étiqueté avec la suite de symboles w Le modèle markovien présente l’intérêt d’un traitement global des niveaux acoustiques et symboliques pour le décodage et d’un appren- tissage indépendant de la modélisation du canal acoustique et de la mo- délisation du langage de symboles. Cependant la reconnaissance mar- kovienne est coûteuse en temps de calcul et en mémoire dans le cas d’un décodage optimal. Des méthodes d’élagage permettent d’établir un compromis entre les solutions algorithmiques (recherche et optimi- sation) et les contraintes matérielles (rapidité et mémoire). 2.1. Modélisation du canal acoustique Un modèle de Markov caché permet de modéliser la séquence d’ob- servations associée à un symbole. Il est constitué de l’association d’une chaîne de Markov homogène et des fonctions de densité de probabi- lité des observations [43]. Une chaîne de Markov homogène est repré- sentée par un automate d’états finis probabiliste constitué d’états et de
114 Studia Informatica Universalis. transitions entre états. A chacune des transitions est associée une fonc- tion de densité de probabilité. Elles permettent de mesurer la probabi- lité conjointe d’une séquence d’observations associée à une séquence de transitions de l’automate. La somme des probabilités conjointes sur l’ensemble des séquences de transitions est la probabilité que ce mo- dèle de Markov émette la séquence d’observations. Il constitue le terme P (x/w) de l’équation (1). La topologie du modèle de Markov (nombre des états de l’automate et transitions autorisées entre ces états) est choi- sie a priori. Une des topologies usuelles, le modèle de Bakis [44], est un bon compromis entre le nombre de transitions et celui des états. Il comprend trois types de transitions : boucle sur le même état, transition vers l’état suivant, saut d’un état. Le nombre d’états dépend de la taille moyenne des segments acoustiques associés au symbole. Il est en gé- néral de 3 dans le cas de segments phonétiques. Différents algorithmes [45, 46] optimaux et sous-optimaux permettent d’estimer les paramètres d’un modèle de Markov en fonction de données d’apprentissage. Le processus de décodage d’une séquence d’observations consiste à choi- sir comme symbole celui correspondant à la machine de Markov de plus grande probabilité d’émission. 2.2. Modélisation du langage de symboles Les modèles du langage de symboles permettent de calculer le terme P (w) de l’équation (1) et contraint la suite des symboles décodés. Ces modèles de langage sont basés le plus souvent sur des n-grammes (i.e., probabilité d’une suite de n symboles). Ils sont utilisés principalement dans la reconnaissance du langage parlé. Dans ce cadre, ils permettent de prendre en compte, le type d’élocu- tions à reconnaître (lettres commerciales, diagnostics médicaux, textes journalistiques, conversations, . . .) et d’éviter des suites de mots im- probables. Ces modèles de langage sont estimés, à partir de corpus de textes écrits de très grande taille, par le compte des occurrences n- grammes dans les corpus et sont ainsi spécialisés dans le domaine des textes appris. Si l’on prend l’exemple du modèle de langage calculés par la société google [47] sur un ensemble de 95 millions de phrases en anglais extraites du Web. Avec un lexique de 13 millions de mots,
Combinatorial Optimization in Practice 115 il n’y a que 314 millions de bigrammes (sur les 169x1012 possibles) et 977 millions de trigrammes (sur les 4046x1018 possibles). Même si ces nombres sont élevés, ils ne représentent qu’une infime partie des n-grammes possibles. De manière à ne pas écarter une solution com- prenant un n-gramme non-observé (probabilité d’apparition nulle) dans les corpus d’apprentissage de modèles de langage, on estime un compte non nul pour les n-grammes non-observés. Deux méthodes sont classi- quement utilisées pour le calcul des n-grammes non-observés : la mé- thode par interpolation [48] ou la méthode du “back off " [49, 50]. 2.3. Les ressources Les ressources présentées ici sont indispensables à la reconnaissance du langage parlé ; pour les autres reconnaissances, elles peuvent suivant la stratégie adoptée être nécessaires en tout ou partie. Pour la reconnais- sance du langage parlé, le vocabulaire de reconnaissance est l’ensemble des mots pouvant apparaître dans l’hypothèse de décodage du système. Ce vocabulaire doit permettre de construire le réseau de décodage des mots qui est utilisé par le moteur de reconnaissance. Rappelons que dans le cas de la reconnaissance à grand vocabulaire, les unités de reconnais- sance sont usuellement les phonèmes, et les modèles acoustiques sont les modèles de Markov cachés de ces unités. Le réseau de décodage est la description de l’ensemble des mots possibles (vocabulaire) de l’hy- pothèse du système ; chaque mot y est représenté comme la concaté- nation des modèles acoustiques des unités phonétiques le constituant. La connaissance du vocabulaire de reconnaissance est par conséquent indispensable dans sa version phonétisée pour construire ce réseau. La nature de l’annotation des bases de données acoustiques utili- sées pour l’apprentissage des modèles acoustiques conduit à distinguer un autre lexique : le lexique d’apprentissage qui doit couvrir le cor- pus d’apprentissage ou plus exactement les textes lui correspondant. La meilleure adéquation des bases acoustiques au problème de cet appren- tissage est leur étiquetage fin en phonèmes. S’il existe des solutions pour parvenir à un apprentissage sans cet étiquetage, c’est par une procé- dure itérative d’obtention de l’étiquetage fin mais avec peu d’assurance sur sa qualité. Dans ce cas, les procédures font appel à la connaissance
116 Studia Informatica Universalis. même imparfaite des modèles acoustiques et pour chaque phrase d’ap- prentissage elles permettent d’aligner sa transcription phonétique sur le signal vocal correspondant ; les modèles acoustiques peuvent alors être réestimés. Ainsi, un lexique phonétisé (de qualité) couvrant les corpus d’apprentissage est indispensable. Le vocabulaire de reconnaissance n’est a priori pas le même que le lexique d’apprentissage. Sans modèle prédictif de ce qui peut être dit, on choisit usuellement un vocabulaire de reconnaissance de taille fixe, composé des mots les plus fréquents observés pour le domaine. Lexique phonétisé Pour couvrir toute l’étendue de la communication parlée, il serait évi- demment souhaitable que le vocabulaire de reconnaissance couvre toute l’expression de la langue. Les dictionnaires de la langue et les diction- naires spécialisés forment la base d’une telle ressource. Quelques ordres de grandeur : Larousse répertorie –76 000 entrées dans son Lexis, – 30 600 entrées dans son dictionnaire des noms de famille et prénoms de France ; Le Robert répertorie –80 000 entrées lexicales, –42 000 entrées dans son dictionnaire des noms propres en histoire, géographie, arts, lit- térature, et sciences. On peut remarquer que seuls les dictionnaires de la langue incluent systématiquement, dans la structure des articles, la phonétique normative (décrite à partir de l’Alphabet Phonétique Inter- national - API) et la caractérisation grammaticale du mot. Pour la suite, SAMPA (Speech Assessment Methods Phonetic Alphabet) est le code phonétique utilisé. Dans les dictionnaires, la phonétisation de référence privilégie les scwhas (" e " muet). ; par exemple, le mot "appeler" est phonétisé /a p l e/. Néanmoins, une variante de prononciation telle /a p @ l e/ peut être observée avec le phonème /@/ bien présent dans le signal. Les phonéti- sations utilisées doivent prendre en compte la réalisation optionnelle du phonème. Le lexique doit également être étendu par l’adjonction des flexions qui ne sont pas décrites in extenso dans le dictionnaire. Parmi ces flexions, –les flexions en genre et en nombre, –les flexions verbales en temps et en conjugaison, soit plus de 500 000 formes lexi- calement différentes. Les variantes phonétiques engendrées par les liai- sons doivent été traitées, en moyenne 2,15 variantes phonétiques par
Combinatorial Optimization in Practice 117 mot du dictionnaire. Le lexique phonétisé est ainsi étendu à plus d’un million de formes phonétiquement différentes. Les entités nommées (e.g., prénoms, noms, pays, villes, lieux "connus", . . .) sont à phonétiser. Plusieurs catégories dont les noms de famille, par leur nombre et leur caractère international, montrent l’éten- due du travail d’acquisition et le problème de leur phonétisation [51]. En effet, il existe souvent au moins deux phonétisations issues de la prononciation, l’une francisée et l’autre résultant de la prononciation par un non-natif dans la langue d’origine : par exemple, trois variantes phonétiques pour Maastricht [m a s t R i k], [m a s t R i t* ch] (où * symbolise la prononciation optionnelle) peuvent être retenues. La pho- nétisation des mots étrangers entrant dans la langue française présente le même ordre de difficulté. Corpus textuels pour l’apprentissage des modèles linguistiques De larges corpus de texte sont nécessaires à l’apprentissage des mo- dèles statistiques de langage. La collecte de ces données vise à mieux modéliser le domaine de la reconnaissance. Des méthodes de collecte automatique à large échelle de pages Web [52] peuvent être utilisées pour maintenir un modèle de langage ; la collecte de données pour un nouveau domaine se résume alors à fournir les mots-clés adéquats au moteur de recherche. Les applications visées avec la parole lue ou pré- parée contrastent avec les applications du conversationnel où les thèmes changent constamment et où le style varie. Les modèles de langage doivent alors être adaptés aux thèmes (sources de données thématiques variées) et au style (prise en compte de l’oral spontané et de sa trans- cription) [53]. Avant de calculer les modèles de langage, les textes doivent être nor- malisés. Un travail préliminaire est le nettoyage des textes en s’affran- chissant des balises de structuration (HTML, XML, . . .), en éliminant les caractères et signes invalides, en corrigeant dans la mesure du pos- sible les erreurs (coquilles, accents, ...) [52]. Il s’agit également de nor- maliser les mots non-standards [54] qui n’appartiennent pas au diction- naire de la langue : i) les nombres (57, XIV, 2M, . . .), les dates, les devises (= C, £, . . .) que l’on transcrit à l’écrit sous leur forme parlée,
118 Studia Informatica Universalis. ii) les abréviations pour lesquelles on définit des règles de réécriture (Mr en Monsieur, Mme en Madame, Me en Maître, . . .) et iii) les sigles que l’on normalise suivant leur variante de prononciation en cas d’acronyme (ONU ou O.N.U. réécrit -O N U et prononcés /o ai n y/, -ONU et prononcé /o n y/). En cas de prise en compte de l’emphase d’entités nommées à l’éva- luation, son traitement présente des difficultés de désambiguisation (mot ou entité nommée) lors de la décapitalisation des mots de débuts de phrase. Une autre difficulté concerne le signe point qui a un sens dif- férent s’il se trouve en fin de phrase, dans une abréviation ou dans un nombre. L’utilisation des modèles de langage n-classes nécessite le taggage des corpus textuels, c’est-à-dire l’étiquetage des mots en classes. Ainsi, le vocabulaire de reconnaissance et le lexique de couverture des textes d’apprentissage des modèles de langage doivent évidemment être tag- gés. Les classes considérées pour les modèles n-classes peuvent être de natures diverses : les classes peuvent être construites a priori comme par exemple les classes grammaticales ou automatiquement en regrou- pant les mots ayant le même comportement, c’est-à-dire les mots qui se retrouvent toujours dans le même contexte . Pour un modèle n-classes grammatical, des corpus grammaticaux peuvent être taggés jusqu’à 400 classes [55]. 2.4. Moteur de reconnaissance et graphe de symboles Le moteur de reconnaissance permet la recherche d’une solution op- timale ou sous-optimale de l’équation (1). Plusieurs algorithmes de complexité polynomiale [56, 57] permettent d’obtenir cette solution en une ou plusieurs passes synchrones et asynchrones. Cependant, la suite de symboles correspondant à la solution contient en général trop d’erreurs pour être directement utilisable dans des traitements ulté- rieurs (e.g., correction grammaticale, traduction, résumé, veille). Pour résoudre ce problème, le moteur propose alors un ensemble de solu- tions représentées sous forme d’un graphe de symboles [58].
Combinatorial Optimization in Practice 119 Dans le cas de l’algorithme du One Pass [59] et d’un graphe de sym- boles synchrones [60], le processus de décodage comprend plusieurs passes synchrones. La complexité de la première passe est en O(V n ) avec V la taille du vocabulaire et n l’ordre choisi des n-grammes du modèle de langage utilisé. Cette première passe de décodage génère un graphe de symboles d’une profondeur choisi V1 (V1 ≤ V ). Les autres passes servent à réorganiser ce graphe en utilisant des modèles de lan- gage plus complexes. La ième passe de décodage génère un graphe de symboles d’une profondeur Vi choisi (Vi ≤ Vi−1 ≤ V ). Sa complexité ni est en en O(Vi−1 ) avec ni l’ordre choisi des n-grammes du modèle de langage utilisé. L’ensemble des passes de décodage a pour but de faire remonter peu à peu la bonne solution dans le graphe de symboles tout en contrôlant la complexité. 3. Evaluation et paradigme d’évaluation L’évaluation est au cœur des progrès dans tous les domaines de l’in- génierie. Bien que les méthodologies d’évaluation soient en constante évolution, leur succès est déjà tel que l’évaluation pourrait être un domaine de " recherche propre ". Les compétitions se généralisent, elles sont déjà ouvertes à de nombreux domaines technologiques. Par exemple et en collaboration avec NIST (National Institute of Standards and Technology) [61], l’ATP (Advanced Technology Program) [62] et récemment le TIP (Technology Innovation Plan) [63] financent et or- ganisent des plans d’évaluation dans l’objectif d’accélérer le dévelop- pement de la recherche et de la technologie. Les domaines concernés sont aussi divers que l’agriculture, la biotechnologie, la micro/nano- électronique, les machines-outils, l’automobile, les matériaux avancés, l’information, la communication, la chimie, l’énergie, l’environnement, ... Toutes ces plans ne peuvent être menés qu’avec des méthodologies d’évaluation adéquates. 3.1. Modes d’évaluation Depuis la conception d’un système et jusqu’à son transfert techno- logique, l’évaluation est présente. Si la méthodologie d’évaluation va-
120 Studia Informatica Universalis. rie, elle est un moteur indéniable dans les phases –de conception, –de développement, –de maintenance et –d’utilisation finale. L’évaluation est " plurielle " ; en effet, différents modes d’évaluation sont identifiés relativement à leurs buts. Il s’agit principalement de l’adéquation, du diagnostic, du quantitatif et du qualitatif. Evaluation d’adéquation L’adéquation dont il s’agit est celle du système à la tâche assignée, avec la prise en compte de la qualité et du coût. Ce type d’évaluation, couplé avec l’identification des besoins potentiels des utilisateurs, est particulièrement intéressant dans l’information aux " consommateurs ". Le but n’est pas tant d’identifier le " meilleur système ", que de don- ner une information comparative qui permette à l’utilisateur de faire un choix éclairé du produit relativement à ses besoins et à ses contraintes. Evaluation de diagnostic C’est ici un maillage de l’espace des entrées possibles, qui permet de dresser un profil du comportement attendu du système. L’une des dif- ficultés est bien évidemment de construire une suite de tests représen- tative. Typiquement, les tests de programme par jeux d’essai relèvent de l’évaluation de diagnostic. Tout programmeur connaît bien les li- mites d’une telle approche : les jeux d’essai ne peuvent servir de preuve de programme, mais seulement de contre-exemples. Un autre exemple de ce mode d’évaluation est le développement des compilateurs. C’est à la suite d’une évaluation de diagnostic intensive que la norme peut être créée et que les compilateurs peuvent être agréés en fonction de la qualité de leurs réponses aux tests de normalisation (benchmarks). Les tests de diagnostic permettent la maintenance d’un système évolutif par des tests de régression sur les versions consécutives du système. Un dernier exemple concerne les systèmes d’interaction Homme-Machine pour lesquels l’information de diagnostic est utile : ce que " réussit " un système et ce qui lui reste " à acquérir " sont autant d’informations importantes pour la conception et le développement de ces systèmes. Evaluation de performance quantitative Le triptique critère/mesure/méthode permet l’évaluation de perfor- mance quantitative. Dans l’exemple de la reconnaissance du langage
Combinatorial Optimization in Practice 121 parlé, où la problématique est de passer de la parole au texte, –le critère est la " bonne " reconnaissance, –la mesure usuelle est le taux d’erreur en mots, et –la méthode consiste à comparer l’hypothèse de reconnais- sance du système et la transcription de référence du signal-test acous- tique (dans le " meilleur des cas ", faite par un expert humain). Ce mode d’évaluation, adapté à la comparaison d’implémentations, est utile pour le développement et l’amélioration des systèmes. Pour une même tâche de reconnaissance, les tests contrastifs permettent d’évaluer la contribu- tion d’un composant sur les performances globales du système. Evaluation de performance qualitative Cette évaluation vise une meilleure connaissance de ce qui est prédo- minant dans l’évaluation quantitative du système. Comment et pourquoi le système fonctionne-t-il ? L’un des intérêts de cette évaluation est que pour un système très sophistiqué, cette connaissance est indispensable afin de simplifier ou d’améliorer le système. On peut citer en exemple le projet d’évaluation MultiKron de NIST pour les applications paral- lèles et distribuées. La principale préoccupation est alors d’améliorer les applications ; l’observation du système, des goulots d’étranglement est une information qui peut conduire à ces améliorations. L’instrumen- tation nécessaire à la capture de cette information ne doit cependant pas trop perturber le système sous peine de devenir non significative. La solution de NIST au problème a été la conception et le développement d’une puce " espionne ". Cette puce permet de mesurer les performances des processeurs parallèles et des stations de travail sur des réseaux à haut débit, en enregistrant des événements comme par exemple les écritures- mémoire et les interruptions. Les mesures d’évaluation ainsi obtenues ont permis aux chercheurs de mieux comprendre la source des goulots d’étranglement et ainsi d’améliorer les applications. A travers ces différents modes, on comprend tout l’intérêt de l’éva- luation pour le cycle vie des systèmes, pour les intégrateurs et enfin pour les consommateurs. Si l’évaluation n’est pas une politique scientifique, elle est au moins un guide précieux pour la recherche.
122 Studia Informatica Universalis. 3.2. Paradigme d’évaluation en reconnaissance vocale Le paradigme d’évaluation a pour but d’accélérer le développement de la recherche et de la technologie par des plans d’évaluation, selon un principe qui peut être résumé par " tâche commune, données communes, évaluation commune ". Bien que l’on retrouve ce paradigme dans bien des domaines, entre autres, celui de l’ingénierie de la langue, c’est dans sa mise en œuvre en reconnaissance vocale que nous présentons le prin- cipe du paradigme défini par NIST et utilisé dans les plans d’évaluation internationaux. : 1) Diffusion d’un challenge sur une tâche spécifiée. 2) Distribution aux participants des bases de données nécessaires au développement des modèles et des systèmes. 3) Test des systèmes participants sur des données communes en un temps limité. 4) Appel à une infrastructure pour la mesure et la comparaison des performances des systèmes. Les principes du paradigme d’évaluation vont faire l’objet d’un dé- veloppement pour en apprécier tout l’intérêt. Tâche commune : Spécification de la tâche de reconnaissance Spécifier une tâche de reconnaissance, c’est également fixer la com- plexité de la reconnaissance. De nombreux paramètres sont liés à la tâche de reconnaissance, leur spécification induit des facteurs de com- plexité qui ont une influence sur les performances " attendues " du sys- tème et sur les techniques à employer. Spécification de la dépendance du système aux locuteurs Pour une reconnaissance mono-locuteur (resp. multi-locuteurs), le(s) locuteur(s) de test est (resp. sont) le(s) même(s) que le(s) locuteur(s) d’apprentissage. Pour une reconnaissance indépendante du locuteur, les locuteurs de test sont distincts des locuteurs d’apprentissage. La com- plexité est ici croissante ; elle s’explique par la grande variabilité du si- gnal vocal dont on sait toute l’importance pour un locuteur donné et qui s’accroît bien évidemment pour une population de locuteurs. Les mo- dèles acoustiques, appris sur une population, nécessitent des techniques
Combinatorial Optimization in Practice 123 d’adaptation des modèles acoustiques (appris pour être indépendants du locuteur) au locuteur de test et ce quelque soit la reconnaissance de la parole considérée. Spécification de la nature du document audio traité Indépendamment de l’environnement lors de l’enregistrement audio, il existe une grande variété de documents audio. Ainsi, une grande dif- férence existe entre la parole lue, préparée, actée, spontanée et conver- sationnelle. Les phénomènes de production sont très différents et ont une influence directe sur l’acoustique et sur les performances de recon- naissance traitant l’information linguistique ou para-linguistique. Relativement à la parole lue/préparée, la parole spontanée relève du langage naturel pour lequel le vocabulaire, la variété des expressions et des thèmes abordés sont bien plus importants, les modèles linguistiques sont alors plus difficiles à apprendre. Cette complexité est à considé- rer dans tous les cas où la reconnaissances utilise les modèles linguis- tiques. La parole spontanée est, de plus, sujette à des respirations, des hésitations, des erreurs de prononciation, des reprises, des inattendus structurels ; autant de spécificités difficiles à modéliser. Pour la parole conversationnelle, deux paramètres de complexité s’ajoutent encore : le choix de l’échelle d’articulation allant de l’hypo-articulation à l’hyper- articulation et les recouvrements possibles des signaux de parole des protagonistes qui affectera toutes les reconnaissances. Spécification des conditions d’enregistrement Lors de l’enregistrement des données audio, l’environnement peut- être non bruité ou bruité. Les bruits peuvent être additifs ou convolutifs. Le microphone peut être connu ou inconnu. Cette complexité est crois- sante dans le sens où les techniques mises en œuvre doivent être ro- bustes au bruit. Là encore, des techniques d’adaptation au bruit peuvent s’avérer nécessaires, ainsi que des primitives de pré-traitement du si- gnal. Le canal de transmission typique pour la parole est le téléphone. Il est caractérisé par sa bande passante [300-3400 Hz] qui n’est pas sans conséquence sur le signal vocal reçu ; le type de micro télépho- nique ainsi que la qualité de la transmission (courte ou longue distance) sont deux autres facteurs de variabilité qui peuvent être responsables de distorsions et d’altérations du signal. Si la parole téléphonique est tout
124 Studia Informatica Universalis. particulièrement la cible des plans d’évaluation internationaux de la re- connaissance du locuteur, les conditions d’enregistrements influent sur toutes les reconnaissances. Compte tenu du degré de liberté de la spécification de la tâche et de la complexité engendrée à la reconnaissance, toute comparaison de systèmes ne peut a priori être établie que sur une " tâche commune " de reconnaissance. Données communes : Corpus de développement et corpus de test Pour les besoins stricts de la méthodologie d’évaluation, les " don- nées communes " se résument à la distribution aux participants des cor- pus acoustiques de développement et de test. Les données de dévelop- pement ont pour but de permettre l’adaptation des systèmes à la tâche spécifiée pour le test. Le corpus de développement doit être représen- tatif du corpus de test. Par conséquent, les données doivent être homo- gènes aussi bien par leur nature (e.g., texte dont le test est issu) que par leur condition d’enregistrement (e.g., matériel d’enregistrement iden- tique). Dans le cas d’une reconnaissance indépendamment du locuteur, les locuteurs de développement et de test sont différents. Les données de développement sont antérieures aux données de test par leur date d’enregistrement et, par exemple, par les textes dont elles proviennent. La contrainte pour le test est que les données n’aient servi à aucun ap- prentissage et à aucun développement, les locuteurs étant évidemment différents. De plus, les données de développement et de test doivent être annotées afin de permettre l’évaluation de performance des systèmes suivant la méthodologie retenue. L’annotation des données de développement et de test est suivant la reconnaissance considérée i) le texte des corpus oraux (langage parlé), ii) l’identité du locuteur par segment acoustique (locuteur), iii) la langue parlée par segment acoustique (langue), iv) la classe émotionnelle du segment acoustique (émotion). Dans les challenges internationaux, les données de test représentent quelques heures de parole. Evaluation commune : Evaluation de performance des systèmes Par " évaluation commune ", on entend outils d’évaluation communs mis en œuvre, validés et utilisés par une infrastructure organisatrice des
Combinatorial Optimization in Practice 125 tests. Ce principe évite la duplication des efforts de mise en œuvre d’une évaluation de performance. L’évaluation de performance usuelle est de type " boîte noire " ; elle consiste à comparer l’hypothèse de recon- naissance/classification du système et la transcription de référence, en termes d’annotation, du signal-test acoustique. En reconnaissance du locuteur et en détection de la langue, les hy- pothèses de détection sont à valeurs booléennes. Dans ce cas, la me- sure de performance est une variante de la courbe ROC (Relative Ope- rating Characteristic) [64], la courbe DET (Detection Error Tradeoff) [65] avec en abscisse, le taux de fausse alarme et en ordonnée celui de mauvaise détection. La performance peut également être mesurée par le taux d’égale erreur (EER, Equal Error Rate), point caractéristique de la courbe DET où le taux de fausse alarme et celui de mauvaise détection sont égaux. En reconnaissance du langage parlé, la mesure de performance usuelle est le taux d’erreur en mots (WER, Word Error Rate) [66] défini par 100 fois le rapport du nombre de mots erronés de l’hypothèse du système au nombre de mots de la référence (0% est le meilleur score de reconnaissance, le taux d’erreur peut être supérieure à 100%). Les erreurs sont la substitution, l’insertion et l’omission de mot. L’identi- fication de ces erreurs résulte de l’alignement des mots de l’hypothèse et des mots de la référence par une variante de l’algorithme de Wagner et Fischer habituellement utilisé pour la comparaison de chaînes de ca- ractères. Une substitution a lieu lorsque les mots alignés diffèrent ; une insertion (resp. omission) a une occurrence lorsqu’un mot de l’hypo- thèse (resp. référence) n’a pas de correspondant dans la référence (resp. hypothèse). Pour des langues, comme par exemple le Mandarin, la me- sure de performance est le taux d’erreur en caractères dont le principe est similaire à la mesure précédemment donnée, mais transposée au ni- veau du caractère. En reconnaissance de l’émotion, le premier plan se limite à une éva- luation des systèmes suivant leur performance de classification de seg- ments acoustiques. Les systèmes y sont évalués par les mesures de rap- pel et de précision [67] usuelles en recherche d’information. Pour une classe donnée, ayant N occurrences de segments-test et P le nombre de segments-test attribués à la classe lors du test,
126 Studia Informatica Universalis. i) le rappel est le rapport du nombre de segments de cette classe classés correctement et de N, , ii) la précision est le rapport du nombre de segments de cette classe classés correctement et de P. L’autre mesure unificatrice utilisée est la F-mesure, moyenne harmo- nique du rappel et de la précision. 4. Performance des reconnaissances Pour conclure cette revue des reconnaissances de la parole, nous don- nerons les performances des systèmes obtenues lors des plans d’évalua- tion les plus récents. Ces plans suivent tous le paradigme d’évaluation décrit au chapitre 3, la spécification de la tâche nous permettra de pré- ciser la complexité de la reconnaissance et les résultats d’évaluation nous permettront de situer les performances atteintes par les systèmes de l’état de l’art. 4.1. La reconnaissance du locuteur NIST 2008 Speaker Recognition Evaluation Plan (SRE08) - Les évaluations NIST sur la reconnaissance du locuteur ont com- mencé en 1997 et se déroulent maintenant tous les 2 ans. Depuis 1997, le paradigme d’évaluation consiste en une série de tests de détection de locuteur sur une base de données commune divisée en données d’ap- prentissage et en données de test. Un test de détection de locuteur consiste à tester l’hypothèse “Le segment-test x est-il prononcé par le locuteur y ?” en comparant le segment x aux données d’apprentissage du locuteur y. Les résultats d’un test doivent être –une valeur de vrai- semblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uniquement sur les segments d’apprentissage et de test prévus dans le plan d’évaluation. Les mesures de performance associées à un ensemble de tests de détection sont la courbe DET (Detection Error Tra- deoff) et le taux d’égale erreur (EER - Equal Error Rate). Le plan d’évaluation 2008 comporte plusieurs types de données de parole enregistrées en qualité téléphonique sur un à plusieurs canaux :
Combinatorial Optimization in Practice 127 parole conversationnelle et interviews (mélange de parole lue et de voix spontanée). 13 séries de test (1 obligatoire et 12 facultatives) sont défi- nies dans le plan avec diverses combinaisons de sous-ensembles d’ap- prentissage et de test. La série obligatoire de tests de détection du lo- cuteur comprend 1 336 locuteurs avec une durée moyenne d’apprentis- sage de 3 minutes par locuteur et 6 557 segments de test d’une durée moyenne de 5 minutes. 46 sites ont participé à l’évaluation SRE 2008. Les organisateurs ont analysé les résultats de cette série de tests de dé- tection de locuteurs suivant 8 conditions [68] dépendant des caractéris- tiques des segments de test et d’apprentissage. Le taux d’égale erreur varie de 0.8%, dans le cas d’interviews avec la même chaîne d’acqui- sition à l’apprentissage et au test, à 5%, dans le cas de voix spontanées téléphoniques et des chaînes d’acquisition pouvant être différentes. 4.2. La détection de la langue NIST 2009 Language Recognition Evaluation Plan (LRE09) Les évaluations NIST sur la reconnaissance de la langue ont com- mencé en 2003, avec une phase exploratoire en 1996, et se déroulent tous les 2 ans en alternance avec les campagnes sur la reconnaissance du locuteur. Le paradigme d’évaluation reprend celui utilisé en recon- naissance du locuteur. Il consiste en une série de tests de détection de la langue sur une base de données commune divisée en données d’appren- tissage et données de test. Un test de détection de la langue consiste à tester l’hypothèse “Le segment-test x appartient-il à la langue y ?” en comparant le segment x aux données d’apprentissage de la langue y. Les résultats d’un test doivent être –une valeur de vraisemblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uni- quement sur les segments d’apprentissage et de test prévus dans le plan d’évaluation. Les mesures de performance associées à un ensemble de tests de détection sont la courbe DET (Detection Error Tradeoff) et le taux d’égale erreur (EER - Equal Error Rate). Le plan d’évaluation 2009 comporte 39 langues dont 23 utilisées à l’apprentissage avec une durée moyenne d’apprentissage d’une heure et demi. Les données de parole proviennent de conversions téléphoniques
Vous pouvez aussi lire