Les reconnaissances de la parole - Marie-José Caraty* - C. Montacié

La page est créée Éric Ollivier
 
CONTINUER À LIRE
Les reconnaissances de la parole

                    Marie-José Caraty* — C. Montacié **
                         * Université Paris Descartes - LIPADE
                          45, rue des Saints Pères - 75006 Paris
                         Marie-Jose.Caraty@ParisDescartes.fr
                      ** STIH, Université Paris-Sorbonne, France

Studia Informatica Universalis.
108    Studia Informatica Universalis.

1. La parole dans tous ses états

    La reconnaissance de la parole est l’une des tâches pionnières de l’In-
telligence Artificielle (IA) consistant à reproduire la capacité d’un être
humain à extraire des informations de la parole produite par un autre
être humain. Cette tâche, trop complexe pour être reproduite par un sys-
tème informatique unique, a été subdivisée en plusieurs sous-problèmes
en fonction du type d’informations à extraire et à reconnaître. Les pro-
blématiques les plus étudiées sont la reconnaissance du locuteur, de
son état émotionnel, de la langue employee et du langage parlé. Les
recherches sur la résolution des ces tâches ont donné lieu, depuis une
vingtaine d’années, à des dizaines de milliers de publications, des cen-
taines de bases de données de parole, des dizaines de campagnes inter-
nationales d’évaluation. Les progrès ont été importants et ont permis le
développement d’applications importantes en communication homme-
machine comme la dictée vocale ou les systèmes de dialogues finali-
sés des serveurs vocaux interactifs (SVI). Cependant de nombreuses
recherches restent indispensables en raison de l’ampleur du problème
et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms d’émo-
tions, près de 7000 langues et quelques centaines de milliers de mots par
langue. D’autres types d’information restent pour l’instant pratiquement
inexploités comme l’accent, l’état physiologique, le niveau de stress ou
de fatigue.
   La modélisation markovienne de la parole est un sujet de recherche
partagé entre toutes ces problématiques. Ce modèle et ses dérivés
comme les réseaux bayésiens ou les combinaisons de gaussiennes
(GMM) permettent l’intégration des informations acoustiques de la pa-
role continue avec des informations symboliques représentant les infor-
mations transmises et à reconnaître. Des méthodes efficaces permettent
d’inférer ces modèles à partir de la parole, d’estimer leurs paramètres
et de proposer des méthodes de reconnaissance de complexité polyno-
miale.
Combinatorial Optimization in Practice   109

1.1. Les caractéristiques individuelles et la reconnaissance du
locuteur

   Les caractéristiques individuelles d’un locuteur permettent à ses in-
terlocuteurs de le reconnaître par sa voix [1]. Ces caractéristiques sont
soit des traits acoustiques [2] reliés à la physiologie de l’appareil pho-
natoire (géométrie et qualité des organes de phonation), soit des traits
linguistiques reliés à l’apprentissage du langage parlé comme les ac-
cents régionaux [3] ou sociaux [4]. Le premier système automatique de
reconnaissance du locuteur date de 1963, mais ce n’est que depuis une
vingtaine d’années que ce domaine a éveillé l’intérêt d’un nombre crois-
sant de chercheurs, d’industriels, de policiers et de juges [5]. L’utilisa-
tion de mots-clés était indispensable dans les premières méthodes déve-
loppées [6], mais la plupart des systèmes actuels sont indépendants du
texte prononcé. Les techniques développées utilisent trois types d’ap-
proches : statique, dynamique et linguistique. Les systèmes de recon-
naissance du locuteur peuvent naturellement combiner plusieurs de ces
approches. Les deux premières approches s’appuient sur des informa-
tions purement acoustiques [7]. Elles se différencient par l’utilisation ou
non de paramètres représentant l’évolution temporelle du signal vocal
[8]. L’approche linguistique est fondée sur l’analyse du lexique employé
et des variantes dialectales utilisées [9]. Les deux principales applica-
tions de la reconnaissance du locuteur sont : –la vérification de l’identité
pour protéger l’accès physique à des locaux sensibles ou l’accès distant
à des informations confidentielles et –la vraisemblance de preuves en
justice dans le cadre de la comparaison de voix de justiciables.

1.2. La langue et sa détection

   Près de 7000 langues sont référencées dans le monde [10] dont plus
de 300 sont parlées par plus d’un million de personnes. Chacune de ces
langues a des caractéristiques phonologiques (ensemble des sons) [11],
morphologiques (ensemble des mots), et prosodiques (position des ac-
cents et intonations dans les mots, valeur sémantique des accents) dif-
férentes. Elles appartiennent à plus de 100 familles de langues (sino-
thibétaine, indo-européenne, dravidien, . . .) [12] construites à partir
de caractéristiques linguistiques communes. Les premières recherches
110    Studia Informatica Universalis.

datent des années 1970, avec à un taux d’identification de 62% pour des
segments de parole de 90 secondes en sept langues [13]. La principale
problématique a été de diminuer la durée des segments tout en augmen-
tant le nombre de langues. Les recherches ont pu être grandement facili-
tées par la disponibilité de la base de l’Oregon Graduate Institute (OGI)
dédiée à l’identification des langues et comportant des enregistrements
de communications téléphoniques (voix spontanées) en 22 langues [14].
Deux approches sont étudiées pour cette problématique, l’une est pure-
ment acoustique, l’autre plus difficile à mettre en IJuvre est linguistique.
L’approche acoustique consiste à représenter une langue par les réalisa-
tions acoustiques de ses phones [15] et des règles phonotactiques. Cette
approche donne de bons résultats si les langues ont un domaine acous-
tique nettement différencié, mais trouve rapidement ses limites quand
le nombre de langues augmente. L’approche linguistique est basée sur
la reconnaissance de mots [16] ou de syllabes spécifiques [17] d’une
langue, l’importance des ressources linguistiques à mettre en IJuvre
(dictionnaire et modèle de langage pour chaque langue à reconnaître)
rend cette approche plus difficile mais plus prometteuse que la précé-
dente. L’application principale de la détection automatique de la langue
ou de la famille de langues est le routage automatique d’appels télépho-
niques vers la personne ou le système de reconnaissance de la parole
susceptible de traiter la langue. D’autres applications existent dans le
domaine de la sécurité.

1.3. Le langage et la reconnaissance du langage parlé

    Depuis plus de 100 000 ans et le passage de la langue des gestes
au langage parlé [18], la parole est le moyen principal de communi-
cation entre les humains. Depuis près de 60 ans, la recherche en re-
connaissance automatique du langage parlé est l’un des enjeux majeurs
de l’intelligence artificielle. Sa problématique principale est l’associa-
tion d’un signal biologique, bruité et d’une grande variabilité spatiale
et temporelle [19], aux structures symboliques du langage (phonétique,
phonologique, lexical, morphologique, syntaxique, sémantique, prag-
matique et rhétorique). Les recherches en reconnaissance du langage
parlé consistent d’une part à modéliser cette variabilité par des mé-
thodes statistiques (e.g., modèles markoviens) et de recherche opéra-
Combinatorial Optimization in Practice   111

tionnelle (e.g., programmation dynamique) et d’autre part de définir des
processus de transduction entre les modèles du signal de parole et cer-
taines structures de la langue. Les principales tâches associées à la re-
connaissance du langage parlé sont le décodage acoustico-phonétique,
la détection de mots-clés et la reconnaissance des mots de la parole
continue. Le décodage acoustico-phonétique (DAP) consiste à extraire
d’une analyse du signal vocal, une hypothèse de treillis des phonèmes.
Les meilleures performances obtenues sont de l’ordre de 75% pour de
la parole lue [20] et de 60% pour de la parole conversationnelle télépho-
nique [21]. La détection de mots-clés [22, 23], cherche à reconnaître et
à localiser toutes les occurrences des mots d’une liste de mots-clés dans
un continuum de parole donné. Le taux de détection est donné en fonc-
tion du nombre de fausses alarmes par millier de mots-clés détectés et
par heure de parole (fa/kw/h). Il est de 15% à 25% pour 5 fa/kw/h pour
de la parole conversationnelle téléphonique [24]. La troisième tâche, la
reconnaissance des mots en parole continue, consiste à reconnaître tous
les mots d’une élocution prononcée de manière continue, c’est-à-dire
sans pause artificielle entre les mots. Les premiers systèmes datent du
début des années 90 [25]. L’apprentissage statistique à grande échelle
sur des milliers d’heures de parole [26] et des centaines de millions de
mots provenant de textes écrits et de transcriptions du langage parlé
a permis d’obtenir des lexiques de prononciation des mots ainsi que
des modélisations stochastiques de la parole et du langage parlé. Ces
ressources, utilisées pour diminuer l’espace de recherche des suites de
mots possibles, permettent d’obtenir des algorithmes de décodage de
complexité polynomiale. Les performances de reconnaissance sont de
l’ordre de 90% dans les meilleures conditions (voix lue avec une vi-
tesse d’élocution contrôlée, sans émotion et sans bruit). Les taux de
reconnaissance chutent fortement quand ces conditions changent [19].
Dans tous les cas, les performances des systèmes de reconnaissance du
langage parlé restent très éloignées des performances humaines [27].

1.4. La parole émotionnelle et la reconnaissance de l’émotion

   La réaction par le système limbique à un stimuli extérieur (e.g., si-
tuation de danger) provoque une réponse émotionnelle innée de l’être
humain par l’envoi de signaux vers les systèmes moteurs et le système
112    Studia Informatica Universalis.

nerveux central [28]. Ces signaux perturbent les commandes de l’appa-
reil phonatoire [29] et les processus cognitifs de production du langage
parlé [30]. La parole émotionnelle est alors la vocalisation de la réponse
émotionnelle. La parole émotionnelle peut également être apprise et
produite volontairement par le locuteur sans stimuli extérieur [31]. Dans
les deux cas, cette parole est porteuse d’informations sur les émotions
transmises par le locuteur, qu’elles soient ressenties ou simulées. Ces
informations perceptibles par un autre être humain constituent le mes-
sage émotionnel [32]. Deux types de problématiques sont associés à la
reconnaissance de ce message dans la parole : la représentation d’une
émotion et la détection des corrélats acoustiques et linguistiques asso-
ciés à cette représentation. Selon les différentes théories émotionnelles,
une émotion peut être représentée par une classe d’émotions [33, 34] ou
par un point dans un espace de dimension réduite [35]. Dans le cadre
de la reconnaissance de l’émotion, les deux types de représentation sont
utilisés : émotions positives et négatives, agréables ou désagréables ou
choix parmi une liste comme par exemple {colère, peur, tristesse, joie,
dégoût et surprise}. Les premiers travaux de reconnaissance automa-
tique de l’émotion datent des années 80 [36]. Plus d’une vingtaine de
bases de données de parole émotionnelle, validées à l’aide d’un cor-
pus d’auditeurs, sont maintenant référencées [37]. Dans la littérature,
les taux de reconnaissance varient de 50 à 75% pour une discrimination
entre 4 à 6 émotions. De nombreux paramètres acoustiques et linguis-
tiques sont étudiés comme la qualité de la parole, le timbre, la prosodie,
l’accentuation et l’intonation des mots [38]. Les principales applications
sont –l’amélioration des interfaces homme-machine par l’ajout d’une
composante émotionnelle, –la détection automatique de situations de
catastrophes ou de comportements anormaux.

2. Modélisation markovienne

    Plusieurs facteurs expliquent le succès et l’utilisation généralisée du
cadre markovien [39] pour modéliser la parole : les propriétés ma-
thématiques de convergence, le développement et la mise à disposi-
tion de grandes bases de données nécessaires à l’estimation statistique,
une architecture adéquate à l’intégration de connaissances symboliques
(linguistique, psychologique, physiologique, . . .) avec les descriptions
Combinatorial Optimization in Practice   113

numériques du continuum de parole (observations). Les premières re-
cherches ont eu lieu au début des années 70 par J. K. Baker [40] et F.
Jelinek [41] et cette modélisation est aujourd’hui encore à la base des
systèmes de l’état de l’art en reconnaissance de la parole.
   Dans le cadre markovien, le processus de décodage de la parole en
une suite de symboles (identité du locuteur, langue parlée, phonèmes,
mots, état émotionnel) utilise la règle de décision du maximum a poste-
riori [42] :
       w0 = arg maxw P (w/x)
                                                                            (1)
          = arg maxw P (x/w)P
                         P (x)
                               (w)
                                   = arg maxw P (x/w)P (w)
où :
   – x est la séquence d’observations représentant le continuum de pa-
role,
   – w0 est la suite de symboles décodés,
   – P (x/w), la probabilité d’observer la séquence d’observations x
pour un continuum de parole étiqueté avec la suite de symboles w,et
   – P (w), la probabilité d’un continuum de parole étiqueté avec la
suite de symboles w
    Le modèle markovien présente l’intérêt d’un traitement global des
niveaux acoustiques et symboliques pour le décodage et d’un appren-
tissage indépendant de la modélisation du canal acoustique et de la mo-
délisation du langage de symboles. Cependant la reconnaissance mar-
kovienne est coûteuse en temps de calcul et en mémoire dans le cas
d’un décodage optimal. Des méthodes d’élagage permettent d’établir
un compromis entre les solutions algorithmiques (recherche et optimi-
sation) et les contraintes matérielles (rapidité et mémoire).

2.1. Modélisation du canal acoustique

    Un modèle de Markov caché permet de modéliser la séquence d’ob-
servations associée à un symbole. Il est constitué de l’association d’une
chaîne de Markov homogène et des fonctions de densité de probabi-
lité des observations [43]. Une chaîne de Markov homogène est repré-
sentée par un automate d’états finis probabiliste constitué d’états et de
114    Studia Informatica Universalis.

transitions entre états. A chacune des transitions est associée une fonc-
tion de densité de probabilité. Elles permettent de mesurer la probabi-
lité conjointe d’une séquence d’observations associée à une séquence
de transitions de l’automate. La somme des probabilités conjointes sur
l’ensemble des séquences de transitions est la probabilité que ce mo-
dèle de Markov émette la séquence d’observations. Il constitue le terme
P (x/w) de l’équation (1). La topologie du modèle de Markov (nombre
des états de l’automate et transitions autorisées entre ces états) est choi-
sie a priori. Une des topologies usuelles, le modèle de Bakis [44], est
un bon compromis entre le nombre de transitions et celui des états. Il
comprend trois types de transitions : boucle sur le même état, transition
vers l’état suivant, saut d’un état. Le nombre d’états dépend de la taille
moyenne des segments acoustiques associés au symbole. Il est en gé-
néral de 3 dans le cas de segments phonétiques. Différents algorithmes
[45, 46] optimaux et sous-optimaux permettent d’estimer les paramètres
d’un modèle de Markov en fonction de données d’apprentissage. Le
processus de décodage d’une séquence d’observations consiste à choi-
sir comme symbole celui correspondant à la machine de Markov de plus
grande probabilité d’émission.

2.2. Modélisation du langage de symboles

   Les modèles du langage de symboles permettent de calculer le terme
P (w) de l’équation (1) et contraint la suite des symboles décodés. Ces
modèles de langage sont basés le plus souvent sur des n-grammes (i.e.,
probabilité d’une suite de n symboles). Ils sont utilisés principalement
dans la reconnaissance du langage parlé.
   Dans ce cadre, ils permettent de prendre en compte, le type d’élocu-
tions à reconnaître (lettres commerciales, diagnostics médicaux, textes
journalistiques, conversations, . . .) et d’éviter des suites de mots im-
probables. Ces modèles de langage sont estimés, à partir de corpus
de textes écrits de très grande taille, par le compte des occurrences n-
grammes dans les corpus et sont ainsi spécialisés dans le domaine des
textes appris. Si l’on prend l’exemple du modèle de langage calculés
par la société google [47] sur un ensemble de 95 millions de phrases
en anglais extraites du Web. Avec un lexique de 13 millions de mots,
Combinatorial Optimization in Practice   115

il n’y a que 314 millions de bigrammes (sur les 169x1012 possibles)
et 977 millions de trigrammes (sur les 4046x1018 possibles). Même si
ces nombres sont élevés, ils ne représentent qu’une infime partie des
n-grammes possibles. De manière à ne pas écarter une solution com-
prenant un n-gramme non-observé (probabilité d’apparition nulle) dans
les corpus d’apprentissage de modèles de langage, on estime un compte
non nul pour les n-grammes non-observés. Deux méthodes sont classi-
quement utilisées pour le calcul des n-grammes non-observés : la mé-
thode par interpolation [48] ou la méthode du “back off " [49, 50].

2.3. Les ressources

    Les ressources présentées ici sont indispensables à la reconnaissance
du langage parlé ; pour les autres reconnaissances, elles peuvent suivant
la stratégie adoptée être nécessaires en tout ou partie. Pour la reconnais-
sance du langage parlé, le vocabulaire de reconnaissance est l’ensemble
des mots pouvant apparaître dans l’hypothèse de décodage du système.
Ce vocabulaire doit permettre de construire le réseau de décodage des
mots qui est utilisé par le moteur de reconnaissance. Rappelons que dans
le cas de la reconnaissance à grand vocabulaire, les unités de reconnais-
sance sont usuellement les phonèmes, et les modèles acoustiques sont
les modèles de Markov cachés de ces unités. Le réseau de décodage est
la description de l’ensemble des mots possibles (vocabulaire) de l’hy-
pothèse du système ; chaque mot y est représenté comme la concaté-
nation des modèles acoustiques des unités phonétiques le constituant.
La connaissance du vocabulaire de reconnaissance est par conséquent
indispensable dans sa version phonétisée pour construire ce réseau.
    La nature de l’annotation des bases de données acoustiques utili-
sées pour l’apprentissage des modèles acoustiques conduit à distinguer
un autre lexique : le lexique d’apprentissage qui doit couvrir le cor-
pus d’apprentissage ou plus exactement les textes lui correspondant. La
meilleure adéquation des bases acoustiques au problème de cet appren-
tissage est leur étiquetage fin en phonèmes. S’il existe des solutions pour
parvenir à un apprentissage sans cet étiquetage, c’est par une procé-
dure itérative d’obtention de l’étiquetage fin mais avec peu d’assurance
sur sa qualité. Dans ce cas, les procédures font appel à la connaissance
116    Studia Informatica Universalis.

même imparfaite des modèles acoustiques et pour chaque phrase d’ap-
prentissage elles permettent d’aligner sa transcription phonétique sur le
signal vocal correspondant ; les modèles acoustiques peuvent alors être
réestimés. Ainsi, un lexique phonétisé (de qualité) couvrant les corpus
d’apprentissage est indispensable.
   Le vocabulaire de reconnaissance n’est a priori pas le même que le
lexique d’apprentissage. Sans modèle prédictif de ce qui peut être dit,
on choisit usuellement un vocabulaire de reconnaissance de taille fixe,
composé des mots les plus fréquents observés pour le domaine.
   Lexique phonétisé
   Pour couvrir toute l’étendue de la communication parlée, il serait évi-
demment souhaitable que le vocabulaire de reconnaissance couvre toute
l’expression de la langue. Les dictionnaires de la langue et les diction-
naires spécialisés forment la base d’une telle ressource. Quelques ordres
de grandeur : Larousse répertorie –76 000 entrées dans son Lexis, –
30 600 entrées dans son dictionnaire des noms de famille et prénoms de
France ; Le Robert répertorie –80 000 entrées lexicales, –42 000 entrées
dans son dictionnaire des noms propres en histoire, géographie, arts, lit-
térature, et sciences. On peut remarquer que seuls les dictionnaires de
la langue incluent systématiquement, dans la structure des articles, la
phonétique normative (décrite à partir de l’Alphabet Phonétique Inter-
national - API) et la caractérisation grammaticale du mot. Pour la suite,
SAMPA (Speech Assessment Methods Phonetic Alphabet) est le code
phonétique utilisé.
    Dans les dictionnaires, la phonétisation de référence privilégie les
scwhas (" e " muet). ; par exemple, le mot "appeler" est phonétisé /a p l
e/. Néanmoins, une variante de prononciation telle /a p @ l e/ peut être
observée avec le phonème /@/ bien présent dans le signal. Les phonéti-
sations utilisées doivent prendre en compte la réalisation optionnelle
du phonème. Le lexique doit également être étendu par l’adjonction
des flexions qui ne sont pas décrites in extenso dans le dictionnaire.
Parmi ces flexions, –les flexions en genre et en nombre, –les flexions
verbales en temps et en conjugaison, soit plus de 500 000 formes lexi-
calement différentes. Les variantes phonétiques engendrées par les liai-
sons doivent été traitées, en moyenne 2,15 variantes phonétiques par
Combinatorial Optimization in Practice   117

mot du dictionnaire. Le lexique phonétisé est ainsi étendu à plus d’un
million de formes phonétiquement différentes.
   Les entités nommées (e.g., prénoms, noms, pays, villes, lieux
"connus", . . .) sont à phonétiser. Plusieurs catégories dont les noms de
famille, par leur nombre et leur caractère international, montrent l’éten-
due du travail d’acquisition et le problème de leur phonétisation [51].
En effet, il existe souvent au moins deux phonétisations issues de la
prononciation, l’une francisée et l’autre résultant de la prononciation
par un non-natif dans la langue d’origine : par exemple, trois variantes
phonétiques pour Maastricht [m a s t R i k], [m a s t R i t* ch] (où *
symbolise la prononciation optionnelle) peuvent être retenues. La pho-
nétisation des mots étrangers entrant dans la langue française présente
le même ordre de difficulté.
   Corpus textuels pour l’apprentissage des modèles linguistiques
   De larges corpus de texte sont nécessaires à l’apprentissage des mo-
dèles statistiques de langage. La collecte de ces données vise à mieux
modéliser le domaine de la reconnaissance. Des méthodes de collecte
automatique à large échelle de pages Web [52] peuvent être utilisées
pour maintenir un modèle de langage ; la collecte de données pour un
nouveau domaine se résume alors à fournir les mots-clés adéquats au
moteur de recherche. Les applications visées avec la parole lue ou pré-
parée contrastent avec les applications du conversationnel où les thèmes
changent constamment et où le style varie. Les modèles de langage
doivent alors être adaptés aux thèmes (sources de données thématiques
variées) et au style (prise en compte de l’oral spontané et de sa trans-
cription) [53].
    Avant de calculer les modèles de langage, les textes doivent être nor-
malisés. Un travail préliminaire est le nettoyage des textes en s’affran-
chissant des balises de structuration (HTML, XML, . . .), en éliminant
les caractères et signes invalides, en corrigeant dans la mesure du pos-
sible les erreurs (coquilles, accents, ...) [52]. Il s’agit également de nor-
maliser les mots non-standards [54] qui n’appartiennent pas au diction-
naire de la langue :
i) les nombres (57, XIV, 2M, . . .), les dates, les devises (=  C, £, . . .) que
l’on transcrit à l’écrit sous leur forme parlée,
118    Studia Informatica Universalis.

ii) les abréviations pour lesquelles on définit des règles de réécriture
(Mr en Monsieur, Mme en Madame, Me en Maître, . . .) et
iii) les sigles que l’on normalise suivant leur variante de prononciation
en cas d’acronyme (ONU ou O.N.U. réécrit -O N U et prononcés
/o ai n y/, -ONU et prononcé /o n y/).
   En cas de prise en compte de l’emphase d’entités nommées à l’éva-
luation, son traitement présente des difficultés de désambiguisation
(mot ou entité nommée) lors de la décapitalisation des mots de débuts
de phrase. Une autre difficulté concerne le signe point qui a un sens dif-
férent s’il se trouve en fin de phrase, dans une abréviation ou dans un
nombre.
   L’utilisation des modèles de langage n-classes nécessite le taggage
des corpus textuels, c’est-à-dire l’étiquetage des mots en classes. Ainsi,
le vocabulaire de reconnaissance et le lexique de couverture des textes
d’apprentissage des modèles de langage doivent évidemment être tag-
gés. Les classes considérées pour les modèles n-classes peuvent être de
natures diverses : les classes peuvent être construites a priori comme
par exemple les classes grammaticales ou automatiquement en regrou-
pant les mots ayant le même comportement, c’est-à-dire les mots qui se
retrouvent toujours dans le même contexte . Pour un modèle n-classes
grammatical, des corpus grammaticaux peuvent être taggés jusqu’à 400
classes [55].

2.4. Moteur de reconnaissance et graphe de symboles

   Le moteur de reconnaissance permet la recherche d’une solution op-
timale ou sous-optimale de l’équation (1). Plusieurs algorithmes de
complexité polynomiale [56, 57] permettent d’obtenir cette solution
en une ou plusieurs passes synchrones et asynchrones. Cependant, la
suite de symboles correspondant à la solution contient en général trop
d’erreurs pour être directement utilisable dans des traitements ulté-
rieurs (e.g., correction grammaticale, traduction, résumé, veille). Pour
résoudre ce problème, le moteur propose alors un ensemble de solu-
tions représentées sous forme d’un graphe de symboles [58].
Combinatorial Optimization in Practice   119

   Dans le cas de l’algorithme du One Pass [59] et d’un graphe de sym-
boles synchrones [60], le processus de décodage comprend plusieurs
passes synchrones. La complexité de la première passe est en O(V n )
avec V la taille du vocabulaire et n l’ordre choisi des n-grammes du
modèle de langage utilisé. Cette première passe de décodage génère un
graphe de symboles d’une profondeur choisi V1 (V1 ≤ V ). Les autres
passes servent à réorganiser ce graphe en utilisant des modèles de lan-
gage plus complexes. La ième passe de décodage génère un graphe de
symboles d’une profondeur Vi choisi (Vi ≤ Vi−1 ≤ V ). Sa complexité
               ni
est en en O(Vi−1  ) avec ni l’ordre choisi des n-grammes du modèle de
langage utilisé. L’ensemble des passes de décodage a pour but de faire
remonter peu à peu la bonne solution dans le graphe de symboles tout
en contrôlant la complexité.

3. Evaluation et paradigme d’évaluation

    L’évaluation est au cœur des progrès dans tous les domaines de l’in-
génierie. Bien que les méthodologies d’évaluation soient en constante
évolution, leur succès est déjà tel que l’évaluation pourrait être un
domaine de " recherche propre ". Les compétitions se généralisent,
elles sont déjà ouvertes à de nombreux domaines technologiques. Par
exemple et en collaboration avec NIST (National Institute of Standards
and Technology) [61], l’ATP (Advanced Technology Program) [62] et
récemment le TIP (Technology Innovation Plan) [63] financent et or-
ganisent des plans d’évaluation dans l’objectif d’accélérer le dévelop-
pement de la recherche et de la technologie. Les domaines concernés
sont aussi divers que l’agriculture, la biotechnologie, la micro/nano-
électronique, les machines-outils, l’automobile, les matériaux avancés,
l’information, la communication, la chimie, l’énergie, l’environnement,
... Toutes ces plans ne peuvent être menés qu’avec des méthodologies
d’évaluation adéquates.

3.1. Modes d’évaluation

   Depuis la conception d’un système et jusqu’à son transfert techno-
logique, l’évaluation est présente. Si la méthodologie d’évaluation va-
120    Studia Informatica Universalis.

rie, elle est un moteur indéniable dans les phases –de conception, –de
développement, –de maintenance et –d’utilisation finale. L’évaluation
est " plurielle " ; en effet, différents modes d’évaluation sont identifiés
relativement à leurs buts. Il s’agit principalement de l’adéquation, du
diagnostic, du quantitatif et du qualitatif.
   Evaluation d’adéquation
   L’adéquation dont il s’agit est celle du système à la tâche assignée,
avec la prise en compte de la qualité et du coût. Ce type d’évaluation,
couplé avec l’identification des besoins potentiels des utilisateurs, est
particulièrement intéressant dans l’information aux " consommateurs ".
Le but n’est pas tant d’identifier le " meilleur système ", que de don-
ner une information comparative qui permette à l’utilisateur de faire un
choix éclairé du produit relativement à ses besoins et à ses contraintes.
   Evaluation de diagnostic
    C’est ici un maillage de l’espace des entrées possibles, qui permet de
dresser un profil du comportement attendu du système. L’une des dif-
ficultés est bien évidemment de construire une suite de tests représen-
tative. Typiquement, les tests de programme par jeux d’essai relèvent
de l’évaluation de diagnostic. Tout programmeur connaît bien les li-
mites d’une telle approche : les jeux d’essai ne peuvent servir de preuve
de programme, mais seulement de contre-exemples. Un autre exemple
de ce mode d’évaluation est le développement des compilateurs. C’est
à la suite d’une évaluation de diagnostic intensive que la norme peut
être créée et que les compilateurs peuvent être agréés en fonction de la
qualité de leurs réponses aux tests de normalisation (benchmarks). Les
tests de diagnostic permettent la maintenance d’un système évolutif par
des tests de régression sur les versions consécutives du système. Un
dernier exemple concerne les systèmes d’interaction Homme-Machine
pour lesquels l’information de diagnostic est utile : ce que " réussit "
un système et ce qui lui reste " à acquérir " sont autant d’informations
importantes pour la conception et le développement de ces systèmes.
   Evaluation de performance quantitative
  Le triptique critère/mesure/méthode permet l’évaluation de perfor-
mance quantitative. Dans l’exemple de la reconnaissance du langage
Combinatorial Optimization in Practice   121

parlé, où la problématique est de passer de la parole au texte, –le critère
est la " bonne " reconnaissance, –la mesure usuelle est le taux d’erreur
en mots, et –la méthode consiste à comparer l’hypothèse de reconnais-
sance du système et la transcription de référence du signal-test acous-
tique (dans le " meilleur des cas ", faite par un expert humain). Ce mode
d’évaluation, adapté à la comparaison d’implémentations, est utile pour
le développement et l’amélioration des systèmes. Pour une même tâche
de reconnaissance, les tests contrastifs permettent d’évaluer la contribu-
tion d’un composant sur les performances globales du système.
   Evaluation de performance qualitative
    Cette évaluation vise une meilleure connaissance de ce qui est prédo-
minant dans l’évaluation quantitative du système. Comment et pourquoi
le système fonctionne-t-il ? L’un des intérêts de cette évaluation est que
pour un système très sophistiqué, cette connaissance est indispensable
afin de simplifier ou d’améliorer le système. On peut citer en exemple
le projet d’évaluation MultiKron de NIST pour les applications paral-
lèles et distribuées. La principale préoccupation est alors d’améliorer
les applications ; l’observation du système, des goulots d’étranglement
est une information qui peut conduire à ces améliorations. L’instrumen-
tation nécessaire à la capture de cette information ne doit cependant pas
trop perturber le système sous peine de devenir non significative. La
solution de NIST au problème a été la conception et le développement
d’une puce " espionne ". Cette puce permet de mesurer les performances
des processeurs parallèles et des stations de travail sur des réseaux à haut
débit, en enregistrant des événements comme par exemple les écritures-
mémoire et les interruptions. Les mesures d’évaluation ainsi obtenues
ont permis aux chercheurs de mieux comprendre la source des goulots
d’étranglement et ainsi d’améliorer les applications.
   A travers ces différents modes, on comprend tout l’intérêt de l’éva-
luation pour le cycle vie des systèmes, pour les intégrateurs et enfin pour
les consommateurs. Si l’évaluation n’est pas une politique scientifique,
elle est au moins un guide précieux pour la recherche.
122    Studia Informatica Universalis.

3.2. Paradigme d’évaluation en reconnaissance vocale

   Le paradigme d’évaluation a pour but d’accélérer le développement
de la recherche et de la technologie par des plans d’évaluation, selon un
principe qui peut être résumé par " tâche commune, données communes,
évaluation commune ". Bien que l’on retrouve ce paradigme dans bien
des domaines, entre autres, celui de l’ingénierie de la langue, c’est dans
sa mise en œuvre en reconnaissance vocale que nous présentons le prin-
cipe du paradigme défini par NIST et utilisé dans les plans d’évaluation
internationaux. :
   1) Diffusion d’un challenge sur une tâche spécifiée.
   2) Distribution aux participants des bases de données nécessaires au
développement des modèles et des systèmes.
   3) Test des systèmes participants sur des données communes en un
temps limité.
   4) Appel à une infrastructure pour la mesure et la comparaison des
performances des systèmes.
   Les principes du paradigme d’évaluation vont faire l’objet d’un dé-
veloppement pour en apprécier tout l’intérêt.
   Tâche commune : Spécification de la tâche de reconnaissance
   Spécifier une tâche de reconnaissance, c’est également fixer la com-
plexité de la reconnaissance. De nombreux paramètres sont liés à la
tâche de reconnaissance, leur spécification induit des facteurs de com-
plexité qui ont une influence sur les performances " attendues " du sys-
tème et sur les techniques à employer.
   Spécification de la dépendance du système aux locuteurs
   Pour une reconnaissance mono-locuteur (resp. multi-locuteurs), le(s)
locuteur(s) de test est (resp. sont) le(s) même(s) que le(s) locuteur(s)
d’apprentissage. Pour une reconnaissance indépendante du locuteur, les
locuteurs de test sont distincts des locuteurs d’apprentissage. La com-
plexité est ici croissante ; elle s’explique par la grande variabilité du si-
gnal vocal dont on sait toute l’importance pour un locuteur donné et qui
s’accroît bien évidemment pour une population de locuteurs. Les mo-
dèles acoustiques, appris sur une population, nécessitent des techniques
Combinatorial Optimization in Practice   123

d’adaptation des modèles acoustiques (appris pour être indépendants du
locuteur) au locuteur de test et ce quelque soit la reconnaissance de la
parole considérée.
   Spécification de la nature du document audio traité
    Indépendamment de l’environnement lors de l’enregistrement audio,
il existe une grande variété de documents audio. Ainsi, une grande dif-
férence existe entre la parole lue, préparée, actée, spontanée et conver-
sationnelle. Les phénomènes de production sont très différents et ont
une influence directe sur l’acoustique et sur les performances de recon-
naissance traitant l’information linguistique ou para-linguistique.
   Relativement à la parole lue/préparée, la parole spontanée relève du
langage naturel pour lequel le vocabulaire, la variété des expressions et
des thèmes abordés sont bien plus importants, les modèles linguistiques
sont alors plus difficiles à apprendre. Cette complexité est à considé-
rer dans tous les cas où la reconnaissances utilise les modèles linguis-
tiques. La parole spontanée est, de plus, sujette à des respirations, des
hésitations, des erreurs de prononciation, des reprises, des inattendus
structurels ; autant de spécificités difficiles à modéliser. Pour la parole
conversationnelle, deux paramètres de complexité s’ajoutent encore : le
choix de l’échelle d’articulation allant de l’hypo-articulation à l’hyper-
articulation et les recouvrements possibles des signaux de parole des
protagonistes qui affectera toutes les reconnaissances.
   Spécification des conditions d’enregistrement
   Lors de l’enregistrement des données audio, l’environnement peut-
être non bruité ou bruité. Les bruits peuvent être additifs ou convolutifs.
Le microphone peut être connu ou inconnu. Cette complexité est crois-
sante dans le sens où les techniques mises en œuvre doivent être ro-
bustes au bruit. Là encore, des techniques d’adaptation au bruit peuvent
s’avérer nécessaires, ainsi que des primitives de pré-traitement du si-
gnal. Le canal de transmission typique pour la parole est le téléphone.
Il est caractérisé par sa bande passante [300-3400 Hz] qui n’est pas
sans conséquence sur le signal vocal reçu ; le type de micro télépho-
nique ainsi que la qualité de la transmission (courte ou longue distance)
sont deux autres facteurs de variabilité qui peuvent être responsables de
distorsions et d’altérations du signal. Si la parole téléphonique est tout
124    Studia Informatica Universalis.

particulièrement la cible des plans d’évaluation internationaux de la re-
connaissance du locuteur, les conditions d’enregistrements influent sur
toutes les reconnaissances.
   Compte tenu du degré de liberté de la spécification de la tâche et
de la complexité engendrée à la reconnaissance, toute comparaison de
systèmes ne peut a priori être établie que sur une " tâche commune " de
reconnaissance.
   Données communes : Corpus de développement et corpus de test
    Pour les besoins stricts de la méthodologie d’évaluation, les " don-
nées communes " se résument à la distribution aux participants des cor-
pus acoustiques de développement et de test. Les données de dévelop-
pement ont pour but de permettre l’adaptation des systèmes à la tâche
spécifiée pour le test. Le corpus de développement doit être représen-
tatif du corpus de test. Par conséquent, les données doivent être homo-
gènes aussi bien par leur nature (e.g., texte dont le test est issu) que par
leur condition d’enregistrement (e.g., matériel d’enregistrement iden-
tique). Dans le cas d’une reconnaissance indépendamment du locuteur,
les locuteurs de développement et de test sont différents. Les données
de développement sont antérieures aux données de test par leur date
d’enregistrement et, par exemple, par les textes dont elles proviennent.
La contrainte pour le test est que les données n’aient servi à aucun ap-
prentissage et à aucun développement, les locuteurs étant évidemment
différents. De plus, les données de développement et de test doivent être
annotées afin de permettre l’évaluation de performance des systèmes
suivant la méthodologie retenue.
    L’annotation des données de développement et de test est suivant la
reconnaissance considérée i) le texte des corpus oraux (langage parlé),
ii) l’identité du locuteur par segment acoustique (locuteur), iii) la langue
parlée par segment acoustique (langue), iv) la classe émotionnelle du
segment acoustique (émotion). Dans les challenges internationaux, les
données de test représentent quelques heures de parole.
   Evaluation commune : Evaluation de performance des systèmes
  Par " évaluation commune ", on entend outils d’évaluation communs
mis en œuvre, validés et utilisés par une infrastructure organisatrice des
Combinatorial Optimization in Practice   125

tests. Ce principe évite la duplication des efforts de mise en œuvre d’une
évaluation de performance. L’évaluation de performance usuelle est de
type " boîte noire " ; elle consiste à comparer l’hypothèse de recon-
naissance/classification du système et la transcription de référence, en
termes d’annotation, du signal-test acoustique.
   En reconnaissance du locuteur et en détection de la langue, les hy-
pothèses de détection sont à valeurs booléennes. Dans ce cas, la me-
sure de performance est une variante de la courbe ROC (Relative Ope-
rating Characteristic) [64], la courbe DET (Detection Error Tradeoff)
[65] avec en abscisse, le taux de fausse alarme et en ordonnée celui de
mauvaise détection. La performance peut également être mesurée par le
taux d’égale erreur (EER, Equal Error Rate), point caractéristique de la
courbe DET où le taux de fausse alarme et celui de mauvaise détection
sont égaux.
   En reconnaissance du langage parlé, la mesure de performance
usuelle est le taux d’erreur en mots (WER, Word Error Rate) [66] défini
par 100 fois le rapport du nombre de mots erronés de l’hypothèse du
système au nombre de mots de la référence (0% est le meilleur score
de reconnaissance, le taux d’erreur peut être supérieure à 100%). Les
erreurs sont la substitution, l’insertion et l’omission de mot. L’identi-
fication de ces erreurs résulte de l’alignement des mots de l’hypothèse
et des mots de la référence par une variante de l’algorithme de Wagner
et Fischer habituellement utilisé pour la comparaison de chaînes de ca-
ractères. Une substitution a lieu lorsque les mots alignés diffèrent ; une
insertion (resp. omission) a une occurrence lorsqu’un mot de l’hypo-
thèse (resp. référence) n’a pas de correspondant dans la référence (resp.
hypothèse). Pour des langues, comme par exemple le Mandarin, la me-
sure de performance est le taux d’erreur en caractères dont le principe
est similaire à la mesure précédemment donnée, mais transposée au ni-
veau du caractère.
   En reconnaissance de l’émotion, le premier plan se limite à une éva-
luation des systèmes suivant leur performance de classification de seg-
ments acoustiques. Les systèmes y sont évalués par les mesures de rap-
pel et de précision [67] usuelles en recherche d’information. Pour une
classe donnée, ayant N occurrences de segments-test et P le nombre de
segments-test attribués à la classe lors du test,
126    Studia Informatica Universalis.

i) le rappel est le rapport du nombre de segments de cette classe classés
correctement et de N, ,
ii) la précision est le rapport du nombre de segments de cette classe
classés correctement et de P.
L’autre mesure unificatrice utilisée est la F-mesure, moyenne harmo-
nique du rappel et de la précision.

4. Performance des reconnaissances

   Pour conclure cette revue des reconnaissances de la parole, nous don-
nerons les performances des systèmes obtenues lors des plans d’évalua-
tion les plus récents. Ces plans suivent tous le paradigme d’évaluation
décrit au chapitre 3, la spécification de la tâche nous permettra de pré-
ciser la complexité de la reconnaissance et les résultats d’évaluation
nous permettront de situer les performances atteintes par les systèmes
de l’état de l’art.

4.1. La reconnaissance du locuteur NIST 2008 Speaker Recognition
Evaluation Plan (SRE08)

   - Les évaluations NIST sur la reconnaissance du locuteur ont com-
mencé en 1997 et se déroulent maintenant tous les 2 ans. Depuis 1997,
le paradigme d’évaluation consiste en une série de tests de détection de
locuteur sur une base de données commune divisée en données d’ap-
prentissage et en données de test. Un test de détection de locuteur
consiste à tester l’hypothèse “Le segment-test x est-il prononcé par le
locuteur y ?” en comparant le segment x aux données d’apprentissage
du locuteur y. Les résultats d’un test doivent être –une valeur de vrai-
semblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur
booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être
fondée uniquement sur les segments d’apprentissage et de test prévus
dans le plan d’évaluation. Les mesures de performance associées à un
ensemble de tests de détection sont la courbe DET (Detection Error Tra-
deoff) et le taux d’égale erreur (EER - Equal Error Rate).
   Le plan d’évaluation 2008 comporte plusieurs types de données de
parole enregistrées en qualité téléphonique sur un à plusieurs canaux :
Combinatorial Optimization in Practice   127

parole conversationnelle et interviews (mélange de parole lue et de voix
spontanée). 13 séries de test (1 obligatoire et 12 facultatives) sont défi-
nies dans le plan avec diverses combinaisons de sous-ensembles d’ap-
prentissage et de test. La série obligatoire de tests de détection du lo-
cuteur comprend 1 336 locuteurs avec une durée moyenne d’apprentis-
sage de 3 minutes par locuteur et 6 557 segments de test d’une durée
moyenne de 5 minutes. 46 sites ont participé à l’évaluation SRE 2008.
Les organisateurs ont analysé les résultats de cette série de tests de dé-
tection de locuteurs suivant 8 conditions [68] dépendant des caractéris-
tiques des segments de test et d’apprentissage. Le taux d’égale erreur
varie de 0.8%, dans le cas d’interviews avec la même chaîne d’acqui-
sition à l’apprentissage et au test, à 5%, dans le cas de voix spontanées
téléphoniques et des chaînes d’acquisition pouvant être différentes.

4.2. La détection de la langue NIST 2009 Language Recognition
Evaluation Plan (LRE09)

    Les évaluations NIST sur la reconnaissance de la langue ont com-
mencé en 2003, avec une phase exploratoire en 1996, et se déroulent
tous les 2 ans en alternance avec les campagnes sur la reconnaissance
du locuteur. Le paradigme d’évaluation reprend celui utilisé en recon-
naissance du locuteur. Il consiste en une série de tests de détection de la
langue sur une base de données commune divisée en données d’appren-
tissage et données de test. Un test de détection de la langue consiste
à tester l’hypothèse “Le segment-test x appartient-il à la langue y ?”
en comparant le segment x aux données d’apprentissage de la langue
y. Les résultats d’un test doivent être –une valeur de vraisemblance de
cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur
l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uni-
quement sur les segments d’apprentissage et de test prévus dans le plan
d’évaluation. Les mesures de performance associées à un ensemble de
tests de détection sont la courbe DET (Detection Error Tradeoff) et le
taux d’égale erreur (EER - Equal Error Rate).
   Le plan d’évaluation 2009 comporte 39 langues dont 23 utilisées à
l’apprentissage avec une durée moyenne d’apprentissage d’une heure et
demi. Les données de parole proviennent de conversions téléphoniques
Vous pouvez aussi lire