Un modèle syntactico-prosodique pour la synthèse de la parole à partir du texte en arabe standard voyellé

La page est créée Alexandre Barbier
 
CONTINUER À LIRE
Un modèle syntactico-prosodique pour la synthèse de la
     parole à partir du texte en arabe standard voyellé

                    Sofiane BALOUL1,2 & Philippe BOULA de MAREÜIL2,3

                             1
                              Laboratoire d’Informatique de l’Université du Maine
                                      72085 Le Mans CEDEX 9 - FRANCE
                            Tél. : +33 (0) 2 43 83 38 74 - Fax : +33 (0) 2 43 83 38 68
                                Mél : sofiane.baloul@lium.univ-lemans.fr

                                                   2
                                                     Elan Informatique
                                     4 rue Jean Rodier - 31400 Toulouse – FRANCE
                            Tél. : +33 (0) 5 61 36 89 10 - Fax : +33 (0) 5 61 36 89 11
                                        Mél : mareuil@elan.fr – http://www.elan.fr

                                                       3
                                                        LIMSI-CNRS
                                             BP 133 F-91403 Orsay - FRANCE
                                 Tél. : +33 (0) 1 69 85 81 19 – Fax: +33 (0) 1 69 85 80 88
                                        Mél : mareuil@limsi.fr – http://www.limsi.fr

RÉSUMÉ

Cet article présente un modèle syntactico-prosodique pour l’arabe standard voyellé, dans le cadre de la synthèse
de la parole à partir du texte par diphones. Ce modèle, fondé sur des règles de réécriture, calcule les marques
syntaxiques du texte en entrée, qui est ainsi découpé en tronçons (intermédiaires entre le mot et la phrase) non
récursifs. L’interface syntaxe-prosodie permet ensuite de distribuer des pauses (à partir de critères
phonotactiques et ponctuationnels) et, après l’assignation de l’accent lexical, de générer les paramètres
prosodiques de hauteur et de durée. Le contour mélodique dépend de la modalité de la phrase (déclarative ou
interrogative), de la position du mot dans le tronçon et de la position du tronçon dans la phrase : au sein du
tronçon, le degré d’accentuation augmente du début à la fin du tronçon ; au sein de la phrase, le degré
d’accentuation du tronçon diminue du début à la fin de la phrase. Quant à la durée phonémique, elle est calculée
par un modèle multiplicatif à base de règles d’allongement/ réduction des durées intrinsèques. L’intégration dans
un système multilingue de synthèse de la parole à partir du texte est en cours d’évaluation : les résultats seront
présentés lors de la conférence.

Mots-clés : TALN, traitement de la parole, synthèse vocale.
1 INTRODUCTION
Cet article présente un modèle de génération automatique de la prosodie en arabe standard, à partir de marqueurs
syntaxiques, dans le cadre de la synthèse de la parole à partir du texte par diphones — on entend par là un
système de lecture à haute voix de textes par un ordinateur. La contribution de la syntaxe a été mise en évidence
dans les systèmes de synthèse traitant de diverses langues indo-européennes [2] [6] [16] [20]. Elle peut jouer à
deux niveaux : au niveau de la transcription orthographique-phonétique, pour la gestion des homographes-
hétérophones (mots qui, selon la catégorie ou le sens, peuvent être prononcés de différentes façons), ou au
niveau de la génération de l’intonation et des pauses.
En ce qui concerne la langue arabe (nous traitons ici de l’arabe standard, c’est-à-dire l’arabe enseigné dans les
écoles), peu de recherches se sont penchées sur cette question, et les avis se rapportant au rôle de la syntaxe sont
divergents. Les premières études affirment qu’il existe une relation privilégiée entre la prosodie (les maxima du
contour intonatif) et la syntaxe [14] [21] : elles supposent une analyse syntaxique sophistiquée et un générateur
prosodique fondé sur la structure syntaxique ainsi produite. Mais à défaut d’analyse syntaxique automatique pour
l’arabe, l’étiquetage des mots en parties du discours se fait manuellement [12], ce qui est inenvisageable dans un
but de système automatique de synthèse de la parole à partir du texte. Des recherches plus récentes sur la
prosodie arabe réfutent cette nécessité d’un traitement syntaxique, et suggèrent que la prosodie peut être générée
indépendamment, sur la base de critères acoustiques, phonologiques et phonotactiques [22], bien que certaines
opérations soient interdites à des endroits comme après la préposition  . La démarche proposée ici se distingue
de ces deux tendances, et prône une position intermédiaire : nous verrons d’abord que la syntaxe est
incontournable, mais qu’une analyse syntaxique superficielle, partielle (shallow/partial parsing) peut suffire au
calcul de la prosodie (au moins pour établir une bi-partition entre mots clitiques et non-clitiques) ; ensuite, ce
traitement syntaxique est entièrement automatique, à supposer que le texte en entrée soit voyellé (voir à ce sujet
[8]).
La section suivante pose les principes de notre grammaire en tronçons et présente dans ses grands traits la
méthode suivie, ascendante, qui repose sur l’observation d’un corpus de quelque 400 phrases. Comme illustré
figure 1, le découpage des phrases en tronçons nécessite la connaissance de la catégorie grammaticale des mots
qui les composent : c’est le rôle de l’analyse morpho-syntaxique (section 2). Nous ne détaillerons pas la
translitération ni la transcription orthographique-phonétique, laquelle est plus immédiate que dans des langues
comme le français ou l’anglais : elle repose sur une centaine de règles (qui convertissent des graphèmes en
phonèmes selon leurs contextes gauche et droit, rendant compte des phénomènes d’emphase, liaison,
assimilation ou gémination notamment au niveau de l’article [23]) et sur un lexique d’exceptions. La
transcription orthographique-phonétique et le parenthésage syntaxique (section 3), qui est également à base de
règles, sont exploités pour prédire le placement de l’accent lexical et des pauses, pour calculer l’évolution de la
fréquence fondamentale (F0) et la durée des phonèmes — l’intensité n’est pour l’instant pas traitée. La section 4
est dédiée à ce modèle.

            ressources                   base de règles
             lexicales                   de déduction
             partielles                   contextuelle
                                                                   grammaire

                                                 une étiquette
  Phrase               Étiquetage                                  Parenthésage
                    morpho-syntaxique                               syntaxique

                                                                               tronçons

                                Transcription                           Interface                        prosodie
                          orthographique-phonétique                 syntaxe-prosodie

                                      Fig. 1. Diagramme bloc de l’analyse linguistique.
2 LA GRAMMAIRE EN TRONÇONS : APPLICATION A L’ARABE
2.1 Principes généraux
Notre objectif ici est de produire une analyse syntaxique en vue de la synthèse vocale. L’analyse syntaxique
n’est donc pas un but en soi, mais doit être guidée par les contraintes inhérentes au système de synthèse :
souplesse, robustesse (pour des applications à large couverture), rapidité (temps réel) et qualité globale
acceptable. Pour répondre à ces exigences, il n’est pas souhaitable, par exemple, de rendre compte de la
grammaticalité des phrases à synthétiser (en rejetant les phrases n’appartenant pas à la langue) : le système doit
traiter n’importe quelle phrase en entrée. De plus, il n’est pas nécessaire d’explorer pour chaque phrase
l’ensemble des solutions possibles : l’analyse syntaxique doit être déterministe.
C’est dans ce contexte qu’une grammaire en tronçons est proposée : fondée sur une analyse superficielle et non-
exhaustive du texte, cette grammaire consiste à diviser la phrase en groupes de mots non récursifs, baptisés
chunk en anglais [1], tronçons en français [5], sans nécessairement les mettre en relation les uns avec les autres.
Les mots appartenant à un même tronçon se caractérisent par des liens syntaxiques forts : ainsi, leur ordre dans le
tronçon est rigide comparé à l’ordre des tronçons dans la phrase, qui est relativement flexible. D’un point de vue
prosodique, le tronçon ne peut être scindé ni par une pause ni par une frontière intonative : il trouve son
équivalant à l’oral sous la forme de groupes accentuels, constitués d’un mot accentogène et de mots clitiques
(sans accent lexical) périphériques [9]. Par ailleurs, la pertinence de cette unité dans la hiérarchie mot-tronçon-
phrase a été démontrée dans différentes langues [15]. La question que nous nous sommes dès lors posée est la
suivante : comment délimiter ces tronçons en arabe ? Nous allons tenter d’y apporter un début de réponse en
section 3. Mais en préalable aux prises de décisions sur les dépendances entre les mots, il faut définir un jeu
d’étiquettes grammaticales adapté au découpage en tronçons (cf. Tab. 1), et il convient de décrire brièvement les
corpus sur lequel nous nous sommes appuyés.
2.2 Corpus
Nous avons construit deux corpus, sur lesquels l’analyse a été effectuée. Un premier corpus est issu de MULTEXT
[7], qui a été adapté à l’arabe et voyellé par un expert algérois : il en résulte 36 passages de 9-10 phrases reliées
par une structure thématique cohérente, comptant au total 2598 mots. Un second corpus, dans la lignée de [21],
est constitué de 120 phrases isolées, dont les structures syntaxiques varient progressivement (des structures
simples aux structures complexes), et dont la longueur varie de deux à huit mots : ces phrases (60 nominales et
60 verbales) sont toutes déclaratives et comptent au total 541 mots.
Concernant l’oralisation du corpus, nous nous sommes limités à une situation de lecture : le corpus a été lu (à
une vitesse d’élocution moyenne, de 10 à 13 phonèmes/ seconde) par un locuteur algérois de 28 ans, ayant une
bonne maîtrise de l’arabe standard. Il a été échantillonné à 16 kHz et analysé à l’aide d’un outil de recopie de
prosodie développé à Elan [6]. Notre perspective s’inscrivant dans le cadre de la synthèse de la parole à partir du
texte, nous avons choisi de travailler sur une voix unique, afin d’obtenir une description cohérente pour ce
locuteur, même si l’on obtient un modèle fondé sur des variations individuelles et non sur une moyenne
d’invariants pour la langue traitée. En retour, la synthèse de parole permet une validation perceptive de certaines
hypothèses — ce qui vaut également pour les structures absentes du corpus observé, nécessairement fini.
3 ÉTIQUETAGE MORPHO-SYNTAXIQUE
L’étiquetage morpho-syntaxique (ou tagging) que nous avons développé reprend les principes de Vergne [27].
L’approche repose sur la propagation de déductions contextuelles, utilisant un lexique partiel : une étiquette par
défaut étant associée à chaque mot, les règles de déductions interviennent en aval pour confirmer la valeur
attribuée par défaut, ou au contraire, modifier cette valeur en fonction du contexte d’apparition du mot.
3.1 Analyse morphologique
Dans ce qui nous intéresse ici, nous privilégions les mécanismes purement morphologiques, sans référence à la
position du mot dans la phrase. Selon la grammaire traditionnelle, le lexique arabe comprend trois catégories de
mots : verbes, noms (substantifs et adjectifs — « deux catégories qu’il est difficile de distinguer » [3] —) et
particules (recouvrant adverbes, conjonctions et prépositions). Hormis les noms propres (d’animaux ou de tribus
qui contrairement aux participes et infinitifs ne sont pas de formation verbale), les mots des deux premières
catégories sont dérivés à partir d’une racine : un squelette de trois consonnes radicales le plus souvent, quatre
dans 1 à 2 % des cas [4]. À partir d’une racine, passée dans différents schèmes, une famille de mots peut être
engendrée autour d’un même concept sémantique comme celui d’écriture. Ainsi, si cette racine ( ) est passée
dans le schème du participe actif, le mot             (/ka:tibu/, « écrivain ») est formé : c’est le fait le plus
caractéristique de la morphologie arabe, et plus généralement sémitique.
Un autre fait remarquable est le caractère flexionnel des mots arabes : les terminaisons permettent de distinguer
le mode des verbes, la fonction des noms… Les signes suivants (déclinaisons ou désinences) sont des indices
très importants pour nos règles :
ƒ   la damma pour les noms sujets et les verbes à l’inaccompli et au futur ;
ƒ   la fatha pour les noms objets et les verbes au subjonctif ;
ƒ   la kasra pour les noms au cas indirect ;
ƒ   le sukûn pour le verbe apocopé.
C’est dans ce contexte que nous avons défini une liste d’étiquettes morphologiques, au nombre de 23, qui
rendent compte de la nature du mot (verbe, nom, particule) ainsi que, pour les noms, de leur flexion casuelle (cas
sujet, objet ou indirect), de leur état déterminé/indéterminé et du type de détermination (par l’article, par
suffixation d’un pronom personnel ou par annexion d’un complément du nom). Ce choix est étroitement lié au
regroupement en tronçons. Ainsi, tout un éventail de traits morphologiques n’est pas nécessaire : il n’est pas utile
par exemple de connaître l’aspect (accompli, inaccompli) des verbes ou le genre (masculin, féminin) des noms
dans le processus de découpage.
Une difficulté de l’arabe en traitement automatique est l’agglutination par laquelle les composantes du mot sont
liées les unes aux autres. Ainsi notre étiqueteur morpho-syntaxique identifie-t-il d’abord les composantes du
mot. Nous avons adopté la segmentation de Zemirli [28] : par exemple, un mot comme 
(/sayasalu:naha:/) est découpé comme suit :
                                                

Nous avons à cet effet élaboré des tables de compatibilité entre ces différents éléments (ou augments) ; et nous
avons écrit un ensemble d’expressions régulières, qui fonctionnent comme des masques, pour traiter, dans
l’ordre, les particules, les verbes et les noms (cf. Fig. 2).

                                                                          terminaison =
                                                                             ˜
                                                                              (damma)

      mot graphique            traitement              traitement           traitement
                                                                                                    étiquette
                              des particules           des verbes            des noms

     forme =

Fig. 2. Déroulement de l’analyse morphologique du mot        (/ka:tibu/). Au même niveau que les particules sont
            traités des mots spécifiques ou des mots terminés par , qui aident l’analyse (cf. § 3.2).

L’analyse commence par consulter le lexique des particules (qui forment un ensemble très stable, même si en
arabe elles peuvent s’amalgamer avec des affixes pour donner naissance à de nouveaux mots), puis les schèmes
verbaux et les terminaisons nominales si la première phase échoue. Pour le traitement des verbes, à côté des 14
formes connues dans la littérature (11 pour les racines trilitères et 3 pour les racines quadrilitères dites saines),
nous avons défini 14 formes pour les verbes malades. Celles-ci constituent une nouvelle ressource dans le cadre
de notre approche non-lexicaliste.
Étiquette                                 Description                                          Exemple
 V          verbe (personnel simple)                                                                                  
 Vp           verbe avec préfixe (conjonction de coordination)
 Vs           verbe avec suffixe(s) (pronom complément)                                                              
 Vps          verbe avec préfixe (conjonction de coordination) et suffixe(s)
              (pronom complément)
                                                                                                                 Ê 
 Nsi          nom sujet indéterminé ( )

 Nsd          nom sujet déterminé par l’article ( )                                                          Ê            
 Nsa          nom sujet déterminé par annexion (complément du nom)                                                   Ê        
 Nss          nom sujet déterminé par suffixation (pronom personnel)                                                 
 Noi          nom objet indéterminé                                                                                   º
 Nod          nom objet déterminé par l’article                                                             ÊÊ            
 Noa          nom objet déterminé par annexion (complément du nom)                                                   
 Nos          nom objet déterminé par suffixation (pronom personnel)                                           º º
 Nii          nom indirect indéterminé                                                                 Ç         Ê        Ç
 Nid          nom indirect déterminé par l’article                                                 Ê Ê           Ê                 Ê
 Nia          nom indirect déterminé par annexion (complément du nom)                                                    Ê Ê
 Nis          nom indirect déterminé par suffixation (pronom personnel)                                                    Ê Ê Ê
 Si           préposition gouvernant le cas indirect (          )                                    ʝ                Ê

                                                                                         Ê                                   

                                                                                                                     Ê 

                                                                                                                           

                                                                                                           Ê            È
 Sii          préposition + nom indirect indéterminé                                                       Ç Ê             Ç       Ê
 Sid          préposition + nom indirect déterminé par l’article                                       Ê Ê           Ê ÊÊ            Ê
 Sia          préposition + nom indirect déterminé par annexion (complément du                                             Ê Ê         Ê
              nom)
 Sis          préposition + nom indirect déterminé par suffixation (pronom                                     Ê Ê ÊÊ Ê
              personnel) ou préposition + suffixe(s)
                                                                                                                                    Ê
 C            conjonction de coordination                                                                                      

 P            particule autre qu’une préposition et qu’une conjonction de particules interrogatives,
              coordination (adverbes, adjectifs indéfinis, démonstratifs, pronoms exclamatives, de négation,
              relatifs et personnels isolés…)                                     d’insistance…

 Tab. 1. Jeu d’étiquettes morpho-syntaxiques retenu — la notation des parties du discours est inspirée du projet
 européen MULTEXT, même si, comme l’évoque Blachère, faire correspondre les catégories indo-européennes
                               dans le cadre de l’arabe n’est pas toujours aisé [3].

3.2 Ressources lexicales
La langue arabe souffre d’un manque en ressources électroniques, ce qui est un handicap non négligeable pour le
traitement automatique. Ce constat nous a amené dès le départ à rejeter toute approche recourant à un lexique
supposé exhaustif. Nous utilisons dans ce travail des lexiques partiels de mots grammaticaux (particules), de
schèmes verbaux, de déclinaisons nominales, de préfixes et de suffixes (cf. Tab 2). Ces lexiques sont enrichis de
mots spécifiques qui aident l’analyse (mots terminés en  , par exemple, pour éviter la confusion avec le pronom
personnel, noms masculins de couleur, certains noms propres, etc.).
préfixes     suffixes   schèmes verbaux      schèmes verbaux         déclinaisons       particules   mots spécifiques
                            (sains)             (malades)             nominales
     11        26              14                     14                  15              157              60

 Tab. 2. Ressources utilisées pour l’analyse morphologique. Les nombres (14 par exemple) peuvent s’ajouter :
   aux schèmes verbaux peuvent s’adjoindre des préfixes et des suffixes ; aux désinences nominales et aux
                                  particules peuvent s’adjoindre des suffixes.
3.3 Désambiguïsation
Outre les étiquettes du tableau 1, des étiquettes temporaires (internes, n’apparaissant pas en surface) sont
introduites, par exemple NOa pour les pluriels en      ou les duels en  dont seul le contexte permet de trancher
entre objet direct et indirect — sinon, c’est Noa qui est assignée par défaut. Des étiquettes mixtes sont également
définies pour des cas où on n’arrive pas à déterminer par exemple si un mot est sujet ou objet, en veillant à ne
pas le faire précéder par une frontière de tronçon (cf. infra) : pensons aux mots terminés en ou en (qui peut
être le pronom lié de la 1re personne du singulier) ou aux noms propres non signés. Certains schèmes qui peuvent
être identifiés comme nominaux ou verbaux reçoivent un traitement analogue. La catégorie des particules, enfin,
peut être subdivisée si besoin est :      et la négation sont par exemple spécifiées, car le mot qui suit est
obligatoirement un verbe.
Les déductions contextuelles sont exprimées dans le même formalisme que l’analyse morphologique, à travers
une vingtaine de règles de réécriture. Les règles sont locales — elles agissent sur un mot et ses proches voisins :
leur portée est de 2 à 3 mots maximum. Elles sont écrites en flex, un langage de traitement de chaînes de
caractères qui permet une maintenance facile de la base de règles. Ceci est particulièrement important, car les
règles doivent être ordonnées : par exemple, la règle qui réécrit Nod en Nid doit intervenir avant les règles
appelant comme contexte une étiquette Nid.
4 PARENTHESAGE SYNTAXIQUE
Après l’étiquetage morpho-syntaxique des mots, notre investigation a porté sur l’étude des procédés
grammaticaux par lesquels les mots sont rattachés les uns aux autres. L’arabe peut être caractérisé par trois faits
syntaxiques[4] :
ƒ    la proéminence du verbe, qui conditionne la structure de la phrase verbale (canoniquement verbe + sujet +
     complément direct + complément circonstanciel), et dont la structure, on l’a vu, est répertoriée sous la forme
     de schèmes prédéfinis ainsi que d’éventuelles lettres additionnelles ;
ƒ   l’accord entre les unités, qui ont trait notamment aux variations en nombre (singulier, duel ou pluriel) ;
ƒ    l’ordre des unités, dont certaines comme les couples nom + complément du nom et nom + épithète se
     combinent selon un ordre rigide. Il existe par ailleurs des unités à régime fixe, c’est-à-dire des mots exigeant
     à la suite une classe ou une flexion précise (préposition + complément indirect, particule de négation +
     verbe), sur lesquelles nous nous sommes beaucoup appuyés pour la désambiguïsation contextuelle.
La définition du tronçon en arabe découle directement de ces trois faits syntaxiques : toute séquence de mots
constituée d’un verbe ou de noms, obéissant à un ordre rigide et à des contraintes d’accords fortes, est assimilée
à un tronçon. À partir de là, nous avons défini quatre types de tronçons (cf. Fig. 3) :
1.   tronçon verbal (regroupant un verbe et d’éventuelles particules de type P le précédant) ;
2.   tronçon sujet (pouvant être introduit par des particules de type P et regroupant les formes nom sujet +
     complément du nom et nom sujet + épithète) ;
3.   tronçon objet (pouvant être introduit par des particules de type P et regroupant les formes nom objet +
     complément du nom et nom objet + épithète) ;
4.   tronçon indirect ( regroupant les formes prépositions + complément indirect, la tête restant nominale).

                          4   Ë¿» É    » »       4   Ë        »     Ë   2         1

                                        2                 2   Ë»      

                           Fig. 3. Exemple de découpage en tronçons (entre parenthèses).
Le problème est de savoir quelles sont les séquences d’étiquettes susceptibles d’appartenir à un même tronçon.
Nous avons défini une relation de compatibilité (si deux étiquettes successives sont compatibles, alors elles
appartiennent au même tronçon), qui est exprimée dans une matrice dont chaque ligne (resp. chaque colonne)
renvoie à l’étiquette du mot courant (resp. à l’étiquette du mot suivant). Les étiquettes sont réparties en sept
classes, correspondant aux cas sujet, objet, indirect, aux verbes, et aux particules de type S, P et C. Le tableau 3
présente la table de comptabilité des classes nominales sujet, objet et indirect, de la classe verbale, et des classes
des particules de type S et P.

                      Nsi Nsd Nsa Nid Nii X                                    X              Nid Nii Nis Nia X
                Nsi      0     1    1      1    0     1               V        1       Si     0        0    0   0     1
                Nsd      1     0    1      0    1     1               Vp       1       Sii    1        0    1   1     1
                Nsa      1     1    0      0    0     1               Vs       1       Sid    0        1    1   1     1
                Nss      1     1    1      0    1     1           Vps          1       Sia    0        0    0   0     1
                                                                                       Sis    0        1    1   1     1

                      Noi Nod Noa Nid Nii X                                    X              Nia Nid Nii Nis X
                Noi      0     1    1      1    1     1               P        0       Nii    1        1    0   1     1
                Nod      1     0    1      1    1     1                                Nid    1        0    1   1     1
                Noa      1     1    0      0    0     1                                Nia    0        0    0   0     1
                Nos      1     1    1      0    1     1                                Nis    1        0    1   1     1

    Tab. 3. Matrices de compatibilité (X désignant n’importe quelle étiquette autre que celles de la ligne 1 ; 0
indique que les étiquettes morpho-syntaxiques peuvent apparaître au sein d’un même tronçon, 1 que non ou que
la suite n’est pas attestée en arabe). On voit par exemple, dans une phrase nominale, qu’une frontière de tronçon
 sépare un nom sujet déterminé d’un attribut indéterminé. De même, une frontière de tronçon est toujours posée
                                après un verbe : la matrice associée est remplie de 1.

Quant à la conjonction de coordination, elle a un statut particulier dans la mesure où les constituants qui
l’entourent sont regroupés au sein d’un même tronçon si et seulement s’ils ont la même étiquette.
5 INTERFACE SYNTAXE-PROSODIE
La sortie de l’analyse syntaxique, qui fournit un alignement de mots et d’étiquettes grammaticales ainsi qu’une
suite de tronçons et la modalité de chaque phrase (déclarative ou interrogative), est connectée aux modules
suivants, de mise en correspondance prosodique. Une frontière mineure est associée à la fin des tronçons (#fm),
une frontière majeure est placée après un signe de ponctuation faible (#FM), une frontière terminale est placée en
fin de phrase (#FT, qui peut être réalisée comme montante — interrogation — ou descendante). Exemple :

       Ê   (#fm)Ê Ê       Ê (#FT)Ê   Ê    ÊÊ                      (#fm) Ê         (#fm)       (#fm)    Ê (#fm)É

                                               (#FT)        Ê                  (#FM)    Ê           (#fm)       Ê      (#fm)

Les unités délimitées par ces frontières ne constituent pas des groupes de souffle séparés par des pauses :
l’ajustement avec le nombre de syllabes requiert un autre module. Le module phonotactique a pour rôle de
prendre en compte ces contraintes rythmiques.
5.1 Gestion des pauses
Générer de pauses est indispensable à l’intelligibilité de la parole synthétique. Pour ce faire, nous nous sommes
appuyés sur les signes de ponctuation, et avons défini des seuils critiques comme le nombre maximal de syllabes
non séparées par une pause : estimé à 14 syllabes, ce seuil rend compte de contraintes physiologiques pesant sur
la phonation et la respiration. Aucune pause n’est insérée à l’intérieur d’un tronçon, mais une pause peut être
associée à une frontière #fm, si le nombre de syllabes jusqu’à une frontière #FM ou #FT suivante est supérieur à
un seuil minimal de 4 syllabes, et si l’une des conditions suivantes est vérifiée :
ƒ    le nombre de syllabes depuis la dernière pause est supérieur au seuil de 14 syllabes ;
ƒ le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et le tronçon suivant est de type
   indirect (c’est-à-dire introduit par une préposition) ;
ƒ le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et le tronçon suivant commence par
   une conjonction de coordination (ce qui signifie, rappelons-le, que les constituants de part et d’autre de la
   frontière sont de types différents) ;
ƒ le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et la frontière sépare un tronçon
   objet (ou indirect) et un tronçon verbal. Exemple :

                         Ç     Ç                     _Ç                    

                                                       pause
Ces règles sont trop rudimentaires pour déceler toutes les pauses à réaliser, mais il vaut mieux en omettre
qu’insérer des pauses inadéquates, non conformes à l’organisation de l’énoncé.
5.2 Placement de l’accent lexical
Diverses études ont mis en relation groupe syntaxique et groupe accentuel (ou mot prosodique) [10] [9] [17]
[26]. L’accent est le phénomène de mise en relief de certaines syllabes qui sont perçues de manière plus forte
que les syllabes voisines. En arabe, les études en prosodie considèrent traditionnellement l’existence de deux
niveaux d’accent, en plus du niveau inaccentué : l’accent primaire et l’accent secondaire. Leur position est
prédictible : elle dépend du nombre et des types de syllabes contenus dans le mot.
L’arabe compte cinq types de syllabes : court et ouvert (CV — C=consonne ; V=voyelle brève —), long et
ouvert (CV:), long et fermé (CVC, CV:C et CVCC, qui se trouve uniquement en fin de mot). On observe qu’une
syllabe commence toujours par une consonne et ne comporte qu’une voyelle. Les règles qui permettent de
déterminer l’accent dans un mot arabe sont les suivantes [11] :
ƒ si le mot est constitué uniquement de syllabes de type CV, la première syllabe porte alors l’accent primaire,
   et les autres syllabes sont inaccentuées ;
ƒ si le mot contient une seule syllabe longue (i.e. fermée ou ayant pour noyau une voyelle longue), elle porte
   alors l’accent primaire, et les autres syllabes sont inaccentuées ;
ƒ si le mot est constitué de deux syllabes longues ou plus, la syllabe longue la plus proche de la fin du mot
   porte l’accent primaire, la syllabe longue la plus proche du début du mot porte l’accent secondaire, et les
   autres syllabes sont inaccentuées.
ƒ la dernière syllabe est exclue dans le processus d’accentuation, et ceci, quel que soit son type et sa nature —
   pour une autre vision des choses, voir par exemple [13], pour qui la syllabe finale porte l’accent principal si
   elle est longue.
En outre, certains mots outils (ou clitiques) monosyllabiques sont considérés comme inaccentués, à moins qu’ils
ne précèdent une frontière de tronçon : les conjonctions de coordination, les articules de négation, les
prépositions, etc. Nous avons repris cette analyse pour la catégorie d’accent primaire, et l’avons appliquée à
notre corpus. La détection de l’accent primaire, en effet, semble suffisante pour l’étude de l’intonation arabe
[21].
Théoriquement, sur la courbe de F0 d’un mot isolé arabe, le maximum de fréquence se situe sur la syllabe qui
porte l’accent primaire. Des recherches ont étés menées pour tenter de savoir d’une part si cette configuration
mélodique dans le mot est préservée dans la phrase, et d’autre part quelle corrélation existe entre la syntaxe et la
mélodie [14] [19] [21]. Nos résultats sont exposés dans ce qui suit.
5.3 Réalisation du contour mélodique et des durées
Le degré d’accentuation des mots augmente au fur et à mesure qu’on se rapproche de la fin du tronçon. En même
temps et inversement, l’accent porté par le dernier mot lexical de chaque tronçon diminue au fur et à mesure
qu’on se rapproche de la fin de la phrase (cf. Fig. 4).
Ce phénomène de déclinaison est manifesté dans un certain nombre de langues, et pourrait bien être universel
[25]. Le taux de déclinaison est fonction de la longueur de la phrase : par exemple, elle décroît par pas de demi-
tons pour une phrase de 10 syllabes. Et des réinitialisations à zéro peuvent être faites quand une pause est
insérée, si le nombre de syllabes est suffisant.
fréquence

           Ê º Ê                   ºº º º               Ê     º ʺ             ºÈº             º      

temps
      Fig. 4. Augmentation du degré d’accentuation à l’intérieur des tronçons sujet et indirect, et diminution
                         progressive au niveau de la phrase de ce degré d’accentuation.

Stylisée selon l’hypothèse qu’un certain nombre d’événements mélodiques peuvent être éliminés sans
changement perceptif [24], la courbe mélodique est simplifiée sous la forme d’un enchaînement de segments de
droite. En sortie, chaque phonème est caractérisé par ses hauteurs de départ et d’arrivée, ainsi que par sa durée
(cf. Tab. 4).
Pour les durées, un modèle multiplicatif a été implémenté : des facteurs d’allongement/ réduction sont appliqués
aux durées intrinsèques des phonèmes — que nous avons calculées sur notre corpus, avec des résultats proches
de ceux d’El-Ani et Mrayati [11] [18]. L’allongement final (pre-pausal lengthening) a été observé, de même que
le raccourcissement des voyelles brèves devant une consonne sourde et/ou en syllabe fermée — ce qui est encore
plus vrai avant une géminée. En revanche, nous n’avons relevé aucune influence de l’accent sur les durées :
l’opposition entre voyelles longues et brèves est modélisée à un autre niveau.

                                               '       a       h        a       b       a
                       hauteur initiale (Hz)   110     121     0        129     123     120
                       hauteur finale (Hz)     121     134     0        123     120     114
                       durée (ms)              92      106     80       95      50      95
Tab. 4. Exemple de représentation prosodique pour le mot       (/'ahaba/) dans la phrase de la figure 3 — le
registre pour la voix d’homme est . La hauteur initiale de chaque phonème est raccordée à la
hauteur finale du phonème précédent, si celle-ci est non nulle.
6 CONCLUSION
Nous avons présenté un modèle syntactico-prosodique original pour l’arabe standard, intégré dans un système
multilingue de synthèse de la parole à partir du texte [6], qui est en cours d’évaluation — depuis la phonétisation
jusqu’à la qualité globale. L’évaluation du module d’analyse morpho-syntaxiques sur un nouveau corpus de
200 phrases a donné un taux d’erreur de 7 % sur les étiquettes entraînant 3 % d’erreurs sur les frontières de
tronçons. Nous avons d’ores et déjà recensé les sources d’erreurs les plus importantes pour notre étiqueteur
morpho-syntaxique, avec un impact variable sur les frontières de tronçons :
ƒ   erreurs de segmentation de mots dont les éléments de base sont pris pour des affixes ;
ƒ   erreurs non corrigées par le contexte sur des noms dont la structure ressemble à celle de verbes ;
ƒ  erreurs sur des verbes malades qui ne sont pas reconnus comme verbes (seule une infime partie n’est pas
   résolue).
Nous serons sans doute conduits à compléter nos lexiques pour pallier ces erreurs, mais cela ne devrait pas
remettre en cause nos tables de compatibilité morphologiques et syntaxiques (pour le découpage en tronçons). La
voyellation automatique est une tâche autrement plus délicate. Avant de s’y atteler, la prochaine étape de ce
travail consiste à valider, par des tests d’écoute, les résultats actuels et à refaire l’expérimentation sur un corpus
peut-être plus riche, tant au niveau du nombre et de la longueur des phrases que de la diversité des structures
syntaxiques, afin d’affiner l’analyse.
REMERCIEMENTS
Ce travail est le fruit d’une collaboration entre le Laboratoire d’Informatique de l’Université du Maine et la
société Elan Informatique. Il est financé, pour le premier auteur, par une bourse de thèse CIFRE (Convention
Industrielle de Formation par la Recherche). Nous remercions M. Baudry, J. Toen, M. Alissali et B. Soulage
pour leurs remarques, et leur soutien.
RÉFÉRENCES
[1] S. Abney, Parsing by chunks, in R. Berwick, S. Abney, C. Tenny (eds.), Principle-based parsing, Kluwer
   Academic Publishers, pp: 257-278, Dordrecht, 1991.
[2] J. Bachenko & E. Fitzpatrick, A Computational Grammar of Discourse-Neutral Prosodic Phrasing in
    English, Computational Linguistics, Vol. 16, n° 3, pp: 155-170, 1990.
[3] R. Blachere, Grammaire de l’arabe classique, Éditions Maisonneuve / Larousse, Paris, 1975.
[4] G. Bohas, Contribution à l'étude de la méthode des grammairiens arabes en morphologie et en phonologie
    d’après les grammairiens arabes tardifs, thèse de doctorat de l’université Lille III, 1979.
[5] P. Boula de mareüil, Étude linguistique appliquée à la synthèse de la parole à partir du texte, thèse de
    doctorat de l’université Paris XI, Orsay, 1997.
[6] P. Boula de mareüil, P. Célerier, T. Cesses, S. Fabre, C. Jobin, P.-Y. Le meur, D. Obadia, B. Soulage, J.
    Toën, Elan Text-To-Speech : un système multilingue de synthèse de la parole à partir du texte, Traitement
    Automatique des Langues, Vol. 42, n° 1, pp: 223-252, 2001.
[7] E. Campione & J. Veronis, A multilingual prosodic database, ICSLP, pp: 3163-3166, Sydney, Australie,
    1998.
[8] F. Debili & H. Achour, Voyellation automatique de l’arabe, ACL, Montréal, Canada, 1998.
[9] H. Dejean, Découverte de structures syntaxiques à partir de corpus, thèse de doctorat de l’université de
    Caen, 1998.
[10] E. Delais-roussarie, Vers une nouvelle approche de la structure prosodique, in Laks, B. (ed.), « Où en est la
   phonologie du français ? », Langue française, Vol. 126, Larousse, Paris, 2001.
[11] M. El-ani, Arabic phonology: An acoustical and physiological investigation, Mouton & Co.,
   The Hague / Paris, 1970.
[12] J. El-kafi, Contribution à la réalisation d’un système multilingue de synthèse de la parole à partir de texte
   autour d’un processeur spécialisé : le MS50C42, thèse de doctorat de l’université Bordeaux I, 1990.
[13] A.M. Elgendy, Aspects of Pharynged Coarticulation, PhD thesis, University of Amsterdam, 2001.
[14] L. Es-skali, Éléments d’un modèle intonatif pour la synthèse de la parole arabe, thèse de doctorat de
   l’université Mohammed V, Rabat, 1988.
[15] E. Giguet, Méthode pour l’analyse automatique de structures formelles sur documents multilingues, thèse
   de doctorat de l’université de Caen, 1998.
[16] M.Y. Liberman & C.W. Church, Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, in
   S. FURUI & M.M. SONDHI (eds.), Advances in Signal Processing, pp: 791-831, Dekker, New York, 1992.
[17] P. Martin, Association prosodie-syntaxe : validation par synthèse, JEP, pp: 119-420, Martigny, Suisse,
   1998.
[18] M. Mrayati & J. Makhoul, Man-Machine Communication and the Arabic Language, Applied Arabic
   Linguistics and Information Processing, pp: 133-145, 1984.
[19] Z. Najim, Contour intonatif et syntaxe en arabe : résultats préliminaires, JEP, pp: 155-158, Martigny, 1998.
[20] H. Quené & R. Kager, The derivation of prosody for text-to-speech from prosodic sentence structure,
   Computer Speech and Language, Vol. 6, n° 1, pp: 77-98, 1992.
[21] A, Rajouani, Contribution à la réalisation d’un système de synthèse à partir du texte pour l’arabe, thèse de
   doctorat de l’université Mohammed V, Rabat, 1989.
[22] N.D. Safa, A.N Hanna & A. Rajouani, Enhancement of a TTS System for Arabic Concatenative Synthesis by
   Introducing a Prosodic Model, ACL-EACL Workshop on Arabic Language Processing, pp: 97-102,
   Toulouse, France, 2001.
[23] A. Saroh, J. Brusset & J. Tihoni, Vers une production automatique de textes phonétiques pour l’arabe
   standard à partir de sa graphie, JEP, pp: 305-309, Montréal, Canada, 1990.
[24] J. ’t Hart, R. Collier & A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to
   speech melody, Cambridge University Press, 1991.
[25] J. Vaissière, Phonetic Explanations for Cross-Linguistic Prosodic Similarities, Phonetica, Vol. 52, pp: 123-
   130, 1995.
[26] G. Vannier, Étude des contributions des structures textuelles et syntaxiques pour la prosodie, thèse de
   doctorat de l’université de Caen, 1999.
[27] J. Vergne & E. Giguet, Regards théoriques sur le “tagging”, TALN, pp: 22-31, Paris, France, 1998.
[28] Z. Zemirli, M. Sellami & N. Vigouroux , Modélisation des règles phonologiques dans un système de
   génération automatique de la langue arabe, JST FRANCIL, pp: 361-368, Avignon, France, 1997.
Vous pouvez aussi lire