Un modèle syntactico-prosodique pour la synthèse de la parole à partir du texte en arabe standard voyellé
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Un modèle syntactico-prosodique pour la synthèse de la parole à partir du texte en arabe standard voyellé Sofiane BALOUL1,2 & Philippe BOULA de MAREÜIL2,3 1 Laboratoire d’Informatique de l’Université du Maine 72085 Le Mans CEDEX 9 - FRANCE Tél. : +33 (0) 2 43 83 38 74 - Fax : +33 (0) 2 43 83 38 68 Mél : sofiane.baloul@lium.univ-lemans.fr 2 Elan Informatique 4 rue Jean Rodier - 31400 Toulouse – FRANCE Tél. : +33 (0) 5 61 36 89 10 - Fax : +33 (0) 5 61 36 89 11 Mél : mareuil@elan.fr – http://www.elan.fr 3 LIMSI-CNRS BP 133 F-91403 Orsay - FRANCE Tél. : +33 (0) 1 69 85 81 19 – Fax: +33 (0) 1 69 85 80 88 Mél : mareuil@limsi.fr – http://www.limsi.fr RÉSUMÉ Cet article présente un modèle syntactico-prosodique pour l’arabe standard voyellé, dans le cadre de la synthèse de la parole à partir du texte par diphones. Ce modèle, fondé sur des règles de réécriture, calcule les marques syntaxiques du texte en entrée, qui est ainsi découpé en tronçons (intermédiaires entre le mot et la phrase) non récursifs. L’interface syntaxe-prosodie permet ensuite de distribuer des pauses (à partir de critères phonotactiques et ponctuationnels) et, après l’assignation de l’accent lexical, de générer les paramètres prosodiques de hauteur et de durée. Le contour mélodique dépend de la modalité de la phrase (déclarative ou interrogative), de la position du mot dans le tronçon et de la position du tronçon dans la phrase : au sein du tronçon, le degré d’accentuation augmente du début à la fin du tronçon ; au sein de la phrase, le degré d’accentuation du tronçon diminue du début à la fin de la phrase. Quant à la durée phonémique, elle est calculée par un modèle multiplicatif à base de règles d’allongement/ réduction des durées intrinsèques. L’intégration dans un système multilingue de synthèse de la parole à partir du texte est en cours d’évaluation : les résultats seront présentés lors de la conférence. Mots-clés : TALN, traitement de la parole, synthèse vocale.
1 INTRODUCTION Cet article présente un modèle de génération automatique de la prosodie en arabe standard, à partir de marqueurs syntaxiques, dans le cadre de la synthèse de la parole à partir du texte par diphones — on entend par là un système de lecture à haute voix de textes par un ordinateur. La contribution de la syntaxe a été mise en évidence dans les systèmes de synthèse traitant de diverses langues indo-européennes [2] [6] [16] [20]. Elle peut jouer à deux niveaux : au niveau de la transcription orthographique-phonétique, pour la gestion des homographes- hétérophones (mots qui, selon la catégorie ou le sens, peuvent être prononcés de différentes façons), ou au niveau de la génération de l’intonation et des pauses. En ce qui concerne la langue arabe (nous traitons ici de l’arabe standard, c’est-à-dire l’arabe enseigné dans les écoles), peu de recherches se sont penchées sur cette question, et les avis se rapportant au rôle de la syntaxe sont divergents. Les premières études affirment qu’il existe une relation privilégiée entre la prosodie (les maxima du contour intonatif) et la syntaxe [14] [21] : elles supposent une analyse syntaxique sophistiquée et un générateur prosodique fondé sur la structure syntaxique ainsi produite. Mais à défaut d’analyse syntaxique automatique pour l’arabe, l’étiquetage des mots en parties du discours se fait manuellement [12], ce qui est inenvisageable dans un but de système automatique de synthèse de la parole à partir du texte. Des recherches plus récentes sur la prosodie arabe réfutent cette nécessité d’un traitement syntaxique, et suggèrent que la prosodie peut être générée indépendamment, sur la base de critères acoustiques, phonologiques et phonotactiques [22], bien que certaines opérations soient interdites à des endroits comme après la préposition . La démarche proposée ici se distingue de ces deux tendances, et prône une position intermédiaire : nous verrons d’abord que la syntaxe est incontournable, mais qu’une analyse syntaxique superficielle, partielle (shallow/partial parsing) peut suffire au calcul de la prosodie (au moins pour établir une bi-partition entre mots clitiques et non-clitiques) ; ensuite, ce traitement syntaxique est entièrement automatique, à supposer que le texte en entrée soit voyellé (voir à ce sujet [8]). La section suivante pose les principes de notre grammaire en tronçons et présente dans ses grands traits la méthode suivie, ascendante, qui repose sur l’observation d’un corpus de quelque 400 phrases. Comme illustré figure 1, le découpage des phrases en tronçons nécessite la connaissance de la catégorie grammaticale des mots qui les composent : c’est le rôle de l’analyse morpho-syntaxique (section 2). Nous ne détaillerons pas la translitération ni la transcription orthographique-phonétique, laquelle est plus immédiate que dans des langues comme le français ou l’anglais : elle repose sur une centaine de règles (qui convertissent des graphèmes en phonèmes selon leurs contextes gauche et droit, rendant compte des phénomènes d’emphase, liaison, assimilation ou gémination notamment au niveau de l’article [23]) et sur un lexique d’exceptions. La transcription orthographique-phonétique et le parenthésage syntaxique (section 3), qui est également à base de règles, sont exploités pour prédire le placement de l’accent lexical et des pauses, pour calculer l’évolution de la fréquence fondamentale (F0) et la durée des phonèmes — l’intensité n’est pour l’instant pas traitée. La section 4 est dédiée à ce modèle. ressources base de règles lexicales de déduction partielles contextuelle grammaire une étiquette Phrase Étiquetage Parenthésage morpho-syntaxique syntaxique tronçons Transcription Interface prosodie orthographique-phonétique syntaxe-prosodie Fig. 1. Diagramme bloc de l’analyse linguistique.
2 LA GRAMMAIRE EN TRONÇONS : APPLICATION A L’ARABE 2.1 Principes généraux Notre objectif ici est de produire une analyse syntaxique en vue de la synthèse vocale. L’analyse syntaxique n’est donc pas un but en soi, mais doit être guidée par les contraintes inhérentes au système de synthèse : souplesse, robustesse (pour des applications à large couverture), rapidité (temps réel) et qualité globale acceptable. Pour répondre à ces exigences, il n’est pas souhaitable, par exemple, de rendre compte de la grammaticalité des phrases à synthétiser (en rejetant les phrases n’appartenant pas à la langue) : le système doit traiter n’importe quelle phrase en entrée. De plus, il n’est pas nécessaire d’explorer pour chaque phrase l’ensemble des solutions possibles : l’analyse syntaxique doit être déterministe. C’est dans ce contexte qu’une grammaire en tronçons est proposée : fondée sur une analyse superficielle et non- exhaustive du texte, cette grammaire consiste à diviser la phrase en groupes de mots non récursifs, baptisés chunk en anglais [1], tronçons en français [5], sans nécessairement les mettre en relation les uns avec les autres. Les mots appartenant à un même tronçon se caractérisent par des liens syntaxiques forts : ainsi, leur ordre dans le tronçon est rigide comparé à l’ordre des tronçons dans la phrase, qui est relativement flexible. D’un point de vue prosodique, le tronçon ne peut être scindé ni par une pause ni par une frontière intonative : il trouve son équivalant à l’oral sous la forme de groupes accentuels, constitués d’un mot accentogène et de mots clitiques (sans accent lexical) périphériques [9]. Par ailleurs, la pertinence de cette unité dans la hiérarchie mot-tronçon- phrase a été démontrée dans différentes langues [15]. La question que nous nous sommes dès lors posée est la suivante : comment délimiter ces tronçons en arabe ? Nous allons tenter d’y apporter un début de réponse en section 3. Mais en préalable aux prises de décisions sur les dépendances entre les mots, il faut définir un jeu d’étiquettes grammaticales adapté au découpage en tronçons (cf. Tab. 1), et il convient de décrire brièvement les corpus sur lequel nous nous sommes appuyés. 2.2 Corpus Nous avons construit deux corpus, sur lesquels l’analyse a été effectuée. Un premier corpus est issu de MULTEXT [7], qui a été adapté à l’arabe et voyellé par un expert algérois : il en résulte 36 passages de 9-10 phrases reliées par une structure thématique cohérente, comptant au total 2598 mots. Un second corpus, dans la lignée de [21], est constitué de 120 phrases isolées, dont les structures syntaxiques varient progressivement (des structures simples aux structures complexes), et dont la longueur varie de deux à huit mots : ces phrases (60 nominales et 60 verbales) sont toutes déclaratives et comptent au total 541 mots. Concernant l’oralisation du corpus, nous nous sommes limités à une situation de lecture : le corpus a été lu (à une vitesse d’élocution moyenne, de 10 à 13 phonèmes/ seconde) par un locuteur algérois de 28 ans, ayant une bonne maîtrise de l’arabe standard. Il a été échantillonné à 16 kHz et analysé à l’aide d’un outil de recopie de prosodie développé à Elan [6]. Notre perspective s’inscrivant dans le cadre de la synthèse de la parole à partir du texte, nous avons choisi de travailler sur une voix unique, afin d’obtenir une description cohérente pour ce locuteur, même si l’on obtient un modèle fondé sur des variations individuelles et non sur une moyenne d’invariants pour la langue traitée. En retour, la synthèse de parole permet une validation perceptive de certaines hypothèses — ce qui vaut également pour les structures absentes du corpus observé, nécessairement fini. 3 ÉTIQUETAGE MORPHO-SYNTAXIQUE L’étiquetage morpho-syntaxique (ou tagging) que nous avons développé reprend les principes de Vergne [27]. L’approche repose sur la propagation de déductions contextuelles, utilisant un lexique partiel : une étiquette par défaut étant associée à chaque mot, les règles de déductions interviennent en aval pour confirmer la valeur attribuée par défaut, ou au contraire, modifier cette valeur en fonction du contexte d’apparition du mot. 3.1 Analyse morphologique Dans ce qui nous intéresse ici, nous privilégions les mécanismes purement morphologiques, sans référence à la position du mot dans la phrase. Selon la grammaire traditionnelle, le lexique arabe comprend trois catégories de mots : verbes, noms (substantifs et adjectifs — « deux catégories qu’il est difficile de distinguer » [3] —) et particules (recouvrant adverbes, conjonctions et prépositions). Hormis les noms propres (d’animaux ou de tribus qui contrairement aux participes et infinitifs ne sont pas de formation verbale), les mots des deux premières catégories sont dérivés à partir d’une racine : un squelette de trois consonnes radicales le plus souvent, quatre dans 1 à 2 % des cas [4]. À partir d’une racine, passée dans différents schèmes, une famille de mots peut être engendrée autour d’un même concept sémantique comme celui d’écriture. Ainsi, si cette racine ( ) est passée dans le schème du participe actif, le mot (/ka:tibu/, « écrivain ») est formé : c’est le fait le plus caractéristique de la morphologie arabe, et plus généralement sémitique. Un autre fait remarquable est le caractère flexionnel des mots arabes : les terminaisons permettent de distinguer le mode des verbes, la fonction des noms… Les signes suivants (déclinaisons ou désinences) sont des indices très importants pour nos règles : la damma pour les noms sujets et les verbes à l’inaccompli et au futur ;
la fatha pour les noms objets et les verbes au subjonctif ; la kasra pour les noms au cas indirect ; le sukûn pour le verbe apocopé. C’est dans ce contexte que nous avons défini une liste d’étiquettes morphologiques, au nombre de 23, qui rendent compte de la nature du mot (verbe, nom, particule) ainsi que, pour les noms, de leur flexion casuelle (cas sujet, objet ou indirect), de leur état déterminé/indéterminé et du type de détermination (par l’article, par suffixation d’un pronom personnel ou par annexion d’un complément du nom). Ce choix est étroitement lié au regroupement en tronçons. Ainsi, tout un éventail de traits morphologiques n’est pas nécessaire : il n’est pas utile par exemple de connaître l’aspect (accompli, inaccompli) des verbes ou le genre (masculin, féminin) des noms dans le processus de découpage. Une difficulté de l’arabe en traitement automatique est l’agglutination par laquelle les composantes du mot sont liées les unes aux autres. Ainsi notre étiqueteur morpho-syntaxique identifie-t-il d’abord les composantes du mot. Nous avons adopté la segmentation de Zemirli [28] : par exemple, un mot comme (/sayasalu:naha:/) est découpé comme suit : Nous avons à cet effet élaboré des tables de compatibilité entre ces différents éléments (ou augments) ; et nous avons écrit un ensemble d’expressions régulières, qui fonctionnent comme des masques, pour traiter, dans l’ordre, les particules, les verbes et les noms (cf. Fig. 2). terminaison = ˜ (damma) mot graphique traitement traitement traitement étiquette des particules des verbes des noms forme = Fig. 2. Déroulement de l’analyse morphologique du mot (/ka:tibu/). Au même niveau que les particules sont traités des mots spécifiques ou des mots terminés par , qui aident l’analyse (cf. § 3.2). L’analyse commence par consulter le lexique des particules (qui forment un ensemble très stable, même si en arabe elles peuvent s’amalgamer avec des affixes pour donner naissance à de nouveaux mots), puis les schèmes verbaux et les terminaisons nominales si la première phase échoue. Pour le traitement des verbes, à côté des 14 formes connues dans la littérature (11 pour les racines trilitères et 3 pour les racines quadrilitères dites saines), nous avons défini 14 formes pour les verbes malades. Celles-ci constituent une nouvelle ressource dans le cadre de notre approche non-lexicaliste.
Étiquette Description Exemple V verbe (personnel simple) Vp verbe avec préfixe (conjonction de coordination) Vs verbe avec suffixe(s) (pronom complément) Vps verbe avec préfixe (conjonction de coordination) et suffixe(s) (pronom complément) Ê Nsi nom sujet indéterminé ( ) Nsd nom sujet déterminé par l’article ( ) Ê Nsa nom sujet déterminé par annexion (complément du nom) Ê Nss nom sujet déterminé par suffixation (pronom personnel) Noi nom objet indéterminé º Nod nom objet déterminé par l’article ÊÊ Noa nom objet déterminé par annexion (complément du nom) Nos nom objet déterminé par suffixation (pronom personnel) º º Nii nom indirect indéterminé Ç Ê Ç Nid nom indirect déterminé par l’article Ê Ê Ê Ê Nia nom indirect déterminé par annexion (complément du nom) Ê Ê Nis nom indirect déterminé par suffixation (pronom personnel) Ê Ê Ê Si préposition gouvernant le cas indirect ( ) Ê Ê Ê Ê Ê È Sii préposition + nom indirect indéterminé Ç Ê Ç Ê Sid préposition + nom indirect déterminé par l’article Ê Ê Ê ÊÊ Ê Sia préposition + nom indirect déterminé par annexion (complément du Ê Ê Ê nom) Sis préposition + nom indirect déterminé par suffixation (pronom Ê Ê ÊÊ Ê personnel) ou préposition + suffixe(s) Ê C conjonction de coordination P particule autre qu’une préposition et qu’une conjonction de particules interrogatives, coordination (adverbes, adjectifs indéfinis, démonstratifs, pronoms exclamatives, de négation, relatifs et personnels isolés…) d’insistance… Tab. 1. Jeu d’étiquettes morpho-syntaxiques retenu — la notation des parties du discours est inspirée du projet européen MULTEXT, même si, comme l’évoque Blachère, faire correspondre les catégories indo-européennes dans le cadre de l’arabe n’est pas toujours aisé [3]. 3.2 Ressources lexicales La langue arabe souffre d’un manque en ressources électroniques, ce qui est un handicap non négligeable pour le traitement automatique. Ce constat nous a amené dès le départ à rejeter toute approche recourant à un lexique supposé exhaustif. Nous utilisons dans ce travail des lexiques partiels de mots grammaticaux (particules), de schèmes verbaux, de déclinaisons nominales, de préfixes et de suffixes (cf. Tab 2). Ces lexiques sont enrichis de mots spécifiques qui aident l’analyse (mots terminés en , par exemple, pour éviter la confusion avec le pronom personnel, noms masculins de couleur, certains noms propres, etc.).
préfixes suffixes schèmes verbaux schèmes verbaux déclinaisons particules mots spécifiques (sains) (malades) nominales 11 26 14 14 15 157 60 Tab. 2. Ressources utilisées pour l’analyse morphologique. Les nombres (14 par exemple) peuvent s’ajouter : aux schèmes verbaux peuvent s’adjoindre des préfixes et des suffixes ; aux désinences nominales et aux particules peuvent s’adjoindre des suffixes. 3.3 Désambiguïsation Outre les étiquettes du tableau 1, des étiquettes temporaires (internes, n’apparaissant pas en surface) sont introduites, par exemple NOa pour les pluriels en ou les duels en dont seul le contexte permet de trancher entre objet direct et indirect — sinon, c’est Noa qui est assignée par défaut. Des étiquettes mixtes sont également définies pour des cas où on n’arrive pas à déterminer par exemple si un mot est sujet ou objet, en veillant à ne pas le faire précéder par une frontière de tronçon (cf. infra) : pensons aux mots terminés en ou en (qui peut être le pronom lié de la 1re personne du singulier) ou aux noms propres non signés. Certains schèmes qui peuvent être identifiés comme nominaux ou verbaux reçoivent un traitement analogue. La catégorie des particules, enfin, peut être subdivisée si besoin est : et la négation sont par exemple spécifiées, car le mot qui suit est obligatoirement un verbe. Les déductions contextuelles sont exprimées dans le même formalisme que l’analyse morphologique, à travers une vingtaine de règles de réécriture. Les règles sont locales — elles agissent sur un mot et ses proches voisins : leur portée est de 2 à 3 mots maximum. Elles sont écrites en flex, un langage de traitement de chaînes de caractères qui permet une maintenance facile de la base de règles. Ceci est particulièrement important, car les règles doivent être ordonnées : par exemple, la règle qui réécrit Nod en Nid doit intervenir avant les règles appelant comme contexte une étiquette Nid. 4 PARENTHESAGE SYNTAXIQUE Après l’étiquetage morpho-syntaxique des mots, notre investigation a porté sur l’étude des procédés grammaticaux par lesquels les mots sont rattachés les uns aux autres. L’arabe peut être caractérisé par trois faits syntaxiques[4] : la proéminence du verbe, qui conditionne la structure de la phrase verbale (canoniquement verbe + sujet + complément direct + complément circonstanciel), et dont la structure, on l’a vu, est répertoriée sous la forme de schèmes prédéfinis ainsi que d’éventuelles lettres additionnelles ; l’accord entre les unités, qui ont trait notamment aux variations en nombre (singulier, duel ou pluriel) ; l’ordre des unités, dont certaines comme les couples nom + complément du nom et nom + épithète se combinent selon un ordre rigide. Il existe par ailleurs des unités à régime fixe, c’est-à-dire des mots exigeant à la suite une classe ou une flexion précise (préposition + complément indirect, particule de négation + verbe), sur lesquelles nous nous sommes beaucoup appuyés pour la désambiguïsation contextuelle. La définition du tronçon en arabe découle directement de ces trois faits syntaxiques : toute séquence de mots constituée d’un verbe ou de noms, obéissant à un ordre rigide et à des contraintes d’accords fortes, est assimilée à un tronçon. À partir de là, nous avons défini quatre types de tronçons (cf. Fig. 3) : 1. tronçon verbal (regroupant un verbe et d’éventuelles particules de type P le précédant) ; 2. tronçon sujet (pouvant être introduit par des particules de type P et regroupant les formes nom sujet + complément du nom et nom sujet + épithète) ; 3. tronçon objet (pouvant être introduit par des particules de type P et regroupant les formes nom objet + complément du nom et nom objet + épithète) ; 4. tronçon indirect ( regroupant les formes prépositions + complément indirect, la tête restant nominale). 4 Ë¿» É » » 4 Ë » Ë 2 1 2 2 Ë» Fig. 3. Exemple de découpage en tronçons (entre parenthèses). Le problème est de savoir quelles sont les séquences d’étiquettes susceptibles d’appartenir à un même tronçon. Nous avons défini une relation de compatibilité (si deux étiquettes successives sont compatibles, alors elles
appartiennent au même tronçon), qui est exprimée dans une matrice dont chaque ligne (resp. chaque colonne) renvoie à l’étiquette du mot courant (resp. à l’étiquette du mot suivant). Les étiquettes sont réparties en sept classes, correspondant aux cas sujet, objet, indirect, aux verbes, et aux particules de type S, P et C. Le tableau 3 présente la table de comptabilité des classes nominales sujet, objet et indirect, de la classe verbale, et des classes des particules de type S et P. Nsi Nsd Nsa Nid Nii X X Nid Nii Nis Nia X Nsi 0 1 1 1 0 1 V 1 Si 0 0 0 0 1 Nsd 1 0 1 0 1 1 Vp 1 Sii 1 0 1 1 1 Nsa 1 1 0 0 0 1 Vs 1 Sid 0 1 1 1 1 Nss 1 1 1 0 1 1 Vps 1 Sia 0 0 0 0 1 Sis 0 1 1 1 1 Noi Nod Noa Nid Nii X X Nia Nid Nii Nis X Noi 0 1 1 1 1 1 P 0 Nii 1 1 0 1 1 Nod 1 0 1 1 1 1 Nid 1 0 1 1 1 Noa 1 1 0 0 0 1 Nia 0 0 0 0 1 Nos 1 1 1 0 1 1 Nis 1 0 1 1 1 Tab. 3. Matrices de compatibilité (X désignant n’importe quelle étiquette autre que celles de la ligne 1 ; 0 indique que les étiquettes morpho-syntaxiques peuvent apparaître au sein d’un même tronçon, 1 que non ou que la suite n’est pas attestée en arabe). On voit par exemple, dans une phrase nominale, qu’une frontière de tronçon sépare un nom sujet déterminé d’un attribut indéterminé. De même, une frontière de tronçon est toujours posée après un verbe : la matrice associée est remplie de 1. Quant à la conjonction de coordination, elle a un statut particulier dans la mesure où les constituants qui l’entourent sont regroupés au sein d’un même tronçon si et seulement s’ils ont la même étiquette. 5 INTERFACE SYNTAXE-PROSODIE La sortie de l’analyse syntaxique, qui fournit un alignement de mots et d’étiquettes grammaticales ainsi qu’une suite de tronçons et la modalité de chaque phrase (déclarative ou interrogative), est connectée aux modules suivants, de mise en correspondance prosodique. Une frontière mineure est associée à la fin des tronçons (#fm), une frontière majeure est placée après un signe de ponctuation faible (#FM), une frontière terminale est placée en fin de phrase (#FT, qui peut être réalisée comme montante — interrogation — ou descendante). Exemple : Ê (#fm)Ê Ê Ê (#FT)Ê Ê ÊÊ (#fm) Ê (#fm) (#fm) Ê (#fm)É (#FT) Ê (#FM) Ê (#fm) Ê (#fm) Les unités délimitées par ces frontières ne constituent pas des groupes de souffle séparés par des pauses : l’ajustement avec le nombre de syllabes requiert un autre module. Le module phonotactique a pour rôle de prendre en compte ces contraintes rythmiques. 5.1 Gestion des pauses Générer de pauses est indispensable à l’intelligibilité de la parole synthétique. Pour ce faire, nous nous sommes appuyés sur les signes de ponctuation, et avons défini des seuils critiques comme le nombre maximal de syllabes non séparées par une pause : estimé à 14 syllabes, ce seuil rend compte de contraintes physiologiques pesant sur la phonation et la respiration. Aucune pause n’est insérée à l’intérieur d’un tronçon, mais une pause peut être associée à une frontière #fm, si le nombre de syllabes jusqu’à une frontière #FM ou #FT suivante est supérieur à un seuil minimal de 4 syllabes, et si l’une des conditions suivantes est vérifiée : le nombre de syllabes depuis la dernière pause est supérieur au seuil de 14 syllabes ;
le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et le tronçon suivant est de type indirect (c’est-à-dire introduit par une préposition) ; le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et le tronçon suivant commence par une conjonction de coordination (ce qui signifie, rappelons-le, que les constituants de part et d’autre de la frontière sont de types différents) ; le nombre de syllabes depuis la dernière pause est supérieur à 8 syllabes et la frontière sépare un tronçon objet (ou indirect) et un tronçon verbal. Exemple : Ç Ç _Ç pause Ces règles sont trop rudimentaires pour déceler toutes les pauses à réaliser, mais il vaut mieux en omettre qu’insérer des pauses inadéquates, non conformes à l’organisation de l’énoncé. 5.2 Placement de l’accent lexical Diverses études ont mis en relation groupe syntaxique et groupe accentuel (ou mot prosodique) [10] [9] [17] [26]. L’accent est le phénomène de mise en relief de certaines syllabes qui sont perçues de manière plus forte que les syllabes voisines. En arabe, les études en prosodie considèrent traditionnellement l’existence de deux niveaux d’accent, en plus du niveau inaccentué : l’accent primaire et l’accent secondaire. Leur position est prédictible : elle dépend du nombre et des types de syllabes contenus dans le mot. L’arabe compte cinq types de syllabes : court et ouvert (CV — C=consonne ; V=voyelle brève —), long et ouvert (CV:), long et fermé (CVC, CV:C et CVCC, qui se trouve uniquement en fin de mot). On observe qu’une syllabe commence toujours par une consonne et ne comporte qu’une voyelle. Les règles qui permettent de déterminer l’accent dans un mot arabe sont les suivantes [11] : si le mot est constitué uniquement de syllabes de type CV, la première syllabe porte alors l’accent primaire, et les autres syllabes sont inaccentuées ; si le mot contient une seule syllabe longue (i.e. fermée ou ayant pour noyau une voyelle longue), elle porte alors l’accent primaire, et les autres syllabes sont inaccentuées ; si le mot est constitué de deux syllabes longues ou plus, la syllabe longue la plus proche de la fin du mot porte l’accent primaire, la syllabe longue la plus proche du début du mot porte l’accent secondaire, et les autres syllabes sont inaccentuées. la dernière syllabe est exclue dans le processus d’accentuation, et ceci, quel que soit son type et sa nature — pour une autre vision des choses, voir par exemple [13], pour qui la syllabe finale porte l’accent principal si elle est longue. En outre, certains mots outils (ou clitiques) monosyllabiques sont considérés comme inaccentués, à moins qu’ils ne précèdent une frontière de tronçon : les conjonctions de coordination, les articules de négation, les prépositions, etc. Nous avons repris cette analyse pour la catégorie d’accent primaire, et l’avons appliquée à notre corpus. La détection de l’accent primaire, en effet, semble suffisante pour l’étude de l’intonation arabe [21]. Théoriquement, sur la courbe de F0 d’un mot isolé arabe, le maximum de fréquence se situe sur la syllabe qui porte l’accent primaire. Des recherches ont étés menées pour tenter de savoir d’une part si cette configuration mélodique dans le mot est préservée dans la phrase, et d’autre part quelle corrélation existe entre la syntaxe et la mélodie [14] [19] [21]. Nos résultats sont exposés dans ce qui suit. 5.3 Réalisation du contour mélodique et des durées Le degré d’accentuation des mots augmente au fur et à mesure qu’on se rapproche de la fin du tronçon. En même temps et inversement, l’accent porté par le dernier mot lexical de chaque tronçon diminue au fur et à mesure qu’on se rapproche de la fin de la phrase (cf. Fig. 4). Ce phénomène de déclinaison est manifesté dans un certain nombre de langues, et pourrait bien être universel [25]. Le taux de déclinaison est fonction de la longueur de la phrase : par exemple, elle décroît par pas de demi- tons pour une phrase de 10 syllabes. Et des réinitialisations à zéro peuvent être faites quand une pause est insérée, si le nombre de syllabes est suffisant.
fréquence Ê º Ê ºº º º Ê º ʺ ºÈº º temps Fig. 4. Augmentation du degré d’accentuation à l’intérieur des tronçons sujet et indirect, et diminution progressive au niveau de la phrase de ce degré d’accentuation. Stylisée selon l’hypothèse qu’un certain nombre d’événements mélodiques peuvent être éliminés sans changement perceptif [24], la courbe mélodique est simplifiée sous la forme d’un enchaînement de segments de droite. En sortie, chaque phonème est caractérisé par ses hauteurs de départ et d’arrivée, ainsi que par sa durée (cf. Tab. 4). Pour les durées, un modèle multiplicatif a été implémenté : des facteurs d’allongement/ réduction sont appliqués aux durées intrinsèques des phonèmes — que nous avons calculées sur notre corpus, avec des résultats proches de ceux d’El-Ani et Mrayati [11] [18]. L’allongement final (pre-pausal lengthening) a été observé, de même que le raccourcissement des voyelles brèves devant une consonne sourde et/ou en syllabe fermée — ce qui est encore plus vrai avant une géminée. En revanche, nous n’avons relevé aucune influence de l’accent sur les durées : l’opposition entre voyelles longues et brèves est modélisée à un autre niveau. ' a h a b a hauteur initiale (Hz) 110 121 0 129 123 120 hauteur finale (Hz) 121 134 0 123 120 114 durée (ms) 92 106 80 95 50 95 Tab. 4. Exemple de représentation prosodique pour le mot (/'ahaba/) dans la phrase de la figure 3 — le registre pour la voix d’homme est . La hauteur initiale de chaque phonème est raccordée à la hauteur finale du phonème précédent, si celle-ci est non nulle. 6 CONCLUSION Nous avons présenté un modèle syntactico-prosodique original pour l’arabe standard, intégré dans un système multilingue de synthèse de la parole à partir du texte [6], qui est en cours d’évaluation — depuis la phonétisation jusqu’à la qualité globale. L’évaluation du module d’analyse morpho-syntaxiques sur un nouveau corpus de 200 phrases a donné un taux d’erreur de 7 % sur les étiquettes entraînant 3 % d’erreurs sur les frontières de tronçons. Nous avons d’ores et déjà recensé les sources d’erreurs les plus importantes pour notre étiqueteur morpho-syntaxique, avec un impact variable sur les frontières de tronçons : erreurs de segmentation de mots dont les éléments de base sont pris pour des affixes ; erreurs non corrigées par le contexte sur des noms dont la structure ressemble à celle de verbes ; erreurs sur des verbes malades qui ne sont pas reconnus comme verbes (seule une infime partie n’est pas résolue). Nous serons sans doute conduits à compléter nos lexiques pour pallier ces erreurs, mais cela ne devrait pas remettre en cause nos tables de compatibilité morphologiques et syntaxiques (pour le découpage en tronçons). La voyellation automatique est une tâche autrement plus délicate. Avant de s’y atteler, la prochaine étape de ce travail consiste à valider, par des tests d’écoute, les résultats actuels et à refaire l’expérimentation sur un corpus peut-être plus riche, tant au niveau du nombre et de la longueur des phrases que de la diversité des structures syntaxiques, afin d’affiner l’analyse.
REMERCIEMENTS Ce travail est le fruit d’une collaboration entre le Laboratoire d’Informatique de l’Université du Maine et la société Elan Informatique. Il est financé, pour le premier auteur, par une bourse de thèse CIFRE (Convention Industrielle de Formation par la Recherche). Nous remercions M. Baudry, J. Toen, M. Alissali et B. Soulage pour leurs remarques, et leur soutien. RÉFÉRENCES [1] S. Abney, Parsing by chunks, in R. Berwick, S. Abney, C. Tenny (eds.), Principle-based parsing, Kluwer Academic Publishers, pp: 257-278, Dordrecht, 1991. [2] J. Bachenko & E. Fitzpatrick, A Computational Grammar of Discourse-Neutral Prosodic Phrasing in English, Computational Linguistics, Vol. 16, n° 3, pp: 155-170, 1990. [3] R. Blachere, Grammaire de l’arabe classique, Éditions Maisonneuve / Larousse, Paris, 1975. [4] G. Bohas, Contribution à l'étude de la méthode des grammairiens arabes en morphologie et en phonologie d’après les grammairiens arabes tardifs, thèse de doctorat de l’université Lille III, 1979. [5] P. Boula de mareüil, Étude linguistique appliquée à la synthèse de la parole à partir du texte, thèse de doctorat de l’université Paris XI, Orsay, 1997. [6] P. Boula de mareüil, P. Célerier, T. Cesses, S. Fabre, C. Jobin, P.-Y. Le meur, D. Obadia, B. Soulage, J. Toën, Elan Text-To-Speech : un système multilingue de synthèse de la parole à partir du texte, Traitement Automatique des Langues, Vol. 42, n° 1, pp: 223-252, 2001. [7] E. Campione & J. Veronis, A multilingual prosodic database, ICSLP, pp: 3163-3166, Sydney, Australie, 1998. [8] F. Debili & H. Achour, Voyellation automatique de l’arabe, ACL, Montréal, Canada, 1998. [9] H. Dejean, Découverte de structures syntaxiques à partir de corpus, thèse de doctorat de l’université de Caen, 1998. [10] E. Delais-roussarie, Vers une nouvelle approche de la structure prosodique, in Laks, B. (ed.), « Où en est la phonologie du français ? », Langue française, Vol. 126, Larousse, Paris, 2001. [11] M. El-ani, Arabic phonology: An acoustical and physiological investigation, Mouton & Co., The Hague / Paris, 1970. [12] J. El-kafi, Contribution à la réalisation d’un système multilingue de synthèse de la parole à partir de texte autour d’un processeur spécialisé : le MS50C42, thèse de doctorat de l’université Bordeaux I, 1990. [13] A.M. Elgendy, Aspects of Pharynged Coarticulation, PhD thesis, University of Amsterdam, 2001. [14] L. Es-skali, Éléments d’un modèle intonatif pour la synthèse de la parole arabe, thèse de doctorat de l’université Mohammed V, Rabat, 1988. [15] E. Giguet, Méthode pour l’analyse automatique de structures formelles sur documents multilingues, thèse de doctorat de l’université de Caen, 1998. [16] M.Y. Liberman & C.W. Church, Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, in S. FURUI & M.M. SONDHI (eds.), Advances in Signal Processing, pp: 791-831, Dekker, New York, 1992. [17] P. Martin, Association prosodie-syntaxe : validation par synthèse, JEP, pp: 119-420, Martigny, Suisse, 1998. [18] M. Mrayati & J. Makhoul, Man-Machine Communication and the Arabic Language, Applied Arabic Linguistics and Information Processing, pp: 133-145, 1984. [19] Z. Najim, Contour intonatif et syntaxe en arabe : résultats préliminaires, JEP, pp: 155-158, Martigny, 1998. [20] H. Quené & R. Kager, The derivation of prosody for text-to-speech from prosodic sentence structure, Computer Speech and Language, Vol. 6, n° 1, pp: 77-98, 1992. [21] A, Rajouani, Contribution à la réalisation d’un système de synthèse à partir du texte pour l’arabe, thèse de doctorat de l’université Mohammed V, Rabat, 1989. [22] N.D. Safa, A.N Hanna & A. Rajouani, Enhancement of a TTS System for Arabic Concatenative Synthesis by Introducing a Prosodic Model, ACL-EACL Workshop on Arabic Language Processing, pp: 97-102, Toulouse, France, 2001.
[23] A. Saroh, J. Brusset & J. Tihoni, Vers une production automatique de textes phonétiques pour l’arabe standard à partir de sa graphie, JEP, pp: 305-309, Montréal, Canada, 1990. [24] J. ’t Hart, R. Collier & A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to speech melody, Cambridge University Press, 1991. [25] J. Vaissière, Phonetic Explanations for Cross-Linguistic Prosodic Similarities, Phonetica, Vol. 52, pp: 123- 130, 1995. [26] G. Vannier, Étude des contributions des structures textuelles et syntaxiques pour la prosodie, thèse de doctorat de l’université de Caen, 1999. [27] J. Vergne & E. Giguet, Regards théoriques sur le “tagging”, TALN, pp: 22-31, Paris, France, 1998. [28] Z. Zemirli, M. Sellami & N. Vigouroux , Modélisation des règles phonologiques dans un système de génération automatique de la langue arabe, JST FRANCIL, pp: 361-368, Avignon, France, 1997.
Vous pouvez aussi lire