ETIQUETAGE GRAMMATICAL MULTILINGUE: LE PROJET MULTEXT1
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
ETIQUETAGE GRAMMATICAL MULTILINGUE: LE PROJET MULTEXT1 Jean Véronis, Liliane Khouri* Résumé - Abstract Cet article décrit quelques-uns des problèmes liés à l'étiquetage grammatical dans un contexte multilingue utilisant des stratégies probablilistes, ainsi que les solutions développées dans le cadre du projet MULTEXT. Ces solutions peuvent aussi permettre de systématiser les stratégies d'étiquetage dans un contexte monolingue, et en particulier d'assurer la comparabilité des jeux d'étiquettes. Nous n'avons en aucun cas la prétention d'avoir résolu le problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera certainement une révision des schémas proposés, mais cette étude marque un pas vers l'harmonisation et la comparabilité des corpus étiquetés. This paper describes some of the problems of multilingual grammatical tagging using probabilistic strategies, and outlines a few solutions developed in the framework of the MULTEXT project. These solutions could also help tagging strategies in monolingual applications, and ensure the comparability of tagsets. We do not claim that all problems are resolved in a definitive way. Many problems are still open, and the addition of other languages (or extension to other applications) is likely to impose a revision of the proposed scheme, but we think that this study constitutes a first step towards harmonization and comparability of tagged corpora. Mots-clés - Keywords Corpus, étiquetage grammatical, jeux d'étiquettes Corpora, grammatical tagging, tagsets 1 Les auteurs remercient Nuria Bel, Nicoletta Calzolari et Monica Monachini pour leur participation à la réflexion décrite dans cet article, ainsi que Gilles Adda, Josette Lecomte, Patrick Paroubek et Martin Rajman pour leurs commentaires dans le cadre du projet GRACE. * Laboratoire Parole et Langage, CNRS & Université de Provence 29, Avenue Robert Schuman, 13621 Aix-en-Provence Cedex 1 (France) e-mail: veronis@univ-aix.fr
1. INTRODUCTION Le projet MULTEXT2 est à l'heure actuelle (avec son extension MULTEXT-EAST aux Pays de l'Europe Centrale et Orientale3 ) le plus gros projet européen dans le domaine des ressources linguistiques informatisées. Il regroupe 24 participants universitaires et industriels, et couvre 13 langues européennes4. Les buts du projet MULTEXT sont¬: • standardisation des ressources, textes et données linguistiques; • création de ressources linguistiques informatisées, monolingues et multilingues; • création d'outils génériques pour l'annotation et l'exploitation des corpus. Plusieurs industriels européens participent au projet et assurent la validation des résultats dans un contexte industriel. Par ailleurs, le projet est mené en étroite collaboration avec la Text Encoding Initiative5 et le groupe EAGLES (European Advisory Group on Language Engineering Standards)6. Entre autres résultats, le projet vise à produire pour chacune des langues concernées un ensemble de ressources linguistiques de base qui seront disponibles à des fins de recherche à la fin du projet (printemps 1996)¬: • un lexique de formes fléchies, avec leur lemme et l'information morpho-syntaxique associée7; • un corpus de textes monolingues étiqueté8; 2 Ce projet est financé par le programme LRE (Linguistic Research and Engineering) de la DGXIII de la Commission Européenne (contrat LRE 62-050). Le lecteur peut trouver une description plus détaillée dans (Ide et Véronis 1994). Il vient d'être rejoint par l'Université d'Umeå en Suède grâce à un financement du gouvernement suédois. 3 Cette extension est financée par le programme COPERNICUS de la DGXIII (contrat COP 106). 4 Les langues couvertes sont: allemand, anglais, bulgare, espagnol, estonien, français, hollandais, hongrois, italien, roumain, slovène, suédois, tchèque. 5 La Text Encoding Initiative (TEI) est une opération internationale qui a produit un premier ensemble de recommendations pour l'encodage des textes et données linguistiques en SGML (Sperberg-McQueen et Burnard, 1994; voir aussi Ide, 1994; Ide et Véronis, 1995, et l'URL http://www-tei.uic.edu/orgs/tei). 6 EAGLES est un projet LRE (contrat LRE 61-100) qui vise à la mise au point de standards pour l'ingénierie linguistique. Une information détaillée peut être obtenue sur l'URL http://www.ilc.pi.cnr.it/EAGLES/home.html). 7 Le projet a d'ores et déjà produit les formes correspondant à au moins 15¬000 lemmes par langue (25¬000 par exemple pour le français). 8 Le contrat prévoit 2 millions de mots pour chaque langue de l'UE, 200¬000 pour les langues de l'est. Une partie seulement du corpus sera validée manuellement.
• un corpus de textes multilingues parallèles alignés avec l'anglais9; • un corpus de parole, consistant en un marquage prosodique des données EUROM-110. Le but de ce papier est de décrire quelques-uns des problèmes liés à l'étiquetage grammatical dans un contexte multilingue utilisant des stratégies probablilistes, ainsi que les solutions développées dans le cadre du projet MULTEXT. Ces solutions peuvent aussi permettre de systématiser les stratégies d'étiquetage dans un contexte monolingue, et en particulier d'assurer la comparabilité des jeux d'étiquettes. C'est ainsi que l'action d'évaluation GRACE (voir Adda et al. 1995) a récemment adopté certaines des idées mises au point par le projet MULTEXT, ainsi que les spécifications lexicales (et le lexique) du français. 2. PROBLÉMATIQUE 2.1. Incomparabilité des jeux d'étiquettes Le choix de jeux d'étiquettes pour l'étiquetage grammatical de corpus est particulièrement délicat. De multiples jeux d'étiquettes existent pour chaque langue, développés au fil des années et au gré des projets par différents groupes. Quiconque a essayé de réutiliser des corpus, des lexiques ou des outils développés par d'autres a probablement fait la cuisante expérience de l'incomparabilité des jeux d'étiquettes qui oblige l'infolinguiste à des manipulations et traductions toujours longues et pénibles, et généralement peu fiables. Cette incomparabilité intra-langue rend difficile la réutilisation de données (par exemple l'utilisation de mon lexique avec un étiqueteur que je viens de récupérer sur un site ftp, d'un corpus étiqueté par d'autres pour entraîner l'étiqueteur que j'ai développé, etc.) ou la combinaison de différents étiqueteurs entre eux (par exemple probabiliste et déterministe11). Elle rend aussi difficile, voire impossible, l'évaluation des étiqueteurs; de nombreux articles annoncent à l'heure actuelle des résultats de l'ordre de 95 ou 97% de désambiguïsations correctes, mais la comparaison de ces chiffres n'a aucun sens, étant donné que l'on ne sait pas comparer les jeux d'étiquettes utilisés12. Par ailleurs, dans ce cadre multilingue, l'incomparabilité intra-langue se double malheureusement d'une incomparabilité inter-langues. Ainsi, le fait d'utiliser NCMS pour les noms communs masculins singuliers en français, et SMS en italien ne facilite pas la comparaison de textes parallèles, bien qu'on puisse dans ce cas imaginer une simple table de traduction faisant passer d'une étiquette à l'autre. Par contre, dans de 9 Le contrat prévoit 1 millions de mots pour chaque langue de l'UE, 100¬000 pour les langues de l'est. Une partie seulement du corpus sera validée manuellement. 10 Exactement, la partie consistant en 40 passages de 5 phrases, enregistrés par divers locuteurs. 11 Voir l'article de Marc El-Bèze dans ce volume. 12 Pour comprendre l'absurdité de la comparaison, il suffit de réaliser qu'à l'extrême un système n'ayant qu'une seule étiquette atteindra sans difficulté un taux de réussite de... 100%!
multiples cas, on retrouve une incomparabilité irréductible de même nature que l'incomparabilité intra-langue, qu'une simple table de traduction ne saurait permettre de traiter. Or, dans un contexte multilingue, il est important pour l'utilisateur humain13 comme pour de multiples applications informatiques (alignement automatique, extraction terminologique multilingue, etc.), que des phénomènes identiques soient codés de façon analogue. 2.2. Sources d'incomparabilité 2.2.1. Que marque-t-on? La première source d'incomparabilité provient de la différence de nature des informations qui sont censées être rendues par les étiquettes. Cette différence provient de causes multiples¬: différences de principes des étiqueteurs, différences d'applications pour les textes étiquetés, etc. Ainsi, on observe par exemple que¬: • certains étiqueteurs marquent la forme indépendamment du contexte, d'autre la marquent en contexte (par exemple, dans la phrase «le oui qu'il a prononcé sonnait faux», oui peut-être codé hors-contexte comme adverbe, ou en contexte comme nom)14; • certains étiqueteurs se cantonnent à des informations purement morpho-syntaxiques, d'autres incluent des informations syntaxiques (par exemple, SUBSU pour "substantif sujet") ou sémantiques, que ce soit pour les besoins de l'application visée, ou pour accroître les performances des étiqueteurs (par exemple, le jeu d'étiquettes d'IBM France15 distingue des noms propres "de ville", "de pays", "de personne", "de société", etc.). 2.2.2. Divergences théoriques Une autre source d'incomparabilité provient de divergences théoriques. On peut ainsi par exemple avoir des étiquettes pour les articles, et considérer les possessifs (mon, ton, son, etc.) comme faisant partie des adjectifs, ou bien inclure les uns et les autres dans une catégorie "déterminants". Cet exemple est clair et simple, mais les différences sont parfois plus subtiles (par exemple, pour les pronoms, etc.). De plus, la modestie oblige de reconnaître l'absence de théorie bien claire pour un certain nombre de phénomènes (voir tout le domaine des adjectifs indéfinis en français, par exemple). A noter enfin, dans un contexte multilingue, les différences de traditions, en particulier entre langues romanes et germaniques, qui rendent difficile l'obtention d'un consensus entre groupes. 13 Il est très improbable que l'utilisateur de systèmes comportant de nombreuses langues (par exemple les 11 langues de l'UE) ait mieux qu'une connaissance très partielle de la plupart d'entre elles. Des points de repères fixes au niveau de l'étiquetage sont donc particulièrement importants. 14 Pire, on observe parfois un mélange des deux points de vues pour le même système, d'une catégorie à l'autre, ou même d'une phrase à l'autre. 15 voir (El-Bèze 1993).
2.2.3. Caractère expérimental Une cause importante de la multiplication des jeux d'étiquettes pour chaque langue est l'aspect expérimental de l'activité d'étiquetage. En particulier, les étiqueteurs probabilistes sont très sensibles au jeu d'étiquettes qu'on leur donne. Ainsi, en français, on peut expérimenter un grand nombre de jeux d'étiquettes d'une taille variant d'une dizaine (les partie du discours traditionnelles) à plusieurs centaines. Trop grossier, le jeu d'étiquettes ne permet pas de capturer assez de propriétés distributionnelles à travers les transitions markoviennes. Trop fin, il impose des tailles de corpus gigantesques pour avoir un échantillon suffisant de transitions observées lors de l'apprentissage (en particulier lors de l'utilisation de trigrammes). De plus, certaines dépendances à long terme dans la phrase (par exemple pour la reconnaissance du subjonctif) sont hors de portée de bien des étiqueteurs, ce qui conduit donc à une sous- spécification systématique (par exemple, l'opposition indicatif/subjonctif en français est généralement neutralisée dans les jeux d'étiquettes des étiqueteurs probabilistes). La plupart des étiqueteurs probabilistes du français utilisent un jeu d'étiquettes de l'ordre16 de 70 à 150, ordre de grandeur qui semble donner les meilleurs résultats, mais il faut souligner qu'il n'y a pas de règle connue permettant de relier les performances à la taille (et à la composition) des jeux d'étiquettes, et très peu de résultats publiés sur le sujet. 2.2.3. Extension des étiquettes Même si l'on est d'accord sur le jeu d'étiquettes, leurs extensions (c'est-à-dire l'ensemble des formes lexicales qu'elles couvrent) peuvent être différentes. Le problème est particulièrement aigu pour les catégories fermées, déterminants, pronoms, adjectifs indéfinis, etc. où l'on rencontre de très grosses différences d'appréciation quant au placement des mots dans les catégories, et ce dans la plupart des langues. Les critères sont souvent peu clairs, et les théories linguistiques, même très formalisées, sont généralement peu précises sur le sujet. Ainsi, à l'intérieur d'un même système où l'on distinguerait, mettons des "déterminants" et des "numéraux", on peut prendre plusieurs décisions concernant le mot un¬: on peut en faire un déterminant et un numéral, ou bien un déterminant et pas un numéral. Les deux décisions sont tout-à-fait légitimes¬: la première reflète le point de vue selon lequel dans «j'ai vu un chat et deux chiens», un serait un numéral; la deuxième reflète le point de vue selon lequel une telle distinction est douteuse17, et en tout cas crée une ambiguïté impossible à lever par des systèmes automatiques. On pourrait multiplier les exemples. 16 Par exemple, 103 dans (El-Bèze, 1993), 155 dans (Debili 1977). 17 Dans la phrase «j'ai vu un chat», un est-il déterminant ou numéral? la réponse peut dépendre de dépendance très lointaines dans le discours, voire du contexte pragmatique.
2.2.4. Différences entre les langues Une difficulté supplémentaire apparaît dans le cadre multilingue, due au fait que les phénomènes morpho-syntaxiques que l'on cherche à représenter par des étiquettes ne sont pas forcément les mêmes dans les différentes langues. Par exemple, les informations concernant le genre des noms n'ont pas d'équivalent possible en anglais. Les différences ne sont malheureusement pas toujours aussi tranchées et l'on observe toute une panoplie de faux-amis, faux-ennemis et cas insolites. Ainsi, en français le système des pronoms personnels a certaines ressemblances avec le système casuel que l'on observe dans des langues comme l'allemand, qui distinguent par exemple le nominatif (ich), le génitif (meiner), le datif (mir) et l'accusatif (mich). Faut-il, pour des raisons d'harmonisation, voir dans le système français un système de cas? Et, si oui, peut-on réduire le système français à des valeurs telles que nominatif, accusatif, etc.? Nous développerons un peu plus en détail cet exemple pour bien faire comprendre la difficulté d'harmoniser des catégories et des étiquettes dans un système multilingue. On s'accorde ainsi (plus ou moins) à distinguer trois formes des pronoms personnels en français¬: • sujet¬: je, tu, il, elle, nous, vous, ils, elles • objet¬: me, te, le, la, lui, se, nous, vous, les, leur, se • autres¬: moi, toi, lui, elle, soi, nous, vous, eux, elles, soi La catégorie "autres" est assez difficile à définir précisément. Elle regroupe une variété d'occurrences telles que le renforcement du sujet ou de l'objet («Moi, je le dis! »), l'attribut («C'est moi»), etc. Certains parlent aussi de formes conjointes et disjointes. La correspondance ci-dessous est- elle légitime? Nominatif Sujet Accusatif Objet direct Datif Objet indirect Oblique Autres A part un réajustement terminologique, cette solution impose de diviser "objet" en "objet direct" et "objet indirect", distinction qui n'est valable que pour la troisième personne en français (direct¬: le, la, les; indirect¬: lui, leur). Aux difficultés de la comparaison des langues deux à deux s'ajoute une multiplication de la difficulté avec l'accroissement du nombre de langues. Ainsi, même si l'on résout le cas des pronoms ci-dessus, comment traitera-t-on les formes "toniques" (sujet¬: io, egli; objet¬: me, lui) et "atones" (objet¬: mi, gli/lo) de l'italien? 3. MODÈLE Dans un projet comme MULTEXT, où la préoccupation principale est la généricité et la réutilisabilité des ressources et outils dans un contexte fortement multilingue, il est clair que des solutions devaient être trouvées pour assurer la comparabilité intra- et inter-langues des étiquettes. Le
problème est difficile, comme les considérations de la section précédente peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention d'avoir résolu le problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera certainement une révision des schémas proposés. Toutefois, reconnaître et admettre la difficulté du problème global (assurer la comparabilité d'étiquettes dans un grand nombre de langues) ne doit pas empêcher des solutions locales, qui permettraient de faire un progrès, c'est-à-dire quelques pas entre le "rien" (incomparabilité totale) et le "tout" (comparabilité totale). L'approche adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique, "éminemment pratique, et n'a aucune visée théorique. Les catégories proposées n'ont d'autre but que de fournir un langage commun permettant (au moins partiellement) la description et la comparaison des systèmes. Il est clair que les progrès dans ce domaine ne peuvent être que lents et progressifs; ils présupposent des avancées techniques et théoriques, mais aussi une évolution des points de vues, écoles et terminologies. 3.1. Principes Les principes adoptés par MULTEXT sont basés sur un postulat¬: l'impossibilité d'avoir un jeu d'étiquettes unique pour une langue, et encore moins pour des langues diverses. Les jeux d'étiquettes doivent pouvoir varier selon les langues (par exemple coder le genre pour les langues romanes, mais pas pour l'anglais), et les applications, et de plus doivent permettre l'expérimentation, c'est-à-dire la modification rapide et fréquente en vue de l'optimisation des étiqueteurs. Le premier principe impose une séparation des descriptions lexicales et des étiquettes de corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une étiquette impose des modifications globales du lexique, qui sont peu propices à une optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes ou entre langues est très difficile, pour les raisons évoquées précédemment. MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une information de très fine granularité, et en principe stable (les descriptions lexicales) et le corpus contient des étiquettes d e corpus de granularité généralement grossière, c'est-à-dire qui sous- spéficient les descriptions lexicales. Le passage des descriptions lexicales aux étiquettes de corpus se fait par une traduction (figure 1). Un postulat implicite est qu'il est plus facile de trouver un consensus au niveau des descriptions lexicales (qui décrivent la langue) qu'au niveau des étiquettes (qui tiennent compte de nombreux paramètres plus ou moins subjectifs¬: l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même si des divergences sont certaines quand à la représentation de ces informations au niveau des étiquettes de corpus.
Description lexicale Etiquette de corpus (sous-spécifiée) vienne V[type=main mood=subjunctive Lexique accès lexical tense=present traduction vienne VM1S person=first number=singular] Figure 1¬: Descriptions lexicales et étiquettes de corpus Le deuxième principe est un principe applicatif, c'est-à-dire que la traduction des descriptions lexicales vers les étiquettes de corpus doit être une application au sens mathématique du terme18. Ce principe permet d'opérer la traduction des descriptions lexicales en étiquettes de corpus par une simple table, sans référence au lexique. Si ce principe est respecté, en admettant que les descriptions lexicales soient stables, la modification du jeu d'étiquettes demande la seule modification de la table de correspondance. Par ailleurs, ce principe permet une définition précise de chaque jeu d'étiquettes, ce qui est appréciable, et constitue un élément important de la comparabilité. Enfin, le jeu des traductions permet, dans une certaine mesure, de s'affranchir des divergences théoriques¬: il suffit que le niveau de granularité des descriptions lexicales soit suffisamment fin pour que les tenants des théories les plus diverses puissent traduire les descriptions lexicales en d'autres qu'ils affectionnent plus particulièrement. descr. lex. étiq. L1 étiq. descr. lex. E1 L2 E2 L3 E L E3 ... ... Ln En respecté non respecté Figure 2¬: Principe applicatif 18 C'est-à-dire que toute description lexicale doit correspondre à au plus une étiquette. Par contre, la même étiquette peut traduire plusieurs descriptions lexicales.
3.2. Descriptions lexicales 3.2.1. Noyau commun La première étape a été la détermination d'un "noyau commun" aux diverses langues et aux diverses applications, et la définition d'un bon niveau de granularité. Nous avons largement utilisé ici le travail effectué par le groupe EAGLES (voir Monachini et Calzolari, 1994)19. Les spécifications proposées par EAGLES résultent de l'observation d'un certain nombre de projets lexicaux et de projets sur les corpus en Europe. Cette observation a permis de dégager des constantes et des traits communs aux différents systèmes et aux diverses langues, et de dégager un noyau d'informations morpho-syntaxiques sur lesquelles un consensus assez large peut être établi. Le système proposé par EAGLES est un système à plusieurs couches, dont la première est le noyau commun morpho-syntaxique. Ce noyau se complète par des couches d'informations optionnelles, ou propres à des applications particulières. Ce modèle a l'avantage de permettre l'harmonisation nécessaire à la comparabilité tout en permettant une grande flexibilité. Nous reprenons cette idée dans MULTEXT en utilisant deux couches, le noyau commun, et une couche privée additionnelle (figure 3). MULTEXT n'a pour ambition que d'harmoniser le noyau commun. couche privée noyau commun Figure 3 : Noyau commun et couche privée Le nombre et la nature des informations que des étiquettes de corpus peuvent encoder est potentiellement infini. Nous avons mentionné plus haut que certains systèmes distinguent parmi les noms propres les villes, les pays, les personnes, les sociétés. Rien n'interdit d'aller plus loin dans la granularité (prénoms, noms de famille, noms de fleuves et rivières, de régions, de départements, etc.); il est probable que certaines applications y trouveraient leur bénéfice. Des subdivisions analogues peuvent s'appliquer à toutes les catégories¬: certains systèmes distinguent parmi les noms communs les jours de la semaine, les noms de mois, parmi les verbes, les verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les textes journalistiques, ainsi qu'une distribution particulière). 19 Le travail a été fait en étroite collaboration, et certaines des suggestions de MULTEXT ont été prises en compte dans les documents EAGLES.
Nous n'avons pas la prétention d'étendre la comparabilité à toute cette gamme (ouverte) d'informations, et MULTEXT a pris une position très minimaliste en ce qui concerne l'étendue du noyau commun. N'y figurent que des informations de nature clairement morpho-syntaxique, et parmi celles-ci, uniquement celles qui font l'objet d'un large consensus. 3.2.2. Catégories grammaticales La sélection d'un ensemble de catégories grammaticales qui fasse l'unanimité est clairement une tâche impossible, et toute solution ne peut être qu'un compromis. Les catégories adoptées pour MULTEXT sont données par la figure 4. Category Code Noun N Verb V Adjective A Pronoun P Determiner D Adverb R Adposition S Conjunction C Numeral M Interjection I Residual X Figure 4¬: Catégories grammaticales EAGLES/MULTEXT La plupart des catégories s'expliquent d'elles-mêmes (bien qu'il ne soit pas toujours évident de définir avec précision leur extension). On notera la classe des numéraux, qui permet de s'affranchir du délicat problème de leur classement dans les parties du discours traditionnelles (en français, ils fonctionnent à la fois comme adjectifs, noms ou pronoms). A nouveau, il est possible d'opérer des traductions appropriés pour modifier le classement. La classe X concerne tous les objets au statut lexical incertain, et qui en tous cas ne semblent pas relever des parties du discours classiques (symboles, dates, parties de locutions au statut non autonome, etc.). 3.2.3. Attributs et valeurs Les descriptions lexicales de MULTEXT sont représentées par des couples attribut-valeur (structures de traits typées20). par exemple, un nom commun masculin singulier sera représenté par la structure de traits suivante¬: N[type=common gender=masculine number=singular case=n/a] Pour des raisons d'harmonisation entre langues, certains attributs (tels que le cas) sont présents, mais ne s'appliquent pas à une catégorie 20 Chaque catégorie grammaticale a un ensemble d'attributs différents, donc un type différent.
donnée dans telle ou telle langue, ce que traduit la valeur n/a ("not applicable"). D'autres attributs s'appliquent à la catégorie dans la langue considérée, mais ne s'appliquent pas à certaines de ses sous-catégories. Par exemple pour les verbes français, le genre ne s'applique qu'au participe passé alors que la personne ne s'applique pas. On aura donc, par exemple pour la première personne de l'indicatif présent¬: V[type=main mood=indicative tense=present person=first number=singular gender=n/a] et pour le participe passé féminin¬: V[type=main mood=participle tense=past person=n/a number=singular gender=feminine]21 Une version prélimianire des catégories grammaticales, attributs et valeurs retenus pour le noyau commun du projet MULTEXT est décrite dans (Bel et al. 1995)22. Voir la figure 5 ci-après, par exemple, pour les noms et les verbes. On notera un certain nombre de compromis et de décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus linguistiquement correcte, être classé dans les temps, mais une traduction immédiate est possible entre l'une et l'autre convention, et la question ne semble pas valoir une controverse. 3.2.4. Représentation compacte Le projet MULTEXT propose une représentation compacte des structures de traits, inspirée de (Leech et Wilson 1994). Chaque structure de traits est codée sous forme d'une chaîne de caractères où¬: • le premier caractère code la catégorie grammaticale, selon le code donné par la table de la figure 4; • chacune des positions suivantes de la chaîne code un attribut. Les attributs sont ordonnés selon les tables données par la figure 5 pour les noms et les verbes, et chaque valeur est représenté par un caractère unique (donné par la colonne "code"). • la valeur "non applicable" est représentée par un tiret (-). Exemples¬: N[type=common gender=masculine number=singular] Ncms- V[type=main mood=indicative tense=present person=first number=singular] Vmip1s-- Cette représentation compacte permet également de représenter la sous-spécification par des expressions régulières (voir ci-après). 21 Nous utilisons une notation inspirée de (Petitpierre et Russel 1995). Dans la suite nous choisirons d'omettre les attributs portant la valeur n/a. 22 Ce rapport n'est qu'un rapport de mi-projet, et il est possible et même probable que des modifications et ajustements interviennent.
Noun Verb Pos. Attribute Value Code Pos. Attribute Value Code 1 Type common c 1 Type main m proper p auxiliary a 2 Gender masculine m modal o feminine f 2 Mood/Form indicative i neuter n subjunctive s 3 Number singular s imperative m plural p conditional c 4 Case nominative n infinitive n genitive g participle p dative d gerund g accusative a supine s base b 3 Tense present p imperfect i future f past s 4 Person first 1 second 2 third 3 5 Number singular s plural p 6 Gender masculine m feminine f neuter n Figure 5¬: Tables attribut-valeurs pour les noms et les verbes 3.3. Traduction en étiquettes Dans le système proposé par MULTEXT, chaque langue est sous- spécifiée par rapport au système général (c'est-à-dire la totalité des combinaisons attribut-valeur possibles). De plus, chaque jeu d'étiquettes pour une langue est sous-spécifié par rapport au système maximal de cette langue. Ainsi, le français est sous-spécifié en ce qui concerne le trait "cas" pour les noms, qui est inapplicable; pour les verbes, le trait "genre" n'est pas applicable pour les formes conjuguées; etc. Par contre, à l'intérieur du système possible pour le français, on peut prendre la décision de ne pas représenter le mode et le temps des verbes (informations notoirement difficiles à désambiguïser automatiquement) dans un jeu d'étiquettes donné. Dans ce cas, le système particulier d'un jeu d'étiquettes est sous- spécifié par rapport au système maximal possible pour le français. Par exemple, dans la figure 6, l'étiquette VM1S est sous-spécifiée en ce sens qu'elle ignore le mode et le temps, et elle correspond à sept descriptions lexicales attestées dans le lexique.
Descr. lex. Etiquette Exemple Vmip1s- VM1S viens Vmii1s- VM1S venais Vmif1s- VM1S viendrai Vmsp1s- VM1S vienne Vmsi1s- VM1S vinsse Vmcp1s- VM1S viendrais Vmis1s- VM1S vins Figure 6¬: Sous-spécification des étiquettes Le principe applicatif permet de définir de façon formelle les étiquettes utilisées. Par exemple, l'étiquette VM1S de l'exemple précédent se définira comme V[type=main mood=any tense=any person=first number=singular] où la valeur any représente la disjonction de toutes les valeurs possibles pour un attribut donné23. Nous proposons de représenter de façon compacte la sous- spécification par des expressions régulières, à l'aide des opérateurs suivants¬: a. Joker ('.') Cet opérateur permet de noter que toute valeur est autorisée pour l'attribut concerné. Exemple¬: Vmi.2s- Verbe principal, indicatif, 2ème personne du singulier b. Disjonction (...|...) Cet opérateur permet de lister de façon extensive des alternatives possibles. Exemple¬: (Ncf.-|Vmip2s- ) Nom commun féminin ou Verbe principal, indicatif, 2ème personne du singulier (par exemple "souris"). c. Listes [ ... ] et [^ ... ] L'opérateur de liste [ ... ] permet de représenter un ensemble de valeurs. Par exemple, [ab] représente a ou b. L'opérateur [^ ... ] permet de représenter le complément d'un ensemble, c'est-à-dire toutes les valeurs autres que celles spécifiées. Par exemple, [^ab] représente toutes les valeurs possibles, sauf a et b. Exemples¬: 23 On peut aussi choisir d'ignorer ces attributs dans l'écriture, et noter simplement: V[type=main person=first number=singular]
Vm[isc].2s- Verbe principal, indicatif, subjonctif ou conditionnel, 2ème personne du singulier Vm[^s]p2s- Verbe principal, mode non subjonctif, présent, 2ème personne du singulier Avec ces conventions, l'étiquette VM1S mentionnée plus haut peut se définir par l'expression régulière¬: Vm..1s- ou, de façon équivalente (pour le français)¬: Vm[iscm][pifs]1s- Le lecteur aura noté que la définition des étiquettes n'est possible que si le principe applicatif est respecté. Ainsi, dans le cas ci-dessous France N[type=proper gender=feminine number=singular] XPAYS Marie N[type=proper gender=feminine number=singular] XPERS le principe applicatif n'est pas respecté, puisque la même description lexicale correspond à des étiquettes différentes selon l'entrée lexicale. Si les utilisateurs souhaitent opérer de telles distinctions, il faut qu'ils restaurent le principe applicatif en ajoutant des attributs adéquats dans la couche privée du modèle (qui correspondront à des caractères supplémentaire en fin de chaîne dans la représentation compacte). Ainsi, par exemple, un attribut "sous-type" permet de désambiguïser les noms propres, et l'on pourra définir les étiquettes XPAYS et XPERS comme¬: XPAYS N[type=proper subtype=country] XPERS N[type=proper subtype=person] 4. DIRECTIONS FUTURES Même si EAGLES et MULTEXT ont permis de faire quelques pas vers une harmonisation et une meilleur comparabilité des jeux d'étiquettes pour les corpus, il est clair qu'il reste de nombreux problèmes non résolus. Tout d'abord, l'inclusion de nouvelles langues ne saura manquer de créer de nouvelles interrogations, et menacer le fragile ensemble de compromis sous-jacent à nos travaux. Ainsi, l'extension du projet à des langues finno-ougriennes et slaves à travers MULTEXT-EAST a déjà fait apparaître la nécessité de nouvelles valeurs d'attributs (par exemple pour le système casuel très complexe de l'estonien), voire de nouveaux attributs24. Il est probable que l'inclusion d'autres langues, encore plus éloignées, telle que les langues africaines, obligera à remettre en cause la fragile division en catégories grammaticales adoptée ici. Il sera peut-être 24 MULTEXT-EAST vient de produire un premier ensemble de spécifications lexicales pour les six langues du projet (Monachini, 1995).
alors nécessaire d'avoir un modèle arborescent, proposant des catégories, attributs et valeurs commun à toutes les langues, puis d'autres propres à une famille, et enfin d'autres propres à une langue donnée. Une autre direction intéressante consiste à essayer d'harmoniser quelque peu la couche privée. Il semble en effet que, si cette couche est manifestement ouverte, un certain nombre d'informations couramment utilisées pourraient faire l'objet d'une harmonisation minimale (par exemple, sous-types des noms, type d'auxiliaire associé aux participes passés, etc.). Enfin, il est clair que nous manquons cruellement de critères pour définir l'extension des descriptions lexicales. Sur ce point, il semble que le désaccord entre théories soit assez grand, ou, pire, que les théories (même les plus formalisées) ne soient pas très précises. 5. CONCLUSION Le travail présenté ici décrit les essais (modestes) d'harmonisation des jeux d'étiquettes réalisés dans le cadre du projet MULTEXT en coordination avec EAGLES. Nous avons conscience que les solutions proposées sont imparfaites, reposent sur des compromis, et que de nombreux problèmes restent à résoudre, mais ces deux projets auront permis de faire quelques pas sur un chemin difficile. La naissance de normes et standards est, dans tous les domaines, une opération longue et difficile, qui demande beaucoup de patience et de compromis, et les solutions adoptées sont par force généralement les moins audacieuses et les moins innovatrices¬: l'histoire en est pleine d'exemples dans tous les domaines, et l'informatique linguistique n'échappe pas à la règle. Mais mieux vaut des standards imparfaits que pas de standards du tout¬: il suffit de voyager à travers le monde avec son sèche-cheveux ou son rasoir pour s'en convaincre... RÉFÉRENCES BIBLIOGRAPHIQUES Adda, G., Blache, Ph., Mariani, J., Paroubek, P., Rajman, M. (1995). Action GRACE¬: mise en place du paradigme d'évaluation. Application au domaine de l'analyse morpho-syntaxique. Actes de la conférence Traitement Automatique du Langage Naturel, TALN'95, Marseille, 14- 16 Juin 1995, 72-79. Bel, N., Monachini, M., Calzolari, N. (Eds.) (1995). Common Specifications and Notation for Lexicon Encoding and Preliminary Proposal for the Tagsets. Rapport Intermediare D1.6.1-B, Project LRE 62-050 MULTEXT, CNR, Pisa. Debili, F. (1977). Traitements syntaxiques utilisant des matrices de précédence fréquentielles construites automatiquement par apprentissage. Thèse de Docteur-Ingénieur, Université de Paris VII, U.E.R. de Physique, 297p. El-Bèze, M. (1993). Les modèles de langage probabilistes : quelques domaines d'application. Mémoire d'habilitation à diriger des recherches. LIPN, Université Paris-Nord. 85p.
Ide, N. (1994). Encoding standards for large text resources¬: The Text Encoding Initiative. Proceedings of the 14th International Conference on Computational Linguistics, COLING'94, Kyoto, Japan, 574-578. Ide, N., Véronis, J. (Eds.) (1995). The Text Encoding Initiative: Background and context. Kluwer Academic Publishers,¬ Dordrecht, 342¬p. Ide, N., Véronis, J. (1994). MULTEXT (Multilingual Text Tools and Corpora). Proceedings of the 14th International Conference on Computational Linguistics, COLING'94, Kyoto, Japan, 588-592. Leech, J., Wilson, A. (1994). Draft sections 4.6 and 4.7 of the EAGLES Interim Report¬: Annotation Sub-group. EAGLES Interim Report, Pisa. Monachini, M. (Ed.) (1995). Common Specifications and Notation for Lexicon Encoding of Eastern Languages. Deliverable D1.1, Project COP 106 MULTEXT-EAST, CNR, Pisa. Monachini, M., Calzolari, N. (Eds.) (1994). Synopsis and Comparison of Morphosyntactic Phenomena encoded in Lexicons and in Corpora and Application to European Languages, EAGLES document EAG- LSG-T4.6/CSG-T3.2, Pisa. Petitpierre, D., Russel, G. (1995). MMORPH - The MULTEXT Morphology Program. Rapport Intermédiaire D2.3.1-B, Projet LRE 62-050 MULTEXT, ISSCO, Genève. Sperberg-McQueen, C.M., Burnard, L. (Eds.) (1994) Guidelines for Electronic Text Encoding and Interchange, Text Encoding Initiative, Chicago and Oxford, 1290p.
Vous pouvez aussi lire