ETIQUETAGE GRAMMATICAL MULTILINGUE: LE PROJET MULTEXT1

La page est créée Cédric Rossignol
 
CONTINUER À LIRE
ETIQUETAGE          GRAMMATICAL            MULTILINGUE:
                            LE PROJET MULTEXT1

                        Jean Véronis, Liliane Khouri*

                               Résumé - Abstract

      Cet article décrit quelques-uns des problèmes liés à l'étiquetage
grammatical dans un contexte multilingue utilisant des stratégies
probablilistes, ainsi que les solutions développées dans le cadre du projet
MULTEXT. Ces solutions peuvent aussi permettre de systématiser les
stratégies d'étiquetage dans un contexte monolingue, et en particulier
d'assurer la comparabilité des jeux d'étiquettes. Nous n'avons en aucun
cas la prétention d'avoir résolu le problème de façon définitive. De
nombreux problèmes restent ouverts, et l'adjonction de langues
supplémentaires (voire l'adaptation à de nouvelles applications) imposera
certainement une révision des schémas proposés, mais cette étude marque
un pas vers l'harmonisation et la comparabilité des corpus étiquetés.

      This paper describes some of the problems of multilingual
grammatical tagging using probabilistic strategies, and outlines a few
solutions developed in the framework of the MULTEXT project. These
solutions could also help tagging strategies in monolingual applications,
and ensure the comparability of tagsets. We do not claim that all problems
are resolved in a definitive way. Many problems are still open, and the
addition of other languages (or extension to other applications) is likely to
impose a revision of the proposed scheme, but we think that this study
constitutes a first step towards harmonization and comparability of tagged
corpora.

                             Mots-clés - Keywords

      Corpus, étiquetage grammatical, jeux d'étiquettes

      Corpora, grammatical tagging, tagsets

1   Les auteurs remercient Nuria Bel, Nicoletta Calzolari et Monica Monachini pour leur
    participation à la réflexion décrite dans cet article, ainsi que Gilles Adda, Josette
    Lecomte, Patrick Paroubek et Martin Rajman pour leurs commentaires dans le cadre du
    projet GRACE.
*   Laboratoire Parole et Langage, CNRS & Université de Provence
    29, Avenue Robert Schuman, 13621 Aix-en-Provence Cedex 1 (France)
    e-mail: veronis@univ-aix.fr
1.    INTRODUCTION

                                    Le projet MULTEXT2 est à l'heure actuelle
                              (avec son extension MULTEXT-EAST aux Pays de
                              l'Europe Centrale et Orientale3 ) le plus gros projet
                              européen dans le domaine des ressources
                              linguistiques informatisées. Il regroupe 24
                              participants universitaires et industriels, et couvre
                              13 langues européennes4.

      Les buts du projet MULTEXT sont¬:

      • standardisation des ressources, textes et données linguistiques;
      • création de ressources linguistiques informatisées, monolingues et
        multilingues;
      • création d'outils génériques pour l'annotation et l'exploitation des
        corpus.

     Plusieurs industriels européens participent au projet et assurent la
validation des résultats dans un contexte industriel. Par ailleurs, le projet
est mené en étroite collaboration avec la Text Encoding Initiative5 et le
groupe EAGLES (European Advisory Group on Language Engineering
Standards)6.
     Entre autres résultats, le projet vise à produire pour chacune des
langues concernées un ensemble de ressources linguistiques de base qui
seront disponibles à des fins de recherche à la fin du projet (printemps
1996)¬:

      • un lexique de formes fléchies, avec leur lemme et l'information
        morpho-syntaxique associée7;
      • un corpus de textes monolingues étiqueté8;

2   Ce projet est financé par le programme LRE (Linguistic Research and Engineering) de la
    DGXIII de la Commission Européenne (contrat LRE 62-050). Le lecteur peut trouver une
    description plus détaillée dans (Ide et Véronis 1994). Il vient d'être rejoint par l'Université
    d'Umeå en Suède grâce à un financement du gouvernement suédois.
3   Cette extension est financée par le programme COPERNICUS de la DGXIII (contrat COP
    106).
4   Les langues couvertes sont: allemand, anglais, bulgare, espagnol, estonien, français,
    hollandais, hongrois, italien, roumain, slovène, suédois, tchèque.
5   La Text Encoding Initiative (TEI) est une opération internationale qui a produit un
    premier ensemble de recommendations pour l'encodage des textes et données
    linguistiques en SGML (Sperberg-McQueen et Burnard, 1994; voir aussi Ide, 1994; Ide
    et Véronis, 1995, et l'URL http://www-tei.uic.edu/orgs/tei).
6   EAGLES est un projet LRE (contrat LRE 61-100) qui vise à la mise au point de standards
    pour l'ingénierie linguistique. Une information détaillée peut être obtenue sur l'URL
    http://www.ilc.pi.cnr.it/EAGLES/home.html).
7   Le projet a d'ores et déjà produit les formes correspondant à au moins 15¬000 lemmes
    par langue (25¬000 par exemple pour le français).
8   Le contrat prévoit 2 millions de mots pour chaque langue de l'UE, 200¬000 pour les
    langues de l'est. Une partie seulement du corpus sera validée manuellement.
• un corpus de textes multilingues parallèles alignés avec
        l'anglais9;
      • un corpus de parole, consistant en un marquage prosodique des
        données EUROM-110.

       Le but de ce papier est de décrire quelques-uns des problèmes liés à
l'étiquetage grammatical dans un contexte multilingue utilisant des
stratégies probablilistes, ainsi que les solutions développées dans le cadre
du projet MULTEXT. Ces solutions peuvent aussi permettre de systématiser
les stratégies d'étiquetage dans un contexte monolingue, et en particulier
d'assurer la comparabilité des jeux d'étiquettes. C'est ainsi que l'action
d'évaluation GRACE (voir Adda et al. 1995) a récemment adopté certaines
des idées mises au point par le projet MULTEXT, ainsi que les
spécifications lexicales (et le lexique) du français.

2.   PROBLÉMATIQUE

2.1. Incomparabilité des jeux d'étiquettes

      Le choix de jeux d'étiquettes pour l'étiquetage grammatical de corpus
est particulièrement délicat. De multiples jeux d'étiquettes existent pour
chaque langue, développés au fil des années et au gré des projets par
différents groupes. Quiconque a essayé de réutiliser des corpus, des
lexiques ou des outils développés par d'autres a probablement fait la
cuisante expérience de l'incomparabilité des jeux d'étiquettes qui
oblige l'infolinguiste à des manipulations et traductions toujours longues et
pénibles, et généralement peu fiables. Cette incomparabilité intra-langue
rend difficile la réutilisation de données (par exemple l'utilisation de mon
lexique avec un étiqueteur que je viens de récupérer sur un site ftp, d'un
corpus étiqueté par d'autres pour entraîner l'étiqueteur que j'ai développé,
etc.) ou la combinaison de différents étiqueteurs entre eux (par exemple
probabiliste et déterministe11). Elle rend aussi difficile, voire impossible,
l'évaluation des étiqueteurs; de nombreux articles annoncent à l'heure
actuelle des résultats de l'ordre de 95 ou 97% de désambiguïsations
correctes, mais la comparaison de ces chiffres n'a aucun sens, étant donné
que l'on ne sait pas comparer les jeux d'étiquettes utilisés12.
      Par ailleurs, dans ce cadre multilingue, l'incomparabilité intra-langue
se double malheureusement d'une incomparabilité inter-langues.
Ainsi, le fait d'utiliser NCMS pour les noms communs masculins singuliers
en français, et SMS en italien ne facilite pas la comparaison de textes
parallèles, bien qu'on puisse dans ce cas imaginer une simple table de
traduction faisant passer d'une étiquette à l'autre. Par contre, dans de

9  Le contrat prévoit 1 millions de mots pour chaque langue de l'UE, 100¬000 pour les
   langues de l'est. Une partie seulement du corpus sera validée manuellement.
10 Exactement, la partie consistant en 40 passages de 5 phrases, enregistrés par divers
   locuteurs.
11 Voir l'article de Marc El-Bèze dans ce volume.
12 Pour comprendre l'absurdité de la comparaison, il suffit de réaliser qu'à l'extrême un
   système n'ayant qu'une seule étiquette atteindra sans difficulté un taux de réussite de...
   100%!
multiples cas, on retrouve une incomparabilité irréductible de même nature
que l'incomparabilité intra-langue, qu'une simple table de traduction ne
saurait permettre de traiter. Or, dans un contexte multilingue, il est important
pour l'utilisateur humain13 comme pour de multiples applications
informatiques (alignement automatique, extraction terminologique
multilingue, etc.), que des phénomènes identiques soient codés de façon
analogue.

2.2.     Sources     d'incomparabilité

2.2.1.    Que    marque-t-on?

     La première source d'incomparabilité provient de la différence de
nature des informations qui sont censées être rendues par les étiquettes.
Cette différence provient de causes multiples¬: différences de principes des
étiqueteurs, différences d'applications pour les textes étiquetés, etc. Ainsi,
on observe par exemple que¬:

       • certains étiqueteurs marquent la forme indépendamment du
         contexte, d'autre la marquent en contexte (par exemple, dans la
         phrase «le oui qu'il a prononcé sonnait faux», oui peut-être codé
         hors-contexte comme adverbe, ou en contexte comme nom)14;
       • certains étiqueteurs se cantonnent à des informations purement
         morpho-syntaxiques, d'autres incluent des informations syntaxiques
         (par exemple, SUBSU pour "substantif sujet") ou sémantiques, que
         ce soit pour les besoins de l'application visée, ou pour accroître les
         performances des étiqueteurs (par exemple, le jeu d'étiquettes
         d'IBM France15 distingue des noms propres "de ville", "de pays", "de
         personne", "de société", etc.).

2.2.2.    Divergences       théoriques

      Une autre source d'incomparabilité provient de divergences
théoriques. On peut ainsi par exemple avoir des étiquettes pour les articles,
et considérer les possessifs (mon, ton, son, etc.) comme faisant partie des
adjectifs, ou bien inclure les uns et les autres dans une catégorie
"déterminants". Cet exemple est clair et simple, mais les différences sont
parfois plus subtiles (par exemple, pour les pronoms, etc.). De plus, la
modestie oblige de reconnaître l'absence de théorie bien claire pour un
certain nombre de phénomènes (voir tout le domaine des adjectifs indéfinis
en français, par exemple). A noter enfin, dans un contexte multilingue, les
différences de traditions, en particulier entre langues romanes et
germaniques, qui rendent difficile l'obtention d'un consensus entre
groupes.

13 Il est très improbable que l'utilisateur de systèmes comportant de nombreuses langues
   (par exemple les 11 langues de l'UE) ait mieux qu'une connaissance très partielle de la
   plupart d'entre elles. Des points de repères fixes au niveau de l'étiquetage sont donc
   particulièrement importants.
14 Pire, on observe parfois un mélange des deux points de vues pour le même système,
   d'une catégorie à l'autre, ou même d'une phrase à l'autre.
15 voir (El-Bèze 1993).
2.2.3.   Caractère      expérimental

        Une cause importante de la multiplication des jeux d'étiquettes pour
chaque langue est l'aspect expérimental de l'activité d'étiquetage. En
particulier, les étiqueteurs probabilistes sont très sensibles au jeu
d'étiquettes qu'on leur donne. Ainsi, en français, on peut expérimenter un
grand nombre de jeux d'étiquettes d'une taille variant d'une dizaine (les
partie du discours traditionnelles) à plusieurs centaines. Trop grossier, le
jeu d'étiquettes ne permet pas de capturer assez de propriétés
distributionnelles à travers les transitions markoviennes. Trop fin, il impose
des tailles de corpus gigantesques pour avoir un échantillon suffisant de
transitions observées lors de l'apprentissage (en particulier lors de
l'utilisation de trigrammes). De plus, certaines dépendances à long terme
dans la phrase (par exemple pour la reconnaissance du subjonctif) sont
hors de portée de bien des étiqueteurs, ce qui conduit donc à une sous-
spécification systématique (par exemple, l'opposition indicatif/subjonctif en
français est généralement neutralisée dans les jeux d'étiquettes des
étiqueteurs probabilistes). La plupart des étiqueteurs probabilistes du
français utilisent un jeu d'étiquettes de l'ordre16 de 70 à 150, ordre de
grandeur qui semble donner les meilleurs résultats, mais il faut souligner
qu'il n'y a pas de règle connue permettant de relier les performances à la
taille (et à la composition) des jeux d'étiquettes, et très peu de résultats
publiés sur le sujet.

2.2.3. Extension des étiquettes

      Même si l'on est d'accord sur le jeu d'étiquettes, leurs extensions
(c'est-à-dire l'ensemble des formes lexicales qu'elles couvrent) peuvent
être différentes. Le problème est particulièrement aigu pour les catégories
fermées, déterminants, pronoms, adjectifs indéfinis, etc. où l'on rencontre
de très grosses différences d'appréciation quant au placement des mots
dans les catégories, et ce dans la plupart des langues. Les critères sont
souvent peu clairs, et les théories linguistiques, même très formalisées,
sont généralement peu précises sur le sujet. Ainsi, à l'intérieur d'un même
système où l'on distinguerait, mettons des "déterminants" et des
"numéraux", on peut prendre plusieurs décisions concernant le mot un¬: on
peut en faire un déterminant et un numéral, ou bien un déterminant et pas
un numéral. Les deux décisions sont tout-à-fait légitimes¬: la première
reflète le point de vue selon lequel dans «j'ai vu un chat et deux chiens»,
un serait un numéral; la deuxième reflète le point de vue selon lequel une
telle distinction est douteuse17, et en tout cas crée une ambiguïté
impossible à lever par des systèmes automatiques. On pourrait multiplier
les exemples.

16 Par exemple, 103 dans (El-Bèze, 1993), 155 dans (Debili 1977).
17 Dans la phrase «j'ai vu un chat», un est-il déterminant ou numéral? la réponse peut
   dépendre de dépendance très lointaines dans le discours, voire du contexte
   pragmatique.
2.2.4. Différences entre les langues

      Une difficulté supplémentaire apparaît dans le cadre multilingue, due
au fait que les phénomènes morpho-syntaxiques que l'on cherche à
représenter par des étiquettes ne sont pas forcément les mêmes dans les
différentes langues. Par exemple, les informations concernant le genre des
noms n'ont pas d'équivalent possible en anglais. Les différences ne sont
malheureusement pas toujours aussi tranchées et l'on observe toute une
panoplie de faux-amis, faux-ennemis et cas insolites. Ainsi, en français le
système des pronoms personnels a certaines ressemblances avec le
système casuel que l'on observe dans des langues comme l'allemand, qui
distinguent par exemple le nominatif (ich), le génitif (meiner), le datif (mir) et
l'accusatif (mich). Faut-il, pour des raisons d'harmonisation, voir dans le
système français un système de cas? Et, si oui, peut-on réduire le système
français à des valeurs telles que nominatif, accusatif, etc.?
      Nous développerons un peu plus en détail cet exemple pour bien faire
comprendre la difficulté d'harmoniser des catégories et des étiquettes dans
un système multilingue. On s'accorde ainsi (plus ou moins) à distinguer
trois formes des pronoms personnels en français¬:

     • sujet¬: je, tu, il, elle, nous, vous, ils, elles
     • objet¬: me, te, le, la, lui, se, nous, vous, les, leur, se
     • autres¬:    moi, toi, lui, elle, soi, nous, vous, eux, elles, soi

      La catégorie "autres" est assez difficile à définir précisément. Elle
regroupe une variété d'occurrences telles que le renforcement du sujet ou
de l'objet («Moi, je le dis! »), l'attribut («C'est moi»), etc. Certains parlent
aussi de formes conjointes et disjointes. La correspondance ci-dessous est-
elle légitime?

                    Nominatif               Sujet
                    Accusatif               Objet direct
                    Datif                   Objet indirect
                    Oblique                 Autres

      A part un réajustement terminologique, cette solution impose de
diviser "objet" en "objet direct" et "objet indirect", distinction qui n'est valable
que pour la troisième personne en français (direct¬: le, la, les; indirect¬: lui,
leur).
      Aux difficultés de la comparaison des langues deux à deux s'ajoute
une multiplication de la difficulté avec l'accroissement du nombre de
langues. Ainsi, même si l'on résout le cas des pronoms ci-dessus, comment
traitera-t-on les formes "toniques" (sujet¬: io, egli; objet¬: me, lui) et "atones"
(objet¬: mi, gli/lo) de l'italien?

3. MODÈLE

     Dans un projet comme MULTEXT, où la préoccupation principale est
la généricité et la réutilisabilité des ressources et outils dans un contexte
fortement multilingue, il est clair que des solutions devaient être trouvées
pour assurer la comparabilité intra- et inter-langues des étiquettes. Le
problème est difficile, comme les considérations de la section précédente
peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention
d'avoir résolu le problème de façon définitive. De nombreux problèmes
restent ouverts, et l'adjonction de langues supplémentaires (voire
l'adaptation à de nouvelles applications) imposera certainement une
révision des schémas proposés. Toutefois, reconnaître et admettre la
difficulté du problème global (assurer la comparabilité d'étiquettes dans un
grand nombre de langues) ne doit pas empêcher des solutions locales, qui
permettraient de faire un progrès, c'est-à-dire quelques pas entre le "rien"
(incomparabilité totale) et le "tout" (comparabilité totale). L'approche
adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique,
"éminemment pratique, et n'a aucune visée théorique. Les catégories
proposées n'ont d'autre but que de fournir un langage commun permettant
(au moins partiellement) la description et la comparaison des systèmes. Il
est clair que les progrès dans ce domaine ne peuvent être que lents et
progressifs; ils présupposent des avancées techniques et théoriques, mais
aussi une évolution des points de vues, écoles et terminologies.

3.1.   Principes

      Les principes adoptés par MULTEXT sont basés sur un postulat¬:
l'impossibilité d'avoir un jeu d'étiquettes unique pour une langue, et encore
moins pour des langues diverses. Les jeux d'étiquettes doivent pouvoir
varier selon les langues (par exemple coder le genre pour les langues
romanes, mais pas pour l'anglais), et les applications, et de plus doivent
permettre l'expérimentation, c'est-à-dire la modification rapide et fréquente
en vue de l'optimisation des étiqueteurs.
      Le premier principe impose une séparation des descriptions
lexicales et des étiquettes de corpus. Dans beaucoup de systèmes
d'étiquetage qu'il nous a été possible d'observer, les étiquettes sont
codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique
est associée son lemme et une étiquette. Ce mode de représentation des
listes lexicales est toutefois très rigide. D'une part, la modification de la
définition ou de l'extension d'une étiquette impose des modifications
globales du lexique, qui sont peu propices à une optimisation des
étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre
systèmes ou entre langues est très difficile, pour les raisons évoquées
précédemment.
      MULTEXT propose donc un modèle à deux niveaux, dans lequel le
lexique contient une information de très fine granularité, et en principe
stable (les descriptions lexicales) et le corpus contient des étiquettes
d e corpus de granularité généralement grossière, c'est-à-dire qui sous-
spéficient les descriptions lexicales. Le passage des descriptions lexicales
aux étiquettes de corpus se fait par une traduction (figure 1). Un postulat
implicite est qu'il est plus facile de trouver un consensus au niveau des
descriptions lexicales (qui décrivent la langue) qu'au niveau des étiquettes
(qui tiennent compte de nombreux paramètres plus ou moins subjectifs¬:
l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez
large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même
si des divergences sont certaines quand à la représentation de ces
informations au niveau des étiquettes de corpus.
Description lexicale                            Etiquette de corpus
                                                                                            (sous-spécifiée)
                                          vienne
                                           V[type=main
                                             mood=subjunctive
    Lexique         accès lexical
                                             tense=present
                                                                     traduction              vienne VM1S
                                             person=first
                                             number=singular]

           Figure 1¬: Descriptions lexicales et étiquettes de corpus

     Le deuxième principe est un principe applicatif, c'est-à-dire que la
traduction des descriptions lexicales vers les étiquettes de corpus doit être
une application au sens mathématique du terme18. Ce principe permet
d'opérer la traduction des descriptions lexicales en étiquettes de corpus par
une simple table, sans référence au lexique. Si ce principe est respecté, en
admettant que les descriptions lexicales soient stables, la modification du
jeu d'étiquettes demande la seule modification de la table de
correspondance. Par ailleurs, ce principe permet une définition précise de
chaque jeu d'étiquettes, ce qui est appréciable, et constitue un élément
important de la comparabilité. Enfin, le jeu des traductions permet, dans
une certaine mesure, de s'affranchir des divergences théoriques¬: il suffit
que le niveau de granularité des descriptions lexicales soit suffisamment fin
pour que les tenants des théories les plus diverses puissent traduire les
descriptions lexicales en d'autres qu'ils affectionnent plus particulièrement.

                 descr. lex.                                                      étiq.

                    L1                    étiq.        descr. lex.                 E1
                    L2                                                             E2
                    L3                    E               L                        E3
                    ...                                                            ...
                    Ln                                                             En

                               respecté                              non respecté

                               Figure 2¬: Principe applicatif

18 C'est-à-dire que toute description lexicale doit correspondre à au plus une étiquette.
   Par contre, la même étiquette peut traduire plusieurs descriptions lexicales.
3.2.   Descriptions       lexicales

3.2.1. Noyau commun

      La première étape a été la détermination d'un "noyau commun" aux
diverses langues et aux diverses applications, et la définition d'un bon
niveau de granularité. Nous avons largement utilisé ici le travail effectué
par le groupe EAGLES (voir Monachini et Calzolari, 1994)19. Les
spécifications proposées par EAGLES résultent de l'observation d'un
certain nombre de projets lexicaux et de projets sur les corpus en Europe.
Cette observation a permis de dégager des constantes et des traits
communs aux différents systèmes et aux diverses langues, et de dégager
un noyau d'informations morpho-syntaxiques sur lesquelles un consensus
assez large peut être établi. Le système proposé par EAGLES est un
système à plusieurs couches, dont la première est le noyau commun
morpho-syntaxique. Ce noyau se complète par des couches d'informations
optionnelles, ou propres à des applications particulières. Ce modèle a
l'avantage de permettre l'harmonisation nécessaire à la comparabilité tout
en permettant une grande flexibilité. Nous reprenons cette idée dans
MULTEXT en utilisant deux couches, le noyau commun, et une couche
privée additionnelle (figure 3). MULTEXT n'a pour ambition que
d'harmoniser le noyau commun.

                                             couche privée

                              noyau commun

                    Figure 3 : Noyau commun et couche privée

     Le nombre et la nature des informations que des étiquettes de corpus
peuvent encoder est potentiellement infini. Nous avons mentionné plus
haut que certains systèmes distinguent parmi les noms propres les villes,
les pays, les personnes, les sociétés. Rien n'interdit d'aller plus loin dans la
granularité (prénoms, noms de famille, noms de fleuves et rivières, de
régions, de départements, etc.); il est probable que certaines applications y
trouveraient leur bénéfice. Des subdivisions analogues peuvent s'appliquer
à toutes les catégories¬: certains systèmes distinguent parmi les noms
communs les jours de la semaine, les noms de mois, parmi les verbes, les
verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les
textes journalistiques, ainsi qu'une distribution particulière).

19 Le travail a été fait en étroite collaboration, et certaines des suggestions de MULTEXT
   ont été prises en compte dans les documents EAGLES.
Nous n'avons pas la prétention d'étendre la comparabilité à toute
cette gamme (ouverte) d'informations, et MULTEXT a pris une position très
minimaliste en ce qui concerne l'étendue du noyau commun. N'y figurent
que des informations de nature clairement morpho-syntaxique, et parmi
celles-ci, uniquement celles qui font l'objet d'un large consensus.

3.2.2.   Catégories     grammaticales

     La sélection d'un ensemble de catégories grammaticales qui fasse
l'unanimité est clairement une tâche impossible, et toute solution ne peut
être qu'un compromis. Les catégories adoptées pour MULTEXT sont
données par la figure 4.

                             Category         Code
                             Noun             N
                             Verb             V
                             Adjective        A
                             Pronoun          P
                             Determiner       D
                             Adverb           R
                             Adposition       S
                             Conjunction      C
                             Numeral          M
                             Interjection     I
                             Residual         X

            Figure 4¬: Catégories grammaticales EAGLES/MULTEXT

      La plupart des catégories s'expliquent d'elles-mêmes (bien qu'il ne
soit pas toujours évident de définir avec précision leur extension). On
notera la classe des numéraux, qui permet de s'affranchir du délicat
problème de leur classement dans les parties du discours traditionnelles
(en français, ils fonctionnent à la fois comme adjectifs, noms ou pronoms). A
nouveau, il est possible d'opérer des traductions appropriés pour modifier
le classement. La classe X concerne tous les objets au statut lexical
incertain, et qui en tous cas ne semblent pas relever des parties du
discours classiques (symboles, dates, parties de locutions au statut non
autonome, etc.).

3.2.3. Attributs et valeurs

     Les descriptions lexicales de MULTEXT sont représentées par des
couples attribut-valeur (structures de traits typées20). par exemple, un nom
commun masculin singulier sera représenté par la structure de traits
suivante¬:

     N[type=common gender=masculine number=singular case=n/a]

    Pour des raisons d'harmonisation entre langues, certains attributs (tels
que le cas) sont présents, mais ne s'appliquent pas à une catégorie

20 Chaque catégorie grammaticale a un ensemble d'attributs différents, donc un type
   différent.
donnée dans telle ou telle langue, ce que traduit la valeur n/a ("not
 applicable"). D'autres attributs s'appliquent à la catégorie dans la langue
 considérée, mais ne s'appliquent pas à certaines de ses sous-catégories.
 Par exemple pour les verbes français, le genre ne s'applique qu'au
 participe passé alors que la personne ne s'applique pas. On aura donc, par
 exemple pour la première personne de l'indicatif présent¬:

       V[type=main mood=indicative tense=present person=first number=singular
       gender=n/a]

 et pour le participe passé féminin¬:
       V[type=main mood=participle tense=past person=n/a number=singular
       gender=feminine]21

       Une version prélimianire des catégories grammaticales, attributs et
 valeurs retenus pour le noyau commun du projet MULTEXT est décrite
 dans (Bel et al. 1995)22. Voir la figure 5 ci-après, par exemple, pour les
 noms et les verbes. On notera un certain nombre de compromis et de
 décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à
 la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus
 linguistiquement correcte, être classé dans les temps, mais une traduction
 immédiate est possible entre l'une et l'autre convention, et la question ne
 semble pas valoir une controverse.

 3.2.4.   Représentation           compacte

       Le projet MULTEXT propose une représentation compacte des
 structures de traits, inspirée de (Leech et Wilson 1994). Chaque structure
 de traits est codée sous forme d'une chaîne de caractères où¬:

       • le premier caractère code la catégorie grammaticale, selon le code
         donné par la table de la figure 4;
       • chacune des positions suivantes de la chaîne code un attribut. Les
         attributs sont ordonnés selon les tables données par la figure 5
         pour les noms et les verbes, et chaque valeur est représenté par un
         caractère unique (donné par la colonne "code").
       • la valeur "non applicable" est représentée par un tiret (-).

       Exemples¬:

N[type=common gender=masculine number=singular]                                   Ncms-
V[type=main mood=indicative tense=present person=first number=singular]           Vmip1s--

      Cette représentation compacte permet également de représenter la
 sous-spécification par des expressions régulières (voir ci-après).

 21 Nous utilisons une notation inspirée de (Petitpierre et Russel 1995). Dans la suite nous
    choisirons d'omettre les attributs portant la valeur n/a.
 22 Ce rapport n'est qu'un rapport de mi-projet, et il est possible et même probable que des
    modifications et ajustements interviennent.
Noun                                    Verb
Pos.   Attribute   Value        Code     Pos.   Attribute   Value         Code
1      Type        common       c        1      Type        main          m
                   proper       p                           auxiliary     a
2      Gender      masculine    m                           modal         o
                   feminine     f        2      Mood/Form   indicative    i
                   neuter       n                           subjunctive   s
3      Number      singular     s                           imperative    m
                   plural       p                           conditional   c
4      Case        nominative   n                           infinitive    n
                   genitive     g                           participle    p
                   dative       d                           gerund        g
                   accusative   a                           supine        s
                                                            base          b
                                         3      Tense       present       p
                                                            imperfect     i
                                                            future        f
                                                            past          s
                                         4      Person      first         1
                                                            second        2
                                                            third         3
                                         5      Number      singular      s
                                                            plural        p
                                         6      Gender      masculine     m
                                                            feminine      f
                                                            neuter        n

        Figure 5¬: Tables attribut-valeurs pour les noms et les verbes

3.3. Traduction en étiquettes

       Dans le système proposé par MULTEXT, chaque langue est sous-
spécifiée par rapport au système général (c'est-à-dire la totalité des
combinaisons attribut-valeur possibles). De plus, chaque jeu d'étiquettes
pour une langue est sous-spécifié par rapport au système maximal de cette
langue.
       Ainsi, le français est sous-spécifié en ce qui concerne le trait "cas"
pour les noms, qui est inapplicable; pour les verbes, le trait "genre" n'est
pas applicable pour les formes conjuguées; etc. Par contre, à l'intérieur du
système possible pour le français, on peut prendre la décision de ne pas
représenter le mode et le temps des verbes (informations notoirement
difficiles à désambiguïser automatiquement) dans un jeu d'étiquettes
donné. Dans ce cas, le système particulier d'un jeu d'étiquettes est sous-
spécifié par rapport au système maximal possible pour le français. Par
exemple, dans la figure 6, l'étiquette VM1S est sous-spécifiée en ce sens
qu'elle ignore le mode et le temps, et elle correspond à sept descriptions
lexicales attestées dans le lexique.
Descr. lex.         Etiquette           Exemple
                  Vmip1s-             VM1S                viens
                  Vmii1s-             VM1S                venais
                  Vmif1s-             VM1S                viendrai
                  Vmsp1s-             VM1S                vienne
                  Vmsi1s-             VM1S                vinsse
                  Vmcp1s-             VM1S                viendrais
                  Vmis1s-             VM1S                vins

                    Figure 6¬: Sous-spécification des étiquettes

       Le principe applicatif permet de définir de façon formelle les étiquettes
utilisées. Par exemple, l'étiquette VM1S de l'exemple précédent se définira
comme

      V[type=main mood=any tense=any person=first number=singular]

où la valeur any représente la disjonction de toutes les valeurs possibles
pour un attribut donné23.
     Nous proposons de représenter de façon compacte la sous-
spécification par des expressions régulières, à l'aide des opérateurs
suivants¬:

a. Joker ('.')

       Cet opérateur permet de noter que toute valeur est autorisée pour
l'attribut concerné. Exemple¬:

      Vmi.2s-     Verbe principal, indicatif, 2ème personne du singulier

b. Disjonction          (...|...)

     Cet opérateur permet de lister de façon extensive des alternatives
possibles. Exemple¬:

      (Ncf.-|Vmip2s- ) Nom commun féminin ou Verbe principal, indicatif, 2ème personne
      du singulier (par exemple "souris").

c. Listes [ ... ] et [^ ... ]

     L'opérateur de liste [ ... ] permet de représenter un ensemble de
valeurs. Par exemple, [ab] représente a ou b. L'opérateur [^ ... ] permet de
représenter le complément d'un ensemble, c'est-à-dire toutes les valeurs
autres que celles spécifiées. Par exemple, [^ab] représente toutes les
valeurs possibles, sauf a et b. Exemples¬:

23 On peut aussi choisir d'ignorer ces attributs dans l'écriture, et noter simplement:

                            V[type=main person=first number=singular]
Vm[isc].2s-   Verbe principal, indicatif, subjonctif ou conditionnel, 2ème personne du
       singulier

       Vm[^s]p2s-     Verbe principal, mode non subjonctif, présent, 2ème personne du
       singulier

      Avec ces conventions, l'étiquette VM1S mentionnée plus haut peut se
définir par l'expression régulière¬:

       Vm..1s-

ou, de façon équivalente (pour le français)¬:
       Vm[iscm][pifs]1s-

      Le lecteur aura noté que la définition des étiquettes n'est possible que
si le principe applicatif est respecté. Ainsi, dans le cas ci-dessous

       France    N[type=proper gender=feminine number=singular]         XPAYS

       Marie     N[type=proper gender=feminine number=singular]         XPERS

le principe applicatif n'est pas respecté, puisque la même description
lexicale correspond à des étiquettes différentes selon l'entrée lexicale.
      Si les utilisateurs souhaitent opérer de telles distinctions, il faut qu'ils
restaurent le principe applicatif en ajoutant des attributs adéquats dans la
couche privée du modèle (qui correspondront à des caractères
supplémentaire en fin de chaîne dans la représentation compacte). Ainsi,
par exemple, un attribut "sous-type" permet de désambiguïser les noms
propres, et l'on pourra définir les étiquettes XPAYS et XPERS comme¬:

       XPAYS N[type=proper subtype=country]

       XPERS N[type=proper subtype=person]

4.    DIRECTIONS           FUTURES

      Même si EAGLES et MULTEXT ont permis de faire quelques pas vers
une harmonisation et une meilleur comparabilité des jeux d'étiquettes pour
les corpus, il est clair qu'il reste de nombreux problèmes non résolus.
      Tout d'abord, l'inclusion de nouvelles langues ne saura manquer de
créer de nouvelles interrogations, et menacer le fragile ensemble de
compromis sous-jacent à nos travaux. Ainsi, l'extension du projet à des
langues finno-ougriennes et slaves à travers MULTEXT-EAST a déjà fait
apparaître la nécessité de nouvelles valeurs d'attributs (par exemple pour
le système casuel très complexe de l'estonien), voire de nouveaux
attributs24. Il est probable que l'inclusion d'autres langues, encore plus
éloignées, telle que les langues africaines, obligera à remettre en cause la
fragile division en catégories grammaticales adoptée ici. Il sera peut-être

24 MULTEXT-EAST vient de produire un premier ensemble de spécifications lexicales pour
     les six langues du projet (Monachini, 1995).
alors nécessaire d'avoir un modèle arborescent, proposant des
catégories, attributs et valeurs commun à toutes les langues, puis d'autres
propres à une famille, et enfin d'autres propres à une langue donnée.
       Une autre direction intéressante consiste à essayer d'harmoniser
quelque peu la couche privée. Il semble en effet que, si cette couche est
manifestement ouverte, un certain nombre d'informations couramment
utilisées pourraient faire l'objet d'une harmonisation minimale (par
exemple, sous-types des noms, type d'auxiliaire associé aux participes
passés, etc.).
       Enfin, il est clair que nous manquons cruellement de critères pour
définir l'extension des descriptions lexicales. Sur ce point, il semble que
le désaccord entre théories soit assez grand, ou, pire, que les théories
(même les plus formalisées) ne soient pas très précises.

5.   CONCLUSION

       Le travail présenté ici décrit les essais (modestes) d'harmonisation
des jeux d'étiquettes réalisés dans le cadre du projet MULTEXT en
coordination avec EAGLES. Nous avons conscience que les solutions
proposées sont imparfaites, reposent sur des compromis, et que de
nombreux problèmes restent à résoudre, mais ces deux projets auront
permis de faire quelques pas sur un chemin difficile. La naissance de
normes et standards est, dans tous les domaines, une opération longue et
difficile, qui demande beaucoup de patience et de compromis, et les
solutions adoptées sont par force généralement les moins audacieuses et
les moins innovatrices¬: l'histoire en est pleine d'exemples dans tous les
domaines, et l'informatique linguistique n'échappe pas à la règle. Mais
mieux vaut des standards imparfaits que pas de standards du tout¬: il suffit
de voyager à travers le monde avec son sèche-cheveux ou son rasoir pour
s'en convaincre...

RÉFÉRENCES        BIBLIOGRAPHIQUES

Adda, G., Blache, Ph., Mariani, J., Paroubek, P., Rajman, M. (1995). Action
     GRACE¬: mise en place du paradigme d'évaluation. Application au
     domaine de l'analyse morpho-syntaxique. Actes de la conférence
     Traitement Automatique du Langage Naturel, TALN'95, Marseille, 14-
     16 Juin 1995, 72-79.
Bel, N., Monachini, M., Calzolari, N. (Eds.) (1995). Common Specifications
     and Notation for Lexicon Encoding and Preliminary Proposal for the
     Tagsets. Rapport Intermediare D1.6.1-B, Project LRE 62-050
     MULTEXT, CNR, Pisa.
Debili, F. (1977). Traitements syntaxiques utilisant des matrices de
     précédence fréquentielles construites automatiquement par
     apprentissage. Thèse de Docteur-Ingénieur, Université de Paris VII,
     U.E.R. de Physique, 297p.
El-Bèze, M. (1993). Les modèles de langage probabilistes : quelques
     domaines d'application. Mémoire d'habilitation à diriger des
     recherches. LIPN, Université Paris-Nord. 85p.
Ide, N. (1994). Encoding standards for large text resources¬: The Text
     Encoding Initiative. Proceedings of the 14th International Conference
     on Computational Linguistics, COLING'94, Kyoto, Japan, 574-578.
Ide, N., Véronis, J. (Eds.) (1995). The Text Encoding Initiative: Background
     and context. Kluwer Academic Publishers,¬ Dordrecht, 342¬p.
Ide, N., Véronis, J. (1994). MULTEXT (Multilingual Text Tools and Corpora).
     Proceedings of the 14th International Conference on Computational
     Linguistics, COLING'94, Kyoto, Japan, 588-592.
Leech, J., Wilson, A. (1994). Draft sections 4.6 and 4.7 of the EAGLES
     Interim Report¬: Annotation Sub-group. EAGLES Interim Report, Pisa.
Monachini, M. (Ed.) (1995). Common Specifications and Notation for
     Lexicon Encoding of Eastern Languages. Deliverable D1.1, Project
     COP 106 MULTEXT-EAST, CNR, Pisa.
Monachini, M., Calzolari, N. (Eds.) (1994). Synopsis and Comparison of
     Morphosyntactic Phenomena encoded in Lexicons and in Corpora
     and Application to European Languages, EAGLES document EAG-
     LSG-T4.6/CSG-T3.2, Pisa.
Petitpierre, D., Russel, G. (1995). MMORPH - The MULTEXT Morphology
     Program. Rapport Intermédiaire D2.3.1-B, Projet LRE 62-050
     MULTEXT, ISSCO, Genève.
Sperberg-McQueen, C.M., Burnard, L. (Eds.) (1994) Guidelines for
     Electronic Text Encoding and Interchange, Text Encoding Initiative,
     Chicago and Oxford, 1290p.
Vous pouvez aussi lire