Exp riences d'acquisition automatique de connaissances morphologiques par amor age partir d'un th saurus
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Expériences d'acquisition automatique de connaissances
morphologiques par amorçage à partir d'un thésaurus
Pierre Zweigenbaum Natalia Grabar
DIAM - SIM/AP-HP et Université Paris 6 91 boulevard de l'Hôpital 75634 Paris Cedex 13
Tél. : 01 45 83 67 28 Fax : 01 45 86 80 68
{ngr,pz}@biomath.jussieu.fr http://www.biomath.jussieu.fr/~pz/
Résumé Keywords
Les connaissances morphologiques, en particulier sur Natural Language Processing, Morphology, Automatic
les formes dérivées et composées, sont extrêmement Knowledge Acquisition.
utiles pour le traitement automatique des langues com-
me pour la recherche d'information. Si de grandes bases
de connaissances morphologiques sont disponibles pour
1 Introduction
certaines langues, ce n'est pas le cas pour le français. 1.1 Contexte
Pour aider à combler ce vide, nous cherchons à mettre Les connaissances morphologiques sont extrêmement
au point une méthode permettant d'acquérir automati- utiles pour le traitement automatique des langues com-
quement divers types de connaissances morphologiques me pour la recherche d'information. On distingue clas-
pour une langue et un domaine donnés. Cette méthode siquement trois types de variation morphologique. La
exploite les termes synonymes présents dans un thé- exion produit les diérentes formes d'un même mot
saurus du domaine et une liste de mots qui peut être (pluriel, féminin, conjugaisons d'un verbe, etc.) ; par
tirée du même thésaurus. Cet article présente une sé- exemple, singulier aorte (forme canonique, ou lemme )
rie d'expériences visant à acquérir des connaissances et pluriel aortes (forme échie). La dérivation permet
morphologiques à partir de ces données de base et sans d'obtenir, par exemple, la forme adjectivale d'un nom
connaissances linguistiques a priori. Il montre que l'on (aorte ! aortique). La composition combine plusieurs
peut obtenir instantanément un débroussaillage massif radicaux pour former des mots plus complexes (aorte
de la morphologie des formes du domaine étudié. + coronaire ! aortocoronaire).
Mots Clef La morphologie exionnelle a été bien étudiée, et de
Traitement des langues naturelles, morphologie, acqui- nombreux outils d'analyse exionnelle (lemmatisation :
sition automatique de connaissances. passage d'une forme échie à la forme canonique cor-
respondante) accompagnés de descriptions complètes
Abstract de la exion du français existent de façon commer-
Morphological knowledge, especially derivation and com- ciale ou académique (par exemple, le lemmatiseur de
pounding, is extremely useful both for natural language Fiametta Namer [16] ou le système d'analyse INTEX
processing and information retrieval. Whereas large [13]). En revanche, aucune description complète de la
morphological knowledge bases are available for some morphologie dérivationnelle et compositionnelle n'est
languages, this is not the case for French. In order disponible pour le français. Cette situation tranche
to ll this gap, we aim at setting up a method that avec celle qui prévaut pour des langues comme l'an-
can acquire automatically various kinds of morpholo- glais, le néerlandais ou l'allemand, pour lesquelles de
gical knowledge for a given language and domain. This grandes bases de connaissances morphologiques sont
method relies on the synonym terms present in a the- disponibles (par exemple la base CELEX [1]).
saurus of the domain and a list of words that can be La connaissance des formes échies, dérivées et compo-
drawn from the same thesaurus. This paper presents a sées d'un mot donné (sa famille morphologique ) peut
series of experiments whose goal is to acquire morpho- être utilisée en recherche documentaire pour eectuer
logical knowledge from this initial data and without a une expansion de requête. Une requête étant donnée, si
priori linguistic knowledge. It shows that one can ob- l'un de ses mots se trouve dans une famille morpholo-
tain instantaneously a massive, gross description of gique, on propose de le remplacer par la disjonction des
word morphology in the domain addressed. formes de cette famille. Cette expansion est similaire
au remplacement, à l'indexation comme à l'interroga-
À paraître dans RFIA 2000, Paris, 1-3 février 2000 . tion, de chaque forme présente dans une famille par unreprésentant canonique de cette famille : c'est ce que Du fait de leur origine terminologique, ces formes sont
font les algorithmes de racinisation [12], le représen- principalement des noms, adjectifs et adverbes, ainsi
tant canonique étant une forme réduite hypothétique que quelques participes passés ou présents. On y trouve
de la forme initiale. des lemmes et des formes échies, des formes dérivées
Pour aider à combler le manque de ressources morpho- et des formes composées. Thésaurus et liste de formes
logiques constaté, nous cherchons à mettre au point n'ont pas besoin d'être étiquetés par des catégories
une méthode permettant d'acquérir automatiquement syntaxiques : nous travaillons sur des données brutes,
divers types de connaissances morphologiques pour une non annotées (mais nous avons par ailleurs testé l'in-
langue et un domaine donnés. Nous avons choisi l'ap- térêt de données étiquetées ou lemmatisées [21]).
proche d'un outil automatique, non interactif, sans 1.3 Objectifs
connaissances linguistiques, que l'on peut ainsi appli-
quer rapidement et avec peu d'eort sur un nouveau L'objectif de ce travail est d'identier quelles connais-
domaine ou une nouvelle langue. sances morphologiques on peut acquérir automatique-
Des méthodes automatiques pour l'acquisition de va- ment à partir de ces données en recourant à très peu
riations morphologiques ont été mises au point pour de connaissances a priori sur la langue concernée. Il
la recherche d'information en se fondant sur les col- reprend et étend des travaux précédents [5], rappelés
locations en corpus [20] ou les correspondances entre et complétés dans les sections 4 et 5. Notre modèle de
un thésaurus et un corpus [7]. Dans le cadre du pro- la morphologie s'appuie essentiellement sur des com-
jet FRANLEX, qui propose de lancer la construction paraisons et substitutions de chaînes de caractères ini-
d'une base de connaissances morphologiques pour le tiales ou nales, et ne présuppose pas de distinction
français, une autre méthode recherche des correspon- entre consonnes et voyelles ni les notions morphotac-
dances dans une liste entre mots de catégories syn- tiques que l'on peut trouver par exemple en morpho-
taxiques diérentes [3]. Des outils d'étude de la varia- logie à deux niveaux [8]. Les connaissances morpholo-
tion morphologique à travers plusieurs thésaurus du giques visées sont des types suivants.
même domaine ont aussi été conçus lors de la consti- Des couples de formes morphologiquement reliées :
tution du métathésaurus biomédical UMLS [10].
Les méthodes employées travaillent essentiellement à (1) abdominal, abdominaux (exion) ;
l'aide d'opérations classiques sur des chaînes de carac- aorte, aortique (dérivation) ;
tères. Un modèle linguistique plus évolué, comme la cardio, cardiomégalie (composition)
morphologie à deux niveaux [8], peut également ser-
vir de support à l'acquisition de règles plus générales mais aussi toute combinaison de ces trois types de
à partir de paires de mots morphologiquement reliés relations.
{lemme, forme dérivée} [15]. Des familles de formes morphologiquement reliées :
1.2 Données de départ (2) abdomen, abdominal, abdominale, abdomi-
L'originalité principale de notre approche est liée à nales, abdominaux, abdomino ;
l'utilisation de la relation de synonymie existant entre cardia, cardiaque, cardiaques, cardio, cardio-
certains termes d'un thésaurus. Les connaissances ap- mégalie, cardiopathie, cardiopathies, cardite
prises sur ces termes synonymes sont ensuite appli-
quées à une liste de mots plus grande. Nos données Ces familles sont par exemple intéressantes en re-
initiales pour une langue et un domaine sont donc : cherche d'information, où elles permettent d'amé-
liorer le rappel en eectuant une racinisation [7]
1. un thésaurus contenant des termes synonymes ; dans les requêtes et les documents ou en eec-
par exemple, pour la médecine, le Microglossaire tuant une expansion de requête .
de Pathologie de la Nomenclature SNOMED In-
ternationale [2] (12 555 termes dans lesquels on Des règles morphologiques permettant de passer
trouve 2 344 séries de synonymes, soit 5 801 termes d'une forme à une autre morphologiquement liée
synonymes) ; ( est le symbole vide) :
2. une liste de référence de formes de mots attes- (3) cicatrice e!iel cicatriciel
j
tées ; pour la médecine, les formes de mots ap- Exemples : ejique , ejaire , js .
paraissant dans les termes de la SNOMED (6500
formes) ou de la Classication Internationale des En présence d'une nouvelle forme, ces règles peu-
Maladies (CIM-10, 4475 formes ; au total, 8874 vent permettre de la relier à une famille existante,
formes). Nous parlons de formes pour préciser et d'étendre ainsi cette famille. Selon leur degré
que les mots de ces listes peuvent apparaître aussi de précision, elles peuvent être employées pour
bien dans leur forme canonique (lemme ) que leurs segmenter une forme selon ses constituants mor-
formes échies. phologiques ou pour engendrer une forme dérivée.
2 Des suxes de la langue ou du domaine, qui in- obtient une liste de préxes (resp. suxes) potentiels.
terviennent dans ces règles : Il s'agit d'une forme de l'analyse distributionnelle mise
en ÷uvre par [4], mais plus limitée et relativement
(4) -e , -s , -aire , -ique , -ome , -ose sûre. Dans l'état actuel de nos travaux, les résultats de
Ces suxes sont proches de morphèmes dont cer- cette étape ne sont pas encore utilisés dans la dernière
tains ont une valeur sémantique importante pour étape de la méthode.
le domaine ; ils peuvent correspondre à des primi- Nous exploitons ensuite (section 4) les termes syno-
tives sémantiques (ou types de concepts) pour la nymes : par construction, deux synonymes partagent
représentation des connaissances du domaine (par un sens commun ; des couples de formes morpholo-
exemple, -ome = tumeur). giquement similaires (par exemple, {symbiose, sym-
biotique}) trouvées dans deux tels termes sont généra-
Des radicaux (ou racines) de la langue ou du do- lement dérivées de la même base lexicale. Ces couples
maine, auxquels on peut ajouter des suxes : de formes permettent d'induire des règles morpholo-
giques dont la portée est potentiellement plus générale
(5) br, granul, hépat, hyalin, immun, lymph que l'ensemble de ces couples de formes initiaux. Ces
Ces radicaux sont aussi des morphèmes, dont la règles ont une forme simple (sejtique ), proche de celles
plupart ont une valeur sémantique importante pour du système lexical de l'UMLS [10].
le domaine et correspondent à des types de concepts. Nous croisons alors les deux (section 5) : les règles in-
duites sont appliquées à la liste de formes et détectent
Des préxes de la langue ou du domaine, que l'on de nouveaux couples de formes morphologiquement re-
peut ajouter devant une forme : liées. Les règles sont ajustées (spécialisées) au nouvel
ensemble de couples de formes obtenu. Les règles ajus-
(6) hyper-, poly-, para- tées restantes sont linguistiquement plus pertinentes
Des décompositions (segmentations) de formes en que dans leur forme initiale. Les formes des couples
leurs éléments constitutifs : sont par ailleurs regroupées en familles, en jouant sur
la transitivité de la relation d'apparentement morpho-
(7) cicatricielles ! cicatriciel+le+s logique.
cicatriciel ! cicatrice+iel Enn, nous restructurons les suxes et les règles (sec-
lymphoblastique ! lympho+blastique tion 6) : certaines des règles induites résultent de la
blastique ! blaste+ique composition d'autres règles plus élémentaires. Ces re-
dondances sont identiées, et une décomposition des
où l'on retrouve les suxes d'adjectivation -iel et formes par des règles de coût minimal est proposée.
-ique , les exions du féminin -le et du pluriel -s , Nous décrivons maintenant tour à tour ces étapes.
les racines cicatrice et blaste, et le préxe lympho-
(lié à la racine lymphe). 3 Amorçage sur une liste de for-
Ce type de décomposition permet d'accéder aux
composants sémantiques d'un mot, par exemple mes
pour l'indexer [18] ou pour proposer une déni- Dans cette section, nous examinons ce qu'il est pos-
tion pour un mot nouveau dans un lexique. Par sible de faire à partir d'une liste de formes à plat ,
exemple, les mots possédant le morphème -ome sans structure a priori. Cette liste de formes, tirée de
pourraient être étiquetés sémantiquement par tu- terminologies du domaine, a néanmoins la particula-
meur ou état pathologique. rité de contenir une grande proportion des mots ca-
ractéristiques du domaine étudié : mots spéciques à
Le reste de cet article décrit un faisceau d'expériences ce domaine (leucokératose, pemphigoïde) ou typiques
visant à acquérir des connaissances de ces diérents dans ses corpus (bénin, aberration).
types à partir de nos données de base en employant un
modèle linguistique extrêmement simple ; nous cher- 3.1 Détection de préxes et radicaux
chons dans ces expériences à repérer des conditions compositionnels
assurant la qualité des résultats obtenus. De nombreux mots médicaux sont formés par compo-
2 Approche générale sition de radicaux gréco-latins ; par exemple, bro- et
amélo- sont préxés à blastique pour former bro+amé-
Nos explorations nous ont conduits à attaquer le pro- lo+blastique. Disposer d'une liste de ces radicaux per-
blème sous plusieurs angles. met de mettre en ÷uvre des algorithmes de segmen-
Nous examinons d'une part (section 3) ce que l'on peut tation d'un mot en constituants (par exemple, [19, 14,
tirer de la liste de formes à plat : en repérant les 9]). Nous cherchons ici à recenser ces radicaux.
contrastes entre des formes préxées (resp. suxées) Nous eectuons pour cela une analyse de notre liste
et les mêmes formes non préxées (resp. suxées), on de formes attestées de référence, fondée sur des tests
3de commutation. Par dénition, si bro- est un radi- inclus ce critère dans notre procédure, car il n'est pas
cal, c'est qu'il peut se combiner avec diverses formes susamment discriminant.
F pour former des composés broF (avec une éven- En conclusion, cette analyse détecte avec une bonne
tuelle adaptation morphologique locale à la jonction précision des radicaux ou préxes fréquents dans le
des deux composants). Nous supposons donc à l'in- domaine. Elle fournit en même temps 904 couples de
verse que si l'on observe dans notre liste de formes formes {F , RF } pour lesquels elle propose une seg-
attestées un nombre susant de couples {F , broF }, mentation de la forme composée RF en R + F où R
c'est un indice montrant que bro- est un candidat est l'un des préxes retenus. Dans ces 904 couples, les
radical , ou encore un candidat préxe. 5 préxes faux produisent 13 segmentations erronées,
De fait, pour bro-, on trouve dans notre liste 18 couples : soit 1,4 % d'erreur. Il faut y ajouter de possibles mais
rares segmentations non pertinentes issues de préxes
(8) {améloblastique, broaméloblastique} par ailleurs corrects, comme a+voir ou a+mont.
{blastique, broblastique} Le fait de travailler sur des couples de formes attestées
::: est un puissant ltre contre des décompositions non
{vasculaire, brovasculaire} pertinentes. Ainsi, sur les 173 formes commençant par
{xanthome, broxanthome} an-, seules 6 ont été segmentées à l'aide de ce préxe
ce qui donne une bonne conance dans ce candidat. (il s'agit de an+aplasique, an+aérobies, an+euploïdie,
Appliquée à nos 8874 formes de référence, cette mé- an+ictérique, an+ovulation, an+ovulatoire). La quasi-
thode détecte 779 radicaux R apparaissant au moins totalité des autres formes en an- ne relèvent pas de
dans un couple {F , RF }, dont 235 au moins dans deux cette décomposition, qu'elles soient atomiques (angine)
couples et 120 dans trois. Les 28 radicaux de fréquence ou qu'elles relèvent d'autres préxes ou radicaux (ana-,
supérieure à 10 sont les suivants : angio-, anté-, anti-, ano-).
3.2 Transposition aux suxes
37 intra 20 trans 15 anti 13 endo Le même principe de base peut être appliqué pour
36 in 19 inter 14 poly 13 dys identier des suxes . Ici, il s'agit de repérer des
34 péri 18 bro 13 épi 13 angio couples de formes du type :
28 para 17 ostéo 13 sub 13 a
26 hyper 17 dé 13 rétro 11 myo (9) {ligament, ligamentaire}
23 pré 15 neuro 13 ré 11 di {ligament, ligaments}
21 hypo 15 micro 13 pro 11 bi {essentielle, essentiellement}
{pneumo, pneumocyte}
On observe que les 9 premiers éléments trouvés (intra-, qui mettent en évidence les chaînes suxables -aire ,
in-, péri-, para-, hyper-, pré-, hypo-, trans-, inter-) sont -s , -ment , -cyte . Appliquée à nos 8874 formes de réfé-
des préxes généraux du français, fréquents dans le rence, cette méthode détecte 733 suxes S apparais-
domaine médical. On commence à trouver des radi- sant au moins dans un couple {F , F S }, dont 170 au
caux du domaine à partir du rang 10 (bro-, ostéo-). moins dans deux couples et 78 dans au moins trois.
La première erreur apparaît au rang 61 (fréquence = Les 12 suxes de fréquence supérieure à 10 sont :
5) : p- n'est pas un radical ni un préxe, bien que les
couples {laque, plaque}, {liée, pliée}, {lèvre, plèvre}, 1136 s 21 ux 13 le
{réparation, préparation}, {urine, purine} soient attes- 168 e 17 ne 12 ïde
tés. En tout, pour les fréquences supérieures à 2, on 34 ment 15 me 12 use
dénombre 13 erreurs sur 120 radicaux, soit une préci- 24 es 14 se 11 blastome
sion de 89,2 %. Si l'on exclut les préxes d'une seule
lettre (seul a- est un préxe correct), on descend à 5 Les deux premiers sont des suxes de exion (pluriel
erreurs sur 111 radicaux, soit 95,5 % de précision. -s et féminin -e ), puis on a le suxe -ment de for-
Le fait qu'une forme initiale (comme blastique) puisse mation d'adverbes ; le premier suxe du domaine est
de son côté se combiner avec d'autres radicaux (par -me (rang 7), qui en réalité correspond à des formes
exemple, centroblastique, chondroblastique, lipoblasti- en -ome ; enn, le premier radical que l'on trouve en
que, etc.) est un indice supplémentaire : il conrme position de suxe est -blastome (rang 12).
que dans la segmentation bro+blastique obtenue, on Les couples de formes identiés sont par construction
a bien deux composants qui commutent avec divers restreints à des ajouts stricts de suxes, ce qui em-
éléments. Cependant, plusieurs formes parasites pêche de mettre au jour des exions ou dérivations,
comme tique donnent lieu à de nombreuses fausses comme {abdominal, abdominaux} ou {aorte, aortique},
compositions : par exemple, {tique, attique} qui, en pa- qui fonctionnent par substitution de suxes. La mé-
rallèle avec {tente, attente} et {teinte, atteinte}, font thode suivante permet de détecter de tels couples avec
ressortir un préxe erroné at-. Nous n'avons donc pas une excellente précision.
44 Amorçage sur des couples de {schiste, schisteuse}
termes synonymes {méthylique, méthanol}
{atrophie, atrophodermie}
4.1 Termes synonymes {lymphadénome, lymphocytome}
Les terminologies, nomenclatures et autres glossaires Ces couples incluent les trois types de variations mor-
incluent souvent pour un concept donné à la fois phologiques (exion, dérivation et composition). Un
un terme vedette , ou terme préférentiel, et des termes examen manuel des résultats montre qu'avec ce seuil
synonymes. Un terme vedette peut ainsi être accompa- de quatre caractères, tous les couples correspondent
gné de zéro, un ou plusieurs termes synonymes. C'est à des formes eectivement reliées morphologiquement.
le cas de diverses terminologies médicales comme la Un seuil à trois, en revanche, propose des couples erro-
nomenclature SNOMED Internationale [2] (tableau 1) nés (par exemple, {inltration, inammation}, {déshy-
ou le MeSH (Medical Subject Headings), mais aussi draté, désséché} ou {qualité, quantité}), et n'ajoute
de terminologies dans d'autres domaines ; citons par que 9 % de couples supplémentaires (8 % de formes
exemple le thésaurus PASCAL de l'INIST ou le thé- supplémentaires). Notons qu'il serait possible de créer
saurus AGROVOC de la FAO. Notre méthode d'amor- manuellement des listes de couples interdits (excep-
Code concept Type Terme tions) servant à empêcher les erreurs liées à un seuil
F-00470 vedette symbiose trop bas. Mais dans cette série d'expériences, nous
F-00470 synonyme commensalisme avons opté pour une méthode pouvant être appliquée
F-00470 synonyme symbiotique à un autre domaine ou à une autre langue quasiment
F-00470 synonyme commensal sans intervention manuelle (la seule intervention ac-
T-51110 vedette palais dur tuelle est un réglage éventuel du seuil).
T-51110 synonyme voûte palatine 4.3 Induction de règles morphologiques
Tab. 1 Termes préférés et termes synonymes dans Les couples de formes alignées sont alors considérés
la SNOMED. comme des exemples à partir desquels on va induire
des règles morphologiques. Ces règles sont potentiel-
çage détourne ces couples de termes synonymes de leur lement applicables pour identier d'autres couples de
nalité initiale pour les employer comme source de formes entretenant la même relation morphologique.
couples de formes morphologiquement proches. À ce stade du processus, nous cherchons à faire en
sorte que les règles apprises décrivent les caractéris-
4.2 Alignement de couples de formes tiques spéciques minimales des couples de formes, et
morphologiquement reliées conservent une généralité importante. Chaque exemple
Étant donné deux termes synonymes, nous nous in- {I S1, I S2 } est généralisé en une règle {S1 , S2 } qui
téressons aux couples de formes {I S1 , I S2 } trouvées peut être interprétée de la façon suivante : étant donné
dans ces deux termes et qui possèdent une chaîne de une forme terminée par le suxe S1 , on peut déri-
caractères initiale commune I susamment longue : ver une forme dans laquelle on substitue S2 à S1 ; ou
nous avons xé expérimentalement le seuil à quatre l'inverse, la règle étant considérée comme symétrique.
caractères communs, mais il s'agit bien sûr d'un para- Cette règle représente plus précisément la dénition
mètre dans les programmes. Ainsi, dans le tableau 1, en intension du graphe d'une relation sur un ensemble
les couples de formes suivantes sont alignés : de formes F . Cet ensemble étant donné, le graphe G
de cette relation est déni par :
(10) {symbiose , symbiotique }
{commensal, commensalisme } GS1 S2 = fff1; f2 g 2 F F ; 9I ; (f1 = I S1 ^ f2 = I S2 )g
{palais , palatine }.
Notons que dans un contexte non contrôlé, cette mé- Nous notons de façon abrégée les règles {S1, S2 } sous
thode conduirait à beaucoup de bruit. Par exemple, la la forme S1 jS2 .
paire administratif / admission partage une chaîne Concrètement, l'alignement de deux formes {I S1 , I S2 }
initiale de longueur quatre alors que administratif et identie en même temps les suxes {S1 , S2 }, donc la
admission ne sont pas obtenus à partir d'une base lexi- règle associée S1 jS2 . L'application de cette procédure
cale commune (sauf à considérer un préxe commun fournit 567 règles diérentes. Les plus fréquentes pour
ad-, qui n'est pas justié en français actuel). les exemples considérés sont ( désigne la chaîne de
Appliquée aux 5 801 synonymes du Microglossaire, longueur nulle) :
cette méthode aligne 1572 couples de formes (1187 js (pluriel) {articulaire, articulaires}
couples diérents, 1576 formes diérentes), par exemple :
je (féminin) {surrénal, surrénale}
(11) {bénin, bénigne}
{professionnel, professionnelle} ejique (adjectifs en -ique ) {prostate, prostatique}
5ejque (adjectifs en -ique ) 1140 sj 53 xjse 36 esjaire
{hyperkaliémie, hyperkaliémique} 290 ej 43 uxjl 34 vejf
143 esj 42 oje 34 mentj
ejaire (adjectifs en -aire ) {valvule, valvulaire} 74 iqueje 42 ojal 33 nej
mejsarcome (dérivation -ome / composition -osar- 67 ejaire 40 uxjle 33 lej
come ) 64 queje 40 oseje 32 éje
{mélanome, mélanosarcome} 60 sje 38 ojite 31
55 éjation 36 omeje sarcomejme
On notera que ces règles n'ont qu'une valeur associa-
tive : deux formes étant données (typiquement, deux Les règles du pluriel et du féminin sont encore une fois
formes attestées), les règles proposent ou pas de les les plus productives, suivies de la formation d'adjec-
mettre en relation. Il n'est en revanche pas question tifs en -ique et -aire . On trouve aussi en bonne posi-
de les appliquer à n'importe quelle forme se terminant tion des suxations propres au domaine : -ose (dégé-
par l'un des deux suxes de la règle pour engendrer nérescence), -ome (tumeur), -ite (inammation). En-
de nouvelles formes dérivées. En particulier, les règles n, on identie des radicaux comme sarcome ou blas-
dont un suxe est ne signient pas que l'on obtient tome (avec une fréquence un peu moindre). 446 suxes
une forme correcte en ajoutant leur second suxe à sont mobilisés, parmi lesquels les plus fréquents sont
n'importe quelle forme ! les suivants :
Par ailleurs, les suxes considérés peuvent ne pas tous
sembler appropriés. Par exemple, -me correspond en 1254 s 166 se 97 x
réalité au suxe -ome identiant les tumeurs. Nous 1046 e 165 ique 83 ïde
verrons plus bas (section 5.2) comment délimiter les 268 es 143 ome 81 f
suxes de façon plus pertinente. 243 o 141 ose 80 le
5 Confrontation des règles mor- 221 é
212 aire
114 ux
101 al
80 ation
79 sarcome
phologiques à la liste de formes 169 me 99 que
Une liste de formes étant donnée, nous cherchons main-
tenant à y identier les couples de formes morphologi- On y trouve bien sûr ceux impliqués dans les règles les
quement liées qui s'y trouvent. Nous allons pour cela plus fréquentes, en particulier la terminaison -o des ra-
utiliser les règles induites à partir des exemples ini- dicaux que l'on peut préxer à certaines autres formes.
tiaux. Nous examinons l'application de ces règles à 2879 radicaux sont concernés ; les plus fréquents sont :
notre liste de formes de référence. Cet ensemble de
formes est typiquement puisé dans le même domaine 29 myélo 16 granul 12 lymphocyt
que les exemples d'apprentissage. Il pourrait être consti- 25 ostéo 15 angio 11 hémangio
tué des formes des exemples, ou des formes du thésau- 22 bro 13 plasmocyt 11 hyalin
rus dont on a tiré les termes synonymes. 22 br 13 immun 11 histiocyt
21 adéno 13 chondro 10 neuro
5.1 Découverte de nouveaux couples 19 lympho 12 méning
Chaque règle induite (section 4.3) permet d'identier 16 lipo 12 mélano
dans cet ensemble de formes des couples de formes
qui entretiennent potentiellement la relation morpho- On retrouve les radicaux de la section 3.1 avec une
logique décrite par cette règle. Cela revient à calcu- fréquence relative diérente, l'absence de préxes de 2
ler le graphe de cette relation pour cet ensemble de et 3 lettres, et des variantes comme bro / br.
formes. De même que lors de l'alignement (section 4.2),
nous limitons les erreurs en imposant que dans chaque 5.2 Ajustement des règles
couple {I S1 , I S2 }, la chaîne initiale I possède une lon- Maintenant que nous disposons d'une base plus grande
gueur minimale. Nous avons également xé ce seuil à sur laquelle assoir notre jugement, nous pouvons cher-
quatre caractères. cher à spécialiser davantage les règles morphologiques
Les 567 règles appliquées à notre liste de 8874 formes apprises. Dans l'étape précédente, nous avons géné-
identient 4573 couples diérents de formes, soit 3386 ralisé individuellement chaque exemple Ei = {Ii S1 ,
couples (285 %) de plus qu'à l'amorçage (comme les Ii S2 } à la règle {S1 , S2 }, sur la base de la chaîne
formes des couples de l'amorçage se trouvent dans la initiale maximale Ii commune aux deux formes du
liste, ces couples sont retrouvés par l'application des couple. Nous allons maintenant considérer globalement
règles). Ces couples mettent en jeu 5164 formes dié- toutes les instances Ei subsumées par cette règle (ex-
rentes, soit 3588 de plus qu'à l'amorçage (+228 %). emples de départ aussi bien que nouveaux couples), et
Les règles les plus appliquées sont les suivantes : identier la chaîne nale maximale S commune à leurs
6chaînes initiales maximales communes Ii . Nous spé- Les radicaux sont réduits proportionnellement aux suf-
cialisons alors la règle {S1 , S2 } en {SS1, SS2 }. Nous xes. Entre autres, un très grand nombre de radicaux
étendons ainsi au maximum vers la gauche les suxes en -o se retrouvent maintenant sous une forme sans -o
S1 et S2 de la règle tout en faisant en sorte qu'elle (par exemple, sarc- au lieu de sarco-).
continue à couvrir toutes les instances. Les règles qui ne s'appliquent qu'à un seul couple de
Soulignons que si nous avions ajusté les règles dès formes n'ont pas de caractère de généralité sur l'en-
l'étape d'amorçage, du fait du nombre d'instances plus semble de formes considérées. Elles correspondent à
limité, une partie d'entre elles auraient été surspécia- des couples appris pendant l'étape d'amorçage (sec-
lisées. Elles n'auraient alors plus été à même de s'ap- tion 4) et qui ne trouvent pas de conrmation externe
pliquer à certains couples de formes de la liste de ré- dans la liste de formes de référence. Nous conservons
férence. chaque couple concerné, mais nous considérons que
Les suxes obtenus sont donc les plus longs possibles nous ne pouvons pas ajuster la règle correspondante.
permettant l'application de la règle à la liste de réfé- Cette règle et ses suxes peuvent alors être considé-
rence. Les nouvelles règles les plus fréquentes sont : rés comme possédant une conance plus faible. Il reste
alors 299 suxes ont été spécialisés (étendus) sur les
1140 sj 53 euxjeuse 36 esjaire 446 initialement dénis par généralisation individuelle
290 ej 43 auxjal 34 mentj des exemples.
143 esj 42 oje 34 ivejif
74 iqueje 42 ojal 33 nej 5.3 Familles de formes
67 ejaire 40 oseje 33 lej Chaque couple de formes spécie que ces deux formes
64 iquejie 40 auxjale 32 éje sont reliées par une relation morphologique : elles font
60 sje 38 ojite 31 partie d'une même famille morphologique. Nous avons
55 éjation 36 omeje osarcomejome cherché à constituer ces familles. Nous regroupons des
formes dans une même famille dans deux situations :
Par construction, le nombre d'applications de chaque
règle n'a pas changé. En revanche, 405 règles sur 567 1. si deux couples diérents sont articulés sur la même
(71 %) ont été spécialisées. Parmi les 23 listées ci- chaîne initiale maximale commune, nous considé-
dessus, les extensions concernent iquejie (+i), euxjeuse rons que cette chaîne initiale est leur radical com-
(+eu), auxjal (+a), auxjale (+a), ivejif (+i) et osarco- mun, et nous regroupons les formes concernées ;
mejome (+o). De fait, les suxes étendus semblent
mieux correspondre aux morphèmes que l'on aurait 2. si deux familles diérentes (éventuellement rédui-
tendance à considérer pour ces formes, et les règles ob- tes aux deux formes d'un couple) ont une forme
tenues semblent plus en accord avec une analyse lin- en commun, elles sont fusionnées.
guistique des opérations morphologiques en jeu. Par
exemple, la règle iquejie concerne la formation d'ad- Les 4573 couples de formes se regroupent en 1678 fa-
jectifs en -ique plutôt que d'adjectifs en -que (comme milles, dont voici les premières :
l'indiquait la règle queje ). Elle spécie la façon dont
cette formation s'applique aux formes se terminant par (12) abdomen, abdominal, abdominale, abdominales,
-ie , et est apprise sur 64 formes dont achromie, aller- abdominaux, abdomino ;
gie, amnésie, etc. abeille, abeilles ;
Des suxes auparavant éclatés en plusieurs formes aberrante, aberration ;
(par exemple, -ique , que nous venons d'examiner, ou abondante, abondants ;
-ome ) se retrouvent ainsi mieux identiés. Les suxes abrasion, abrasé ;
les plus fréquents sont maintenant : absence, absent ;
absorbée, absorbées, absorbés ;
1225 s 197 ose 100 ie acantholyse, acantholyses, acantholytique ;
963 e 196 é 91 ion acanthomateux, acanthome, acanthose, acantho-
333 ome 152 eux 83 if sique ;
263 o 143 al 83 aux acanthocyte, acanthrocyte ;
253 ique 124 oïde 79 osarcome acariase, acariases, acariens ;
250 es 117 ation 76 ale
222 aire 107 euse Nous avons utilisé ces familles en expansion de requête
dans un outil de recherche de termes normalisés pour
De nombreux suxes comme -ome ou -ose , -ique ou l'aide au codage de diagnostics et d'actes en médecine
-ation , maintenant reconnus en tant que tels, voient hospitalière [5]. Une requête comme sténose de l'aorte
ainsi leur fréquence augmenter et remontent dans ce est convertie en (sténose ET (aorte OU aortique
classement. OU ...)) et peut ainsi s'apparier avec des expressions
7comme sténose aortique. Une expérimentation préli- de la règle employée. Il mesure le coût de la suppres-
minaire sur un jeu de 220 requêtes a montré une aug- sion de l'un des deux suxes additionné à celui de l'in-
mentation de rappel de 12 % et une diminution de sertion du second suxe. Les réductions d'une forme
précision de 2,5 % selon que l'expansion de requête de coût non minimal sont supprimées. Par exemple, le
était utilisée ou pas. coût de la règle tiquejses est de 5 + 3 = 8, alors que
celui de tiquejse est de 5 + 2 = 7 : on supprime donc la
6 Structuration de l'ensemble des réduction acantholytiquejacantholyses . Dans le cas où
règles plusieurs réductions d'une forme donnée ont le même
coût, minimal pour cette forme, ces réductions sont
Nous avons pu obtenir une amélioration des suxes conservées en parallèle.
produits par la méthode initiale ; travaillons mainte- Pour eectuer ce traitement, nous construisons le gra-
nant sur les règles. Les données dont nous partons ne phe orienté étiqueté des réductions des formes de notre
sont pas les exemples idéaux habituellement employés liste de référence par les règles acquises précédemment.
dans les travaux précédents en apprentissage de règles Une fois ce graphe obtenu, pour chacun de ses n÷uds,
morphologiques [17, 15]. En eet, l'apprentissage de nous examinons les arêtes qui en partent (réductions
modèles morphologiques à partir d'exemples se fait de cette forme), et éliminons celles dont le coût n'est
généralement à partir de couples {forme canonique, pas minimal.
forme plus complexe}, cette dernière étant une forme Les 4573 arêtes issues des couples de formes de l'étape
échie, dérivée ou composée à partir de la première. précédente se réduisent alors à 3480. Les règles les plus
Or nos données sont moins propres : fréquentes sont nalement :
ces diérentes opérations morphologiques ne sont 1140 sj 43 auxjal 34 mentj
pas distinguées l'une de l'autre ; 290 ej 41 eusejeux 32 éje
dans un couple de formes, une forme peut être 74 iqueje 39 oje 32 omeje
reliée à l'autre par la composition de plusieurs 67 aireje 39 aljo 32 nej
opérations ; 58 iquejie 38 itejo 32 ivejif
54 ationjé 35 oseje 30 lej
certaines formes, pourtant possibles et attestées
dans l'absolu , ne sont pas présentes. On constate que les règles esj, sje , auxjale et esjaire
se retrouvent plus bas dans le tableau, voire même en
Nous nous attaquons ici au deuxième de ces trois points, disparaissent.
et en déduisons une méthode de segmentation partielle
de formes en morphèmes. 6.2 Segmentation
6.1 Chemin minimal La plupart des formes sujettes à réduction se réduisent
maintenant de façon non ambiguë. Considérons un
Les règles identiées jusqu'ici sont souvent des compo- couple comme {lymphoblastique, lymphoblaste} (règle
sitions d'opérations plus élémentaires. Par exemple, la iqueje ). Nous pouvons alors suggérer une segmentation
règle esj (féminin pluriel) peut être considérée comme de la forme {lymphoblastique, lymphoblaste+ique}. On
la composition de ej (féminin) et sj (pluriel). De obtient par ce moyen 3480 segmentations. Si l'on ob-
même, auxjale est la composition de auxjal (pluriel) serve par ailleurs que chacune des 1678 familles re-
et ej (féminin). groupées à la section 5.3 possède au moins une forme
Pour orienter l'examen des règles, nous nous intéres- minimale, généralement non décomposable, on comp-
sons à la réduction d'une forme en une autre par une tabilise en tout de l'ordre de 5158 formes sur 8874
règle : la seconde forme doit être de longueur inférieure (58 %) qui sont soit segmentées, soit ne sont pas dé-
ou égale à la première, ou en cas de longueur égale, la composables. Les douze premières segmentations (par
seconde doit être antérieure dans l'ordre alphabétique. ordre alphabétique) sont les suivantes :
Un problème se pose lorsqu'il existe plusieurs chemins
pour réduire une forme. Par exemple, à partir de la (13) {abdominales, abdominale+s}
forme abdominales, on peut retrouver la forme abdo- {abdominale, abdominal+e}
minal par la règle esj ou la forme abdominale par la {abdominal, abdomino+al}
règle sj. Un second cas est celui de acantholytique qui {abdominaux, abdominal+aux}
peut se réduire en acantholyses par la règle tiquejses {abeilles, abeille+s}
ou en acantholyse par la règle tiquejse . {aberration, aberrante+ation}
Le principe que nous avons adopté consiste à privilé- {abondants, abondante+s}
gier la réduction de moindre coût, ce coût étant inspiré {abrasion, abrasé+ion}
des distances d'édition entre chaînes. Ici, il est calculé {absence, absent+nce}
comme étant la somme des longueurs des deux suxes {absorbées, absorbée+s}
8{absorbés, absorbée+s} quement reliées), et on cherche à induire des concepts
{acantholyses, acantholyse+s} (règles morphologiques permettant de passer d'une for-
{acantholytique, acantholyse+tique} me à une autre) qui couvrent ces exemples.
Si de nombreuses formes sont correctement segmen- Les caractéristiques particulières de la situation sont
tées, on note encore quelques problèmes. Le couple les suivantes. D'une part, les exemples d'apprentissage
{abdomen, abdominal} correspond à une règle qui ne sont eux-mêmes appris dans un contexte particulier.
se généralise à aucun autre couple de formes de notre Ces exemples ne sont pas les exemples parfaits habi-
liste. De ce fait, cette règle est très coûteuse et c'est la tuellement employés dans les travaux précédents en
forme abdomino qui sert de base à la série abdominal. apprentissage de règles morphologiques [17, 15] (sec-
Par ailleurs, l'absence dans notre liste de référence de tion 6). D'autre part, les concepts appris peuvent en-
la forme aberrant empêche d'obtenir la segmentation tretenir des relations de composition : par exemple,
{aberration, aberrant+ation}. De même pour abondant la règle de dérivation d'un adjectif masculin singulier
et absorbée. en adverbe se trouve être la composition d'une règle
de formation du féminin (par exemple, je ) et de la
7 Discussion règle générale jment (normal ! normale ! norma-
lement). Cette structure reste à exploiter plus plei-
Les règles et morphèmes candidats obtenus au début nement que nous ne l'avons fait jusqu'ici (section 6).
de l'amorçage commencent ainsi à être normalisés et Enn, les concepts appris peuvent être testés sur une
deviennent plus ables. Leur fusion en une base de source complémentaire d'exemples potentiels (liste de
données uniée permettrait de les utiliser conjointe- formes) : un concept applicable à des exemples hypo-
ment pour une décomposition récursive des mots en thétiques supplémentaires augmente sa conance. En
préxes et suxes à la fois. La distinction des mor- supposant que ces exemples supplémentaires sont cor-
phèmes en trois types de dérivations conduirait à une rects, nous spécialisons le concept au plus juste sur
analyse sémantique plus ne. l'ensemble des instances qu'il couvre.
La précision obtenue avec la méthode a pu être calcu-
lée grâce à une analyse manuelle. Elle montre que 95 %
de familles morphologiques sont correctes, même si les 8 Conclusion
mots qu'elles contiennent ne sont pas toujours séman- Les expériences décrites montrent qu'à partir de res-
tiquement homogènes (eet de composition). L'appli- sources bien choisies, on peut ecacement et auto-
cation de la méthode à une autre langue, qui dispose matiquement débroussailler la morphologie des mots
déjà d'une base de données morphologique, permet d'un domaine donné. La mise au point de règles rela-
d'évaluer le rappel. Le module LVG de l'UMLS [11] tionnelles permet de repérer avec un faible taux d'er-
contient des connaissances morphologiques sur une bon- reur des couples de formes reliées morphologiquement
ne partie du vocabulaire médical anglais. Nous y avons (bonne précision). D'autre part, le travail sur l'anglais
confronté les résultats obtenus avec notre méthode [6]. a permis de confronter les résultats avec des données
Nous obtenons un rappel de 91,2 % avec les variations morphologiques disponibles, et de mesurer une bonne
exionnelles et 79,2 % avec les dérivations ; la com- exhaustivité des couples recensés (rappel de l'ordre
position n'est pas traitée par LVG. Il est dicile de de 80 % en dérivation et 90 % en exion). L'examen
comparer ce rappel avec certaines autres approches ci- contrastif d'un grand nombre de formes permet de re-
tées [20, 7] dans la mesure où celles-ci évaluent leurs censer des préxes ou radicaux fréquents. L'utilisation
résultats dans le cadre d'une utilisation en racinisa- de ces connaissances pour aller vers une segmentation
tion. Par ailleurs, 58 % des formes considérées sont eective des formes examinées n'en est encore qu'à un
mises en relation ; et les formes restantes ne doivent stade préliminaire, mais donne déjà des résultats. En-
pas toutes l'être. n, les applications entamées sur d'autres langues et
Appliquée au russe, la méthode a montré ses limites d'autres domaines montrent tout l'intérêt d'une mé-
par exemple dans les cas où l'on a covariation entre thode automatique sans connaissances linguistiques.
un préxe et un suxe, due entre autres au change-
ment d'aspect de la forme (notre méthode traite la
variation soit du préxe, soit du suxe, mais pas des
Remerciements
deux conjointement). L'application de la méthode au Nous remercions le Dr. Roger A. Côté de nous avoir
thésaurus français Agrovoc (agriculture) permet éga- gracieusement prêté une copie pré-commerciale de la
lement d'y détecter de nombreux couples de mots et version française du Microglossaire de Pathologie SNO-
familles morphologiques ; ils n'ont pas fait pour l'ins- MED, Yvan Emelin pour une version de travail de la
tant l'objet d'une évaluation. traduction russe du même Microglossaire, Jean Royau-
Le problème abordé est une tâche d'apprentissage à té (URI / INIST) pour le thésaurus Agrovoc, et un
partir d'exemples : un ensemble d'exemples d'appren- relecteur anonyme de la conférence pour sa lecture at-
tissage est donné (des couples de formes morphologi- tentive et ses remarques constructives.
9Références [12] M. F. Porter. An Algorithm for Sux Strip-
[1] G. Burnage. CELEX - A Guide for Users. Ni- ping. Program, 14:130137, 1980.
jmegen: Centre for Lexical Information, Univer- [13] Max Silberztein. Dictionnaires électroniques
sity of Nijmegen, 1990. et analyse automatique de textes : le système IN-
[2] Roger A Côté. Répertoire d'anatomopathologie TEX. Masson, Paris, 1993.
de la SNOMED internationale, v3.4 . Université [14] Peter Spyns. A robust category guesser for
de Sherbrooke, Sherbrooke, Québec, 1996. Dutch Medical language . Dans Proceedings of
[3] Georgette Dal, Fiametta Namer, et Nabil Ha- ANLP 94 (ACL), pages 150155, 1994.
thout. Construire un lexique dérivationnel : [15] Pieter Theron et Ian Cloete. Automatic
théorie et réalisations. Dans Pascal Amsili, édi- Acquisition of Two-Level Morphological Rules .
teur, Actes de TALN 1999, Cargèse, juillet 1999. Dans ANLP97, pages 103110, Washington, DC,
1997.
[4] Hervé Déjean. Morphemes as Necessary
Concept for Structures Discovery from Untagged [16] Yannick Toussaint, Fiammetta Namer, Béa-
Corpora . Dans Workshop on Paradigms and trice Daille, Christian Jacquemin, Jean
Grounding in Natural Language Learning, pages Royauté, et Nabil Hathout. Une approche
295299, Adelaide, 1998. linguistique et statistique pour l'analyse de
l'information en corpus. Dans Pierre Zweigen-
[5] Natalia Grabar et Pierre Zweigenbaum. Ac- baum, éditeur, Actes de TALN 1998, Paris, juin
quisition automatique de connaissances morpho- 1998.
logiques sur le vocabulaire médical. Dans Pascal
Amsili, éditeur, Actes de TALN 1999, pages 175 [17] Antal van den Bosch, Walter Daelemans, et
184, Cargèse, juillet 1999. TGon Weijters. Morphological Analysis as
Classication: an Inductive-Learning Approach.
[6] Natalia Grabar et Pierre Zweigenbaum. Dans Jun-Ichi Tsujii, éditeur, Proc 16 th CO-
Language-independent Automatic Acquisition LING, Copenhagen, Denmark, 59 août 1996.
of Morphological Knowledge from Synonym
Pairs . J Am Med Inform Assoc, 6(suppl):77 [18] F. Wingert, David Rothwell, et Roger A
81, 1999. Côté. Automated Indexing into SNOMED and
ICD. Dans Jean Raoul Scherrer, Roger A.
[7] Christian Jacquemin. Guessing Morphology Côté, et Salah H. Mandil, éditeurs, Compu-
from Terms and Corpora . Dans Actes, 20th terised Natural Medical Language Processing for
Annual International ACM SIGIR Conference on Knowledge Engineering, pages 201239. North-
Research and Development in Information Retrie- Holland, Amsterdam, 1989.
val (SIGIR'97), pages 156167, Philadelphia, PA,
1997. [19] Susanne Wolff. Automatic Coding of Medical
Vocabulary. Dans Naomi Sager, Carol Fried-
[8] Kimmo Koskenniemi. Two-level morphology: man, et Margaret S. Lyman, éditeurs, Medi-
a general computational model for word-form re- cal Language Processing. Computer Management
cognition and production . PhD thesis, Univer- of Narrative Data, Chapitre 7, pages 145162.
sity of Helsinki Department of General Linguis- Addison-Wesley, New-York, 1986.
tics, Helsinki, 1983.
[20] Jinxi Xu et Bruce W. Croft. Corpus-
[9] Christian Lovis, Robert Baud, Anne-Marie based stemming using co-occurrence of word va-
Rassinoux, Pierre-André Michel, et Jean- riants. ACM Transactions on Information Sys-
Raoul Scherrer. Medical Dictionaries for Pa- tems, 16(1):6181, 1998.
tient Encoding Systems: a Methodology . Artif
Intell Med, 14:201214, 1998. [21] Pierre Zweigenbaum et Natalia Grabar. A
Contribution of Medical Terminology to Medical
[10] Alexa T. McCray, S. Srinivasan, et A. C. Language Processing Resources: Experiments in
Browne. Lexical Methods for Managing Va- Morphological Knowledge Acquisition from The-
riation in Biomedical Terminologies. Dans Proc sauri . Dans Christopher G. Chute, éditeur,
Eighteenth Annu Symp Comput Appl Med Care, Proc Conference on Natural Language Processing
pages 235239, Washington, 1994. Mc Graw Hill. and Medical Concept Representation, Phoenix,
Az, 1999. IMIA WG6.
[11] National Library of Medicine. UMLS Knowledge
Sources Manual , 1999.
10Vous pouvez aussi lire