Exp riences d'acquisition automatique de connaissances morphologiques par amor age partir d'un th saurus
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Expériences d'acquisition automatique de connaissances morphologiques par amorçage à partir d'un thésaurus Pierre Zweigenbaum Natalia Grabar DIAM - SIM/AP-HP et Université Paris 6 91 boulevard de l'Hôpital 75634 Paris Cedex 13 Tél. : 01 45 83 67 28 Fax : 01 45 86 80 68 {ngr,pz}@biomath.jussieu.fr http://www.biomath.jussieu.fr/~pz/ Résumé Keywords Les connaissances morphologiques, en particulier sur Natural Language Processing, Morphology, Automatic les formes dérivées et composées, sont extrêmement Knowledge Acquisition. utiles pour le traitement automatique des langues com- me pour la recherche d'information. Si de grandes bases de connaissances morphologiques sont disponibles pour 1 Introduction certaines langues, ce n'est pas le cas pour le français. 1.1 Contexte Pour aider à combler ce vide, nous cherchons à mettre Les connaissances morphologiques sont extrêmement au point une méthode permettant d'acquérir automati- utiles pour le traitement automatique des langues com- quement divers types de connaissances morphologiques me pour la recherche d'information. On distingue clas- pour une langue et un domaine donnés. Cette méthode siquement trois types de variation morphologique. La exploite les termes synonymes présents dans un thé- exion produit les diérentes formes d'un même mot saurus du domaine et une liste de mots qui peut être (pluriel, féminin, conjugaisons d'un verbe, etc.) ; par tirée du même thésaurus. Cet article présente une sé- exemple, singulier aorte (forme canonique, ou lemme ) rie d'expériences visant à acquérir des connaissances et pluriel aortes (forme échie). La dérivation permet morphologiques à partir de ces données de base et sans d'obtenir, par exemple, la forme adjectivale d'un nom connaissances linguistiques a priori. Il montre que l'on (aorte ! aortique). La composition combine plusieurs peut obtenir instantanément un débroussaillage massif radicaux pour former des mots plus complexes (aorte de la morphologie des formes du domaine étudié. + coronaire ! aortocoronaire). Mots Clef La morphologie exionnelle a été bien étudiée, et de Traitement des langues naturelles, morphologie, acqui- nombreux outils d'analyse exionnelle (lemmatisation : sition automatique de connaissances. passage d'une forme échie à la forme canonique cor- respondante) accompagnés de descriptions complètes Abstract de la exion du français existent de façon commer- Morphological knowledge, especially derivation and com- ciale ou académique (par exemple, le lemmatiseur de pounding, is extremely useful both for natural language Fiametta Namer [16] ou le système d'analyse INTEX processing and information retrieval. Whereas large [13]). En revanche, aucune description complète de la morphological knowledge bases are available for some morphologie dérivationnelle et compositionnelle n'est languages, this is not the case for French. In order disponible pour le français. Cette situation tranche to ll this gap, we aim at setting up a method that avec celle qui prévaut pour des langues comme l'an- can acquire automatically various kinds of morpholo- glais, le néerlandais ou l'allemand, pour lesquelles de gical knowledge for a given language and domain. This grandes bases de connaissances morphologiques sont method relies on the synonym terms present in a the- disponibles (par exemple la base CELEX [1]). saurus of the domain and a list of words that can be La connaissance des formes échies, dérivées et compo- drawn from the same thesaurus. This paper presents a sées d'un mot donné (sa famille morphologique ) peut series of experiments whose goal is to acquire morpho- être utilisée en recherche documentaire pour eectuer logical knowledge from this initial data and without a une expansion de requête. Une requête étant donnée, si priori linguistic knowledge. It shows that one can ob- l'un de ses mots se trouve dans une famille morpholo- tain instantaneously a massive, gross description of gique, on propose de le remplacer par la disjonction des word morphology in the domain addressed. formes de cette famille. Cette expansion est similaire au remplacement, à l'indexation comme à l'interroga- À paraître dans RFIA 2000, Paris, 1-3 février 2000 . tion, de chaque forme présente dans une famille par un
représentant canonique de cette famille : c'est ce que Du fait de leur origine terminologique, ces formes sont font les algorithmes de racinisation [12], le représen- principalement des noms, adjectifs et adverbes, ainsi tant canonique étant une forme réduite hypothétique que quelques participes passés ou présents. On y trouve de la forme initiale. des lemmes et des formes échies, des formes dérivées Pour aider à combler le manque de ressources morpho- et des formes composées. Thésaurus et liste de formes logiques constaté, nous cherchons à mettre au point n'ont pas besoin d'être étiquetés par des catégories une méthode permettant d'acquérir automatiquement syntaxiques : nous travaillons sur des données brutes, divers types de connaissances morphologiques pour une non annotées (mais nous avons par ailleurs testé l'in- langue et un domaine donnés. Nous avons choisi l'ap- térêt de données étiquetées ou lemmatisées [21]). proche d'un outil automatique, non interactif, sans 1.3 Objectifs connaissances linguistiques, que l'on peut ainsi appli- quer rapidement et avec peu d'eort sur un nouveau L'objectif de ce travail est d'identier quelles connais- domaine ou une nouvelle langue. sances morphologiques on peut acquérir automatique- Des méthodes automatiques pour l'acquisition de va- ment à partir de ces données en recourant à très peu riations morphologiques ont été mises au point pour de connaissances a priori sur la langue concernée. Il la recherche d'information en se fondant sur les col- reprend et étend des travaux précédents [5], rappelés locations en corpus [20] ou les correspondances entre et complétés dans les sections 4 et 5. Notre modèle de un thésaurus et un corpus [7]. Dans le cadre du pro- la morphologie s'appuie essentiellement sur des com- jet FRANLEX, qui propose de lancer la construction paraisons et substitutions de chaînes de caractères ini- d'une base de connaissances morphologiques pour le tiales ou nales, et ne présuppose pas de distinction français, une autre méthode recherche des correspon- entre consonnes et voyelles ni les notions morphotac- dances dans une liste entre mots de catégories syn- tiques que l'on peut trouver par exemple en morpho- taxiques diérentes [3]. Des outils d'étude de la varia- logie à deux niveaux [8]. Les connaissances morpholo- tion morphologique à travers plusieurs thésaurus du giques visées sont des types suivants. même domaine ont aussi été conçus lors de la consti- Des couples de formes morphologiquement reliées : tution du métathésaurus biomédical UMLS [10]. Les méthodes employées travaillent essentiellement à (1) abdominal, abdominaux (exion) ; l'aide d'opérations classiques sur des chaînes de carac- aorte, aortique (dérivation) ; tères. Un modèle linguistique plus évolué, comme la cardio, cardiomégalie (composition) morphologie à deux niveaux [8], peut également ser- vir de support à l'acquisition de règles plus générales mais aussi toute combinaison de ces trois types de à partir de paires de mots morphologiquement reliés relations. {lemme, forme dérivée} [15]. Des familles de formes morphologiquement reliées : 1.2 Données de départ (2) abdomen, abdominal, abdominale, abdomi- L'originalité principale de notre approche est liée à nales, abdominaux, abdomino ; l'utilisation de la relation de synonymie existant entre cardia, cardiaque, cardiaques, cardio, cardio- certains termes d'un thésaurus. Les connaissances ap- mégalie, cardiopathie, cardiopathies, cardite prises sur ces termes synonymes sont ensuite appli- quées à une liste de mots plus grande. Nos données Ces familles sont par exemple intéressantes en re- initiales pour une langue et un domaine sont donc : cherche d'information, où elles permettent d'amé- liorer le rappel en eectuant une racinisation [7] 1. un thésaurus contenant des termes synonymes ; dans les requêtes et les documents ou en eec- par exemple, pour la médecine, le Microglossaire tuant une expansion de requête . de Pathologie de la Nomenclature SNOMED In- ternationale [2] (12 555 termes dans lesquels on Des règles morphologiques permettant de passer trouve 2 344 séries de synonymes, soit 5 801 termes d'une forme à une autre morphologiquement liée synonymes) ; ( est le symbole vide) : 2. une liste de référence de formes de mots attes- (3) cicatrice e!iel cicatriciel j tées ; pour la médecine, les formes de mots ap- Exemples : ejique , ejaire , js . paraissant dans les termes de la SNOMED (6500 formes) ou de la Classication Internationale des En présence d'une nouvelle forme, ces règles peu- Maladies (CIM-10, 4475 formes ; au total, 8874 vent permettre de la relier à une famille existante, formes). Nous parlons de formes pour préciser et d'étendre ainsi cette famille. Selon leur degré que les mots de ces listes peuvent apparaître aussi de précision, elles peuvent être employées pour bien dans leur forme canonique (lemme ) que leurs segmenter une forme selon ses constituants mor- formes échies. phologiques ou pour engendrer une forme dérivée. 2
Des suxes de la langue ou du domaine, qui in- obtient une liste de préxes (resp. suxes) potentiels. terviennent dans ces règles : Il s'agit d'une forme de l'analyse distributionnelle mise en ÷uvre par [4], mais plus limitée et relativement (4) -e , -s , -aire , -ique , -ome , -ose sûre. Dans l'état actuel de nos travaux, les résultats de Ces suxes sont proches de morphèmes dont cer- cette étape ne sont pas encore utilisés dans la dernière tains ont une valeur sémantique importante pour étape de la méthode. le domaine ; ils peuvent correspondre à des primi- Nous exploitons ensuite (section 4) les termes syno- tives sémantiques (ou types de concepts) pour la nymes : par construction, deux synonymes partagent représentation des connaissances du domaine (par un sens commun ; des couples de formes morpholo- exemple, -ome = tumeur). giquement similaires (par exemple, {symbiose, sym- biotique}) trouvées dans deux tels termes sont généra- Des radicaux (ou racines) de la langue ou du do- lement dérivées de la même base lexicale. Ces couples maine, auxquels on peut ajouter des suxes : de formes permettent d'induire des règles morpholo- giques dont la portée est potentiellement plus générale (5) br, granul, hépat, hyalin, immun, lymph que l'ensemble de ces couples de formes initiaux. Ces Ces radicaux sont aussi des morphèmes, dont la règles ont une forme simple (sejtique ), proche de celles plupart ont une valeur sémantique importante pour du système lexical de l'UMLS [10]. le domaine et correspondent à des types de concepts. Nous croisons alors les deux (section 5) : les règles in- duites sont appliquées à la liste de formes et détectent Des préxes de la langue ou du domaine, que l'on de nouveaux couples de formes morphologiquement re- peut ajouter devant une forme : liées. Les règles sont ajustées (spécialisées) au nouvel ensemble de couples de formes obtenu. Les règles ajus- (6) hyper-, poly-, para- tées restantes sont linguistiquement plus pertinentes Des décompositions (segmentations) de formes en que dans leur forme initiale. Les formes des couples leurs éléments constitutifs : sont par ailleurs regroupées en familles, en jouant sur la transitivité de la relation d'apparentement morpho- (7) cicatricielles ! cicatriciel+le+s logique. cicatriciel ! cicatrice+iel Enn, nous restructurons les suxes et les règles (sec- lymphoblastique ! lympho+blastique tion 6) : certaines des règles induites résultent de la blastique ! blaste+ique composition d'autres règles plus élémentaires. Ces re- dondances sont identiées, et une décomposition des où l'on retrouve les suxes d'adjectivation -iel et formes par des règles de coût minimal est proposée. -ique , les exions du féminin -le et du pluriel -s , Nous décrivons maintenant tour à tour ces étapes. les racines cicatrice et blaste, et le préxe lympho- (lié à la racine lymphe). 3 Amorçage sur une liste de for- Ce type de décomposition permet d'accéder aux composants sémantiques d'un mot, par exemple mes pour l'indexer [18] ou pour proposer une déni- Dans cette section, nous examinons ce qu'il est pos- tion pour un mot nouveau dans un lexique. Par sible de faire à partir d'une liste de formes à plat , exemple, les mots possédant le morphème -ome sans structure a priori. Cette liste de formes, tirée de pourraient être étiquetés sémantiquement par tu- terminologies du domaine, a néanmoins la particula- meur ou état pathologique. rité de contenir une grande proportion des mots ca- ractéristiques du domaine étudié : mots spéciques à Le reste de cet article décrit un faisceau d'expériences ce domaine (leucokératose, pemphigoïde) ou typiques visant à acquérir des connaissances de ces diérents dans ses corpus (bénin, aberration). types à partir de nos données de base en employant un modèle linguistique extrêmement simple ; nous cher- 3.1 Détection de préxes et radicaux chons dans ces expériences à repérer des conditions compositionnels assurant la qualité des résultats obtenus. De nombreux mots médicaux sont formés par compo- 2 Approche générale sition de radicaux gréco-latins ; par exemple, bro- et amélo- sont préxés à blastique pour former bro+amé- Nos explorations nous ont conduits à attaquer le pro- lo+blastique. Disposer d'une liste de ces radicaux per- blème sous plusieurs angles. met de mettre en ÷uvre des algorithmes de segmen- Nous examinons d'une part (section 3) ce que l'on peut tation d'un mot en constituants (par exemple, [19, 14, tirer de la liste de formes à plat : en repérant les 9]). Nous cherchons ici à recenser ces radicaux. contrastes entre des formes préxées (resp. suxées) Nous eectuons pour cela une analyse de notre liste et les mêmes formes non préxées (resp. suxées), on de formes attestées de référence, fondée sur des tests 3
de commutation. Par dénition, si bro- est un radi- inclus ce critère dans notre procédure, car il n'est pas cal, c'est qu'il peut se combiner avec diverses formes susamment discriminant. F pour former des composés broF (avec une éven- En conclusion, cette analyse détecte avec une bonne tuelle adaptation morphologique locale à la jonction précision des radicaux ou préxes fréquents dans le des deux composants). Nous supposons donc à l'in- domaine. Elle fournit en même temps 904 couples de verse que si l'on observe dans notre liste de formes formes {F , RF } pour lesquels elle propose une seg- attestées un nombre susant de couples {F , broF }, mentation de la forme composée RF en R + F où R c'est un indice montrant que bro- est un candidat est l'un des préxes retenus. Dans ces 904 couples, les radical , ou encore un candidat préxe. 5 préxes faux produisent 13 segmentations erronées, De fait, pour bro-, on trouve dans notre liste 18 couples : soit 1,4 % d'erreur. Il faut y ajouter de possibles mais rares segmentations non pertinentes issues de préxes (8) {améloblastique, broaméloblastique} par ailleurs corrects, comme a+voir ou a+mont. {blastique, broblastique} Le fait de travailler sur des couples de formes attestées ::: est un puissant ltre contre des décompositions non {vasculaire, brovasculaire} pertinentes. Ainsi, sur les 173 formes commençant par {xanthome, broxanthome} an-, seules 6 ont été segmentées à l'aide de ce préxe ce qui donne une bonne conance dans ce candidat. (il s'agit de an+aplasique, an+aérobies, an+euploïdie, Appliquée à nos 8874 formes de référence, cette mé- an+ictérique, an+ovulation, an+ovulatoire). La quasi- thode détecte 779 radicaux R apparaissant au moins totalité des autres formes en an- ne relèvent pas de dans un couple {F , RF }, dont 235 au moins dans deux cette décomposition, qu'elles soient atomiques (angine) couples et 120 dans trois. Les 28 radicaux de fréquence ou qu'elles relèvent d'autres préxes ou radicaux (ana-, supérieure à 10 sont les suivants : angio-, anté-, anti-, ano-). 3.2 Transposition aux suxes 37 intra 20 trans 15 anti 13 endo Le même principe de base peut être appliqué pour 36 in 19 inter 14 poly 13 dys identier des suxes . Ici, il s'agit de repérer des 34 péri 18 bro 13 épi 13 angio couples de formes du type : 28 para 17 ostéo 13 sub 13 a 26 hyper 17 dé 13 rétro 11 myo (9) {ligament, ligamentaire} 23 pré 15 neuro 13 ré 11 di {ligament, ligaments} 21 hypo 15 micro 13 pro 11 bi {essentielle, essentiellement} {pneumo, pneumocyte} On observe que les 9 premiers éléments trouvés (intra-, qui mettent en évidence les chaînes suxables -aire , in-, péri-, para-, hyper-, pré-, hypo-, trans-, inter-) sont -s , -ment , -cyte . Appliquée à nos 8874 formes de réfé- des préxes généraux du français, fréquents dans le rence, cette méthode détecte 733 suxes S apparais- domaine médical. On commence à trouver des radi- sant au moins dans un couple {F , F S }, dont 170 au caux du domaine à partir du rang 10 (bro-, ostéo-). moins dans deux couples et 78 dans au moins trois. La première erreur apparaît au rang 61 (fréquence = Les 12 suxes de fréquence supérieure à 10 sont : 5) : p- n'est pas un radical ni un préxe, bien que les couples {laque, plaque}, {liée, pliée}, {lèvre, plèvre}, 1136 s 21 ux 13 le {réparation, préparation}, {urine, purine} soient attes- 168 e 17 ne 12 ïde tés. En tout, pour les fréquences supérieures à 2, on 34 ment 15 me 12 use dénombre 13 erreurs sur 120 radicaux, soit une préci- 24 es 14 se 11 blastome sion de 89,2 %. Si l'on exclut les préxes d'une seule lettre (seul a- est un préxe correct), on descend à 5 Les deux premiers sont des suxes de exion (pluriel erreurs sur 111 radicaux, soit 95,5 % de précision. -s et féminin -e ), puis on a le suxe -ment de for- Le fait qu'une forme initiale (comme blastique) puisse mation d'adverbes ; le premier suxe du domaine est de son côté se combiner avec d'autres radicaux (par -me (rang 7), qui en réalité correspond à des formes exemple, centroblastique, chondroblastique, lipoblasti- en -ome ; enn, le premier radical que l'on trouve en que, etc.) est un indice supplémentaire : il conrme position de suxe est -blastome (rang 12). que dans la segmentation bro+blastique obtenue, on Les couples de formes identiés sont par construction a bien deux composants qui commutent avec divers restreints à des ajouts stricts de suxes, ce qui em- éléments. Cependant, plusieurs formes parasites pêche de mettre au jour des exions ou dérivations, comme tique donnent lieu à de nombreuses fausses comme {abdominal, abdominaux} ou {aorte, aortique}, compositions : par exemple, {tique, attique} qui, en pa- qui fonctionnent par substitution de suxes. La mé- rallèle avec {tente, attente} et {teinte, atteinte}, font thode suivante permet de détecter de tels couples avec ressortir un préxe erroné at-. Nous n'avons donc pas une excellente précision. 4
4 Amorçage sur des couples de {schiste, schisteuse} termes synonymes {méthylique, méthanol} {atrophie, atrophodermie} 4.1 Termes synonymes {lymphadénome, lymphocytome} Les terminologies, nomenclatures et autres glossaires Ces couples incluent les trois types de variations mor- incluent souvent pour un concept donné à la fois phologiques (exion, dérivation et composition). Un un terme vedette , ou terme préférentiel, et des termes examen manuel des résultats montre qu'avec ce seuil synonymes. Un terme vedette peut ainsi être accompa- de quatre caractères, tous les couples correspondent gné de zéro, un ou plusieurs termes synonymes. C'est à des formes eectivement reliées morphologiquement. le cas de diverses terminologies médicales comme la Un seuil à trois, en revanche, propose des couples erro- nomenclature SNOMED Internationale [2] (tableau 1) nés (par exemple, {inltration, inammation}, {déshy- ou le MeSH (Medical Subject Headings), mais aussi draté, désséché} ou {qualité, quantité}), et n'ajoute de terminologies dans d'autres domaines ; citons par que 9 % de couples supplémentaires (8 % de formes exemple le thésaurus PASCAL de l'INIST ou le thé- supplémentaires). Notons qu'il serait possible de créer saurus AGROVOC de la FAO. Notre méthode d'amor- manuellement des listes de couples interdits (excep- Code concept Type Terme tions) servant à empêcher les erreurs liées à un seuil F-00470 vedette symbiose trop bas. Mais dans cette série d'expériences, nous F-00470 synonyme commensalisme avons opté pour une méthode pouvant être appliquée F-00470 synonyme symbiotique à un autre domaine ou à une autre langue quasiment F-00470 synonyme commensal sans intervention manuelle (la seule intervention ac- T-51110 vedette palais dur tuelle est un réglage éventuel du seuil). T-51110 synonyme voûte palatine 4.3 Induction de règles morphologiques Tab. 1 Termes préférés et termes synonymes dans Les couples de formes alignées sont alors considérés la SNOMED. comme des exemples à partir desquels on va induire des règles morphologiques. Ces règles sont potentiel- çage détourne ces couples de termes synonymes de leur lement applicables pour identier d'autres couples de nalité initiale pour les employer comme source de formes entretenant la même relation morphologique. couples de formes morphologiquement proches. À ce stade du processus, nous cherchons à faire en sorte que les règles apprises décrivent les caractéris- 4.2 Alignement de couples de formes tiques spéciques minimales des couples de formes, et morphologiquement reliées conservent une généralité importante. Chaque exemple Étant donné deux termes synonymes, nous nous in- {I S1, I S2 } est généralisé en une règle {S1 , S2 } qui téressons aux couples de formes {I S1 , I S2 } trouvées peut être interprétée de la façon suivante : étant donné dans ces deux termes et qui possèdent une chaîne de une forme terminée par le suxe S1 , on peut déri- caractères initiale commune I susamment longue : ver une forme dans laquelle on substitue S2 à S1 ; ou nous avons xé expérimentalement le seuil à quatre l'inverse, la règle étant considérée comme symétrique. caractères communs, mais il s'agit bien sûr d'un para- Cette règle représente plus précisément la dénition mètre dans les programmes. Ainsi, dans le tableau 1, en intension du graphe d'une relation sur un ensemble les couples de formes suivantes sont alignés : de formes F . Cet ensemble étant donné, le graphe G de cette relation est déni par : (10) {symbiose , symbiotique } {commensal, commensalisme } GS1 S2 = fff1; f2 g 2 F F ; 9I ; (f1 = I S1 ^ f2 = I S2 )g {palais , palatine }. Notons que dans un contexte non contrôlé, cette mé- Nous notons de façon abrégée les règles {S1, S2 } sous thode conduirait à beaucoup de bruit. Par exemple, la la forme S1 jS2 . paire administratif / admission partage une chaîne Concrètement, l'alignement de deux formes {I S1 , I S2 } initiale de longueur quatre alors que administratif et identie en même temps les suxes {S1 , S2 }, donc la admission ne sont pas obtenus à partir d'une base lexi- règle associée S1 jS2 . L'application de cette procédure cale commune (sauf à considérer un préxe commun fournit 567 règles diérentes. Les plus fréquentes pour ad-, qui n'est pas justié en français actuel). les exemples considérés sont ( désigne la chaîne de Appliquée aux 5 801 synonymes du Microglossaire, longueur nulle) : cette méthode aligne 1572 couples de formes (1187 js (pluriel) {articulaire, articulaires} couples diérents, 1576 formes diérentes), par exemple : je (féminin) {surrénal, surrénale} (11) {bénin, bénigne} {professionnel, professionnelle} ejique (adjectifs en -ique ) {prostate, prostatique} 5
ejque (adjectifs en -ique ) 1140 sj 53 xjse 36 esjaire {hyperkaliémie, hyperkaliémique} 290 ej 43 uxjl 34 vejf 143 esj 42 oje 34 mentj ejaire (adjectifs en -aire ) {valvule, valvulaire} 74 iqueje 42 ojal 33 nej mejsarcome (dérivation -ome / composition -osar- 67 ejaire 40 uxjle 33 lej come ) 64 queje 40 oseje 32 éje {mélanome, mélanosarcome} 60 sje 38 ojite 31 55 éjation 36 omeje sarcomejme On notera que ces règles n'ont qu'une valeur associa- tive : deux formes étant données (typiquement, deux Les règles du pluriel et du féminin sont encore une fois formes attestées), les règles proposent ou pas de les les plus productives, suivies de la formation d'adjec- mettre en relation. Il n'est en revanche pas question tifs en -ique et -aire . On trouve aussi en bonne posi- de les appliquer à n'importe quelle forme se terminant tion des suxations propres au domaine : -ose (dégé- par l'un des deux suxes de la règle pour engendrer nérescence), -ome (tumeur), -ite (inammation). En- de nouvelles formes dérivées. En particulier, les règles n, on identie des radicaux comme sarcome ou blas- dont un suxe est ne signient pas que l'on obtient tome (avec une fréquence un peu moindre). 446 suxes une forme correcte en ajoutant leur second suxe à sont mobilisés, parmi lesquels les plus fréquents sont n'importe quelle forme ! les suivants : Par ailleurs, les suxes considérés peuvent ne pas tous sembler appropriés. Par exemple, -me correspond en 1254 s 166 se 97 x réalité au suxe -ome identiant les tumeurs. Nous 1046 e 165 ique 83 ïde verrons plus bas (section 5.2) comment délimiter les 268 es 143 ome 81 f suxes de façon plus pertinente. 243 o 141 ose 80 le 5 Confrontation des règles mor- 221 é 212 aire 114 ux 101 al 80 ation 79 sarcome phologiques à la liste de formes 169 me 99 que Une liste de formes étant donnée, nous cherchons main- tenant à y identier les couples de formes morphologi- On y trouve bien sûr ceux impliqués dans les règles les quement liées qui s'y trouvent. Nous allons pour cela plus fréquentes, en particulier la terminaison -o des ra- utiliser les règles induites à partir des exemples ini- dicaux que l'on peut préxer à certaines autres formes. tiaux. Nous examinons l'application de ces règles à 2879 radicaux sont concernés ; les plus fréquents sont : notre liste de formes de référence. Cet ensemble de formes est typiquement puisé dans le même domaine 29 myélo 16 granul 12 lymphocyt que les exemples d'apprentissage. Il pourrait être consti- 25 ostéo 15 angio 11 hémangio tué des formes des exemples, ou des formes du thésau- 22 bro 13 plasmocyt 11 hyalin rus dont on a tiré les termes synonymes. 22 br 13 immun 11 histiocyt 21 adéno 13 chondro 10 neuro 5.1 Découverte de nouveaux couples 19 lympho 12 méning Chaque règle induite (section 4.3) permet d'identier 16 lipo 12 mélano dans cet ensemble de formes des couples de formes qui entretiennent potentiellement la relation morpho- On retrouve les radicaux de la section 3.1 avec une logique décrite par cette règle. Cela revient à calcu- fréquence relative diérente, l'absence de préxes de 2 ler le graphe de cette relation pour cet ensemble de et 3 lettres, et des variantes comme bro / br. formes. De même que lors de l'alignement (section 4.2), nous limitons les erreurs en imposant que dans chaque 5.2 Ajustement des règles couple {I S1 , I S2 }, la chaîne initiale I possède une lon- Maintenant que nous disposons d'une base plus grande gueur minimale. Nous avons également xé ce seuil à sur laquelle assoir notre jugement, nous pouvons cher- quatre caractères. cher à spécialiser davantage les règles morphologiques Les 567 règles appliquées à notre liste de 8874 formes apprises. Dans l'étape précédente, nous avons géné- identient 4573 couples diérents de formes, soit 3386 ralisé individuellement chaque exemple Ei = {Ii S1 , couples (285 %) de plus qu'à l'amorçage (comme les Ii S2 } à la règle {S1 , S2 }, sur la base de la chaîne formes des couples de l'amorçage se trouvent dans la initiale maximale Ii commune aux deux formes du liste, ces couples sont retrouvés par l'application des couple. Nous allons maintenant considérer globalement règles). Ces couples mettent en jeu 5164 formes dié- toutes les instances Ei subsumées par cette règle (ex- rentes, soit 3588 de plus qu'à l'amorçage (+228 %). emples de départ aussi bien que nouveaux couples), et Les règles les plus appliquées sont les suivantes : identier la chaîne nale maximale S commune à leurs 6
chaînes initiales maximales communes Ii . Nous spé- Les radicaux sont réduits proportionnellement aux suf- cialisons alors la règle {S1 , S2 } en {SS1, SS2 }. Nous xes. Entre autres, un très grand nombre de radicaux étendons ainsi au maximum vers la gauche les suxes en -o se retrouvent maintenant sous une forme sans -o S1 et S2 de la règle tout en faisant en sorte qu'elle (par exemple, sarc- au lieu de sarco-). continue à couvrir toutes les instances. Les règles qui ne s'appliquent qu'à un seul couple de Soulignons que si nous avions ajusté les règles dès formes n'ont pas de caractère de généralité sur l'en- l'étape d'amorçage, du fait du nombre d'instances plus semble de formes considérées. Elles correspondent à limité, une partie d'entre elles auraient été surspécia- des couples appris pendant l'étape d'amorçage (sec- lisées. Elles n'auraient alors plus été à même de s'ap- tion 4) et qui ne trouvent pas de conrmation externe pliquer à certains couples de formes de la liste de ré- dans la liste de formes de référence. Nous conservons férence. chaque couple concerné, mais nous considérons que Les suxes obtenus sont donc les plus longs possibles nous ne pouvons pas ajuster la règle correspondante. permettant l'application de la règle à la liste de réfé- Cette règle et ses suxes peuvent alors être considé- rence. Les nouvelles règles les plus fréquentes sont : rés comme possédant une conance plus faible. Il reste alors 299 suxes ont été spécialisés (étendus) sur les 1140 sj 53 euxjeuse 36 esjaire 446 initialement dénis par généralisation individuelle 290 ej 43 auxjal 34 mentj des exemples. 143 esj 42 oje 34 ivejif 74 iqueje 42 ojal 33 nej 5.3 Familles de formes 67 ejaire 40 oseje 33 lej Chaque couple de formes spécie que ces deux formes 64 iquejie 40 auxjale 32 éje sont reliées par une relation morphologique : elles font 60 sje 38 ojite 31 partie d'une même famille morphologique. Nous avons 55 éjation 36 omeje osarcomejome cherché à constituer ces familles. Nous regroupons des formes dans une même famille dans deux situations : Par construction, le nombre d'applications de chaque règle n'a pas changé. En revanche, 405 règles sur 567 1. si deux couples diérents sont articulés sur la même (71 %) ont été spécialisées. Parmi les 23 listées ci- chaîne initiale maximale commune, nous considé- dessus, les extensions concernent iquejie (+i), euxjeuse rons que cette chaîne initiale est leur radical com- (+eu), auxjal (+a), auxjale (+a), ivejif (+i) et osarco- mun, et nous regroupons les formes concernées ; mejome (+o). De fait, les suxes étendus semblent mieux correspondre aux morphèmes que l'on aurait 2. si deux familles diérentes (éventuellement rédui- tendance à considérer pour ces formes, et les règles ob- tes aux deux formes d'un couple) ont une forme tenues semblent plus en accord avec une analyse lin- en commun, elles sont fusionnées. guistique des opérations morphologiques en jeu. Par exemple, la règle iquejie concerne la formation d'ad- Les 4573 couples de formes se regroupent en 1678 fa- jectifs en -ique plutôt que d'adjectifs en -que (comme milles, dont voici les premières : l'indiquait la règle queje ). Elle spécie la façon dont cette formation s'applique aux formes se terminant par (12) abdomen, abdominal, abdominale, abdominales, -ie , et est apprise sur 64 formes dont achromie, aller- abdominaux, abdomino ; gie, amnésie, etc. abeille, abeilles ; Des suxes auparavant éclatés en plusieurs formes aberrante, aberration ; (par exemple, -ique , que nous venons d'examiner, ou abondante, abondants ; -ome ) se retrouvent ainsi mieux identiés. Les suxes abrasion, abrasé ; les plus fréquents sont maintenant : absence, absent ; absorbée, absorbées, absorbés ; 1225 s 197 ose 100 ie acantholyse, acantholyses, acantholytique ; 963 e 196 é 91 ion acanthomateux, acanthome, acanthose, acantho- 333 ome 152 eux 83 if sique ; 263 o 143 al 83 aux acanthocyte, acanthrocyte ; 253 ique 124 oïde 79 osarcome acariase, acariases, acariens ; 250 es 117 ation 76 ale 222 aire 107 euse Nous avons utilisé ces familles en expansion de requête dans un outil de recherche de termes normalisés pour De nombreux suxes comme -ome ou -ose , -ique ou l'aide au codage de diagnostics et d'actes en médecine -ation , maintenant reconnus en tant que tels, voient hospitalière [5]. Une requête comme sténose de l'aorte ainsi leur fréquence augmenter et remontent dans ce est convertie en (sténose ET (aorte OU aortique classement. OU ...)) et peut ainsi s'apparier avec des expressions 7
comme sténose aortique. Une expérimentation préli- de la règle employée. Il mesure le coût de la suppres- minaire sur un jeu de 220 requêtes a montré une aug- sion de l'un des deux suxes additionné à celui de l'in- mentation de rappel de 12 % et une diminution de sertion du second suxe. Les réductions d'une forme précision de 2,5 % selon que l'expansion de requête de coût non minimal sont supprimées. Par exemple, le était utilisée ou pas. coût de la règle tiquejses est de 5 + 3 = 8, alors que celui de tiquejse est de 5 + 2 = 7 : on supprime donc la 6 Structuration de l'ensemble des réduction acantholytiquejacantholyses . Dans le cas où règles plusieurs réductions d'une forme donnée ont le même coût, minimal pour cette forme, ces réductions sont Nous avons pu obtenir une amélioration des suxes conservées en parallèle. produits par la méthode initiale ; travaillons mainte- Pour eectuer ce traitement, nous construisons le gra- nant sur les règles. Les données dont nous partons ne phe orienté étiqueté des réductions des formes de notre sont pas les exemples idéaux habituellement employés liste de référence par les règles acquises précédemment. dans les travaux précédents en apprentissage de règles Une fois ce graphe obtenu, pour chacun de ses n÷uds, morphologiques [17, 15]. En eet, l'apprentissage de nous examinons les arêtes qui en partent (réductions modèles morphologiques à partir d'exemples se fait de cette forme), et éliminons celles dont le coût n'est généralement à partir de couples {forme canonique, pas minimal. forme plus complexe}, cette dernière étant une forme Les 4573 arêtes issues des couples de formes de l'étape échie, dérivée ou composée à partir de la première. précédente se réduisent alors à 3480. Les règles les plus Or nos données sont moins propres : fréquentes sont nalement : ces diérentes opérations morphologiques ne sont 1140 sj 43 auxjal 34 mentj pas distinguées l'une de l'autre ; 290 ej 41 eusejeux 32 éje dans un couple de formes, une forme peut être 74 iqueje 39 oje 32 omeje reliée à l'autre par la composition de plusieurs 67 aireje 39 aljo 32 nej opérations ; 58 iquejie 38 itejo 32 ivejif 54 ationjé 35 oseje 30 lej certaines formes, pourtant possibles et attestées dans l'absolu , ne sont pas présentes. On constate que les règles esj, sje , auxjale et esjaire se retrouvent plus bas dans le tableau, voire même en Nous nous attaquons ici au deuxième de ces trois points, disparaissent. et en déduisons une méthode de segmentation partielle de formes en morphèmes. 6.2 Segmentation 6.1 Chemin minimal La plupart des formes sujettes à réduction se réduisent maintenant de façon non ambiguë. Considérons un Les règles identiées jusqu'ici sont souvent des compo- couple comme {lymphoblastique, lymphoblaste} (règle sitions d'opérations plus élémentaires. Par exemple, la iqueje ). Nous pouvons alors suggérer une segmentation règle esj (féminin pluriel) peut être considérée comme de la forme {lymphoblastique, lymphoblaste+ique}. On la composition de ej (féminin) et sj (pluriel). De obtient par ce moyen 3480 segmentations. Si l'on ob- même, auxjale est la composition de auxjal (pluriel) serve par ailleurs que chacune des 1678 familles re- et ej (féminin). groupées à la section 5.3 possède au moins une forme Pour orienter l'examen des règles, nous nous intéres- minimale, généralement non décomposable, on comp- sons à la réduction d'une forme en une autre par une tabilise en tout de l'ordre de 5158 formes sur 8874 règle : la seconde forme doit être de longueur inférieure (58 %) qui sont soit segmentées, soit ne sont pas dé- ou égale à la première, ou en cas de longueur égale, la composables. Les douze premières segmentations (par seconde doit être antérieure dans l'ordre alphabétique. ordre alphabétique) sont les suivantes : Un problème se pose lorsqu'il existe plusieurs chemins pour réduire une forme. Par exemple, à partir de la (13) {abdominales, abdominale+s} forme abdominales, on peut retrouver la forme abdo- {abdominale, abdominal+e} minal par la règle esj ou la forme abdominale par la {abdominal, abdomino+al} règle sj. Un second cas est celui de acantholytique qui {abdominaux, abdominal+aux} peut se réduire en acantholyses par la règle tiquejses {abeilles, abeille+s} ou en acantholyse par la règle tiquejse . {aberration, aberrante+ation} Le principe que nous avons adopté consiste à privilé- {abondants, abondante+s} gier la réduction de moindre coût, ce coût étant inspiré {abrasion, abrasé+ion} des distances d'édition entre chaînes. Ici, il est calculé {absence, absent+nce} comme étant la somme des longueurs des deux suxes {absorbées, absorbée+s} 8
{absorbés, absorbée+s} quement reliées), et on cherche à induire des concepts {acantholyses, acantholyse+s} (règles morphologiques permettant de passer d'une for- {acantholytique, acantholyse+tique} me à une autre) qui couvrent ces exemples. Si de nombreuses formes sont correctement segmen- Les caractéristiques particulières de la situation sont tées, on note encore quelques problèmes. Le couple les suivantes. D'une part, les exemples d'apprentissage {abdomen, abdominal} correspond à une règle qui ne sont eux-mêmes appris dans un contexte particulier. se généralise à aucun autre couple de formes de notre Ces exemples ne sont pas les exemples parfaits habi- liste. De ce fait, cette règle est très coûteuse et c'est la tuellement employés dans les travaux précédents en forme abdomino qui sert de base à la série abdominal. apprentissage de règles morphologiques [17, 15] (sec- Par ailleurs, l'absence dans notre liste de référence de tion 6). D'autre part, les concepts appris peuvent en- la forme aberrant empêche d'obtenir la segmentation tretenir des relations de composition : par exemple, {aberration, aberrant+ation}. De même pour abondant la règle de dérivation d'un adjectif masculin singulier et absorbée. en adverbe se trouve être la composition d'une règle de formation du féminin (par exemple, je ) et de la 7 Discussion règle générale jment (normal ! normale ! norma- lement). Cette structure reste à exploiter plus plei- Les règles et morphèmes candidats obtenus au début nement que nous ne l'avons fait jusqu'ici (section 6). de l'amorçage commencent ainsi à être normalisés et Enn, les concepts appris peuvent être testés sur une deviennent plus ables. Leur fusion en une base de source complémentaire d'exemples potentiels (liste de données uniée permettrait de les utiliser conjointe- formes) : un concept applicable à des exemples hypo- ment pour une décomposition récursive des mots en thétiques supplémentaires augmente sa conance. En préxes et suxes à la fois. La distinction des mor- supposant que ces exemples supplémentaires sont cor- phèmes en trois types de dérivations conduirait à une rects, nous spécialisons le concept au plus juste sur analyse sémantique plus ne. l'ensemble des instances qu'il couvre. La précision obtenue avec la méthode a pu être calcu- lée grâce à une analyse manuelle. Elle montre que 95 % de familles morphologiques sont correctes, même si les 8 Conclusion mots qu'elles contiennent ne sont pas toujours séman- Les expériences décrites montrent qu'à partir de res- tiquement homogènes (eet de composition). L'appli- sources bien choisies, on peut ecacement et auto- cation de la méthode à une autre langue, qui dispose matiquement débroussailler la morphologie des mots déjà d'une base de données morphologique, permet d'un domaine donné. La mise au point de règles rela- d'évaluer le rappel. Le module LVG de l'UMLS [11] tionnelles permet de repérer avec un faible taux d'er- contient des connaissances morphologiques sur une bon- reur des couples de formes reliées morphologiquement ne partie du vocabulaire médical anglais. Nous y avons (bonne précision). D'autre part, le travail sur l'anglais confronté les résultats obtenus avec notre méthode [6]. a permis de confronter les résultats avec des données Nous obtenons un rappel de 91,2 % avec les variations morphologiques disponibles, et de mesurer une bonne exionnelles et 79,2 % avec les dérivations ; la com- exhaustivité des couples recensés (rappel de l'ordre position n'est pas traitée par LVG. Il est dicile de de 80 % en dérivation et 90 % en exion). L'examen comparer ce rappel avec certaines autres approches ci- contrastif d'un grand nombre de formes permet de re- tées [20, 7] dans la mesure où celles-ci évaluent leurs censer des préxes ou radicaux fréquents. L'utilisation résultats dans le cadre d'une utilisation en racinisa- de ces connaissances pour aller vers une segmentation tion. Par ailleurs, 58 % des formes considérées sont eective des formes examinées n'en est encore qu'à un mises en relation ; et les formes restantes ne doivent stade préliminaire, mais donne déjà des résultats. En- pas toutes l'être. n, les applications entamées sur d'autres langues et Appliquée au russe, la méthode a montré ses limites d'autres domaines montrent tout l'intérêt d'une mé- par exemple dans les cas où l'on a covariation entre thode automatique sans connaissances linguistiques. un préxe et un suxe, due entre autres au change- ment d'aspect de la forme (notre méthode traite la variation soit du préxe, soit du suxe, mais pas des Remerciements deux conjointement). L'application de la méthode au Nous remercions le Dr. Roger A. Côté de nous avoir thésaurus français Agrovoc (agriculture) permet éga- gracieusement prêté une copie pré-commerciale de la lement d'y détecter de nombreux couples de mots et version française du Microglossaire de Pathologie SNO- familles morphologiques ; ils n'ont pas fait pour l'ins- MED, Yvan Emelin pour une version de travail de la tant l'objet d'une évaluation. traduction russe du même Microglossaire, Jean Royau- Le problème abordé est une tâche d'apprentissage à té (URI / INIST) pour le thésaurus Agrovoc, et un partir d'exemples : un ensemble d'exemples d'appren- relecteur anonyme de la conférence pour sa lecture at- tissage est donné (des couples de formes morphologi- tentive et ses remarques constructives. 9
Références [12] M. F. Porter. An Algorithm for Sux Strip- [1] G. Burnage. CELEX - A Guide for Users. Ni- ping. Program, 14:130137, 1980. jmegen: Centre for Lexical Information, Univer- [13] Max Silberztein. Dictionnaires électroniques sity of Nijmegen, 1990. et analyse automatique de textes : le système IN- [2] Roger A Côté. Répertoire d'anatomopathologie TEX. Masson, Paris, 1993. de la SNOMED internationale, v3.4 . Université [14] Peter Spyns. A robust category guesser for de Sherbrooke, Sherbrooke, Québec, 1996. Dutch Medical language . Dans Proceedings of [3] Georgette Dal, Fiametta Namer, et Nabil Ha- ANLP 94 (ACL), pages 150155, 1994. thout. Construire un lexique dérivationnel : [15] Pieter Theron et Ian Cloete. Automatic théorie et réalisations. Dans Pascal Amsili, édi- Acquisition of Two-Level Morphological Rules . teur, Actes de TALN 1999, Cargèse, juillet 1999. Dans ANLP97, pages 103110, Washington, DC, 1997. [4] Hervé Déjean. Morphemes as Necessary Concept for Structures Discovery from Untagged [16] Yannick Toussaint, Fiammetta Namer, Béa- Corpora . Dans Workshop on Paradigms and trice Daille, Christian Jacquemin, Jean Grounding in Natural Language Learning, pages Royauté, et Nabil Hathout. Une approche 295299, Adelaide, 1998. linguistique et statistique pour l'analyse de l'information en corpus. Dans Pierre Zweigen- [5] Natalia Grabar et Pierre Zweigenbaum. Ac- baum, éditeur, Actes de TALN 1998, Paris, juin quisition automatique de connaissances morpho- 1998. logiques sur le vocabulaire médical. Dans Pascal Amsili, éditeur, Actes de TALN 1999, pages 175 [17] Antal van den Bosch, Walter Daelemans, et 184, Cargèse, juillet 1999. TGon Weijters. Morphological Analysis as Classication: an Inductive-Learning Approach. [6] Natalia Grabar et Pierre Zweigenbaum. Dans Jun-Ichi Tsujii, éditeur, Proc 16 th CO- Language-independent Automatic Acquisition LING, Copenhagen, Denmark, 59 août 1996. of Morphological Knowledge from Synonym Pairs . J Am Med Inform Assoc, 6(suppl):77 [18] F. Wingert, David Rothwell, et Roger A 81, 1999. Côté. Automated Indexing into SNOMED and ICD. Dans Jean Raoul Scherrer, Roger A. [7] Christian Jacquemin. Guessing Morphology Côté, et Salah H. Mandil, éditeurs, Compu- from Terms and Corpora . Dans Actes, 20th terised Natural Medical Language Processing for Annual International ACM SIGIR Conference on Knowledge Engineering, pages 201239. North- Research and Development in Information Retrie- Holland, Amsterdam, 1989. val (SIGIR'97), pages 156167, Philadelphia, PA, 1997. [19] Susanne Wolff. Automatic Coding of Medical Vocabulary. Dans Naomi Sager, Carol Fried- [8] Kimmo Koskenniemi. Two-level morphology: man, et Margaret S. Lyman, éditeurs, Medi- a general computational model for word-form re- cal Language Processing. Computer Management cognition and production . PhD thesis, Univer- of Narrative Data, Chapitre 7, pages 145162. sity of Helsinki Department of General Linguis- Addison-Wesley, New-York, 1986. tics, Helsinki, 1983. [20] Jinxi Xu et Bruce W. Croft. Corpus- [9] Christian Lovis, Robert Baud, Anne-Marie based stemming using co-occurrence of word va- Rassinoux, Pierre-André Michel, et Jean- riants. ACM Transactions on Information Sys- Raoul Scherrer. Medical Dictionaries for Pa- tems, 16(1):6181, 1998. tient Encoding Systems: a Methodology . Artif Intell Med, 14:201214, 1998. [21] Pierre Zweigenbaum et Natalia Grabar. A Contribution of Medical Terminology to Medical [10] Alexa T. McCray, S. Srinivasan, et A. C. Language Processing Resources: Experiments in Browne. Lexical Methods for Managing Va- Morphological Knowledge Acquisition from The- riation in Biomedical Terminologies. Dans Proc sauri . Dans Christopher G. Chute, éditeur, Eighteenth Annu Symp Comput Appl Med Care, Proc Conference on Natural Language Processing pages 235239, Washington, 1994. Mc Graw Hill. and Medical Concept Representation, Phoenix, Az, 1999. IMIA WG6. [11] National Library of Medicine. UMLS Knowledge Sources Manual , 1999. 10
Vous pouvez aussi lire