Exp riences d'acquisition automatique de connaissances morphologiques par amor age partir d'un th saurus

La page est créée Frédéric Lemaitre
 
CONTINUER À LIRE
Expériences d'acquisition automatique de connaissances
               morphologiques par amorçage à partir d'un thésaurus 
                               Pierre Zweigenbaum                         Natalia Grabar
            DIAM - SIM/AP-HP et Université Paris 6  91 boulevard de l'Hôpital  75634 Paris Cedex 13
                                 Tél. : 01 45 83 67 28  Fax : 01 45 86 80 68
                    {ngr,pz}@biomath.jussieu.fr  http://www.biomath.jussieu.fr/~pz/

Résumé                                                          Keywords
Les connaissances morphologiques, en particulier sur            Natural Language Processing, Morphology, Automatic
les formes dérivées et composées, sont extrêmement              Knowledge Acquisition.
utiles pour le traitement automatique des langues com-
me pour la recherche d'information. Si de grandes bases
de connaissances morphologiques sont disponibles pour
                                                                1 Introduction
certaines langues, ce n'est pas le cas pour le français.        1.1 Contexte
Pour aider à combler ce vide, nous cherchons à mettre           Les connaissances morphologiques sont extrêmement
au point une méthode permettant d'acquérir automati-            utiles pour le traitement automatique des langues com-
quement divers types de connaissances morphologiques            me pour la recherche d'information. On distingue clas-
pour une langue et un domaine donnés. Cette méthode             siquement trois types de variation morphologique. La
exploite les termes synonymes présents dans un thé-             exion produit les diérentes formes d'un même mot
saurus du domaine et une liste de mots qui peut être            (pluriel, féminin, conjugaisons d'un verbe, etc.) ; par
tirée du même thésaurus. Cet article présente une sé-           exemple, singulier aorte (forme canonique, ou lemme )
rie d'expériences visant à acquérir des connaissances           et pluriel aortes (forme échie). La dérivation permet
morphologiques à partir de ces données de base et sans          d'obtenir, par exemple, la forme adjectivale d'un nom
connaissances linguistiques a priori. Il montre que l'on        (aorte ! aortique). La composition combine plusieurs
peut obtenir instantanément un débroussaillage massif           radicaux pour former des mots plus complexes (aorte
de la morphologie des formes du domaine étudié.                 + coronaire ! aortocoronaire).
Mots Clef                                                       La morphologie exionnelle a été bien étudiée, et de
Traitement des langues naturelles, morphologie, acqui-          nombreux outils d'analyse exionnelle (lemmatisation :
sition automatique de connaissances.                            passage d'une forme échie à la forme canonique cor-
                                                                respondante) accompagnés de descriptions complètes
Abstract                                                        de la exion du français existent de façon commer-
Morphological knowledge, especially derivation and com-         ciale ou académique (par exemple, le lemmatiseur de
pounding, is extremely useful both for natural language         Fiametta Namer [16] ou le système d'analyse INTEX
processing and information retrieval. Whereas large             [13]). En revanche, aucune description complète de la
morphological knowledge bases are available for some            morphologie dérivationnelle et compositionnelle n'est
languages, this is not the case for French. In order            disponible pour le français. Cette situation tranche
to ll this gap, we aim at setting up a method that             avec celle qui prévaut pour des langues comme l'an-
can acquire automatically various kinds of morpholo-            glais, le néerlandais ou l'allemand, pour lesquelles de
gical knowledge for a given language and domain. This           grandes bases de connaissances morphologiques sont
method relies on the synonym terms present in a the-            disponibles (par exemple la base CELEX [1]).
saurus of the domain and a list of words that can be            La connaissance des formes échies, dérivées et compo-
drawn from the same thesaurus. This paper presents a            sées d'un mot donné (sa famille morphologique ) peut
series of experiments whose goal is to acquire morpho-          être utilisée en recherche documentaire pour eectuer
logical knowledge from this initial data and without a          une expansion de requête. Une requête étant donnée, si
priori linguistic knowledge. It shows that one can ob-          l'un de ses mots se trouve dans une famille morpholo-
tain instantaneously a massive, gross description of            gique, on propose de le remplacer par la disjonction des
word morphology in the domain addressed.                        formes de cette famille. Cette expansion est similaire
                                                                au remplacement, à l'indexation comme à l'interroga-
     À paraître dans  RFIA 2000, Paris, 1-3 février 2000 .   tion, de chaque forme présente dans une famille par un
représentant canonique de cette famille : c'est ce que          Du fait de leur origine terminologique, ces formes sont
font les algorithmes de racinisation [12], le représen-         principalement des noms, adjectifs et adverbes, ainsi
tant canonique étant une forme réduite hypothétique             que quelques participes passés ou présents. On y trouve
de la forme initiale.                                           des lemmes et des formes échies, des formes dérivées
Pour aider à combler le manque de ressources morpho-            et des formes composées. Thésaurus et liste de formes
logiques constaté, nous cherchons à mettre au point             n'ont pas besoin d'être étiquetés par des catégories
une méthode permettant d'acquérir automatiquement               syntaxiques : nous travaillons sur des données brutes,
divers types de connaissances morphologiques pour une           non annotées (mais nous avons par ailleurs testé l'in-
langue et un domaine donnés. Nous avons choisi l'ap-            térêt de données étiquetées ou lemmatisées [21]).
proche d'un outil automatique, non interactif, sans             1.3 Objectifs
connaissances linguistiques, que l'on peut ainsi appli-
quer rapidement et avec peu d'eort sur un nouveau              L'objectif de ce travail est d'identier quelles connais-
domaine ou une nouvelle langue.                                 sances morphologiques on peut acquérir automatique-
Des méthodes automatiques pour l'acquisition de va-             ment à partir de ces données en recourant à très peu
riations morphologiques ont été mises au point pour             de connaissances a priori sur la langue concernée. Il
la recherche d'information en se fondant sur les col-           reprend et étend des travaux précédents [5], rappelés
locations en corpus [20] ou les correspondances entre           et complétés dans les sections 4 et 5. Notre modèle de
un thésaurus et un corpus [7]. Dans le cadre du pro-            la morphologie s'appuie essentiellement sur des com-
jet FRANLEX, qui propose de lancer la construction              paraisons et substitutions de chaînes de caractères ini-
d'une base de connaissances morphologiques pour le              tiales ou nales, et ne présuppose pas de distinction
français, une autre méthode recherche des correspon-            entre consonnes et voyelles ni les notions morphotac-
dances dans une liste entre mots de catégories syn-             tiques que l'on peut trouver par exemple en morpho-
taxiques diérentes [3]. Des outils d'étude de la varia-        logie à deux niveaux [8]. Les connaissances morpholo-
tion morphologique à travers plusieurs thésaurus du             giques visées sont des types suivants.
même domaine ont aussi été conçus lors de la consti-                Des couples de formes morphologiquement reliées :
tution du métathésaurus biomédical  UMLS  [10].
Les méthodes employées travaillent essentiellement à                   (1) abdominal, abdominaux (exion) ;
l'aide d'opérations classiques sur des chaînes de carac-                   aorte, aortique (dérivation) ;
tères. Un modèle linguistique plus évolué, comme la                        cardio, cardiomégalie (composition)
morphologie à deux niveaux [8], peut également ser-
vir de support à l'acquisition de règles plus générales              mais aussi toute combinaison de ces trois types de
à partir de paires de mots morphologiquement reliés                  relations.
{lemme, forme dérivée} [15].                                        Des familles de formes morphologiquement reliées :
1.2 Données de départ                                                  (2) abdomen, abdominal, abdominale, abdomi-
L'originalité principale de notre approche est liée à                      nales, abdominaux, abdomino ;
l'utilisation de la relation de synonymie existant entre                   cardia, cardiaque, cardiaques, cardio, cardio-
certains termes d'un thésaurus. Les connaissances ap-                      mégalie, cardiopathie, cardiopathies, cardite
prises sur ces termes synonymes sont ensuite appli-
quées à une liste de mots plus grande. Nos données                   Ces familles sont par exemple intéressantes en re-
initiales pour une langue et un domaine sont donc :                  cherche d'information, où elles permettent d'amé-
                                                                     liorer le rappel en eectuant une racinisation [7]
  1. un thésaurus contenant des termes synonymes ;                   dans les requêtes et les documents ou en eec-
      par exemple, pour la médecine, le Microglossaire               tuant une expansion de requête .
      de Pathologie de la Nomenclature SNOMED In-
      ternationale [2] (12 555 termes dans lesquels on              Des règles morphologiques permettant de passer
      trouve 2 344 séries de synonymes, soit 5 801 termes            d'une forme à une autre morphologiquement liée
      synonymes) ;                                                   ( est le symbole vide) :
  2. une liste de référence de formes de mots attes-                 (3) cicatrice e!iel cicatriciel
                                                                                    j

      tées ; pour la médecine, les formes de mots ap-                    Exemples : ejique , ejaire , js .
      paraissant dans les termes de la SNOMED (6500
      formes) ou de la Classication Internationale des             En présence d'une nouvelle forme, ces règles peu-
      Maladies (CIM-10, 4475 formes ; au total, 8874                vent permettre de la relier à une famille existante,
      formes). Nous parlons de formes pour préciser                 et d'étendre ainsi cette famille. Selon leur degré
      que les mots de ces listes peuvent apparaître aussi           de précision, elles peuvent être employées pour
      bien dans leur forme canonique (lemme ) que leurs             segmenter une forme selon ses constituants mor-
      formes échies.                                               phologiques ou pour engendrer une forme dérivée.

                                                            2
 Des suxes de la langue ou du domaine, qui in-               obtient une liste de préxes (resp. suxes) potentiels.
     terviennent dans ces règles :                               Il s'agit d'une forme de l'analyse distributionnelle mise
                                                                 en ÷uvre par [4], mais plus limitée et relativement
      (4) -e , -s , -aire , -ique , -ome , -ose                  sûre. Dans l'état actuel de nos travaux, les résultats de
     Ces suxes sont proches de morphèmes dont cer-              cette étape ne sont pas encore utilisés dans la dernière
     tains ont une valeur sémantique importante pour             étape de la méthode.
     le domaine ; ils peuvent correspondre à des primi-          Nous exploitons ensuite (section 4) les termes syno-
     tives sémantiques (ou types de concepts) pour la            nymes : par construction, deux synonymes partagent
     représentation des connaissances du domaine (par            un sens commun ; des couples de formes  morpholo-
     exemple, -ome = tumeur).                                    giquement similaires  (par exemple, {symbiose, sym-
                                                                 biotique}) trouvées dans deux tels termes sont généra-
   Des radicaux (ou racines) de la langue ou du do-             lement dérivées de la même base lexicale. Ces couples
     maine, auxquels on peut ajouter des suxes :                de formes permettent d'induire des règles morpholo-
                                                                 giques dont la portée est potentiellement plus générale
      (5) br, granul, hépat, hyalin, immun, lymph               que l'ensemble de ces couples de formes initiaux. Ces
     Ces radicaux sont aussi des morphèmes, dont la              règles ont une forme simple (sejtique ), proche de celles
     plupart ont une valeur sémantique importante pour           du système lexical de l'UMLS [10].
     le domaine et correspondent à des types de concepts.        Nous croisons alors les deux (section 5) : les règles in-
                                                                 duites sont appliquées à la liste de formes et détectent
   Des préxes de la langue ou du domaine, que l'on             de nouveaux couples de formes morphologiquement re-
     peut ajouter devant une forme :                             liées. Les règles sont ajustées (spécialisées) au nouvel
                                                                 ensemble de couples de formes obtenu. Les règles ajus-
      (6) hyper-, poly-, para-                                   tées restantes sont linguistiquement plus pertinentes
   Des décompositions (segmentations) de formes en              que dans leur forme initiale. Les formes des couples
     leurs éléments constitutifs :                               sont par ailleurs regroupées en familles, en jouant sur
                                                                 la transitivité de la relation d'apparentement morpho-
      (7) cicatricielles ! cicatriciel+le+s                      logique.
           cicatriciel ! cicatrice+iel                           Enn, nous restructurons les suxes et les règles (sec-
           lymphoblastique ! lympho+blastique                    tion 6) : certaines des règles induites résultent de la
           blastique ! blaste+ique                               composition d'autres règles plus élémentaires. Ces re-
                                                                 dondances sont identiées, et une décomposition des
     où l'on retrouve les suxes d'adjectivation -iel et         formes par des règles de coût minimal est proposée.
     -ique , les exions du féminin -le et du pluriel -s ,       Nous décrivons maintenant tour à tour ces étapes.
     les racines cicatrice et blaste, et le préxe lympho-
     (lié à la racine lymphe).                                   3 Amorçage sur une liste de for-
     Ce type de décomposition permet d'accéder aux
     composants sémantiques d'un mot, par exemple                  mes
     pour l'indexer [18] ou pour proposer une déni-             Dans cette section, nous examinons ce qu'il est pos-
     tion pour un mot nouveau dans un lexique. Par               sible de faire à partir d'une liste de formes  à plat ,
     exemple, les mots possédant le morphème -ome                sans structure a priori. Cette liste de formes, tirée de
     pourraient être étiquetés sémantiquement par tu-            terminologies du domaine, a néanmoins la particula-
     meur ou état pathologique.                                  rité de contenir une grande proportion des mots ca-
                                                                 ractéristiques du domaine étudié : mots spéciques à
Le reste de cet article décrit un faisceau d'expériences         ce domaine (leucokératose, pemphigoïde) ou typiques
visant à acquérir des connaissances de ces diérents             dans ses corpus (bénin, aberration).
types à partir de nos données de base en employant un
modèle linguistique extrêmement simple ; nous cher-              3.1 Détection de préxes et radicaux
chons dans ces expériences à repérer des conditions                  compositionnels
assurant la qualité des résultats obtenus.                       De nombreux mots médicaux sont formés par compo-
2 Approche générale                                              sition de radicaux gréco-latins ; par exemple, bro- et
                                                                 amélo- sont préxés à blastique pour former bro+amé-
Nos explorations nous ont conduits à attaquer le pro-            lo+blastique. Disposer d'une liste de ces radicaux per-
blème sous plusieurs angles.                                     met de mettre en ÷uvre des algorithmes de segmen-
Nous examinons d'une part (section 3) ce que l'on peut           tation d'un mot en constituants (par exemple, [19, 14,
tirer de la liste de formes  à plat  : en repérant les         9]). Nous cherchons ici à recenser ces radicaux.
contrastes entre des formes préxées (resp. suxées)             Nous eectuons pour cela une analyse de notre liste
et les mêmes formes non préxées (resp. suxées), on             de formes attestées de référence, fondée sur des tests

                                                             3
de commutation. Par dénition, si bro- est un radi-               inclus ce critère dans notre procédure, car il n'est pas
cal, c'est qu'il peut se combiner avec diverses formes             susamment discriminant.
F pour former des composés broF (avec une éven-                   En conclusion, cette analyse détecte avec une bonne
tuelle adaptation morphologique locale à la jonction               précision des radicaux ou préxes fréquents dans le
des deux composants). Nous supposons donc à l'in-                  domaine. Elle fournit en même temps 904 couples de
verse que si l'on observe dans notre liste de formes               formes {F , RF } pour lesquels elle propose une seg-
attestées un nombre susant de couples {F , broF },               mentation de la forme composée RF en R + F où R
c'est un indice montrant que bro- est un  candidat               est l'un des préxes retenus. Dans ces 904 couples, les
radical , ou encore un candidat préxe.                           5 préxes faux produisent 13 segmentations erronées,
De fait, pour bro-, on trouve dans notre liste 18 couples :       soit 1,4 % d'erreur. Il faut y ajouter de possibles mais
                                                                   rares segmentations non pertinentes issues de préxes
 (8) {améloblastique, broaméloblastique}                          par ailleurs corrects, comme a+voir ou a+mont.
     {blastique, broblastique}                                    Le fait de travailler sur des couples de formes attestées
     :::                                                           est un puissant ltre contre des décompositions non
    {vasculaire, brovasculaire}                                   pertinentes. Ainsi, sur les 173 formes commençant par
    {xanthome, broxanthome}                                       an-, seules 6 ont été segmentées à l'aide de ce préxe
ce qui donne une bonne conance dans ce candidat.                  (il s'agit de an+aplasique, an+aérobies, an+euploïdie,
Appliquée à nos 8874 formes de référence, cette mé-                an+ictérique, an+ovulation, an+ovulatoire). La quasi-
thode détecte 779 radicaux R apparaissant au moins                 totalité des autres formes en an- ne relèvent pas de
dans un couple {F , RF }, dont 235 au moins dans deux              cette décomposition, qu'elles soient atomiques (angine)
couples et 120 dans trois. Les 28 radicaux de fréquence            ou qu'elles relèvent d'autres préxes ou radicaux (ana-,
supérieure à 10 sont les suivants :                                angio-, anté-, anti-, ano-).
                                                                   3.2 Transposition aux suxes
37 intra        20 trans         15 anti          13 endo          Le même principe de base peut être appliqué pour
36 in           19 inter         14 poly          13 dys           identier des  suxes . Ici, il s'agit de repérer des
34 péri         18 bro          13 épi           13 angio         couples de formes du type :
28 para         17 ostéo         13 sub           13 a
26 hyper        17 dé            13 rétro         11 myo            (9) {ligament, ligamentaire}
23 pré          15 neuro         13 ré            11 di                  {ligament, ligaments}
21 hypo         15 micro         13 pro           11 bi                  {essentielle, essentiellement}
                                                                         {pneumo, pneumocyte}
On observe que les 9 premiers éléments trouvés (intra-,            qui mettent en évidence les chaînes suxables -aire ,
in-, péri-, para-, hyper-, pré-, hypo-, trans-, inter-) sont       -s , -ment , -cyte . Appliquée à nos 8874 formes de réfé-
des préxes généraux du français, fréquents dans le                rence, cette méthode détecte 733 suxes S apparais-
domaine médical. On commence à trouver des radi-                   sant au moins dans un couple {F , F S }, dont 170 au
caux du domaine à partir du rang 10 (bro-, ostéo-).               moins dans deux couples et 78 dans au moins trois.
La première erreur apparaît au rang 61 (fréquence =                Les 12 suxes de fréquence supérieure à 10 sont :
5) : p- n'est pas un radical ni un préxe, bien que les
couples {laque, plaque}, {liée, pliée}, {lèvre, plèvre},           1136 s               21 ux                13 le
{réparation, préparation}, {urine, purine} soient attes-           168 e                17 ne                12 ïde
tés. En tout, pour les fréquences supérieures à 2, on              34 ment              15 me                12 use
dénombre 13 erreurs sur 120 radicaux, soit une préci-              24 es                14 se                11 blastome
sion de 89,2 %. Si l'on exclut les préxes d'une seule
lettre (seul a- est un préxe correct), on descend à 5             Les deux premiers sont des suxes de exion (pluriel
erreurs sur 111 radicaux, soit 95,5 % de précision.                -s et féminin -e ), puis on a le suxe -ment de for-
Le fait qu'une forme initiale (comme blastique) puisse             mation d'adverbes ; le premier suxe du domaine est
de son côté se combiner avec d'autres radicaux (par                -me (rang 7), qui en réalité correspond à des formes
exemple, centroblastique, chondroblastique, lipoblasti-            en -ome ; enn, le premier radical que l'on trouve en
que, etc.) est un indice supplémentaire : il conrme               position de suxe est -blastome (rang 12).
que dans la segmentation bro+blastique obtenue, on                Les couples de formes identiés sont par construction
a bien deux composants qui commutent avec divers                   restreints à des ajouts stricts de suxes, ce qui em-
éléments. Cependant, plusieurs formes  parasites                 pêche de mettre au jour des exions ou dérivations,
comme tique donnent lieu à de nombreuses fausses                   comme {abdominal, abdominaux} ou {aorte, aortique},
compositions : par exemple, {tique, attique} qui, en pa-           qui fonctionnent par substitution de suxes. La mé-
rallèle avec {tente, attente} et {teinte, atteinte}, font          thode suivante permet de détecter de tels couples avec
ressortir un préxe erroné at-. Nous n'avons donc pas              une excellente précision.

                                                               4
4 Amorçage sur des couples de                                         {schiste, schisteuse}
  termes synonymes                                                    {méthylique, méthanol}
                                                                      {atrophie, atrophodermie}
4.1 Termes synonymes                                                  {lymphadénome, lymphocytome}
Les terminologies, nomenclatures et autres glossaires            Ces couples incluent les trois types de variations mor-
incluent souvent pour un  concept  donné à la fois             phologiques (exion, dérivation et composition). Un
un terme vedette , ou terme préférentiel, et des termes          examen manuel des résultats montre qu'avec ce seuil
synonymes. Un terme vedette peut ainsi être accompa-             de quatre caractères, tous les couples correspondent
gné de zéro, un ou plusieurs termes synonymes. C'est             à des formes eectivement reliées morphologiquement.
le cas de diverses terminologies médicales comme la              Un seuil à trois, en revanche, propose des couples erro-
nomenclature SNOMED Internationale [2] (tableau 1)               nés (par exemple, {inltration, inammation}, {déshy-
ou le MeSH (Medical Subject Headings), mais aussi                draté, désséché} ou {qualité, quantité}), et n'ajoute
de terminologies dans d'autres domaines ; citons par             que 9 % de couples supplémentaires (8 % de formes
exemple le thésaurus PASCAL de l'INIST ou le thé-                supplémentaires). Notons qu'il serait possible de créer
saurus AGROVOC de la FAO. Notre méthode d'amor-                  manuellement des listes de couples interdits (excep-
     Code concept       Type      Terme                          tions) servant à empêcher les erreurs liées à un seuil
        F-00470        vedette symbiose                          trop bas. Mais dans cette série d'expériences, nous
        F-00470      synonyme commensalisme                      avons opté pour une méthode pouvant être appliquée
        F-00470      synonyme symbiotique                        à un autre domaine ou à une autre langue quasiment
        F-00470      synonyme commensal                          sans intervention manuelle (la seule intervention ac-
       T-51110         vedette palais dur                        tuelle est un réglage éventuel du seuil).
       T-51110       synonyme voûte palatine                     4.3 Induction de règles morphologiques
Tab. 1  Termes préférés et termes synonymes dans                Les couples de formes alignées sont alors considérés
la SNOMED.                                                       comme des exemples à partir desquels on va induire
                                                                 des règles morphologiques. Ces règles sont potentiel-
çage détourne ces couples de termes synonymes de leur            lement applicables pour identier d'autres couples de
nalité initiale pour les employer comme source de               formes entretenant la même relation morphologique.
couples de formes morphologiquement proches.                     À ce stade du processus, nous cherchons à faire en
                                                                 sorte que les règles apprises décrivent les caractéris-
4.2 Alignement de couples de formes                              tiques spéciques minimales des couples de formes, et
    morphologiquement reliées                                    conservent une généralité importante. Chaque exemple
 Étant donné deux termes synonymes, nous nous in-                {I S1, I S2 } est généralisé en une règle {S1 , S2 } qui
 téressons aux couples de formes {I S1 , I S2 } trouvées         peut être interprétée de la façon suivante : étant donné
 dans ces deux termes et qui possèdent une chaîne de             une forme terminée par le suxe S1 , on peut déri-
 caractères initiale commune I  susamment longue  :           ver une forme dans laquelle on substitue S2 à S1 ; ou
 nous avons xé expérimentalement le seuil à quatre              l'inverse, la règle étant considérée comme symétrique.
 caractères communs, mais il s'agit bien sûr d'un para-          Cette règle représente plus précisément la dénition
 mètre dans les programmes. Ainsi, dans le tableau 1,            en intension du graphe d'une relation sur un ensemble
 les couples de formes suivantes sont alignés :                  de formes F . Cet ensemble étant donné, le graphe G
                                                                 de cette relation est déni par :
(10) {symbiose , symbiotique }
      {commensal, commensalisme }                                GS1 S2 =   fff1; f2 g 2 F  F ; 9I ; (f1 = I S1 ^ f2 = I S2 )g
      {palais , palatine }.
 Notons que dans un contexte non contrôlé, cette mé-             Nous notons de façon abrégée les règles {S1, S2 } sous
 thode conduirait à beaucoup de bruit. Par exemple, la           la forme S1 jS2 .
 paire administratif / admission partage une chaîne              Concrètement, l'alignement de deux formes {I S1 , I S2 }
 initiale de longueur quatre alors que administratif et          identie en même temps les suxes {S1 , S2 }, donc la
 admission ne sont pas obtenus à partir d'une base lexi-         règle associée S1 jS2 . L'application de cette procédure
 cale commune (sauf à considérer un préxe commun                fournit 567 règles diérentes. Les plus fréquentes pour
 ad-, qui n'est pas justié en français actuel).                 les exemples considérés sont ( désigne la chaîne de
 Appliquée aux 5 801 synonymes du Microglossaire,                longueur nulle) :
 cette méthode aligne 1572 couples de formes (1187               js (pluriel) {articulaire, articulaires}
 couples diérents, 1576 formes diérentes), par exemple :
                                                                 je (féminin) {surrénal, surrénale}
(11) {bénin, bénigne}
      {professionnel, professionnelle}                           ejique (adjectifs en -ique ) {prostate, prostatique}
                                                             5
ejque (adjectifs en -ique )                                        1140 sj             53 xjse              36 esjaire
      {hyperkaliémie, hyperkaliémique}                             290 ej              43 uxjl              34 vejf
                                                                   143 esj             42 oje               34 mentj
ejaire (adjectifs en -aire ) {valvule, valvulaire}                 74 iqueje            42 ojal              33 nej
mejsarcome (dérivation -ome / composition -osar-                   67 ejaire            40 uxjle             33 lej
      come )                                                       64 queje             40 oseje             32 éje
      {mélanome, mélanosarcome}                                    60 sje               38 ojite             31
                                                                   55 éjation           36 omeje             sarcomejme
On notera que ces règles n'ont qu'une valeur associa-
tive : deux formes étant données (typiquement, deux                Les règles du pluriel et du féminin sont encore une fois
formes attestées), les règles proposent ou pas de les              les plus productives, suivies de la formation d'adjec-
mettre en relation. Il n'est en revanche pas question              tifs en -ique et -aire . On trouve aussi en bonne posi-
de les appliquer à n'importe quelle forme se terminant             tion des suxations propres au domaine : -ose (dégé-
par l'un des deux suxes de la règle pour engendrer                nérescence), -ome (tumeur), -ite (inammation). En-
de nouvelles formes dérivées. En particulier, les règles           n, on identie des radicaux comme sarcome ou blas-
dont un suxe est  ne signient pas que l'on obtient              tome (avec une fréquence un peu moindre). 446 suxes
une forme correcte en ajoutant leur second suxe à                 sont mobilisés, parmi lesquels les plus fréquents sont
n'importe quelle forme !                                           les suivants :
Par ailleurs, les suxes considérés peuvent ne pas tous
sembler appropriés. Par exemple, -me correspond en                 1254 s               166 se               97 x
réalité au suxe -ome identiant les tumeurs. Nous                 1046 e               165 ique             83 ïde
verrons plus bas (section 5.2) comment délimiter les               268 es               143 ome              81 f
suxes de façon plus pertinente.                                   243 o                141 ose              80 le
5 Confrontation des règles mor-                                    221 é
                                                                   212 aire
                                                                                        114 ux
                                                                                        101 al
                                                                                                             80 ation
                                                                                                             79 sarcome
  phologiques à la liste de formes                                 169 me               99 que
Une liste de formes étant donnée, nous cherchons main-
tenant à y identier les couples de formes morphologi-             On y trouve bien sûr ceux impliqués dans les règles les
quement liées qui s'y trouvent. Nous allons pour cela              plus fréquentes, en particulier la terminaison -o des ra-
utiliser les règles induites à partir des exemples ini-            dicaux que l'on peut préxer à certaines autres formes.
tiaux. Nous examinons l'application de ces règles à                2879 radicaux sont concernés ; les plus fréquents sont :
notre liste de formes de référence. Cet ensemble de
formes est typiquement puisé dans le même domaine                  29 myélo             16 granul            12 lymphocyt
que les exemples d'apprentissage. Il pourrait être consti-         25 ostéo             15 angio             11 hémangio
tué des formes des exemples, ou des formes du thésau-              22 bro              13 plasmocyt         11 hyalin
rus dont on a tiré les termes synonymes.                           22 br               13 immun             11 histiocyt
                                                                   21 adéno             13 chondro           10 neuro
5.1 Découverte de nouveaux couples                                 19 lympho            12 méning
Chaque règle induite (section 4.3) permet d'identier              16 lipo              12 mélano
dans cet ensemble de formes des couples de formes
qui entretiennent potentiellement la relation morpho-              On retrouve les radicaux de la section 3.1 avec une
logique décrite par cette règle. Cela revient à calcu-             fréquence relative diérente, l'absence de préxes de 2
ler le graphe de cette relation pour cet ensemble de               et 3 lettres, et des variantes comme bro / br.
formes. De même que lors de l'alignement (section 4.2),
nous limitons les erreurs en imposant que dans chaque              5.2 Ajustement des règles
couple {I S1 , I S2 }, la chaîne initiale I possède une lon-       Maintenant que nous disposons d'une base plus grande
gueur minimale. Nous avons également xé ce seuil à                sur laquelle assoir notre jugement, nous pouvons cher-
quatre caractères.                                                 cher à spécialiser davantage les règles morphologiques
Les 567 règles appliquées à notre liste de 8874 formes             apprises. Dans l'étape précédente, nous avons géné-
identient 4573 couples diérents de formes, soit 3386             ralisé individuellement chaque exemple Ei = {Ii S1 ,
couples (285 %) de plus qu'à l'amorçage (comme les                 Ii S2 } à la règle {S1 , S2 }, sur la base de la chaîne
formes des couples de l'amorçage se trouvent dans la               initiale maximale Ii commune aux deux formes du
liste, ces couples sont retrouvés par l'application des            couple. Nous allons maintenant considérer globalement
règles). Ces couples mettent en jeu 5164 formes dié-              toutes les instances Ei subsumées par cette règle (ex-
rentes, soit 3588 de plus qu'à l'amorçage (+228 %).                emples de départ aussi bien que nouveaux couples), et
Les règles les plus appliquées sont les suivantes :                identier la chaîne nale maximale S commune à leurs

                                                               6
chaînes initiales maximales communes Ii . Nous spé-            Les radicaux sont réduits proportionnellement aux suf-
cialisons alors la règle {S1 , S2 } en {SS1, SS2 }. Nous       xes. Entre autres, un très grand nombre de radicaux
étendons ainsi au maximum vers la gauche les suxes            en -o se retrouvent maintenant sous une forme sans -o
S1 et S2 de la règle tout en faisant en sorte qu'elle          (par exemple, sarc- au lieu de sarco-).
continue à couvrir toutes les instances.                       Les règles qui ne s'appliquent qu'à un seul couple de
Soulignons que si nous avions ajusté les règles dès            formes n'ont pas de caractère de généralité sur l'en-
l'étape d'amorçage, du fait du nombre d'instances plus         semble de formes considérées. Elles correspondent à
limité, une partie d'entre elles auraient été surspécia-       des couples appris pendant l'étape d'amorçage (sec-
lisées. Elles n'auraient alors plus été à même de s'ap-        tion 4) et qui ne trouvent pas de conrmation externe
pliquer à certains couples de formes de la liste de ré-        dans la liste de formes de référence. Nous conservons
férence.                                                       chaque couple concerné, mais nous considérons que
Les suxes obtenus sont donc les plus longs possibles          nous ne pouvons pas ajuster la règle correspondante.
permettant l'application de la règle à la liste de réfé-       Cette règle et ses suxes peuvent alors être considé-
rence. Les nouvelles règles les plus fréquentes sont :         rés comme possédant une conance plus faible. Il reste
                                                               alors 299 suxes ont été spécialisés (étendus) sur les
1140 sj            53 euxjeuse          36 esjaire            446 initialement dénis par généralisation individuelle
290 ej             43 auxjal            34 mentj             des exemples.
143 esj            42 oje               34 ivejif
74 iqueje           42 ojal              33 nej               5.3 Familles de formes
67 ejaire           40 oseje             33 lej               Chaque couple de formes spécie que ces deux formes
64 iquejie          40 auxjale           32 éje                sont reliées par une relation morphologique : elles font
60 sje              38 ojite             31                    partie d'une même famille morphologique. Nous avons
55 éjation          36 omeje             osarcomejome          cherché à constituer ces familles. Nous regroupons des
                                                               formes dans une même famille dans deux situations :
Par construction, le nombre d'applications de chaque
règle n'a pas changé. En revanche, 405 règles sur 567            1. si deux couples diérents sont articulés sur la même
(71 %) ont été spécialisées. Parmi les 23 listées ci-               chaîne initiale maximale commune, nous considé-
dessus, les extensions concernent iquejie (+i), euxjeuse            rons que cette chaîne initiale est leur radical com-
(+eu), auxjal (+a), auxjale (+a), ivejif (+i) et osarco-            mun, et nous regroupons les formes concernées ;
mejome (+o). De fait, les suxes étendus semblent
mieux correspondre aux morphèmes que l'on aurait                 2. si deux familles diérentes (éventuellement rédui-
tendance à considérer pour ces formes, et les règles ob-            tes aux deux formes d'un couple) ont une forme
tenues semblent plus en accord avec une analyse lin-                en commun, elles sont fusionnées.
guistique des opérations morphologiques en jeu. Par
exemple, la règle iquejie concerne la formation d'ad-          Les 4573 couples de formes se regroupent en 1678 fa-
jectifs en -ique plutôt que d'adjectifs en -que (comme         milles, dont voici les premières :
l'indiquait la règle queje ). Elle spécie la façon dont
cette formation s'applique aux formes se terminant par         (12) abdomen, abdominal, abdominale, abdominales,
-ie , et est apprise sur 64 formes dont achromie, aller-            abdominaux, abdomino ;
gie, amnésie, etc.                                                  abeille, abeilles ;
Des suxes auparavant éclatés en plusieurs formes                   aberrante, aberration ;
(par exemple, -ique , que nous venons d'examiner, ou                abondante, abondants ;
-ome ) se retrouvent ainsi mieux identiés. Les suxes              abrasion, abrasé ;
les plus fréquents sont maintenant :                                absence, absent ;
                                                                    absorbée, absorbées, absorbés ;
1225 s              197 ose              100 ie                     acantholyse, acantholyses, acantholytique ;
963 e               196 é                91 ion                     acanthomateux, acanthome, acanthose, acantho-
333 ome             152 eux              83 if                      sique ;
263 o               143 al               83 aux                     acanthocyte, acanthrocyte ;
253 ique            124 oïde             79 osarcome                acariase, acariases, acariens ;
250 es              117 ation            76 ale
222 aire            107 euse                                   Nous avons utilisé ces familles en expansion de requête
                                                               dans un outil de recherche de termes normalisés pour
De nombreux suxes comme -ome ou -ose , -ique ou               l'aide au codage de diagnostics et d'actes en médecine
-ation , maintenant reconnus en tant que tels, voient          hospitalière [5]. Une requête comme sténose de l'aorte
ainsi leur fréquence augmenter et remontent dans ce            est convertie en (sténose ET (aorte OU aortique
classement.                                                    OU ...)) et peut ainsi s'apparier avec des expressions

                                                           7
comme sténose aortique. Une expérimentation préli-               de la règle employée. Il mesure le coût de la suppres-
minaire sur un jeu de 220 requêtes a montré une aug-             sion de l'un des deux suxes additionné à celui de l'in-
mentation de rappel de 12 % et une diminution de                 sertion du second suxe. Les réductions d'une forme
précision de 2,5 % selon que l'expansion de requête              de coût non minimal sont supprimées. Par exemple, le
était utilisée ou pas.                                           coût de la règle tiquejses est de 5 + 3 = 8, alors que
                                                                 celui de tiquejse est de 5 + 2 = 7 : on supprime donc la
6 Structuration de l'ensemble des                                réduction acantholytiquejacantholyses . Dans le cas où
  règles                                                         plusieurs réductions d'une forme donnée ont le même
                                                                 coût, minimal pour cette forme, ces réductions sont
Nous avons pu obtenir une amélioration des suxes                conservées en parallèle.
produits par la méthode initiale ; travaillons mainte-           Pour eectuer ce traitement, nous construisons le gra-
nant sur les règles. Les données dont nous partons ne            phe orienté étiqueté des réductions des formes de notre
sont pas les exemples idéaux habituellement employés             liste de référence par les règles acquises précédemment.
dans les travaux précédents en apprentissage de règles           Une fois ce graphe obtenu, pour chacun de ses n÷uds,
morphologiques [17, 15]. En eet, l'apprentissage de             nous examinons les arêtes qui en partent (réductions
modèles morphologiques à partir d'exemples se fait               de cette forme), et éliminons celles dont le coût n'est
généralement à partir de couples {forme canonique,               pas minimal.
forme plus complexe}, cette dernière étant une forme             Les 4573 arêtes issues des couples de formes de l'étape
échie, dérivée ou composée à partir de la première.             précédente se réduisent alors à 3480. Les règles les plus
Or nos données sont moins  propres  :                          fréquentes sont nalement :
   ces diérentes opérations morphologiques ne sont             1140 sj             43 auxjal            34 mentj
    pas distinguées l'une de l'autre ;                           290 ej              41 eusejeux          32 éje
   dans un couple de formes, une forme peut être                74 iqueje            39 oje               32 omeje
    reliée à l'autre par la composition de plusieurs             67 aireje            39 aljo              32 nej
    opérations ;                                                 58 iquejie           38 itejo             32 ivejif
                                                                 54 ationjé           35 oseje             30 lej
    certaines formes, pourtant possibles et attestées
      dans l'absolu , ne sont pas présentes.                   On constate que les règles esj, sje , auxjale et esjaire
                                                                 se retrouvent plus bas dans le tableau, voire même en
Nous nous attaquons ici au deuxième de ces trois points,         disparaissent.
et en déduisons une méthode de segmentation partielle
de formes en morphèmes.                                          6.2 Segmentation
6.1 Chemin minimal                                                La plupart des formes sujettes à réduction se réduisent
                                                                  maintenant de façon non ambiguë. Considérons un
Les règles identiées jusqu'ici sont souvent des compo-           couple comme {lymphoblastique, lymphoblaste} (règle
sitions d'opérations plus élémentaires. Par exemple, la           iqueje ). Nous pouvons alors suggérer une segmentation
règle esj (féminin pluriel) peut être considérée comme           de la forme {lymphoblastique, lymphoblaste+ique}. On
la composition de ej (féminin) et sj (pluriel). De              obtient par ce moyen 3480 segmentations. Si l'on ob-
même, auxjale est la composition de auxjal (pluriel)              serve par ailleurs que chacune des 1678 familles re-
et ej (féminin).                                                 groupées à la section 5.3 possède au moins une forme
Pour orienter l'examen des règles, nous nous intéres-             minimale, généralement non décomposable, on comp-
sons à la réduction d'une forme en une autre par une              tabilise en tout de l'ordre de 5158 formes sur 8874
règle : la seconde forme doit être de longueur inférieure         (58 %) qui sont soit segmentées, soit ne sont pas dé-
ou égale à la première, ou en cas de longueur égale, la           composables. Les douze premières segmentations (par
seconde doit être antérieure dans l'ordre alphabétique.           ordre alphabétique) sont les suivantes :
Un problème se pose lorsqu'il existe plusieurs chemins
pour réduire une forme. Par exemple, à partir de la              (13) {abdominales, abdominale+s}
forme abdominales, on peut retrouver la forme abdo-                    {abdominale, abdominal+e}
minal par la règle esj ou la forme abdominale par la                  {abdominal, abdomino+al}
règle sj. Un second cas est celui de acantholytique qui               {abdominaux, abdominal+aux}
peut se réduire en acantholyses par la règle tiquejses                 {abeilles, abeille+s}
ou en acantholyse par la règle tiquejse .                              {aberration, aberrante+ation}
Le principe que nous avons adopté consiste à privilé-                  {abondants, abondante+s}
gier la réduction de moindre coût, ce coût étant inspiré               {abrasion, abrasé+ion}
des distances d'édition entre chaînes. Ici, il est calculé             {absence, absent+nce}
comme étant la somme des longueurs des deux suxes                     {absorbées, absorbée+s}

                                                             8
{absorbés, absorbée+s}                                       quement reliées), et on cherche à induire des concepts
      {acantholyses, acantholyse+s}                                (règles morphologiques permettant de passer d'une for-
      {acantholytique, acantholyse+tique}                          me à une autre) qui couvrent ces exemples.
Si de nombreuses formes sont correctement segmen-                  Les caractéristiques particulières de la situation sont
tées, on note encore quelques problèmes. Le couple                 les suivantes. D'une part, les exemples d'apprentissage
{abdomen, abdominal} correspond à une règle qui ne                 sont eux-mêmes appris dans un contexte particulier.
se généralise à aucun autre couple de formes de notre              Ces exemples ne sont pas les exemples parfaits habi-
liste. De ce fait, cette règle est très coûteuse et c'est la       tuellement employés dans les travaux précédents en
forme abdomino qui sert de base à la série abdominal.              apprentissage de règles morphologiques [17, 15] (sec-
Par ailleurs, l'absence dans notre liste de référence de           tion 6). D'autre part, les concepts appris peuvent en-
la forme aberrant empêche d'obtenir la segmentation                tretenir des relations de composition : par exemple,
{aberration, aberrant+ation}. De même pour abondant                la règle de dérivation d'un adjectif masculin singulier
et absorbée.                                                       en adverbe se trouve être la composition d'une règle
                                                                   de formation du féminin (par exemple, je ) et de la
7 Discussion                                                       règle générale jment (normal ! normale ! norma-
                                                                   lement). Cette structure reste à exploiter plus plei-
Les règles et morphèmes candidats obtenus au début                 nement que nous ne l'avons fait jusqu'ici (section 6).
de l'amorçage commencent ainsi à être normalisés et                Enn, les concepts appris peuvent être testés sur une
deviennent plus ables. Leur fusion en une base de                 source complémentaire d'exemples potentiels (liste de
données uniée permettrait de les utiliser conjointe-              formes) : un concept applicable à des exemples hypo-
ment pour une décomposition récursive des mots en                  thétiques supplémentaires augmente sa conance. En
préxes et suxes à la fois. La distinction des mor-               supposant que ces exemples supplémentaires sont cor-
phèmes en trois types de dérivations conduirait à une              rects, nous spécialisons le concept au plus juste sur
analyse sémantique plus ne.                                       l'ensemble des instances qu'il couvre.
La précision obtenue avec la méthode a pu être calcu-
lée grâce à une analyse manuelle. Elle montre que 95 %
de familles morphologiques sont correctes, même si les             8 Conclusion
mots qu'elles contiennent ne sont pas toujours séman-              Les expériences décrites montrent qu'à partir de res-
tiquement homogènes (eet de composition). L'appli-                sources bien choisies, on peut ecacement et auto-
cation de la méthode à une autre langue, qui dispose               matiquement débroussailler la morphologie des mots
déjà d'une base de données morphologique, permet                   d'un domaine donné. La mise au point de règles rela-
d'évaluer le rappel. Le module LVG de l'UMLS [11]                  tionnelles permet de repérer avec un faible taux d'er-
contient des connaissances morphologiques sur une bon-             reur des couples de formes reliées morphologiquement
ne partie du vocabulaire médical anglais. Nous y avons             (bonne précision). D'autre part, le travail sur l'anglais
confronté les résultats obtenus avec notre méthode [6].            a permis de confronter les résultats avec des données
Nous obtenons un rappel de 91,2 % avec les variations              morphologiques disponibles, et de mesurer une bonne
exionnelles et 79,2 % avec les dérivations ; la com-              exhaustivité des couples recensés (rappel de l'ordre
position n'est pas traitée par LVG. Il est dicile de              de 80 % en dérivation et 90 % en exion). L'examen
comparer ce rappel avec certaines autres approches ci-             contrastif d'un grand nombre de formes permet de re-
tées [20, 7] dans la mesure où celles-ci évaluent leurs            censer des préxes ou radicaux fréquents. L'utilisation
résultats dans le cadre d'une utilisation en racinisa-             de ces connaissances pour aller vers une segmentation
tion. Par ailleurs, 58 % des formes considérées sont               eective des formes examinées n'en est encore qu'à un
mises en relation ; et les formes restantes ne doivent             stade préliminaire, mais donne déjà des résultats. En-
pas toutes l'être.                                                 n, les applications entamées sur d'autres langues et
Appliquée au russe, la méthode a montré ses limites                d'autres domaines montrent tout l'intérêt d'une mé-
par exemple dans les cas où l'on a covariation entre               thode automatique sans connaissances linguistiques.
un préxe et un suxe, due entre autres au change-
ment d'aspect de la forme (notre méthode traite la
variation soit du préxe, soit du suxe, mais pas des
                                                                   Remerciements
deux conjointement). L'application de la méthode au                Nous remercions le Dr. Roger A. Côté de nous avoir
thésaurus français Agrovoc (agriculture) permet éga-               gracieusement prêté une copie pré-commerciale de la
lement d'y détecter de nombreux couples de mots et                 version française du Microglossaire de Pathologie SNO-
familles morphologiques ; ils n'ont pas fait pour l'ins-           MED, Yvan Emelin pour une version de travail de la
tant l'objet d'une évaluation.                                     traduction russe du même Microglossaire, Jean Royau-
Le problème abordé est une tâche d'apprentissage à                 té (URI / INIST) pour le thésaurus Agrovoc, et un
partir d'exemples : un ensemble d'exemples d'appren-               relecteur anonyme de la conférence pour sa lecture at-
tissage est donné (des couples de formes morphologi-               tentive et ses remarques constructives.

                                                               9
Références                                                     [12] M. F. Porter.  An Algorithm for Sux Strip-
 [1] G. Burnage. CELEX - A Guide for Users. Ni-                     ping. Program, 14:130137, 1980.
     jmegen: Centre for Lexical Information, Univer-           [13] Max Silberztein. Dictionnaires électroniques
     sity of Nijmegen, 1990.                                        et analyse automatique de textes : le système IN-
 [2] Roger A Côté.  Répertoire d'anatomopathologie                 TEX. Masson, Paris, 1993.
     de la SNOMED internationale, v3.4 . Université           [14] Peter Spyns.  A robust category guesser for
     de Sherbrooke, Sherbrooke, Québec, 1996.                       Dutch Medical language . Dans Proceedings of
 [3] Georgette Dal, Fiametta Namer, et Nabil Ha-                    ANLP 94 (ACL), pages 150155, 1994.
     thout.  Construire un lexique dérivationnel :            [15] Pieter Theron et Ian Cloete.  Automatic
     théorie et réalisations. Dans Pascal Amsili, édi-             Acquisition of Two-Level Morphological Rules .
     teur, Actes de TALN 1999, Cargèse, juillet 1999.               Dans ANLP97, pages 103110, Washington, DC,
                                                                    1997.
 [4] Hervé Déjean.  Morphemes as Necessary
     Concept for Structures Discovery from Untagged            [16] Yannick Toussaint, Fiammetta Namer, Béa-
     Corpora . Dans Workshop on Paradigms and                      trice Daille, Christian Jacquemin, Jean
     Grounding in Natural Language Learning, pages                  Royauté, et Nabil Hathout.  Une approche
     295299, Adelaide, 1998.                                       linguistique et statistique pour l'analyse de
                                                                    l'information en corpus. Dans Pierre Zweigen-
 [5] Natalia Grabar et Pierre Zweigenbaum. Ac-                     baum, éditeur, Actes de TALN 1998, Paris, juin
     quisition automatique de connaissances morpho-                 1998.
     logiques sur le vocabulaire médical. Dans Pascal
     Amsili, éditeur, Actes de TALN 1999, pages 175           [17] Antal van den Bosch, Walter Daelemans, et
     184, Cargèse, juillet 1999.                                    TGon Weijters.  Morphological Analysis as
                                                                    Classication: an Inductive-Learning Approach.
 [6] Natalia Grabar et Pierre Zweigenbaum.                          Dans Jun-Ichi Tsujii, éditeur, Proc 16 th CO-
      Language-independent Automatic Acquisition                   LING, Copenhagen, Denmark, 59 août 1996.
     of Morphological Knowledge from Synonym
     Pairs . J Am Med Inform Assoc, 6(suppl):77              [18] F. Wingert, David Rothwell, et Roger A
     81, 1999.                                                      Côté. Automated Indexing into SNOMED and
                                                                    ICD. Dans Jean Raoul Scherrer, Roger A.
 [7] Christian Jacquemin.  Guessing Morphology                     Côté, et Salah H. Mandil, éditeurs, Compu-
     from Terms and Corpora . Dans Actes, 20th                     terised Natural Medical Language Processing for
     Annual International ACM SIGIR Conference on                   Knowledge Engineering, pages 201239. North-
     Research and Development in Information Retrie-                Holland, Amsterdam, 1989.
     val (SIGIR'97), pages 156167, Philadelphia, PA,
     1997.                                                     [19] Susanne Wolff. Automatic Coding of Medical
                                                                    Vocabulary. Dans Naomi Sager, Carol Fried-
 [8] Kimmo Koskenniemi.  Two-level morphology:                     man, et Margaret S. Lyman, éditeurs, Medi-
     a general computational model for word-form re-                cal Language Processing. Computer Management
     cognition and production . PhD thesis, Univer-                of Narrative Data, Chapitre 7, pages 145162.
     sity of Helsinki Department of General Linguis-                Addison-Wesley, New-York, 1986.
     tics, Helsinki, 1983.
                                                               [20] Jinxi Xu et Bruce W. Croft.  Corpus-
 [9] Christian Lovis, Robert Baud, Anne-Marie                       based stemming using co-occurrence of word va-
     Rassinoux, Pierre-André Michel, et Jean-                       riants. ACM Transactions on Information Sys-
     Raoul Scherrer. Medical Dictionaries for Pa-                  tems, 16(1):6181, 1998.
     tient Encoding Systems: a Methodology . Artif
     Intell Med, 14:201214, 1998.                             [21] Pierre Zweigenbaum et Natalia Grabar.  A
                                                                    Contribution of Medical Terminology to Medical
[10] Alexa T. McCray, S. Srinivasan, et A. C.                       Language Processing Resources: Experiments in
     Browne.  Lexical Methods for Managing Va-                     Morphological Knowledge Acquisition from The-
     riation in Biomedical Terminologies. Dans Proc                sauri . Dans Christopher G. Chute, éditeur,
     Eighteenth Annu Symp Comput Appl Med Care,                     Proc Conference on Natural Language Processing
     pages 235239, Washington, 1994. Mc Graw Hill.                 and Medical Concept Representation, Phoenix,
                                                                    Az, 1999. IMIA WG6.
[11] National Library of Medicine.  UMLS Knowledge
     Sources Manual , 1999.

                                                          10
Vous pouvez aussi lire