Catégorisation de documents PubMed pour l'annotation médicale dans Swiss-Prot

La page est créée Françoise Jacques
 
CONTINUER À LIRE
Catégorisation de documents PubMed pour
l’annotation médicale dans Swiss-Prot

Cyril Goutte* — Pavel Dobrokhotov** — Eric Gaussier* —
Anne-Lise Veuthey**

* Xerox Research Centre Europe
6 chemin de Maupertuis, F-38240 Meylan, France
{Prenom.Nom}@xrce.xerox.com

** Swiss Institute of Bioinformatic
CMU, 1 Michel-Servet, CH-1211 Genève 4, Suisse
{Prenom.Nom}@isb-sib.ch

RÉSUMÉ.   Le but de l'annotation médicale des protéines humaines dans Swiss-Prot est de
procurer aux chercheurs l'ensemble des informations utiles sur les maladies génétiques et
polymorphismes. Dans cette optique, il est nécessaire que les annotateurs aient non
seulement accès à, mais aussi "épluchent", un grand nombre d'articles, afin d'en extraire
l'information pertinente pour l'annotation. Nous avons mis au point une chaîne de traitement
faisant appel à des techniques de traitement automatique des langues et d'apprentissage
automatique pour aider les annotateurs dans leur tâche. Cette chaîne s’articule autour d’un
module de catégorisation qui permet de réordonner les documents de façon à ce que les
articles les plus utiles soient plus facilement accessibles. Les premiers résultats obtenus sont
prometteurs, dans la mesure où ils montrent que, d’une part, tous les documents pertinents
sont reclassés dans les premiers 40% de la liste et, d’autre part, près de 60% des articles
classés en tête de liste sont pertinents (contre 15% seulement sur l’ensemble de la collection).
ABSTRACT. The goal of medical annotation of human proteins in Swiss-Prot is to provide
researchers working on genetic diseases and polymorphisms with all the useful information.
For this purpose, curators must access and search through a vast number of publications, in
order to extract the relevant information. Promising results have been obtained by applying
natural language processing and machine learning techniques for resolution of this problem.
Our solution relies on a categorisation step that re-orders documents such that relevant
articles are easier to access. Our first results show promising results: relevant documents
are returned within the top 40% of the list, and about 60% of articles are relevant in the top
part of the list (while only 15% of documents are relevant overall).
MOTS-CLÉS    : Swiss-Prot, annotation dans des bases de données, filtrage de documents, fouille
de textes.
KEYWORDS:    Swiss-Prot, database annotation, document filtering, text mining.

Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées
2     Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées

1. L’annotation médicale dans Swiss-Prot

    Swiss-Prot (http://www.expasy.org/sprot/) est une base de connaissance de
séquences de protéines qui se propose de procurer un haut niveau d'annotation pour
les protéines référencées [1]. L’annotation médicale est destinée aux chercheurs qui
travaillent sur les polymorphismes et les maladies génétiques humaines et vise à
annoter les changements d'acides aminés de la séquence protéique. Elle présente
plusieurs particularités. Premièrement, cette annotation doit être aussi exhaustive que
possible. Il importe dans un tel processus de ne pas passer à côté d'une information
importante, et donc d'avoir une recherche relativement large des articles a priori
pertinents. Deuxièmement, seulement les mutations faux-sens ou qui ne changent pas
le cadre de lecture sont gardées. Troisièmement, les informations générées doivent
être aussi exactes que possible, ce qui implique la vérification des noms des
mutations, de leurs emplacements dans la séquence et des aminoacides touchés. En
pratique, l’annotation médicale dans Swiss-Prot repose sur la recherche d’articles
pertinents pour une protéine donnée, à partir d’une requête effectuée sur PubMed,1 la
principale base de donnée de résumés d’articles de biologie et de médecine. Chaque
résumé retourné par PubMed est ensuite examiné par l’annotateur et, s'il est jugé
intéressant, l'article correspondant est récupéré puis inspecté afin d'en extraire les
informations nécessaires à la mise à jour de la base de données. Le travers de cette
approche est le temps passé à filtrer les informations non pertinentes. Pour pallier ce
problème, nous avons mis en place une chaîne de traitement, faisant appel à des
techniques de traitement automatique des langues et des techniques d'analyse de
données. Afin de faciliter la tache des annotateurs tout en répondant au besoin
d’exhaustivité de l’annotation médicale, nous proposons un reclassement des
résumés retournés par PubMed qui tend à rassembler les articles pertinents en tête de
liste. Ce reclassement repose sur un traitement linguistique des résumés, suivi de
l’utilisation d’un classifieur probabiliste qui identifie les documents pertinents. De
plus, afin de faciliter le travail d’annotation, les attributs biologiques utiles à
l'annotation sont mis en évidence dans les résumés. Dans cet article, nous nous
intéressons tout particulièrement à l’utilisation des informations structurelles
contenues dans les résultats issus de PubMed, et à leur influence sur les performance
du système d’aide à l’annotation.

2. Requêtes PubMed et données expérimentales

    Les requêtes effectuées sur PubMed par les annotateurs peuvent être résumées
sous la forme générique: « NOM_DU_GENE AND (mutation OR mutations OR
variant OR variants OR polymorphism OR polymorphisms)». Une interface
graphique dédiée à été développée afin d'aider les annotateurs à effectuer ces
requêtes. En résultat, l'annotateur reçoit une liste de documents classés par ordre

1
    http://www.PubMed.org
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot     3

    Morpho-             Disambiguation                                  Lemmatisation
    Syntactic                &                       Filtering               &
    Analysis             Normalisation                                    Counting
 Finite state            Biological terms       POS filter/              Extract
 -Normalisation          Gene synonyms              -
                                                stopword    filter       Lemmas
 -Tokenisation           Gene norm.                 - filter
                                                Length                   (Bigrams)
 -Morphology             Point mutations        Form- filter             (Journal name)
 -HMM tagging            Numbers                                         Freq. counting

Figure 1: Pré-traitement linguistique et extraction d’attributs

d’identifiant PubMed, comprenant titre, résumé, noms des auteurs, date et source de
publication. Ces résultats sont retournés par PubMed en format XML, structurés en
3 champs principaux : titre, corps du résumé, et source (typiquement journal d'où est
tiré le résumé). Le champ « auteur » a par ailleurs été jugé trop variable pour être
utilisé avec profit. Parmi ces informations, les titre et corps du résumé sont ensuite
analysés suivant des processus standard de traitement automatique des langues, que
nous détaillons ci-après.
    Afin de constituer un corpus de référence utilisable pour l’apprentissage du
système, 32 gènes humains ont été sélectionnés sur une liste de gènes à annoter. En
utilisant la requête décrite au point précédent pour chaque gène, 2188 résumés ont
été récupérés (de 2 et 258 suivant les gènes). Les annotateurs ont ensuite
manuellement affecté chaque résumé à l’une des trois catégories suivantes :
« pertinent » (article pertinent pour l'annotation), « non pertinent » (article non
pertinent pour l'annotation), et « indécidable » (l'information retournée ne permet pas
de conclure, par exemple titre seul). Environ 70% des documents sont jugés « non
pertinent », et les deux autres catégories contiennent chacune environ 15% des
documents retournés.        Cependant, selon le gène, la proportion de documents
« pertinents » varie de 1 à 82%. Ces chiffres reflètent bien la variabilité rencontrée
par les annotateurs dans leur travail.

3. Pré-traitements linguistiques

La figure 1 ci-dessus décrit l’ensemble de la chaîne de pré-traitement linguistique
appliquée aux documents. On effectue tout d’abord une analyse morpho-syntaxique,
jusqu'à la lemmatisation [3]. Vient ensuite une étape de désambiguïsation qui a pour
but de déterminer si un mot appartient au domaine biologique. Pour ce faire, nous
utilisons l'heuristique suivante : la lecture biologique a priorité sur les autres, suivie
par la lecture générale, puis la lecture "abréviation". Bien que simplificatrices, ces
décisions se sont révélées acceptables pour la suite du traitement. Dans l'étape de
normalisation, les noms des gènes et protéines sont ramenés sous une forme
canonique, ce qui permet de traiter les variantes synonymiques. Toutes les
occurrences du gène de la requête sont remplacées par le terme générique
4     Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées

« gene_req ». Les mutations, identifiées dans le texte par le patron AaaNBbb (où Aaa
et Bbb sont les codes IUPAC-IUB2 des acides aminées, et N est un entier), sont
remplacées par « point_mutation ». Enfin, tous les chiffres ne faisant pas partie d'un
mot sont remplacés par la forme générique « num ».
   Nous effectuons alors une extraction 1) des lemmes, filtrés en fonction de leur
partie du discours afin d'éliminer tous les mots vides (les mots de moins de 3
caractères ou sans caractères alphabétiques sont également supprimés); 2) du nom du
journal d’ou provient l’article, et 3) des termes composés de longueur 2, à partir
d’expressions régulières (séquences Nom Nom ou Adjectif Nom). La fréquence des
lemmes, obtenue par simple comptage, constitue l’index simple (IS), celle des termes
composés constitue l’index composé (IC).

4. Catégorisation de documents

    Comme nous l'avons signalé, nous souhaitons ici fournir aux annotateurs un
classement des documents retournés par PubMed, en fonction de leur pertinence
pour l'annotation médicale. Lorsqu'il parcourt les résumés, un annotateur essaye de
juger rapidement si la requête qu'il a formulée était correcte ou non. Même s'il vise à
une certaine exhaustivité, le travail d'annotation a ses propres contraintes de temps,
et il importe que l'annotateur puisse évaluer le plus rapidement possible la qualité de
sa requête. Afin de répondre à ces diverses exigences, nous avons décidé de ne pas
opérer un filtrage des documents (filtrage qui aurait pu conduire à éliminer des
documents pertinents) mais de se concentrer plutôt sur un reclassement. Nous visons
donc à promouvoir les documents pertinents en tête de liste, les documents
indécidables en milieu de liste, et les non pertinents en queue de liste. Nous allons
maintenant présenter les modèles que nous avons retenus pour cette tâche. Nous
présenterons ensuite la méthode utilisée pour l'estimation des attributs importants.

4.1. Le modèle probabiliste

    Nous avons retenu le modèle PLC (Probabilistic Latent Categorizer) décrit dans
[4], une extension, à la catégorisation, du modèle PLSA (Probabilistic Latent
Semantic Analysis, [5]). Nous modélisons une collection de documents comme une
série de co-occurrences de termes t dans des documents d. La probabilité de (t, d )
est donnée par un modèle de mélange à N classes α , sous l’hypothèse que t et d sont
indépendants conditionnellement à la classe:

                                                                   N
                                                    P(t , d ) =   ∑ P(α )P(d α )P(t α )   (1)
                                                                  α =1

2
    http://www.chem.qmul.ac.uk/iupac/AminoAcid/
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot   5

Les paramètres de ce modèle sont: P(α ) , la probabilité de chaque classe, P(d α ) ,
la probabilité qu'un document d appartienne à α , et P(t α ) , la probabilité de
générer le terme t depuis cette classe. Ces paramètres sont estimés à partir des
fréquences empiriques par une approche du maximum de vraisemblance. Afin
d'affecter un nouveau document d new à une classe, nous utilisons la probabilité a
posteriori P(α d new ) ∝ P(d new α )P(α ) , où P(d new α ) est encore une fois estimée
par maximum de vraisemblance, mais cette fois via l'algorithme EM [2].
   Dans la mesure où la classe « indécidable » de la collection de travail peut être
vue et utilisée de différentes façons, nous avons entraîné plusieurs modèles,
correspondant à différents usages de l'information indécidable:
    •    Un modèle à trois classes : « pertinent », « indécidable » et « non pertinent »
    •    Un modèle binaire « pertinent » contre « indécidable ou non pertinent »,
         privilégiant la précision. Les probabilités d’affectation à chacune des deux
         classes sont notées respectivement Pp et Pin.
    •    Un modèle binaire « pertinent ou indécidable » contre « non pertinent »,
         privilégiant le rappel. Les probabilités d’affectation à chacune des deux
         classes sont notées respectivement Ppi et Pn.
    Nous pouvons finalement rendre compte du reclassement des documents en
fonction de leur pertinence pour l'annotation, soit en utilisant directement le modèle
à trois classes, soit en utilisant les modèles binaires en cascade :
    1.   si Ppi < Pn, affectation à « non pertinent » (avec le score Pn),
    2.   sinon, si Pp > Pin, affectation à « pertinent » (avec le score Pp),
    3.   sinon, affectation à « indécidable » (avec le score Pp),
   Cette stratégie assure une précision importante dans les zones « pertinent » et
« non pertinent » (tête et queue de liste) pour les documents correspondant, et un
rappel important pour les documents pertinents sur les deux premières zones.
    Dans le cadre de ce travail, les informations structurelles, par exemple le nom du
journal, correspondent à des termes supplémentaires. Nous souhaitons donc évaluer
l’influence de l’inclusion de ces termes sur les performances.

4.2. Estimation des attributs importants

   Afin d’aider le travail des annotateurs, nous souhaitons aussi mettre en avant les
mots du texte qui peuvent potentiellement aider à déterminer la pertinence du
résumé. Dans la mesure où le modèle probabiliste nous donne accès à la probabilité
de générer un mot à partir d'une classe, il est possible d'utiliser des mesures standard
de la théorie de l'information pour déterminer quels sont les termes pour lesquels les
6   Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées

distributions des classes diffèrent. La différence entre deux distributions P(t|α0) et
P(t|α1) peut être calculée par la divergence symétrique de Kullback-Leibler :

                                                                         P(t | α 0 ) 
                     D(α 0 , α 1 ) = ∑ (P(t | α 0 ) − P(t | α 1 ) ) log                 (2)
                                     t 14444442444                      P (t | α 1 ) 
                                                                          444      3
                                                               εt

D(α0,α1)=0 si et seulement si P(t|α0) et P(t|α1) sont identiques. Ainsi, la façon dont
un terme différencie les classes α1 et α 0 peut s'estimer par sa contribution ε t à la
divergence de Kullback-Leibler. Dans le cadre de ce travail, plus ε t est important,
plus le terme t différencie par exemple les documents pertinents et non pertinents.

5. Résultats expérimentaux

    Nous allons maintenant présenter les mesures d'évaluation retenues et les
principaux résultats expérimentaux que nous avons obtenus.

5.1. Évaluation

   Afin de fournir une évaluation non biaisée de nos résultats, nous avons séparé
notre collection en 5 blocs, et utilisé une validation croisée [7]. Le découpage en
blocs a été effectué sur la base du nombre de gènes dans chaque bloc (6 ou 7). La
grande variabilité dans le nombre de documents par gène conduit bien évidemment à
des tailles fort différentes des blocs (de 364 à 609 documents). La proportion de
documents pertinents et non pertinents reste cependant à peu près constante d'un
bloc à l'autre (de 8 à 20% de pertinents et de 65 à 77% de non pertinents).
   Nous avons utilisé les mesures d'évaluation de la Recherche d'Information (RI) :
précision, rappel et F-score, ainsi que les courbes moyennes de précision-rappel. La
précision est le rapport du nombre de documents pertinents correctement identifiés
pertinents (vrais positifs TP) sur le nombre total de documents identifiés comme
pertinents (TP plus faux positifs FP); le rappel est le rapport du nombre de vrai
positifs sur le nombre total de documents pertinents (TP plus faux négatifs FN). Le
F-score est la moyenne harmonique (pondérée) entre précision et rappel :

                      p=
                             TP
                                   , r=
                                          TP           1 + β 2 pr
                                                et Fβ = 2
                                                                        (        )         (3)
                           TP + FP      TP + FN         β p+r

   Comme la plupart des méthodes de RI, notre classement fournit une liste
ordonnée de documents, dans laquelle nous espérons avoir les documents pertinents
en tête et les documents non pertinents en queue. Pour évaluer cette liste, nous
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot   7

                            Modèle en cascade
                                                                Baseline
                                  IS+J
       Classe:           β   p      r      Fβ              p     r    Fβ
       pertinent         ½ 58.89 69.28 60.71             57.31 65.36 58.75
       pertinent    +
                      2 48.95         83.99     73.47    52.67 74.18 68.58
       indécidable
       non pertinent ½ 96.26          82.46     93.14    94.37 86.65 92.72

Table 1: Résultats de catégorisation pour le meilleur modèle et la « baseline »

calculons la précision à divers points de rappel, i.e. pour 10%, 20%,… 100% des
documents pertinents retrouvés. Ceci conduit à la courbe de « précision-rappel ».

5.2. Résultats

    Nous avons tout d'abord évalué individuellement chaque classifieur dans les
différentes classes d'intérêt. La table 1 montre les résultats obtenus pour un modèle
binaire en cascade en utilisant des index simples et le nom de journal et pour un
modèle n’utilisant ni traitement linguistique ni information structurelle (« baseline »).
Le gain en performance obtenu en incluant traitement linguistique et journal est
particulièrement net en terme de rappel sur les documents pertinents, et en précision
pour les documents non pertinents. Nous observons ici que près de 60% (58.89%)
des documents retournés dans la zone « pertinent » le sont effectivement, à comparer
avec une proportion de 15% sur l’ensemble du corpus. De plus, près de 84% de la
totalité des documents pertinents sont retournés dans l’une des deux premières
zones. Dans la figure 2 nous montrons quelques courbes « précision-rappel ». A
gauche, notre système (PLC), comparé au classement issu de PubMed, ainsi qu’au
reclassement issu de catégoriseurs SVM [6]. Nous voyons que PLC conduit à des
résultats très supérieurs au classement par défaut issu de PubMed. Par rapport aux
SVM, qui sont une des techniques les plus performantes en catégorisation de texte,
les performances sont similaires, avec un léger avantage pour PLC aux niveaux
élevés du rappel, qui sont ceux qui nous intéressent. A droite sur la figure 2, nous
présentons les courbes correspondant a plusieurs pré-traitements, structures de
classifieur (2 ou 3 classes) et attributs (avec ou sans termes composés). Les meilleurs
résultats correspondent au modèle utilisant l’index simple et le nom du journal, dont
les résultats sont présentés table 1. Nous avons de plus estimé qu’en moyenne, la
totalité des documents pertinents est obtenue dans les premier 40% de la liste. Ces
résultats, et en particulier la comparaison avec le classement de PubMed, mesurent
l'apport potentiel de notre méthode dans le travail d'annotation. Une évaluation
grandeur nature doit être mise en place prochainement.
    L’un des buts de notre travail est d’évaluer l’influence de la prise en compte
d’information structurelle comme le nom du journal d’où provient l’article. La figure
8   Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées

Figure 2: Courbes précision-rappel pour PLC, PubMed et SVM.

Figure 3 : Effet de la prise en compte du nom du journal

3 présente une comparaison des résultats obtenus dans ce cadre. A gauche, nous
voyons que pour la mesure F2 (qui privilégie le rappel sur les documents
pertinents), la prise en compte de la source produit un effet consistant, mais de très
faible amplitude. A droite, nous observons le même effet sur la mesure F.5 calculée
sur les documents non pertinents (afin de privilégier la précision sur ces documents).
    Les mots les plus importants pour chacun des deux classifieurs binaires utilisés
en cascade ont été estimés à partir de la formule (2). Les 10 mots les plus importants
pour chaque classifieur sont présentés dans la table 2. On constate que de nombreux
termes sont présents dans les deux listes, comme par exemple ceux qui ont trait aux
mutations. Il est intéressant de noter que le nom du gène à annoter « gene_req »
constitue un facteur discriminant pour écarter les résumés non pertinents de ceux qui
le sont peut-être (colonne de gauche), mais il est beaucoup moins utile pour séparer
les articles pertinents des indécidables (colonne de droite). Dans ce dernier cas,
« gene_req » apparaît bien dans la liste, mais à un rang plus éloigné. Afin de valider
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot    9

                                      Classifieurs
             « pertinent ou indécidable »          « pertinent » contre
               contre « non pertinent »       « indécidable ou non pertinent »
         mutation                           point_mutation
         point_mutation                     mutation
         patient                            missense_mutation
         family                             exon
         missense_mutation                  num
         num                               family
         gene_req                          patient
         exon                              carrier
         disease                            FH
         carrier                           substitution

Table 2: Mots importants pour deux classifieurs binaires
ces listes de termes importants, celles-ci ont été présentées aux annotateurs, qui ont
confirmé qu’il s’agissait bien de termes qu’eux-mêmes utilisent afin de sélectionner
les articles utiles à l’annotation médicale dans Swiss-Prot.
   En résumant les différents résultats obtenus nous constatons que :
    1.     Deux classifieurs en cascade sont légèrement plus performants qu'un
           classifieur à trois classes, particulièrement en précision sur les « pertinent ».
    2.     Les pré-traitements linguistiques produisent une amélioration faible mais
           mesurable (1 à 2%).
    3.     L’utilisation d’information structurelle comme le nom de la source produit
           une amélioration encore plus faible mais toujours consistante.
    4.     Les index composés n'améliorent pas les résultats.
    5.     La combinaison des traitements linguistique et information structurelle
           améliore significativement les résultats.

6. Conclusion et perspectives

    En utilisant un classifieur probabiliste, nous sommes parvenus à traiter les
résultats de requêtes PubMed de telle sorte que les articles les plus pertinents pour
l'annotation médicale dans Swiss-Prot soient présentés de manière préférentielle aux
annotateurs. Nous avons constaté une forte amélioration par rapport aux retours
bruts des requêtes PubMed. Les performances sont encore accrues par plusieurs
facteurs. Parmi ceux-ci, les traitements linguistiques, et la prise en compte
d'informations structurées retournées par PubMed, en particulier les informations
10   Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées

liées à la source de chaque publication. Nous pensons qu'il est possible d'améliorer
encore ces résultats, en étudiant par exemple la pondération des différentes sources
d'information (titre, journal, texte du résumé, …).
   Enfin, cette chaîne de traitement va être intégrée prochainement à l'interface
graphique qui permet aux annotateurs de SWIIS-PROT d'interroger PubMed.

Remerciements

    Projet Sibelius (INRIA/ISB) pour le financement du séjour de Pavel
Dobrokhotov à XRCE; L. Famiglietti, R. Gatto et A. Gos pour la constitution et
classification de corpus des documents.

Bibliographie

[1] Boeckmann B, Bairoch A, Apweiler R, Blatter MC, O'Donovan C, Estreicher A, Gasteiger
    E, Martin MJ, Michoud K, Phan I, Pilbout S, Schneider M. The Swiss-Prot protein
    sequence database and its supplement TrEMBL in 2003. Nucleic Acids Res 2003;31:in
    press.
[2] Dempster AP, Laird NM, Rubin DB. Maximum Likelihood from Incomplete Data via the
    EM Algorithm. Journal of the Royal Statistical Society, Series B, 1977; 39(1): 1-38.
[3] Hagège C, Sándor Á, Schiller A. Linguistic Processing of Biomedical Texts. Proceedings
    of PorTAL 2002, Portugal for Natural Language processing, 2002.
[4] Gaussier E, Goutte C, Popat K, Chen F. A hierarchical model for clustering and
    categorising documents. Advances in Information Retrieval – Proc. 24th BCS-IRSG
    European Colloquium on IR Research. Berlin: Springer, 2002; Lecture Notes in
    Computer Science 2291; pp. 229-247.
[5] Hoffman T. Probabilistic Latent Semantic Analysis. Proc. 15th Conf. Uncertainty in
    Artificial Intelligence. Morgan Kaufmann, 1999; pp. 289-296.
[6] Joachims, T. Making large-Scale SVM Learning Practical. Advances in Kernel Methods -
    Support Vector Learning, B. Schölkopf, C. Burges and A. Smola (eds.), MIT-Press, 1999.
[7] Stone M. Cross-validatory choice and assessment of statistical predictions. Journal of the
    Royal Statistical Society, Series B, 1974; 36:111-147.
Vous pouvez aussi lire