Catégorisation de documents PubMed pour l'annotation médicale dans Swiss-Prot
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Catégorisation de documents PubMed pour l’annotation médicale dans Swiss-Prot Cyril Goutte* — Pavel Dobrokhotov** — Eric Gaussier* — Anne-Lise Veuthey** * Xerox Research Centre Europe 6 chemin de Maupertuis, F-38240 Meylan, France {Prenom.Nom}@xrce.xerox.com ** Swiss Institute of Bioinformatic CMU, 1 Michel-Servet, CH-1211 Genève 4, Suisse {Prenom.Nom}@isb-sib.ch RÉSUMÉ. Le but de l'annotation médicale des protéines humaines dans Swiss-Prot est de procurer aux chercheurs l'ensemble des informations utiles sur les maladies génétiques et polymorphismes. Dans cette optique, il est nécessaire que les annotateurs aient non seulement accès à, mais aussi "épluchent", un grand nombre d'articles, afin d'en extraire l'information pertinente pour l'annotation. Nous avons mis au point une chaîne de traitement faisant appel à des techniques de traitement automatique des langues et d'apprentissage automatique pour aider les annotateurs dans leur tâche. Cette chaîne s’articule autour d’un module de catégorisation qui permet de réordonner les documents de façon à ce que les articles les plus utiles soient plus facilement accessibles. Les premiers résultats obtenus sont prometteurs, dans la mesure où ils montrent que, d’une part, tous les documents pertinents sont reclassés dans les premiers 40% de la liste et, d’autre part, près de 60% des articles classés en tête de liste sont pertinents (contre 15% seulement sur l’ensemble de la collection). ABSTRACT. The goal of medical annotation of human proteins in Swiss-Prot is to provide researchers working on genetic diseases and polymorphisms with all the useful information. For this purpose, curators must access and search through a vast number of publications, in order to extract the relevant information. Promising results have been obtained by applying natural language processing and machine learning techniques for resolution of this problem. Our solution relies on a categorisation step that re-orders documents such that relevant articles are easier to access. Our first results show promising results: relevant documents are returned within the top 40% of the list, and about 60% of articles are relevant in the top part of the list (while only 15% of documents are relevant overall). MOTS-CLÉS : Swiss-Prot, annotation dans des bases de données, filtrage de documents, fouille de textes. KEYWORDS: Swiss-Prot, database annotation, document filtering, text mining. Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées
2 Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées 1. L’annotation médicale dans Swiss-Prot Swiss-Prot (http://www.expasy.org/sprot/) est une base de connaissance de séquences de protéines qui se propose de procurer un haut niveau d'annotation pour les protéines référencées [1]. L’annotation médicale est destinée aux chercheurs qui travaillent sur les polymorphismes et les maladies génétiques humaines et vise à annoter les changements d'acides aminés de la séquence protéique. Elle présente plusieurs particularités. Premièrement, cette annotation doit être aussi exhaustive que possible. Il importe dans un tel processus de ne pas passer à côté d'une information importante, et donc d'avoir une recherche relativement large des articles a priori pertinents. Deuxièmement, seulement les mutations faux-sens ou qui ne changent pas le cadre de lecture sont gardées. Troisièmement, les informations générées doivent être aussi exactes que possible, ce qui implique la vérification des noms des mutations, de leurs emplacements dans la séquence et des aminoacides touchés. En pratique, l’annotation médicale dans Swiss-Prot repose sur la recherche d’articles pertinents pour une protéine donnée, à partir d’une requête effectuée sur PubMed,1 la principale base de donnée de résumés d’articles de biologie et de médecine. Chaque résumé retourné par PubMed est ensuite examiné par l’annotateur et, s'il est jugé intéressant, l'article correspondant est récupéré puis inspecté afin d'en extraire les informations nécessaires à la mise à jour de la base de données. Le travers de cette approche est le temps passé à filtrer les informations non pertinentes. Pour pallier ce problème, nous avons mis en place une chaîne de traitement, faisant appel à des techniques de traitement automatique des langues et des techniques d'analyse de données. Afin de faciliter la tache des annotateurs tout en répondant au besoin d’exhaustivité de l’annotation médicale, nous proposons un reclassement des résumés retournés par PubMed qui tend à rassembler les articles pertinents en tête de liste. Ce reclassement repose sur un traitement linguistique des résumés, suivi de l’utilisation d’un classifieur probabiliste qui identifie les documents pertinents. De plus, afin de faciliter le travail d’annotation, les attributs biologiques utiles à l'annotation sont mis en évidence dans les résumés. Dans cet article, nous nous intéressons tout particulièrement à l’utilisation des informations structurelles contenues dans les résultats issus de PubMed, et à leur influence sur les performance du système d’aide à l’annotation. 2. Requêtes PubMed et données expérimentales Les requêtes effectuées sur PubMed par les annotateurs peuvent être résumées sous la forme générique: « NOM_DU_GENE AND (mutation OR mutations OR variant OR variants OR polymorphism OR polymorphisms)». Une interface graphique dédiée à été développée afin d'aider les annotateurs à effectuer ces requêtes. En résultat, l'annotateur reçoit une liste de documents classés par ordre 1 http://www.PubMed.org
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot 3 Morpho- Disambiguation Lemmatisation Syntactic & Filtering & Analysis Normalisation Counting Finite state Biological terms POS filter/ Extract -Normalisation Gene synonyms - stopword filter Lemmas -Tokenisation Gene norm. - filter Length (Bigrams) -Morphology Point mutations Form- filter (Journal name) -HMM tagging Numbers Freq. counting Figure 1: Pré-traitement linguistique et extraction d’attributs d’identifiant PubMed, comprenant titre, résumé, noms des auteurs, date et source de publication. Ces résultats sont retournés par PubMed en format XML, structurés en 3 champs principaux : titre, corps du résumé, et source (typiquement journal d'où est tiré le résumé). Le champ « auteur » a par ailleurs été jugé trop variable pour être utilisé avec profit. Parmi ces informations, les titre et corps du résumé sont ensuite analysés suivant des processus standard de traitement automatique des langues, que nous détaillons ci-après. Afin de constituer un corpus de référence utilisable pour l’apprentissage du système, 32 gènes humains ont été sélectionnés sur une liste de gènes à annoter. En utilisant la requête décrite au point précédent pour chaque gène, 2188 résumés ont été récupérés (de 2 et 258 suivant les gènes). Les annotateurs ont ensuite manuellement affecté chaque résumé à l’une des trois catégories suivantes : « pertinent » (article pertinent pour l'annotation), « non pertinent » (article non pertinent pour l'annotation), et « indécidable » (l'information retournée ne permet pas de conclure, par exemple titre seul). Environ 70% des documents sont jugés « non pertinent », et les deux autres catégories contiennent chacune environ 15% des documents retournés. Cependant, selon le gène, la proportion de documents « pertinents » varie de 1 à 82%. Ces chiffres reflètent bien la variabilité rencontrée par les annotateurs dans leur travail. 3. Pré-traitements linguistiques La figure 1 ci-dessus décrit l’ensemble de la chaîne de pré-traitement linguistique appliquée aux documents. On effectue tout d’abord une analyse morpho-syntaxique, jusqu'à la lemmatisation [3]. Vient ensuite une étape de désambiguïsation qui a pour but de déterminer si un mot appartient au domaine biologique. Pour ce faire, nous utilisons l'heuristique suivante : la lecture biologique a priorité sur les autres, suivie par la lecture générale, puis la lecture "abréviation". Bien que simplificatrices, ces décisions se sont révélées acceptables pour la suite du traitement. Dans l'étape de normalisation, les noms des gènes et protéines sont ramenés sous une forme canonique, ce qui permet de traiter les variantes synonymiques. Toutes les occurrences du gène de la requête sont remplacées par le terme générique
4 Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées « gene_req ». Les mutations, identifiées dans le texte par le patron AaaNBbb (où Aaa et Bbb sont les codes IUPAC-IUB2 des acides aminées, et N est un entier), sont remplacées par « point_mutation ». Enfin, tous les chiffres ne faisant pas partie d'un mot sont remplacés par la forme générique « num ». Nous effectuons alors une extraction 1) des lemmes, filtrés en fonction de leur partie du discours afin d'éliminer tous les mots vides (les mots de moins de 3 caractères ou sans caractères alphabétiques sont également supprimés); 2) du nom du journal d’ou provient l’article, et 3) des termes composés de longueur 2, à partir d’expressions régulières (séquences Nom Nom ou Adjectif Nom). La fréquence des lemmes, obtenue par simple comptage, constitue l’index simple (IS), celle des termes composés constitue l’index composé (IC). 4. Catégorisation de documents Comme nous l'avons signalé, nous souhaitons ici fournir aux annotateurs un classement des documents retournés par PubMed, en fonction de leur pertinence pour l'annotation médicale. Lorsqu'il parcourt les résumés, un annotateur essaye de juger rapidement si la requête qu'il a formulée était correcte ou non. Même s'il vise à une certaine exhaustivité, le travail d'annotation a ses propres contraintes de temps, et il importe que l'annotateur puisse évaluer le plus rapidement possible la qualité de sa requête. Afin de répondre à ces diverses exigences, nous avons décidé de ne pas opérer un filtrage des documents (filtrage qui aurait pu conduire à éliminer des documents pertinents) mais de se concentrer plutôt sur un reclassement. Nous visons donc à promouvoir les documents pertinents en tête de liste, les documents indécidables en milieu de liste, et les non pertinents en queue de liste. Nous allons maintenant présenter les modèles que nous avons retenus pour cette tâche. Nous présenterons ensuite la méthode utilisée pour l'estimation des attributs importants. 4.1. Le modèle probabiliste Nous avons retenu le modèle PLC (Probabilistic Latent Categorizer) décrit dans [4], une extension, à la catégorisation, du modèle PLSA (Probabilistic Latent Semantic Analysis, [5]). Nous modélisons une collection de documents comme une série de co-occurrences de termes t dans des documents d. La probabilité de (t, d ) est donnée par un modèle de mélange à N classes α , sous l’hypothèse que t et d sont indépendants conditionnellement à la classe: N P(t , d ) = ∑ P(α )P(d α )P(t α ) (1) α =1 2 http://www.chem.qmul.ac.uk/iupac/AminoAcid/
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot 5 Les paramètres de ce modèle sont: P(α ) , la probabilité de chaque classe, P(d α ) , la probabilité qu'un document d appartienne à α , et P(t α ) , la probabilité de générer le terme t depuis cette classe. Ces paramètres sont estimés à partir des fréquences empiriques par une approche du maximum de vraisemblance. Afin d'affecter un nouveau document d new à une classe, nous utilisons la probabilité a posteriori P(α d new ) ∝ P(d new α )P(α ) , où P(d new α ) est encore une fois estimée par maximum de vraisemblance, mais cette fois via l'algorithme EM [2]. Dans la mesure où la classe « indécidable » de la collection de travail peut être vue et utilisée de différentes façons, nous avons entraîné plusieurs modèles, correspondant à différents usages de l'information indécidable: • Un modèle à trois classes : « pertinent », « indécidable » et « non pertinent » • Un modèle binaire « pertinent » contre « indécidable ou non pertinent », privilégiant la précision. Les probabilités d’affectation à chacune des deux classes sont notées respectivement Pp et Pin. • Un modèle binaire « pertinent ou indécidable » contre « non pertinent », privilégiant le rappel. Les probabilités d’affectation à chacune des deux classes sont notées respectivement Ppi et Pn. Nous pouvons finalement rendre compte du reclassement des documents en fonction de leur pertinence pour l'annotation, soit en utilisant directement le modèle à trois classes, soit en utilisant les modèles binaires en cascade : 1. si Ppi < Pn, affectation à « non pertinent » (avec le score Pn), 2. sinon, si Pp > Pin, affectation à « pertinent » (avec le score Pp), 3. sinon, affectation à « indécidable » (avec le score Pp), Cette stratégie assure une précision importante dans les zones « pertinent » et « non pertinent » (tête et queue de liste) pour les documents correspondant, et un rappel important pour les documents pertinents sur les deux premières zones. Dans le cadre de ce travail, les informations structurelles, par exemple le nom du journal, correspondent à des termes supplémentaires. Nous souhaitons donc évaluer l’influence de l’inclusion de ces termes sur les performances. 4.2. Estimation des attributs importants Afin d’aider le travail des annotateurs, nous souhaitons aussi mettre en avant les mots du texte qui peuvent potentiellement aider à déterminer la pertinence du résumé. Dans la mesure où le modèle probabiliste nous donne accès à la probabilité de générer un mot à partir d'une classe, il est possible d'utiliser des mesures standard de la théorie de l'information pour déterminer quels sont les termes pour lesquels les
6 Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées distributions des classes diffèrent. La différence entre deux distributions P(t|α0) et P(t|α1) peut être calculée par la divergence symétrique de Kullback-Leibler : P(t | α 0 ) D(α 0 , α 1 ) = ∑ (P(t | α 0 ) − P(t | α 1 ) ) log (2) t 14444442444 P (t | α 1 ) 444 3 εt D(α0,α1)=0 si et seulement si P(t|α0) et P(t|α1) sont identiques. Ainsi, la façon dont un terme différencie les classes α1 et α 0 peut s'estimer par sa contribution ε t à la divergence de Kullback-Leibler. Dans le cadre de ce travail, plus ε t est important, plus le terme t différencie par exemple les documents pertinents et non pertinents. 5. Résultats expérimentaux Nous allons maintenant présenter les mesures d'évaluation retenues et les principaux résultats expérimentaux que nous avons obtenus. 5.1. Évaluation Afin de fournir une évaluation non biaisée de nos résultats, nous avons séparé notre collection en 5 blocs, et utilisé une validation croisée [7]. Le découpage en blocs a été effectué sur la base du nombre de gènes dans chaque bloc (6 ou 7). La grande variabilité dans le nombre de documents par gène conduit bien évidemment à des tailles fort différentes des blocs (de 364 à 609 documents). La proportion de documents pertinents et non pertinents reste cependant à peu près constante d'un bloc à l'autre (de 8 à 20% de pertinents et de 65 à 77% de non pertinents). Nous avons utilisé les mesures d'évaluation de la Recherche d'Information (RI) : précision, rappel et F-score, ainsi que les courbes moyennes de précision-rappel. La précision est le rapport du nombre de documents pertinents correctement identifiés pertinents (vrais positifs TP) sur le nombre total de documents identifiés comme pertinents (TP plus faux positifs FP); le rappel est le rapport du nombre de vrai positifs sur le nombre total de documents pertinents (TP plus faux négatifs FN). Le F-score est la moyenne harmonique (pondérée) entre précision et rappel : p= TP , r= TP 1 + β 2 pr et Fβ = 2 ( ) (3) TP + FP TP + FN β p+r Comme la plupart des méthodes de RI, notre classement fournit une liste ordonnée de documents, dans laquelle nous espérons avoir les documents pertinents en tête et les documents non pertinents en queue. Pour évaluer cette liste, nous
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot 7 Modèle en cascade Baseline IS+J Classe: β p r Fβ p r Fβ pertinent ½ 58.89 69.28 60.71 57.31 65.36 58.75 pertinent + 2 48.95 83.99 73.47 52.67 74.18 68.58 indécidable non pertinent ½ 96.26 82.46 93.14 94.37 86.65 92.72 Table 1: Résultats de catégorisation pour le meilleur modèle et la « baseline » calculons la précision à divers points de rappel, i.e. pour 10%, 20%,… 100% des documents pertinents retrouvés. Ceci conduit à la courbe de « précision-rappel ». 5.2. Résultats Nous avons tout d'abord évalué individuellement chaque classifieur dans les différentes classes d'intérêt. La table 1 montre les résultats obtenus pour un modèle binaire en cascade en utilisant des index simples et le nom de journal et pour un modèle n’utilisant ni traitement linguistique ni information structurelle (« baseline »). Le gain en performance obtenu en incluant traitement linguistique et journal est particulièrement net en terme de rappel sur les documents pertinents, et en précision pour les documents non pertinents. Nous observons ici que près de 60% (58.89%) des documents retournés dans la zone « pertinent » le sont effectivement, à comparer avec une proportion de 15% sur l’ensemble du corpus. De plus, près de 84% de la totalité des documents pertinents sont retournés dans l’une des deux premières zones. Dans la figure 2 nous montrons quelques courbes « précision-rappel ». A gauche, notre système (PLC), comparé au classement issu de PubMed, ainsi qu’au reclassement issu de catégoriseurs SVM [6]. Nous voyons que PLC conduit à des résultats très supérieurs au classement par défaut issu de PubMed. Par rapport aux SVM, qui sont une des techniques les plus performantes en catégorisation de texte, les performances sont similaires, avec un léger avantage pour PLC aux niveaux élevés du rappel, qui sont ceux qui nous intéressent. A droite sur la figure 2, nous présentons les courbes correspondant a plusieurs pré-traitements, structures de classifieur (2 ou 3 classes) et attributs (avec ou sans termes composés). Les meilleurs résultats correspondent au modèle utilisant l’index simple et le nom du journal, dont les résultats sont présentés table 1. Nous avons de plus estimé qu’en moyenne, la totalité des documents pertinents est obtenue dans les premier 40% de la liste. Ces résultats, et en particulier la comparaison avec le classement de PubMed, mesurent l'apport potentiel de notre méthode dans le travail d'annotation. Une évaluation grandeur nature doit être mise en place prochainement. L’un des buts de notre travail est d’évaluer l’influence de la prise en compte d’information structurelle comme le nom du journal d’où provient l’article. La figure
8 Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées Figure 2: Courbes précision-rappel pour PLC, PubMed et SVM. Figure 3 : Effet de la prise en compte du nom du journal 3 présente une comparaison des résultats obtenus dans ce cadre. A gauche, nous voyons que pour la mesure F2 (qui privilégie le rappel sur les documents pertinents), la prise en compte de la source produit un effet consistant, mais de très faible amplitude. A droite, nous observons le même effet sur la mesure F.5 calculée sur les documents non pertinents (afin de privilégier la précision sur ces documents). Les mots les plus importants pour chacun des deux classifieurs binaires utilisés en cascade ont été estimés à partir de la formule (2). Les 10 mots les plus importants pour chaque classifieur sont présentés dans la table 2. On constate que de nombreux termes sont présents dans les deux listes, comme par exemple ceux qui ont trait aux mutations. Il est intéressant de noter que le nom du gène à annoter « gene_req » constitue un facteur discriminant pour écarter les résumés non pertinents de ceux qui le sont peut-être (colonne de gauche), mais il est beaucoup moins utile pour séparer les articles pertinents des indécidables (colonne de droite). Dans ce dernier cas, « gene_req » apparaît bien dans la liste, mais à un rang plus éloigné. Afin de valider
Catégorisation PubMed pour l’annotation médicale dans Swiss-Prot 9 Classifieurs « pertinent ou indécidable » « pertinent » contre contre « non pertinent » « indécidable ou non pertinent » mutation point_mutation point_mutation mutation patient missense_mutation family exon missense_mutation num num family gene_req patient exon carrier disease FH carrier substitution Table 2: Mots importants pour deux classifieurs binaires ces listes de termes importants, celles-ci ont été présentées aux annotateurs, qui ont confirmé qu’il s’agissait bien de termes qu’eux-mêmes utilisent afin de sélectionner les articles utiles à l’annotation médicale dans Swiss-Prot. En résumant les différents résultats obtenus nous constatons que : 1. Deux classifieurs en cascade sont légèrement plus performants qu'un classifieur à trois classes, particulièrement en précision sur les « pertinent ». 2. Les pré-traitements linguistiques produisent une amélioration faible mais mesurable (1 à 2%). 3. L’utilisation d’information structurelle comme le nom de la source produit une amélioration encore plus faible mais toujours consistante. 4. Les index composés n'améliorent pas les résultats. 5. La combinaison des traitements linguistique et information structurelle améliore significativement les résultats. 6. Conclusion et perspectives En utilisant un classifieur probabiliste, nous sommes parvenus à traiter les résultats de requêtes PubMed de telle sorte que les articles les plus pertinents pour l'annotation médicale dans Swiss-Prot soient présentés de manière préférentielle aux annotateurs. Nous avons constaté une forte amélioration par rapport aux retours bruts des requêtes PubMed. Les performances sont encore accrues par plusieurs facteurs. Parmi ceux-ci, les traitements linguistiques, et la prise en compte d'informations structurées retournées par PubMed, en particulier les informations
10 Atelier EGC 2003 : Fouille de donnée dans les bases semi-structurées liées à la source de chaque publication. Nous pensons qu'il est possible d'améliorer encore ces résultats, en étudiant par exemple la pondération des différentes sources d'information (titre, journal, texte du résumé, …). Enfin, cette chaîne de traitement va être intégrée prochainement à l'interface graphique qui permet aux annotateurs de SWIIS-PROT d'interroger PubMed. Remerciements Projet Sibelius (INRIA/ISB) pour le financement du séjour de Pavel Dobrokhotov à XRCE; L. Famiglietti, R. Gatto et A. Gos pour la constitution et classification de corpus des documents. Bibliographie [1] Boeckmann B, Bairoch A, Apweiler R, Blatter MC, O'Donovan C, Estreicher A, Gasteiger E, Martin MJ, Michoud K, Phan I, Pilbout S, Schneider M. The Swiss-Prot protein sequence database and its supplement TrEMBL in 2003. Nucleic Acids Res 2003;31:in press. [2] Dempster AP, Laird NM, Rubin DB. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, Series B, 1977; 39(1): 1-38. [3] Hagège C, Sándor Á, Schiller A. Linguistic Processing of Biomedical Texts. Proceedings of PorTAL 2002, Portugal for Natural Language processing, 2002. [4] Gaussier E, Goutte C, Popat K, Chen F. A hierarchical model for clustering and categorising documents. Advances in Information Retrieval – Proc. 24th BCS-IRSG European Colloquium on IR Research. Berlin: Springer, 2002; Lecture Notes in Computer Science 2291; pp. 229-247. [5] Hoffman T. Probabilistic Latent Semantic Analysis. Proc. 15th Conf. Uncertainty in Artificial Intelligence. Morgan Kaufmann, 1999; pp. 289-296. [6] Joachims, T. Making large-Scale SVM Learning Practical. Advances in Kernel Methods - Support Vector Learning, B. Schölkopf, C. Burges and A. Smola (eds.), MIT-Press, 1999. [7] Stone M. Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society, Series B, 1974; 36:111-147.
Vous pouvez aussi lire