Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides - Xavier Tannier - Centre de traitement ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Analyse automatique de comptes- rendus hospitaliers : approches supervisées, non supervisées, hybrides Xavier Tannier UCLouvain, 30 nov. 2018
Données hospitalières sur le patient • Un entrepôt hospitalier de données de santé (EDS) contient des données sur les patients : – Informations identifiantes (nom, adresse, date de naissance, etc.) – Comptes-rendus d’hospitalisation : • Informations structurées issues des appareils de mesure • Informations textuelles rédigées par le personnel soignant – Lettres – Ordonnances – etc. • Exemple LIMICS Nov. 19, 2018 3
Données hospitalières sur le patient • Il existe d’autres types de données médicales : – Autres données sur le patient (prise en charge hors hôpital, assurance maladie, certificats de décès) – Littérature scientifique – Protocoles standard – Forums / réseaux sociaux – Documents sur les médicaments – Terminologies – Etc. LIMICS Nov. 19, 2018 4
Données hospitalières sur le patient • Pourquoi analyser ces données ? – Soin • Accès plus rapide à l’information • Visualisation du parcours de soin • Recherche de cas similaires – Recherche • Constitution de cohortes pour les essais cliniques • Études statistiques – Pilotage • Codage médico-économique • Organisation de l’hôpital LIMICS Nov. 19, 2018 5
Données hospitalières sur le patient • Enjeux réglementaires et éthiques – CNIL – Comités scientifiques et éthiques – Patients LIMICS Nov. 19, 2018 6
Généralités sur la classification supervisée 7
Classification supervisée : entrée • Des instances représentées par des variables LIMICS Nov. 19, 2018 8
Classification supervisée : entrée • Des instances représentées par des variables • Des classes associées à chaque instance (données « annotées ») LIMICS Nov. 19, 2018 9
Classification supervisée : sortie • Un modèle « entraîné » sur les instances disponibles, capable de distinguer les classes LIMICS Nov. 19, 2018 10
Classification supervisée : sortie • Un modèle « entraîné » sur les instances disponibles, capable de distinguer les classes LIMICS Nov. 19, 2018 11
Classification supervisée : sortie • Un modèle « entraîné » sur les instances disponibles, capable de distinguer les classes LIMICS Nov. 19, 2018 12
Classification supervisée : sortie • Un modèle « entraîné » sur les instances disponibles, capable de distinguer les classes X < 10 oui non Y = "a" Z = "b" oui non oui non … … … oui non oui non oui non LIMICS Nov. 19, 2018 13
Classification supervisée : sortie • Un modèle « entraîné » sur les instances disponibles, capable de distinguer les classes argmax oui non LIMICS Nov. 19, 2018 14
Classification supervisée : sortie • On applique ensuite le modèle sur de nouvelles données, « non annotées » LIMICS Nov. 19, 2018 15
Classification supervisée : sortie • On applique ensuite le modèle sur de nouvelles données, « non annotées » LIMICS Nov. 19, 2018 16
Classification supervisée : sortie • On applique ensuite le modèle sur de nouvelles données, « non annotées » LIMICS Nov. 19, 2018 17
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif LIMICS Nov. 19, 2018 18
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif LIMICS Nov. 19, 2018 19
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif LIMICS Nov. 19, 2018 20
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif LIMICS Nov. 19, 2018 21
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif LIMICS Nov. 19, 2018 22
Classification supervisée : apprentissage • Le plus souvent, l’apprentissage consiste à minimiser l’erreur commise par le système (fonction de coût ou fonction objectif) en affinant ses paramètres • Processus souvent itératif argmax oui non LIMICS Nov. 19, 2018 23
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif test LIMICS Nov. 19, 2018 24
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif test LIMICS Nov. 19, 2018 25
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif – Le modèle doit savoir généraliser (pour éviter le « surentraînement » ou « overfitting ») test LIMICS Nov. 19, 2018 26
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif – Le modèle doit savoir généraliser (pour éviter le « surentraînement » ou « overfitting ») test LIMICS Nov. 19, 2018 27
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif – Le modèle doit savoir généraliser (pour éviter le « surentraînement » ou « overfitting ») – Les données « déséquilibrées » risquent de perturber l’apprentissage test LIMICS Nov. 19, 2018 28
Classification supervisée : problèmes, enjeux • Les problèmes : – Avoir assez de données globalement entraînement – Le jeu d’entraînement doit être représentatif – Le modèle doit savoir généraliser (pour éviter le « surentraînement » ou « overfitting ») – Les données « déséquilibrées » risquent de perturber l’apprentissage (minimisation « fainéante » de l’erreur) test LIMICS Nov. 19, 2018 29
Word embeddings (plongements lexicaux)
Word embeddings (plongements lexicaux) • Word embeddings = représentation vectorielle des mots • Mots proches dans l’espace = mots ayant un certain degré de similarité entre eux LIMICS Nov. 19, 2018 31
Word embeddings (plongements lexicaux) • Word embeddings = représentation vectorielle des mots • Mots proches dans l’espace = mots ayant un certain degré de similarité entre eux LIMICS Nov. 19, 2018 32
Word embeddings (plongements lexicaux) • Word embeddings = représentation vectorielle des mots • Mots proches dans l’espace = mots ayant un certain degré de similarité entre eux LIMICS Nov. 19, 2018 33
Word embeddings (plongements lexicaux) • Intuition 1. Chaque mot d’un langage est associés à une composition de facteurs cachés (souvent inintelligible) Ex : chat = 10 (animal) + 5 (doux) – 10 (loyal) • Intuition 2. Hypothèse distributionnelle « You shall know a word by the company it keeps » (Firth, 1957) Deux mots proches dans l’espace vectoriel = deux mots qui partagent souvent des contextes similaires Ex : le … griffe ; ... est un félin ℎ ∼ ℎ . ∼ . ℎ ∼ (© Perceval Wajsbürt) LIMICS Nov. 19, 2018 34
Word embeddings (plongements lexicaux) Deux mots proches dans l’espace vectoriel = deux mots qui partagent souvent des contextes similaires Deux mots proches dans l’espace vectoriel = deux mots ayant un sens proche é ∼ ℎ ∼ ∼ ∼ ∼ ∼ LIMICS Nov. 19, 2018 35
Word embeddings (plongements lexicaux) • Quelques méthodes : – Latent Semantic Analysis (1988) – Latent Dirichlet Allocation (2001) – Word2vec (2013) – GloVe (2014) – FastTest (2017) – Elmo (2018) • Nécessité de gros corpus de texte LIMICS Nov. 19, 2018 36
Analyse automatique de comptes- rendus hospitaliers • Détection de concepts médicaux • Extraction de relations temporelles • Détection de caractéristiques patient 37
Détection de concepts médicaux Thèse de Julien Tourille Travaux effectués avec Aurélie Névéol, Olivier Ferret, Matthieu Doutreligne, Nicolas Paris 38
Détection de concepts médicaux Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. anatomie LIMICS Nov. 19, 2018 39
Détection de concepts médicaux Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. Signe ou symptôme LIMICS Nov. 19, 2018 40
Détection de concepts médicaux Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. Désordre LIMICS Nov. 19, 2018 41
Détection de concepts médicaux Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. Procédure LIMICS Nov. 19, 2018 42
Détection de concepts médicaux Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. Médicament LIMICS Nov. 19, 2018 43
Détection de concepts médicaux • Pourquoi ? – Indexation et interrogation – Détection des événements saillants pour un patient – Extraction de relations sémantiques – Extraction de relations temporelles (concept médical événement) – Classification de documents / de patients Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. LIMICS Nov. 19, 2018 44
Détection de concepts médicaux À O Classification de séquences (de mots), très proche noter O de la reconnaissance une O d’entités nommées gastrite B-DISORDER dans le domaine général fundique I-DISORDER en O Exemple de format : BIO 97 B-DATE un O polytraumatisme B-DISORDER en O 95 B-DATE avec O antalgiques B-DRUG 45
Détection de concepts médicaux • Avant : construction manuelle d’une représentation – Collecte des « traits » (features) susceptibles d’aider les systèmes • Minuscule/majuscule • Catégorie morpho-syntaxique • Présence dans des lexiques • … – Application d’un algorithme d’apprentissage (CRF par exemple) – Ajout de règles • Maintenant : le modèle construit la représentation – Application de réseaux de neurones directement sur les caractères et les mots LIMICS Nov. 19, 2018 46
Au niveau du mot représentation Tourille et al. LOUHI 2018 47
Au niveau du caractère • Pourquoi les caractères ? – Variantes orthographiques « proches » – Suffixes communs – Mots inconnus Tourille et al. LOUHI 2018 48
Évaluation • 30 « runs » pour chaque expérimentation, pour la robustesse aux amorces aléatoires (Reimers et Gurevych 2017) Tourille et al. LOUHI 2018 LIMICS Nov. 19, 2018 49
Évaluation • Importance de la quantité de données d’entraînement L’exemple d’une tâche de dé-identification Tourille et al. LOUHI 2018 50
Extraction de relations temporelles Thèse de Julien Tourille Travaux effectués avec Aurélie Névéol, Olivier Ferret 51
Extraction de relations temporelles Madame , âgée de 55 ans, a été hospitalisée dans le service pour des douleurs de l'hypochondre droit. A noter dans ses antécédents une gastrite fundique en 97, un polytraumatisme en 95 avec abus d'antalgiques, une transfusion en 95, une tuberculose ganglionnaire en 91 traitée, une thalassémie. • Gastrite fundique « BEFORE » DOCTIME • 97 « CONTAINS » gastrite fundique • Polytraumatisme « BEFORE » DOCTIME • 95 « CONTAINS » polytraumatisme • Polytraumatisme « BEFORE » Gastrite fundique • Polytraumatisme « CONTAINS » abus d’antalgique LIMICS Nov. 19, 2018 52
Extraction de relations temporelles • Pourquoi – Aide au diagnostic – Visualisation du parcours – Comparaison du traitement avec les protocoles standard – Aide à la sélection de cohortes – Détection d’effets indésirables des médicaments Relations d’Allen LIMICS Nov. 19, 2018 53
Extraction de relations temporelles • Un problème très complexe, même pour les humains Accords inter-annotateurs lors de l’élaboration du corpus Merlot Campillos L, Deléger L, Grouin C, Hamon T, Ligozat AL, Névéol A. A French clinical corpus with comprehensive semantic annotations: development of the Medical Entity and Relation LIMSI annOtated Text corpus (MERLoT). Lang Resources & Evaluation. Springer, Berlin Heidelberg, Germany. 2017:1-31 LIMICS Nov. 19, 2018 54
Extraction de relations temporelles • Simplification : les « conteneurs narratifs » (narrative containers) (Pustejovsky & Stubbs, 2011) – Une ancre (événement, expression temporelles, concept médical) et des événements inclus dans cette ancre – Plus simples à annoter et une perte d’expressivité raisonnable – Mise en œuvre dans le corpus THYME James Pustejovsky and Amber Stubbs. 2011. Increasing Informativeness in Temporal Annotation. In Proceedings of the 5th Linguistic Annotation Workshop. Association for Computational Linguistics, Stroudsburg, PA, USA, LAW V ’11, pages 152–160. LIMICS Nov. 19, 2018 55
Extraction de relations temporelles : tâche • Un problème de classification de paires de concepts, en 3 classes : – X contient Y – X est contenu par Y – X et Y n’ont pas de relation de ce type • Apprentissage d’un modèle différent pour les relations intra- phrastiques et inter-phrastiques LIMICS Nov. 19, 2018 56
Extraction de relations temporelles : modèle 57
Extraction de relations temporelles : résultats LIMICS Nov. 19, 2018 58
Détection de caractéristiques des patients Avec Ivan Lerner Hugo Cisneros Guillaume Luquiens Christel Daniel Nicolas Paris Tom Denat Adrien Parrot Matthieu Doutreligne Éric Sadou Catherine Duclos Cyril Saussol Nicolas Griffon Xavier Tannier Claire Hassen-Khodja 59 Pascal Vaillant
Problème • Critères d’éligibilité pour les dossiers cliniques – « > 18 ans » – « pas femme enceinte » – « taux d’hémoglobine glyquée > 6.5 » – « diabétique type II » – « a subi une opération chirurgicale de l’abdomen » – « en surpoids » – « a eu un infarctus ces 6 derniers mois » – « a reçu le médicament » – … • Certains critères peuvent être retrouvés dans des données structurées sur le patient • D’autres nécessitent la lecture des comptes-rendus textuels LIMICS Nov. 19, 2018 60
Tâche • Créer un ou des systèmes de traitement de la langue permettant de confronter un patient à une liste de critère et de déterminer si le patient est éligible à ces critères ou pas. • n2c2 2018 challenge : – 13 critères – 300 patients (diabetes + at risk for CAD) – … et une tâche très peu compatible avec de l’apprentissage supervisé LIMICS Nov. 19, 2018 61
n2c2 dataset Jeu d’entraînement (202 patients… que nous avons séparés en 80% train et 20% dev) LIMICS Nov. 19, 2018 62
n2c2 dataset Certaines classes très déséquilibrées… LIMICS Nov. 19, 2018 63
n2c2 dataset Certains classes demandent une bonne connaissance médicale… LIMICS Nov. 19, 2018 64
n2c2 dataset Certains critères comprennent une dimension temporelle LIMICS Nov. 19, 2018 65
UMLS Metathesaurus • Unified Medical Language System • 1 million biomedical concepts • 5 million concept names • Used to collect medical concepts of interest LIMICS Nov. 19, 2018 66
MIMIC III • Open database • Deidentified health-related data • 40,000 patients • > 2 million clinical notes • Used for various purposes – Compute embeddings – Augment training set – Find new rules LIMICS Nov. 19, 2018 67
Stanford CoreNLP • A set of human language technology tools for 7 languages • Not specialized in clinical texts (but has other advantages) • Used to tokenize sentences and words LIMICS Nov. 19, 2018 68
Apache cTAKES • NLP system specialized in information extraction from medical record clinical free-text. • Used for detecting concepts that are negated or uncertain in the notes. • We also extended the negation detection with a few rules. LIMICS Nov. 19, 2018 69
HeidelTime • A multilingual and cross-domain temporal tagging tool. • Used for date normalization. LIMICS Nov. 19, 2018 70
Methods & Results 1. Semi-supervised methods 1. Semi-supervised methods 2. Rule-based methods 3. Terminology-based methods 4. Overall results 71
Semi-supervised learning methods LIMICS Nov. 19, 2018 72
General principle ALCOHOL Alcohol use over weekly recommended limits DRUG Drug abuse, current or past KETO-1YR Diagnosis of ketoacidosis in the past year • Not enough annotated (positive) data n2c2 LIMICS Nov. 19, 2018 73
General principle ALCOHOL Alcohol use over weekly recommended limits DRUG Drug abuse, current or past KETO-1YR Diagnosis of ketoacidosis in the past year • Not enough annotated (positive) data • Idea: massively augment data with MIMIC notes n2c2 LIMICS Nov. 19, 2018 74
General principle ALCOHOL Alcohol use over weekly recommended limits DRUG Drug abuse, current or past KETO-1YR Diagnosis of ketoacidosis in the past year • Not enough annotated (positive) data • Idea: massively augment data with MIMIC notes • How to build an annotated corpus from MIMIC (silver standard)? n2c2 LIMICS Nov. 19, 2018 75
Building a silver standard 1. Find very precise rules for extraction of positive (met) and negative (not met) examples e.g. for ALCOHOL-ABUSE (similar for DRUG-ABUSE): Positive Negative “drinks heavily” “denies active tobacco or alcoholic beverage usage” “binge drinking” “no alcohol in * (years|yrs)” “alcoholism” “clean.{1,40}(alcohol|etoh)” “alcohol abuse” “alcohol use status : moderate” … “etoh : social” (without negation) … (Examples found in n2c2 data or in MIMIC with a grep alcohol, grep etoh, grep drink) 76
Building a silver standard 1. Find very precise rules for extraction of positive (met) and negative (not met) examples For KETO-1YR, used ICD-9 code for ketoacidosis in MIMIC 77
Building a silver standard 2. Match rules in MIMIC to collect “met” and “not met” patients “drinks heavily” “binge drinking” “alcoholism” “alcohol abuse” … ive tobacco or alcoholic beverage usage” “no alcohol in * (years|yrs)” “clean.{1,40}(alcohol|etoh)” “alcohol use status: moderate” “etoh : social” … LIMICS Nov. 19, 2018 78
Building a silver standard 3. Count on the redundancy of the reports (several files per patient) to contain variants of the relevant information LIMICS Nov. 19, 2018 80
Training a supervised system 4. Train a classifier based on this silver standard + gold standard (fed with only the sentences containing seed words) embeddings Fasttext (neural network) LIMICS Nov. 19, 2018 81
Training a supervised system 5. Train a classifier based on this silver standard + gold standard (fed with only the sentences containing seed words) embeddings tf.idf bag of words Fasttext Logistic regression (neural network) (tf.idf bag of words) LIMICS Nov. 19, 2018 82
Training a supervised system 5. Train a classifier based on this silver standard + gold standard (fed with only the sentences containing seed words) embeddings tf.idf bag of words Fasttext Logistic regression (neural network) (tf.idf bag of words) [0,1] [0,1] Logistic regression {met, not met} LIMICS Nov. 19, 2018 83
Limits of this method • Finding negative examples is the difficult part – We found only 3 criteria out of 13 that made that possible – Some papers (see below) describe semi-supervised phenotyping but do not say how they deal with negative examples • The data is noisy, biased and not always representative of the original data • Agarwal, V.; Podchiyska, T.; Banda, J. M.; Goel, V.; Leung, T. I.; Minty, E. P.; Sweeney, T. E.; Gyang, E. & Shah, N. H. Learning statistical models of phenotypes using noisy labeled training data. J Am Med Inform Assoc, 2016, 23 • Halpern, Y.; Horng, S.; Choi, Y. & Sontag, D. Electronic medical record phenotyping using the anchor and learn framework. J Am Med Inform Assoc, 2016, 23 • Beaulieu-Jones, B. K. & Greene, C. S. Semi-supervised learning of the electronic health record for phenotype stratification. Journal of Biomedical Informatics, 2016, 64 84
Semi-supervised learning methods: results met not met Prec. Rec. F1 Prec. Rec. F1 ALCOHOL 1.00 0.33 0.50 0.98 1.00 0.99 DRUG 0.67 0.67 0.67 0.99 0.99 0.99 KETO-1YR 0.00 0.00 0.00 1.00 1.00 1.00 LIMICS Nov. 19, 2018 85
Methods & Results 2. Rule-based methods 1. Semi-supervised methods 2. Rule-based methods 3. Terminology-based methods 4. Overall results 86
Rule-based methods LIMICS Nov. 19, 2018 87
ENGLISH – MAKES-DECISION ENGLISH Patient must speak English MAKES-DEC. Patient must make their own medical decisions • Very few counter-examples (“not met”) in the training set • High linguistic variation expected • Difficult to find explicit examples of “met” (rarely mentioned that the person can make decisions or speak English) ( difficult to apply a semi-supervised approach as described previously) Rules! (based on training set + MIMIC) LIMICS Nov. 19, 2018 88
ENGLISH – MAKES-DECISION ENGLISH Patient must speak English MAKES-DEC. Patient must make their own medical decisions • “not met” rules: – MAKES-DECISION: • Dementia • Mental retardation • “not able to answer questions” • Tutorship/curatorship? – ENGLISH: • “X-speaking” • “needs a translator” • “few words of English” (??) LIMICS Nov. 19, 2018 89
Rule-based methods: results met not met Prec. Rec. F1 Prec. Rec. F1 CREATININE 0.87 0.83 0.85 0.93 0.95 0.94 HBA1C 1.00 0.77 0.87 0.86 1.00 0.93 ENGLISH 0.94 0.99 0.96 0.89 0.62 0.73 MAKES-DEC. 0.96 0.98 0.97 0.00 0.00 0.00 LIMICS Nov. 19, 2018 90
Methods & Results 3. Terminology-based methods 1. Semi-supervised methods 2. Rule-based methods 3. Terminology-based methods 4. Overall results 91
Terminology-based methods LIMICS Nov. 19, 2018 92
Terminology-based methods ABDOMINAL History of intra abdominal surgery, intestine resection or small bowel obstruction ADV.-CAD Advanced cardiovascular disease (two or more of 4 sub-criteria defined in the guidelines) ASP-FOR-MI Use of aspirin to prevent myocardial infarction DIETSUPP Taken a dietary supplement (excluding Vitamin D) in the past 2 months M-DIABETES Major diabetes-related complication (among 6 complications listed in the guidelines). MI-6MOS Myocardial infarction in the past 6 months LIMICS Nov. 19, 2018 93
Terminology-based methods ABDOMINAL DIETSUPP ADV.-CAD HBA1C M-DIABETES ASP-FOR-MI MI-6MOS • Medical knowledge is important • Variation is important but medical concepts are very good clues • Difficult to find explicit examples of “not met” (rarely mentioned that the person did NOT have abdominal surgery, MI, etc.) ( difficult to apply a semi-supervised approach as described previously) Concept matching LIMICS Nov. 19, 2018 94
Terminology-based methods: main steps 1. Terminology: use UMLS to collect descendants and synonyms of general concepts corresponding to the inclusion criteria 2. Use spelling correction (word2vec based) 3. Negation, uncertainty: use cTAKES + home-made rules to discard negated or uncertain events in text (when necessary). 4. Structure: restrict the concept search to specific sections (when relevant). 5. Temporal dimension (temporally-restricted criteria): restrict to recent reports or to sentences containing a date within the inclusion date range (Heideltime) Decision: trigger met decision as soon as at least one relevant term is found in the text (two sub-criteria for ADVANCED-CAD). LIMICS Nov. 19, 2018 95
Terminology-based methods: results met not met Prec. Rec. F1 Prec. Rec. F1 ABDOMINAL 0.85 0.93 0.89 0.96 0.91 0.94 ADV.-CAD HBA1C 0.74 0.87 0.80 0.82 0.66 0.73 ASP-FOR-MI 0.83 0.91 0.87 0.45 0.28 0.34 DIETSUPP 0.91 0.89 0.90 0.88 0.90 0.89 M-DIABETES 0.90 0.86 0.88 0.87 0.91 0.89 MI-6MOS 0.67 0.50 0.57 0.95 0.97 0.96 LIMICS Nov. 19, 2018 96
Conclusion • Improve learning methods: – Active learning – Knowledge transfer – Domain adaptation – Distant supervision – Patient representation – … • But also secure the information: – Better concept identification and normalization – Joint use of structured and textual data in EHRs – More formal definition of phenotypes LIMICS Nov. 19, 2018 97
Merci 98
Vous pouvez aussi lire