Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides - Xavier Tannier - Centre de traitement ...

 
CONTINUER À LIRE
Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides - Xavier Tannier - Centre de traitement ...
Analyse automatique de comptes-
 rendus hospitaliers :
 approches supervisées,
 non supervisées, hybrides
 Xavier Tannier

 UCLouvain, 30 nov. 2018
Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides - Xavier Tannier - Centre de traitement ...
Contexte

 2
Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides - Xavier Tannier - Centre de traitement ...
Données hospitalières sur le patient
 • Un entrepôt hospitalier de données de santé (EDS) contient des
 données sur les patients :
 – Informations identifiantes (nom, adresse, date de naissance, etc.)
 – Comptes-rendus d’hospitalisation :
 • Informations structurées issues des appareils de mesure
 • Informations textuelles rédigées par le personnel soignant
 – Lettres
 – Ordonnances
 – etc.

 • Exemple

LIMICS Nov. 19, 2018 3
Données hospitalières sur le patient
 • Il existe d’autres types de données médicales :
 – Autres données sur le patient (prise en charge hors hôpital, assurance
 maladie, certificats de décès)
 – Littérature scientifique
 – Protocoles standard
 – Forums / réseaux sociaux
 – Documents sur les médicaments
 – Terminologies
 – Etc.

LIMICS Nov. 19, 2018 4
Données hospitalières sur le patient
 • Pourquoi analyser ces données ?
 – Soin
 • Accès plus rapide à l’information
 • Visualisation du parcours de soin
 • Recherche de cas similaires
 – Recherche
 • Constitution de cohortes pour les essais cliniques
 • Études statistiques
 – Pilotage
 • Codage médico-économique
 • Organisation de l’hôpital

LIMICS Nov. 19, 2018 5
Données hospitalières sur le patient
 • Enjeux réglementaires et éthiques
 – CNIL
 – Comités scientifiques et éthiques
 – Patients

LIMICS Nov. 19, 2018 6
Généralités
sur la classification supervisée

 7
Classification supervisée : entrée
 • Des instances représentées par des variables

LIMICS Nov. 19, 2018 8
Classification supervisée : entrée
 • Des instances représentées par des variables
 • Des classes associées à chaque instance (données « annotées »)

LIMICS Nov. 19, 2018 9
Classification supervisée : sortie
 • Un modèle « entraîné » sur les instances disponibles, capable de
 distinguer les classes

LIMICS Nov. 19, 2018 10
Classification supervisée : sortie
 • Un modèle « entraîné » sur les instances disponibles, capable de
 distinguer les classes

LIMICS Nov. 19, 2018 11
Classification supervisée : sortie
 • Un modèle « entraîné » sur les instances disponibles, capable de
 distinguer les classes

LIMICS Nov. 19, 2018 12
Classification supervisée : sortie
 • Un modèle « entraîné » sur les instances disponibles, capable de
 distinguer les classes

 X < 10
 oui non

 Y = "a" Z = "b"

 oui non oui non

 … … …

 oui non oui non oui non

LIMICS Nov. 19, 2018 13
Classification supervisée : sortie
 • Un modèle « entraîné » sur les instances disponibles, capable de
 distinguer les classes

 argmax

 oui non

LIMICS Nov. 19, 2018 14
Classification supervisée : sortie
 • On applique ensuite le modèle sur de nouvelles données,
 « non annotées »

LIMICS Nov. 19, 2018 15
Classification supervisée : sortie
 • On applique ensuite le modèle sur de nouvelles données,
 « non annotées »

LIMICS Nov. 19, 2018 16
Classification supervisée : sortie
 • On applique ensuite le modèle sur de nouvelles données,
 « non annotées »

LIMICS Nov. 19, 2018 17
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

LIMICS Nov. 19, 2018 18
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

LIMICS Nov. 19, 2018 19
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

LIMICS Nov. 19, 2018 20
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

LIMICS Nov. 19, 2018 21
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

LIMICS Nov. 19, 2018 22
Classification supervisée : apprentissage
 • Le plus souvent, l’apprentissage consiste à
 minimiser l’erreur commise par le système
 (fonction de coût ou fonction objectif) en affinant ses paramètres

 • Processus souvent itératif

 argmax

 oui non

LIMICS Nov. 19, 2018 23
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif

 test

LIMICS Nov. 19, 2018 24
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif

 test

LIMICS Nov. 19, 2018 25
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif
 – Le modèle doit savoir généraliser
 (pour éviter le « surentraînement » ou « overfitting »)

 test

LIMICS Nov. 19, 2018 26
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif
 – Le modèle doit savoir généraliser
 (pour éviter le « surentraînement » ou « overfitting »)

 test

LIMICS Nov. 19, 2018 27
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif
 – Le modèle doit savoir généraliser
 (pour éviter le « surentraînement » ou « overfitting »)
 – Les données « déséquilibrées » risquent de perturber
 l’apprentissage

 test

LIMICS Nov. 19, 2018 28
Classification supervisée : problèmes, enjeux
 • Les problèmes :
 – Avoir assez de données globalement entraînement

 – Le jeu d’entraînement doit être représentatif
 – Le modèle doit savoir généraliser
 (pour éviter le « surentraînement » ou « overfitting »)
 – Les données « déséquilibrées » risquent de perturber
 l’apprentissage
 (minimisation « fainéante » de l’erreur)

 test

LIMICS Nov. 19, 2018 29
Word embeddings
(plongements lexicaux)
Word embeddings (plongements lexicaux)
 • Word embeddings = représentation vectorielle des mots
 • Mots proches dans l’espace = mots ayant un certain degré de
 similarité entre eux

LIMICS Nov. 19, 2018 31
Word embeddings (plongements lexicaux)
 • Word embeddings = représentation vectorielle des mots
 • Mots proches dans l’espace = mots ayant un certain degré de
 similarité entre eux

LIMICS Nov. 19, 2018 32
Word embeddings (plongements lexicaux)
 • Word embeddings = représentation vectorielle des mots
 • Mots proches dans l’espace = mots ayant un certain degré de
 similarité entre eux

LIMICS Nov. 19, 2018 33
Word embeddings (plongements lexicaux)

 • Intuition 1. Chaque mot d’un langage est associés à une
 composition de facteurs cachés (souvent inintelligible)
 Ex : chat = 10 (animal) + 5 (doux) – 10 (loyal)

 • Intuition 2. Hypothèse distributionnelle
 « You shall know a word by the company it keeps » (Firth, 1957)
 Deux mots proches dans l’espace vectoriel = deux mots qui partagent souvent
 des contextes similaires
 Ex : le … griffe ; ... est un félin
 ℎ ∼ 
 ℎ . ∼ . 
 ℎ ∼ (© Perceval Wajsbürt)

LIMICS Nov. 19, 2018 34
Word embeddings (plongements lexicaux)

 Deux mots proches dans l’espace vectoriel = deux mots qui partagent
 souvent des contextes similaires

 Deux mots proches dans l’espace vectoriel =
 deux mots ayant un sens proche

 é ∼ ℎ ∼ ∼ 

 ∼ ∼ ∼ 

LIMICS Nov. 19, 2018 35
Word embeddings (plongements lexicaux)

 • Quelques méthodes :
 – Latent Semantic Analysis (1988)
 – Latent Dirichlet Allocation (2001)
 – Word2vec (2013)
 – GloVe (2014)
 – FastTest (2017)
 – Elmo (2018)

 • Nécessité de gros corpus de texte

LIMICS Nov. 19, 2018 36
Analyse automatique de comptes-
 rendus hospitaliers

• Détection de concepts médicaux
• Extraction de relations temporelles
• Détection de caractéristiques patient

 37
Détection de concepts médicaux

Thèse de Julien Tourille
Travaux effectués avec Aurélie Névéol, Olivier Ferret, Matthieu
Doutreligne, Nicolas Paris

 38
Détection de concepts médicaux

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

 anatomie

LIMICS Nov. 19, 2018 39
Détection de concepts médicaux

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

 Signe ou symptôme

LIMICS Nov. 19, 2018 40
Détection de concepts médicaux

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

 Désordre

LIMICS Nov. 19, 2018 41
Détection de concepts médicaux

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

 Procédure

LIMICS Nov. 19, 2018 42
Détection de concepts médicaux

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

 Médicament

LIMICS Nov. 19, 2018 43
Détection de concepts médicaux
 • Pourquoi ?
 – Indexation et interrogation
 – Détection des événements saillants pour un patient
 – Extraction de relations sémantiques
 – Extraction de relations temporelles (concept médical  événement)
 – Classification de documents / de patients

 Madame , âgée de 55 ans, a été hospitalisée dans le service pour
 des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une transfusion
 en 95, une tuberculose ganglionnaire en 91 traitée, une
 thalassémie.

LIMICS Nov. 19, 2018 44
Détection de concepts médicaux

 À O
Classification de séquences
(de mots), très proche noter O
de la reconnaissance une O
d’entités nommées gastrite B-DISORDER
dans le domaine général fundique I-DISORDER
 en O
Exemple de format : BIO 97 B-DATE
 un O
 polytraumatisme B-DISORDER
 en O
 95 B-DATE
 avec O
 antalgiques B-DRUG 45
Détection de concepts médicaux
 • Avant : construction manuelle d’une représentation
 – Collecte des « traits » (features) susceptibles d’aider les systèmes
 • Minuscule/majuscule
 • Catégorie morpho-syntaxique
 • Présence dans des lexiques
 • …
 – Application d’un algorithme d’apprentissage (CRF par exemple)

 – Ajout de règles

 • Maintenant : le modèle construit la représentation
 – Application de réseaux de neurones
 directement sur les caractères et les mots

LIMICS Nov. 19, 2018 46
Au niveau du mot
 représentation

Tourille et al. LOUHI 2018 47
Au niveau du caractère
 • Pourquoi les caractères ?
 – Variantes orthographiques « proches »
 – Suffixes communs
 – Mots inconnus

Tourille et al. LOUHI 2018 48
Évaluation
 • 30 « runs » pour chaque expérimentation, pour la robustesse aux
 amorces aléatoires (Reimers et Gurevych 2017)

 Tourille et al. LOUHI 2018

LIMICS Nov. 19, 2018 49
Évaluation
• Importance de la quantité de données d’entraînement
 L’exemple d’une tâche de dé-identification

 Tourille et al. LOUHI 2018 50
Extraction de relations temporelles

Thèse de Julien Tourille
Travaux effectués avec Aurélie Névéol, Olivier Ferret

 51
Extraction de relations temporelles

 Madame , âgée de 55 ans, a été hospitalisée dans le service
 pour des douleurs de l'hypochondre droit.
 A noter dans ses antécédents une gastrite fundique en 97, un
 polytraumatisme en 95 avec abus d'antalgiques, une
 transfusion en 95, une tuberculose ganglionnaire en 91 traitée,
 une thalassémie.

 • Gastrite fundique « BEFORE » DOCTIME
 • 97 « CONTAINS » gastrite fundique
 • Polytraumatisme « BEFORE » DOCTIME
 • 95 « CONTAINS » polytraumatisme
 • Polytraumatisme « BEFORE » Gastrite fundique
 • Polytraumatisme « CONTAINS » abus d’antalgique

LIMICS Nov. 19, 2018 52
Extraction de relations temporelles
 • Pourquoi
 – Aide au diagnostic
 – Visualisation du parcours
 – Comparaison du traitement avec les protocoles standard
 – Aide à la sélection de cohortes
 – Détection d’effets indésirables des médicaments

 Relations d’Allen

LIMICS Nov. 19, 2018 53
Extraction de relations temporelles
 • Un problème très complexe, même pour les humains

 Accords inter-annotateurs lors de l’élaboration du corpus Merlot

 Campillos L, Deléger L, Grouin C, Hamon T, Ligozat AL, Névéol A.
 A French clinical corpus with comprehensive semantic annotations: development of the
 Medical Entity and Relation LIMSI annOtated Text corpus (MERLoT).
 Lang Resources & Evaluation. Springer, Berlin Heidelberg, Germany. 2017:1-31

LIMICS Nov. 19, 2018 54
Extraction de relations temporelles
 • Simplification : les « conteneurs narratifs » (narrative containers)
 (Pustejovsky & Stubbs, 2011)
 – Une ancre (événement, expression temporelles, concept médical) et des
 événements inclus dans cette ancre
 – Plus simples à annoter et une perte d’expressivité raisonnable
 – Mise en œuvre dans le corpus THYME

 James Pustejovsky and Amber Stubbs. 2011.
 Increasing Informativeness in Temporal Annotation.
 In Proceedings of the 5th Linguistic Annotation Workshop. Association for Computational Linguistics,
 Stroudsburg, PA, USA, LAW V ’11, pages 152–160.

LIMICS Nov. 19, 2018 55
Extraction de relations temporelles : tâche

 • Un problème de classification de paires de concepts, en 3 classes :
 – X contient Y
 – X est contenu par Y
 – X et Y n’ont pas de relation de ce type
 • Apprentissage d’un modèle différent pour les relations intra-
 phrastiques et inter-phrastiques

LIMICS Nov. 19, 2018 56
Extraction de relations temporelles : modèle

 57
Extraction de relations temporelles : résultats

LIMICS Nov. 19, 2018 58
Détection de caractéristiques des
 patients
Avec
 Ivan Lerner
Hugo Cisneros Guillaume Luquiens
Christel Daniel Nicolas Paris
Tom Denat Adrien Parrot
Matthieu Doutreligne Éric Sadou
Catherine Duclos Cyril Saussol
Nicolas Griffon Xavier Tannier
Claire Hassen-Khodja 59
 Pascal Vaillant
Problème
 • Critères d’éligibilité pour les dossiers cliniques
 – « > 18 ans »
 – « pas femme enceinte »
 – « taux d’hémoglobine glyquée > 6.5 »
 – « diabétique type II »
 – « a subi une opération chirurgicale de l’abdomen »
 – « en surpoids »
 – « a eu un infarctus ces 6 derniers mois »
 – « a reçu le médicament »
 – …
 • Certains critères peuvent être retrouvés dans des données
 structurées sur le patient
 • D’autres nécessitent la lecture des comptes-rendus textuels

LIMICS Nov. 19, 2018 60
Tâche
 • Créer un ou des systèmes de traitement de la langue permettant de
 confronter un patient à une liste de critère et de déterminer si le
 patient est éligible à ces critères ou pas.

 • n2c2 2018 challenge :
 – 13 critères
 – 300 patients (diabetes + at risk for CAD)
 – … et une tâche très peu compatible avec de l’apprentissage supervisé

LIMICS Nov. 19, 2018 61
n2c2 dataset
Jeu d’entraînement (202 patients… que nous avons séparés en 80% train et 20% dev)

LIMICS Nov. 19, 2018 62
n2c2 dataset
Certaines classes très déséquilibrées…

LIMICS Nov. 19, 2018 63
n2c2 dataset
Certains classes demandent une bonne connaissance médicale…

LIMICS Nov. 19, 2018 64
n2c2 dataset
Certains critères comprennent une dimension temporelle

LIMICS Nov. 19, 2018 65
UMLS Metathesaurus

 • Unified Medical Language System
 • 1 million biomedical concepts
 • 5 million concept names

 • Used to collect medical concepts of interest

LIMICS Nov. 19, 2018 66
MIMIC III

 • Open database
 • Deidentified health-related data
 • 40,000 patients
 • > 2 million clinical notes

 • Used for various purposes
 – Compute embeddings
 – Augment training set
 – Find new rules

LIMICS Nov. 19, 2018 67
Stanford CoreNLP

 • A set of human language technology tools for 7 languages
 • Not specialized in clinical texts (but has other advantages)

 • Used to tokenize sentences and words

LIMICS Nov. 19, 2018 68
Apache cTAKES

 • NLP system specialized in information extraction from medical
 record clinical free-text.

 • Used for detecting concepts that are negated or uncertain in the
 notes.
 • We also extended the negation detection with a few rules.

LIMICS Nov. 19, 2018 69
HeidelTime

 • A multilingual and cross-domain temporal tagging tool.

 • Used for date normalization.

LIMICS Nov. 19, 2018 70
Methods & Results
 1. Semi-supervised methods

1. Semi-supervised methods
2. Rule-based methods
3. Terminology-based methods
4. Overall results

 71
Semi-supervised learning methods

LIMICS Nov. 19, 2018 72
General principle
 ALCOHOL Alcohol use over weekly recommended limits

 DRUG Drug abuse, current or past

 KETO-1YR Diagnosis of ketoacidosis in the past year

 • Not enough annotated (positive) data

 n2c2

LIMICS Nov. 19, 2018 73
General principle
 ALCOHOL Alcohol use over weekly recommended limits

 DRUG Drug abuse, current or past

 KETO-1YR Diagnosis of ketoacidosis in the past year

 • Not enough annotated (positive) data
 • Idea: massively augment data with MIMIC notes

 n2c2

LIMICS Nov. 19, 2018 74
General principle
 ALCOHOL Alcohol use over weekly recommended limits

 DRUG Drug abuse, current or past

 KETO-1YR Diagnosis of ketoacidosis in the past year

 • Not enough annotated (positive) data
 • Idea: massively augment data with MIMIC notes
 • How to build an annotated corpus from MIMIC (silver standard)?

 n2c2

LIMICS Nov. 19, 2018 75
Building a silver standard
1. Find very precise rules for extraction of positive (met) and negative
 (not met) examples

 e.g. for ALCOHOL-ABUSE (similar for DRUG-ABUSE):
 Positive Negative

 “drinks heavily” “denies active tobacco or alcoholic beverage usage”
 “binge drinking” “no alcohol in * (years|yrs)”
 “alcoholism” “clean.{1,40}(alcohol|etoh)”
 “alcohol abuse” “alcohol use status : moderate”
 … “etoh : social”
 (without negation) …

 (Examples found in n2c2 data or in MIMIC with a grep alcohol, grep etoh, grep drink)
 76
Building a silver standard
1. Find very precise rules for extraction of positive (met) and negative
 (not met) examples

 For KETO-1YR, used ICD-9 code for ketoacidosis in MIMIC

 77
Building a silver standard
 2. Match rules in MIMIC to collect “met” and “not met” patients

 “drinks heavily”
 “binge drinking”
 “alcoholism”
 “alcohol abuse”
 …

ive tobacco or alcoholic beverage usage”
 “no alcohol in * (years|yrs)”
 “clean.{1,40}(alcohol|etoh)”
 “alcohol use status: moderate”
 “etoh : social”
 …

 LIMICS Nov. 19, 2018 78
Building a silver standard
 3. Count on the redundancy of the reports (several files per patient)
 to contain variants of the relevant information

LIMICS Nov. 19, 2018 80
Training a supervised system
 4. Train a classifier based on this silver standard + gold standard
 (fed with only the sentences containing seed words)

 embeddings

 Fasttext
 (neural network)

LIMICS Nov. 19, 2018 81
Training a supervised system
 5. Train a classifier based on this silver standard + gold standard
 (fed with only the sentences containing seed words)

 embeddings tf.idf bag of words

 Fasttext Logistic regression
 (neural network) (tf.idf bag of words)

LIMICS Nov. 19, 2018 82
Training a supervised system
 5. Train a classifier based on this silver standard + gold standard
 (fed with only the sentences containing seed words)

 embeddings tf.idf bag of words

 Fasttext Logistic regression
 (neural network) (tf.idf bag of words)

 [0,1] [0,1]

 Logistic regression

 {met, not met}

LIMICS Nov. 19, 2018 83
Limits of this method
 • Finding negative examples is the difficult part
 – We found only 3 criteria out of 13 that made that possible
 – Some papers (see below) describe semi-supervised phenotyping but do not
 say how they deal with negative examples

 • The data is noisy, biased and not always representative of the
 original data

• Agarwal, V.; Podchiyska, T.; Banda, J. M.; Goel, V.; Leung, T. I.; Minty, E. P.; Sweeney, T. E.; Gyang, E. & Shah, N. H.
 Learning statistical models of phenotypes using noisy labeled training data. J Am Med Inform Assoc, 2016, 23
• Halpern, Y.; Horng, S.; Choi, Y. & Sontag, D.
 Electronic medical record phenotyping using the anchor and learn framework. J Am Med Inform Assoc, 2016, 23
• Beaulieu-Jones, B. K. & Greene, C. S.
 Semi-supervised learning of the electronic health record for phenotype
 stratification. Journal of Biomedical Informatics, 2016, 64 84
Semi-supervised learning methods: results

 met not met

 Prec. Rec. F1 Prec. Rec. F1

 ALCOHOL 1.00 0.33 0.50 0.98 1.00 0.99

 DRUG 0.67 0.67 0.67 0.99 0.99 0.99

 KETO-1YR 0.00 0.00 0.00 1.00 1.00 1.00

LIMICS Nov. 19, 2018 85
Methods & Results
 2. Rule-based methods

1. Semi-supervised methods
2. Rule-based methods
3. Terminology-based methods
4. Overall results

 86
Rule-based methods

LIMICS Nov. 19, 2018 87
ENGLISH – MAKES-DECISION
 ENGLISH Patient must speak English

MAKES-DEC. Patient must make their own medical decisions

 • Very few counter-examples (“not met”) in the training set
 • High linguistic variation expected
 • Difficult to find explicit examples of “met”
 (rarely mentioned that the person can make decisions or speak English)
 ( difficult to apply a semi-supervised approach as described previously)

  Rules! (based on training set + MIMIC)

LIMICS Nov. 19, 2018 88
ENGLISH – MAKES-DECISION
 ENGLISH Patient must speak English

MAKES-DEC. Patient must make their own medical decisions

 • “not met” rules:
 – MAKES-DECISION:
 • Dementia
 • Mental retardation
 • “not able to answer questions”
 • Tutorship/curatorship?
 – ENGLISH:
 • “X-speaking”
 • “needs a translator”
 • “few words of English” (??)

LIMICS Nov. 19, 2018 89
Rule-based methods: results

 met not met

 Prec. Rec. F1 Prec. Rec. F1

CREATININE 0.87 0.83 0.85 0.93 0.95 0.94

 HBA1C 1.00 0.77 0.87 0.86 1.00 0.93

 ENGLISH 0.94 0.99 0.96 0.89 0.62 0.73

MAKES-DEC. 0.96 0.98 0.97 0.00 0.00 0.00

LIMICS Nov. 19, 2018 90
Methods & Results
 3. Terminology-based methods

1. Semi-supervised methods
2. Rule-based methods
3. Terminology-based methods
4. Overall results

 91
Terminology-based methods

LIMICS Nov. 19, 2018 92
Terminology-based methods

ABDOMINAL History of intra abdominal surgery, intestine
 resection or small bowel obstruction

 ADV.-CAD Advanced cardiovascular disease (two or more
 of 4 sub-criteria defined in the guidelines)

ASP-FOR-MI Use of aspirin to prevent myocardial infarction

 DIETSUPP Taken a dietary supplement (excluding Vitamin
 D) in the past 2 months
M-DIABETES Major diabetes-related complication (among 6
 complications listed in the guidelines).
 MI-6MOS Myocardial infarction in the past 6 months

LIMICS Nov. 19, 2018 93
Terminology-based methods
ABDOMINAL DIETSUPP

 ADV.-CAD
 HBA1C M-DIABETES

ASP-FOR-MI MI-6MOS

 • Medical knowledge is important
 • Variation is important but medical concepts are very good clues
 • Difficult to find explicit examples of “not met”
 (rarely mentioned that the person did NOT have abdominal surgery, MI, etc.)
 ( difficult to apply a semi-supervised approach as described previously)

  Concept matching

LIMICS Nov. 19, 2018 94
Terminology-based methods: main steps
 1. Terminology: use UMLS to collect descendants and synonyms of general
 concepts corresponding to the inclusion criteria
 2. Use spelling correction (word2vec based)
 3. Negation, uncertainty: use cTAKES + home-made rules to discard negated
 or uncertain events in text (when necessary).
 4. Structure: restrict the concept search to specific sections (when relevant).
 5. Temporal dimension (temporally-restricted criteria): restrict to recent
 reports or to sentences containing a date within the inclusion date range
 (Heideltime)

  Decision: trigger met decision as soon as at least one relevant term is found
 in the text (two sub-criteria for ADVANCED-CAD).

LIMICS Nov. 19, 2018 95
Terminology-based methods: results

 met not met

 Prec. Rec. F1 Prec. Rec. F1

ABDOMINAL 0.85 0.93 0.89 0.96 0.91 0.94

 ADV.-CAD
 HBA1C 0.74 0.87 0.80 0.82 0.66 0.73

ASP-FOR-MI 0.83 0.91 0.87 0.45 0.28 0.34

 DIETSUPP 0.91 0.89 0.90 0.88 0.90 0.89

M-DIABETES 0.90 0.86 0.88 0.87 0.91 0.89

 MI-6MOS 0.67 0.50 0.57 0.95 0.97 0.96

LIMICS Nov. 19, 2018 96
Conclusion
 • Improve learning methods:
 – Active learning
 – Knowledge transfer
 – Domain adaptation
 – Distant supervision
 – Patient representation
 – …

 • But also secure the information:
 – Better concept identification and normalization
 – Joint use of structured and textual data in EHRs
 – More formal definition of phenotypes

LIMICS Nov. 19, 2018 97
Merci

 98
Vous pouvez aussi lire