CLASSIFICATION DES DONNÉES À GRANDE ÉCHELLE ET EXPLORATION DE DONNÉES LONGITUDINALES POUR L'ANALYSE DE SURVIE - Jianfei Zhang

 
CONTINUER À LIRE
UNIVERSITÉ DE
  SHERBROOKE

CLASSIFICATION DES DONNÉES À GRANDE
     ÉCHELLE ET EXPLORATION DE
   DONNÉES LONGITUDINALES POUR
          L’ANALYSE DE SURVIE

                                par

                           Jianfei Zhang

          Thèse présentée au Département d’informatique
    en vue de l’obtention du grade de philosophiæ doctor (Ph.D.)

                    FACULTÉ DES SCIENCES

                  UNIVERSITÉ DE SHERBROOKE

                    Sherbrooke, Québec, Canada

                           22 mai 2019
UNIVERSITÉ DE
 SHERBROOKE

LARGE-SCALE DATA CLASSIFICATION AND
  LONGITUDINAL DATA MINING FOR
         SURVIVAL ANALYSIS

                                by

                          Jianfei Zhang

     Thesis submitted to the Department of Computer Science
  for review to obtain the degree of Doctor of Philosophy (Ph.D.)

                   FACULTÉ DES SCIENCES

                 UNIVERSITÉ DE SHERBROOKE

                   Sherbrooke, Quebec, Canada

                          May 22, 2019
Sommaire

L’analyse de survie est une branche fondamentale des statistiques qui a été dévelop-
pée pour traiter des problèmes liés au temps d’apparition d’un évènement. Son ap-
plication a suscité de nombreux intérêts dans divers domaines tels que l’ingénierie,
la médecine, les soins de santé, etc. Afin de prédire le temps de la réalisation d’un
évènement, de nombreux modèles de survie ont été développées. Dû au développe-
ment des collectes de données et des techniques de détection, la méga-données et les
changements de variables dans le temps sont devenus plus fréquent dans le monde
réel. Classification de données à grande échelle et le forage de données longitudinales
sont devenus un domaine de recherche important dans l’analyse de survie.
Une grande richesse de variables provient de données en augmentation constante, ce
qui complique l’analyse de survie avec les approches existantes, telles qu’une infor-
mation de survie incomplète due à un taux de censure élevé dans les observations,
une corrélation non linéaire entre variables, des variables fortement corrélées et des
variables non pertinentes dans les données de grande dimension, les variables vari-
ant dans le temps dans les études longitudinales, les hypothèses statistiquement cir-
conscrites dans la modélisation de la survie et les distributions complexes dans les
données massive de grande taille.
Pour pallier à ces problèmes, la présente thèse présente plusieurs méthodologies de
modélisation et de prévision pour la classification de données à grande échelle ainsi
que l’analyse de survie. En effet, la thèse présente les contributions suivantes; une
nouvelle fonction du risque accumulé qui tient compte de manière concise et effec-
tive des probabilités de survie et variables dépendantes du temps dans les données
longitudinales; une nouvelle modélisation des risques semi-proportionnels, qui rend

                                          i
Sommaire

les coefficients de régression de Cox variables dans le temps localement et applica-
bles pour traiter des données variant de manière intermittente; un nouvel ordon-
nancement des données de temps à l’événement et une fonction de vraisemblance
complète qui permet d’estimer plus efficacement la vraisemblance en prédisant
l’occurrence des événements à différents intervalles de temps; un réseau de neurones
de survie purement axé sur les données, qui estime de manière additive un risque
d’échec latent et effectue plusieurs classifications binaires pour générer des pronostics
de probabilité de survie pour la prédiction de durée de vie utile restante; un nou-
veau modèle bayésien incorporant la classification naïve de Bayes ainsi qu’une nou-
velle pondération dans une minimisation du risque structurel prenant en compte
les données de grande dimension; une sélection inédite des caractéristiques de survie
qui explore la pertinence du facteur de risque par rapport à la probabilité de survie
souhaitée au moyen d’une pondération de la fonction de Dirichlet dans le modèle
de Cox.
Les approches proposées sont appliquées à diverses données du monde réel.
L’apprentissage machine appliquée à la survie est spécifiquement étudiée grâce aux
dossiers de santé électroniques des patients atteints d’une MPOC. Les résultats de
la validation croisée démontrent que ces approches surpassent les modèles de prédic-
tion de pointe en termes de AUC, d’indice de concordance et de score de Brier, et
offrent des performances supérieures à celles des méthodes de classification existantes
en termes de spécificité, de sensibilité et de F-mesure.
Les approches de prévision de la survie et de sélection des caractéristiques proposées
se caractérisent par leur efficacité et leur généralisabilité, et sont donc très promet-
teuses dans diverses utilisations pratiques. Le modèle de classification bayésien pro-
posé peut tirer parti de l’équilibre entre flexibilité et capacité de généralisation des
fonctions discriminantes, et sélectionner de puissantes fonctions discriminantes tout
en limitant la complexité du classifieur.

Mots-clés: Temps à l’Événement; Facteur de Risque Variant dans le Temps; Régres-
sion de Cox; Pondération des Caractéristiques; Bayes; Classification; Réseau Neu-
ronal; Données Massives

                                           ii
Abstract

Specifically developed for dealing with time-to-event data, survival analysis has been
a topic of practical interest in many fields, including manufacturing, medicine and
healthcare. A considerable number of survival statistical approaches have been de-
veloped over time, primarily to perform time-to-event prediction. Due to the de-
velopment of data collection and detection techniques, big data and time-varying
variables have become increasingly frequent in most real-world domains. Large-scale
data classification and Longitudinal data mining have been a significant field of re-
search in survival analysis.
The great wealth of variables arising from ever-increasing data has made survival
analysis a minefield for the existing approaches, bristling with challenges that include
incomplete survival information due to high censoring rate in the observational
world, nonlinear functional correlation between variables, highly correlated variables
and irrelevant variables in high-dimensional data, time-varying variables in longitu-
dinal studies, statistically circumscribed assumptions in survival modeling, and com-
plex distributions in high-dimensional massive sample-size data.
This dissertation proposes a number of modeling and prediction methodologies
for large-scale data classification and survival analysis, including a novel accumula-
tive hazard which captures the relationship between survival probability and time-
varying variables of longitudinal data in a concise but effective way; a new semi-
proportional hazards modeling which makes the Cox regression coefficients locally
time-varying and applicable for tackling intermittently time-varying data; a new se-
quencing of time-to-event data and a full-fitting likelihood to be more efficiently
estimated by predicting event occurrence across the unit time intervals; a purely

                                          iii
Abstract

data-driven survival neural network that additively estimates a latent failure risk and
performs multiple binary classifications to generate prognostics of survival proba-
bility for remaining useful life prediction; a new Bayesian model that incorporates
the naïve Bayes and the newly developed feature weighting into a structural risk
minimization for handling high-dimensional data; a novel survival feature selection
approach that explores risk factors’ relevance to the desired survival probability by
means of a Dirichlet-based feature weighting in the Cox model.
The proposed approaches are applied to various real-world data. The survival
learning machine is specifically investigated on the electronic health records for pa-
tients diagnosed with COPD. The cross-validation results demonstrate that these
approaches outperform the current state-of-the-art prediction models in terms of
AUC, concordance index and Brier score, and yield higher performances than the ex-
isting classification methods in terms of specificity, sensitivity and F-measure.
The proposed survival prediction and feature selection approaches are characterized
by effectiveness and generalizability, and therefore show great promise for various
practical uses. The proposed Bayesian classification model can leverage the balance
between flexibility and generalization ability of the discriminant functions, and se-
lect powerful discriminant functions while keeping the complexity of the classifier
low.

Keywords: Time-to-Event; Time-varying Risk Factor; Cox Regression; Feature
Weighting; Bayes; Classification; Neural Network; Massive Data

                                          iv
Acknowledgements

This thesis and my previous research publications would not have been possible
without the support of a number of wonderful individuals — My heartfelt thanks
and appreciation to all of them.

I owe my deepest gratitude to my supervisor Professor Shengrui Wang for his un-
tiring support throughout my student life in Sherbrooke. I greatly appreciate his
guidance and encouragement for my studies and research. It has been a wonderful
experience of working with and learning from him. I have benefited greatly from his
expertise and will never forget the experience. He demonstrated what a brilliant and
hard-working scientist can accomplish. He has always been so kind, friendly and
accommodating to me and I really appreciate all he has done for my career.

I would like to express my very great appreciation to my co-supervisor Professor
Alain Vanasse for guiding me to research topics that not only held my interest but
also made me want to explore on my own and learn more. His enthusiastic guid-
ance into the world of computational health has been a valuable input for my re-
search and this thesis. Without his help, I would not have been able to successfully
conduct my research. I have greatly benefited and am deeply appreciative.

I would like to express my warmest gratitude to my co-supervisor Professor Lifei
Chen for his continuous support over the years. He was always willing to help me.
His expertise, passion and patience have had an impact on me. There is no way to
express how much it has meant to me to be working with him.

                                         v
Acknowledgements

I am thankful to Dr Josiane Courteau for COPD data collection and comments for
my research work.

Special thanks go to my colleagues Aurélien Bach and Etienne Gael Tajeuna for their
help with model tests and Sommaire.

Thanks very much to Mme Mireille Courteau for her help with discussions.

I am grateful to Mme Carol Harris for linguistic assistance on this thesis and all my
research publications.

I especially wish to thank Professor Martin Beaudry and the jury members for their
insightful comments and hard questions aimed at improving my thesis.

I am deeply indebted to those who have accompanied and shared their knowledge
with me at the ProspectUS Laboratory: Mauricio Chiazzaro, Ziwei He, Rongbo
Chen, Philippe Chatigny, and many others.

I would like to thank Mme Lynn Lebrun and Mme Chantal Proulx at Département
d’Informatique for taking care of all the administrative matters.
I am especially grateful to the China Scholarship Council (CSC) and the National
Sciences and Engineering Research Council of Canada (NSERC) Grant to Professor
Shengrui Wang, for funding my education and research.

Huge thanks to my friends Redouane El Bouchtaoui and Haidar Boulegroun who
have been making my life in Québec smooth and enjoyable. I could not have gotten
through the tough times without either of them.

Lastly, my deep and sincere gratitude to my parents and my sister for their unpar-
alleled love, help and support. While it is likely that they have never fully grasped
what it was all about, they have been keen to know what I was doing and how I
was progressing. They encouraged me to explore my desired directions in life and
seek my own destiny. I dedicate this milestone to them.

                                         vi
Vous pouvez aussi lire