CLASSIFICATION DES DONNÉES À GRANDE ÉCHELLE ET EXPLORATION DE DONNÉES LONGITUDINALES POUR L'ANALYSE DE SURVIE - Jianfei Zhang
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
UNIVERSITÉ DE SHERBROOKE CLASSIFICATION DES DONNÉES À GRANDE ÉCHELLE ET EXPLORATION DE DONNÉES LONGITUDINALES POUR L’ANALYSE DE SURVIE par Jianfei Zhang Thèse présentée au Département d’informatique en vue de l’obtention du grade de philosophiæ doctor (Ph.D.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Québec, Canada 22 mai 2019
UNIVERSITÉ DE SHERBROOKE LARGE-SCALE DATA CLASSIFICATION AND LONGITUDINAL DATA MINING FOR SURVIVAL ANALYSIS by Jianfei Zhang Thesis submitted to the Department of Computer Science for review to obtain the degree of Doctor of Philosophy (Ph.D.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Quebec, Canada May 22, 2019
Sommaire L’analyse de survie est une branche fondamentale des statistiques qui a été dévelop- pée pour traiter des problèmes liés au temps d’apparition d’un évènement. Son ap- plication a suscité de nombreux intérêts dans divers domaines tels que l’ingénierie, la médecine, les soins de santé, etc. Afin de prédire le temps de la réalisation d’un évènement, de nombreux modèles de survie ont été développées. Dû au développe- ment des collectes de données et des techniques de détection, la méga-données et les changements de variables dans le temps sont devenus plus fréquent dans le monde réel. Classification de données à grande échelle et le forage de données longitudinales sont devenus un domaine de recherche important dans l’analyse de survie. Une grande richesse de variables provient de données en augmentation constante, ce qui complique l’analyse de survie avec les approches existantes, telles qu’une infor- mation de survie incomplète due à un taux de censure élevé dans les observations, une corrélation non linéaire entre variables, des variables fortement corrélées et des variables non pertinentes dans les données de grande dimension, les variables vari- ant dans le temps dans les études longitudinales, les hypothèses statistiquement cir- conscrites dans la modélisation de la survie et les distributions complexes dans les données massive de grande taille. Pour pallier à ces problèmes, la présente thèse présente plusieurs méthodologies de modélisation et de prévision pour la classification de données à grande échelle ainsi que l’analyse de survie. En effet, la thèse présente les contributions suivantes; une nouvelle fonction du risque accumulé qui tient compte de manière concise et effec- tive des probabilités de survie et variables dépendantes du temps dans les données longitudinales; une nouvelle modélisation des risques semi-proportionnels, qui rend i
Sommaire les coefficients de régression de Cox variables dans le temps localement et applica- bles pour traiter des données variant de manière intermittente; un nouvel ordon- nancement des données de temps à l’événement et une fonction de vraisemblance complète qui permet d’estimer plus efficacement la vraisemblance en prédisant l’occurrence des événements à différents intervalles de temps; un réseau de neurones de survie purement axé sur les données, qui estime de manière additive un risque d’échec latent et effectue plusieurs classifications binaires pour générer des pronostics de probabilité de survie pour la prédiction de durée de vie utile restante; un nou- veau modèle bayésien incorporant la classification naïve de Bayes ainsi qu’une nou- velle pondération dans une minimisation du risque structurel prenant en compte les données de grande dimension; une sélection inédite des caractéristiques de survie qui explore la pertinence du facteur de risque par rapport à la probabilité de survie souhaitée au moyen d’une pondération de la fonction de Dirichlet dans le modèle de Cox. Les approches proposées sont appliquées à diverses données du monde réel. L’apprentissage machine appliquée à la survie est spécifiquement étudiée grâce aux dossiers de santé électroniques des patients atteints d’une MPOC. Les résultats de la validation croisée démontrent que ces approches surpassent les modèles de prédic- tion de pointe en termes de AUC, d’indice de concordance et de score de Brier, et offrent des performances supérieures à celles des méthodes de classification existantes en termes de spécificité, de sensibilité et de F-mesure. Les approches de prévision de la survie et de sélection des caractéristiques proposées se caractérisent par leur efficacité et leur généralisabilité, et sont donc très promet- teuses dans diverses utilisations pratiques. Le modèle de classification bayésien pro- posé peut tirer parti de l’équilibre entre flexibilité et capacité de généralisation des fonctions discriminantes, et sélectionner de puissantes fonctions discriminantes tout en limitant la complexité du classifieur. Mots-clés: Temps à l’Événement; Facteur de Risque Variant dans le Temps; Régres- sion de Cox; Pondération des Caractéristiques; Bayes; Classification; Réseau Neu- ronal; Données Massives ii
Abstract Specifically developed for dealing with time-to-event data, survival analysis has been a topic of practical interest in many fields, including manufacturing, medicine and healthcare. A considerable number of survival statistical approaches have been de- veloped over time, primarily to perform time-to-event prediction. Due to the de- velopment of data collection and detection techniques, big data and time-varying variables have become increasingly frequent in most real-world domains. Large-scale data classification and Longitudinal data mining have been a significant field of re- search in survival analysis. The great wealth of variables arising from ever-increasing data has made survival analysis a minefield for the existing approaches, bristling with challenges that include incomplete survival information due to high censoring rate in the observational world, nonlinear functional correlation between variables, highly correlated variables and irrelevant variables in high-dimensional data, time-varying variables in longitu- dinal studies, statistically circumscribed assumptions in survival modeling, and com- plex distributions in high-dimensional massive sample-size data. This dissertation proposes a number of modeling and prediction methodologies for large-scale data classification and survival analysis, including a novel accumula- tive hazard which captures the relationship between survival probability and time- varying variables of longitudinal data in a concise but effective way; a new semi- proportional hazards modeling which makes the Cox regression coefficients locally time-varying and applicable for tackling intermittently time-varying data; a new se- quencing of time-to-event data and a full-fitting likelihood to be more efficiently estimated by predicting event occurrence across the unit time intervals; a purely iii
Abstract data-driven survival neural network that additively estimates a latent failure risk and performs multiple binary classifications to generate prognostics of survival proba- bility for remaining useful life prediction; a new Bayesian model that incorporates the naïve Bayes and the newly developed feature weighting into a structural risk minimization for handling high-dimensional data; a novel survival feature selection approach that explores risk factors’ relevance to the desired survival probability by means of a Dirichlet-based feature weighting in the Cox model. The proposed approaches are applied to various real-world data. The survival learning machine is specifically investigated on the electronic health records for pa- tients diagnosed with COPD. The cross-validation results demonstrate that these approaches outperform the current state-of-the-art prediction models in terms of AUC, concordance index and Brier score, and yield higher performances than the ex- isting classification methods in terms of specificity, sensitivity and F-measure. The proposed survival prediction and feature selection approaches are characterized by effectiveness and generalizability, and therefore show great promise for various practical uses. The proposed Bayesian classification model can leverage the balance between flexibility and generalization ability of the discriminant functions, and se- lect powerful discriminant functions while keeping the complexity of the classifier low. Keywords: Time-to-Event; Time-varying Risk Factor; Cox Regression; Feature Weighting; Bayes; Classification; Neural Network; Massive Data iv
Acknowledgements This thesis and my previous research publications would not have been possible without the support of a number of wonderful individuals — My heartfelt thanks and appreciation to all of them. I owe my deepest gratitude to my supervisor Professor Shengrui Wang for his un- tiring support throughout my student life in Sherbrooke. I greatly appreciate his guidance and encouragement for my studies and research. It has been a wonderful experience of working with and learning from him. I have benefited greatly from his expertise and will never forget the experience. He demonstrated what a brilliant and hard-working scientist can accomplish. He has always been so kind, friendly and accommodating to me and I really appreciate all he has done for my career. I would like to express my very great appreciation to my co-supervisor Professor Alain Vanasse for guiding me to research topics that not only held my interest but also made me want to explore on my own and learn more. His enthusiastic guid- ance into the world of computational health has been a valuable input for my re- search and this thesis. Without his help, I would not have been able to successfully conduct my research. I have greatly benefited and am deeply appreciative. I would like to express my warmest gratitude to my co-supervisor Professor Lifei Chen for his continuous support over the years. He was always willing to help me. His expertise, passion and patience have had an impact on me. There is no way to express how much it has meant to me to be working with him. v
Acknowledgements I am thankful to Dr Josiane Courteau for COPD data collection and comments for my research work. Special thanks go to my colleagues Aurélien Bach and Etienne Gael Tajeuna for their help with model tests and Sommaire. Thanks very much to Mme Mireille Courteau for her help with discussions. I am grateful to Mme Carol Harris for linguistic assistance on this thesis and all my research publications. I especially wish to thank Professor Martin Beaudry and the jury members for their insightful comments and hard questions aimed at improving my thesis. I am deeply indebted to those who have accompanied and shared their knowledge with me at the ProspectUS Laboratory: Mauricio Chiazzaro, Ziwei He, Rongbo Chen, Philippe Chatigny, and many others. I would like to thank Mme Lynn Lebrun and Mme Chantal Proulx at Département d’Informatique for taking care of all the administrative matters. I am especially grateful to the China Scholarship Council (CSC) and the National Sciences and Engineering Research Council of Canada (NSERC) Grant to Professor Shengrui Wang, for funding my education and research. Huge thanks to my friends Redouane El Bouchtaoui and Haidar Boulegroun who have been making my life in Québec smooth and enjoyable. I could not have gotten through the tough times without either of them. Lastly, my deep and sincere gratitude to my parents and my sister for their unpar- alleled love, help and support. While it is likely that they have never fully grasped what it was all about, they have been keen to know what I was doing and how I was progressing. They encouraged me to explore my desired directions in life and seek my own destiny. I dedicate this milestone to them. vi
Vous pouvez aussi lire