Proposition de sujet de thèse - CEA-MITIC
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Proposition de sujet de thèse Modèles de comptages à inflation de zéros et généralisations. Applications en santé. Identité des Directeurs de thèse et des Laboratoires de rattache- ment • Aliou DIOP Professeur Titulaire LERSTAD, UFR SAT, Université Gaston Berger Saint-Louis, Sénégal • Jean-François DUPUY Professeur des universités IRMAR-INSA Rennes Rennes, France Contexte du travail. Les modèles de régression pour données de comptage (tels que les modèles bi- nomial ou Poisson) sont d’un usage courant en épidémiologie, santé, environ- nement, assurance, où ils permettent, par exemple, d’estimer la probabilité de survenue d’un événement donné, ainsi que le nombre moyen d’occurrences de cet événement, chez un individu identifié par un vecteur de variables ex- plicatives. Ces modèles permettent également d’identifier les déterminants de la survenue d’un événement donné (apparition d’une maladie, sollicita- tion d’une consultation auprès d’un praticien de santé, survenue d’un ac- cident. . . ). L’inférence statistique (estimation, tests d’hypothèses) dans ces modèles est bien établie et repose généralement sur la méthode du maximum de vraisemblance, qui fournit des estimateurs consistants et asymptotique- ment gaussiens des paramètres du modèle (voir [1, 2]). Des extensions récentes de ces modèles ont été proposées pour prendre en compte la présence de zéros en sur-nombre dans les données de comptages. Par exemple, l’excès de zéros survient dans les études d’économie de la santé, lorsque l’on s’intéresse à la consommation de soins dans une population don- née (voir [3, 4]). Il intervient également lorsque l’on cherche à estimer les probabilités de survenue d’une maladie conférant une immunité à la suite d’une première infection (par exemple, la dengue). 1
Hall (2000) [5] a ainsi récemment introduit le modèle de régression bino- mial à inflation de zéros (modèle "ZIB" pour "zero-inflated binomial"). Au- cune étude mathématique de ce modèle n’avait été entreprise jusqu’à ce que Diop et al. (2011, 2016) [6, 7] en étudient les propriétés d’identifiabilité et l’asymptotique (convergences presque sûre et en loi) des estimateurs du max- imum de vraisemblance (emv), dans le cas particulier où le modèle binomial B(mi , πi ) sous-jacent au modèle ZIB est tel que mi = 1 pour tout i (i désigne l’indice de l’observation, dans un échantillon de taille n). Diallo et al. (2017) [8] ont généralisé ces résultats au cas non-contraint où mi ∈ {1, 2, . . .} pour i = 1, . . . , n, tandis que Dupuy (2017) [9] les a étendus à un modèle à inflation des bornes 0 et mi du support de la loi binomiale sous-jacente au modèle ZIB. Récemment, Diallo et al. (2018) [10] ont introduit et étudié un modèle (ap- pelé modèle ZIM) pour données de comptage multinomiales avec inflation de zéros groupés, pour rendre compte des dépendances entre les composantes d’un comptage multivarié sujet à excès de zéros. Des emv consistants et asympotiquement gaussiens ont été construits. Ce modèle a été appliqué à l’étude de la consommation de soins médicaux et à l’identification des déter- minants du non-recours aux soins, au sein d’une population de personnes âgées aux USA (voir [10]). Objectifs et méthodologie. L’objectif de ce travail de thèse est de poursuivre les travaux [6, 7, 8, 9, 10] menés sur le thème des modèles à inflation de zéros, et en particulier sur les modèles ZIB et ZIM1 . Il s’agira d’enrichir ces modèles pour mieux rendre compte de la complexité des phénomènes étudiés et des données recueillies, en particulier, dans les domaines de l’évaluation de la consommation de soins, de l’étude des déterminants du non-recours aux soins et de l’identification des populations les plus susceptibles de renoncer aux soins. Les directions de travail suivantes (qui constituent une liste non exhaustive) seront ainsi proposées au candidat: • introduction d’effets aléatoires dans le modèle ZIM pour prendre en compte la corrélation qui peut exister entre les réponses observées chez les différents patients (et due, par exemple, à des effets géographiques 1 Ces travaux ont été réalisés dans le cadre des thèses en co-tutelle (respectivement soutenues en 2012 et 2017) d’Aba Diop et Alpha Oumar Diallo, co-encadrées par Aliou Diop, Université Gaston Berger, Saint-Louis, Sénégal et Jean-François Dupuy, Université de Rennes, France. 2
ou des clusters familiaux). Le candidat construira des estimateurs des paramètres de ce nouveau modèle et en étudiera les propriétés (théoriquement et/ou au moyen d’études de simulation). Un soin par- ticulier sera apporté aux aspects algorithmiques de l’inférence statis- tique dans le modèle proposé. Des algorithmes de type EM (ou ses variantes stochastiques) seront implémentées et l’inférence statistique associée sera validée au moyen de simulations exhaustives. • introduction d’effets non-linéaires des déterminants du non-recours aux soins, dans les modèles ZIB et ZIB. Le candidat pourra proposer des versions semi-paramétriques de ces modèles et construire des estima- teurs adaptés (par exemple, par projection dans des bases de fonctions appropriées). • introduction d’une dimension longitudinale dans le modèle ZIM (pour prendre en compte la présence de données répétées). Le candidat développera une méthode d’estimation adaptée à ce contexte et l’évaluera théoriquement et/ou numériquement. • adaptation des techniques d’inférence développées dans [10] au con- texte de données manquantes (de la variable réponse et/ou des vari- ables explicatives). Des méthodes d’estimation appropriées seront dévelop- pées (par exemple: méthode de pondération par l’inverse de la proba- bilité d’observation - ou IPW). • application des modèles ZIB et ZIM à la classification des patients (non-recourant permanent vs recourant occasionnel). De manière générale, chaque avancée méthodologique devra être évaluée théoriquement (par la démonstration rigoureuse des bonnes propriétés asymp- totiques des estimateurs construits) et au moyen d’études de simulation, qui permettront de compléter les résultats asymptotiques par une évaluation du comportement à distance finie des estimateurs proposés (ces études, générale- ment gourmandes en ressources informatiques utiliseront le serveur de calcul multi-coeurs dont s’est équipé l’Université de Rennes). L’ensemble des modèles et méthodes proposés par le candidat devra égale- ment être validé au travers de leur application rigoureuse à des jeux de données réelles issues d’études en économie de la santé. Le(la) candidat(e) attachera une importance particulière à la diffusion de ses résultats au sein de la communauté de l’économie de la santé. Planning du travail et financement. 3
La première année du travail de thèse sera consacrée à l’assimilation de la littérature sur les modèles de régression à inflation de zéros. Au cours de la deuxième année, le(la) candidat(e) développera les extensions proposées ci-dessus et les implémentera à l’aide du logiciel statistique open-source et gratuit R. Une attention toute particulière sera portée à l’application des modèles développés à des données réelles, en lien avec les défis du développe- ment en Afrique (en particulier, dans le domaine de la santé). Des études théoriques de statistique mathématique seront réalisées pour valider les so- lutions proposées. Ces études seront complétées, au cours de la troisième an- née, par des études poussées de simulation numériques. La troisième année de la thèse sera également consacrée à la diffusion des résultats obtenus (ré- daction d’articles à destination de revues internationales à comité de lecture, participation à des conférences et workshops) et à la rédaction du document de thèse. Le travail de thèse sera soutenu, en particulier, par des financements de type "Actions Internationales" (financement sur projet attribué par l’Université de Rennes, France) et "Action exploratoire" (financement sur projet attribué par le Centre national de la recherche scientifique, France). Profil du candidat Le candidat recruté devra répondre au profil suivant : • Etre titulaire d’un master en mathématiques appliquées, option Statis- tique ou Probabilité et Statistique ; • intérêt pour les applications des méthodes statistiques en santé, envi- ronnement; • des compétences en programmation sous R seraient un plus. Références [1] Hilbe J. M. Logistic regression models. Chapman & Hal, 2009. [2] McCullagh P.,?Äé Nelder J. A. Generalized Linear Models. Springer, 1983. [3] Deb P., Trivedi P. K. Demand for medical care by the elderly: a finite mixture approach. Journal of Applied Econometrics 12(3), 313-336, 1997. 4
[4] Staub K. E., Winkelmann R. Consistent estimation of zero-inflated count models. Health Economics 22(6), 673-686, 2013. [5] Hall D. B. Zero-inflated Poisson and binomial regression with random effects: a case study. Biometrics 56(4), 1030-1039, 2000. [6] Diop A., Diop A., Dupuy J.-F. Simulation-based inference in a zero- inflated Bernoulli regression model. Communications in Statistics - Simula- tion and Computation 45(10), 3597-3614, 2016. [7] Diop A., Diop A., Dupuy J.-F. Maximum likelihood estimation in the logistic regression model with a cure fraction. Electronic Journal of Statis- tics 5, 460-483, 2011. [8] Diallo A., Diop A., Dupuy J.-F. Asymptotic properties of the maximum likelihood estimator in zero-inflated binomial regression. Communications in Statistics - Theory and Methods 46(20), 9930-9948, 2017. [9] Dupuy J.-F. Inference in a generalized endpoint-inflated binomial regres- sion model. Statistics 51(4), 888-903, 2017. [10] Diallo A., Diop A., Dupuy J.-F. Analysis of multinomial counts with joint zero-inflation, with an application to health economics. Journal of Sta- tistical Planning and Inference 194, 85-105, 2018. 5
Vous pouvez aussi lire