Proposition de sujet de thèse - CEA-MITIC

La page est créée Benoît Dupuy
 
CONTINUER À LIRE
Proposition de sujet de thèse
  Modèles de comptages à inflation de zéros et généralisations.
                   Applications en santé.

Identité des Directeurs de thèse et des Laboratoires de rattache-
ment

   • Aliou DIOP
     Professeur Titulaire
     LERSTAD, UFR SAT, Université Gaston Berger
     Saint-Louis, Sénégal
   • Jean-François DUPUY
     Professeur des universités
     IRMAR-INSA Rennes
     Rennes, France

Contexte du travail.
Les modèles de régression pour données de comptage (tels que les modèles bi-
nomial ou Poisson) sont d’un usage courant en épidémiologie, santé, environ-
nement, assurance, où ils permettent, par exemple, d’estimer la probabilité
de survenue d’un événement donné, ainsi que le nombre moyen d’occurrences
de cet événement, chez un individu identifié par un vecteur de variables ex-
plicatives. Ces modèles permettent également d’identifier les déterminants
de la survenue d’un événement donné (apparition d’une maladie, sollicita-
tion d’une consultation auprès d’un praticien de santé, survenue d’un ac-
cident. . . ). L’inférence statistique (estimation, tests d’hypothèses) dans ces
modèles est bien établie et repose généralement sur la méthode du maximum
de vraisemblance, qui fournit des estimateurs consistants et asymptotique-
ment gaussiens des paramètres du modèle (voir [1, 2]).
Des extensions récentes de ces modèles ont été proposées pour prendre en
compte la présence de zéros en sur-nombre dans les données de comptages.
Par exemple, l’excès de zéros survient dans les études d’économie de la santé,
lorsque l’on s’intéresse à la consommation de soins dans une population don-
née (voir [3, 4]). Il intervient également lorsque l’on cherche à estimer les
probabilités de survenue d’une maladie conférant une immunité à la suite
d’une première infection (par exemple, la dengue).

                                       1
Hall (2000) [5] a ainsi récemment introduit le modèle de régression bino-
mial à inflation de zéros (modèle "ZIB" pour "zero-inflated binomial"). Au-
cune étude mathématique de ce modèle n’avait été entreprise jusqu’à ce que
Diop et al. (2011, 2016) [6, 7] en étudient les propriétés d’identifiabilité et
l’asymptotique (convergences presque sûre et en loi) des estimateurs du max-
imum de vraisemblance (emv), dans le cas particulier où le modèle binomial
B(mi , πi ) sous-jacent au modèle ZIB est tel que mi = 1 pour tout i (i désigne
l’indice de l’observation, dans un échantillon de taille n).
Diallo et al. (2017) [8] ont généralisé ces résultats au cas non-contraint où
mi ∈ {1, 2, . . .} pour i = 1, . . . , n, tandis que Dupuy (2017) [9] les a étendus
à un modèle à inflation des bornes 0 et mi du support de la loi binomiale
sous-jacente au modèle ZIB.
Récemment, Diallo et al. (2018) [10] ont introduit et étudié un modèle (ap-
pelé modèle ZIM) pour données de comptage multinomiales avec inflation de
zéros groupés, pour rendre compte des dépendances entre les composantes
d’un comptage multivarié sujet à excès de zéros. Des emv consistants et
asympotiquement gaussiens ont été construits. Ce modèle a été appliqué à
l’étude de la consommation de soins médicaux et à l’identification des déter-
minants du non-recours aux soins, au sein d’une population de personnes
âgées aux USA (voir [10]).
Objectifs et méthodologie.
L’objectif de ce travail de thèse est de poursuivre les travaux [6, 7, 8, 9, 10]
menés sur le thème des modèles à inflation de zéros, et en particulier sur les
modèles ZIB et ZIM1 . Il s’agira d’enrichir ces modèles pour mieux rendre
compte de la complexité des phénomènes étudiés et des données recueillies,
en particulier, dans les domaines de l’évaluation de la consommation de soins,
de l’étude des déterminants du non-recours aux soins et de l’identification
des populations les plus susceptibles de renoncer aux soins.
Les directions de travail suivantes (qui constituent une liste non exhaustive)
seront ainsi proposées au candidat:

      • introduction d’effets aléatoires dans le modèle ZIM pour prendre en
        compte la corrélation qui peut exister entre les réponses observées chez
        les différents patients (et due, par exemple, à des effets géographiques
1
    Ces travaux ont été réalisés dans le cadre des thèses en co-tutelle (respectivement
    soutenues en 2012 et 2017) d’Aba Diop et Alpha Oumar Diallo, co-encadrées par Aliou
    Diop, Université Gaston Berger, Saint-Louis, Sénégal et Jean-François Dupuy, Université
    de Rennes, France.

                                              2
ou des clusters familiaux). Le candidat construira des estimateurs
     des paramètres de ce nouveau modèle et en étudiera les propriétés
     (théoriquement et/ou au moyen d’études de simulation). Un soin par-
     ticulier sera apporté aux aspects algorithmiques de l’inférence statis-
     tique dans le modèle proposé. Des algorithmes de type EM (ou ses
     variantes stochastiques) seront implémentées et l’inférence statistique
     associée sera validée au moyen de simulations exhaustives.
   • introduction d’effets non-linéaires des déterminants du non-recours aux
     soins, dans les modèles ZIB et ZIB. Le candidat pourra proposer des
     versions semi-paramétriques de ces modèles et construire des estima-
     teurs adaptés (par exemple, par projection dans des bases de fonctions
     appropriées).
   • introduction d’une dimension longitudinale dans le modèle ZIM (pour
     prendre en compte la présence de données répétées). Le candidat
     développera une méthode d’estimation adaptée à ce contexte et l’évaluera
     théoriquement et/ou numériquement.
   • adaptation des techniques d’inférence développées dans [10] au con-
     texte de données manquantes (de la variable réponse et/ou des vari-
     ables explicatives). Des méthodes d’estimation appropriées seront dévelop-
     pées (par exemple: méthode de pondération par l’inverse de la proba-
     bilité d’observation - ou IPW).
   • application des modèles ZIB et ZIM à la classification des patients
     (non-recourant permanent vs recourant occasionnel).

De manière générale, chaque avancée méthodologique devra être évaluée
théoriquement (par la démonstration rigoureuse des bonnes propriétés asymp-
totiques des estimateurs construits) et au moyen d’études de simulation, qui
permettront de compléter les résultats asymptotiques par une évaluation du
comportement à distance finie des estimateurs proposés (ces études, générale-
ment gourmandes en ressources informatiques utiliseront le serveur de calcul
multi-coeurs dont s’est équipé l’Université de Rennes).
L’ensemble des modèles et méthodes proposés par le candidat devra égale-
ment être validé au travers de leur application rigoureuse à des jeux de
données réelles issues d’études en économie de la santé. Le(la) candidat(e)
attachera une importance particulière à la diffusion de ses résultats au sein
de la communauté de l’économie de la santé.
Planning du travail et financement.

                                     3
La première année du travail de thèse sera consacrée à l’assimilation de la
littérature sur les modèles de régression à inflation de zéros. Au cours de
la deuxième année, le(la) candidat(e) développera les extensions proposées
ci-dessus et les implémentera à l’aide du logiciel statistique open-source et
gratuit R. Une attention toute particulière sera portée à l’application des
modèles développés à des données réelles, en lien avec les défis du développe-
ment en Afrique (en particulier, dans le domaine de la santé). Des études
théoriques de statistique mathématique seront réalisées pour valider les so-
lutions proposées. Ces études seront complétées, au cours de la troisième an-
née, par des études poussées de simulation numériques. La troisième année
de la thèse sera également consacrée à la diffusion des résultats obtenus (ré-
daction d’articles à destination de revues internationales à comité de lecture,
participation à des conférences et workshops) et à la rédaction du document
de thèse.
Le travail de thèse sera soutenu, en particulier, par des financements de type
"Actions Internationales" (financement sur projet attribué par l’Université
de Rennes, France) et "Action exploratoire" (financement sur projet attribué
par le Centre national de la recherche scientifique, France).
Profil du candidat
Le candidat recruté devra répondre au profil suivant :

   • Etre titulaire d’un master en mathématiques appliquées, option Statis-
     tique ou Probabilité et Statistique ;
   • intérêt pour les applications des méthodes statistiques en santé, envi-
     ronnement;
   • des compétences en programmation sous R seraient un plus.

Références
[1] Hilbe J. M. Logistic regression models. Chapman & Hal, 2009.

[2] McCullagh P.,?Äé Nelder J. A. Generalized Linear Models. Springer,
1983.

[3] Deb P., Trivedi P. K. Demand for medical care by the elderly: a finite
mixture approach. Journal of Applied Econometrics 12(3), 313-336, 1997.

                                      4
[4] Staub K. E., Winkelmann R. Consistent estimation of zero-inflated count
models. Health Economics 22(6), 673-686, 2013.

[5] Hall D. B. Zero-inflated Poisson and binomial regression with random
effects: a case study. Biometrics 56(4), 1030-1039, 2000.

[6] Diop A., Diop A., Dupuy J.-F. Simulation-based inference in a zero-
inflated Bernoulli regression model. Communications in Statistics - Simula-
tion and Computation 45(10), 3597-3614, 2016.

[7] Diop A., Diop A., Dupuy J.-F. Maximum likelihood estimation in the
logistic regression model with a cure fraction. Electronic Journal of Statis-
tics 5, 460-483, 2011.

[8] Diallo A., Diop A., Dupuy J.-F. Asymptotic properties of the maximum
likelihood estimator in zero-inflated binomial regression. Communications in
Statistics - Theory and Methods 46(20), 9930-9948, 2017.

[9] Dupuy J.-F. Inference in a generalized endpoint-inflated binomial regres-
sion model. Statistics 51(4), 888-903, 2017.

[10] Diallo A., Diop A., Dupuy J.-F. Analysis of multinomial counts with
joint zero-inflation, with an application to health economics. Journal of Sta-
tistical Planning and Inference 194, 85-105, 2018.

                                      5
Vous pouvez aussi lire