Etude comparative des procedures d estimation

La page est créée Jean-Luc Dufour
 
CONTINUER À LIRE
Etude comparative des procedures d estimation
         du local False Discovery Rate
                         Cyril Dalmasso & Philippe Broët
                    INSERM U472 - Faculté de médecine Paris Sud
                        16, avenue Paul Vaillant-Couturier
                                  94 807 Villejuif

   Résumé

    Les nouvelles technologies de la génomique fonctionnelle produisent des quantités de
données de plus en plus importantes conduisant l’investigateur à e¤ectuer simultanément
des milliers de tests statistiques. Dans ce contexte, le local False Discovery Rate (lo-
calFDR), qui est étroitement lié au False Discovery Rate (FDR) introduit par Benjamini
et Hochberg (1995), est un critère particulièrement adapté pour prendre en compte ce
problème de multiplicité des tests.
    Dans le cadre des procédures d’estimation du localFDR pour lesquelles aucune hy-
pothèse n’est faite sur la distribution de la statistique de test sous l’hypothèse alterna-
tive, nous considérons les méthodes proposées par Efron (2004), Aubert et coll. (2004),
et Scheid et coll. (2004).
    Après une présentation de ces trois méthodes, nous proposons une nouvelle procédure
d’estimation du localFDR. Une étude de simulations est conduite a…n de comparer les
quatre procédures, et ces di¤érentes méthodes sont ensuite appliquées à des données
d’oncologie.

   Mots-clés
   Tests multiples, False Discovery Rate, local False Discovery Rate.

   Abstract

    New technologies in functional genomics produce huge datasets leading to thousands
of statistical tests being performed. In this context, the local False Discovery Rate (lo-
calFDR), which is closely related to the Benjamini and Hochberg’s False Discovery Rate
(FDR), is an interesting criterion in order to address the multiple testing problem.
    In the framework of estimating procedures of the localFDR without any assumption
on the distribution of the test statistic under the alternative hypothesis, we consider the
methods proposed by Efron (2004), Aubert et al. (2004), and Scheid et al. (2004).
    After a presentation of these three methods, we propose a novel procedure for es-
timating the localFDR. A simulation study is conducted in order to compare the four
procedures, and the di¤erent methods are then applied to clinical data.

   Keywords
   Multiple tests, False Discovery Rate, local False Discovery Rate.

                                            1
1    Introduction
Pour toute analyse de données impliquant simultanément un nombre important de tests
statistiques, l’un des problèmes majeurs est la prise en compte de la multiplicité de ces
tests. L’ampleur du nombre de comparaisons e¤ectuées dans le cas d’études de génomique
fonctionnelle à grande échelle qui ont pour objectif d’identi…er les gènes ou séquences dont
les modi…cations sont liées à un facteur biologique ou clinique particulier a entraîné un
renouveau d’intérêt pour le problème des comparaisons multiples.
    Alors que les stratégies habituellement utilisées pour tester une seule hypothèse visent
à contrôler le risque de première espèce, les procédures de comparaisons multiples visent
à contrôler (ou estimer) un autre critère d’erreur tenant compte de l’ensemble des com-
paraisons e¤ectuées.
    Dans le cadre de l’analyse des données de génomique fonctionnelle, le critère le plus
utilisé est aujourd’hui le False Discovery Rate (FDR) introduit en 1995 par Benjamini et
Hochberg [1]. Notant V le nombre total de faux positifs et R le nombre total de positifs
(gènes/séquences déclarés intéressants), le FDR est dé…ni comme l’espérance du taux
de faux positifs : F DR = E 1fR>0g VR : Ce critère, moins restrictif que le classique
Family Wise Error Rate (FWER), qui est la probabilité d’avoir au moins un faux positif,
est bien adapté au cadre exploratoire considéré dans l’analyse des données de génomique
fonctionnelle. A partir du FDR, plusieurs extensions ont été proposées, dont les principales
sont le positive False Discovery Rate (pFDR) et le local False Discovery rate (localFDR).
    Le positive False Discovery Rate (pFDR) est dé…ni comme l’espérance du taux de faux
positives conditionnelle à l’existence d’au moins une découverte (pF DR = E VR jR > 0 ).
Si les statistiques de test sont indépendantes et identiquement distribuées sous l’hypothèse
nulle, Storey [2] a démontré que, pour une région de rejet …xée, le pF DR peut s’écrire
comme une probabilité conditionnelle : pF DR( ) = Pr(H = 0jT 2 ) où T est la
statistique de test et H est la variable indicatrice telle que H = 0 si l’hypothèse nulle H0
est vraie, H = 1 si l’hypothèse alternative H1 est vraie.
    Le localFDR, introduit par Efron en 2001 [3], est dé…ni comme la probabilité pour
un gène de véri…er l’hypothèse nulle conditionnellement à une valeur particulière de la
statistique de test :
                               localF DR(t) = P r(H = 0jT = t):
En notant f la densité marginale de la statistique de test, f0 et f1 les densités condition-
nelles sous H0 et H1 , et 0 = Pr(H = 0), la densité marginale de T s’écrit :

                              f (t) =   0 f0 (t)   + (1   0 )f1 (t):                    (1)

   A partir de cette relation, le localFDR s’écrit : localF DR = 0 f0 (t)=f (t):
   Alors que le pFDR fournit une information globale pour toute une région de rejet,
sans distinguer les gènes proches de la frontière des autres gènes, le localFDR est une
quantité qui fournit une information spéci…que à chaque gène/séquence. Ces critères sont

                                                   2
cependant étroitement liés. En e¤et, pour une région de rejet , le pF DR peut s’écrire
comme l’espérance conditionnelle du localFDR pour t 2 :
                                             R            R
                                           0   f0 (z)dz     localF DR(z)f (z)dz
                    0 Pr(T 2 jH = 0)
      pF DR( ) =                        = R             =        R
                         Pr(T 2 )             f (z)dz              f (z)dz

Ainsi, le localFDR peut permettre à l’investigateur de comparer les taux de faux positifs
de plusieurs sous-ensembles de gènes/séquences dé…nis, par exemple, à partir des fonc-
tions biologiques ou bien des localisations chromosomiques. En pratique, un estimateur
du FDR pour un sous-ensemble sera obtenu par la moyenne des localF DR de tous les
gènes/séquences du sous-ensemble.
    A partir de la modélisation explicite des distributions de la statistique de test sous H0 et
sous H1 et selon une approche fréquentiste (EM algorithme) ou Bayésienne, une estimation
directe du localFDR peut être obtenue. Plusieurs procédures proposent cependant une
estimation du localFDR sans aucune hypothèse sur la distribution de la statistique de
test sous H1 . Ces dernières procédures constituent le cadre de notre exposé. A notre
connaissance, il en existe actuellement trois : la procédure d’Efron [4], celle de Aubert et
coll. [5] et celle de Scheid et coll. [6].
    Après avoir présenté ces trois procédures, nous proposerons une nouvelle procédure
d’estimation du localFDR. Puis, nous présenterons les résultats d’une étude de simulation
comparant les di¤érentes procédures. En…n, nous illustrerons les di¤érentes méthodes sur
des données réelles issues d’une étude en oncologie.

2     Estimation du localFDR sans hypothèse sur H1
Les di¤érentes procédures d’estimation du localFDR présentées sont basées sur une esti-
mation séparée des trois quantités 0 , f0 (t) et f (t):
    Procédure d’Efron (2004)
    Le cadre pratique dans lequel Efron situe l’ensemble de sa procédure est celui dans
lequel une faible proportion de gènes est modi…é ( 10%). L’estimateur retenu pour 0
est la constante 1.
    La densité marginale f (t) est quant à elle estimée par une régression de Poisson. En
pratique, l’ensemble des valeurs observées de la statistique est partitionné en K intervalles
de même longueur, dont les valeurs centrales sont notées xk . L’espérance k du nombre
d’observations contenues dans chaque intervalle, qui est proportionnelle à la densité fk =
f (xk ); est ensuite estimé par une régression de Poisson:
    Supposons que la distribution théorique de la statistique de test sous l’hypothèse nulle
est une loi normale centrée réduite (lorsque ce n’est pas le cas, il est toujours possible
de calculer les degrés de signi…cation et de se ramener à une distribution normale en

                                               3
e¤ectuant la transformation 1 (P ) où est la fonction de répartition d’une distribution
normale centrée réduite). Lorsqu’il existe des covariables non observées ou de fortes
corrélations sou H0 entre les statistiques, la distribution réelle sous l’hypothèse nulle peut
être éloignée de la distribution théorique, et l’utilisation de la distribution théorique peut
avoir des conséquences importantes sur les conclusions de l’analyse.
    La méthode proposée par Efron [4] reste basée sur l’hypothèse que la statistique de
test suit sous l’hypothèse nulle une distribution normale, mais les paramètres de cette
distribution sont estimés à partir des données observées. Sous cette hypothèse, la variance
                                                                   2
 2                       d2                  d2    1   t
 0   est égale à         dt2
                               log f (t) =   dt2   2       0
                                                               0
                                                                       + cte : L’espérance   0   est estimée par la
valeur correspondant au maximum de la densité marginale estimée. Pour estimer la
variance, une régression polynomiale d’ordre 2 des valeurs estimées de log fk sur les valeurs
de xk proches de b0 est e¤ectuée, ce qui permet d’obtenir une estimation de la variance
 2
 0.

     Procédure de Aubert et coll. (2004)
    La méthode proposée par Aubert et coll. [5] est basée sur la distribution des degrés
de signi…cations ordonnés P(1) P(2) ::: P(m) .
    En supposant que les degrés de signi…cation suivent, sous H0 , une loi uniforme, la
densité conditionnelle des degrés de signi…cation sous H0 est égale à 1.
    La probabilité 0 est estimée suivant la méthode proposée par Storey et Tibshirani [7].
Si les P values suivent une loi uniforme sous l’hypothèse nulle, la relation (1) devient:
f (p) = 0 + (1        0 )f1 (p); et f (1) est le plus petit majorant de         0 basé sur (1). En
considérant ^ 0 ( ) = #fpi > ; i = 1; :::; mg=m(1               ) qui est un estimateur de 1 1F ( )
(où F la fonction de répartition marginale de P ), Storey et Tibshirani [7] ont proposé
d’utiliser une méthode de lissage basée sur des splines cubiques pour estimer la quantité
lim !1 ^ 0 ( ) qui est égale à f^(1).
    La densité marginale f (p) est estimée en deux étapes. Dans une première étape, pour
                                                Pr(P 2[p(i) ;p(i) + ])
chaque gène i, la densité f (p(i) ) = lim !0              2
                                                                       est approchée par la quantité
Pr(P 2[p(i 1) ;p(i) ])                                                        1
   p(i) p(i 1)
               qui est estimée par m(p(i) p(i 1) )      : La variabilité de cet estimateur
étant importante, la densité est estimée dans une deuxième étape par un lissage des valeurs
obtenues (moyennes mobiles ou régression locale pondérée), de façon à ce que la densité
soit monotone.
     Procédure de Scheid et coll. (2004)
    La méthode proposée par Sheid et coll. [6] est également basée sur l’hypothèse que
les degrés de signi…cation suivent, sous l’hypothèse nulle, une loi uniforme. La densité
conditionnelle des degrés de signi…cation sous l’hypothèse nulle est donc supposée égale à
1, et les deux quantités à estimer sont 0 et f (t).
    La probabilité 0 est estimée à partir d’un algorithme séquentiel descendant (stochas-
tic downhill) visant à séparer l’ensemble des gènes/séquences en deux sous ensembles

                                                                   4
de gènes/séquences dont l’un suit approximativement une loi uniforme. Un score de
Kolmogoro¤-Smirno¤ mesurant l’ajustement des p-values avec une distribution uniforme
est calculé pour l’ensemble de tous les gènes/séquences. Puis, de manière itéarative, des
valeurs, tirées au hasard, sont retirées du premier ensemble de façon à ce que le score
calculé sur le sous-ensemble restant soit le plus petit possible. En pratique, la procédure
s’arrête lorsque aucun score plus petit n’a pu être trouvé après 2m itérations. A…n de
tenir compte de la taille de l’échantillon et pour éviter un surajustement, un terme de
pénalité est ajouté au score.
    La distribution marginale des degrés de signi…cation est estimée à partir d’un dé-
coupage de l’intervalle [0; 1] en 100 intervalles de mêmes longueur. Le nombres de valeurs
contenues dans chaque intervalle permet d’obtenir une estimation de la densité f (t). Le
localFDR est calculé pour ces 100 valeurs, et une estimation du critère est obtenue en
tout point à partir de splines cubiques à 7 degrés de liberté appliqués aux 100 valeurs
calculées.

3     Procédure d’estimation proposée
Nous supposons également les degrés de signi…cation uniformément distribués sous l’hypothèse
nulle. Si cette hypothèse n’est pas vraie en général, les méthodes de permutations qui
peuvent être utilisées pour le calcul des degrés de signi…cation (ou dans le calcul de la
loi de la statistique de test) [3] permettent de s’a¤ranchir des hypothèses distribution-
nelles et la distribution des p-values ainsi obtenues approche dans la plupart des cas une
distribution uniforme.
    La probabilité 0 est estimée suivant la méthode LBE que nous avons proposée.
    Tout d’abord, notons que EE(P     )
                                  0 (P )
                                          = 0 + (1           E1 (P )
                                                         0 ) E0 (P ) où E0 (P ) et E1 (P ) sont les
espérances de la distribution conditionnelle de P sous H0 et sou H1 . En supposantP            que les
p-values sont uniformément distribuées sous H0 , E0 (P ) = 1=2. Ainsi, b0 = 2 m m          1
                                                                                                i=1 Pi
                                         E(P )
qui est un estimateur sans biais de E0 (P ) ; est un estimateur de 0 dont le biais est positif:
Sous certaines conditions non détaillées ici, nous avons montré qu’une P             transformation
des p-values conduit à un estimateur de 0 moins biaisé que b0 = 2 m1 m                 i=1 Pi . Dans
l’ensemble des fonctions véri…ant les conditions requises, nous avons considéré les fonctions
'(P ) = ln(1 x)n ; n 2 N, et nous avons montré que ces fonctions conduisent à une
famille d’estimateurs de 0 dont le biais est décroissant avec n. Comme sous l’hypothèse
nulle, ln(1 P ) suit une loi exponentielle de paramètre 1; E0 ([ ln(1 P )]n ) = n! et la
                                                    1 Pm
famille d’estimateurs proposée est : ^ 0(n) = (n!)m      i=1 [ Log(1      pi )]n ; n 2 N:
    Pour cette famille d’estimateurs, nous avons montré qu’une borne supérieure de la
                                                n
variance asymptotique peut s’écrire m 1 2n           1 : Comme le biais est décroissant avec
n alors que la variance est croissante, nous avons proposé une règle pratique pour choisir
un estimateur particulier dans la famille d’estimateurs. Pour un nombre spéci…que m
d’hypothèses testées, nous avons proposé de choisir n en fonction d’un seuil arbitraire l

                                                5
pour le majorant de la variance asymptotique.
   En utilisant cette transformation '(P ) des degrés de signi…cation, nous présenterons
une estimation de la densité marginale à partir d’estimateurs à noyaux. Une estimation
du localFDR en sera déduite.

4    Simulations et application
Nous présenterons les résultats d’une étude de simulation visant à comparer les di¤érentes
procédures d’estimation du localFDR. Les données simulées seront générées de façon à
mimer des données correspondant au cadre considéré par Efron [4]. Des situations pour
lesquelles une forte proportion de gènes sont modi…és seront également considérées.
    Nous présenterons en…n les di¤érentes méthodes appliquées à di¤érents jeux de données
d’oncologie clinique.

References
[1] Benjamini Y., Hochberg Y. (1995) Controlling the false discovery rate : a practical
    and powerful approach to multiple testing. J R Stat Soc Ser B, 57, 289-300.

[2] Storey J.D. (2001) A direct approach to false discovery rates. J R Stat Soc Ser B; 64,
    479-498.

[3] Efron B., Tibshirani R., Storey J., Tusher V. (2001) Empirical Bayes Analysis of a
    Microarray experiment. J Am Stat Assoc, 96, 1151-1160.

[4] Efron, B. (2004) Large-scale simultaneous hypothesis testing: the choice of a null
    hypothesis. J Am Stat Assoc, 99, 96-104

[5] Aubert, J.; Bar-Hen, A.; Daudin, J.J.; Robin, S. (2004) Determination of the di eren-
    tially expressed genes in microarray experiments using localFDR, BMC Bioinformatic,
    Sep 06;5(1):125.

[6] Scheid S, Spang R (2004). A stochastic downhill search algorithm for estimating the
    local false discovery rate. IEEE Transactions on Computational Biology and Bioinfor-
    matics 1(3),98-108.

[7] Storey JD, Tibshirani R. (2003) Statistical signi…cance for genome-wide studies. Proc
    Natl Acad Sci, 100, 9440-9445.

[8] Dalmasso, C; Broet, P.; Moreau, T. (2004) A simple procedure for estimating the false
    discovery rate. Bioinformatics. Advance Access published on 12 Oct.

                                            6
Vous pouvez aussi lire