Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...

La page est créée Louis Martin
 
CONTINUER À LIRE
Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...
Modèle prédictif des troubles psychiatriques en
combinant scores de risque génétique et variables
              socio-économiques

                          Mémoire

                       Meriem Bahda

          Maîtrise en biostatistique - avec mémoire
                  Maître ès sciences (M. Sc.)

                      Québec, Canada

                   © Meriem Bahda, 2022
Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...
Modèle prédictif des troubles psychiatriques en
combinant scores de risque génétique et variables
              socio-économiques

                           Mémoire

                        Meriem Bahda

                     Sous la direction de:

          Alexandre Bureau, directeur de recherche
          Maripier Isabelle, codirectrice de recherche
Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...
Résumé

Le présent projet vise à construire un modèle prédictif des troubles psychiatriques en
combinant des variables génétiques, les scores de risque polygéniques (PRS), et des
variables socio-économiques. Les PRS seront construits grâce à une méthode que nous
avons développée et que nous avons nommée Multivariate lassosum. L’issue d’intérêt
à prédire sera l’apparition d’un trouble mental chez l’individu. Le modèle considéré
sera le modèle de régression de Cox. Le pouvoir prédictif du modèle construit sera
évalué en calculant l’aire sous la courbe ROC, en utilisant la méthode validation
croisée.

                                          ii
Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...
Abstract

The present project aims to build a predictive model of psychiatric disorders by
combining genetic variables, polygenic risk scores (PRS), and socioeconomic variables.
The PRS will be constructed using a method we have developed called Multivariate
lassosum. The outcome of interest to be predicted will be the onset of a mental
disorder in the individual. The model considered will be the Cox regression model.
The predictive power of the model constructed will be evaluated by calculating the
area under the ROC curve, using the cross-validation method.

                                         iii
Modèle prédictif des troubles psychiatriques en combinant scores de risque génétique et variables socio-économiques - Mémoire Meriem Bahda ...
Table des matières

Résumé                                                                                     ii

Abstract                                                                                  iii

Table des matières                                                                        iv

Liste des tableaux                                                                        vi

Liste des figures                                                                        vii

Remerciements                                                                            viii

Avant-propos                                                                               x

Introduction                                                                               1

1 Aspects génétiques des troubles psychiatriques                                           4
  1.1 Présentation des scores de risque polygéniques . . . . . . . . . . .                 4
  1.2 Présentation des troubles mentaux . . . . . . . . . . . . . . . . . . .              6
  1.3 Utilisation des scores de risque polygéniques en psychiatrie . . . .                 7

2 Aspects socio-économiques des troubles psychiatriques                                   10
  2.1 Association entre le statut socio-économique et les troubles mentaux                10
  2.2 L’indice Blishen comme mesure du statut socio-économique . . . .                    12
  2.3 Le revenu comme mesure du statut socio-économique . . . . . . . .                   14

3 Better prediction of correlated traits using polygenic risk scores and
  socioeconomic variables                                                                 17
  3.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .    17
  3.2 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   .    18
  3.3 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .    19
  3.4 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      .    21
  3.5 Simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . .       .    32
  3.6 Real data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .    38
  3.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .    46

References                                                                                48

                                            iv
Conclusion                                                               53

Bibliographie                                                            55

Appendix A : Linearization of the PEL function                           64

Appendix B : Supplementary tables and figures                            69

Appendix C : Amendment of our project with CARTaGENE to use their data   72

                                      v
Liste des tableaux

3.1   Descriptive statistics of the correlation of the PRS with the true predic-
      tor of each method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   36
3.2   95% Confidence interval of the prediction accuracy of each method . .            37
3.3   Mean difference estimate and 95% Confidence interval of the mean dif-
      ference estimate of prediction accuracy between Multivariate lassosum
      and the other methods . . . . . . . . . . . . . . . . . . . . . . . . . . . .    38
3.4   Descriptive statistics of the Blishen index, the income market and the age       42
3.5   Summary of model 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     43
3.6   Summary of model 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     44
3.7   AUC scores for model 2 . . . . . . . . . . . . . . . . . . . . . . . . . . .     45
3.8   AUC scores for model 3 . . . . . . . . . . . . . . . . . . . . . . . . . . .     46
B.1   Descriptive statistics of the correlation between the estimated SNPs
      weights and the simulated SNPs weights . . . . . . . . . . . . . . . . .         69

                                            vi
Liste des figures

3.1 Mean and standard deviation of the correlation of the PRS with the
    true predictor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   .   37
3.2 Survival curve of model 2 . . . . . . . . . . . . . . . . . . . . . . . . .      .   45
B.1 Prospective group . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    .   70
B.2 Retrospective group . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    .   70
B.3 Full estimating sample . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   71

                                            vii
Remerciements

Avant de commencer, permettez-moi, chers lecteurs, de présenter mes plus sincères
remerciements et exprimer ma profonde gratitude aux personnes qui ont grandement
contribué à la réalisation de ce mémoire.

Tout d’abord, je tiens à remercier mon directeur de recherche, Alexandre Bureau et
ma codirectrice de recherche, Maripier Isabelle. Vous m’avez initiée au monde de la
recherche, et vous m’avez guidée et orientée tout au long de mon projet de recherche
et j’en suis grandement reconnaissante. Je remercie également Jasmin et Loïc pour
leur aide, et à tous les membres de notre équipe de recherche qui ont contribué, de
loin ou de près, à ce travail.
Je tiens également à exprimer ma reconnaissance à l’université Laval, l’établissement
qui m’a accueilli et qui m’a permis d’entreprendre mes études au Canada.

Je souhaite offrir mes remerciements les plus chaleureux à mes chers parents, à mes
deux frères, Youssef et Soulaimane, et à toute ma famille, pour leurs sacrifices, leur
dévouement, et surtout, leur amour inconditionnel. Vous m’avez toujours encouragée
à poursuivre mes ambitions, et faire de mes rêves une réalité.

Un grand merci à mes compagnons de parcours, Sana, Yasmine, Laila, Oumayma,
Safwane, Anass, Hamza, Lamia, Marwane et Imad, pour avoir fait de mon parcours
académique, une réelle aventure.

                                         viii
Enfin, je tiens à remercier les amis qui sont devenus ma seconde famille et qui ont
fait du Canada mon deuxième foyer heureux. Fatima ezzahraa, Yasmina, Ahmed,
Sarah, Oussama, Yassine, Asmaa, Oumaima, Fouad, Younes, Abdou, Hakim, Mona,
Soufiane, je ne pourrai jamais vous remercier assez pour les merveilleux moments
que nous avons passés ensemble, et j’espère sincèrement que nous en aurons encore
des meilleurs.

                                        ix
Avant-propos

Le troisième chapitre de ce mémoire se présente sous la forme d’un article scientifique
rédigé en anglais. L’article n’a pas été soumis pour publication. L’auteur principal
de l’article est l’étudiante Meriem Bahda, et les coauteurs sont ses directeurs de
recherche, Alexandre Bureau et Maripier Isabelle. Meriem Bahda a été responsable
de la rédaction de l’article, a participé au développement de la méthode présentée et
a effectué les analyses des résultats obtenus, sous la supervision de ses directeurs de
recherche. Alexandre Bureau a supervisé le volet génétique du projet, notamment
le développement méthodologique de la méthode présentée, et Maripier Isabelle a
supervisé le volet économique du projet, notamment la construction des variables
socio-économiques.

                                          x
Introduction

Les troubles mentaux sont aujourd’hui considérés comme un enjeu majeur de santé
publique, qui pèse de plus en plus lourd sur la charge mondiale de morbidité. Au
Canada, environ 20% des jeunes souffrent d’un trouble mental (Institut canadien
d’information sur la santé 2020) et 70% des personnes atteintes d’un trouble mental
ont développé des symptômes avant l’âge de 18 ans (Commission de la santé mentale
du Canada 2021). La présence d’une maladie mentale peut avoir des conséquences
néfastes sur la vie de l’individu, en particulier quand celle-ci n’est pas diagnostiquée.
C’est pour cette raison qu’il est nécessaire d’aspirer à améliorer les méthodes de
prévention et de détection précoce des troubles mentaux, surtout chez les jeunes et
les enfants.

L’aspect génétique des troubles psychiatriques a été longuement exploré. Des études
ont montré que certains sujets sont plus vulnérables génétiquement à développer
des troubles psychiatriques à cause de l’héritabilité de celles-ci. (Roy et al. 2001). La
vulnérabilité génétique du sujet à développer un trouble mental peut être évaluée
grâce aux composantes de scores de risque polygénique (PRS). Les PRS peuvent être
calculés pour tout trouble ou phénotype en général, permettant ainsi d’évaluer le
degré de prédisposition du sujet par rapport à ce phénotype. En outre, le PRS calculé
pour un trouble mental peut également prédire la présence d’autres troubles qui
lui sont apparentés (ou corrélés), ce qui suggère que la susceptibilité génétique est
largement partagée entre les troubles (Zheutlin et al. 2019 , Lee et al. 2013 , Ruderfer

                                           1
et al. 2018). Étant donné que les maladies mentales sont corrélées génétiquement,
prendre en considération cette corrélation entre les troubles pourrait donc améliorer
la qualité de la prédiction.
Différentes méthodes de calcul des PRS ont déjà été élaborées, chacune ayant ses
propres caractéristiques et son propre contexte d’application. On citera par exemple,
la méthode lassosum de Mak et al. (2017) et la méthode LDpred2 de Privé et al. (2020).
Il demeure néanmoins important de toujours chercher à améliorer et affiner le calcul
des PRS.

Bien que la vulnérabilité génétique du sujet soit prédéterminée à sa naissance, le
risque qu’il développe un trouble psychiatrique ne se résume pas entièrement à
la génétique. Des facteurs de risque environnementaux sont également associés à
l’apparition des troubles psychiatriques. En particulier, le statut socio-économique
(SES) a été lié à l’incidence de la dépression (e.g. Dohrenwend et al. 1992 pour les
femmes adultes, Tracy et al. 2008 pour les enfants) et à d’autres troubles du cerveau,
comme dans Sareen et al. (2011). Toutefois, rares sont les études qui se sont intéres-
sées à évaluer quantitativement si le SES a des effets additifs avec la vulnérabilité
génétique indexée par le PRS, pour la prédiction des troubles psychiatriques. Il serait
alors intéressant d’évaluer si l’inclusion de la dimension socio-économique pourrait
améliorer la prédiction des troubles psychiatriques.

Dans le cadre de ce mémoire, nous avons entrepris une nouvelle approche pour la
prédiction des troubles psychiatriques, qui fusionne la génomique, la modélisation
statistique et certains concepts issus de la science économique.
Nous proposons ainsi une nouvelle méthode pour le calcul des PRS, et qui, selon nos
études de simulation, a une performance prédictive meilleure que celle des méthodes
lassosum de Mak et al. (2017) et LDpred2 de Privé et al. (2020).
Nous développons également un modèle prédictif des troubles psychiatriques, en
combinant des variables génétiques et des variables socio-économiques, et ce, pour

                                          2
des enfants et jeunes dont au moins l’un des deux parents est atteint d’un trouble
mental (qui sont donc considérés à risque de développer un trouble mental).
Notre choix de nous intéresser aux enfants et aux jeunes à risque est motivé par de
récents travaux, qui ont suggéré qu’il serait prometteur de s’intéresser en particulier
à la prédiction des troubles psychiatriques chez une population d’enfants nés d’un
parent affecté par des troubles psychiatriques (Maziade 2017).

Le 1er chapitre de ce mémoire sera consacré aux aspects génétiques des troubles
psychiatriques. Nous y présentons les scores de risque polygéniques ainsi que les
troubles mentaux. Nous y explorons également les diverses utilisations des scores de
risque polygénique dans le domaine de la psychiatrie.
Le 2ème chapitre quant à lui, sera consacré aux aspects socio-économiques des
troubles psychiatriques. Nous y explorons l’association entre le statut socio-économique
et les troubles mentaux, et nous y présentons également les variables socio-économiques
que nous utiliserons dans la construction de notre modèle prédictif, présenté au 3ème
chapitre.
Le 3ème chapitre, qui est sous forme d’un article scientifique rédigé en anglais, intro-
duit la nouvelle méthode que nous avons développée pour le calcul des PRS, nommée
Multivariate Lassosum. Nous y présentons également une application de la méthode
sur des données réelles et le modèle prédictif des troubles psychiatriques construit.
Dans notre application, nous nous intéresserons à deux traits, la schizophrénie et le
trouble bipolaire. Notre analyse s’appuiera en partie sur les données fournies par
le programme scientifique et clinique Horizon Parent-Enfant (HoPE), une approche
continue de prévention et de traitement personnalisé centrée sur la famille et impli-
quant des parents affectés et leurs enfants. Il contient des informations longitudinales
sur la situation clinique et socio-économique de centaines de familles participantes,
en plus des données génétiques. Nous utiliserons également les données de sujets de
familles de l’Est du Québec, atteints de schizophrénie et de trouble bipolaire.

                                           3
Chapitre 1

Aspects génétiques des troubles
psychiatriques

1.1    Présentation des scores de risque polygéniques

Un polymorphisme d’un seul nucleotide (communément appelé SNP pour single
nucleotide polymorphism en anglais) est défini comme une variation de la séquence
d’ADN qui se produit lorsqu’un seul nucléotide (qui contient l’une des bases sui-
vantes : adénine, thymine, cytosine ou guanine) de la séquence du génome est modifié
et que cette altération particulière est présente dans au moins 1% de la population
(National Cancer Institute). Ainsi, les SNPs sont un type de polymorphisme impli-
quant la variation d’une seule paire de bases.
Certaines variations génétiques peuvent n’avoir aucun effet sur le sujet, tandis que
d’autres sont associés avec certains phénotypes. Les SNPs peuvent être associés à un
seul phénotype en particulier comme ils peuvent être associés à plusieurs phénotypes.

Étant donné que la plupart des troubles prévalents sont polygéniques, par exemple
le diabète de type 2, la contribution individuelle de chaque SNP ne représente qu’un
faible pourcentage de la variance phénotypique. Cependant, ces variants peuvent être

                                          4
regroupés en un score que l’on appelle, le score de risque polygénique (communément
appelé PRS pour polygenic risk score en anglais), qui peut être associé de manière
significative au trouble. Un score de risque polygénique est calculé pour chaque
individu et pour chaque phénotype, et est généralement défini comme une somme
pondérée des SNPs, comme suit :

                                             m
                                             X
                                    P RS =         Xj β̂j                           (1.1)
                                             j=1

où Xj est l’un des allèles du SNP j, m est le nombre de SNPs, et β̂j est le poids associé
au SNP j.

Les PRS jouent un rôle dans la prévention et la détection précoce des maladies. En
effet, ils permettent d’évaluer la prédisposition génétique de l’individu par rapport à
un phénotype, d’où l’importance accordée à leur calcul.
La complexité du calcul des PRS réside dans l’estimation des coefficients β̂, en parti-
culier, au niveau des deux éléments suivants :

   • Comment sélectionner les SNPs qui contribuent à la prédiction des phénotypes
     d’intérêt ?

   • Quels poids accorder aux SNPs qui contribuent à la prédiction des phénotypes
     d’intérêt ?

Plusieurs méthodes de construction des PRS ont été développées, chacune ayant ses
propres spécificités, avantages et inconvénients. Certaines méthodes de calcul des
PRS sont présentées dans l’introduction du 3ème chapitre de ce mémoire.

                                             5
1.2     Présentation des troubles mentaux

Les troubles mentaux, ou troubles psychiatriques, désignent l’ensemble de troubles
conduisant à des problèmes émotionnels et comportementaux chez l’individu, et
dont les causes varient d’un sujet à l’autre, et d’un trouble à l’autre. Le trouble mental
peut être chronique ou permanent, et sa gravité varie d’un sujet à un autre.

Le Manuel diagnostique et statistique des troubles mentaux, et des troubles psychia-
triques de l’Association Américaine de Psychiatrie (souvent appelé DSM-5) définit et
caractérise un trouble mental comme suit :

"Un trouble mental est un syndrome caractérisé par une perturbation cliniquement
significative de la cognition, de la régulation des émotions ou du comportement d’un
individu qui reflète un dysfonctionnement des processus psychologiques, biologiques
ou de développement qui sous-tendent le fonctionnement mental. Les troubles men-
taux sont généralement associés à une détresse ou à une incapacité significative dans
les activités sociales, professionnelles ou autres activités importantes. Une réponse
attendue ou culturellement approuvée à un facteur de stress commun ou à une perte,
comme la mort d’un être cher, n’est pas un trouble mental. Les comportements so-
cialement déviants (par exemple, politiques, religieux ou sexuels) et les conflits qui
opposent principalement l’individu à la société ne sont pas des troubles mentaux, à
moins que la déviance ou le conflit ne résulte d’un dysfonctionnement de l’individu,
tel que décrit ci-dessus." (American Psychiatric Association 2013).

Dans le cadre de ce projet, nous allons nous intéresser en particulier à deux troubles
mentaux, la schizophrénie et le trouble bipolaire.

1.2.1   La schizophrénie

La schizophrénie fait partie de la catégorie du spectre de la schizophrénie et les autres
troubles psychotiques tel que défini dans le DSM-5 (American Psychiatric Association

                                            6
2013). Les troubles de cette catégorie se définissent par des anomalies dans un ou
plusieurs des cinq domaines suivants : délires, hallucinations, désorganisation de la
pensée (discours), comportement moteur grossièrement désorganisé ou anormal (y
compris la catatonie), et des symptômes négatifs.

1.2.2   Le trouble bipolaire

Le DSM-5 distingue entre deux types de troubles bipolaires, le trouble bipolaire de
type I et le trouble bipolaire de type II (American Psychiatric Association 2013).

Les critères du trouble bipolaire I représentent la compréhension moderne du trouble
maniaco-dépressif classique ou de la psychose affective, décrits au XIXe siècle, et
ne diffèrent de cette description classique que dans la mesure où ni la psychose ni
l’expérience d’un épisode dépressif majeur ne sont requises. Cependant, la grande
majorité des personnes dont les symptômes répondent entièrement aux critères d’un
épisode maniaque connaissent également des épisodes dépressifs majeurs au cours
de leur vie.

Le trouble bipolaire II requiert la survenue d’au moins un épisode de dépression
majeure et d’au moins un épisode d’hypomanie au cours de la vie du patient. Ce
trouble n’est plus considéré comme une affection "plus légère" que le trouble bipolaire
I, principalement en raison du temps que les personnes atteintes de ce trouble passent
en dépression et de l’instabilité de l’humeur qu’elles connaissent.

1.3     Utilisation des scores de risque polygéniques en

        psychiatrie

L’utilisation des PRS pour la détection précoce des maladies, la prévention et l’inter-
vention connaît un intérêt croissant, et ce, dans différentes branches de la médecine.
Des études ont montré que les PRS peuvent prédire la survenue de la maladie. Par

                                          7
exemple, dans l’étude cas-témoins de Mavaddat et al. (2019), les auteurs ont construit
un PRS qui serait un prédicteur puissant et fiable du risque de cancer du sein, et qui
pourrait améliorer les programmes de prévention du cancer du sein.

Étant donné que la majorité des troubles mentaux sont polygéniques (Sullivan and
Geschwind 2019), l’utilisation des PRS pour la détection et prédiction de ces troubles
semble être une voie prometteuse.

Une comparaison exhaustive de dix méthodes de calcul des PRS pour les troubles
psychiatriques est présentée dans Ni et al. (2021). Les auteurs se sont particulièrement
intéressés à la schizophrénie et à la dépression majeure. La méthode de référence
utilisée est PC+T (en anglais, p value–based clumping and thresholding), qui est
la méthode la plus élémentaire et la plus couramment utilisée pour le calcul des
PRS. Les résultats de l’étude indiquent que les PRS calculés par les neuf méthodes
qui modélisent l’architecture génétique de façon plus formelle ont une meilleure
performance predictive du risque que les PRS calculés par la méthode de référence
PC+T. Bien que les différences entre les neuf méthodes étaient faibles, les méthodes
MegaPRS, LDpred2 et SBayesR ont constamment conduit à de meilleurs résultats.

Dans la revue de Murray et al. (2021), les auteurs évaluent l’utilisation potentielle
des PRS en psychiatrie. Ils expliquent que les PRS permettent d’évaluer une part de
la contribution génétique au risque de la maladie, certes. Toutefois, ils soulignent
qu’utiliser les PRS comme seul prédicteur ne sera jamais suffisant pour établir de
manière définitive le diagnostic des maladies complexes courantes (par exemple, les
troubles du cerveau), car les facteurs génétiques ne contribuent qu’à une part du
risque absolu de la maladie. Combiner les PRS avec d’autres facteurs de risques non
génétiques, par exemple les traumatismes ou le style de vie de l’individu, pourrait
améliorer la prédiction de la survenue du trouble.

                                           8
Dans Agerbo et al. (2021), les auteurs tentent de répondre à la question suivante :
dans quelle mesure le score de risque polygénique de la dépression, combiné avec les
facteurs psychosociaux parentaux, détermine-t-il le risque absolu de dépression avant
l’âge de 30 ans ? Les résultats de leur étude cas-témoins suggèrent que les PRS pour
la dépression ne sont pas plus susceptibles d’être associés au trouble dépressif majeur
que d’autres facteurs de risque connus. Toutefois, combinés avec d’autres facteurs de
risques, les PRS peuvent être utiles pour l’identification du risque de l’apparition du
trouble.

Dans le cadre du présent travail, le facteur de risque non génétique considéré est le
statut socio-économique des individus.

                                          9
Chapitre 2

Aspects socio-économiques des
troubles psychiatriques

2.1    Association entre le statut socio-économique et les

       troubles mentaux

Le dictionnaire de la santé publique définit le statut socio-économique (commu-
nément appelé SES pour socioeconomic status en anglais) comme étant un terme
descriptif de la position des personnes dans la société, basé sur une combinaison de
critères professionnels, économiques et éducatifs, souvent exprimés sur une échelle
ordinale (Last 2007).

L’association entre le SES et l’incidence de troubles du cerveau a été explorée dans
plusieurs travaux. Dans Sareen et al. (2011), les auteurs examinent la relation entre
le revenu du ménage et les troubles mentaux, à travers une étude longitudinale
basée sur la population des États-Unis. Les résultats de leur étude indiquent qu’une
réduction du revenu du ménage est associée à un risque accru de troubles mentaux
incidents, et qu’un faible niveau de revenu du ménage est associé à plusieurs troubles
mentaux qui perdurent dans le temps.

                                         10
Dans Silva et al. (2016), les auteurs présentent une revue narrative non systématique
des résultats publiés sur l’association entre la santé mentale et les facteurs sociodé-
mographiques et économiques aux niveaux individuel et régional. La majorité des
150 études incluses dans la revue ont rapporté des associations entre au moins une
caractéristique sociodémographique ou économique et l’état de la santé mentale.
Plusieurs facteurs individuels ayant une association indépendante et statistiquement
significative avec une détérioration de la santé mentale ont été identifiés. Parmi ces
facteurs, on cite par exemple, un faible revenu, un faible niveau d’éducation, un faible
statut socio-économique, le chômage et la pression financière ressentie.
Toutefois, la direction de la causalité entre ces déterminants sociaux et la santé mentale
demeure indéterminée.

Dans Ridley et al. (2020), les auteurs s’intéressent à la relation entre la pauvreté et les
troubles du cerveau communs, comme la dépression et l’anxiété. Ils considèrent que
cette relation est causale et bidirectionnelle.
D’une part, les auteurs considèrent que la pauvreté peut contribuer au développement
de maladies mentales à travers plusieurs mécanismes sous-jacents. On citera par
exemple, les inquiétudes et les incertitudes permanentes causées par la pauvreté,
qui peuvent menacer la santé mentale des individus. Un autre mécanisme serait les
facteurs environnementaux, comme la polution et les températures extrêmes, qui
affectent les personnes les plus démunies de façon disproportionnée, et qui ont été
directement associés aux maladies mentales.
D’autre part, les auteurs estiment que les maladies mentales peuvent à leur tour
causer la pauvreté par le biais de plusieurs mécanismes sous-jacents. Un exemple de
mécanisme serait l’impact des maladies mentales sur les fonctions cognitives. Les
auteurs expliquent que la dépression et l’anxiété, à titre d’exemple, peuvent avoir
des effets économiques car elles réduisent directement la capacité des individus à
travailler, mais aussi affectent leurs fonctions cognitives. Cet impact cognitif pourrait
modifier toute une série de décisions économiques, comme la recherche d’emploi et

                                            11
l’épargne.
Les individus ayant des problèmes de santé mentale souffrent également d’une
discrimination sur le marché de travail. En effet, dans Bjørnshagen (2021), les auteurs
examinent dans quelle mesure la discrimination à l’embauche limite les opportunités
d’emploi des jeunes candidats qui révèlent des antécédents de problèmes de santé
mentale, en se basant sur des données d’une expérience de terrain. Leurs résultats
montrent que les candidats qui révèlent des problèmes de santé mentale sont victimes
de discrimination à l’embauche. Plus précisément, les candidats ayant des problèmes
de santé mentale ont environ 27% de chances en moins de recevoir une invitation à un
entretien d’embauche et environ 22% de chances en moins de recevoir une réponse
positive de l’employeur.

Il existe plusieurs mesures du statut socio-économique des individus. Dans le cadre
du présent travail, les mesures du statut socio-économique considérées seront l’indice
Blishen et le revenu.

2.2    L’indice Blishen comme mesure du statut

       socio-économique

L’indice Blishen est une échelle occupationnelle pour le Canada, dont une première
version a été présentée dans Blishen (1958). Dans son article, l’auteur décrit un
système qui permet de classifier les professions en fonction du revenu et du niveau
d’éducation moyens des titulaires de chacune d’elles, calculés grâce aux données
du recensement de 1951. L’indice Blishen accorde une valeur numérique à chaque
profession, permettant ainsi de mesurer le statut socio-économique d’un individu
en se basant sur sa profession. L’indice Blishen a classifié 343 professions lors de sa
première construction. La valeur la plus élevée de l’indice Blishen était de 90.0 pour

                                          12
la profession de juge, alors que la valeur la plus faible était de 32.0 pour la profession
de chasseurs et de trappeurs.

L’indice Blishen a par la suite été révisé, dans le but d’améliorer sa construction et de
le mettre à jour avec les données du recensement le plus récent.

Une première révision de l’indice Blishen en utilisant les données du recensement de
1961 est présentée dans Blishen (1967). Une seconde révision de cet indice en utilisant
les données du recensement de 1971 est présentée dans Blishen and Roberts (1976).
Il est à noter que lors des révisions de 1967 et 1976, les auteurs n’ont considéré que les
caractéristiques des hommes dans la population active qui exercent les professions
classifiées pour la construction de l’indice Blishen, en partant du principe que le statut
social de la famille dépend de la profession du mari plutôt que de celle de la femme
lorsque les deux travaillent.
Une 3ème révision de l’indice Blishen en utilisant les données du recensement de
1981 est présentée dans Blishen et al. (1987). Les auteurs ont considéré cette fois-ci les
caractéristiques des hommes et des femmes qui exercent les professions classifiées
lors de la construction l’indice Blishen. Ce dernier classifie 514 professions et a une
moyenne de 42.74 et un écart-type de 13.28. C’est la profession dentiste qui présente
la valeur la plus élevée de l’indice Blishen avec 101.74 , tandis que c’est la profession
de livreur et vendeurs de journaux qui présente la valeur la plus faible de l’indice
Blishen avec 17.81.

Les auteurs de Blishen et al. (1987) ont soulevé un certain nombre de problèmes
dans la construction et l’interprétation de cet indice. On citera par exemple le fait
que l’indice Blishen est construit avec des statistiques nationales qui ne sont pas
nécessairement représentatives de la réalité des sous-groupes de la population active.
Pour illustrer cela, les auteurs donnent l’exemple des différences de revenus entre
les hommes et les femmes. Bien que leurs revenus puissent être très disparates, les
femmes et les hommes exerçant des professions identiques sont par définition égaux

                                           13
dans leur statut socio-économique au sens de l’indice Blishen. En effet, malgré l’écart
important entre le revenu médian des femmes qui était, en 1981, de 7 847 $ et celui
des hommes qui était de 15 804 $, il n’y avait qu’une légère différence entre l’indice
Blishen médian des femmes calculé en 1987, dont la valeur était de 38.15, et celui des
hommes, dont la valeur était de 39.19.

En raison des problèmes liés à l’indice Blishen, les auteurs de Blishen et al. (1987)
et la littérature en sciences sociales concluent donc que l’indice Blishen est surtout
applicable dans les situations où l’accès aux données socio-économiques se limite
aux professions des individus, et où l’on désire un indicateur unidimensionnel et
contextuel qui situe les individus dans la hiérarchie professionnelle canadienne à un
moment donné, et c’est notamment le cas pour les données utilisées au chapitre 3.

2.3     Le revenu comme mesure du statut

        socio-économique

2.3.1   Définition du revenu

Le revenu est considéré comme l’un des indicateurs les plus communs pour mesurer
le statut socio-économique. En particulier, le revenu du marché est souvent employé
à cet effet. L’Institut de la statistique du Québec définit le revenu du marché comme
étant " la somme des revenus suivants : les revenus de travail (qui comprennent les
salaires et traitements avant déductions ainsi que les revenus du travail autonome),
les revenus de placements, les pensions de retraite privées (incluant les rentes d’un
REER), les pensions alimentaires reçues et les autres revenus de sources privées".
(Institut de la statistique du Québec 2020)
Il existe d’autres mesures du revenu qui peuvent mesurer le statut socio-économique
d’un individu, de manière à représenter davantage son pouvoir d’achat. On citera par

                                          14
exemple le revenu après taxes et impôts, qui permet de tenir compte des mécanismes
de redistribution mis en place par l’État dans lequel vit un individu.

Lorsque l’information sur le revenu n’est pas disponible, il est possible de l’approxi-
mer en fonction de l’information dont on dispose.
Dans le cadre du présent travail, l’information disponible était la localisation géogra-
phique du domicile (code postal) des individus. La section 2.3.2 présente ainsi une
approche pour approximer le revenu en utilisant ces données géographiques.

2.3.2     Construction de la variable revenu

En supposant que les individus vivant dans un même quartier ont un niveau socio-
économique similaire, il est possible d’approximer le revenu d’un individu par le
revenu moyen du quartier dans lequel il vit. Dans le contexte canadien, les quartiers
sont souvent définis, dans la littérature empirique, au niveau des secteurs de recense-
ment. Statistique Canada définit un secteur de recensement comme suit :
"Les secteurs de recensement (SR) sont de petites régions géographiques relativement
stables qui comptent habituellement une population de 2 500 à 8 000 habitants. Ils
sont créés au sein de régions métropolitaines de recensement et d’agglomérations de
recensement dont le noyau comptait 50 000 habitants ou plus d’après le recensement
précédent." (Statistique Canada 2018)

À partir de données administratives de Revenu Canada, en particulier grâce au fichier
de familles T1 (communément appelé T1FF pour T1 Family Files en anglais) qui
regroupe une série d’informations fiscales pour tous les contribuables canadiens, il
est possible de calculer des statistiques descriptives sur les distributions de revenu à
l’échelle des secteurs de recensement à travers le pays, incluant le revenu moyen du
marché.

                                          15
Lorsqu’on connaît le lieu de résidence d’un individu sans avoir accès à ses informa-
tions fiscales privées, il donc possible d’approximer son revenu en lui imputant le
revenu moyen du marché du secteur de recensement auquel il appartient.

Nos données cliniques ne contenant d’information que sur le code postal des indivi-
dus, nous convertissons l’information contenue dans ce dernier à l’échelle à laquelle
les données de revenu agrégé sont disponibles (dans le cas présenté ci-haut, le secteur
de recensement). Cette conversion peut être réalisée à l’aide d’outils produits par
Statistiques Canada et Postes Canada, notamment le fichier de conversion des codes
postaux (PCCF pour Postal Code Conversion File en anglais). Le PCCF est un docu-
ment qui fournit une correspondance entre le code postal et les zones géographiques
standard de Statistique Canada (notamment le secteur de recensement) (Statistics
Canada 2016).

Il suffit alors d’associer chaque individu au secteur de recensement auquel il appar-
tient pour obtenir une approximation de son revenu, et ce, pour l’année à laquelle
l’information sur son lieu de résidence a été collectée. Finalement, il faut ajuster le
revenu estimé pour l’inflation en utilisant l’indice des prix pour la région où vit
l’individu, afin d’obtenir une variable revenu en dollars constants (Statistics Canada
2022). Dans le cadre de ce travail, nous utilisons 2002 comme année de base.

                                          16
Chapitre 3

Better prediction of correlated traits
using polygenic risk scores and
socioeconomic variables

3.1    Résumé

Le score de risque polygenique (PRS) est un indicateur qui permet d’évaluer la pré-
disposition génétique d’un sujet par rapport à un phénotype. Les PRS sont souvent
utilisés dans un cadre prédictif de l’apparition des phénotypes, d’où l’importance
accordée à leurs calculs. Plusieurs méthodes de construction des PRS ont déjà été
développées, chacune ayant ses propres spécifités, avantages et inconvénients. Dans
cet article , nous proposons une nouvelle méthode pour le calcul des PRS, nommée
Multivariate lassosum, qui utilise l’information disponible dans les statistiques réca-
pitulatives, qui tient compte du déséquilibre de liaison et qui prend en considération
la corrélation génétique entre les phénotypes. Notre méthode est basée sur un modèle
de régression mixte pénalisé, avec une pénalité LASSO. Notre étude de simulation
a montré que Multivariate lassosum a une meilleure performance predictive que
lassosum et LDpred2, deux méthodes efficaces pour la construction des PRS.

                                          17
Better prediction of correlated traits using
           polygenic risk scores and socioeconomic
                                      variables

          Meriem Bahda1,2* , Alexandre Bureau2 , and Maripier Isabelle3

1
    Department of Mathematics and Statistics, Université Laval, Canada.
     2
         Department of Social and Preventive Medicine, Université Laval,

                                        Canada.
                3
                    Department of Economics, Université Laval, Canada.
           *
               Corresponding author. Email : meriem.bahda.1@ulaval.ca

                                        Feb, 2022

3.2         Abstract

The polygenic risk score (PRS) is an indicator that assesses the genetic predisposition
of a subject to a phenotype. PRS are often used in a predictive framework for the
appearance of phenotypes, hence the importance given to their calculation. A variety
of methods for PRS calculation are available, each with its own characteristics. In
this paper, we propose a new method for calculating the PRS, named Multivariate

                                           18
lassosum, which uses the information available in the summary statistics, takes into
account the linkage disequilibrium (LD) and considers the genetic correlation between
phenotypes. Our method is based on a penalized mixed regression model, with a
LASSO penalty. In our simulations, we compare the performance of our method
with lassosum and LDpred2, two effective methods for the construction of PRS, for
two traits mimicking schizophrenia (SCZ) and bipolar disorder (BIP). Our method,
Multivariate lassosum, led to a better predictive performance than both lassosum and
LDpred2. However, Multivariate lassosum was significantly slower than lassosum.

3.3    Introduction

Genome-wide association studies (GWASs) have proven extremely effective in dis-
covering Single Nucleotide Polymorphism (SNPs) linked to a variety of complex
human disorders. Since most prevalent disorders are polygenic, each SNP accounts
for only a small percentage of the phenotypic variance. However, these variants may
be aggregated into a score, a polygenic risk score (PRS), which can be significantly
associated with the disorder. A polygenic risk score is usually defined as a weighted
sum of the SNP alleles. The main issue is then to estimate the weight of each SNP, in
a way that maximizes the prediction accuracy of the PRS.
The most common estimates of the PRS weights are the SNPs’ regression coefficients
with a single phenotype. A threshold on the SNP’s coefficient p-value is then used
to conduct the SNPs’ selection (Euesden et al. 2015). Some issues arise when using
this standard method for estimating the PRS, such as choosing the optimal threshold
value and how to use the Linkage disequilibrium (LD), which is important, since
ignoring the LD information often leads to an exaggerated estimation of the PRS
information.
A recent proven effective method for calculating the PRS is lassosum, presented in
Mak et al. (2017). Lassosum is based on a penalized regression model framework,

                                         19
and uses summary statistics as data entry, which are publicly available data. The
method also takes into account the Linkage Disequilibrium among SNPs. As for the
SNPs’s selection, the authors used a LASSO penalisation, which is quite effective in a
predictive framework, and especially when the number of variables is high, which is
often the case with genetic data sets.
LDpred (Vilhjálmsson et al. 2015) is also a popular method for PRS calculation. It
is based on a Bayesian approach and estimates the PRS using summary statistics
and a matrix of correlation between genetic variants. A new version of the method,
LDpred2 presented in Privé et al. (2020) was recently proposed that addresses some
of LDpred’s limitations that may reduce its predictive performance. For example,
LDpred is unstable in long-range LD regions. The LDpred2 method also has a new
sparse option that can learn SNP effects that are exactly 0, thus, discarding the SNPs
that are not important in the calculation of the PRS.

However, the lassosum and LDpred2 methods are used in a univariate framework, i.e,
they calculate the PRS for each phenotype separately. Since many disorders are highly
correlated, estimating the individual PRS for multiple disorders simultaneously might
improve prediction accuracy. Using a multivariate approach, which takes into account
the strong genetic correlation between schizophrenia, bipolar disorder and major
depressive disorder resulted in a significant increase in the prediction accuracy of the
disorders, as found in Maier et al. (2015).

In this paper, we present the Multivariate lassosum method, which is an extension
of lassosum to a multivariate framework, taking into consideration the genetic cor-
relation between disorders to further improve the prediction accuracy of the PRS.
Our method calculates the PRS, using a modified version of the multivariate mixed
model of Maier et al. (2018), to which we add a LASSO penalization for SNP selection.
Simulations with two dichotomous traits mimicking schizophrenia (SCZ) and bipolar
disorder (BIP) showed that Multivariate lassosum achieves a higher correlation of PRS

                                          20
with the simulated PRS than univariate PRS calculated with lassosum and LDpred2.
We also computed PRS with a real-world dataset using Multivariate lassosum, and
built a predictive model for the onset of a psychiatric disorder using the constructed
PRS and socioeconomic variables.

3.4       Methods

3.4.1     Multivariate estimation of SNPs weights

The method presented in this paper was initially designed for continuous phenotypes,
but in the scope of this work, we apply this method to binary phenotypes. The reason
behind this choice is that by working with a model for a binary outcome, we were
not able to derive SNPs weight estimates from publicly available summary statistics.
Other authors have used a similar approach, like Mak et al. (2017) and Maier et al.
(2018).

Similarly to Maier et al. (2018), we consider the following linear mixed model :

                                      y = Xβ + ε                                    (3.1)

where y is a vector of centered phenotypes, X is a standardized matrix of SNP
                                                                           q
genotypes, such as the ij th element is defined as : xij = (wij − 2pj ) / 2pj (1 − pj )
with wij the number of minor alleles (0,1 or 2) for the ith individual at the j th SNP
and pj the minor allele frequency, β are the genetic effects for each SNP, distributed as
such, β ∼ N (0, B), and ε represents a random error with E(ε) = 0 and V ar(ε) = Σe .

We denote the number of phenotypes by q, the number of SNP markers by p, the
number of subjects by n.

For each subject, we measure the outcome for all of the phenotypes. Note that in the
theoretical framework, genotypes and phenotypes are assumed to be measured on
the same subjects for model derivation, but in practice, phenotypes are measured in

                                           21
different subjects and in different numbers.
We denote the outcome of the subject i for the phenotype k by yik . We define then y as
a vector of the outcome of length n × q defined as y = (y11 ,..,y1q ,y21 ,..,y2q ,..,yn1 ,...,ynq )⊤ .

X is a (n × q) × (p × q) matrix of standardized SNP genotypes defined as
                                                                          
       X11 X12 . . . X1p                          xij    0    ...    0 
                                                                       
                                                                          
         X21 X22 . . . X2p                          0    xij . . .   0    
X=                                    with Xij =                             ,   with xij is the geno-
                                                                          
      
           ..  ..        ..                       
                                                       ..    ..         ..
            .   .         .                             .     .          .
                                                                          
                                                                          
                                                                          
                                                                          
        Xn1 Xn2 · · · Xnp                       0    0 · · · xij
type for the subject i and for the SNP j. xij is the same for all phenotypes, since the
SNP genotype does not vary by phenotype.

β is a vector of length p × q defined as β = (β11 ,..,β1q ,β21 ,..,β2q ,..,βp1 ,...,βpq )⊤ .

For each SNP, we estimate the genetic effet β for all of the phenotypes. Therefore : βjk
is the genetic effect for the SNP j for the phenotype k.

Using C. R. Henderson’s expression for the logarithm of the joint probability density
function of Y and β, found for example, in the book Linear and Generalized Linear
Mixed Models and Their Applications by Jiang (2007), Equation (2.36), we can derive
the log-likelihood of the model (3.1) :

                                   1h                                   i
                    f (β) = C −       (y − Xβ)⊤ Σ−1
                                                 e  (y − Xβ) + β ⊤ −1
                                                                  B   β                           (3.2)
                                   2
where B = Ip ⊗ Σb and B −1 = Ip ⊗ Σ−1
                                   b , with ⊗ being the Kronecker’s product.

Σb is a (q×q) variance-covariance matrix of genetic effects, B is a (p×q)×(p×q) matrix.
Σe = In ⊗ Σs is a (n × q) × (n × q) diagonal residual matrix where Σs = diag (σε2 ) is a
diagonal q × q matrix and σε2 = (σε21 ,...,σε2q ). We note that we use a diagonal residual
matrix in order to identify the model with unrelated subjects.

                                                 22
In general, the heritability of phenotypes and their genetic correlation are estimated
from summary statistics of large GWAS, using a set of methods, like the LD score
regression for example (Bulik-Sullivan et al. 2015).

We follow a similar methodology as in Mak et al. (2017) to derive estimates of β using
the LASSO penalty (Tibshirani 1996). We therefore minimize the following objective
function :

             f (β) = (y − Xβ)⊤ Σ−1           ⊤ −1        1
                                e (y −Xβ) + β B β + 2λ∥β∥1

                  = y ⊤ Σ−1                       βj⊤ Σs
                                          X                    X
                         e y−2                                      Xij yi
                                              j                i
                                                                                                                    (3.3)
                              (       "                    !                   #             )
                                              Xij⊤ Xil βj ⊤ Σ−1      ⊤ −1           1
                      X           X       X
                  +                                          s βl + βj Σb βj + 2λ∥β∥1
                      j           l       i

The summation indices, j and l, represent the SNPs, while the summation index i
denotes the subjects.

                                                                                                 X1T yk
Using a similar notation as in Mak et al. (2017), we denote by rk =                                n
                                                                                                        ,   the SNP-wise
                                                                                                  X1T X1
correlation between the SNPs and the phenotype k, and by R =                                         n
                                                                                                            , the linkage
disequilibrium (LD) matrix, a matrix of correlations between SNPs, with yk being the
outcome for the phenotype k, X1 being the genotype matrix for a single phenotype,
                                                                                
                     y1k                                x11 · · · x1p           
                  
                       ..                             
                                                            .. . .    .            
defined as yk =         .      and X1            =          .     . ..            . Estimates of rk       can be found
                                                                                
                                                      
                                                                                
                                                                                
                    ynk                xn1 · · · xnp
in publicly available summary statistics, and estimates of R can be found in publicly
available genotype.

Equation (3.3) becomes then
                                                                                  
 f (β) = y ⊤ Σ−1              βj⊤ Σ−1                          βj⊤ nRjl Σ−1                  βj⊤ Σ−1         1
                      X                           XX                                    X
              e y−2                s nrj +                               s  βl +                  b βj +2λ∥β∥1 (3.4)
                          j                        j       l                             j

However, since the genotype matrices X used to estimate R and r will in general be
                                                                    XrT Xr
different, it is more accurate to write R =                           nr
                                                                           ,   where nr is the number of subjects

                                                                   23
in the genotypes Xr used to derive LD. Furtheremore, as mentioned previously, in
practice, phenotypes are measured in different subjects and in different numbers. It is
therefore more accurate to consider n as a vector n = (n1 ,...,nk ,...,nq ) of the number of
subjects in the sample used to compute the summary statistics for the q phenotypes
rather than an integer. We can then redefine the vector of the SNP-wise correlation
                                                                            X1T yk
between SNPs and the phenotype k as rk =        We note that in this framework,
                                                                             nk
                                                                                   .
                                                     √
unlike Mak et al. (2017), we do not divide y and X by n, since the number of
subjects in the sample used to compute the summary statistics can be different for the
q phenotypes.

Equation (3.4) becomes then

     f (β) = y ⊤ Σ−1                      βj⊤ Σ−1
                                     X
                  e y−2                        s diag(n)rj
                                      j
                                                         
                          βj⊤ diag(n)Rjl Σ−1                                βj⊤ Σ−1          1
               XX                                                   X
          +                               s  βl +                                b βj + 2λ∥β∥1
               j     l                                                  j
                                                                                                                       (3.5)
          = y ⊤ Σ−1                       βj⊤ Σ−1
                                     X
                 e y−2                         s diag(n)rj
                                      j
                                                          ⊤
                                              P                              !
                                              (     i   Xrij Xril ) −1
                          βj⊤                                                βj⊤ Σ−1          1
               XX                                                          X
          +                         diag(n)                        Σs βl +        b βj + 2λ∥β∥1
               j     l                                   nr                j

However, we are no longer be in the framework of a LASSO problem. In order to
overcome this issue, we use a similar regularization as the one used by Mak et al.
                            Xr⊤ Xr                                          Xr⊤ Xr
(2017), by replacing          nr
                                          with Rs = (1 − s)                   nr
                                                                                       + sI for some 0 < s < 1.

Equation (3.5) becomes then

     f (β) = y ⊤ Σ−1                       βj⊤ Σ−1
                                     X
                  e y−2                         s diag(n)rj
                                      j
                                h                                           i                                        (3.6)
                          βj⊤                     X̃j⊤ X̃l              Σ−1                  βj⊤ Σ−1         2λ∥β∥11
               XX                                                                        X
           +                        diag(n)                  + sI        s        βl +            b βj   +
               j      l                                                                  j

              √
where X̃ =         1 − s √Xnrr and Xrj is a nr × q genotype matrix for the SNP j, each column
of Xrj refers to a phenotype.

                                                                24
Therefore, for the SNP j and phenotype k, we find the βjk estimate by minimizing
the objective function
               h                                                 i
             2
 f (βjk ) = βjk nk X̃j⊤ X̃j + s                σ −2 εk + Σ−1
                                                          b
                                           k                       kk
                                                                                                
                      1X                                        X
         − 2 × βjk −        (Σb )−1        −1
                                  kh βjh + Σs      nk rj − nk Σ−1
                                                               s           X̃j⊤ X̃l · βl  (3.7)
                      2 h̸=k                     k                 kk
                                                                      ℓ̸=j

         + 2λ |βjk |

Following a similar scheme as in Mak et al. (2017), the solution to the minimization
of f (βjk ) is found by iteratively updating βjk as follows :

If A < 0 :

                                   
                                   
                                   0
                                   
                                                                            if A + λ > 0
                            (t)
                           βjk =                                                                     (3.8)
                                                      A+λ
                                   
                                                                             otherwise
                                   
                                   
                                       nk (X̃j⊤ X̃j +s) σε−2 +(Σ−1
                                                                b )
                                   
                                                      k    k            kk

If A > 0 :

                                   
                                   
                                   0
                                   
                                                                            if A − λ < 0
                            (t)
                           βjk =                                                                     (3.9)
                                                      A−λ
                                   
                                                                             otherwise
                                   
                                   
                                       nk (X̃j⊤ X̃j +s) σε−2 +(Σ−1
                                                                b )
                                   
                                                      k    k            kk

Where

                 1X                                                 X
                        (Σb )−1
                                  (t−1)      −1                    −1                      (t−1)
        A = (−                  β
                             kh jh      +   Σs      nk rj − n k   Σs           X̃j⊤ X̃l · βl     )
                 2 h̸=k                           k                    kk
                                                                          ℓ̸=j

An R package that performs β estimation is available at https://github.com/
abureau/multivariateLassosum

3.4.2    Selection of tuning parameters

In order to choose the tuning parameters of our model, λ and s, we performed the
pseudovalidation method developed by Mak et al. (2017). This procedure can choose

                                                              25
Vous pouvez aussi lire