Puces à ADN (DNA microarrays)

La page est créée Lucas Duval
 
CONTINUER À LIRE
Puces à ADN (DNA microarrays)
Puces à ADN (DNA microarrays)

Sébastien Lemieux (s.lemieux@umontreal.ca)
Laboratoire de bioinformatique structurale et fonctionnelle
Institut de Recherche en Immunologie et Cancer - IRIC /"
Département d'Informatique et de Recherche Opérationnelle - DIRO
Université de Montréal
Puces à ADN (DNA microarrays)
Plan

• Survol d'une expérience typique
• Allison et al. Microarray data analysis: from disarray to consolidation and
  consensus. Nat. Rev. Genet. (2006) 7(1):55-65

• Ressources disponibles (bases de données, logiciels)
• Variations
• Séquençage haut-débit
Puces à ADN (DNA microarrays)
Transcriptomique
Puces à ADN (DNA microarrays)
Puce à ADN
Puces à ADN (DNA microarrays)
Déroulement d'une expérience d'expression

• L'impression: attacher des brins d'ADN
  (sondes) sur une matrice solide.
  • On peut commercialement se procurer des puces
    pré-imprimées avec les sondes de notre choix
    (Affymetrix, Agilent, Nimblegen).

• Le marquage: coupler de manière covalente
  les ARNm avec un fluorochrome (rouge/vert?).
  • Soit les sondes sont conçues pour être
    complémentaires aux ARNm,
  • soit on fait une rétrotranscription des ARN en ADNc
    avant le marquage.

• L'hybridation: on laisse s'apparier de manière
  spécifique les ARNm (ou ADNc) aux sondes.
• Acquisition de l'image avec un scanner laser.
Puces à ADN (DNA microarrays)
Déroulement d'une expérience d'expression

• Acquisition de l'image avec un scanner laser.
• Griding / quantification: convertir l'image en
  niveaux d'intensité par sonde. Cette intensité
  est proportionnelle à la concentration de
  ARNm correspondant.
• Normalisation: retirer un biais au niveau des
  log-ratios qui dépend de l'intensité.
• Sommarisation: combinaison des niveaux de
  plusieurs sondes.
• Inférence: identifier les gènes régulés.
• Analyse de groupe: identifier des groupes de
  gènes régulés.
Puces à ADN (DNA microarrays)
Concepts de base

• Marquage (dye, fluor): Cy3/Cy5 ou Alexa.
   • Avantage et biais liés à la rétrotranscription.
   • Le marquage direct permet d'hybrider avec
     plusieurs "couleurs" une même puce.

• Sonde (probe): oligonucléotides (spotted,
  in situ) ou cDNA.
   • La longueur de la sonde détermine la
     spécificité de l'hybridation.
   • Le design d'une puce consiste à choisir les
     séquences des sondes.

• Réplication: biologique ou technique.

• Intensités, ratios ou log-ratios?
Puces à ADN (DNA microarrays)
Deux types de procédés de fabrication

                                            www.affymetrix.com

          cDNA ou"
                            Oligonucléotides seulement
      oligonucléotides
Puces à ADN (DNA microarrays)
Types de puces

• cDNA:
  •   Des cDNA sont amplifiés, puis liés de manière covalente au substrat de la puce.
  •   L'ensemble du gène est disponible pour déterminer la spécificité.
  •   Peut-être fait en l'absence de la séquence du génome.
  •   Très peu utilisés.

• Oligonucléotides:
  • Technologie dominante
  • Affymetrix (25 nt): photolithographie, chimie en phase solide.
  • Agilent (25-60 nt, 244k sondes / puce): technologie similaire aux imprimantes à jet
    d'encre.
  • Nimblegen (50-75 nt, 2.1M sondes / puce): procédé photochimique utilisant un
    masque électronique (DLP)
  • Spotted arrays: la synthèse des oligos est faite de manière conventionnelle puis
    déposée sur la puces.
Puces à ADN (DNA microarrays)
GeneChips - Affymetrix

• Plateforme la plus courante, très grande
  densité (5 millions de sondes?).
• Perfect Match (PM) vs. Mismatch (MM):
   • Initialement, visait à distinguer la contribution à
     l'intensité d'hybridations non-spécifiques. La
     technique la plus simple consiste à utiliser PM -
     MM.
   • De plus en plus de groupes suggèrent d'ignorer les
     lectures MM.

• Nécessite un appareillage spécialisé pour
  l'hybridation et la digitalisation.
• Une seule "couleur" (marquage indirect).

• Haute reproductibilité au niveau de la puce.
   • Ne se traduit pas toujours par une haute
     reproductibilité au niveau de la biologie observée.
Allison et al. Microarray data analysis: from disarray to
consolidation and consensus. Nat. Rev. Genet., 7(1):55-65, 2006."
Design expérimental

• La réplication biologique est essentielle.
   • Dans tous les cas, la réplication biologique est préférable à une réplication
     technique.
   • Sauf dans les cas de développement de la technologie, les réplicats techniques
     n'apportent aucune information.
   • Le dye-swap devrait être combiné à un réplicat biologique.

• Calcul de puissance: 5 réplicats sont recommandés...
   • Peu respecté en pratique, question de coût. Un nombre inférieur de réplicats est
     souvent adéquat pour une étude exploratoire.
   • La méthode d'inférence utilisée nous permet d'ajuster le compromis sensibilité vs.
     spécificité.
Design expérimental

• Le pooling d'échantillons biologiques peut être utile.
   • Compromis entre réplicats biologiques et "pooling". Estimer la variance vs. réduire
     la variance.
   • Approche assez peu utilisée, a reçu mauvaise presse par le passé dû à
     l'impossibilité d'estimer la variance.

• Éliminer du design les facteurs qui ne sont pas à l'étude.
   • Biais vs. variance. On peut réduire la variance par les réplicats, ou en tenir compte
     dans l'inférence. Mais les biais expérimentaux généreront nécessairement des faux
     positifs impossibles à détecter.
   • Lorsqu'un tel design est impossible, on tente d'"orthogonaliser" ces facteurs.
Design expérimental
www.transcriptome.ens.fr/sgdb/contact/downloa/200601_Lelandais1.pdf
Nécessaire normalisation

                           Allison et al. Nat. Rev. Genet., 7(1):55-65, 2006.
Preprocessing

• Aucun consensus sur la méthode de sommarisation et normalisation
  idéale à utiliser.
   • Utilisation dans tous les cas d'une transformation log. Soit sur les intensités (alors
     on s'intéresse aux différences d'intensité), soit sur les ratios d'intensités.

   • Dans la pratique, on utilise une normalisation loess suivie d'une transformation log
     pour des puces 2 couleurs. Pour les puces Affymetrix (une couleur), on préfère les
     algorithmes MAS5, RMA ou GCRMA. Ces méthodes retournent des valeurs sur une
     échelle log.

• Pas de consensus sur la façon d'évaluer la qualité d'une expérience.
   • Difficulté d'obtenir un échantillon de référence.
   • La "qualité" d'une expérience varie en suivant beaucoup de facteurs imprédictibles.
   • Le critère de base que serait la reproductibilité est difficile à évaluer puisqu'il varie en
     fonction des sondes et des conditions expérimentales. Le coût des réplicats
     techniques est un obstacle important.
Inférence statistique

 • Objectif: Identifier les gènes régulés entre différentes conditions.
    • Variations: ChIP-chip, multiples conditions, CGH, tiling arrays, etc.
    • Erreurs de type 1: faux positifs
    • Erreurs de type 2: faux négatifs

 • L'utilisation d'un seuil sur le ratio (fold-change) n'est pas suffisante.
    • Ne tient pas compte de la variabilité des observations.
    • Ne tient pas compte du nombre de réplicats.
    • Une approche basée sur le ratio correspond à un test avec régularisation extrême.

    • Dans tous les cas, si une opération de moyenne ou de calcul d'écart-type est fait,
      elle doit l'être sur des valeurs en échelle log."
      Ne jamais faire la moyenne des valeurs d'intensité non-transformée."
      Ne jamais faire la moyenne de ratios observés dans différents réplicats.
Inférence statistique

 • L'utilisation d'un terme de régularisation est souhaitable.
    • L'estimation de la variance est imprécise.
    • L'idée est de baser cet estimé sur des informations a priori ou acquise à partir
      d'autres gènes.
    • Aucun consensus n'existe quant au choix de la meilleure méthode de régularisation.
      Les méthodes limma-ebayes (bioconductor), SAM, cyber-T, etc. présentent toutes
      un terme de régularisation.
Inférence statistique

 • Tester les gènes en groupe permet de minimiser les erreurs d'estimation
   dues au faible nombre de réplicats.
    • Analyses par Gene Ontology ou autre classification. Ex: GSEA.
    • Permet aussi d'obtenir des observations de plus haut niveau. Qui sont par contre
      difficiles à valider expérimentalement...
    • Excellente revue des méthodes disponibles: Rivals et al. Enrichment or depletion of
      a GO category within a class of genes: which test? Bioinformatics, 23:401-7, 2007.

 • La correction pour tests multiples est nécessaire.
    • La méthode de False Discovery Rate (FDR) est généralement recommandée.
    • Fait à noter: ces corrections ont pour but de contrôler le taux de faux positifs (fixer
      une borne supérieure) mais aucun ne donne de garantie quant à la sous-estimation
      du taux de faux positifs. La forte corrélation de l'expression des gènes aggrave ce
      problème.

 • Un mot sur les diagrammes de Venn...
Diagrammes de Venn

• Très utilisée pour représenter les
  intersections entre listes de gènes
  régulés.
   • Simple et facile à comprendre.
   • Devient graphiquement très complexe à
     partir de 4 ensembles.
   • Grande influence des seuils choisis
     pour chaque ensemble.
   • En grande partie responsable de la
     mauvaise presse faite aux puces à
     ADN.

• Pas de consensus clair sur
  l'approche à utiliser pour identifier
  l'intersection (ou la différence) entre
  plusieurs expériences.
Classification

 • Objectif: identifier des groupes d'échantillons ou de gènes avec des
   profiles d'expression similaires.
    • Les échantillons groupés indiquent un mécanisme similaire.
    • Les gènes groupés indiquent une co-régulation à travers les conditions analysées.

 • La classification non-supervisée n'est pas toujours appropriée:
    • Algorithmes courants: K-mean, Self-Organizing Maps (SOM), hierarchical
      clustering. À la limite: Principal Component Analysis, Singular Value
      Decomposition.
    • Devrait uniquement servir d'analyse exploratoire lorsqu'aucune catégorisation n'est
      connue sur les échantillons.

 • Tout type de classification doit inclure une validation:
    • Non-supervisée: bootstrap.
    • Supervisée: k-fold cross-validation, leave-one-out.
Classification

 • On obtient toujours des groupes:
   • exemple de double hierarchical
     clustering;
   • données aléatoires, triées par leur
     différence moyenne entre
     "échantillons" 1-5 et 6-10.
   • Les 200 "gènes" avec les
     différences les plus grandes sont
     présentées.
Validation expérimentale

• Objectif: confirmer les observations faites par l'expérience de puce.
• Méthodes utilisées:
   • qRT-PCR: amplification spécifique par PCR avec une sonde centrale couplée à un
     fluorophore. La courbe d'amplification indique avec précision la concentration
     initiale. Spécifique (3 sondes). Coûteux. (Taux de confirmation: 50-80%)
   • Northern Blot: les ARN sont séparés par longueur sur un gel d'agarose puis une
     sonde (couplée avec un isotope radioactif) est ajoutée pour identifier et quantifier
     l'ARNm d'intérêt. Approche surtout qualitative, aucun appareil spécialisé.

• Quels gènes valider?
   • En pratique, on valide les gènes pour lesquels on continue le travail ou sur lesquels
     nos conclusions se basent.

• Corrélations entre qRT-PCR et puces à ADN: les niveaux de régulation
  observés sont plus élevés en PCR qu'en puce...
Base de données publiques

• Base de donnée générale:
  • Gene Expression Omnibus - Database of gene expression data from NCBI.
  • ArrayExpress - Database of gene expression and other microarray data at the EBI.
  • Stanford Microarray Database - Data from microarray experiments, and the
    corresponding image files.

• Par tissus, commerciales ou meta-analyses:
  • Allen Brain Atlas - Database of gene expression patterns in the mouse brain.
  • Gene Expression in Tooth - Expression of different genes in the developing tooth.
  • GeneSifter Data Center - GeneSifter microarray data analysis system in selected
    conditions.
  • Genevestigator - Multi-organism microarray database and expression meta-analysis
    tool.
  • BioGPS - Database on gene function and structure, from Novartis Research
    Foundation.
BioConductor et R

• R: www.r-project.org
  • Environnement de programmation statistique open source.
  • Apprentissage difficile, très grande flexibilité.
  • Langage de programmation très lent, pas idéal pour de grands projets nécessitant
    des analyses rapides.

• Bioconductor: www.bioconductor.org
  • Ensemble de librairie R facilitant l'analyse de données de puces à ADN.
  • Le code source de tous les algorithmes sont disponible.
  • Environnement privilégié par une majorité de développeurs de méthodes
    statistiques.
  • Facilité à automatiser des analyses complexes et non-conventionnelle.

• Bioinformatics and Computational Biology Solutions Using R and
  Bioconductor, R. Gentleman et al., Springer, 2005.
Variations - CGH

• Comparative Genomic Hybridization:
   • On fragmente, puis marque l'ADN génomique.
   • L'hybridation est faite sur une puce de tiling (des
     sondes sont également distribuées sur toute la
     séquence génomique).

• Une variation d'intensité indique une
  modification du nombre de copies de la
  séquence correspondant à la sonde.
• La densité des sondes sur le génome
  détermine la taille minimale des aberrations
  qui peuvent être détectées.
Variation - ChIP-on-chip

• Chromatin-ImmunoPrecipitation on
  chip:
   • On construit d'abord une souche dans
     laquelle un facteur de transcription est
     combiné à un tag moléculaire (TAP,
     HA).
   • Par traitement chimique, on lie de
     manière covalente les protéines à
     l'ADN génomique. L'ADN génomique
     est ensuite fragmenté et filtré pour
     retirer les brins liés au tag.
   • Les protéines sont retirées, l'ADN
     marqué puis hybridé sur une puce de
     tiling.

• Indique les positions dans le
  génome où un facteur de
  transcription se lie.
Variation - ChIP-on-chip
Séquençage haut-débit (next-gen)

• Une technologie pouvant remplacer les puces à ADN...

                                                       2011:

                                     150-200 Gb / 4 jours (Illumina HiSeq 2000"
                                        80-120 Gb / 4 jours (SOLiD 5500xl)
Séquençage haut-débit

• Approche expérimentale
  • Un grand nombre (300-500 x 106) de courts fragments (50-100 nt) sont séquencés
  • Comparatif du coût par base (0.30$ par million de bases séquencées)

• Mapping
  • Consiste à aligner chaque fragment avec un génome de référence
  • L'algorithme classique pour accomplir ce type de tâche est BLAST: lorsqu'on
    considère la taille du jeu de données, on constate que BLAST est trop lent (50-200
    jours de temps CPU pour aligner ce qu'un séquenceur produit en 4 jours)
  • Le débit des séquenceurs augmente beaucoup plus rapidement que la puissance
    des processeurs

• Assemblage de novo
  • Représente encore un défi important
  • Exemple: Simpson et al., ABySS: A parallel assembler for short read sequence data,
    Genome Research, 19:1117-23, 2009.
ABI SOLiD - Next-generation sequencing

• Plusieurs technologies sont
  disponibles (Illumina, PacBio,
  Helicos, ...)

• Le principe commun à toutes ces
  approches est le séquençage en
  parallèle de millions de fragments
  attachés à un support solide.
Acquisition des données

• Pour chaque position:
  • 4 images seront prises par un système de caméra automatisée
  • la couleur indique la base présente à cette position pour le fragment lié à la bille

• Les images ne sont typiquement pas conservées: ~1 TB d'image pour
  environ 50 GB de séquence.
RNA-seq - Construction de la librairie
Séquençage: ADN vs. ARN
Alignement - Spaced seeds

   Choi et al., Good spaced seeds for homology
    search, Bioinformatics, 20(7):1053–9, 2004.
Alignement - Indexes FM (BW transforms)

• Bowtie: Langmead et al., Ultrafast and memory-efficient alignment of
  short DNA sequences to the human genome, Genome Biology, 10:R25,
  2009. (50 x 106 reads per hour per CPU)

   Transformation de Burrows-Wheeler
Identification de variants

 • On comptabilise le nombre de fragments indiquant la
   base consensus et la base variante.
 • Si on compare deux échantillons, un test exact de Fisher
   est souvent utilisé:
                              A    autre

           Échantillon #1   124 113

           Échantillon #2     2     87

 • Que faire si un seul échantillon est analysé?
Fragments en paires (mated short reads)

• Chaque fragment sera séquencé deux fois,
  résultant en 2 séquences de 50-75 nt
• La séparation dépend de la taille moyenne
  des fragments sélectionnés

                                              www.illumina.com
Fragments en paires (mated short reads)

• Exemple: Medvedev et al., Detecting copy number variation with mated
  short reads, Genome Research, 20:1613-22, 2010.
Votre mission, si vous l'acceptez...
Vous pouvez aussi lire