BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020

La page est créée Sébastien Blanc
 
CONTINUER À LIRE
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
BASES MÉTHODOLOGIQUES EN ANALYSE DE
DONNÉES QUANTITATIVES ET QUALITATIVES
E. Moyse, F. Farnir et J. Detilleux

                            Année 2019-2020
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
Nous contacter
Evelyne.moyse@uliege.be

f.farnir@uliege.be

Site du cours
www.biostat.ulg.ac.be

=> Onglet « Cours Master spécialisé » => « MS GIRISS »
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
Présentation
• Nom
• Pays
• Sujets d’intérêt
• Connaissances en statistique?
  • As-tu déjà eu des cours de statistique?
  • Depuis combien de temps
  • Utilises-tu les statistiques au quotidien?
  • As-tu des connaissances du logiciel R?
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
Installation de R
• Disponible gratuitement sur internet à
  http://www.r-project.org/   Clique sur Download R

  Choisis le CRAN: https://lib.ugent.be/CRAN/

• R studio rend plus agréable et facile l’utilisation de R. Disponible gratuitement
 sur internet à
  https://www.rstudio.com/products/RStudio/

  Télécharge R Studio desktop

• D’abord installer R puis R studio

• Ouvre seulement R studio
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
1. INTRODUCTION
La démarche scientifique
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
La démarche scientifique
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
La démarche scientifique

• Identifier le problème (quel est le problème?)

• Etude documentaire (que savons-nous déjà?)

                              QUOI? POURQUOI?
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
La démarche scientifique

 • Identifier les objectifs

 • Développer une hypothèse à tester pour atteindre ces objectifs
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
La démarche scientifique

                           Etablir la méthodologie de recherche
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
Méthodologie de recherche (design expérimental)

• Définir la population et les caractéristiques à considérer

Choix de la population dépend:

- Hypothèse de recherche: Qui cible-t-on?

- Accessibilité de la population

Déterminer les critères d’inclusion/exclusion de l’échantillon
Méthodologie de recherche (design expérimental)

• Identification et contrôle des variables parasites (ou confondantes)

= sources de variation non étudiées par le chercheur qui seraient susceptibles d’inférer
les résultats.

Différents types de variables parasites:

   • Les caractéristiques de l’échantillon (âge, sexe, statut sanitaire, …)

   • Les caractéristiques de l’expérimentateur (si intervention de celui-ci dans l’étude et qu’il est

     différent d’un individu à l’autre)

   • La situation expérimentale (matériel utilisé, lieu de passation de l’expérience, …)
Méthodologie de recherche (design expérimental)

• Identification et contrôle des variables parasites (ou confondantes)

                  Ech. 1:                                                Ech. 2:
                                            ≠
                 régime A                                               régime B

         ♂
                  ♂         ♂                                            ♂
                                                                                 ♂
             ♂                                                      ♀
                        ♂
                                                                             ♂
                    ♂       ♂                               ♀       ♀
         ♀                           Différence due:                             ♀
                                      au régime ?
                        ♀               au sexe ?
                                                                         ♀
                  ♀                                             ♀
                                       aux deux ?                                ♀
Méthodologie de recherche (design expérimental)

• Identification et contrôle des variables parasites (ou confondantes)

                  Ech. 1:                                            Ech. 2:
                                            ≠
                 régime A                                           régime B

         ♂
                  ♂         ♂                                            ♂
                                                                ♂                ♂
             ♂         ♂
                                                                             ♂
                   ♀        ♀                               ♂       ♀
         ♀                           Différence due:                             ♀
                                      au régime ?
                        ♀               au sexe ?
                                                                         ♀
                  ♀                                             ♀
                                       aux deux ?                                ♀
Méthodologie de recherche (design expérimental)

• Identification et contrôle des variables parasites (ou confondantes)

Techniques de contrôles des variables parasites:

1.   Maintien de la variable parasite à un niveau constant

     Ex.: Ne prendre que des animaux d’un âge spécifique

     Désavantage: Généralisation des résultats uniquement à ce groupe.

2.   Variation systématique de la variable parasite

     Ex.: Dans chaque groupe expérimental, avoir autant de mâles que de femelles

3.   Contre-balancement

     Ex.: faire varier l’ordre d’administration de deux substances
Méthodologie de recherche (design expérimental)

    • Type d’études

              Observationnelle                              Expérimentale

                                                                           Quasi-
    Descriptive           Analytique                 Expérimentale
                                                                        experimentale

                                                                       •    Comparaison
•   Séries de cas     •   Etudes cas-contrôles                              de groupes /
                                                 •    Répartition
•   Rapport de cas    •   Etudes de cohortes                                groupe
                                                      aléatoire des
•   Etudes            •   Etudes transversales                              contrôle
                                                      participants
    transversales     •   Etudes écologiques                           •    Répartition
                                                                            non aléatoire
Méthodologie de recherche (design expérimental)
• Type d’études en épidémiologie

  • Etudes transversales (cross-sectional):

  Description de la fréquence d'une maladie, de ses facteurs de risque et autres
  caractéristiques …
  Pas de relation causale

  • Etudes de cohortes, longitudinales, prospectives:

  Individus non atteints divisés en 2 groupes: exposés au facteur et non exposés au facteur
  Suivi dans le temps

  • Etudes de cas-contrôles et rétrospectives:

  Echantillons d’animaux atteints et non-atteints.
  Regard en arrière sur leurs antécédents et exposition au facteur.
Méthodologie de recherche (design expérimental)
             3. Research methodology
Méthodologie de recherche (design expérimental)
• Techniques d’échantillonnage

  Echantillon doit être représentatif de la population

  • Echantillonnage aléatoire

  • Echantillonnage stratifié

  • Echantillonnage par grappes
Méthodologie de recherche (design expérimental)
• Techniques d’échantillonnage

   Echantillon doit être représentatif de la population

   • Echantillonnage aléatoire

           Chaque individu a la même probabilité d’être sélectionné.

           Avantage: Simple à utiliser

           Inconvénient: Pas sûr que l’échantillon soit représentatif de la population,

surtout quand la taille d’échantillon est petite.
Méthodologie de recherche (design expérimental)

• Techniques d’échantillonnage

   • Echantillonnage stratifié

          Diviser la populations en sous-groupes (strates, ex.: sexe, cas-contrôle)

          Sélection aléatoire dans ces strates.

          Méthode des quotas: taille échantillon dans chaque strate est proportionnel à

la population = « modèle réduit » de la population

          Avantage: L’échantillon sera représentatif de la population pour ces

caractéristiques.

                    Réduit les variables confondantes.
Méthodologie de recherche (design expérimental)

• Techniques d’échantillonnage

   Echantillon doit être représentatif de la population

   • Echantillonnage par grappes

          Identification de groupes d’individus. (ex.: région, exploitations agricoles, …)

          Variations entre les grappes et à l’intérieur des grappes.

          Avantage: utile dans de grandes populations qui sont géographiquement

dispersées.

          Inconvénient: Cela introduit 2 types de variations dans les données (entre les

grappes et à l’intérieur des grappes)

                          Besoin de taille d’échantillon plus grand
Méthodologie de recherche (design expérimental)

• Type d’analyse de données

  • Analyse qualitative

  • Analyse quantitative

  • Les 2
La démarche scientifique
Méthodologie de recherche (design expérimental)

• Quelques références pour aller plus loin:

Méthodologie de la recherche dans le domaine de la santé (fichier pdf) :

- En français

http://www.wpro.who.int/health_research/documents/dhs_hr_health_research_methodolo
gy_a_guide_for_training_in_research_methods_second_edition_fr.pdf

- En anglais:

http://apps.who.int/iris/bitstream/handle/10665/206929/929061157X_eng.pdf;jsessionid=9
C7A44ED4889A4BE9AAE4553ED5B0E06?sequence=1
2. CONCEPTS DE BASE
2. CONCEPTS DE BASE
2.1. Terminologie
2.1. Terminologie
                                                                Population
• Population

Champ de l’étude.                                                            Echantillon

Ex.: Agriculteurs

Pas toujours des individus.

• Echantillon

Sous-ensemble de la population

Représentatif de cette population

Ex.: Plusieurs agriculteurs par région et selon le type d’exploitation agricole
2.1. Terminologie

• Variable

Caractéristique définie sur la population et observée sur l’échantillon.

Dite aléatoire car la valeur est le fruit d’un « tirage » au hasard.

Ex.: Age, sexe, taille, poids, T°, …

• Paramètres

Résumer l’information donnée par la variable.

Constants dans la population mais variables d’un échantillon à l’autre.

Ex.: Moyenne, Médiane, Ecart-type, …
2. CONCEPTS DE BASE
2.2. Types de variables
2.2. Types de variables
2.2. Types de variables
• Qualitatives
Pas de valeurs numériques
Ex.: Etat sanitaire (mauvais, moyen, bon)

• Quantitatives
Valeurs numériques
Ex.: taille, poids, …
2.2. Types de variables
• Discrètes
Nombres limités de valeurs
Ex.: Race, sexe, …

• Continues
N’importe quelle valeurs entre les extrêmes d’une échelle
Ex.: Niveau de production (en kilo de lait), taille, poids, tension artérielle …
2.2. Types de variables
• Nominales
Etiquette. Pas de valeur chiffrée
Ex.: Profession, Sexe, Diagnostic (positif vs négatif), …

• Ordinales
Classification le long d’un continuum. MAIS pas d’information quant à la différence de
deux scores.
Ex.: Degré d’une affection (atteint, très atteint, …), appréciation sur un diplôme (S, D,
GD)

• Métriques
Comparaison précise
   • Echelle d’intervalle: comparaison des tailles de différences entre elles.

   Ex.: T°
   • Echelle de rapport: Point nul absolu

   Ex.: taille, poids, âge
2.2. Types de variables

                               Nominales   Ex.: Sexe

Qualitatives       Discrètes
                                           Ex.: Appréciation
                               Ordinales   du diplôme

                   Continues   Métriques   Ex.: Poids

Quantitatives
                                           Ex.: Nombre de nouveau-
                               Métriques   né par portée chez le lapin
                   Discrètes
                                           Ex.: Classement à une
                               Ordinales   course
2. CONCEPTS DE BASE
2.3. Statistiques descriptives vs statistiques inférentielles
2.3. Statistiques descriptives vs statistiques inférentielles
• Descriptives
Description, exploration
Représentation numérique et graphique
Identifier des problèmes
   •   Effet plafond, effet plancher, variabilité
   •   Type de distribution
   •   Sujets extrêmes

Tirer de premières conclusions quant à l’échantillon
Aucune hypothèse de type probabiliste

• Inférentielles
Inférence, prédiction à partir des données rassemblées.
Tester des hypothèses, vérifier le lien entre des variables.
Généralisation des données obtenues sur un échantillon à la population.
Population                             Echantillon

                                                 Observations
                                                 Analyses descriptives

             Généralisation
             Analyses inférentielles
3. STATISTIQUES
DESCRIPTIVES
3. STATISTIQUES
DESCRIPTIVES
3.1. Une seule variable = unidimensionnelle
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3. Représentations graphiques
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3. Représentations graphiques
3.1.1 Paramètres de tendance centrale
• Mode

• Médiane

• Moyenne
3.1.1 Paramètres de tendance centrale
• Mode

= valeur la plus fréquente dans une distribution.

Distribution bimodale ou multimodale = 2 ou plusieurs modes.

                                                    Années     Fréquence
                                                       2           1
                                                       3           2
 Durée de vie de 20 chiens
                                                       5           1
 8       15       7        9        Table de           6           3
 3        2       6       13       fréquence           7           3
 6       10       6        5                           8           2
 10      10       3       10                           9           2
 7        9       7        8
                                                                           Mode =
                                                       10          4
                                                                           10 ans
                                                       13          1
                                                       15          1
                                                     TOTAL        20
3.1.1 Paramètres de tendance centrale
• Médiane

= valeur qui se trouve juste au milieu de la distribution

Durée de vie de 20 chiens
                                                                                        (   )
   Années       Fréquence                           Position de la médiane =
      2              1
      3              2
      5              1              10 chiens
      6              3
      7              3                                                  (   )
                                                            Médiane =           = 7,5
      8              2
      9              2
      10             4              10 chiens
      13             1
      15             1
    TOTAL            20
3.1.1 Paramètres de tendance centrale
• Moyenne                                                Table de fréquence

                 ∑         ∑( ∗ )                      Durée de vie de 20 chiens
     Moyenne =         =    ∑                                              Fréquence
                                                Années        Fréquence
                                                                            * Année
                                                   2               1               2

     Données brutes                                3               2               6
                                                   5               1               5
 Durée de vie de 20 chiens
                                                   6               3               18
 8       15       7        9
                                    Moyenne =      7               3               21
 3       2        6        13                      8               2               16
 6       10       6        5           = 7,7
                                                   9               2               18
10       10       3        10                     10               4               40
 7       9        7        8                      13               1               13
         TOTAL = 154                              15               1               15
                                                 TOTAL            20           154
3.1.1 Paramètres de tendance centrale
• Avantages et inconvénients:
             Moyenne: Sensible aux scores extrêmes

  Années    Fréquence                        Années     Fréquence
    2           1                               0           1

    3           2                               3           2
                           Médiane = 7,5
    5           1          Moyenne = 7,7        5           1
    6           3                               6           3
    7           3                               7           3
    8           2                               8           2
    9           2                               9           2
    10          4        Médiane = 7,5         10           4
    13          1        Moyenne = 8,6         13           1
    15          1                              35           1
   TOTAL       20                             TOTAL        20

            Médiane: Peu sensible aux scores extrêmes
3.1.1 Paramètres de tendance centrale

Paramètres                 Fonctions                    Utilisation
              Excel (EN)    Excel (FR)      R

Mode         =MODE()       =MODE()       mode()     Variables discrètes

                                                    Valeurs extrêmes
Médiane      =MEDIAN()     =MEDIANE()    median()   Distribution
                                                    asymétrique

Moyenne      =AVERAGE() =MOYENNE()       mean()     Dans les autres cas
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3. Représentations graphiques
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3 Représentations graphiques
Moyenne identique mais distribution différente
3.1.2 Paramètres de dispersion
• Etendue

• Quantiles - écart interquartile

• Variance

• Ecart-type (déviation standard)

• Coefficient de variation

• Erreur standard
3.1.2 Paramètres de dispersion
• Etendue

= écart entre la plus grande et la plus petite valeur.

= max-min

                                       Extrêmement sensible aux scores extrêmes

 Durée de vie de 20 chiens
  8       15       7        9
                                   Etendue = 15-2 = 13
  3       2        6       13
  6       10       6        5
 10       10       3       10
  7       9        7        8
3.1.2 Paramètres de dispersion
 • Quantiles

 = Ils découpent la distribution en plusieurs parties égales en terme de nombre de score
 dans chaque partie : quartiles en 4, déciles en 10 et percentiles en 100.

                            Position =      +     ∗      où x = xième percentile à obtenir
Durée de vie de 20 chiens

 Années       Fréquence
     2             1
     3             2           5 chiens
     5             1
     6             3                                  Q1 = 6
     7             3           5 chiens
                                                                       (     )
     8             2                                  Médiane (Q2) =             = 7,5
     9             2           5 chiens
    10             4                                  Q3 = 10
    13             1           5 chiens
    15             1
   TOTAL          20
3.1.2 Paramètres de dispersion
 • Ecart interquartiles

 Mesure de la dispersion des 50% d’observations centrales

                                                 EI = Q3-Q1

Durée de vie de 20 chiens

 Années       Fréquence
                                                              EI = 10-6 = 4
     2             1
     3             2         5 chiens
     5             1
     6             3                              Q1 = 6
     7             3         5 chiens
     8             2                               Q2 = 7,5
     9             2         5 chiens
    10             4                              Q3 = 10
    13             1         5 chiens
    15             1
   TOTAL          20
3.1.2 Paramètres de dispersion
• Variance (ou écart quadratique moyen)

= somme des écarts à la moyenne élevés au carré, divisée par la taille de l’échantillon.

                          ∑(            )²                   ∑(      )²    Estimateur de la
                  σ² =                       ou       s² =                  variance de la
                                                                              population
              Durée de vie de 20 chiens

Années   Fréquence           −               ( − )²      f*( − )²

  2          1           2-7,7= -5,7          32,49          32,49

  3          2           3-7,7 = -4,7         22,09          44,18

  5          1           5-7,7 = -2,7         7,29           7,29
                                                                          Variance = s² =
  6          3           6-7,7 = -1,7         2,89           8,67            ,
                                                                                 = 10,5368
  7          3           7-7,7 = -0,7         0,49           1,47

  8          2           8-7,7 = 0,3          0,09           0,18

  9          2           9-7,7 = 1,3          1,69           3,38

  10         4           10-7,7 = 2,3         5,29           21,16

  13         1           13-7,7 = 5,3         28,09          28,09

  15         1           15-7,7 = 7,3         53,29          53,29
 TOTAL       20                                              200,2
3.1.2 Paramètres de dispersion
 • Ecart-type ou déviation standard

 = racine carrée de la variance.

                            ∑(       )²                  ∑(       )²    Estimateur de la
                       σ=                 ou   s=                      déviation standard
                                                                        de la population
Durée de vie de 20 chiens

 Années       Fréquence                         ,
                            Ecart-type = s=         = 3,246
     2             1
     3             2
     5             1                           Petit écart-type
     6             3
     7             3                                                     Grand écart-
                                                                            type
     8             2
     9             2
    10             4
    13             1
    15             1
   TOTAL          20
3.1.2 Paramètres de dispersion
• Coefficient de variation

Permet d’exprimer la variation de manière relative (à la moyenne)

Permet de comparer des écart-types pour des mesures ayant des moyennes différentes.

                                          CV =

                Poids en         Souris                 Hommes
                gramme
                Moyenne           30,35                   76100

                Ecart-type         6,37                   16193

                CV           6,37/30,35 = 0,21      16193/76100 = 0,21

                CV en %            21%                     21%
3.1.2 Paramètres de dispersion
• Erreur standard ou erreur type de la moyenne

= écart-type des erreurs aléatoires de la mesure de la moyenne.

= variabilité de la moyenne d’un échantillon à l’autre

                                        SEM =

   ≠ écart-type = variabilité des scores au sein même d’un échantillon

     Durée de vie de 20 chiens
      8       15       7       9
      3       2        6       13               Ecart-type = s = 3,246
      6       10       6       5                                          ,
                                                Erreur standard = sem =       = ,
     10       10       3       10
      7       9        7       8
3.1.2 Paramètres de dispersion
Paramètres                                                                   Utilisation
                                   Fonctions

                     Excel (EN)        Excel (FR)            R

Etendue        =MAX() - MIN()       =MAX() - MIN()   max()-min()      Avec la médiane

               =QUARTILE.INCLURE    =QUARTILE.INC
Quartile       (data;quart)         (data,quart)
                                                     quantile()       Avec la médiane

                                                                      Propriétés statistiques
Variance       =VAR.S()             =VAR.S()         var()
                                                                      Pas utilisé pour décrire

                                    =ECARTYPE.                        Avec la moyenne pour
Ecart-type     =STDEV.S()
                                    STANDARD()
                                                     sd()
                                                                      décrire un échantillon

                                    =ECARTYPE.
Coefficent     =STDEV.S() /
                                    STANDARD() /     sd() / mean()    Comparaison d’écart-type
de variation   AVERAGE()
                                    MOYENNE()

                                    =ECARTYPE.
Erreur         =STDEV.S() /                          sd() /           Avec la moyenne pour
                                    STANDARD() /
standard       SQRT(COUNT())                         sqrt(length())   décrire la moyenne
                                    RACINE(NB())
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3. Représentations graphiques
3.1. Une variable

      3.1.1. Paramètres de tendance centrale

      3.1.2. Paramètres de dispersion

      3.1.3 Représentations graphiques
64

3.1.3 Représentations graphiques
• Variable qualitative
  • Diagramme à barre

  • Secteur ou diagramme angulaire

  • Cartogramme

• Variable quantitative
  • Diagramme à barre

  • Histogramme

  • Courbe de fréquence

  • Boîtes à moustache
3.1.3 Représentations graphiques
          • Variables qualitatives

                    • Diagrammes à barres (bar diagram, bar chart)

                    Barre verticale ou horizontale

                    Hauteur (ou largeur) dépend du pourcentage ou de l’effectif de la catégorie

                    Echelle nominale et ordinale
                                                         Utilisation des produits antimicrobiens en 2015
               35

               30

               25
Pourcentages

               20

               15

               10

               5

               0
                      Penicilline   Sulphonam &    tetracyclines   macrolides    aminosydes   polymixins   quinolones   fenicols   cephalosporins   autres
                                    trimethoprim
                                                                                Classes d’antimicrobiens
3.1.3 Représentations graphiques
• Variables qualitatives

  • Diagrammes à barres (bar diagram, bar chart)

  Echelle ordinale: plutôt empiler les catégories (ordre croissant ou décroissant)

                                   Inventaire de troupeau
            100%

             90%

             80%

             70%
                                                                 >24 mois
             60%                                                 12-24 mois
             50%                                                 6-12 mois
                                                                 1-5 mois
             40%
                                                                 8 jours - 30 jours
             30%
                                                                 0-7 jours
             20%

             10%

              0%
                                      2016
3.1.3 Représentations graphiques
• Variables qualitatives

  • Secteurs ou diagramme angulaire (pie diagram, pie chart)

  Echelle nominale

  Amplitude de l’angle d’un quartier = fréquence * 360°

  Fréquence ou pourcentage
                  Répartition des médicaments à usage vétérinaire en fonction
                                       de l’animal cible
                                               Lapin Pigeon
                                  Volaille      1%     2%
                                   7%
                       Ovin et Caprin
                            8%                                Bovin
                                                              22%

                                    Cheval
                                     8%

                                        Chat                     Chien
                                        13%                      21%

                                                   Porc
                                                   18%
3.1.3 Représentations graphiques
• Variables qualitatives

  • Cartogrammes

                                   Zones géographiques
                                   Couleurs correspondent à des
                                   effectifs ou fréquences différentes
                                   Cercle dont le rayon est fonction de
                                   la fréquence ou de l’effectif
3.1.3 Représentations graphiques
• Variables quantitatives

  • Diagrammes en bâtons

  Variables discrètes (si variables continues => histogrammes)

  Hauteur = fréquence ou pourcentage

                                                       Longévité de 20 chiens
                               5

                               4
                   Fréquence

                               3

                               2

                               1

                               0
                                   2   3   4   5   6    7   8   9   10   11 12   13 14   15 16   17 18   19 20
                                                                         Age
3.1.3 Représentations graphiques
• Variables quantitatives

  • Histogrammes

  Variables continues divisées en classe.

  Absence d’espacement sur l’abscisse

                                     Répartition du poids d'agneaux de race Texel
                                45
                                40
                                35
                                30
                    Effectifs

                                25
                                20
                                15
                                10
                                5
                                0
3.1.3 Représentations graphiques
• Variables quantitatives

  • Courbes de fréquence

  Variables continues divisées en classe.

  Milieu de la classe = abscisse du point

  Fréquence de la classe = ordonnée du point

                                     Répartition du poids d'agneaux de race Texel
                                45
                                40
                                35
                                30
                    Effectifs

                                25
                                20
                                15
                                10
                                5
                                0
                                      7    8.5   9.5   10.5 11.5 12.5    13.5   14.5   15.5
                                                         Poids (en kg)
3.1.3 Représentations graphiques
• Variables quantitatives

  • Diagrammes en tiges et feuilles (stem leaves)

  Variables continues et nombre de données important

  Unité à gauche et décimale à droite

  Table de fréquences mais où l’ensemble des données est visible

  Répartition du poids d’agneau
  de race Texel:
3.1.3 Représentations graphiques
• Variables quantitatives

  • Boîtes à moustache

  Bonne visualisation de la dispersion des données.

  Utilisation de 5 valeurs: min., Q1, médiane, Q3 et max.
3.1.3 Représentations graphiques

          Graphique                          Fonction in R

                          barplot()
    Diagramme à barres
                          plot(x, y, type = "h")

    Histogramme           hist()

    Boîtes à moustache    boxplot()

                          plot(x,y, type="b")

                          # "p" = points
    Courbe de fréquence   # "l" = lines
                          # "b" = both: lines and points
Vous pouvez aussi lire