BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES - E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES E. Moyse, F. Farnir et J. Detilleux Année 2019-2020
Nous contacter Evelyne.moyse@uliege.be f.farnir@uliege.be Site du cours www.biostat.ulg.ac.be => Onglet « Cours Master spécialisé » => « MS GIRISS »
Présentation • Nom • Pays • Sujets d’intérêt • Connaissances en statistique? • As-tu déjà eu des cours de statistique? • Depuis combien de temps • Utilises-tu les statistiques au quotidien? • As-tu des connaissances du logiciel R?
Installation de R • Disponible gratuitement sur internet à http://www.r-project.org/ Clique sur Download R Choisis le CRAN: https://lib.ugent.be/CRAN/ • R studio rend plus agréable et facile l’utilisation de R. Disponible gratuitement sur internet à https://www.rstudio.com/products/RStudio/ Télécharge R Studio desktop • D’abord installer R puis R studio • Ouvre seulement R studio
La démarche scientifique • Identifier le problème (quel est le problème?) • Etude documentaire (que savons-nous déjà?) QUOI? POURQUOI?
La démarche scientifique • Identifier les objectifs • Développer une hypothèse à tester pour atteindre ces objectifs
Méthodologie de recherche (design expérimental) • Définir la population et les caractéristiques à considérer Choix de la population dépend: - Hypothèse de recherche: Qui cible-t-on? - Accessibilité de la population Déterminer les critères d’inclusion/exclusion de l’échantillon
Méthodologie de recherche (design expérimental) • Identification et contrôle des variables parasites (ou confondantes) = sources de variation non étudiées par le chercheur qui seraient susceptibles d’inférer les résultats. Différents types de variables parasites: • Les caractéristiques de l’échantillon (âge, sexe, statut sanitaire, …) • Les caractéristiques de l’expérimentateur (si intervention de celui-ci dans l’étude et qu’il est différent d’un individu à l’autre) • La situation expérimentale (matériel utilisé, lieu de passation de l’expérience, …)
Méthodologie de recherche (design expérimental) • Identification et contrôle des variables parasites (ou confondantes) Ech. 1: Ech. 2: ≠ régime A régime B ♂ ♂ ♂ ♂ ♂ ♂ ♀ ♂ ♂ ♂ ♂ ♀ ♀ ♀ Différence due: ♀ au régime ? ♀ au sexe ? ♀ ♀ ♀ aux deux ? ♀
Méthodologie de recherche (design expérimental) • Identification et contrôle des variables parasites (ou confondantes) Ech. 1: Ech. 2: ≠ régime A régime B ♂ ♂ ♂ ♂ ♂ ♂ ♂ ♂ ♂ ♀ ♀ ♂ ♀ ♀ Différence due: ♀ au régime ? ♀ au sexe ? ♀ ♀ ♀ aux deux ? ♀
Méthodologie de recherche (design expérimental) • Identification et contrôle des variables parasites (ou confondantes) Techniques de contrôles des variables parasites: 1. Maintien de la variable parasite à un niveau constant Ex.: Ne prendre que des animaux d’un âge spécifique Désavantage: Généralisation des résultats uniquement à ce groupe. 2. Variation systématique de la variable parasite Ex.: Dans chaque groupe expérimental, avoir autant de mâles que de femelles 3. Contre-balancement Ex.: faire varier l’ordre d’administration de deux substances
Méthodologie de recherche (design expérimental) • Type d’études Observationnelle Expérimentale Quasi- Descriptive Analytique Expérimentale experimentale • Comparaison • Séries de cas • Etudes cas-contrôles de groupes / • Répartition • Rapport de cas • Etudes de cohortes groupe aléatoire des • Etudes • Etudes transversales contrôle participants transversales • Etudes écologiques • Répartition non aléatoire
Méthodologie de recherche (design expérimental) • Type d’études en épidémiologie • Etudes transversales (cross-sectional): Description de la fréquence d'une maladie, de ses facteurs de risque et autres caractéristiques … Pas de relation causale • Etudes de cohortes, longitudinales, prospectives: Individus non atteints divisés en 2 groupes: exposés au facteur et non exposés au facteur Suivi dans le temps • Etudes de cas-contrôles et rétrospectives: Echantillons d’animaux atteints et non-atteints. Regard en arrière sur leurs antécédents et exposition au facteur.
Méthodologie de recherche (design expérimental) 3. Research methodology
Méthodologie de recherche (design expérimental) • Techniques d’échantillonnage Echantillon doit être représentatif de la population • Echantillonnage aléatoire • Echantillonnage stratifié • Echantillonnage par grappes
Méthodologie de recherche (design expérimental) • Techniques d’échantillonnage Echantillon doit être représentatif de la population • Echantillonnage aléatoire Chaque individu a la même probabilité d’être sélectionné. Avantage: Simple à utiliser Inconvénient: Pas sûr que l’échantillon soit représentatif de la population, surtout quand la taille d’échantillon est petite.
Méthodologie de recherche (design expérimental) • Techniques d’échantillonnage • Echantillonnage stratifié Diviser la populations en sous-groupes (strates, ex.: sexe, cas-contrôle) Sélection aléatoire dans ces strates. Méthode des quotas: taille échantillon dans chaque strate est proportionnel à la population = « modèle réduit » de la population Avantage: L’échantillon sera représentatif de la population pour ces caractéristiques. Réduit les variables confondantes.
Méthodologie de recherche (design expérimental) • Techniques d’échantillonnage Echantillon doit être représentatif de la population • Echantillonnage par grappes Identification de groupes d’individus. (ex.: région, exploitations agricoles, …) Variations entre les grappes et à l’intérieur des grappes. Avantage: utile dans de grandes populations qui sont géographiquement dispersées. Inconvénient: Cela introduit 2 types de variations dans les données (entre les grappes et à l’intérieur des grappes) Besoin de taille d’échantillon plus grand
Méthodologie de recherche (design expérimental) • Type d’analyse de données • Analyse qualitative • Analyse quantitative • Les 2
La démarche scientifique
Méthodologie de recherche (design expérimental) • Quelques références pour aller plus loin: Méthodologie de la recherche dans le domaine de la santé (fichier pdf) : - En français http://www.wpro.who.int/health_research/documents/dhs_hr_health_research_methodolo gy_a_guide_for_training_in_research_methods_second_edition_fr.pdf - En anglais: http://apps.who.int/iris/bitstream/handle/10665/206929/929061157X_eng.pdf;jsessionid=9 C7A44ED4889A4BE9AAE4553ED5B0E06?sequence=1
2. CONCEPTS DE BASE
2. CONCEPTS DE BASE 2.1. Terminologie
2.1. Terminologie Population • Population Champ de l’étude. Echantillon Ex.: Agriculteurs Pas toujours des individus. • Echantillon Sous-ensemble de la population Représentatif de cette population Ex.: Plusieurs agriculteurs par région et selon le type d’exploitation agricole
2.1. Terminologie • Variable Caractéristique définie sur la population et observée sur l’échantillon. Dite aléatoire car la valeur est le fruit d’un « tirage » au hasard. Ex.: Age, sexe, taille, poids, T°, … • Paramètres Résumer l’information donnée par la variable. Constants dans la population mais variables d’un échantillon à l’autre. Ex.: Moyenne, Médiane, Ecart-type, …
2. CONCEPTS DE BASE 2.2. Types de variables
2.2. Types de variables
2.2. Types de variables • Qualitatives Pas de valeurs numériques Ex.: Etat sanitaire (mauvais, moyen, bon) • Quantitatives Valeurs numériques Ex.: taille, poids, …
2.2. Types de variables • Discrètes Nombres limités de valeurs Ex.: Race, sexe, … • Continues N’importe quelle valeurs entre les extrêmes d’une échelle Ex.: Niveau de production (en kilo de lait), taille, poids, tension artérielle …
2.2. Types de variables • Nominales Etiquette. Pas de valeur chiffrée Ex.: Profession, Sexe, Diagnostic (positif vs négatif), … • Ordinales Classification le long d’un continuum. MAIS pas d’information quant à la différence de deux scores. Ex.: Degré d’une affection (atteint, très atteint, …), appréciation sur un diplôme (S, D, GD) • Métriques Comparaison précise • Echelle d’intervalle: comparaison des tailles de différences entre elles. Ex.: T° • Echelle de rapport: Point nul absolu Ex.: taille, poids, âge
2.2. Types de variables Nominales Ex.: Sexe Qualitatives Discrètes Ex.: Appréciation Ordinales du diplôme Continues Métriques Ex.: Poids Quantitatives Ex.: Nombre de nouveau- Métriques né par portée chez le lapin Discrètes Ex.: Classement à une Ordinales course
2. CONCEPTS DE BASE 2.3. Statistiques descriptives vs statistiques inférentielles
2.3. Statistiques descriptives vs statistiques inférentielles • Descriptives Description, exploration Représentation numérique et graphique Identifier des problèmes • Effet plafond, effet plancher, variabilité • Type de distribution • Sujets extrêmes Tirer de premières conclusions quant à l’échantillon Aucune hypothèse de type probabiliste • Inférentielles Inférence, prédiction à partir des données rassemblées. Tester des hypothèses, vérifier le lien entre des variables. Généralisation des données obtenues sur un échantillon à la population.
Population Echantillon Observations Analyses descriptives Généralisation Analyses inférentielles
3. STATISTIQUES DESCRIPTIVES
3. STATISTIQUES DESCRIPTIVES 3.1. Une seule variable = unidimensionnelle
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3. Représentations graphiques
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3. Représentations graphiques
3.1.1 Paramètres de tendance centrale • Mode • Médiane • Moyenne
3.1.1 Paramètres de tendance centrale • Mode = valeur la plus fréquente dans une distribution. Distribution bimodale ou multimodale = 2 ou plusieurs modes. Années Fréquence 2 1 3 2 Durée de vie de 20 chiens 5 1 8 15 7 9 Table de 6 3 3 2 6 13 fréquence 7 3 6 10 6 5 8 2 10 10 3 10 9 2 7 9 7 8 Mode = 10 4 10 ans 13 1 15 1 TOTAL 20
3.1.1 Paramètres de tendance centrale • Médiane = valeur qui se trouve juste au milieu de la distribution Durée de vie de 20 chiens ( ) Années Fréquence Position de la médiane = 2 1 3 2 5 1 10 chiens 6 3 7 3 ( ) Médiane = = 7,5 8 2 9 2 10 4 10 chiens 13 1 15 1 TOTAL 20
3.1.1 Paramètres de tendance centrale • Moyenne Table de fréquence ∑ ∑( ∗ ) Durée de vie de 20 chiens Moyenne = = ∑ Fréquence Années Fréquence * Année 2 1 2 Données brutes 3 2 6 5 1 5 Durée de vie de 20 chiens 6 3 18 8 15 7 9 Moyenne = 7 3 21 3 2 6 13 8 2 16 6 10 6 5 = 7,7 9 2 18 10 10 3 10 10 4 40 7 9 7 8 13 1 13 TOTAL = 154 15 1 15 TOTAL 20 154
3.1.1 Paramètres de tendance centrale • Avantages et inconvénients: Moyenne: Sensible aux scores extrêmes Années Fréquence Années Fréquence 2 1 0 1 3 2 3 2 Médiane = 7,5 5 1 Moyenne = 7,7 5 1 6 3 6 3 7 3 7 3 8 2 8 2 9 2 9 2 10 4 Médiane = 7,5 10 4 13 1 Moyenne = 8,6 13 1 15 1 35 1 TOTAL 20 TOTAL 20 Médiane: Peu sensible aux scores extrêmes
3.1.1 Paramètres de tendance centrale Paramètres Fonctions Utilisation Excel (EN) Excel (FR) R Mode =MODE() =MODE() mode() Variables discrètes Valeurs extrêmes Médiane =MEDIAN() =MEDIANE() median() Distribution asymétrique Moyenne =AVERAGE() =MOYENNE() mean() Dans les autres cas
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3. Représentations graphiques
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3 Représentations graphiques
Moyenne identique mais distribution différente
3.1.2 Paramètres de dispersion • Etendue • Quantiles - écart interquartile • Variance • Ecart-type (déviation standard) • Coefficient de variation • Erreur standard
3.1.2 Paramètres de dispersion • Etendue = écart entre la plus grande et la plus petite valeur. = max-min Extrêmement sensible aux scores extrêmes Durée de vie de 20 chiens 8 15 7 9 Etendue = 15-2 = 13 3 2 6 13 6 10 6 5 10 10 3 10 7 9 7 8
3.1.2 Paramètres de dispersion • Quantiles = Ils découpent la distribution en plusieurs parties égales en terme de nombre de score dans chaque partie : quartiles en 4, déciles en 10 et percentiles en 100. Position = + ∗ où x = xième percentile à obtenir Durée de vie de 20 chiens Années Fréquence 2 1 3 2 5 chiens 5 1 6 3 Q1 = 6 7 3 5 chiens ( ) 8 2 Médiane (Q2) = = 7,5 9 2 5 chiens 10 4 Q3 = 10 13 1 5 chiens 15 1 TOTAL 20
3.1.2 Paramètres de dispersion • Ecart interquartiles Mesure de la dispersion des 50% d’observations centrales EI = Q3-Q1 Durée de vie de 20 chiens Années Fréquence EI = 10-6 = 4 2 1 3 2 5 chiens 5 1 6 3 Q1 = 6 7 3 5 chiens 8 2 Q2 = 7,5 9 2 5 chiens 10 4 Q3 = 10 13 1 5 chiens 15 1 TOTAL 20
3.1.2 Paramètres de dispersion • Variance (ou écart quadratique moyen) = somme des écarts à la moyenne élevés au carré, divisée par la taille de l’échantillon. ∑( )² ∑( )² Estimateur de la σ² = ou s² = variance de la population Durée de vie de 20 chiens Années Fréquence − ( − )² f*( − )² 2 1 2-7,7= -5,7 32,49 32,49 3 2 3-7,7 = -4,7 22,09 44,18 5 1 5-7,7 = -2,7 7,29 7,29 Variance = s² = 6 3 6-7,7 = -1,7 2,89 8,67 , = 10,5368 7 3 7-7,7 = -0,7 0,49 1,47 8 2 8-7,7 = 0,3 0,09 0,18 9 2 9-7,7 = 1,3 1,69 3,38 10 4 10-7,7 = 2,3 5,29 21,16 13 1 13-7,7 = 5,3 28,09 28,09 15 1 15-7,7 = 7,3 53,29 53,29 TOTAL 20 200,2
3.1.2 Paramètres de dispersion • Ecart-type ou déviation standard = racine carrée de la variance. ∑( )² ∑( )² Estimateur de la σ= ou s= déviation standard de la population Durée de vie de 20 chiens Années Fréquence , Ecart-type = s= = 3,246 2 1 3 2 5 1 Petit écart-type 6 3 7 3 Grand écart- type 8 2 9 2 10 4 13 1 15 1 TOTAL 20
3.1.2 Paramètres de dispersion • Coefficient de variation Permet d’exprimer la variation de manière relative (à la moyenne) Permet de comparer des écart-types pour des mesures ayant des moyennes différentes. CV = Poids en Souris Hommes gramme Moyenne 30,35 76100 Ecart-type 6,37 16193 CV 6,37/30,35 = 0,21 16193/76100 = 0,21 CV en % 21% 21%
3.1.2 Paramètres de dispersion • Erreur standard ou erreur type de la moyenne = écart-type des erreurs aléatoires de la mesure de la moyenne. = variabilité de la moyenne d’un échantillon à l’autre SEM = ≠ écart-type = variabilité des scores au sein même d’un échantillon Durée de vie de 20 chiens 8 15 7 9 3 2 6 13 Ecart-type = s = 3,246 6 10 6 5 , Erreur standard = sem = = , 10 10 3 10 7 9 7 8
3.1.2 Paramètres de dispersion Paramètres Utilisation Fonctions Excel (EN) Excel (FR) R Etendue =MAX() - MIN() =MAX() - MIN() max()-min() Avec la médiane =QUARTILE.INCLURE =QUARTILE.INC Quartile (data;quart) (data,quart) quantile() Avec la médiane Propriétés statistiques Variance =VAR.S() =VAR.S() var() Pas utilisé pour décrire =ECARTYPE. Avec la moyenne pour Ecart-type =STDEV.S() STANDARD() sd() décrire un échantillon =ECARTYPE. Coefficent =STDEV.S() / STANDARD() / sd() / mean() Comparaison d’écart-type de variation AVERAGE() MOYENNE() =ECARTYPE. Erreur =STDEV.S() / sd() / Avec la moyenne pour STANDARD() / standard SQRT(COUNT()) sqrt(length()) décrire la moyenne RACINE(NB())
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3. Représentations graphiques
3.1. Une variable 3.1.1. Paramètres de tendance centrale 3.1.2. Paramètres de dispersion 3.1.3 Représentations graphiques
64 3.1.3 Représentations graphiques • Variable qualitative • Diagramme à barre • Secteur ou diagramme angulaire • Cartogramme • Variable quantitative • Diagramme à barre • Histogramme • Courbe de fréquence • Boîtes à moustache
3.1.3 Représentations graphiques • Variables qualitatives • Diagrammes à barres (bar diagram, bar chart) Barre verticale ou horizontale Hauteur (ou largeur) dépend du pourcentage ou de l’effectif de la catégorie Echelle nominale et ordinale Utilisation des produits antimicrobiens en 2015 35 30 25 Pourcentages 20 15 10 5 0 Penicilline Sulphonam & tetracyclines macrolides aminosydes polymixins quinolones fenicols cephalosporins autres trimethoprim Classes d’antimicrobiens
3.1.3 Représentations graphiques • Variables qualitatives • Diagrammes à barres (bar diagram, bar chart) Echelle ordinale: plutôt empiler les catégories (ordre croissant ou décroissant) Inventaire de troupeau 100% 90% 80% 70% >24 mois 60% 12-24 mois 50% 6-12 mois 1-5 mois 40% 8 jours - 30 jours 30% 0-7 jours 20% 10% 0% 2016
3.1.3 Représentations graphiques • Variables qualitatives • Secteurs ou diagramme angulaire (pie diagram, pie chart) Echelle nominale Amplitude de l’angle d’un quartier = fréquence * 360° Fréquence ou pourcentage Répartition des médicaments à usage vétérinaire en fonction de l’animal cible Lapin Pigeon Volaille 1% 2% 7% Ovin et Caprin 8% Bovin 22% Cheval 8% Chat Chien 13% 21% Porc 18%
3.1.3 Représentations graphiques • Variables qualitatives • Cartogrammes Zones géographiques Couleurs correspondent à des effectifs ou fréquences différentes Cercle dont le rayon est fonction de la fréquence ou de l’effectif
3.1.3 Représentations graphiques • Variables quantitatives • Diagrammes en bâtons Variables discrètes (si variables continues => histogrammes) Hauteur = fréquence ou pourcentage Longévité de 20 chiens 5 4 Fréquence 3 2 1 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Age
3.1.3 Représentations graphiques • Variables quantitatives • Histogrammes Variables continues divisées en classe. Absence d’espacement sur l’abscisse Répartition du poids d'agneaux de race Texel 45 40 35 30 Effectifs 25 20 15 10 5 0
3.1.3 Représentations graphiques • Variables quantitatives • Courbes de fréquence Variables continues divisées en classe. Milieu de la classe = abscisse du point Fréquence de la classe = ordonnée du point Répartition du poids d'agneaux de race Texel 45 40 35 30 Effectifs 25 20 15 10 5 0 7 8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5 Poids (en kg)
3.1.3 Représentations graphiques • Variables quantitatives • Diagrammes en tiges et feuilles (stem leaves) Variables continues et nombre de données important Unité à gauche et décimale à droite Table de fréquences mais où l’ensemble des données est visible Répartition du poids d’agneau de race Texel:
3.1.3 Représentations graphiques • Variables quantitatives • Boîtes à moustache Bonne visualisation de la dispersion des données. Utilisation de 5 valeurs: min., Q1, médiane, Q3 et max.
3.1.3 Représentations graphiques Graphique Fonction in R barplot() Diagramme à barres plot(x, y, type = "h") Histogramme hist() Boîtes à moustache boxplot() plot(x,y, type="b") # "p" = points Courbe de fréquence # "l" = lines # "b" = both: lines and points
Vous pouvez aussi lire