Introduction à la visualisation des données scientifiques
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI MEMOIRE du Diplôme InterUniversitaire de PEDAGOGIE MEDICALE 2016-2017 Introduction à la visualisation des données scientifiques Dr Andrea LAZZATI CH Intercommunal de Créteil, Service de Chirurgie Générale et Digestive -1-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI TABLE DES MATIERES Introduction ..................................................................................................................................................................................... - 3 - Définition ...................................................................................................................................................................................... - 3 - Buts de la visualisation ........................................................................................................................................................... - 3 - Définir le Message ..................................................................................................................................................................... - 5 - Connaitre les types des données ............................................................................................................................................. - 5 - Connaitre les types des graphiques ....................................................................................................................................... - 6 - Histogramme............................................................................................................................................................................... - 7 - Diagramme en bâtons (bar chart) ..................................................................................................................................... - 8 - Diagramme circulaire ou en secteurs (camembert et donut chart) ................................................................ - 10 - Boite a moustaches (box plot) .......................................................................................................................................... - 11 - Diagramme en nuage de points ou de dispersion (scatter graph) ................................................................... - 11 - Graphique en ligne (line chart) ........................................................................................................................................ - 12 - Aires empilées ......................................................................................................................................................................... - 13 - Pour résumer : Quelques règles simples .......................................................................................................................... - 13 - Biblio................................................................................................................................................................................................. - 14 - -2-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI INTRODUCTION DEFINITION La visualisation scientifique est classiquement définie comme le processus d’affichage graphique des données scientifiques. Cependant, ce processus est loin d'être direct ou automatique. Il existe une multitude de façons de représenter les mêmes données. Une définition plus précise pour la visualisation scientifique pourrait être « une interface graphique entre les personnes et les données ». Dans ce court mémoire, nous ne prétendons pas expliquer tout sur cette interface; plutôt, en faire une brève introduction. Nous visons à fournir quelques règles de base pour améliorer la conception des figures et expliquer certains pièges communs. BUTS DE LA VISUALISATION Classiquement on définit deux buts principaux à visualisation : celui d’explorer les données et celui de communiquer des informations. Explorer avec des graphiques. Quand les questions de recherche ne sont pas bien définies, on explore alors les données. Ce sont des visualisations qui sont faites en cours de travail afin d’explorer de nouvelles pistes, de nouvelles associations (par exemple, analyser la distribution d’âge d’un groupe des patients afin de voir si la maladie touche d’une manière homogène ou pas une partie de la population) ou simplement rechercher des données aberrantes. Les données scientifiques pourraient être présentées uniquement sous forme numérique. On pourrait en effet décrire une variable quantitative par les indices de position ou tendance centrale (moyenne, médiane) et les indices de dispersion (variance, écart-type, écart interquartile). Parfois, ces indices sont moins informatifs sur la distribution de la variable qu’une représentation graphique. Nous citons à titre d’exemple le « quartet d’Anscombe »1 qui montre comment quatre variables ayant les mêmes indices, ont des distributions très différentes. Le quartet d’Anscombe souligne l'importance de l'exploration graphique avant d'analyser un ensemble de données (Fig. 1 et 2). Fig.1 Le quartet d’Anscombe. Quatre couples de variables présentent les mêmes indices de position et de dispersion (moyenne, variance et coefficient de correlation) 1 Les quartets ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.” -3-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Fig.2 Le quartet d’Anscombe. La représentation graphique des 4 couples de variables montre que la distribution de celle-ci est très différente malgré des indices de position et dispersion égaux. Le premier ensemble (en haut à gauche) présente deux variables (x et y) dont la distribution semble proche d'une loi normale et qui présentent entre elles une simple corrélation linéaire (avec un certain degré de bruit qui la rend donc imparfaite). Le deuxième (en haut à droite) se caractérise par une relation non linéaire (en l'occurrence parfaitement quadratique) entre les deux variables : pour cette raison, les coefficients de corrélation de Pearson sont inappropriés car ils mesurent l'écart à une droite de régression et non à une parabole. Dans le troisième ensemble (en bas à gauche), la corrélation linéaire est parfaite (avec une pente légèrement inférieure à 3) sauf pour une donnée aberrante qui influe sur le coefficient de corrélation global, le faisant passer de 1 (pour les 10 premières données) à 0,81 (pour les 11 données). Finalement, le quatrième ensemble (en bas à droite) démontre qu'une seule donnée aberrante suffit pour obtenir un coefficient de corrélation élevé, alors même que, hormis cette 11e donnée, il n'existe pas de corrélation entre les deux variables puisque la variable x est constante. Communiquer avec les graphiques Quand on obtient des résultats d’une expérience on informe la communauté : on communique des données et on transmet un message (par exemple on compare sur la survie des 2 traitements). L’information transmise par une figure sollicite bien évidemment la vue. C’est à travers ce sens que le plus grand nombre d’information passe par seconde (Fig. 3). Communiquer par un graphique permet donc de transmettre plus d’information en moins d’espace et en moins de temps. Cela rend l’information plus accessible et plus mémorisable qu’une information sonore. Figure 3. Nombre de bits par secondes perceptibles par les 5 sens. -4-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI DEFINIR LE M ESSAGE Avant de se pencher à la réalisation d’un graphique il est indispensable d’identifier précisément le message que l’on souhaite faire passer. Une figure est destinée à exprimer une idée ou introduire des faits ou un résultat qui seraient trop long (ou presque impossible) à expliquez seulement avec des mots, que ce soit pour un article ou pendant une présentation. Dans ce contexte, il est important pour identifier clairement le rôle de la figure, c'est-à-dire quel est le message sous-jacent et comment la figure peut-elle mieux exprimer cela. Une fois clairement identifié, le message sera un guide fort pour la conception de la figure. Ce n'est qu'après avoir identifié le message qu’il faudra prendre le temps de développer le graphique, tout comme on prend le temps de choisir des mots et construire des phrases seulement après avoir défini les points principaux d’un texte lors de l'écriture d'un article. Les figures 4a et 4b décrivent l’affluence des patients dans un service d’urgence. La figure 4a décrit dans avec plus de précision le flux de patients (intervalles de 3 heures, présence du quadrillage indiquant le pourcentage), alors que la figure 4b se focalise sur les parties principales de la journée (matin, après midi, soirée, nuit) : le message est mieux défini. Figure 4a. Affluence des patients dans un service d’urgence Affluence au Service d'Urgences 1h00-4h00 4h00-7h00 7h00-10h00 10h00-13h00 13h00-16h00 16h00-19h00 19h00-22h00 22h00-1h00 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Figure 4b. Affluence des patients dans un service d’urgence Affluence aux Services d'Urgences 0h00-6h00 6h00-12h00 12h00-18h00 18h00-24h00 CONNAITRE LES TYPES DES DONNEES L’étape suivante est la connaissance du type de variable (ou des variables) que l’on veut représenter. En effet, le type de variable va guider le choix du type de graphique adapté à sa représentation. Il existe plusieurs classifications des variables. Nous présentons une des plus communes qui classe les données en fonction de leur nature; nous parlons en particulier de: Variables qualitatives: elles expriment une qualité, ou les modalités sont des valeurs non numériques (par exemple: genre ou croyances religieuses). o On parle de variable qualitative ordinale (ou ordonnée) si les modalités ont naturellement un ordre, c'est-à-dire qu'ils peuvent être organisés selon une échelle (par exemple, les attributs «très mauvais», «mauvais», «médiocre», «bon» et «très bon» ou les jours de la semaine ). -5-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI o On parle de variable qualitative nominale (ou catégorielle) si les modalités n'ont pas d'ordre naturel (par exemple, liste de maladies ou couleur des yeux). Variables quantitatives: elles expriment une quantité, ou les modalités sont des valeurs numériques (par exemple, taille ou nombre d'enfants). On les classe en deux catégories : o Variables quantitatives discrètes: on suppose un nombre fini de valeurs, c'est-à-dire que tous les valeurs possibles peuvent être listées, autrement dit elles peuvent être indiquées par une succession (par exemple: le nombre d'enfants, les pages d'un livre ou les voyages annuels). o Variables quantitatives continues: on suppose une quantité non-nombrable mais continue de valeurs, en pratique elles peuvent prendre en compte toutes les valeurs intermédiaires d'une gamme (p. ex. poids ou taille). Autre classification En 1946, le psychologue Stanley Smith Stevens a proposé une classification différente des variables classées selon les propriétés qui possèdent l'ensemble des valeurs d'une variable. Stevens a proposé quatre échelles de mesure: une échelle nominale a une relation d'équivalence, c'est-à-dire qu'elle permet de déterminer si deux modes sont égaux ou différents (par exemple: croyances religieuses, type de profession); une échelle ordinaire a une relation d'ordre totale, c'est-à-dire que les modes peuvent être triés et on peut déterminer si l'un est "plus grand", égal ou inférieur à un autre (par exemple, grade militaire); une échelle intervallaire vous permet de calculer la différence entre deux valeurs, afin de les mettre en ordre (par exemple: l'année après Jésus Christ); une échelle proportionnelle permet de calculer le rapport entre deux valeurs, donc aussi leur différence (par exemple, la taille). Habituellement, pour une variable donnée, on adopte la «meilleure échelle possible». Par exemple, la température mesurée en Kelvin suit une échelle proportionnelle (la relation entre deux températures est par exemple représentée dans la formule pour l'efficacité thermodynamique d'une machine Carnot). Si elle est mesurée en degrés Celsius ou Fahrenheit, elle suit une échelle intervallaire: la proportionnalité est manquante en raison du choix "arbitraire" de 0 ° C et 0 ° F. Pour les variables qualitatives ordinales ou nominales, on adopte la même échelle. Pour les variables quantitatives, il n'y a pas de concordance entre les deux classifications discrètes / continues et intervallaire / proportionnelle. CONNAITRE LES TYPES DES GRAPHIQUES Il existe un grand nombre de graphiques pour visualiser les données. Nous allons citer et décrire les plus courants dans la communication scientifique. D’une manière générale un graphique peut représenter une seule variable (il décrit la fréquence de chaque modalité de la variable ou la distribution de cette variable), ou deux variables (deux qualitatives, deux quantitatives ou une qualitative et une quantitative). Une des variables peut être la variable « temps », qui est souvent utilisée dans la représentation des données scientifiques. Il est tout à fait possible représenter trois ou plus variables dans le même graphique. Cela rend le graphique plus complexe et ne sera pas abordé dans ce mémoire. -6-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Figure 5. Type de graphique en fonction du type de variable. HISTOGRAMME Un histogramme est un graphique permettant de représenter la répartition d'une variable continue en la représentant avec des colonnes verticales. L’histogramme est un moyen rapide pour étudier la répartition d’une variable quantitative. Le choix des classes, soit leur nombre et leurs largeurs, n'est pas univoque. Le choix simple pour calculer le nombre de classes (K) est d’utiliser la racine carrée du nombre de catégorie (N): Exemple (Fig. 6) : on veut analyser la distribution de la taille sur un échantillon de 358 sujets. La racine carrée de 358 est 19, nous allons donc créer un histogramme avec 19 classes. Puisque l’intervalle est de 53 cm (compris entre 142 cm et 195 cm), on peut regrouper les sujets en classe de 3 cm (53/19). -7-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Figure 6. Histogramme : distribution de la taille des sujets. Distribution de la taille des patients 80 70 Nombre de sujets par classe 60 50 40 30 20 10 0 145 148 151 154 157 160 163 166 169 172 175 178 181 184 187 190 193 196 199 Taille (cm) On considère qu’avec plus de 20 barres le graphique est moins facile à lire et qu’avec moins de 5 barres et le graphique aura peu de sens. La plupart des graphiques qu’on crée dans les statistiques élémentaires ont environ 5 à 7 barres. La contiguïté des barres (l’une au contact de l’autre) indique qu’il y a un continuité dans les valeurs de la variable représentée. DIAGRAMME EN BATONS (BAR CHART ) Un graphique à barres montre comment différentes catégories de données se comparent. Les barres peuvent être verticales ou horizontales (Fig. 7 et 8). Peu importe le type qu’on utilise - c'est une question de choix (et peut-être la quantité de place qu’on a à disposition sur le papier). En effet avec plusieurs catégories (>5) ou avec des intitulés assez long, la version horizontal sera plus lisible. Pour un diagramme en bâtons vertical, on représente pour chaque modalité d'une variable discrète un rectangle dont la hauteur représente la valeur d'une variable continue et dont la largeur n'a pas d'interprétation statistique. Figure 7. Diagramme en bâtons à disposition verticale: nombre de chirurgiens par discipline. Nombre de chirurgiens par spécialité 4600 3000 3100 1200 540 450 540 -8-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Figure 8. Diagramme en bâtons à disposition horizontale: nombre de médecins par discipline. La disposition horizontale est plus lisible quand le nombre de modalités de la variable est plus important Nombre de médecins par spécialité Psychiatrie 15 171 Anesthésie-réanimation 11 278 Radiodiagnostic et imagerie médicale 8 736 Pédiatrie 8 007 Cardiologie et maladies vasculaires 6 996 Ophtalmologie 5 927 Médecine du travail 5 524 Gynécologie-obstétrique 4 724 Dermatologie et vénéréologie 4 003 Gastro-entérologie et hépatologie 3 692 Chirurgie générale 3 610 Chirurgie orthopédique et traumatologie 3 241 Gynécologie médicale 3 146 ORL et chirurgie cervico-faciale 3 076 Pneumologie 3 009 Biologie médicale 2 975 Rhumatologie 2 624 Neurologie 2 470 Médecine interne 2 437 Médecine physique et réadaptation 2 114 Endocrinologie et métabolisme 1 865 Différence entre histogramme et diagramme en bâtons Un diagramme en bâtons est utilisé lorsqu’on dispose de catégories de données: types de films, genres de musique ou races de chiens par exemple. C'est aussi un bon choix lorsqu’on souhaite comparer les éléments entre différents groupes. On peut utiliser un diagramme en bâtons si l’on souhaite suivre les changements dans le temps, tant que les changements sont significatifs (par exemple, des décennies ou des siècles). Si on utilise des données continues, comme les poids des personnes ou les scores IQ, un histogramme est plus indiqué. -9-
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI DIAGRAMME CIRCULAIRE OU EN SECTEURS (CAMEMBERT ET DONUT CHART) Le diagramme circulaire ou camembert permet de représenter des proportions. Dans un camembert, c'est l'angle qui représente la part de chaque catégorie dans un tout. Le donut chart est un camembert troué au milieu. Dans ce cas, c'est la longueur de l'arc de cercle correspondant à chaque catégorie qui représente la part de chaque catégorie dans le tout représenté. Figure 9. Diagramme circulaire (ou en secteurs ou camembert) à trois modalités, représentant les pourcentage relatif de chaque modalité. Activité chirurgicale ORL 28% viscérale 43% gynécologie 29% Figure 10. Diagramme circulaire en « donut » avec les mêmes modalités du diagramme de la figure 9. Activité chirurgicale ORL 28% viscérale 43% gynécologie 29% Un défaut évident des diagrammes à secteurs est qu'ils ne peuvent pas afficher plus de quelques valeurs sans séparer le codage visuel (les «tranches») des données qu'ils représentent (généralement des pourcentages). Lorsque les tranches deviennent trop petites, les diagrammes circulaires doivent s'appuyer sur des couleurs, des textures ou des flèches afin que le lecteur puisse les comprendre. Cela les rend impropres à l'utilisation avec de plus grandes quantités de données. Les statisticiens considèrent généralement les tableaux circulaires comme une mauvaise méthode d'affichage de l'information, et ils sont peu fréquents dans la littérature scientifique2. L'une des raisons est qu'il est plus difficile de faire des comparaisons entre la taille des éléments dans un graphique lorsque l’aire est utilisée à la place de la longueur et lorsque différents éléments sont représentés sous différentes formes. 2 Krygier, John. "Perceptual Scaling of Map Symbols". makingmaps.net. Retrieved 3 May 2015. - 10 -
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Figure 11. Diagramme circulaire comparé à un diagramme en bâtons horizontal. Le diagramme de droite permet une meilleure lisibilité de l’information. Cependant, si l'objectif est de comparer une catégorie donnée (une tranche camembert) avec le total (la totalité du camembert) dans un seul graphique et le multiple est proche de 25 ou 50 pour cent (en gros 3- 4 modalités), un graphique circulaire peut souvent être plus efficace qu'un graphique à barres 3 (comme nous l’avons montré dans les figures 9 et 10). BOITE A MOUSTACHES ( BOX PLOT ) Dans les représentations graphiques de données statistiques, la boîte à moustaches (aussi appelée diagramme en boîte, boîte de Tukey ou box plot en anglais) est un moyen rapide de figurer le profil essentiel d'une variable quantitative. Dans sa version verticale, le bas et le haut de la boîte sont toujours le premier et le troisième quartile (extrémités droite et gauche dans la version horizontale), et la bande à l'intérieur de la boîte est toujours le deuxième quartile (la médiane). Les extrémités des moustaches représentent en général le minimum et le maximum de toutes les données. Il existe néanmoins des variantes représentant d’autres valeurs (comme par exemple, le 2ème percentile et le 98ème percentile). Figure 11. Boite à moustache (version horizontale). DIAGRAMME EN NUAGE DE POINTS OU DE DISPERSION (SCATTER GRAPH) Un diagramme en nuage de points diagramme de dispersion (également appelé diagramme de dispersion) est un type de tracé utilisant des coordonnées cartésiennes pour afficher des valeurs de deux variables généralement de type quantitatif. Si les points sont codés par couleur, une variable supplémentaire peut être affichée. Les données sont affichées comme une collection de points, chacun ayant la valeur d'une variable déterminant la position sur l'axe horizontal et la valeur de l'autre variable déterminant la position sur l'axe vertical. 3Simkin, D., & Hastie, R. (1987). An Information-Processing Analysis of Graph Perception. Journal of the American Statistical Association, 82(398), 454. doi:10.2307/2289447. Kosara, Robert. "In Defense of Pie Charts". Retrieved April 13, 2011. - 11 -
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI Figure 13. Diagramme en nuage de points. Relation entre poids et taille d’une population de sujets obèses. Une droite de tendance linéaire est ajoutée au nuage de points. Relation entre le poids et la taille 200 180 160 Poids (kg) 140 120 100 80 140 150 160 170 180 190 200 Taille (cm) GRAPHIQUE EN LIGNE (LINE CHART) Un graphique en ligne ou graphique linéaire est un type de graphique qui affiche des informations comme une série de points de données connectés par des segments de droite. Il est similaire à un diagramme de dispersion, sauf que les points de mesure sont ordonnés (généralement par leur valeur d'axe x) et sont joints avec des segments à ligne droite. Un diagramme de ligne est souvent utilisé pour visualiser une tendance des données sur des intervalles de temps - une série temporelle - donc la ligne est souvent dessinée chronologiquement. Figure 14. Graphique en ligne. Evolution des techniques chirurgicale de chirurgie de l’obésité (nombre d’actes par technique et par an) Evolution des techniques de chirugie bariatrique 40000 Sleeve gastrectomy 35000 30000 25000 20000 Bypass gastrique 15000 10000 5000 Anneau Gastrique 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 - 12 -
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI AIRES EMPILEES Le graphique en aires empilées est une variante du graphique en ligne. Il affiche les valeurs des modalités d’une variable comme surface (aire) pour un intervalle (en général de temps). Les aires des différentes modalités des variables sont empilées afin de donner aussi l’aire totale des toutes les valeurs des variables. Par rapport à un graphique en ligne qui met l’accent sur l’écoulement du temps et la variation des valeurs, le graphique en aire empilées souligne davantage la variation de chaque modalités par rapport au total. Figure 15. Graphique en aires empilées. Evolution des techniques chirurgicale de chirurgie de l’obésité (nombre d’actes par technique et par an) Evolution des techniques de chirugie bariatrique 60000 50000 40000 Sleeve gastrectomy 30000 20000 Bypass gastrique 10000 Anneau Gastrique 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 POUR RESUMER : QUELQUES REGLES SIMPLES Avant de commencer à créer votre graphique, identifiez bien le message et votre publique. Mettez tous les résultats importants d’un travail statistique sous forme graphique. Ne pas trop remplir un graphique, les données doivent être l’information la plus visible. Choisir des limites pour les axes les plus proches possibles des intervalles de variation des données mais inclure le 0 quand c’est nécessaire (comptage). Quand deux graphiques doivent être comparés, utiliser les mêmes échelles. Utiliser un ligne ou des référence (ex. Moyenne) si utile. Entourer le graphe par un rectangle. Méfiance des graphiques 3D, ils sont difficiles à interpréter. Libellez clairement les axes (avec les unités des variables), donner un titre, mettre une légende pour les symboles et couleurs. Attention aux couleurs, elle disparaissent à la reproduction... Expliquer clairement ce que sont les barres d ’erreur quand il y en a La préparation d’un graphique est un travail itératif qui prend du temps et vient avec l’expérience... - 13 -
MEMOIRE du DIU de PEDAGOGIE MEDICALE 2016-2017 Dr Andrea LAZZATI BIBLIO Tamara Munzner, “Vizualisation Analysis & Design”, A K Peters/CRC Press, 2014 Scott Berinato, « Good Charts », HBR Press, 2016 Rougier NP, Droettboom M, Bourne PE. Ten simple rules for better figures. PLoS Comput Biol. 2014 Sep 11;10(9):e1003833. AAVV, « Graphisme en statistique : quelques bases ... », accessed october 9th 2017, available at http://step.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf Kaimal S, Thappa DM. The art and science of medical poster presentation. Indian J Dermatol Venereol Leprol. 2010 Nov-Dec;76(6):718-20. Bockhorst JP, Conroy JM, Agarwal S, O'Leary DP, Yu H. Beyond captions: linking figures with abstract sentences in biomedical articles. PLoS One. 2012;7(7):e39618. McCrorie AD, Donnelly C, McGlade KJ. Infographics: Healthcare Communication for the Digital Age. Ulster Med J. 2016 May;85(2):71-5. Review. - 14 -
Vous pouvez aussi lire