UTILISATION DE LOGICIELS - BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
14/11/2017 BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES F. Farnir, E. Moyse et J. Detilleux Année 2017-2018 UTILISATION DE LOGICIELS 1
14/11/2017 Installation de R • Disponible gratuitement sur internet à http://www.r-project.org/ • R studio rend plus agréable et facile l’utilisation de R. Disponible gratuitement sur internet à https://www.rstudio.com/products/RStudio/ • D’abord installer R puis R studio Présentation de R studio Aperçu des fichiers de données, scripts, … importés Historique des Environnement de commandes travail où l’on peut voir ce qui a été mémorisé par R - Files= endroit où sauvegarder et importer les données - Plots = aperçu des graphiques - Help = aide pour les fonctions Console pour y insérer les instructions 2
14/11/2017 Comment utiliser R studio • Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des lignes de commandes à taper dans la Console • 1) Le logiciel attend. Il affiche « > » > • 2) Je tape une commande. Par exemple > 10+20 • 3) Après validation (ENTER), le logiciel effectue l’opération, affiche le résultat, puis attend à nouveau: > 10+20 [1] 30 > Comment utiliser R studio • Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des lignes de commandes à taper dans la Console • 4) Il peut aussi mémoriser des valeurs pour les utiliser plus tard: > x x+10 [1] 110 • 5) Il peut aussi stocker plusieurs valeurs dans une variable, alors appelée « vecteur »: > poids poids [1] 212 195 105 • 6) Il peut manipuler les vecteurs: > 2*poids [1] 424 390 210 > sum(poids) [1] 512 > mean(poids) [1] 170.667 3
14/11/2017 Comment utiliser R studio • Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des lignes de commandes à taper dans la Console • 7) Il peut être programmé (si nécessaire…): > sum for (i in 1:10) { + sum sum [1] 385 > v sum(v*v) [1] 385 Comment utiliser R studio • Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel, logique ou complexe, chaine de caractères, fonctions, expressions, …) • Les différents types d’objets sont: • Les vecteurs > aa [1] 1 4 9 16 25 34 • Les facteurs > bb [1] 1 4 9 16 25 34 Levels: 1 4 9 16 25 34 4
14/11/2017 Comment utiliser R studio • Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel, logique ou complexe, chaine de caractères, fonctions, expressions, …) • Les différents types d’objets sont: • Les tableaux > cc [,1] [,2] [1,] 1 16 [2,] 4 25 [3,] 9 34 > dd [,1] [,2] [1,] 1 16 [2,] 4 25 [3,] 9 34 Comment utiliser R studio • Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel, logique ou complexe, chaine de caractères, fonctions, expressions, …) • Les différents types d’objets sont: • Les « data frame » > ee race poids 1 BBB 100 > x y f
14/11/2017 Comment utiliser R studio • Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel, logique ou complexe, chaine de caractères, fonctions, expressions, …) • Les différents types d’objets sont: • Les listes > x y gg $race [1] « BBB » « CHA » $poids [1] 100 120 Comment utiliser R studio • Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel, logique ou complexe, chaine de caractères, fonctions, expressions, …) • Il existe encore d’autres objets • Pour chaque objet, des défauts existent • Il est possible de convertir des objets vers un autre type (as.NomObjet() ) • Chaque type d’objets a potentiellement des fonctions qui lui sont associées (méthodes), permettant de manipuler ce type d’objets en particulier. 6
14/11/2017 Importer un fichier de données • Toujours commencer par déterminer le répertoire de travail (« working directory ») • Via les commandes: > getwd() => donne le répertoire de travail > setwd() => change le répertoire de travail • OU via l’onglet Files (dans la fenêtre en bas à droite) • Choisir le dossier dans lequel on veut travailler • Aller sur le bouton « More » • Choisir « Set As Working Directory » Importer un fichier de données • Une fois que le répertoire de travail est choisi, on peut importer le fichier de données • Via les commandes: > read.table() • OU via l’onglet Environnement (dans la fenêtre en haut à droite) • Choisir « Import Dataset », « From Local File » • Sélectionner le fichier de données à importer • Vérifier que les informations perçues par R studio sont correctes (ex. Heading Yes or no, Decimal, …) • Cliquer sur « Import » • Le fichier apparaît en haut à gauche 7
14/11/2017 Importer un fichier de données • On peut également sauver un fichier de données créé: • Via les commandes (voir help pour plus de détails sur les paramètres à insérer): > write.table(data, file=« data.tx ») Générer des données • Créer des séquences • rep(x,n) où x = ce qu’il faut répéter et n = le nombre de répétition > aa [1] 1 1 1 2 2 2 2 3 3 • seq(x,y,n) où x= début de la séquence, y = fin de la séquence et n=espacement entre les nombres > bb [1] 2 4 6 8 10 12 8
14/11/2017 Manipulation de données • Utilisation des opérateurs de R > x y x 9 < x && x x y x==y [1] TRUE TRUE TRUE Manipulation de données • Accès aux éléments des vecteurs > x x [1] 1 4 9 16 25 36 > x[3] [1] 9 > x[c(1,4)] [1] 1 16 > xx [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 > x[x>0.5] [1] 0.6 0.7 0.8 0.9 1.0 9
14/11/2017 Manipulation de données • Accès aux éléments des matrices > y y [,1] [,2] [,3] > t rownames(t) colnames(t) y[1,3] >t [1] 9 > y[,2] Traité Témoin [1] 4 25 Malade 10 50 > y[,3] t["Malade",] >y Traité Témoins [,1] [,2] [,3] 10 50 [1,] 1 10 9 [2,] 16 11 36 Manipulation de données • Accès aux éléments des dataframe > x y f f$x [1] 1 2 3 4 > f$x[2] [1] 2 > f$y [1] A C G T Levels: A C G T > f$y[2] [1] C Levels: A C G T 10
14/11/2017 Les fonctions • Quelques fonctions utiles … • A:B: crée un vecteur de valeurs allant de A à B (qui sont des entiers) • attach(): attache le nom d’un dataframe aux noms des variables (ce qui permet de simplifier l’écriture) • boxplot(X): produit un « box-plot » de la variable X • c(A,B,…): crée un vecteur avec les éléments A, B, … • chisq.test(): effectue un test de chi carré sur la matrice. • cor(X,Y): calcule la corrélation simple entre les variables X et Y • detach(): arrête d’attacher le nom d’un dataframe aux noms des variables • dev.off(): arrête l’envoi des commandes graphiques vers un « device » (fichier graphique, typiquement) • distributions: d|p|q|r () donne la densité (probabilité pour une var discrète), la proba cumulée, la valeur de la var correspondant à une proba, ou une valeur au hasard dans la distribution respectivement, pour les distributions binom, multinom, pois, hyper, unif, norm, chisq… • fisher.test(): effectue un test exact de Fisher sur la matrice. • floor(X): arrondi inférieur de X • head(X) : donne les 6 premières valeurs de X • hist(X): produit un histogramme de X • length(V): retourne la longueur du vecteur V • lines(X,Y): ajoute des lignes dans un graphique • max(V): retourne l’élément maximal du vecteur V • mcnemar.test(): effectue un test de Mac-Nemar sur la matrice. Les fonctions • Quelques fonctions utiles … • mean(): calcule la moyenne • median(): calcule la médiane • min(V): retourne l’élément minimal du vecteur V • names(table): donne les noms des variables contenues dans la table • pie(): fait un diagramme en tarte de X • plot(,[]): fait un diagramme de X (ou de Y en fonction de X) • quantile(X,q): fournit le quartile q (entre 0 et 1) pour la variable X • read.table(fichier[,options]): lit un fichier en mémoire (les éventuelles options permettent une lecture correcte, voir l’aide et l’exemple pour cette fonction) • rep(X,n): crée un vecteur de n répétitions de X • sample(,N): mélange un vecteur de longueur N • seq(A,B,STEP): crée un vecteur constitué de valeurs allant de A à B par pas de STEP. • setwd(«répertoire»): établit un répertoire de travail. • sort(): trie le vecteur • stem(X): produit un diagramme « stem-leaves » de X • sum(): calcule la somme • summary() : donne le minimum, le maximum, la médiane, la moyenne, le 1er et le 3ème quartile. • table(var1,var2,…): crée des tables de fréquences avec autant d’entrées que de variables fournies • var(X): calcule la variance de la variable X 11
14/11/2017 Les graphiques de R • Les fonctions principales créent le graphique • plot(x,y) • boxplot(x) • pie(x) • … • Les paramètres graphiques peuvent être manipulés à volonté par l’utilisateur • main= " Titre principal" => donne le titre au graphique • xlab= "Axe x" => donne le titre de l’axe des x. • ylab = "Axe y" => donne le titre de l’axe des y. • col= "blue" => donne une couleur au graphique • col=c("blue", "green") => donne plusieurs couleurs au graphique • … • Les fonctions secondaires ajoutent des éléments graphiques • lines() => ajoute une ligne • curve () => ajoute une courbe • segments() => ajoute un segment allant d’un point à un autre • abline () => trace une droite de régression • text() => ajoute du texte dans le graphique • … 12
Vous pouvez aussi lire