UTILISATION DE LOGICIELS - BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES

La page est créée Florian Lejeune
 
CONTINUER À LIRE
UTILISATION DE LOGICIELS - BASES MÉTHODOLOGIQUES EN ANALYSE DE DONNÉES QUANTITATIVES ET QUALITATIVES
14/11/2017

BASES MÉTHODOLOGIQUES EN ANALYSE DE
DONNÉES QUANTITATIVES ET QUALITATIVES
F. Farnir, E. Moyse et J. Detilleux

                            Année 2017-2018

UTILISATION DE
LOGICIELS

                                                      1
14/11/2017

Installation de R
• Disponible gratuitement sur internet à
  http://www.r-project.org/

• R studio rend plus agréable et facile l’utilisation de R. Disponible gratuitement
 sur internet à
  https://www.rstudio.com/products/RStudio/

• D’abord installer R puis R studio

Présentation de R studio
                              Aperçu des fichiers de données, scripts, … importés

                                                                             Historique des
                                                      Environnement de       commandes
                                                      travail où l’on peut
                                                      voir ce qui a été
                                                      mémorisé par R

                                                                  - Files= endroit où sauvegarder
                                                                  et importer les données
                                                                  - Plots = aperçu des graphiques
                                                                  - Help = aide pour les fonctions

         Console pour y insérer les instructions

                                                                                                             2
14/11/2017

Comment utiliser R studio
• Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des
 lignes de commandes à taper dans la Console
  • 1) Le logiciel attend. Il affiche « > »

                     >

  • 2) Je tape une commande. Par exemple

                     > 10+20

  • 3) Après validation (ENTER), le logiciel effectue l’opération, affiche le résultat, puis
    attend à nouveau:

                     > 10+20
                     [1] 30
                     >

Comment utiliser R studio
• Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des
 lignes de commandes à taper dans la Console
  • 4) Il peut aussi mémoriser des valeurs pour les utiliser plus tard:

                    > x x+10
                    [1] 110
  • 5) Il peut aussi stocker plusieurs valeurs dans une variable, alors appelée
    « vecteur »:
                    > poids poids
                    [1] 212 195 105

  • 6) Il peut manipuler les vecteurs:

                    > 2*poids
                    [1] 424 390 210
                    > sum(poids)
                    [1] 512
                    > mean(poids)
                    [1] 170.667

                                                                                                       3
14/11/2017

Comment utiliser R studio
• Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des
 lignes de commandes à taper dans la Console
  • 7) Il peut être programmé (si nécessaire…):

                   > sum for (i in 1:10) {
                   + sum  sum
                   [1] 385
                   > v sum(v*v)
                   [1] 385

Comment utiliser R studio
• Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel,
 logique ou complexe, chaine de caractères, fonctions, expressions, …)

• Les différents types d’objets sont:
  • Les vecteurs

                    > aa
                    [1] 1 4 9 16 25 34

  • Les facteurs

                   > bb
                   [1] 1 4 9 16 25 34
                   Levels: 1 4 9 16 25 34

                                                                                        4
14/11/2017

Comment utiliser R studio
• Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel,
 logique ou complexe, chaine de caractères, fonctions, expressions, …)

• Les différents types d’objets sont:
  • Les tableaux

                   > cc
                       [,1] [,2]
                   [1,] 1 16
                   [2,] 4 25
                   [3,] 9 34

                   > dd
                       [,1] [,2]
                   [1,] 1 16
                   [2,] 4 25
                   [3,] 9 34

Comment utiliser R studio
• Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel,
 logique ou complexe, chaine de caractères, fonctions, expressions, …)

• Les différents types d’objets sont:
  • Les « data frame »

                   > ee
                      race poids
                   1 BBB 100

                   > x  y  f
14/11/2017

Comment utiliser R studio
• Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel,
 logique ou complexe, chaine de caractères, fonctions, expressions, …)

• Les différents types d’objets sont:
  • Les listes

                 > x  y  gg
                 $race
                 [1] « BBB » « CHA »

                 $poids
                 [1] 100   120

Comment utiliser R studio
• Tout ce qui est manipulable dans R est sous forme d’objets (nombres réel,
 logique ou complexe, chaine de caractères, fonctions, expressions, …)

• Il existe encore d’autres objets

• Pour chaque objet, des défauts existent

• Il est possible de convertir des objets vers un autre type (as.NomObjet() )

• Chaque type d’objets a potentiellement des fonctions qui lui sont associées
 (méthodes), permettant de manipuler ce type d’objets en particulier.

                                                                                        6
14/11/2017

Importer un fichier de données
• Toujours commencer par déterminer le répertoire de travail (« working
 directory »)

  • Via les commandes:

                      > getwd() => donne le répertoire de travail
                      > setwd() => change le répertoire de travail

  • OU via l’onglet Files (dans la fenêtre en bas à droite)
     • Choisir le dossier dans lequel on veut travailler
     • Aller sur le bouton « More »
     • Choisir « Set As Working Directory »

Importer un fichier de données
• Une fois que le répertoire de travail est choisi, on peut importer le fichier de
 données

  • Via les commandes:

                      > read.table()

  • OU via l’onglet Environnement (dans la fenêtre en haut à droite)
     • Choisir « Import Dataset », « From Local File »
     • Sélectionner le fichier de données à importer
     • Vérifier que les informations perçues par R studio sont correctes (ex. Heading Yes or no, Decimal, …)
     • Cliquer sur « Import »
     • Le fichier apparaît en haut à gauche

                                                                                                                       7
14/11/2017

Importer un fichier de données
• On peut également sauver un fichier de données créé:

  • Via les commandes (voir help pour plus de détails sur les paramètres à insérer):

                    > write.table(data, file=« data.tx »)

Générer des données
• Créer des séquences

  • rep(x,n) où x = ce qu’il faut répéter et n = le nombre de répétition

                    > aa
                    [1] 1 1 1 2 2 2 2 3 3

  • seq(x,y,n) où x= début de la séquence, y = fin de la séquence et n=espacement entre les
    nombres

                    > bb
                    [1] 2 4 6 8 10 12

                                                                                                      8
14/11/2017

Manipulation de données
• Utilisation des opérateurs de R

                       > x  y  x  9 < x && x  x  y x==y
                       [1] TRUE TRUE TRUE

Manipulation de données
• Accès aux éléments des vecteurs

                    > x x
                    [1] 1 4 9 16 25 36

                    > x[3]
                    [1] 9
                    > x[c(1,4)]
                    [1] 1 16

                    > xx
                    [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
                    > x[x>0.5]
                    [1] 0.6 0.7 0.8 0.9 1.0

                                                                              9
14/11/2017

Manipulation de données
• Accès aux éléments des matrices

 > y y
      [,1] [,2] [,3]                                      > t  rownames(t) colnames(t) y[1,3]                                                 >t
 [1] 9
 > y[,2]                                                           Traité   Témoin
 [1] 4 25                                                 Malade     10       50
 > y[,3]  t["Malade",]
 >y                                                       Traité Témoins
      [,1] [,2] [,3]                                      10        50
 [1,] 1     10    9
 [2,] 16 11 36

Manipulation de données
• Accès aux éléments des dataframe
                           > x  y  f f$x
                           [1] 1 2 3 4
                           > f$x[2]
                           [1] 2

                           > f$y
                           [1] A C G T
                           Levels: A C G T
                           > f$y[2]
                           [1] C
                           Levels: A C G T

                                                                                                        10
14/11/2017

    Les fonctions
    • Quelques fonctions utiles …
•   A:B: crée un vecteur de valeurs allant de A à B (qui sont des entiers)
•   attach(): attache le nom d’un dataframe aux noms des variables (ce qui permet de simplifier
    l’écriture)
•   boxplot(X): produit un « box-plot » de la variable X
•   c(A,B,…): crée un vecteur avec les éléments A, B, …
•   chisq.test(): effectue un test de chi carré sur la matrice.
•   cor(X,Y): calcule la corrélation simple entre les variables X et Y
•   detach(): arrête d’attacher le nom d’un dataframe aux noms des variables
•   dev.off(): arrête l’envoi des commandes graphiques vers un « device » (fichier graphique, typiquement)
•   distributions: d|p|q|r () donne la densité (probabilité pour une var discrète), la proba
    cumulée, la valeur de la var correspondant à une proba, ou une valeur au hasard dans la distribution
    respectivement, pour les distributions binom, multinom, pois, hyper, unif, norm, chisq…
•   fisher.test(): effectue un test exact de Fisher sur la matrice.
•   floor(X): arrondi inférieur de X
•   head(X) : donne les 6 premières valeurs de X
•   hist(X): produit un histogramme de X
•   length(V): retourne la longueur du vecteur V
•   lines(X,Y): ajoute des lignes dans un graphique
•   max(V): retourne l’élément maximal du vecteur V
•   mcnemar.test(): effectue un test de Mac-Nemar sur la matrice.

    Les fonctions
    • Quelques fonctions utiles …
•   mean(): calcule la moyenne
•   median(): calcule la médiane
•   min(V): retourne l’élément minimal du vecteur V
•   names(table): donne les noms des variables contenues dans la table
•   pie(): fait un diagramme en tarte de X
•   plot(,[]): fait un diagramme de X (ou de Y en fonction de X)
•   quantile(X,q): fournit le quartile q (entre 0 et 1) pour la variable X
•   read.table(fichier[,options]): lit un fichier en mémoire (les éventuelles options permettent une lecture
    correcte, voir l’aide et l’exemple pour cette fonction)
•   rep(X,n): crée un vecteur de n répétitions de X
•   sample(,N): mélange un vecteur de longueur N
•   seq(A,B,STEP): crée un vecteur constitué de valeurs allant de A à B par pas de STEP.
•   setwd(«répertoire»): établit un répertoire de travail.
•   sort(): trie le vecteur
•   stem(X): produit un diagramme « stem-leaves » de X
•   sum(): calcule la somme
•   summary() : donne le minimum, le maximum, la médiane, la moyenne, le 1er et le 3ème quartile.
•   table(var1,var2,…): crée des tables de fréquences avec autant d’entrées que de variables fournies
•   var(X): calcule la variance de la variable X

                                                                                                                      11
14/11/2017

Les graphiques de R
• Les fonctions principales créent le graphique
  • plot(x,y)
  • boxplot(x)
  • pie(x)
  • …
• Les paramètres graphiques peuvent être manipulés à volonté par l’utilisateur
  • main= " Titre principal" => donne le titre au graphique
  • xlab= "Axe x" => donne le titre de l’axe des x.
  • ylab = "Axe y" => donne le titre de l’axe des y.
  • col= "blue" => donne une couleur au graphique
  • col=c("blue", "green") => donne plusieurs couleurs au graphique
  • …
• Les fonctions secondaires ajoutent des éléments graphiques
  • lines() => ajoute une ligne
  • curve () => ajoute une courbe
  • segments() => ajoute un segment allant d’un point à un autre
  • abline () => trace une droite de régression
  • text() => ajoute du texte dans le graphique
  • …

                                                                                        12
Vous pouvez aussi lire