2 min read

Exploration du dataframe

Commande usuelle

Mon fichier étant relativement simple et petit , il ne contient que 10 lignes, pour afficher le noms des lignes la commande est plutôt simple:

> row.names(diesel)
 [1] "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10"

Si on veut afficher les noms des 5 premières lignes:

> row.names(diesel)[1:5]
[1] "1" "2" "3" "4" "5"

Pour explorer les données du dataframe:

> summary(diesel)
      Date                 Prix         Station         
 Min.   :2021-01-30   Min.   :1.309   Length:10         
 1st Qu.:2021-03-19   1st Qu.:1.351   Class :character  
 Median :2021-04-06   Median :1.359   Mode  :character  
 Mean   :2021-04-12   Mean   :1.380                     
 3rd Qu.:2021-05-07   3rd Qu.:1.377                     
 Max.   :2021-07-20   Max.   :1.519                     

Nous avons ici une synthèse des valeurs numérique , ainsi que le nom des colonnes.

Pour une véritable exploration du dataframe, voici la commande:

> str(diesel)
spec_tbl_df [10 × 3] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ Date   : Date[1:10], format: "2021-01-30" "2021-02-20" "2021-03-17" "2021-03-26" ...
 $ Prix   : num [1:10] 1.31 1.36 1.37 1.35 1.36 ...
 $ Station: chr [1:10] "Payot" "Payot" "Payot" "Magland" ...
 - attr(*, "spec")=
  .. cols(
  ..   Date = col_date(format = "%d/%m/%Y"),
  ..   Prix = col_number(),
  ..   Station = col_character()
  .. )
 - attr(*, "problems")=<externalptr> 

A priori il doit y avoir un problème , qui néanmoins ne m’a pas empêche d’exploité mon tableau.

On retrouve en particulier les caractéristiques du tableau [10 x 3] , le typage des valeurs.

Le typage des données est une chose relativement simple à comprendre , et c’est une notion que l’on retrouve dans d’autres langages de programmation ou en base de données.

Encore qu’en base de données, on va limiter la longueur d’une valeur, raison pour laquelle une personne avec un patronyme un peu long, ou un prénom composé peut se retrouvé embête en remplissant un formulaire. Bref ..

Nous voyons par exemple que la colonne Date est typé date , logique , ça permet surtout au logiciel d’interpréter correctement l’information , et de pouvoir traduire correctement le nom du mois , ou de faire apparaître que l’année 2021 , ou seulement 21 . Ça permet également de tenir compte des années bissextiles. Lors de l’import , il est également possible d’adapter le format de la date.

On voit également que la colonne Prix est typée numérique , logique pensez vous . Le logiciel pourra les manipuler, et appliquer correctement des opérateurs .

Et Station est typé charactere , les mots sont des chaines de caractères .