Post

Résumé du cours Kaggle-Pandas

J'ai résumé le contenu du mini-cours Pandas parmi les cours publics de Kaggle.

Pandas

Résolvez de courts défis pratiques pour perfectionner vos compétences en manipulation de données.

Leçon 1. Création, Lecture et Écriture

Importation de pandas

1
import pandas as pd

Pandas possède deux objets fondamentaux : les DataFrames et les Series.

DataFrame

Un DataFrame est un tableau. Il contient une matrice d’entrées individuelles, chacune ayant une valeur spécifique et correspondant à une ligne (row ou record) et une colonne (column). Les entrées d’un DataFrame ne doivent pas nécessairement être des entiers.

1
pd.DataFrame({'Bob': ['Je l'ai aimé.', 'C'était horrible.'], 'Sue': ['Plutôt bon.', 'Fade.']})

La déclaration d’un DataFrame se fait au format dictionnaire (dictionary) de Python. Les clés (keys) sont les noms des colonnes, et les valeurs (values) sont des listes contenant les entrées à inscrire.

Généralement, lors de la déclaration d’un DataFrame, les étiquettes de colonnes reçoivent le nom de la colonne, mais les étiquettes de lignes reçoivent des entiers 0, 1, 2… Si nécessaire, on peut spécifier manuellement les étiquettes de lignes. La liste des étiquettes de lignes dans un DataFrame est appelée Index, et peut être définie en utilisant le paramètre index.

1
2
3
pd.DataFrame({'Bob': ['Je l'ai aimé.', 'C'était horrible.'], 
              'Sue': ['Plutôt bon.', 'Fade.']},
             index=['Produit A', 'Produit B'])

Series

Une Series est une séquence de valeurs de données.

1
pd.Series([1, 2, 3, 4, 5])

Une Series est essentiellement équivalente à une seule colonne d’un DataFrame. Par conséquent, on peut également spécifier un index. La différence est qu’au lieu d’un ‘nom de colonne’, elle a un ‘nom’, name.

1
pd.Series([30, 35, 40], index=['Ventes 2015', 'Ventes 2016', 'Ventes 2017'], name='Produit A')

Les Series et les DataFrames sont étroitement liés. Il peut être utile de penser à un DataFrame comme à un ensemble de Series.

Lecture de fichiers de données

Dans de nombreux cas, plutôt que de créer des données directement, on utilise des données existantes. Les données peuvent être stockées dans divers formats, mais le plus basique est le fichier CSV. Le contenu d’un fichier CSV ressemble généralement à ceci :

1
2
3
4
Produit A,Produit B,Produit C,
30,21,9,
35,34,1,
41,11,11

Un fichier CSV est donc un tableau où chaque valeur est séparée par une virgule (comma). C’est pourquoi il s’appelle “Comma-Separated Values”, CSV.

Pour charger des données au format CSV dans un DataFrame, on utilise la fonction pd.read_csv().

On peut vérifier la taille d’un DataFrame en utilisant l’attribut shape.

On peut voir les cinq premières lignes d’un DataFrame en utilisant la commande head().

La fonction pd.read_csv() a plus de 30 paramètres. Par exemple, si le fichier CSV que vous essayez de charger contient son propre index, vous pouvez spécifier la valeur du paramètre index_col pour utiliser cette colonne comme index au lieu de laisser pandas attribuer automatiquement un index.

Écriture de données

On peut exporter un DataFrame vers un fichier CSV en utilisant la méthode to_csv(). On l’utilise comme suit :

1
(nom du DataFrame).to_csv("(chemin du fichier CSV)")

Leçon 2. Indexation, Sélection et Affectation

La sélection de valeurs spécifiques à utiliser dans un DataFrame ou une Series pandas est une étape que l’on retrouve dans presque toutes les opérations utilisant des données.

This post is licensed under CC BY-NC 4.0 by the author.

Comments powered by Disqus.