Comment obtenir la taille d'un tableau de données DataFrame avec pandas ?

Exemples de comment obtenir la taille d'un tableau de données DataFrame avec pandas: [TOC] ### Taille d'une DataFrame avec shape() Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur kaggle). Pour lire le fichier il existe la fonction pandas read_csv(): >>> import pandas as pd >>> df = pd.read_csv('train.csv') On peut alors utiliser la fonction [shape()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html) pour ob

How to read a simple text file in python ?

Example of how to read a simple text file in python: [TOC] ### Read a text file Let's consider the following file [iso_8859-1.txt](https://www.w3.org/TR/PNG/iso_8859-1.txt). To read and close the file do: f = open('iso_8859-1.txt', 'r') f.closed ### Get all the file content To get all the file content a solution is to use f.read(): f = open('iso_8859-1.txt', 'r') data = f.read() f.close and print the content using print(data) returns here: Th

How to add some text on a matplotlib figure in python ?

Examples of how to add some text on a matplotlib figure in python: [TOC] ### Add text using pyplot.text() To add some text on a matplotlib figure, a solution is to use the function [matplotlib.pyplot.text()](http://matplotlib.org/api/pyplot_api.html?highlight=figtext) that needs the position of the text (x,y) and the text itself. An example with the text 'Hello World !' at the coordinates (1,35): #!/usr/bin/env python import numpy as np import matplotlib.pyplot as plt x

How to rename a column name of a DataFrame in pandas ?

Examples of how to rename a column name of a DataFrame in pandas: [TOC] ### Rename a column name using rename() Let's consider the following dataframe >>> import numpy as np >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(5,5)) >>> df = pd.DataFrame(data=data,columns=['c1','c2','c3','c4','c5']) >>> df c1 c2 c3 c4 c5 0 33 93 44 10 38 1 77 27 78 15 84 2 33 50 42 30 63 3 35 54 39 8 21 4 77 11 3

How to remove one or multiple rows in a pandas DataFrame in python ?

Examples of how to remove one or multiple rows in a pandas DataFrame in python [TOC] ### Remove one row Lets create a simple dataframe with pandas >>> data = np.random.randint(100, size=(10,10)) >>> df = pd.DataFrame(data=data) >>> df 0 1 2 3 4 5 6 7 8 9 0 13 44 3 55 13 98 44 87 20 52 1 72 72 96 18 68 84 81 41 8 75 2 53 71 97 27 21 44 61 9 59 87 3 40 94 49 7 56 93 17 62 71 14 4 4 20 56 45 89 78 9

How to remove one or multiple columns in a pandas DataFrame in python ?

Examples of how to remove one or multiple columns in a pandas DataFrame in python: [TOC] ### Remove one column Lets create a simple dataframe >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> data array([[55, 38, 97, 91, 22, 12, 87, 55, 38, 91], [44, 39, 64, 45, 33, 26, 28, 9, 86, 40], [10, 98, 55, 3, 99, 41, 25, 8, 36, 47], [84, 82, 55, 73, 29, 28, 85, 99, 7, 92], [84, 38, 45, 75, 9, 45, 89, 19, 6

How to select one or multiple rows in a pandas DataFrame in python ?

Examples of how to select one or multiple rows in a pandas DataFrame in python: [TOC] ### Create a DataFrame Lets consider the following dataset train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df = pd.read_csv('train.csv') >>> df.shape (1460, 8

How to replace some elements of a matrix using numpy in python ?

Examples of how to replace some elements of a matrix using numpy in python: [TOC] ### Replace some elements of a 1D matrix Let's try to replace the elements of a matrix called M strictly lower than 5 by the value -1: >>> import numpy as np >>> M = np.arange(10) >>> M array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> M[M > 5 ] = -1 >>> M array([ 0, 1, 2, 3, 4, 5, -1, -1, -1, -1]) ### Replace some elements of a 2D matrix Another exam

Comment supprimer une ou des lignes d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment supprimer une ou des lignes d'un tableau de données (DataFrame) avec pandas: [TOC] ### Supprimer une ligne Créons une simple DataFrame avec pandas: >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> df = pd.DataFrame(data=data) >>> df 0 1 2 3 4 5 6 7 8 9 0 13 44 3 55 13 98 44 87 20 52 1 72 72 96 18 68 84 81 41 8 75 2 53 71 97 27 21 44 61 9 59 87

Comment renommer une colonne d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment renommer une ou des colonnes d'un tableau de données (DataFrame) avec pandas sous python: [TOC] ### Renommer une colonne avec rename() Soit la DataFrame suivante: >>> import numpy as np >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(5,5)) >>> df = pd.DataFrame(data=data,columns=['c1','c2','c3','c4','c5']) >>> df c1 c2 c3 c4 c5 0 33 93 44 10 38 1 77 27 78 15 84 2 33 50 42 30 63 3 35

Comment supprimer une ou des colonnes d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment supprimer une colonne d'un tableau de données (DataFrame) avec pandas: [TOC] ### Supprimer une colonne Créons une simple DataFrame avec pandas: >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> data array([[55, 38, 97, 91, 22, 12, 87, 55, 38, 91], [44, 39, 64, 45, 33, 26, 28, 9, 86, 40], [10, 98, 55, 3, 99, 41, 25, 8, 36, 47], [84, 82, 55, 73, 29, 28, 85, 99, 7, 92], [84, 38, 45

Comment sélectionner une ou plusieurs lignes d'un tableau de données (DataFrame) avec pandas ?

Exemple de comment sélectionner une ou plusieurs lignes de données dans une DataFrame avec pandas sous python: [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as

How to select one or multiple columns in a pandas DataFrame in python ?

Example of how to extract one or several columns of data in a pandas dataframe [TOC] ### Create a dataframe with pandas Let's consider the csv file train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df = pd.read_csv('train.csv') >>> df.shape (1460

How to extract one or several columns of data in a pandas dataframe ?

Exemple de comment sélectionner une ou des colonnes de données dans une DataFrame avec pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df =

How to filter missing data (NAN or NULL values) in a pandas DataFrame ?

Examples of how to work with missing data (NAN or NULL values) in a pandas DataFrame: [TOC] ### Create a DataFrame with Pandas Let's consider the csv file train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd.read_csv('train.csv') Get DataFr

Filtrer les données manquantes (NAN, NULL) d'une DataFrame avec Pandas ?

Exemple de comment filtrer les données manquantes (NAN, NULL) d'une DataFrame avec Pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd

How to add metadata to a data frame with pandas in python ?

Example of how to add metadata to a data frame with pandas in python: [TOC] ### Create a data frame with pandas Example of how to create a simple data frame with pandas import pandas as pd import numpy as np data = np.arange(1,13) data = data.reshape(3,4) columns = ['Home','Car','Sport','Food'] index = ['Alice','Bob','Emma'] df = pd.DataFrame(data=data,index=index,columns=columns) ### Add metadata A solution to add metadata: df.scale = 0.1 df.offset = 1

Comment ajouter des metadata à une data frame avec pandas sous python ?

Exemple de comment ajouter des metadata à une data frame avec pandas sous python: [TOC] ### Créer une data frame avec pandas Exemple de comment créer une simple data frame avec pandas import pandas as pd import numpy as np data = np.arange(1,13) data = data.reshape(3,4) columns = ['Home','Car','Sport','Food'] index = ['Alice','Bob','Emma'] df = pd.DataFrame(data=data,index=index,columns=columns) ### Ajouter des metadata On peut alors ajouter des metadata à

How to save a large dataset in a hdf5 file using python ? (Quick Guide)

Examples of how to store a large dataset in a hdf5 file using python: [TOC] ### Create arrays of data Let's consider the following matrices of integers (dtype='i'): >>> import numpy as np >>> A = np.random.randint(100, size=(4,4)) >>> A array([[ 1, 99, 79, 46], [69, 4, 29, 60], [56, 94, 16, 16], [52, 13, 37, 86]]) matrix B of dimensions (5,3,3) >>> B = np.random.randint(100, size=(5,3,3)) >>> B array([[[60, 89, 24], [ 4, 98, 48], [19, 39,

Comment sélectionner une ou plusieurs colonnes d'un tableau de données (ou DataFrame) avec pandas ?

Exemple de comment sélectionner une ou des colonnes de données dans une DataFrame avec pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df =

Sauvegarder une matrice de données de grande taille et/ou de plusieurs dimensions dans un fichier hdf5 en python ?

Pour sauvegarder dans un fichier, des données stockées dans une matrice il existe plusieurs approches. Dans le cas d'un simple tableau de données avec quelques colonnes et/ou lignes on peut utiliser un simple fichier ascii ou un fichier csv. Cependant, si les données sont stockées dans des matrices à plusieurs dimensions ou si le volume de données est important il est préférable par exemple d'utiliser le format de données hdf5. Exemple avec python de comment créer un fichier hdf5, stocker les do

How to get the names (titles or labels) of a pandas data frame in python ?

Examples of how to get the names (titles or labels) of a pandas data frame in python [TOC] ### Get the row names of a pandas data frame Let's consider a data frame called df. to get the row names a solution is to do: >>> df.index ### Get the row names of a pandas data frame (Exemple 1) Let's create a simple data frame: >>> import pandas as pd >>> import numpy as np >>> data = np.arange(1,13) >>> data = data.reshape(3,4) >>> data array([[ 1, 2, 3, 4],

Comment obtenir les noms (titres, labels) associés aux lignes d'un tableau de données (dataframe) avec pandas ?

Exemple de comment obtenir les noms (titres, labels) associés aux lignes d'un tableau de données (data frame) avec pandas sous python: [TOC] ### Obtenir le noms associés aux lignes d'une data frame Soit une data frame nommée df, pour obtenir le noms associés aux lignes on peut faire comme ceci: >>> df.index ### Obtenir le noms associés aux lignes d'une data frame (Exemple 1) Créons une simple data frame >>> import pandas as pd >>> import numpy as np >>> data = np.ar

How to read a csv file using pandas in python ?

Example of how to read a csv file using pandas in python: [TOC] ### Read a csv file Let's consider the csv file train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the csv file a solution is to use the pandas function [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd.read_csv('train.csv') Get array dimensions: >>>

Comment lire un fichier de données csv en python avec pandas ?

Exemple de comment lire un fichier de données csv avec pandas : [TOC] ### Lire un fichier csv Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd.read_csv('train.csv') Obtenir les dim