How to copy a dataframe with pandas in python ?

Example of how to copy a data frame with pandas in python: [TOC] ### Create a dataframe To start let's create a simple dataframe: >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,5)) >>> df = pd.DataFrame(data=data,columns=['a','b','c','d','e']) >>> df a b c d e 0 42 94 3 22 28 1 0 85 93 43 18 2 70 10 98 19 26 3 54 72 89 51 61 4 13 44 94 28 34 5 79 4 89 33 81 6 69 37 84 89

How to prepend an n-by-1 column of ones to a matrix in python using numpy ? (machine learning)

Examples of how to prepend an n-by-1 column of ones to a matrix of training input data: [TOC] ### Prepend an n-by-1 column of ones to a training dataset Let's consider the following matrix X of training data X (with n=6 observations and d=3 features): \begin{equation} X = \left( \begin{array}{ccc} x_{11} & x_{12} & x_{13} \\\\ x_{21} & x_{22} & x_{23} \\\\ x_{31} & x_{32} & x_{33} \\\\ x_{41} & x_{42} & x_{43} \\\\ x_{51} & x_{52} & x_{53} \\\\ x_{61} & x_{62} & x_{63} \end

How to count the occurrence of an element in a pandas data frame column ?

Examples of how to count the occurrence of an element in a pandas data frame column: [TOC] ### Using value_counts() Lets take for example the file ['default of credit card clients Data Set"](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients#) that can be downloaded [here](https://archive.ics.uci.edu/ml/machine-learning-databases/00350/) >>> import pandas as pd >>> df = pd.read_excel('default of credit card clients.xls', header=1) To get the count of d

Comment compter le nombre d'occurrences pour les éléments d'une colonne dans une data frame avec pandas ?

Exemple de comment compter le nombre d'occurrences sur les éléments d'une colonne avec une data frame pandas: [TOC] ### Nombre d'occurrences avec la fonction value_counts() Soit par exemple le fichier de données suivant ['default of credit card clients Data Set"](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients#) que l'on peut télécharger [ici](https://archive.ics.uci.edu/ml/machine-learning-databases/00350/) >>> import pandas as pd >>> df = pd.read_ex

How to get the shape of a DataFrame in python with pandas ?

Examples of how to get the shape of a DataFrame in python with panda: [TOC] ### Get DataFrame shape Let's consider the following file train.csv (that can be downloaded on kaggle): >>> import pandas as pd >>> df = pd.read_csv('train.csv') To get the shape a solution is to use the function [shape()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html): >>> print(df.shape) (1460, 81) ### Number of columns Get the number of columns

Comment obtenir la taille d'un tableau de données DataFrame avec pandas ?

Exemples de comment obtenir la taille d'un tableau de données DataFrame avec pandas: [TOC] ### Taille d'une DataFrame avec shape() Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur kaggle). Pour lire le fichier il existe la fonction pandas read_csv(): >>> import pandas as pd >>> df = pd.read_csv('train.csv') On peut alors utiliser la fonction [shape()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html) pour ob

How to read a simple text file in python ?

Example of how to read a simple text file in python: [TOC] ### Read a text file Let's consider the following file [iso_8859-1.txt](https://www.w3.org/TR/PNG/iso_8859-1.txt). To read and close the file do: f = open('iso_8859-1.txt', 'r') f.closed ### Get all the file content To get all the file content a solution is to use f.read(): f = open('iso_8859-1.txt', 'r') data = f.read() f.close and print the content using print(data) returns here: Th

How to add some text on a matplotlib figure in python ?

Examples of how to add some text on a matplotlib figure in python: [TOC] ### Add text using pyplot.text() To add some text on a matplotlib figure, a solution is to use the function [matplotlib.pyplot.text()](http://matplotlib.org/api/pyplot_api.html?highlight=figtext) that needs the position of the text (x,y) and the text itself. An example with the text 'Hello World !' at the coordinates (1,35): #!/usr/bin/env python import numpy as np import matplotlib.pyplot as plt x

How to rename a column name of a DataFrame in pandas ?

Examples of how to rename a column name of a DataFrame in pandas: [TOC] ### Rename a column name using rename() Let's consider the following dataframe >>> import numpy as np >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(5,5)) >>> df = pd.DataFrame(data=data,columns=['c1','c2','c3','c4','c5']) >>> df c1 c2 c3 c4 c5 0 33 93 44 10 38 1 77 27 78 15 84 2 33 50 42 30 63 3 35 54 39 8 21 4 77 11 3

How to remove one or multiple rows in a pandas DataFrame in python ?

Examples of how to remove one or multiple rows in a pandas DataFrame in python [TOC] ### Remove one row Lets create a simple dataframe with pandas >>> data = np.random.randint(100, size=(10,10)) >>> df = pd.DataFrame(data=data) >>> df 0 1 2 3 4 5 6 7 8 9 0 13 44 3 55 13 98 44 87 20 52 1 72 72 96 18 68 84 81 41 8 75 2 53 71 97 27 21 44 61 9 59 87 3 40 94 49 7 56 93 17 62 71 14 4 4 20 56 45 89 78 9

How to remove one or multiple columns in a pandas DataFrame in python ?

Examples of how to remove one or multiple columns in a pandas DataFrame in python: [TOC] ### Remove one column Lets create a simple dataframe >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> data array([[55, 38, 97, 91, 22, 12, 87, 55, 38, 91], [44, 39, 64, 45, 33, 26, 28, 9, 86, 40], [10, 98, 55, 3, 99, 41, 25, 8, 36, 47], [84, 82, 55, 73, 29, 28, 85, 99, 7, 92], [84, 38, 45, 75, 9, 45, 89, 19, 6

How to select one or multiple rows in a pandas DataFrame in python ?

Examples of how to select one or multiple rows in a pandas DataFrame in python: [TOC] ### Create a DataFrame Lets consider the following dataset train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df = pd.read_csv('train.csv') >>> df.shape (1460, 8

How to replace some elements of a matrix using numpy in python ?

Examples of how to replace some elements of a matrix using numpy in python: [TOC] ### Replace some elements of a 1D matrix Let's try to replace the elements of a matrix called M strictly lower than 5 by the value -1: >>> import numpy as np >>> M = np.arange(10) >>> M array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> M[M > 5 ] = -1 >>> M array([ 0, 1, 2, 3, 4, 5, -1, -1, -1, -1]) ### Replace some elements of a 2D matrix Another exam

Comment supprimer une ou des lignes d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment supprimer une ou des lignes d'un tableau de données (DataFrame) avec pandas: [TOC] ### Supprimer une ligne Créons une simple DataFrame avec pandas: >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> df = pd.DataFrame(data=data) >>> df 0 1 2 3 4 5 6 7 8 9 0 13 44 3 55 13 98 44 87 20 52 1 72 72 96 18 68 84 81 41 8 75 2 53 71 97 27 21 44 61 9 59 87

Comment renommer une colonne d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment renommer une ou des colonnes d'un tableau de données (DataFrame) avec pandas sous python: [TOC] ### Renommer une colonne avec rename() Soit la DataFrame suivante: >>> import numpy as np >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(5,5)) >>> df = pd.DataFrame(data=data,columns=['c1','c2','c3','c4','c5']) >>> df c1 c2 c3 c4 c5 0 33 93 44 10 38 1 77 27 78 15 84 2 33 50 42 30 63 3 35

Comment supprimer une ou des colonnes d'un tableau de données (DataFrame) avec pandas ?

Exemples de comment supprimer une colonne d'un tableau de données (DataFrame) avec pandas: [TOC] ### Supprimer une colonne Créons une simple DataFrame avec pandas: >>> import pandas as pd >>> import numpy as np >>> data = np.random.randint(100, size=(10,10)) >>> data array([[55, 38, 97, 91, 22, 12, 87, 55, 38, 91], [44, 39, 64, 45, 33, 26, 28, 9, 86, 40], [10, 98, 55, 3, 99, 41, 25, 8, 36, 47], [84, 82, 55, 73, 29, 28, 85, 99, 7, 92], [84, 38, 45

Comment sélectionner une ou plusieurs lignes d'un tableau de données (DataFrame) avec pandas ?

Exemple de comment sélectionner une ou plusieurs lignes de données dans une DataFrame avec pandas sous python: [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as

How to select one or multiple columns in a pandas DataFrame in python ?

Example of how to extract one or several columns of data in a pandas dataframe [TOC] ### Create a dataframe with pandas Let's consider the csv file train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df = pd.read_csv('train.csv') >>> df.shape (1460

How to extract one or several columns of data in a pandas dataframe ?

Exemple de comment sélectionner une ou des colonnes de données dans une DataFrame avec pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df =

How to filter missing data (NAN or NULL values) in a pandas DataFrame ?

Examples of how to work with missing data (NAN or NULL values) in a pandas DataFrame: [TOC] ### Create a DataFrame with Pandas Let's consider the csv file train.csv (that can be downloaded on [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). To read the file a solution is to use [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd.read_csv('train.csv') Get DataFr

Filtrer les données manquantes (NAN, NULL) d'une DataFrame avec Pandas ?

Exemple de comment filtrer les données manquantes (NAN, NULL) d'une DataFrame avec Pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> data = pd

How to add metadata to a data frame with pandas in python ?

Example of how to add metadata to a data frame with pandas in python: [TOC] ### Create a data frame with pandas Example of how to create a simple data frame with pandas import pandas as pd import numpy as np data = np.arange(1,13) data = data.reshape(3,4) columns = ['Home','Car','Sport','Food'] index = ['Alice','Bob','Emma'] df = pd.DataFrame(data=data,index=index,columns=columns) ### Add metadata A solution to add metadata: df.scale = 0.1 df.offset = 1

Comment ajouter des metadata à une data frame avec pandas sous python ?

Exemple de comment ajouter des metadata à une data frame avec pandas sous python: [TOC] ### Créer une data frame avec pandas Exemple de comment créer une simple data frame avec pandas import pandas as pd import numpy as np data = np.arange(1,13) data = data.reshape(3,4) columns = ['Home','Car','Sport','Food'] index = ['Alice','Bob','Emma'] df = pd.DataFrame(data=data,index=index,columns=columns) ### Ajouter des metadata On peut alors ajouter des metadata à

How to save a large dataset in a hdf5 file using python ? (Quick Guide)

Examples of how to store a large dataset in a hdf5 file using python: [TOC] ### Create arrays of data Let's consider the following matrices of integers (dtype='i'): >>> import numpy as np >>> A = np.random.randint(100, size=(4,4)) >>> A array([[ 1, 99, 79, 46], [69, 4, 29, 60], [56, 94, 16, 16], [52, 13, 37, 86]]) matrix B of dimensions (5,3,3) >>> B = np.random.randint(100, size=(5,3,3)) >>> B array([[[60, 89, 24], [ 4, 98, 48], [19, 39,

Comment sélectionner une ou plusieurs colonnes d'un tableau de données (ou DataFrame) avec pandas ?

Exemple de comment sélectionner une ou des colonnes de données dans une DataFrame avec pandas ? [TOC] ### Créer une DataFrame avec Pandas Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur [kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)). Pour lire le fichier il existe la fonction pandas [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html): >>> import pandas as pd >>> df =