FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Comment importer des données Excel dans des scripts Python à l'aide de Pandas

Microsoft Excel est le tableur le plus utilisé au monde, et pour cause :l'interface conviviale et les puissants outils intégrés simplifient le travail avec les données.

Mais si vous souhaitez effectuer un traitement de données plus avancé, vous devrez aller au-delà des capacités d'Excel et commencer à utiliser un langage de script/programmation comme Python. Plutôt que de copier manuellement vos données dans des bases de données, voici un rapide tutoriel sur la façon de charger vos données Excel dans Python à l'aide de Pandas.

Remarque : Si vous n'avez jamais utilisé Python auparavant, ce tutoriel peut être un peu difficile. Nous vous recommandons de commencer par ces sites Web pour apprendre Python et ces exemples Python de base pour vous aider à démarrer.

Qu'est-ce que les pandas ?

La bibliothèque d'analyse de données Python ("Pandas") est une bibliothèque open source pour le langage de programmation Python qui est utilisée pour l'analyse et la manipulation de données.

Pandas charge les données dans des objets Python appelés Dataframes , qui stockent les données dans des lignes et des colonnes comme une base de données traditionnelle. Une fois qu'un Dataframe est créé, il peut être manipulé à l'aide de Python, ouvrant un monde de possibilités.

Installer Pandas

Remarque : Vous devez avoir Python 2.7 ou une version ultérieure pour installer Pandas.

Pour commencer à travailler avec Pandas sur votre machine, vous devrez importer la bibliothèque Pandas. Si vous êtes à la recherche d'une solution lourde, vous pouvez télécharger la distribution Python Anaconda, qui intègre Pandas. Si vous n'avez pas besoin d'Anaconda, Pandas est simple à installer dans votre terminal.

Pandas est un package PyPI, ce qui signifie que vous pouvez installer en utilisant PIP pour Python via la ligne de commande. Les systèmes Mac modernes sont livrés avec PIP. Pour les autres systèmes Windows, Linux et plus anciens, il est facile d'apprendre à installer PIP pour Python.

Une fois que vous avez ouvert votre terminal, la dernière version de Pandas peut être installée en utilisant la commande :

>> pip install pandas 

Pandas nécessite également la bibliothèque NumPy, installons-la également en ligne de commande :

>> pip install numpy 

Vous avez maintenant installé Pandas et êtes prêt à créer votre premier DataFrame !

Préparation des données Excel

Pour cet exemple, utilisons un exemple d'ensemble de données :un classeur Excel intitulé Cars.xlsx .

Comment importer des données Excel dans des scripts Python à l aide de Pandas

Cet ensemble de données affiche la marque, le modèle, la couleur et l'année des voitures entrées dans le tableau. Le tableau s'affiche sous la forme d'une plage Excel. Pandas est suffisamment intelligent pour lire les données de manière appropriée.

Ce classeur est enregistré dans le répertoire Desktop, voici le chemin du fichier utilisé :

/Users/grant/Desktop/Cars.xlsx 

Vous aurez besoin de connaître le chemin du fichier du classeur pour utiliser Pandas. Commençons par ouvrir Visual Studio Code pour écrire le script. Si vous n'avez pas d'éditeur de texte, nous vous recommandons Visual Studio Code ou Atom Editor.

Écrire le script Python

Maintenant que vous avez votre éditeur de texte de choix, le vrai plaisir commence. Nous allons réunir Python et notre classeur Cars pour créer un Pandas DataFrame.

Importation des bibliothèques Python

Ouvrez votre éditeur de texte et créez un nouveau fichier Python. Appelons-le Script.py .

Pour travailler avec Pandas dans votre script, vous devrez l'importer dans votre code. Cela se fait avec une seule ligne de code :

importer des pandas en tant que pd 

Ici, nous chargeons la bibliothèque Pandas et l'attachons à une variable "pd". Vous pouvez utiliser n'importe quel nom que vous souhaitez, nous utilisons "pd" comme raccourci pour Pandas.

Pour travailler avec Excel en utilisant Pandas, vous avez besoin d'un objet supplémentaire nommé ExcelFile . ExcelFile est intégré à l'écosystème Pandas, vous importez donc directement depuis Pandas :

à partir de pandas importer ExcelFile 

Travailler avec le chemin du fichier

Afin de permettre à Pandas d'accéder à votre classeur, vous devez diriger votre script vers l'emplacement du fichier. Pour ce faire, le moyen le plus simple consiste à fournir à votre script le chemin d'accès complet au classeur.

Rappelez-vous notre chemin dans cet exemple :/Users/grant/Desktop/Cars.xlsx

Vous aurez besoin de ce chemin de fichier référencé dans votre script pour extraire les données. Plutôt que de référencer le chemin à l'intérieur de la fonction Read_Excel, gardez le code propre en stockant le chemin dans une variable :

Cars_Path ='/Users/grant/Desktop/Cars.xlsx' 

Vous êtes maintenant prêt à extraire les données à l'aide d'une fonction Pandas !

Extraire des données Excel à l'aide de Pandas.Read_Excel()

Avec les Pandas importés et votre variable de chemin définie, vous pouvez maintenant utiliser les fonctions de l'objet Pandas pour accomplir notre tâche.

La fonction que vous devrez utiliser est nommée de manière appropriée Read_Excel . La fonction Read_Excel prend le chemin d'accès au fichier d'un classeur Excel et renvoie un objet DataFrame avec le contenu du classeur. Pandas code cette fonction comme :

pandas.read_excel(chemin) 

L'argument "path" va être le chemin d'accès à notre classeur Cars.xlsx, et nous avons déjà défini la chaîne de chemin sur la variable Cars_Path.

Vous êtes prêt à créer l'objet DataFrame ! Mettons tout cela ensemble et définissons l'objet DataFrame sur une variable nommée "DF":

DF =pd.read_excel(Cars_Path) 

Enfin, vous souhaitez afficher le DataFrame, alors imprimons le résultat. Ajoutez une instruction print à la fin de votre script, en utilisant la variable DataFrame comme argument :

imprimer(DF) 

Il est temps d'exécuter le script dans votre terminal !

Exécuter le script Python

Ouvrez votre terminal ou votre ligne de commande et accédez au répertoire contenant votre script. Dans ce cas, j'ai "Script.py" situé sur le bureau. Pour exécuter le script, utilisez la commande python suivie du fichier de script :

Comment importer des données Excel dans des scripts Python à l aide de Pandas

Python extraira les données de "Cars.xlsx" dans votre nouveau DataFrame et imprimera le DataFrame sur le terminal !

Comment importer des données Excel dans des scripts Python à l aide de Pandas

Regarder de plus près l'objet DataFrame

À première vue, le DataFrame ressemble beaucoup à un tableau Excel ordinaire. Les Pandas DataFrames sont donc faciles à interpréter.

Vos en-têtes sont étiquetés en haut de l'ensemble de données et Python a rempli les lignes avec toutes vos informations lues dans le classeur "Cars.xlsx".

Remarquez la colonne la plus à gauche, un index commençant à 0 et numérotant les colonnes. Pandas appliquera cet index à votre DataFrame par défaut, ce qui peut être utile dans certains cas. Si vous ne souhaitez pas que cet index soit généré, vous pouvez ajouter un argument supplémentaire dans votre code :

DF =pd.read_excel(Cars_Path, index=False) 

Définir l'argument "index" sur False supprimera la colonne d'index, vous laissant uniquement vos données Excel.

Faire plus avec Python

Maintenant que vous avez la possibilité de lire des données à partir de feuilles de calcul Excel, vous pouvez appliquer la programmation Python comme bon vous semble. Travailler avec Pandas est un moyen simple pour les programmeurs Python expérimentés de travailler avec des données stockées dans des classeurs Excel.

La facilité avec laquelle Python peut être utilisé pour analyser et manipuler des données est l'une des nombreuses raisons pour lesquelles Python est le langage de programmation du futur.

Crédit image :Rawpixel/Depositphotos


[]