¿Quieres importar Excel a Python y no sabes por dónde empezar? ¡Estás en el lugar correcto! En esta guía sencilla y práctica, te explicamos cómo trabajar con archivos de Excel (.xlsx) utilizando Python, una de las herramientas más poderosas para el análisis de datos.
¿Por qué importar archivos de Excel a Python?
Excel es una herramienta muy común para almacenar y organizar datos. Sin embargo, cuando necesitas automatizar procesos, limpiar grandes volúmenes de datos o realizar análisis avanzados, Python se convierte en tu mejor aliado. Importar Excel a Python te permite combinar lo mejor de ambos mundos: la facilidad de uso de Excel y el poder de análisis de Python.
Requisitos previos
Antes de comenzar, asegúrate de tener instalado Python en tu computadora. También necesitaremos algunas librerías, como pandas
y openpyxl
, que facilitan la lectura de archivos Excel.
Puedes instalarlas fácilmente con pip:
pip install pandas openpyxl
Paso 1: Importar la librería necesaria
import pandas as pd
pandas
es la librería principal para manipulación de datos en Python y nos permitirá importar Excel fácilmente.
Paso 2: Importar Excel a Python con read_excel
df = pd.read_excel("archivo.xlsx", engine="openpyxl"
-
"archivo.xlsx"
es el nombre del archivo que deseas importar. -
engine="openpyxl"
permite que pandas lea archivos.xlsx
.
Con este comando, los datos de tu Excel se cargarán en un DataFrame, una estructura de datos muy poderosa y fácil de usar.
Paso 3: Verifica tus datos
print(df.head())
Con df.head()
puedes ver las primeras filas de tu archivo Excel ya importado a Python.
Consejos para importar archivos Excel en Python
-
Especificar una hoja en particular:
df = pd.read_excel("archivo.xlsx", sheet_name="Hoja1")
-
Importar varias hojas a la vez:
hojas = pd.read_excel("archivo.xlsx", sheet_name=None)
-
Ignorar filas vacías o columnas innecesarias:
Puedes limpiar tus datos fácilmente con funciones comodropna()
o seleccionando solo las columnas necesarias.
¿Qué sigue después de importar Excel a Python?
Una vez que importas tu archivo Excel, puedes comenzar a:
-
Limpiar y transformar datos.
-
Crear visualizaciones.
-
Generar reportes automatizados.
-
Conectar tu análisis con otras fuentes de datos o bases de datos.
Conclusión
Importar Excel a Python es un paso esencial si estás comenzando en el mundo del análisis de datos o si quieres llevar tus procesos de trabajo al siguiente nivel. Con unas pocas líneas de código puedes acceder, transformar y analizar tus datos de forma mucho más eficiente.
A continuación te dejo un ejemplo de como trabajar en Python y Excel.
import matplotlib.pyplot as plt import pandas as pd #Importamos el Excel, la hoja llamada "Mi biblioteca" df = pd.read_excel(r'C:\Users\Alejandro Flores\Downloads\Python\Visualización de datos\Blog\Archivo a importar.xlsx', sheet_name='Mi biblioteca') #Saber sólo los nombres de las columnas print(df.columns) #Agrupamos el total de páginas por autor paginas_por_autor = df.groupby('Autor')['N° Páginas'].sum() print(paginas_por_autor) #Ordenar de mayor a menor, en término de número de páginas ordenar_mayor_a_menor = paginas_por_autor.sort_values(ascending=False) print(ordenar_mayor_a_menor) #Escogemos sólo los siete mayores cinco_mayores = ordenar_mayor_a_menor.head(7) print(cinco_mayores) #Guardamos en lista a los autores siete mayores números de páginas y sus respectivas cifras autores_siete_mayores = cinco_mayores.index.tolist() valores_siete_mayores = cinco_mayores.values.tolist() print(autores_siete_mayores) print(valores_siete_mayores) #Creamos un gráfico muy básico de los datos almacenados en lista plt.bar(autores_siete_mayores, valores_siete_mayores) plt.title('Top 7 autores con mayor cantidad de páginas') plt.xlabel('Autores') plt.ylabel('Número de páginas') plt.show()