读取多个excel
读取多个Excel文件是一个比较常见的任务,可以应用于许多场景,比如要合并不同的Excel文件,比较不同文件之间的区别,或者要自动生成报表。在Python中,可以使用第三方库Pandas实现这一目的。Pandas模块提供了多种读取Excel文件的方法,可以读取单个文件,也可以读取多个Excel文件。
要读取多个Excel文件,首先需要获取文件的路径,可以使用python的glob模块获取文件路径列表,glob模块可以根据正则表达式获取指定目录下的文件列表,比如可以使用如下代码获取指定目录下的所有Excel文件的路径:
import glob
files = glob.glob(‘/path/to/files/*.xlsx’)
拿到文件路径列表之后,可以使用Pandas的ExcelFile类读取文件,ExcelFile类可以读取多个Excel文件,并将其转换为DataFrame格式,可以使用如下代码实现:
import pandas as pd
xlsx_files = [pd.ExcelFile(name) for name in files]
dfs = [x.parse(x.sheet_names[0], header=None,index_col=None) for x in xlsx_files]
使用ExcelFile类读取文件之后,可以将所有的DataFrame格式的文件合并到一个DataFrame中,可以使用concat函数实现:
import pandas as pd
df = pd.concat(dfs, ignore_index=True)
使用concat函数之后,就可以整合多个Excel文件的数据,并将其转换为DataFrame格式,从而可以针对数据进行操作,比如用于做报表,统计等。