输入输出

import pandas as pd
import numpy as np

from io import StringIO

CSV

数据交互

data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
pd.read_csv(StringIO(data))

col1col2col3
0ab1
1ab2
2cd3

可以仅指定部分列:

pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])

col1col3
0a1
1a2
2c3

也可以仅指定部分行:

pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)

col1col2col3
0ab2

可以使用 names 参数指定列名。如果希望替换原字符流第一行,则设置 header=0

data = "a,b,c\n1,2,3\n4,5,6\n7,8,9"
pd.read_csv(StringIO(data), names=["foo", "bar", "baz"], header=0)

foobarbaz
0123
1456
2789

如果第一行也是数据,列名需要手动添加,则设置 header=None

pd.read_csv(StringIO(data), names=["foo", "bar", "baz"], header=None)

foobarbaz
0abc
1123
2456
3789

还可以实现跳过前面若干行的功能,例如跳过第一行:

data = "skip this skip it\na,b,c\n1,2,3\n4,5,6\n7,8,9"
pd.read_csv(StringIO(data), header=1)

abc
0123
1456
2789

使用 dtype='category',生成的类别将始终被解析为字符串。

data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
df = pd.read_csv(StringIO(data), dtype="category")
df.dtypes
col1    category
col2    category
col3    category
dtype: object

使用参数 comment=# 来忽略以 # 开头的注释。

data = "\na,b,c\n  \n# commented line\n1,2,3\n\n4,5,6"
pd.read_csv(StringIO(data), comment="#")

abc
0123
1456

使用参数 skip_blank_lines 来指定是否跳过空行,默认值为 True

data = "a,b,c\n\n1,2,3\n\n\n4,5,6"
pd.read_csv(StringIO(data), skip_blank_lines=False)

abc
0NaNNaNNaN
11.02.03.0
2NaNNaNNaN
3NaNNaNNaN
44.05.06.0

文件读写

df = pd.DataFrame(np.random.randint(0, 10, size=(3, 4)),
                  index=pd.date_range('2022/2/22', periods=3),
                  columns=list('ABCD'))
df.to_csv('dist/foo.csv', encoding='utf-8')

参数 index_col=0 指定 csv 文件的第一列为 index

pd.read_csv('src/foo.csv', index_col=0)

ABCD
2022-02-229492
2022-02-233134
2022-02-245987

Excel

使用 pandas 读写 Excel 文件需要安装 openpyxl 包。

df = pd.DataFrame(np.random.randint(0, 10, size=(3, 4)),
                  index=pd.date_range('2022/2/22', periods=3),
                  columns=list('ABCD'))
df.to_excel('dist/foo.xlsx', sheet_name='Sheet1')
pd.read_excel('src/foo.xlsx', sheet_name='Sheet1', index_col=0, na_values=['NA'])

ABCD
2022-02-222281
2022-02-230642
2022-02-243266

如果要读取一个 Excel 文件的多个 Sheet,使用 ExcelFile 对象。

data = {}

with pd.ExcelFile("src/foo.xlsx") as xlsx:
    data["Sheet1"] = pd.read_excel(xlsx, "Sheet1", index_col=0, na_values=['NA'])
    data["Sheet2"] = pd.read_excel(xlsx, "Sheet2", index_col=0, na_values=['NA'])

data
{'Sheet1':             A  B  C  D
 2022-02-22  2  2  8  1
 2022-02-23  0  6  4  2
 2022-02-24  3  2  6  6,
 'Sheet2':             A  B  C  D
 2022-02-22  1  2  4  3
 2022-02-23  3  2  1  2
 2022-02-24  3  1  4  6}
Previous