我正在阅读《Python数据分析》一书,在“示例:2012年联邦选举委员会数据库”章节中读取数据到DataFrame时遇到了问题。问题是,即使将index_col参数设置为None,数据的某一列始终被设置为索引列。
这里是数据链接:http://www.fec.gov/disclosurep/PDownload.do。
这里是加载代码(为了节省检查时间,我设置了nrows=10):
import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None)
为了简洁起见,我省略了数据列的输出,但这是我的输出(请注意索引值):In [20]: fec
Out[20]:
<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, C00410118 to C00410118
Data columns:
...
dtypes: float64(4), int64(3), object(11)
以下是该书的输出结果(仍然排除数据列):
In [13]: fec = read_csv('P00000001-ALL.csv')
In [14]: fec
Out[14]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1001731 entries, 0 to 1001730
...
dtypes: float64(1), int64(1), object(14)
我的输出结果中的索引值实际上是文件中第一列数据,导致所有其他数据向左移动了一列。有人知道如何防止该数据列作为索引列?我希望索引只是递增的整数+1。
我对Python和Pandas都很新手,所以对任何不便表示歉意。谢谢。
index_col=0
是有效的。而index_col=False
和index_col=None
则无效。 - dixhom