将HTML表格转换为pandas数据框,而不是数据框对象列表

17

如果这个问题已经在其他地方得到解答,我很抱歉,但我未能在这里或其他地方找到令人满意的答案。

我对Python和Pandas有些陌生,在将HTML数据导入Pandas dataframe时遇到了一些困难。在Pandas文档中,它说.read_html()会返回一个DataFrame对象的列表,因此当我尝试进行一些数据操作以去除一些样本时,出现了错误。

以下是读取HTML的代码:

df = pd.read_html('http://espn.go.com/nhl/statistics/player/_/stat/points/sort/points/year/2015/seasontype/2', header = 1)

然后我尝试清理它:

df = df.dropna(axis=0, thresh=4)

我收到了以下错误信息:

Traceback (most recent call last): File "module4.py", line 25, in
<module> df = df.dropna(axis=0, thresh=4) AttributeError: 'list'
object has no attribute 'dropna'

我该如何将这些数据转换为实际的数据框,类似于 .read_csv() 的功能?

2个回答

26

8

pd.read_html会返回一个列表,其中只有一个元素,该元素是pandas数据框。

df = pd.read_html(url) ###<-- List

df[0] ###<-- Pandas DataFrame

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接