在pandas中读取CSV文件除了最后一行的所有内容

Question

35

我有一些CSV文件，我使用以下代码在pandas中读取：

#!/usr/bin/env python

import pandas as pd
import sys

filename = sys.argv[1]
df = pd.read_csv(filename)

不幸的是，这些文件的最后一行通常会损坏（逗号数量错误）。目前我会在文本编辑器中打开每个文件并删除最后一行。

是否可以在同一Python/Pandas脚本中删除最后一行，以避免采取这个额外的非自动化步骤？

- Simd

你删除了一个关于提取数字的问题，但是我本来想建议使用 str.extract：for col in df.columns[2:]: df[col] = df[col].str.extract(r'(\d+)').astype(int) - EdChum

@EdChum 你的代码保留小数点吗？ - Simd

@EdChum，我恢复了之前的问题。 - Simd

4个回答

20

使用skipfooter参数可以在读取csv时省略最后n行：

df = pd.read_csv(filename, skipfooter=3, engine='python')

在这个例子中，最后三行被省略了。

- drops

11

阅读 http://pandas.pydata.org/pandas-docs/version/0.16.2/generated/pandas.read_csv.html。这里可以使用'skipfooter'参数来指定从.csv文件末尾不想读取的行数。也许这对你有帮助。

- Mangu Singh Rajpurohit

0

如果它始终且仅仅是最后一行，我们可以这样做 -

df = pd.read_csv(filename)[:-1]

- rr_goyal

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- EdChum · Accepted Answer

通过 on_bad_lines='skip' 来进行设置，它将自动跳过这一行

df = pd.read_csv(filename, on_bad_lines='skip')

这是一个旧版本（不要使用 - 它已从pandas2.0中删除）：

df = pd.read_csv(filename, error_bad_lines=False)

自1.3.0版本起已弃用：应改用on_bad_lines参数来指定遇到错误行时的行为。