pandas的read_csv函数中的编码列表

Question

pandas的read_csv函数中的编码列表

pythonpandasencodingread-csv

14

我正在寻找一个关于pandas read_csv编码选项字符串的列表。

我找到了下面这个URL，它记录了read_csv函数的参数，但没有包含read_csv可能的编码选项列表。

http://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.io.parsers.read_csv.html

有人能帮我解决这个问题吗？

- lessthanl0l

2个回答

8

我为所有编码类型编写了一个简单的检查器。我的数据包含标头中的问题符号，因此我使用了...

df.info()

检查所有内容是否正确的函数。

import pandas as pd

codecs = ['ascii','big5','big5hkscs','cp037','cp273','cp424','cp437','cp500','cp720','cp737','cp775','cp850','cp852','cp855',
          'cp856','cp857','cp858','cp860','cp861','cp862','cp863','cp864','cp865','cp866','cp869','cp874','cp875','cp932','cp949',
          'cp950','cp1006','cp1026','cp1125','cp1140','cp1250','cp1251','cp1252','cp1253','cp1254','cp1255','cp1256','cp1257','cp1258',
          'euc_jp','euc_jis_2004','euc_jisx0213','euc_kr','gb2312','gbk','gb18030','hz','iso2022_jp','iso2022_jp_1','iso2022_jp_2',
          'iso2022_jp_2004','iso2022_jp_3','iso2022_jp_ext','iso2022_kr','latin_1','iso8859_2','iso8859_3','iso8859_4','iso8859_5','iso8859_6',
          'iso8859_7','iso8859_8','iso8859_9','iso8859_10','iso8859_11','iso8859_13','iso8859_14','iso8859_15','iso8859_16','johab','koi8_r','koi8_t',
          'koi8_u','kz1048','mac_cyrillic','mac_greek','mac_iceland','mac_latin2','mac_roman','mac_turkish','ptcp154','shift_jis','shift_jis_2004',
          'shift_jisx0213','utf_32','utf_32_be','utf_32_le','utf_16','utf_16_be','utf_16_le','utf_7','utf_8','utf_8_sig']


for x in range(len(codecs)):
    print(x,': Now checking use of:', codecs[x])
    try:
        df = pd.read_csv('*your_csv_file*.csv', header = 0, encoding = (codecs[x]), sep=';')
        print(df.info())
        print(input('Press any key...'))
    except:
        print('I can\'t load data for', codecs[x], '\n')
        print(input('Press any key...'))

记住提供 sep 参数，它也有帮助。

- mancia14

1

这是一个方便的编解码器列表！在样式上，您可以使用 for x, codec in enumerate(codecs):。x 将是您的“计数器”，而 codec 将遍历编解码器。这是稍微更符合 Python 习惯用法的写法。请参阅 enumerate 文档和这篇 Real Python 文章。 - daviewales

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Shashank Agarwal · Accepted Answer

这里是可用的Python 3编码列表 -

https://docs.python.org/3/library/codecs.html#standard-encodings

我认为pandas不包含或排除任何其他编码。