我有一个大小为20GB的.ndjson
文件,希望使用Python打开。由于文件太大,我找到了一种方法,使用一个在线工具将其分成50个部分。这是该工具的网址:https://pinetools.com/split-files
现在我得到了一个扩展名为.ndjson.000
的文件(我不知道是什么)。
我试图将它作为json或csv文件打开,并在Pandas中读取,但无法成功。您有任何解决方法吗?
import json
import pandas as pd
第一种方法:
df = pd.read_json('dump.ndjson.000', lines=True)
错误: ValueError: 解码 'string' 时未匹配 ''"'
第二种方法:
with open('dump.ndjson.000', 'r') as f:
my_data = f.read()
print(my_data)
错误:json.decoder.JSONDecodeError: 从第1行第104925061列(第104925060个字符)开始的未终止字符串
我认为问题在于我的文件中有一些表情符号,所以我不知道如何对它们进行编码?