我正在尝试读取以下数据集并将其转换为Pandas数据框架:
https://www.kaggle.com/marlesson/meli-data-challenge-2020
该文件的每行格式如下:
{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}
{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}
{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}
我一直在尝试以下操作,但需要太长时间(超过60分钟):
import numpy as np
import pandas as pd
import fileinput
import json
%%time
df = pd.DataFrame()
with fileinput.input(files='/kaggle/input/meli-data-challenge-2020/train_dataset.jl') as file:
for line in file:
conv = json.loads(line)
df = df.append(conv, ignore_index=True)
df.head()
以下代码会逐行读取文件并将每一行转换为json格式,然后将其添加到数据框中。
请问是否有更快的方法可以将数据集转换为pandas数据框?