我试图使用以下方式将共享相同索引的两个数据集连接起来:
然而,内核一直崩溃。我尝试重新启动笔记本(jupyter lab),但我觉得这与其中一个数据帧大小约为2GB有关...
关于df1
merged_data = df1.join(df2)
然而,内核一直崩溃。我尝试重新启动笔记本(jupyter lab),但我觉得这与其中一个数据帧大小约为2GB有关...
关于df1
<class 'pandas.core.frame.DataFrame'>
Index: 97812 entries, XXXX to XXXX
Data columns (total 19 columns):
dtypes: float64(2), int64(3), object(14)
memory usage: 14.9+ MB
关于df2
<class 'pandas.core.frame.DataFrame'>
Index: 13888745 entries, XXXX to XXXX
Data columns (total 18 columns):
dtypes: int64(16), object(2)
memory usage: 2.0+ GB
如何让这个工作?
我需要所有的条目和列。除了索引以外,这些数据框没有共同的列。
值得注意的是......我正在使用MacBook Pro(2015年初版),配备2.7 GHz双核Intel Core i5(处理器)和8 GB 1867 MHz DDR3(内存)。
head(n=x)
部分(例如x
= 10、1000、10000 等),并记录合并头部后内存使用情况的变化;还要查看合并头部的输出,并确认这确实是你想要的方式。 - krassowski