使用 .loc
对齐帧进行设置并不 intrinsically 缓慢,虽然它确实要经过一些代码来 cover 很多 case,所以在紧密循环中使用可能不是理想的选择。FYI,此示例与第二个示例略有不同。
In [1]: import numpy as np
In [2]: import pandas as pd
In [3]: from pandas import DataFrame
In [4]: df = DataFrame(1.,index=list('abcdefghij'),columns=[0,1,2])
In [5]: df
Out[5]:
0 1 2
a 1 1 1
b 1 1 1
c 1 1 1
d 1 1 1
e 1 1 1
f 1 1 1
g 1 1 1
h 1 1 1
i 1 1 1
j 1 1 1
[10 rows x 3 columns]
In [6]: df2 = DataFrame(0,index=list('afg'),columns=[1,2])
In [7]: df2
Out[7]:
1 2
a 0 0
f 0 0
g 0 0
[3 rows x 2 columns]
In [8]: df.loc[df2.index,df2.columns] = df2
In [9]: df
Out[9]:
0 1 2
a 1 0 0
b 1 1 1
c 1 1 1
d 1 1 1
e 1 1 1
f 1 0 0
g 1 0 0
h 1 1 1
i 1 1 1
j 1 1 1
[10 rows x 3 columns]
这里提供一种替代方案,它可能符合您的数据模式,如果更新(您的小框架)几乎是独立的,则可以使用这种方法(如果您不是在更新大框架,然后挑选一个新的子框架进行更新等 - 如果这是您的模式,则使用.loc
是正确的)。
不要更新大框架,而是使用来自大框架的列更新小框架,例如:
In [10]: df = DataFrame(1.,index=list('abcdefghij'),columns=[0,1,2])
In [11]: df2 = DataFrame(0,index=list('afg'),columns=[1,2])
In [12]: needed_columns = df.columns-df2.columns
In [13]: df2[needed_columns] = df.reindex(index=df2.index,columns=needed_columns)
In [14]: df2
Out[14]:
1 2 0
a 0 0 1
f 0 0 1
g 0 0 1
[3 rows x 3 columns]
In [15]: df3 = DataFrame(0,index=list('cji'),columns=[1,2])
In [16]: needed_columns = df.columns-df3.columns
In [17]: df3[needed_columns] = df.reindex(index=df3.index,columns=needed_columns)
In [18]: df3
Out[18]:
1 2 0
c 0 0 1
j 0 0 1
i 0 0 1
[3 rows x 3 columns]
当你需要时将所有内容合并在一起(在此期间它们被保存在列表中,或者请参见下面的评论,在创建这些子框架时可以将它们移动到外部存储器中,然后在连接步骤之前读回)。
In [19]: pd.concat([ df.reindex(index=df.index-df2.index-df3.index), df2, df3]).reindex_like(df)
Out[19]:
0 1 2
a 1 0 0
b 1 1 1
c 1 0 0
d 1 1 1
e 1 1 1
f 1 0 0
g 1 0 0
h 1 1 1
i 1 0 0
j 1 0 0
[10 rows x 3 columns]
这种模式的优美之处在于,它可以轻松扩展到使用实际的数据库(或者更好的是 HDFStore
)来存储“数据库”,然后根据需要创建/更新子框架,完成后将其写入新的存储。
我经常使用这种模式,不过实际上是用面板 (Panels) 实现的。
- 对数据的某个子集执行计算,并将每个子集单独写入一个文件
- 最后将它们全部读入并连接(在内存中),然后写出一个巨大的新文件。连接步骤可以一次性在内存中完成,或者如果任务真正巨大,则可以迭代地完成。
我可以使用多进程来执行计算并将每个单独的面板写入一个文件,因为它们都是完全独立的。唯一有依赖关系的部分是连接。
这本质上是一种映射-归约模式。