Pandas DataFrame的嵌套（双重）逐行迭代

Question

Pandas DataFrame的嵌套（双重）逐行迭代

11

您好，我正在尝试找到一种向量化（或更有效的）的解决方案来解决迭代问题，但我找到的唯一解决方案需要对带有多个循环的DataFrame进行逐行迭代。由于实际数据文件非常庞大，因此我的当前解决方案实际上是不可行的。如果您想查看，我在最后附上了行分析器输出。实际问题非常复杂，因此我将尝试通过一个简单的例子来解释它（我花了相当长的时间来简化它：）：

假设我们有一个机场，有两条并排的着陆跑道。每架飞机都会降落（到达时间），在其中一条着陆跑道上滑行一段时间，然后起飞（离开时间）。所有信息都存储在一个 Pandas DataFrame 中，并按到达时间排序，如下所示（有关测试的更大数据集，请参见 EDIT2）：

PLANE   STRIP   ARRIVAL   DEPARTURE
0       1       85.00     86.00
1       1       87.87     92.76
2       2       88.34     89.72
3       1       88.92     90.88
4       2       90.03     92.77
5       2       90.27     91.95
6       2       92.42     93.58
7       2       94.42     95.58

寻找两个问题的解决方案：

1. 建立一个事件列表，其中在同一条线上同时存在多架飞机。不包括事件的子集（例如，如果有一个有效的[3,4,5]情况，则不显示[3,4]）。该列表应存储实际DataFrame行的索引。参见函数findSingleEvents()的解决方案（运行时间约为5毫秒）。

2. 建立一个事件列表，在每条线上至少有一架飞机。不计算事件的子集，仅记录具有最大数量飞机的事件。（例如，如果有一个[3,4,5]情况，则不显示[3,4]）。不计算完全发生在单个线路上的事件。该列表应存储实际DataFrame行的索引。参见函数findMultiEvents()的解决方案（运行时间约为15毫秒）。

代码示例：

import numpy as np
import pandas as pd
import itertools
from __future__ import division

data =  [{'PLANE':0, 'STRIP':1, 'ARRIVAL':85.00, 'DEPARTURE':86.00},
         {'PLANE':1, 'STRIP':1, 'ARRIVAL':87.87, 'DEPARTURE':92.76},
         {'PLANE':2, 'STRIP':2, 'ARRIVAL':88.34, 'DEPARTURE':89.72},
         {'PLANE':3, 'STRIP':1, 'ARRIVAL':88.92, 'DEPARTURE':90.88},
         {'PLANE':4, 'STRIP':2, 'ARRIVAL':90.03, 'DEPARTURE':92.77},
         {'PLANE':5, 'STRIP':2, 'ARRIVAL':90.27, 'DEPARTURE':91.95},
         {'PLANE':6, 'STRIP':2, 'ARRIVAL':92.42, 'DEPARTURE':93.58},
         {'PLANE':7, 'STRIP':2, 'ARRIVAL':94.42, 'DEPARTURE':95.58}]

df = pd.DataFrame(data, columns = ['PLANE','STRIP','ARRIVAL','DEPARTURE'])

def findSingleEvents(df):
    events = []
    for row in df.itertuples():
        #Create temporary dataframe for each main iteration
        dfTemp = df[(row.DEPARTURE>df.ARRIVAL) & (row.ARRIVAL<df.DEPARTURE)]
        if len(dfTemp)>1:
            #convert index values to integers from long
            current_event = [int(v) for v in dfTemp.index.tolist()]
            #loop backwards to remove elements that do not comply
            for i in reversed(current_event):
                if (dfTemp.loc[i].ARRIVAL > dfTemp.DEPARTURE).any():
                    current_event.remove(i)
            events.append(current_event)
    #remove duplicate events
    events = map(list, set(map(tuple, events)))
    return events

def findMultiEvents(df):
    events = []
    for row in df.itertuples():
        #Create temporary dataframe for each main iteration
        dfTemp = df[(row.DEPARTURE>df.ARRIVAL) & (row.ARRIVAL<df.DEPARTURE)]
        if len(dfTemp)>1:
            #convert index values to integers from long
            current_event = [int(v) for v in dfTemp.index.tolist()]
            #loop backwards to remove elements that do not comply
            for i in reversed(current_event):
                if (dfTemp.loc[i].ARRIVAL > dfTemp.DEPARTURE).any():
                    current_event.remove(i)
            #remove elements only on 1 strip
            if len(df.iloc[current_event].STRIP.unique()) > 1:
                events.append(current_event)
    #remove duplicate events
    events = map(list, set(map(tuple, events)))
    return events

print findSingleEvents(df[df.STRIP==1])
print findSingleEvents(df[df.STRIP==2])
print findMultiEvents(df)

验证输出：

[[1, 3]]
[[4, 5], [4, 6]]
[[1, 3, 4, 5], [1, 4, 6], [1, 2, 3]]

显然，这些解决方案既不高效也不优雅。对于我拥有的大型数据帧，运行这个可能需要数小时。我思考了向量化方法很长一段时间，但没有想到什么可靠的方法。欢迎任何指针/帮助！我也可以接受基于Numpy/Cython/Numba的方法。

谢谢！

PS：如果你想知道我将如何处理这些列表：我将为每个EVENT分配一个EVENT编号，并构建一个单独的数据库来合并上述数据和EVENT编号作为单独的列，以便用于其他用途。对于Case 1，它看起来会像这样：

EVENT    PLANE   STRIP   ARRIVAL   DEPARTURE
0        4       2       90.03     92.77
0        5       2       90.27     91.95
1        5       2       90.27     91.95
1        6       2       92.42     95.58

编辑： 修正了代码和测试数据集。

编辑2： 使用以下代码生成一个包含1000行（或更多）的DataFrame，用于测试目的。（根据@ImportanceOfBeingErnest的建议）

import random
import pandas as pd
import numpy as np

data =  []
for i in range(1000):
    arrival = random.uniform(0,1000)
    departure = arrival + random.uniform(2.0, 10.0)
    data.append({'PLANE':i, 'STRIP':random.randint(1, 2),'ARRIVAL':arrival,'DEPARTURE':departure})

df = pd.DataFrame(data, columns = ['PLANE','STRIP','ARRIVAL','DEPARTURE'])
df = df.sort_values(by=['ARRIVAL'])
df = df.reset_index(drop=True)
df.PLANE  = df.index

EDIT3：

已修改的被接受答案。原先被接受的答案不能删除事件的子集。修改后的版本满足规则“（例如，如果存在有效的[3,4,5]情况，则不显示[3,4]）”

def maximal_subsets_modified(sets):
    sets.sort()
    maximal_sets = []
    s0 = frozenset()
    for s in sets:
        if not (s > s0) and len(s0) > 1:
            not_in_list = True
            for x in maximal_sets:
                if set(x).issubset(set(s0)):
                    maximal_sets.remove(x)
                if set(s0).issubset(set(x)):
                    not_in_list = False
            if not_in_list:
                maximal_sets.append(list(s0))
        s0 = s
    if len(s0) > 1:
        not_in_list = True
        for x in maximal_sets:
            if set(x).issubset(set(s0)):
                maximal_sets.remove(x)
            if set(s0).issubset(set(x)):
                not_in_list = False
        if not_in_list:
            maximal_sets.append(list(s0))
    return maximal_sets

def maximal_subsets_2_modified(sets, d):
    sets.sort()
    maximal_sets = []
    s0 = frozenset()
    for s in sets:
        if not (s > s0) and len(s0) > 1 and d.loc[list(s0), 'STRIP'].nunique() == 2:
            not_in_list = True
            for x in maximal_sets:
                if set(x).issubset(set(s0)):
                    maximal_sets.remove(x)
                if set(s0).issubset(set(x)):
                    not_in_list = False
            if not_in_list:
                maximal_sets.append(list(s0))
        s0 = s
    if len(s0) > 1 and d.loc[list(s), 'STRIP'].nunique() == 2:
        not_in_list = True
        for x in maximal_sets:
            if set(x).issubset(set(s0)):
                maximal_sets.remove(x)
            if set(s0).issubset(set(x)):
                not_in_list = False
        if not_in_list:
            maximal_sets.append(list(s0))
    return maximal_sets

# single

def hal_3_modified(d):
    sets = np.apply_along_axis(
        lambda x: frozenset(d.PLANE.values[(d.PLANE.values <= x[0]) & (d.DEPARTURE.values > x[2])]), 
        1, d.values
    )
    return maximal_subsets_modified(sets)

# multi

def hal_5_modified(d):
    sets = np.apply_along_axis(
        lambda x: frozenset(d.PLANE.values[(d.PLANE.values <= x[0]) & (d.DEPARTURE.values > x[2])]), 
        1, d.values
    )
    return maximal_subsets_2_modified(sets, d)

- marillion

如果你想要提高效率，我建议你考虑使用其他数据结构。不过，这里有一些真正的“pandas”巫师，也许他们可以在pandas中提供一些高效的建议。 - juanpa.arrivillaga

@juanpa.arrivillaga 我非常清楚这种低效率的问题 :) 我也看过 itertuples() 和 iterrows()，但我无法弄清如何实现所需的嵌套循环。 - marillion

@juanpa.arrivillaga，结果发现我的低效的基于iloc的迭代方式本来就没有正确设置。我需要先解决这个问题。 - marillion

1

它们的范围从0到770万。它们是一个为期3个月的时间段的秒数，在数据收集期开始时初始化为0秒。 - marillion

“巨大”有多大？df有多少行？飞机可以停留在跑道上的最长时间是多久？ - ImportanceOfBeingErnest

显示剩余6条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Haleemur Ali · Accepted Answer

我使用了DataFrame.apply重写了解决方案，而不是迭代，并尽可能使用numpy数组进行优化。我使用了frozenset，因为它们是不可变和可哈希的，因此Series.unique可以正常工作。Series.unique无法处理类型为set的元素。

此外，我发现d.loc[list(x), 'STRIP'].nunique()比d.loc[list(x)].STRIP.nunique()稍微快一些。我不确定为什么，但我在下面的解决方案中使用了更快的语句。

算法简述：

对于每一行，创建一个索引集合，该集合的索引小于（或等于）当前索引，且其Departure大于当前Arrival。这将产生一系列集合。

返回不是其他集合子集的唯一集合（对于第二个算法，还要过滤掉两个STRIP都被集合引用的情况）

（更新）第二次改进：

通过降到numpy层并使用np.apply_along_axis而不是使用df.apply进行了一项小的改进。这是可能的，因为PLANE始终等于数据帧索引，我们可以使用df.values访问底层矩阵。

我发现使用返回最大子集的列表推导式有一个重大的改进。

[list(x) for x in sets if ~np.any(sets > x)]

上述是一个O(n^2)的操作。对于小数据集，这非常快。但是对于大数据集，该语句成为瓶颈。为了优化它，首先对“sets”进行排序，并再次循环遍历元素以找到最大子集。一旦排序完成，只需检查elem[n]是否不是elem[n+1]的子集即可确定elem[n]是否为最大子集。排序过程使用<操作比较两个元素。

时间：

虽然我的原始实现相对于OP的尝试显着提高了性能，但该算法是指数级的，如下图所示。

我仅提供findMultiEvents、hal_2和hal_5的计时。findSinglEvents、hal_1和hal_3的相对性能也类似可比较。

向下滚动以查看基准测试代码。

请注意，当发现findMumtiEvents和hal_2的效率呈指数级下降时，我提前停止了基准测试。

实现

改进实现：

def maximal_subsets(sets):
    sets.sort()
    maximal_sets = []
    s0 = frozenset()
    for s in sets[::-1]:
        if s0 > s or len(s) < 2:
            continue
        maximal_sets.append(list(s))
        s0 = s
    return maximal_sets

def maximal_subsets_2(sets, d):
    sets.sort()
    maximal_sets = []
    s0 = frozenset()
    for s in sets[::-1]:
        if s0 > s or len(s) < 2 or d.loc[list(s), 'STRIP'].nunique() < 2:
            continue
        maximal_sets.append(list(s))
        s0 = s
    return maximal_sets

# single
def hal_3(d):
    sets = np.apply_along_axis(
        lambda x: frozenset(d.PLANE.values[(d.PLANE.values <= x[0]) & (d.DEPARTURE.values > x[2])]), 
        1, d.values
    )
    return maximal_subsets(sets)
# multi
def hal_5(d):
    sets = np.apply_along_axis(
        lambda x: frozenset(d.PLANE.values[(d.PLANE.values <= x[0]) & (d.DEPARTURE.values > x[2])]), 
        1, d.values
    )
    return maximal_subsets_2(sets, d)

原始实现：

# findSingleEvents
def hal_1(d):
    sets = d.apply(
       lambda x: frozenset(
           d.index.values[(d.index.values <= x.name) & (d.DEPARTURE.values > x.ARRIVAL)]
       ),
       axis=1
    ).unique()
    return [list(x) for x in sets if ~np.any(sets > x) and len(x) > 1]

# findMultiEvents
def hal_2(d):
    sets = d.apply(
        lambda x: frozenset(
            d.index.values[(d.index.values <= x.name) & (d.DEPARTURE.values > x.ARRIVAL)]
        ),
        axis=1
    ).unique()
    return [list(x) for x in sets 
            if ~np.any(sets > x) and
               len(x) > 1 and 
               d.loc[list(x), 'STRIP'].nunique() == 2]

输出:

输出结果与原作者的实现完全相同。

hal_1(df[df.STRIP==1])
[[1, 3]]
hal_1(df[df.STRIP==2])
[[4, 5], [4, 6]]
hal_2(df)
[[1, 2, 3], [1, 3, 4, 5], [1, 4, 6]]
hal_3(df[df.STRIP==1])
[[1, 3]]
hal_3(df[df.STRIP==2])
[[4, 5], [4, 6]]
hal_5(df)
[[1, 2, 3], [1, 3, 4, 5], [1, 4, 6]]

测试系统细节：

os: windows 10
python: 3.6 (Anaconda)
pandas: 0.22.0
numpy: 1.14.3

基准测试代码：

import random

def mk_random_df(n):
    data =  []
    for i in range(n):
        arrival = random.uniform(0,1000)
        departure = arrival + random.uniform(2.0, 10.0)
        data.append({'PLANE':i, 'STRIP':random.randint(1, 2),'ARRIVAL':arrival,'DEPARTURE':departure})

    df = pd.DataFrame(data, columns = ['PLANE','STRIP','ARRIVAL','DEPARTURE'])
    df = df.sort_values(by=['ARRIVAL'])
    df = df.reset_index(drop=True)
    df.PLANE = df.index
    return df

dfs = {i: mk_random_df(100*(2**i)) for i in range(0, 10)}
times, times_2, times_5 = [], [], []

for i, v in dfs.items():
    if i < 5:
        t = %timeit -o -n 3 -r 3 findMultiEvents(v)
        times.append({'size(pow. of 2)': i, 'timings': t})

for i, v in dfs.items():
    t = %timeit -o -n 3 -r 3 hal_5(v)
    times_5.append({'size(pow. of 2)': i, 'timings': t})

for i, v in dfs.items():
    if i < 9:
        t = %timeit -o -n 3 -r 3 hal_2(v)
        times_2.append({'size(pow. of 2)': i, 'timings': t})