48得票2回答
Python Pandas,DF.groupby().agg(),agg()中的列引用 (注:这是一个提问标题,无需回答)

针对一个具体的问题,假设我有一个名为 DF 的 DataFrame。 word tag count 0 a S 30 1 the S 20 2 a T 60 3 an T 5 4 the T ...

23得票2回答
使用ddply + summarize对大量列重复应用相同的统计函数

好的,这是相继提出的第二个R问题。 我的数据: Timestamp St_01 St_02 ... 1 2008-02-08 00:00:00 26.020 25.840 ... 2 2008-02-08 00:10:00 25.985 25.790 ... 3...

15得票1回答
pandas:获取所有分组值并存入数组

我相信这个问题以前已经被问过了,如果有重复的话请见谅。假设我有以下数据框:df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data': range(6)}, columns=['key'...

10得票2回答
如何使用dplyr计算两个分组变量的加权平均值

我知道这一定很简单,但我找不到正确的dplyr命令来完成这个任务。假设我想按两个变量对数据集进行分组,然后总结每行的计数。我们可以使用以下代码:mtcars %>% group_by(cyl, mpg) %>% summarize(Count = n()) 这将生成一个数据框,包含...

7得票2回答
以编程方式调用 group_by() 以处理不同的变量

使用dplyr,我想按一个可变的变量进行汇总(例如在循环或应用程序风格命令中)。直接输入名称可以正常工作: library(dplyr) ChickWeight %>% group_by( Chick, Diet ) %>% summarise( mw = mean( weigh...

7得票1回答
使用groupby、expanding和自定义函数

我有一个包含truthIds和trackIds的数据帧: truthId = ['A', 'A', 'B', 'B', 'C', 'C', 'A', 'C', 'B', 'A', 'A', 'C', 'C'] trackId = [1, 1, 2, 2, 3, 4, 5, 3, 2, 1, ...

7得票2回答
使用Pandas GroupBy查找每个组的一半

我需要使用groupby选取数据框的一半,其中每个组的大小未知且可能在不同组之间变化。例如: index summary participant_id 0 130599 17.0 13 1 130601 18.0 ...

7得票4回答
分割-应用-组合在地理距离计算中的应用

我已经从人口普查局下载了美国所有城镇和城市等的列表。以下是一个随机样本: dput(somewhere) structure(list(state = structure(c(30L, 31L, 5L, 31L, 24L, 36L, 13L, 21L, 6L, 10L, 31L, 28L,...