36得票3回答
每个组返回最常见的字符串值

a <- c(rep(1:2,3)) b <- c("A","A","B","B","B","B") df <- data.frame(a,b) > str(b) chr [1:6] "A" "A" "B" "B" "B" "B" a b 1 1 A 2 2 A...

20得票2回答
如何在R中计算一个组内多列的百分比变化?

我有一个数据框,其中包含ID列、日期列(每个ID有12个月份)和23个数字变量。我想要获得每个ID内每个月的百分比变化率。为了获得百分比变化率,我使用quantmod包。 以下是仅包含三列的示例(为简单起见):ID Date V1 V2 V3 1 Jan 2 3 5 1 Feb ...

18得票2回答
维基百科文章摘要

我发现自己不断地需要学习新的东西。我一直在思考如何加速学习新学科的过程。我想,如果我能编写一个程序来解析维基百科文章并移除除最有价值的信息之外的所有内容,那就很有趣了。 我从维基百科上取得了有关PDF的文章,并提取了前100个句子。我为每个句子评分,根据我认为它的价值给出分数。最后,我创建了...

15得票4回答
MySQL ON DUPLICATE KEY UPDATE 对于包含可为空列的唯一键的处理

我们的MySQL Web分析数据库包含一个摘要表,在导入新活动时将其更新。我们使用ON DUPLICATE KEY UPDATE使汇总覆盖早期计算,但由于摘要表唯一键中的某一列是可选的外键,并包含NULL值,因此遇到了困难。 这些NULL表示“不出现”,所有这些情况都是等价的。当然,MySQ...

10得票3回答
对所有列进行汇总

我有以下格式的数据: gen = function () sample.int(10, replace = TRUE) x = data.frame(A = gen(), C = gen(), G = gen(), T = gen()) 我现在想要给每一行附加该行所有元素的总和(我的实际...

10得票6回答
不同分辨率下的数据

我有两个表,记录来自外部源的用户交互统计数据在这些表中不断插入。当用户点击按钮时,该点击的详细信息(用户、点击时间等)被写入其中一个表中。当用户将鼠标悬停在该按钮上时,具体详情被添加到另一个表中。 如果系统中有大量用户不断地与其进行交互,那么就会产生大量数据,并且这些表会变得异常庞大。 当...

9得票5回答
多组列求和

我有一个情况,我的数据框包含图像分析的结果,其中列是图像中特定类别的比例,例如一个名为class_df的示例数据框如下: id A B C D E F 1 0.20 0.30 0.10 0.15 0.25 0.00 2 0.05 0.10 0.05 ...

8得票2回答
在R的data.table中如何计算组合出现的次数

我有两个数据表。我想要计算与另一个表中的表组合匹配的行数。我已经查看了data.table文档,但没有找到答案。我正在使用data.table 1.9.2。 DT1 <- data.table(a=c(3,2), b=c(8,3)) DT2 <- data.table(w=c(3...

7得票3回答
在R中,tapply()函数是否依赖于多个列?

在R中,我有一个包含位置、样本年份和计数的表格。因此, Location sample_year count A 1995 1 A 1995 1 A 2000 3 B 2000 ...

7得票2回答
按照(x,y)分组并总结二进制数据

这是我拥有的一个大文件的前10行:(请注意,这10行中只有一个用户,但我有成千上万个用户) dput(testd) structure(list(user = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L ), otime = structure(c(10...