我有一个包含10列的数据集。第一列是唯一标识符。另外9列是相关属性,假设它们都是整数。如果需要,可以将数据轻松地转换为键值对。
例如:
id|attr1|attr2|attr3|...
a | 2 | 5 | 7 |...
b | 3 | 1 |null |...
c | 2 |null |null |...
d | 1 | 2 | 5 |...
e | 2 | 1 | 3 |...
我主要寻找长度至少为一对的最频繁组合。因此,我的输出将会是:
unq | frequency
1,2 | 2
1,3 | 2
1,5 | 1
2,3 | 1
2,5 | 2
2,7 | 1
1,2,3 | 1
1,2,5 | 1
2,5,7 | 1
(我手动完成了这个过程——希望没有错误)- 配对的顺序并不重要。
2,5,7 = 5,2,7 = 7,5,2等等。
有什么想法吗?我可以使用不同的工具。我可以访问R,Excel,SQL Server,MySQL等等。
Excel
是首选但不是必需的!
1 2 5 1,2 1,5 2,5 1,2,5
所以,唯一符合“至少一对”的是1,2 1,5 2,5 1,2,5
这有帮助吗?如果没有,请随时再问。我想在我的回答中清楚明白。 - elgabito