我有一张表,每一行代表一个学生在一门课程中的注册情况,类似于这个例子,但规模要大得多:
我想知道学生们最常一起选修哪些课程的组合。我先从两门课程的组合开始,但也可能想看看三门课程的组合。
我完全不知道这个过程叫什么。
我找到了一个类似的例子,使用了`dplyr`包:https://stackoverflow.com/questions/61613192/r-how-to-find-the-most-frequent-combinations 然而,我不认为这正是我想要的。我想要所有可能的两门课程的组合,当一些学生选修了超过两门课程时。例如,对于学生3,他们会有以下组合:
- BIO101 & ENG201 - BIO101 & HIND101 - BIO101 & CHEM102 - ENG201 & HIND101 - ENG201 & CHEM102 - HIND101 & CHEM102
然后,我会找出所有学生中最常见的组合。
学生 | 课程 |
---|---|
001 | PSYC101 |
001 | CHEM102 |
002 | PSYC101 |
002 | SPAN101 |
002 | BIO101 |
003 | BIO101 |
003 | ENG201 |
003 | HIND101 |
003 | CHEM102 |
004 | PSYC101 |
004 | CHEM102 |
004 | HIND101 |
我完全不知道这个过程叫什么。
我找到了一个类似的例子,使用了`dplyr`包:https://stackoverflow.com/questions/61613192/r-how-to-find-the-most-frequent-combinations 然而,我不认为这正是我想要的。我想要所有可能的两门课程的组合,当一些学生选修了超过两门课程时。例如,对于学生3,他们会有以下组合:
- BIO101 & ENG201 - BIO101 & HIND101 - BIO101 & CHEM102 - ENG201 & HIND101 - ENG201 & CHEM102 - HIND101 & CHEM102
然后,我会找出所有学生中最常见的组合。