我是新手使用R语言,正试图解决以下问题:
有一张表格,包含两列books
和readers
,其中books
和readers
分别是书籍和读者的ID:
> books = c (1,2,3,1,1,2)
> readers = c(30, 10, 20, 20, 10, 30)
> bt = data.table(books, readers)
> bt
books readers
1: 1 30
2: 2 10
3: 3 20
4: 1 20
5: 1 10
6: 2 30
对于每一本书对,我需要使用以下算法计算同时阅读这两本书的读者人数:
for each book
for each reader of the book
for each other_book in books of the reader
increment common_reader_count ((book, other_book), cnt)
为了实现上述算法,我需要将这些数据分成两个列表:1)书籍列表,包含每本书的读者,2)读者列表,包含每个读者所读的书籍,例如:
> bookList = list(
+ list(1, list(30, 20, 10)),
+ list(2, list(10, 30)),
+ list(3, list(20))
+ )
>
> readerList = list (
+ list(30, list(1,2)),
+ list(20, list(3,1)),
+ list(10, list(2,1))
+ )
>
问题:
1)从一本书的表中使用哪些函数来构建这些列表?
2)从bookList
和readerList
中如何生成同时阅读这些书籍的读者数量的书籍对?对于上述描述的bt
图书表,结果应为:
((1, 2), 2)
((1,3), 1)
((2,3), 0)
书籍的顺序对结果没有影响,因此例如
(1,2)
和 (2,1)
应缩减为一个。请建议能够解决此问题的函数和数据结构。谢谢!
更新:
理想情况下,我需要得到一个矩阵,其中书籍ID既作为行又作为列。交集表示同时读过这两本书的读者数量。因此,对于上述示例,矩阵应如下所示:
books | 1 | 2 | 3 |
1 | 1 | 2 | 1 |
2 | 2 | 1 | 0 |
3 | 1 | 0 | 1 |
Which means:
book 1 and 2 are read together by 2 readers
book 1 and 3 are read together by 1 reader
book 2 and 3 are read together by 0 readers
如何构建这样的矩阵?
>
和+
。 - Frank