我有一个数据集如下所示:
它显示了哪个书店销售了哪本书。
import pandas as pd
books = {'shop': ["A", "B", "C", "D", "E", "A", "B", "C", "D",],
'book_id': [1, 1, 2, 3, 3, 3, 4, 5, 1,]
}
df = pd.DataFrame(books, columns = ['shop', 'book_id'])
以下是打印内容:
shop book_id
0 A 1
1 B 1
2 C 2
3 D 3
4 E 3
5 A 3
6 B 4
7 C 5
8 D 1
在数据集中,
- A店售卖1,3
- B店售卖1,4
- C店售卖2,5
- D店售卖3,1
- E店仅售卖3
以下是所需数据的样例:
result = {'shop_1': ["A", "B", "A", "C", "A", "D", "A", "E",],
'shop_2': ["B", "A", "C", "A", "D", "A", "E", "A",],
'jaccard': [33.3, 33.33, 0, 0, 100, 100, 50, 50,]
}
desired_df = pd.DataFrame(result, columns = ['shop_1', 'shop_2', 'jaccard'])
Print
shop_1 shop_2 jaccard
0 A B 33.30
1 B A 33.33
2 A C 0.00
3 C A 0.00
4 A D 100.00
5 D A 100.00
6 A E 50.00
7 E A 50.00
. . . .
. . . .
. . . .
有人可以帮我实现吗?是否有库可以实现Jaccard指数?