我是一个对R和tm比较新的人,所以在这个练习中有些困难!
我有一个包含客户姓名、城市和国家相关单词的混乱非结构化数据的描述列和另一列售出物品的数量。
**Description Sold Items**
Mrs White London UK 10
Mr Wolf London UK 20
Tania Maier Berlin Germany 10
Thomas Germany 30
Nick Forest Leeds UK 20
Silvio Verdi Italy Torino 10
Tom Cardiff UK 10
Mary House London 5
使用tm包和documenttermmatrix,我能够将每一行拆分成单词,并获取每个单词的频率(即使用该单词的客户数量)。
UK London Germany … Mary
Frequency 4 3 2 … 1
然而,我也想对已售出商品的总数进行汇总。
期望的输出应该是:
UK London Germany … Mary
Frequency 4 3 2 … 1
Sum of Sold Items 60 35 40 … 5
我该如何达到这个结果?