我想把一系列的句子分成单独的词,也就是对文本进行分词。
我找到了一个名为splitstackshape
的R包,它能够完成我想要的工作,但是它将输出截断为前5行和后5行。
无论如何,这就是我的需求:
id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis
4 nunc fringilla sodales
5 Etiam tempor ligula vitae
6 pellentesque dictum
7 Quisque non justo scelerisque
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa
输出:
id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...
也就是说,我需要单独的单词行,但同时还需要它所属句子的ID。
我尝试使用 cSplit(data, "text", " ", "long")
,但它会截断..
更新。供您参考,这里 是如何反向操作的