NLTK词性标注中的占位符翻译

3
有没有办法使用NLTK显示给定文本中的哪些单词是“填充词”?如果没有,有谁知道我可以在哪里获取英语填充词的单词列表?谢谢
已解决:from nltk.corpus import stopwords
1个回答

3
NLTK本身并没有提供这样的列表,但是其他地方可以找到很多。
存在相当数量的来源:使用“profanity”、“badwords.txt”或“blacklists.txt”进行单词列表的Web搜索会产生许多来源。 在我们公司的情况下,我们最终创建了自己的列表,并根据需要添加。根据您的受众,必须微调和调整列表。

最后,即使这个SO问题被关闭(关于php),我发现参考资料和讨论非常有用。

更新:你想要的是停用词列表

  1. 尝试:http://www.ranks.nl/resources/stopwords.html
  2. MIT也维护着一个停用词列表

希望能对您有所帮助。


显然,expletive这个词也代表着脏话,我的意思不是脏话,而是填充词,有没有办法获取这样的列表?或者NLTK是否提供了它? - Mirko
根据您的澄清,我更新了我的答案。 - Ram Narasimhan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接