我使用正则表达式从Twitter的流中收集了一堆问题,以选择包含以问题类型开头的文本(例如:“who”,“what”,“when”,“where”等)并以问号结束的推文。
因此,我最终在数据库中收到了几个无用的问题,例如:“谁关心?”、“这是什么?”等,以及一些有用的问题,例如:“篮球比赛有多频繁打架?”、“北极熊重多少?”等
但是,我只对有用的问题感兴趣。
我收集了大约3000个问题,其中约2000个不太有用,约1000个有用,并已经进行了手动标记。我试图使用朴素贝叶斯分类器(随NLTK提供的)来尝试自动分类问题,以便不必手动选择有用的问题。
首先,我尝试将问题的前三个单词作为特征,但这并没有帮助太多。在100个问题中,分类器预测有用的问题仅约为10%-15%正确。它还未能从它预测为无用的问题中挑选出有用的问题。
我已经尝试了其他特征,例如:包括所有单词,包括问题的长度,但结果没有显着变化。
您有关于我该如何选择特征或继续进行的任何建议吗?
谢谢。