我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习,然后自动分类新的文本。 是否有人能建议这样的算法,并且可能有实现它的.NET库?
我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习,然后自动分类新的文本。 是否有人能建议这样的算法,并且可能有实现它的.NET库?
对于自动文本分类,有多种方法可供选择。朴素贝叶斯分类器可能是其中最简单的一个。另一个方法是K最近邻算法。您可以使用这个谷歌答案中的文本分类帮助您。
请观看我的视频系列,了解与此完全相关的内容。
http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html
分类在第5个视频中,但其他视频可能会帮助您更快地上手。
所有内容都基于FOSS程序RapidMiner。
请查看scikit learn的这个示例。该示例应用了许多不同的算法,因此您可以比较结果。