常见的方法是使用词袋模型(http://en.wikipedia.org/wiki/Bag_of_words_model),分类器会学习文本中单词的出现情况,这种方法简单但效果惊人。此外,这里有一个类似的问题:如何使用Scikit Learn SVM准备文本分类数据。
您代表文档中出现的术语作为向量中的权重,其中每个索引位置是术语的“权重”。例如,如果我们假设一个文档“hello world”,并将位置0与“hello”的重要性相关联,并将位置1与“world”的重要性相关联,并且我们将重要性测量为术语出现的次数,则该文档被视为d =(1,1)。同时,仅说“hello”的文档将是(1,0)。此表示可以基于文档中术语重要性的任何度量进行,其中术语频率(如@Pedrom建议的那样)是最简单的选项。最常见但足够简单的技术是应用TF-IDF,它结合了术语在文档中的常见程度以及在集合中的稀有程度。希望这可以帮助到您,