我试图创建一个自己的简单功能选择算法。我要处理的数据集在这里(非常著名的数据集)。有人可以指导我如何做吗?
我计划编写一个文本分类的特征排名算法,用于情感分析电影评论,将它们分类为正面或负面。
所以我的问题是如何针对文本数据集编写一个简单的特征选择算法。
我试图创建一个自己的简单功能选择算法。我要处理的数据集在这里(非常著名的数据集)。有人可以指导我如何做吗?
我计划编写一个文本分类的特征排名算法,用于情感分析电影评论,将它们分类为正面或负面。
所以我的问题是如何针对文本数据集编写一个简单的特征选择算法。
卡方检验
互信息
词频
等等。如果您有时间,请阅读这篇论文:文本分类中特征选择的比较研究,这会对您有很大帮助。
实际实现取决于如何预处理数据。基本上是保留计数,无论是哈希表还是数据库。
我目前使用的方法是:
计算每个类别数据的平均值和方差。一个好的特征候选应该具有小的方差,并且平均值应该与其他类别的平均值不同。
目前只有不到50个特征,我手动选择它们。为了自动化这个过程,可以计算所有类别平均值的方差,并将更高的优先级赋予那些方差较大的特征。然后,首先选择那些在一个类别内方差较小的特征。
当然,这并不能消除冗余特征。
特征选择方法分为四组:
特征选择最简单的方法是过滤方法,相对于其他方法非常快。
以下是其中一些过滤方法:
在这里我也用了混合方法来进行文本分类的特征选择。查看我的文章