我正在使用样本数据集学习聚类,该数据集包含关键字的出现次数。由于所有不同关键字的出现次数都是数字,所以不缩放值并直接使用它们是否可行?我在互联网上读了几篇文章,强调缩放很重要,因为它会调整频率的相关性。由于大多数频率为0(95%以上),z分数缩放将改变分布形状,这可能是一个问题,因为我正在改变数据的性质。我考虑根本不更改值以避免这种情况。那么这会影响我从聚类中获得的结果质量吗?
可能这取决于分类算法。我只熟悉SVM。请参见第2.2章节以了解缩放的解释
特征类型(单词计数)并不重要。特征范围应该更或多或少相似。如果您的文本中“尊严”的计数为10,而“有”为100000000,则(至少在SVM上),这些特征的结果将不太准确,因为当您将两个计数缩放到类似的范围时,结果会更准确。
不需要缩放的情况是那些数据已经隐式缩放的情况,例如特征是图像中的像素值。数据已经缩放到0-255的范围内。
*基于距离的算法需要进行缩放 *在基于树的算法中不需要进行缩放
但是,如果可能的话,对数据进行缩放并训练模型是有好处的。在进行缩放之前和之后,比较模型准确度和其他评估指标,并选择最佳可能性。这是我所知道的。