如何将不同的自然语言处理特征结合起来用于机器学习？

Question

如何将不同的自然语言处理特征结合起来用于机器学习？

machine-learningnlpsimilarityknnfeature-selection

4

我正在尝试使用不同的NLP特征进行KNN学习。例如，我想使用词袋和局部POS标记。

在单个特征上，我有一些计算相似性的想法。比如使用余弦相似度来计算词袋向量的计数，或者使用汉明距离来计算POS标记。

然而，我不知道如何将两者结合起来。在这个领域里，人们通常怎么做呢？能否有人帮助我？

谢谢您提前的帮助。

- enchy

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sicco · Accepted Answer

我会使用简单的线性组合来处理这两个特征。因此，您可以使用余弦相似度分别比较词袋向量和POS标签的汉明距离，然后将两种结果取平均值。如果余弦相似度和汉明距离的比较结果如下所示：

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red

然后根据排名得分，最终排名将如下（当然您可以更改排名得分，例如使用指数比例尺，以便更加强调高排名标签）：（得分越低越好）：

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

因此输出标签将是蓝色。在这种情况下，线性组合对余弦相似度输出和汉明距离输出分别施加50%的权重。您可以使用不同的权重（例如，70%余弦，30%汉明）进行测试，以找到两个度量之间最佳平衡点。