如何将不同的自然语言处理特征结合起来用于机器学习?

4
我正在尝试使用不同的NLP特征进行KNN学习。例如,我想使用词袋和局部POS标记。
在单个特征上,我有一些计算相似性的想法。比如使用余弦相似度来计算词袋向量的计数,或者使用汉明距离来计算POS标记。
然而,我不知道如何将两者结合起来。在这个领域里,人们通常怎么做呢?能否有人帮助我?
谢谢您提前的帮助。
1个回答

2

我会使用简单的线性组合来处理这两个特征。因此,您可以使用余弦相似度分别比较词袋向量和POS标签的汉明距离,然后将两种结果取平均值。如果余弦相似度和汉明距离的比较结果如下所示:

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red

然后根据排名得分,最终排名将如下(当然您可以更改排名得分,例如使用指数比例尺,以便更加强调高排名标签):(得分越低越好):

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

因此输出标签将是蓝色。在这种情况下,线性组合对余弦相似度输出和汉明距离输出分别施加50%的权重。您可以使用不同的权重(例如,70%余弦,30%汉明)进行测试,以找到两个度量之间最佳平衡点。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接