SVM分类器的训练(词嵌入 vs 句子嵌入)

3

我想尝试不同的嵌入方法,例如Word2Vec、ELMo和BERT,但我有些困惑该使用词嵌入还是句子嵌入,以及为什么要这么做。我将使用这些嵌入作为特征输入到SVM分类器中。

谢谢。

1个回答

2

虽然这两种方法对不同的数据集都可以高效处理,但是一般而言,我建议你在输入较少单词时使用单词嵌入(word embeddings),而在输入更长的文本(例如大段落)时使用句子嵌入(sentence embeddings)。


谢谢您的回答。如果我使用词嵌入,每个输入将具有不同的长度,我应该用零填充它们吗? - NST
1
它并不完全是这样的,根据我所知的大多数词嵌入系统,您需要将可能的单词总数定义为输入维度。例如,请参见此链接:https://github.com/Eligijus112/word-embedding-creation/blob/master/master.py#L51 - Alex Metsai

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接