有没有可能微调FastText模型？

Question

3

我正在使用FastText进行文本相似度项目的开发。我找到了一个基本的训练模型的例子：

from gensim.models import FastText

model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1)

我理解，由于我指定了向量和ngram大小，这里的模型是从头开始训练的，如果数据集很小，我会期待出色的结果。

我发现的另一个选项是加载原始的维基百科模型，这是一个巨大的文件：

from gensim.models.wrappers import FastText

model = FastText.load_fasttext_format('wiki.simple')

我的问题是，我能否加载维基百科或其他模型，并使用我的数据集进行微调？

- Luis Ramon Ramirez Rodriguez

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sam H. · Accepted Answer

如果您有一个标记好的数据集，那么您应该可以对其进行微调。这个GitHub issue解释了您需要使用pretrainedVectors选项。您需要从Wikipedia预训练向量开始，然后在您的数据集上进行训练。看起来gensim可以做到这一点，但根据这个GH issue，有些bug存在。