有没有可能微调FastText模型?

3

我正在使用FastText进行文本相似度项目的开发。我找到了一个基本的训练模型的例子:

from gensim.models import FastText

model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1)

我理解,由于我指定了向量和ngram大小,这里的模型是从头开始训练的,如果数据集很小,我会期待出色的结果。
我发现的另一个选项是加载原始的维基百科模型,这是一个巨大的文件:
from gensim.models.wrappers import FastText

model = FastText.load_fasttext_format('wiki.simple')

我的问题是,我能否加载维基百科或其他模型,并使用我的数据集进行微调?
1个回答

4
如果您有一个标记好的数据集,那么您应该可以对其进行微调。这个GitHub issue解释了您需要使用pretrainedVectors选项。您需要从Wikipedia预训练向量开始,然后在您的数据集上进行训练。看起来gensim可以做到这一点,但根据这个GH issue,有些bug存在。

我想在领域语料库上对fasttext嵌入(无监督)进行微调,我该如何实现? - Hari Prasad
@HariPrasad 看一下我发的第一个链接。FasText不支持这个功能。 - Sam H.

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接