sm
/md
/lg
是模型的尺寸大小(分别为小、中、大)。
正如您链接到的模型页面所述:
模型的差异主要在统计方面。一般来说,我们希望更大的模型在总体上更“好”和更准确。最终,这取决于您的用例和要求。我们建议从默认模型开始(下面标有星号)。
值得一提的是,sm
模型是默认模型(如上所述)。
区别在于预测的准确性。
但是,您可以在spaCy文档中的比较中看到,差异非常小。
en_core_web_lg
(788 MB) 与 en_core_web_sm
(10 MB) 的比较:
所有这些都是在en_core_web_lg
大79倍的情况下完成的,因此加载速度更慢。
我建议在开发时使用en_core_web_sm
,然后在生产中切换到更大的模型。只需更改加载的模型即可轻松切换。
nlp = spacy.load("en_core_web_lg")
_sm
开始,因为 SpaCy 推荐使用这个模型。这个模型只有 29 兆字节,而_lg
则超过了 800 兆字节。 - AKX