我目前正在使用spaCy来确定两个字符串之间的语义相似性。它表现良好,只需要几行代码,所有的工作都在幕后完成:
>>> import spacy
>>> nlp = spacy.load('en')
>>> nlp('string').similarity(nlp('another string'))
0.796
然而,这需要大约 600MB 的模块数据。由于我正在 Heroku 上托管,这远远超过可用的 Slug 大小。我正在寻找其他托管方案,但是否有其他框架可以使用呢?我不需要 spacy 的 “工业强度”,但其他框架似乎效果不佳/实现速度不够快。
python -m spacy.en.download glove
。如果仅此就花费了600mb,那么我不确定是否有其他选择,因为大多数存储空间都被存储在spaCy中的近13,000个词汇的向量所占用,任何更少的数据都会导致更差的准确性。 - spicypumpkin