我希望能够追踪一大批文档上的热门话题,并根据话题提供建议,而不是通常的词袋模型。为了提取话题,我使用自然语言处理技术。
我的问题是,我应该如何持久化这些数据,以便: 1)我可以快速获取每个话题的趋势数据(从原则上讲,每当用户打开一个文档时,该文档中的话题就应该在热度上升) 2)我可以快速比较文档以提供建议(在这里,我考虑使用聚类技术)
更具体地说,我的问题是: 1)我应该采用存储文本挖掘数据的通常方式吗?即为每个文档存储一个主题出现向量,以便稍后测量不同文档之间的欧几里德距离。 2)还有其他方法吗?
我正在寻找特定于Python的解决方案。我已经研究了SQL和NoSQL数据库,以及pytables和h5py,但我不确定如何实现这样的系统。其中一个问题是,我如何处理不断增长的话题词汇表?
非常感谢。
我的问题是,我应该如何持久化这些数据,以便: 1)我可以快速获取每个话题的趋势数据(从原则上讲,每当用户打开一个文档时,该文档中的话题就应该在热度上升) 2)我可以快速比较文档以提供建议(在这里,我考虑使用聚类技术)
更具体地说,我的问题是: 1)我应该采用存储文本挖掘数据的通常方式吗?即为每个文档存储一个主题出现向量,以便稍后测量不同文档之间的欧几里德距离。 2)还有其他方法吗?
我正在寻找特定于Python的解决方案。我已经研究了SQL和NoSQL数据库,以及pytables和h5py,但我不确定如何实现这样的系统。其中一个问题是,我如何处理不断增长的话题词汇表?
非常感谢。