Liblinear如何使用

4
我在机器学习和文本挖掘方面还比较新手。我注意到了一个名为Liblinear的Ruby库https://github.com/tomz/liblinear-ruby-swig
目前,我希望训练这个软件,以识别一段文本是否提到与自行车相关的任何内容。
请问有人可以指出我应该遵循哪些步骤(例如:如何预处理文本),分享资源,并最好分享一个简单的示例来帮助我入门吗?
非常感谢您的帮助!
1个回答

2
经典方法如下:
  1. 收集一组代表性的输入文本,每个文本都标记为相关/不相关。
  2. 将样本分成训练集和测试集。
  3. 从训练集的所有文档中提取所有术语,称之为词汇表 V
  4. 对于训练集中的每个文档,将其转换为一个布尔向量,其中第 i 个元素为真/1,如果词汇表中的第 i 个术语出现在该文档中,则为真/1。
  5. 将向量化的训练集输入到学习算法中。

现在,要分类一个文档,请像步骤4那样将其向量化,并将其馈送给分类器以获取相关/不相关标签。将其与实际标签进行比较,以查看是否正确分类。使用这种简单方法应该能够获得至少80%的准确率。

要改进此方法,请用术语计数替换布尔值,除以文档长度进行归一化,或者更好地使用tf-idf分数。


谢谢您,虽然我希望能有更多实际的例子来预处理文档... - mabounassif

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接