哪个SVM示例最适合对普通输入文本进行分类？

Question

哪个SVM示例最适合对普通输入文本进行分类？

machine-learningscikit-learnclassificationsvm

5

我已经查看了各种 SVM 分类工具，主要包括 svmlight、pysvmlight、libsvm 和 scikit-learn SVM 分类器。

每个工具的输入测试文件格式都略有不同，例如：

pysvmlight:

[(0, [(13.0, 1.0), (14.0, 1.0), (173.0, 1.0), (174.0, 1.0)]),
 (0,
  [(9.0, 1.0),
   (10.0, 1.0),
   (11.0, 1.0),
   (12.0, 1.0),
   (16.0, 1.0),
   (19.0, 1.0),
   (20.0, 1.0),
   (21.0, 1.0),
   (22.0, 1.0),
   (56.0, 1.0)]

svmlight

+1 6:0.0342598670723747 26:0.148286149621374 27:0.0570037235976456 31:0.0373086482671729 33:0.0270832794680822 63:0.0317368459004657 67:0.138424991237843 75:0.0297571881179897 96:0.0303237495966756 142:0.0241139382095992 144:0.0581948804675796 185:0.0285004985793364 199:0.0228776475252599 208:0.0366675566391316 274:0.0528930062061687 308:0.0361623318128513 337:0.0374174808347037 351:0.0347329937800643 387:0.0690970538458777 408:0.0288195477724883 423:0.0741629177979597 480:0.0719961218888683 565:0.0520577748209694 580:0.0442849093862884 593:0.329982711875242 598:0.0517245325094578 613:0.0452655621746453 641:0.0387269206869957 643:0.0398205809532254 644:0.0466353065571088 657:0.0508331832990127 717:0.0495981406619795 727:0.104798994968809 764:0.0452655621746453 827:0.0418050310923008 1027:0.05114477444793 1281:0.0633241153685135 1340:0.0657101916402099 1395:0.0522617631894159 1433:0.0471872599750513 1502:0.840963375098259 1506:0.0686138465829187 1558:0.0589627036028818 1598:0.0512079697459134 1726:0.0660884976719923 1836:0.0521934221969394 1943:0.0587388821544177 2433:0.0666767220421155 2646:0.0729483627336339 2731:0.071437898589286 2771:0.0706069752753547 3553:0.0783933439550538 3589:0.0774668403369963

http://svm.chibi.ubc.ca//sample.test.matrix.txt

corner  feature_1   feature_2   feature_3   feature_4
example_11  -0.18   0.14    -0.06   0.54
example_12  0.16    -0.25   0.26    0.33
example_13  0.06    0.0 -0.2    -0.22
example_14  -0.12   -0.22   0.29    -0.01
example_15  -0.20   -0.23   -0.1    -0.71

有没有一种SVM分类器可以接受普通的输入文本并给出分类结果？

- puncrazy

2

scikit-learn不会强制规定格式，但需要一些特征提取代码。请参阅教程。免责声明：我是sklearn的开发人员，我相信其他库也具有类似的功能。 - Fred Foo

@larsmans：非常感谢您，scikit learn提供与svmlight的集成，我检查了scikit learn和svm，但无法找到如何将输入文本转换为特征：值，就像第二种格式一样。您能否就此问题提出一些建议？ - puncrazy

2个回答

1

是的，您可以在scikit-learn中实现这一点。

首先，使用CountVectorizer将文本文档转换为文档词矩阵。（这被称为“词袋”表示法，是从文本中提取特征的一种方法。）文档词矩阵被用作支持向量机或其他分类模型的输入。

以下是来自scikit-learn文档的文档词矩阵简要说明：

在此方案中，特征和样本定义如下：每个单独的令牌出现频率（已标准化或未标准化）被视为一个特征。给定文档的所有令牌频率的向量被视为多元样本。

然而，在这种情况下，使用支持向量机（SVM）可能不是最佳选择。从scikit-learn文档中可以看出：

如果特征数量远大于样本数量，则该方法可能表现不佳。

通常，文档-术语矩阵具有比样本（文档）更多的特征（唯一术语），因此SVM通常不是这种类型问题的最佳选择。

这里有一个课程笔记本在scikit-learn中解释和演示了整个过程，尽管它使用了不同的分类模型（朴素贝叶斯）。

- Kevin Markham

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- CAFEBABE · Accepted Answer

我的回答有两个方面。

一些SVM实现可以直接处理文本数据，例如：https://github.com/timshenkao/StringKernelSVM。此外，LIBSVM也能够处理字符串数据，详情请参见http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#libsvm_for_string_data。直接将SVM用于文本数据的关键是所谓的字符串核。在SVM中使用核来测量不同数据点（即文本文档）之间的距离。一个字符串核的例子是不同文本文档之间的编辑距离，详见http://www.jmlr.org/papers/volume2/lodhi02a/lodhi02a.pdf。

问题是是否使用文本核进行文本分类是一个好主意。

简化支持向量机是一个函数。

f(x) = sgn( <w,phi(x)> +b)

通常情况下，你会拿出你的输入文档，计算它们的词袋表示，然后使用标准的核函数（如线性核函数）。例如：

f(x) = sgn( <w,phi(bag-of-words(x))> +b)

您最有可能需要的是使用将词袋(bag of words)与线性核组合的SVM。从实现方面来说，这很容易，但有一些缺点：

与文本文档相比，单词袋非常紧凑
您无法对文本文档进行长度规范化，但是可以对单词袋进行特征规范化
不将这些步骤分开会使您的代码更难重复使用

两部分的底线：问题不在于SVM，而在于核函数。