如何在机器学习的训练集中结合文本和数值特征?

3

我正在尝试基于数字特征和文本特征来预测社交网络帖子的点赞数。现在我有一个包含必需特征的数据框,但是我不知道该如何处理帖子的文本数据。我应该将其向量化/采取其他措施以获得适当的训练矩阵吗?我打算使用sklearn中的LinearSVC进行分析。

我的数据表格长这样


你计划使用什么机器学习方法?如果你处理的是文本特征,SVMs可能是一个不错的选择。 - Tim Biegeleisen
抱歉,我之前没有提到,是的,我会使用SVM。线性支持向量分类器(Linear SVC)。 - dbulgakov
1个回答

0

有很多不同的方法可以将文本特征转换为数字特征。

其中最常见的方法之一是词袋模型。您可以将文本转换为一个数组,其中包含每个单词的出现次数。

如果您正在使用scikit-learn,则建议您阅读他们的文本特征提取用户指南

此外,还可以查看NLTK工具包,以了解更复杂的处理文本数据的方法。


谢谢您的回答。我明白我需要一个单词袋。我已经将帖子的文本数据分成了单词并进行了预处理。我不知道接下来该怎么做,如何将它们合并成一个矩阵以供未来的SVM分析使用。 - dbulgakov
明白了你的想法,并在我的代码中发现了一些错误。谢谢你的回答 :) - dbulgakov

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接