如何在机器学习的训练集中结合文本和数值特征？

Question

3

我正在尝试基于数字特征和文本特征来预测社交网络帖子的点赞数。现在我有一个包含必需特征的数据框，但是我不知道该如何处理帖子的文本数据。我应该将其向量化/采取其他措施以获得适当的训练矩阵吗？我打算使用sklearn中的LinearSVC进行分析。

我的数据表格长这样

- dbulgakov

你计划使用什么机器学习方法？如果你处理的是文本特征，SVMs可能是一个不错的选择。 - Tim Biegeleisen

抱歉，我之前没有提到，是的，我会使用SVM。线性支持向量分类器（Linear SVC）。 - dbulgakov

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- João Almeida · Answer 1

有很多不同的方法可以将文本特征转换为数字特征。

其中最常见的方法之一是词袋模型。您可以将文本转换为一个数组，其中包含每个单词的出现次数。

如果您正在使用scikit-learn，则建议您阅读他们的文本特征提取用户指南。

此外，还可以查看NLTK工具包，以了解更复杂的处理文本数据的方法。