我正在进行一些文档分类任务,目前SVM在TF*IDF特征向量上表现良好。我想加入一些不基于词频的新特征(例如文档长度),并查看这些新特征是否有助于分类性能。我有以下问题:
- 我可以简单地将新功能与旧词频特征拼接在一起,并在此异构特征空间上训练SVM吗?
- 如果不行,那么是否可以通过在每个子特征空间上训练内核并使用线性插值将它们组合起来,采用多内核学习的方式处理?(我们在scikit-learn中仍未实现MKL,对吧?)
- 还是应该转向那些能够处理异构特征的替代学习器,如MaxEnt和决策树?