我正在尝试使用scikit-learn处理自然语言数据上的机器学习问题。我已经将我的语料库转换为词袋向量(采用稀疏的CSR矩阵形式),我想知道是否有一个监督降维算法在sklearn中能够将高维度、受控数据投影到保留这些类之间差异方差的低维空间中。
高层次的问题描述是:我有一系列文档,每个文档都可以有多个标签,并且我希望根据文档内容预测哪些标签将被添加到新文档中。
从本质上讲,这是一个使用BoW向量的稀疏表示的有监督的多标签、多类问题。在sklearn中是否有一种可以处理这种类型数据的降维技术?还有其他人在使用supervised BoW数据时在scikit-learn中使用的技术吗?
谢谢!