我正在处理一个包含类型作为特征的电影数据集。数据集中的样本可以同时属于多种类型,因此它们包含一系列类型标签。
数据如下所示-
movieId genres
0 1 [Adventure, Animation, Children, Comedy, Fantasy]
1 2 [Adventure, Children, Fantasy]
2 3 [Comedy, Romance]
3 4 [Comedy, Drama, Romance]
4 5 [Comedy]
我想对这个特征进行向量化。我尝试过使用LabelEncoder和OneHotEncoder,但它们似乎无法直接处理这些列表。
我可以手动地对其进行向量化,但是我有其他类似的特征,其中包含太多的类别。对于这些特征,我更希望能以某种方式直接使用FeatureHasher类。
是否有一些方法可以让这些编码器类在此类特征上起作用?或者是否有更好的表示此类特征的方法,使编码更容易?我很乐意听取任何建议。