如何在Catboost Python中将numpy数组作为分类特征传递?

3

我希望将numpy数组的第12列作为分类特征传递。

该列具有从1到10的整数值。

我尝试了以下方法:

cbr.fit(X_train, y,
        eval_set=(X_train_test, y_test),
        cat_features=[X_train[:,12]],
        use_best_model=True,
        verbose=100)

但是出现了以下错误:

CatboostError: 'data' 是 np.float32 的 numpy 数组,这意味着没有分类特征,但是 'cat_features' 参数指定了非零数量的分类特征

2个回答

7

分类特征不能是浮点值。原因在于,分类特征被视为字符串,如果您从文件或数据框中读取特征值,则必须具有相同的字符串。我们无法对浮点值执行此操作,但我们可以对字符串和整数执行此操作。

要解决您的问题,您需要使用数据框,其中包含分类特征列的整数或字符串类型。

例如:

from catboost import CatBoostClassifier, Pool
import pandas as pd

data = pd.DataFrame({'string_column': ['val0', 'val1', 'val2'],
                     'int_column': [1,2,3],
                     'float_column': [1.2,2,4.1]})
print(data)
print(data.dtypes)

train_data = Pool(
    data=data,
    label=[1, 1, -1],
    weight=[0.1, 0.2, 0.3],
    cat_features=[0, 1]
)

model = CatBoostClassifier(iterations = 10)
model.fit(X=train_data)

2
那并没有完全解决我的问题,但它让我找到了正确的方向。对于未来的读者:阅读文档中提供的示例非常有帮助:https://catboost.ai/docs/concepts/python-usages-examples.html - Hagbard

-1

使用numpy数组在Catboost中使用分类特征是完全不可能的。

原因是它将整个数组转换为一种数据类型(float),而Catboost要求您的分类特征必须是int类型。混合是不可能的。 现在,您可以构建一个数据框架,并确保其中的数据类型是正确的。

df = df.astype(dtype={
    'cat_feature1':int,
    ...
})

从那里你可以这样做:

df_int_list = df.select_dtypes(include='int').values.tolist()
df_no_int_list = df.select_dtypes(exclude='int').values.tolist()

df_list = []
for i,v in enumerate(df_int_list):
    df_list = df_list + [v+df_no_int_list[i]]

这个方法可行是因为 dataframe.Values 会转换成 numpy 数组,然后再将其转换为列表。如果列表中只有整数值,它就会使用它们。
cat_features=list(range(0,len(dataframe_int_list[0])))
train_data = Pool(
    data=df_list, # ensure your target values are removed
    label=... # insert your target values
    cat_features=cat_features
)

model = CatBoostClassifier()
model.fit(X=train_data)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接