7得票2回答
在分类中,目标变量是否需要进行数字编码?

我正在使用sklearn进行文本分类,所有特征都是数字,但目标变量标签是文本。我可以理解将特征编码为数字的背后原理,但不认为这适用于目标变量?

28得票4回答
基于列的sklearn分层抽样

我有一个相当大的CSV文件,其中包含亚马逊评论数据,我将其读入pandas数据框中。我想将数据拆分为80-20(训练-测试),但在这样做时,我希望确保拆分的数据比例地代表一列值(类别)的价值,即所有不同的评论类别都在训练和测试数据中按比例呈现。 数据如下:**ReviewerID** ...

11得票3回答
sklearn.linear_model.ridge中的统计摘要表是什么?

在OLS形式的StatsModels中,results.summary显示回归结果的摘要(例如AIC,BIC,R-squared等)。 是否有办法在sklearn.linear_model.ridge中获得此摘要表格? 如果有人可以指导我,我将不胜感激。谢谢。

13得票8回答
尝试导入sklearn模块时出现错误:ImportError: DLL加载失败:找不到指定的模块。

我尝试为一个机器学习项目进行以下的导入:from sklearn import preprocessing, cross_validation, svm from sklearn.linear_model import LinearRegression 我收到了这个错误消息:Traceback...

10得票3回答
Python3 + Pandas样式 + 更改交替行颜色

你好,我正在使用Pandas展示一个表格。有没有一种函数可以应用交替的行颜色来使其更易读?使用以下代码,我将表格发送到邮件中并且它能正常工作。 我的代码: count = 1000 df = pandas.DataFrame.from_dict(result) df["Total"] = ...

7得票2回答
对于交叉列的一致ColumnTransformer

我想要始终使用sklearn.compose.ColumnTransformer(不是并行的,所以第二个转换器应该在第一个之后执行)以此方式交叉列列表: log_transformer = p.FunctionTransformer(lambda x: np.log(x)) df = pd....

13得票4回答
功能名称必须唯一 - Xgboost

我正在为一个非常稀疏的矩阵运行xgboost模型。 我遇到了这个错误。ValueError:feature_names必须是唯一的 我该如何处理? 这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1]

9得票1回答
Imputer减小了我数据框中的列尺寸。

print(np.shape(ar_fulldata_input_xx)) 输出结果: (9027, 1443) 现在我使用Imputer来填补数据框ar_fulldata_input_xx中的缺失值,具体如下。 fill_NaN = Imputer(missing_values=...

11得票3回答
sklearn_extra安装问题

[in]: from sklearn_extra.cluster import KMedoids [out]: ModuleNotFoundError: No module named 'sklearn_extra' 接下来,我尝试通过以下方式安装sklearn_extra: [...

7得票1回答
r2_score和scoring='r2'在交叉验证中的得分有什么区别?

我正在尝试从cross_validation.cross_val_score生成R平方值,约为0.35,然后将模型应用于相同的训练数据集,并使用“r2_score”函数生成R平方,约为0.87。我想知道为什么会有这么大的差异。任何帮助都将不胜感激。以下是代码。 num_folds = 2 n...