9得票1回答
将One Hot编码的结果转换回Python中的单列数据

我正在使用Keras进行多类分类。它包含5个输出类别。我使用独热编码将单类向量转换为矩阵,并创建了一个模型。现在,为了评估模型,我想将5个类别的概率结果转换回单列。 我得到的输出是numpy数组格式: ..................0..................1.........

9得票2回答
Sklearn 凝聚层次聚类 自定义相似度函数

我希望使用聚类算法进行聚类,需要使用自定义的距离度量(即亲和力),因为我想通过序列相似性而不是像欧几里德距离这样没有实际意义的距离来对整数序列进行聚类。 我的数据大致如下: >> dat.values array([[860, 261, 240, ..., 300, 241...

9得票4回答
如何使用Sklearn中的KBinsDiscretizer将连续数据转换为分箱数据?

我正在研究一种机器学习算法,尝试将连续的目标值转换为小的区间,以更好地理解问题,从而进行更好的预测。我的原始问题是回归问题,但我通过使用带有标签的小区间将其转换为分类问题。 我按照以下步骤进行: from sklearn.preprocessing import KBinsDiscreti...

9得票9回答
sklearn的cross_val_score()函数返回NaN值

我正在尝试预测下一个客户的购买行为。我按照指南操作,但是当我尝试使用cross_val_score()函数时,它返回NaN值。Google Colab笔记本截图 变量: X_train是一个数据框 X_test是一个数据框 y_train是一个列表 y_test是一个列表 代码: ...

8得票2回答
sklearn:发现输入变量的样本数量不一致:[1,99]

我正在尝试使用pandas在spyder中构建一个简单的回归线。执行以下代码后,我得到了以下错误: Found input variables with inconsistent numbers of samples: [1, 99] 代码: import numpy as np im...

8得票4回答
分类编码前还是后进行标准化?

我正在开发一种回归算法,这里使用的是k-最近邻算法来预测产品的某个价格。 所以我有一个训练集,其中只有一个分类特征,有4种可能的取值。我使用了一对k类别编码方案来处理它,这意味着现在我的Pandas DataFrame中有3列,每列都有一个0/1,具体取决于该值是否存在。 DataFram...

8得票1回答
按升序/降序排列条形图

我有一个随机森林的特征重要性程序。已经为每个变量生成了所有特征重要性参数。我也在水平条形图上绘制了它。 现在我想将这些条形图按升序/降序排序。我该如何做呢? 我的代码如下: #Feature Selection (shortlisting key variables) import n...

8得票3回答
将Sklearn TFIDF与其他数据相结合

我正在为监督学习准备数据。 我拥有我的Tfidf数据,这些数据是从数据框中称为“merged”的列生成的。 vect = TfidfVectorizer(stop_words='english', use_idf=True, min_df=50, ngram_range=(1,2)) X =...

8得票2回答
Scikit-learn中的LabelEncoder在排序时会抛出TypeError

我正在使用Kaggle的泰坦尼克号数据集学习机器学习。我正在使用sklearn的LabelEncoder将文本数据转换为数字标签。以下代码可用于“性别”,但不适用于“登船口岸”。 encoder = preprocessing.LabelEncoder() features["Sex"] =...

8得票4回答
在sklearn中可视化决策树

当我想要可视化树时,出现了这个错误。 我已经展示了所需的导入库。是否与jupiter-notebook有关? from sklearn import tree import matplotlib.pyplot from sklearn.tree import DecisionTreeCla...