98得票6回答
如何将包含列表的pandas列进行one-hot编码?

我想把由一列元素列表组成的pandas列拆分成与独特元素数量相同的列,即对它们进行one-hot编码(值1表示行中存在给定元素,而在缺失情况下则为0)。 例如,使用数据框df:Col1 Col2 Col3 C 33 [Apple, Orange, Ba...

47得票4回答
Sklearn绘制的决策树图太小了。

我有这段简单的代码:clf = tree.DecisionTreeClassifier() clf = clf.fit(X, y) tree.plot_tree(clf.fit(X, y)) plt.show() 我得到的结果是这个图表: 如何使这个图表更易读? 我正在使用 PyCharm ...

28得票4回答
基于列的sklearn分层抽样

我有一个相当大的CSV文件,其中包含亚马逊评论数据,我将其读入pandas数据框中。我想将数据拆分为80-20(训练-测试),但在这样做时,我希望确保拆分的数据比例地代表一列值(类别)的价值,即所有不同的评论类别都在训练和测试数据中按比例呈现。 数据如下:**ReviewerID** ...

26得票2回答
Python sklearn多元线性回归显示R平方

我计算了多元线性回归方程,想要查看调整后的R平方值。我知道得分函数可以显示R平方,但它不是经过调整的。import pandas as pd #import the pandas module import numpy as np df = pd.read_csv ('/Users/jeang...

24得票3回答
使用Python实现基于余弦相似度的K-means算法

我正在尝试在Python中实现Kmeans算法,该算法将使用余弦距离作为距离度量,而不是欧几里德距离。 我知道使用不同的距离函数可能会导致灾难性后果,因此应该小心处理。使用余弦距离作为度量强制我更改平均函数(根据余弦距离的平均值必须是规范化向量的逐元素平均值)。 我看到了这个手动覆盖skle...

18得票4回答
sklearn中的X_test、X_train、y_test和y_train有什么区别?

我正在学习sklearn,但我不太理解使用函数train_test_split()时4个输出的区别和为什么要这么做。 在文档中,我找到了一些例子,但这并不足以消除我的疑惑。 代码是使用X_train来预测X_test还是使用X_train来预测y_test? 训练集和测试集有什么区别?我是使用...

18得票2回答
Scikit Learn中的多元/多元线性回归?

我有一个数据集(dataTrain.csv和dataTest.csv)以.csv文件的格式呈现:Temperature(K),Pressure(ATM),CompressibilityFactor(Z) 273.1,24.675,0.806677258 313.1,24.675,0.88839...

17得票4回答
在Pycharm中出现“没有名为'pandas'的模块”错误

我阅读了所有相关话题,但无法解决我的问题: Traceback (most recent call last): File "/home/.../.../.../reading_data.py", line 1, in <module> import pan...

17得票6回答
数值错误: 此求解器需要数据中至少有2个类别的样本,但该数据仅包含一个类别: 0.0。

在将数据集拆分为测试集和训练集后,我对训练集应用了逻辑回归,但是出现了上述错误。我试图解决这个问题,当我尝试在控制台中打印响应向量y_train时,它会打印像0或1这样的整数值。但是当我将其写入文件时,我发现值是浮点数,如0.0和1.0。如果这是问题,我该如何克服它。lenreg = Logi...

17得票4回答
Scikit K-means聚类性能度量

我正在尝试使用K-means方法进行聚类,但我想要衡量我的聚类的表现。 我不是专家,但我渴望学习更多关于聚类的知识。 这是我的代码:import pandas as pd from sklearn import datasets #loading the dataset iris = dat...