得票数最多 'sklearn-pandas' 问题

关联标签

98得票6回答

如何将包含列表的pandas列进行one-hot编码？

我想把由一列元素列表组成的pandas列拆分成与独特元素数量相同的列，即对它们进行one-hot编码（值1表示行中存在给定元素，而在缺失情况下则为0）。例如，使用数据框df：Col1 Col2 Col3 C 33 [Apple, Orange, Ba...

pythonpandasnumpyscikit-learnsklearn-pandas

47得票4回答

Sklearn绘制的决策树图太小了。

我有这段简单的代码：clf = tree.DecisionTreeClassifier() clf = clf.fit(X, y) tree.plot_tree(clf.fit(X, y)) plt.show() 我得到的结果是这个图表：如何使这个图表更易读？我正在使用 PyCharm ...

pythongraphicssklearn-pandas

28得票4回答

基于列的sklearn分层抽样

我有一个相当大的CSV文件，其中包含亚马逊评论数据，我将其读入pandas数据框中。我想将数据拆分为80-20（训练-测试），但在这样做时，我希望确保拆分的数据比例地代表一列值（类别）的价值，即所有不同的评论类别都在训练和测试数据中按比例呈现。数据如下：**ReviewerID** ...

pythonpandasscikit-learnsklearn-pandas

26得票2回答

Python sklearn多元线性回归显示R平方

我计算了多元线性回归方程，想要查看调整后的R平方值。我知道得分函数可以显示R平方，但它不是经过调整的。import pandas as pd #import the pandas module import numpy as np df = pd.read_csv ('/Users/jeang...

pythonmachine-learningsklearn-pandas

24得票3回答

使用Python实现基于余弦相似度的K-means算法

我正在尝试在Python中实现Kmeans算法，该算法将使用余弦距离作为距离度量，而不是欧几里德距离。我知道使用不同的距离函数可能会导致灾难性后果，因此应该小心处理。使用余弦距离作为度量强制我更改平均函数（根据余弦距离的平均值必须是规范化向量的逐元素平均值）。我看到了这个手动覆盖skle...

pythonscikit-learnk-meanscosine-similaritysklearn-pandas

18得票4回答

sklearn中的X_test、X_train、y_test和y_train有什么区别？

我正在学习sklearn，但我不太理解使用函数train_test_split()时4个输出的区别和为什么要这么做。在文档中，我找到了一些例子，但这并不足以消除我的疑惑。代码是使用X_train来预测X_test还是使用X_train来预测y_test? 训练集和测试集有什么区别？我是使用...

pythonmachine-learningscikit-learnsklearn-pandassupervised-learning

18得票2回答

Scikit Learn中的多元/多元线性回归？

我有一个数据集（dataTrain.csv和dataTest.csv）以.csv文件的格式呈现：Temperature(K),Pressure(ATM),CompressibilityFactor(Z) 273.1,24.675,0.806677258 313.1,24.675,0.88839...

pythonpandasscikit-learnsklearn-pandas

17得票4回答

在Pycharm中出现“没有名为'pandas'的模块”错误

我阅读了所有相关话题，但无法解决我的问题： Traceback (most recent call last): File "/home/.../.../.../reading_data.py", line 1, in <module> import pan...

pythonpandasmodulepycharmsklearn-pandas

17得票6回答

数值错误: 此求解器需要数据中至少有2个类别的样本，但该数据仅包含一个类别: 0.0。

在将数据集拆分为测试集和训练集后，我对训练集应用了逻辑回归，但是出现了上述错误。我试图解决这个问题，当我尝试在控制台中打印响应向量y_train时，它会打印像0或1这样的整数值。但是当我将其写入文件时，我发现值是浮点数，如0.0和1.0。如果这是问题，我该如何克服它。lenreg = Logi...

python-2.7scikit-learnlogistic-regressionsklearn-pandas

17得票4回答

Scikit K-means聚类性能度量

我正在尝试使用K-means方法进行聚类，但我想要衡量我的聚类的表现。我不是专家，但我渴望学习更多关于聚类的知识。这是我的代码:import pandas as pd from sklearn import datasets #loading the dataset iris = dat...

pythonmachine-learningscikit-learncluster-analysissklearn-pandas