323得票25回答
在Scikit-learn中跨多列进行标签编码

我正在尝试使用scikit-learn的LabelEncoder对pandas中的字符串标签DataFrame进行编码。由于数据帧有许多(50+)列,我想避免为每个列创建一个LabelEncoder对象;我宁愿只有一个可以在所有数据列上工作的大型LabelEncoder对象。 将整个Data...

312得票16回答
如何将一个numpy数组归一化为单位向量

我想将一个NumPy数组转换为单位向量。更具体地说,我正在寻找与这个归一化函数等效的版本: def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / nor...

265得票27回答
sklearn错误:ValueError:输入包含NaN,无穷大或值过大以至于dtype('float64')无法处理。

我正在使用sklearn,并且在使用亲和传播时遇到了问题。我已经构建好了输入矩阵,但一直出现以下错误。ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 我已经运行np.isna...

264得票14回答
Python中是否有用于均方根误差(RMSE)的库函数?

我知道我可以像这样实现一个均方根误差函数:def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) 如果这个RMSE函数已经在某个库中实现了,比如说scipy或者sciki...

258得票15回答
导入错误:找不到名为sklearn.cross_validation的模块。

我正在Ubuntu 14.04上使用Python 2.7。我使用以下命令安装了scikit-learn、numpy和matplotlib:sudo apt-get install build-essential python-dev python-numpy \ python-numpy-de...

254得票6回答
在scikit-learn中将分类器保存到磁盘

如何将训练好的朴素贝叶斯分类器保存到磁盘并使用它来预测数据? 我从scikit-learn网站上获得了以下示例程序:from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import...

249得票13回答
如何将数据分成三个集合(训练、验证和测试)?该怎么做?

我有一个pandas数据框,希望将其分成3个独立的集合。我知道可以使用来自sklearn.cross_validation的train_test_split将数据分为两个集合(训练和测试)。但是,我找不到任何关于将数据分成三个集合的解决方案。最好能够得到原始数据的索引。 我知道一种解决方法是...

245得票11回答
在scikit-learn LinearRegression中寻找p值(显著性)。

我怎样找到每个系数的p值(显著性)?lm = sklearn.linear_model.LinearRegression() lm.fit(x,y)

243得票9回答
使用sklearn对pandas dataframe列进行缩放

我有一个混合类型的pandas数据框,我想对其中一些列应用sklearn的min_max_scaler转换。理想情况下,我想就地执行这些转换,但还没有找到方法。我编写了下面的代码,可以正常工作:import pandas as pd import numpy as np from sklear...

235得票9回答
当期望是一个1维数组时,传递了一个列向量y。

我需要从sklearn.ensemble中使用RandomForestRegressor。forest = ensemble.RandomForestRegressor(**RF_tuned_parameters) model = forest.fit(train_fold, train_y)...