16得票1回答
当转换目标变量时,"DataFrame"对象没有属性"ravel"?

我正在使用一个子集数据集拟合逻辑回归模型。在分割数据集并拟合模型后,我收到了以下的错误信息: /Users/Eddie/anaconda/lib/python3.4/site-packages/sklearn/utils/validation.py:526: DataConversionWa...

16得票1回答
使用scikit-learn中的FeatureUnion将两个pandas列组合为tfidf。

在使用this作为垃圾邮件分类模型时,我想添加一个主题加正文的附加特征。 我将所有特征存储在Pandas数据框中。例如,主题是df ['Subject'],正文是df ['body_text'],垃圾邮件/非垃圾邮件标签是df ['ham/spam'] 我收到以下错误消息:TypeErro...

16得票2回答
如何使用MinMaxScaler sklearn对训练数据和测试数据进行归一化

所以,我有一个疑问并一直在寻找答案。问题是当我使用时,from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() df = pd.DataFrame({'A':[1,2,3,7,9,15,16...

14得票3回答
将tfidf附加到pandas数据框中。

我有以下的pandas数据结构:col1 col2 col3 text 1 1 0 meaningful text 5 9 7 trees 7 8 2 text 我想使用tfidf向量化它。但是这会返回一个解析矩阵,我可以通过 myspar...

14得票3回答
LinearRegression和svm.SVR(kernel =“linear”)之间的区别

首先,这个论坛上有很多类似的问题,但请相信没有一个是完全一样的,请勿重复提问。 我遇到了两种使用scikit的sklearn进行线性回归的方法,我无法理解它们之间的区别,尤其是第一个代码中调用了train_test_split()方法,而另一个直接调用了fit方法。 我正在使用多种资源学习...

14得票2回答
如何从csv文件中仅加载列名(Pandas)?

我有一个非常大的csv文件,不想完全加载到内存中,我只需要从这个csv文件中获取列名。如何清晰地加载它?

13得票1回答
向稀疏矩阵添加pandas列

我有一些衍生的X变量值,想要在我的模型中使用。XAll = pd_data[['title','wordcount','sumscores','length']] y = pd_data['sentiment'] X_train, X_test, y_train, y_test = train...

13得票2回答
如何在Sklearn Pipeline中进行Onehotencoding

我正在尝试对Pandas数据框中的分类变量进行One-Hot编码。该数据框包括分类和连续变量。我意识到可以使用Pandas的.get_dummies()函数轻松完成此操作,但我需要使用管道以便稍后生成PMML文件。 以下是创建映射器的代码。我想要编码的分类变量存储在名为“dummies”的列表...

13得票8回答
尝试导入sklearn模块时出现错误:ImportError: DLL加载失败:找不到指定的模块。

我尝试为一个机器学习项目进行以下的导入:from sklearn import preprocessing, cross_validation, svm from sklearn.linear_model import LinearRegression 我收到了这个错误消息:Traceback...

13得票1回答
当定义掩码为真时,如何更改特定列的值?

我有一个数据框(DataFrame),其中有以下列名: 'team1', 'team2', 'city', 'date'. 我想要做的是,当满足某些条件(我使用掩码定义)时,将'city'的值分配为'dubai'。 这就是我正在做的事情: matches[((matches['tea...