8得票1回答
机器学习的真实世界应用案例有哪些?

最近我在Coursera上学习了Andrew Ng教授的机器学习课程。通过这门课程,我了解了机器学习算法的基础知识,但是我有以下问题: 在哪里可以找到真实世界的机器学习用例示例? 工业/生产中使用哪些工具或框架进行机器学习项目? 如何在生产中使用或部署机器学习模型? 如何成为数据科学家?或...

7得票2回答
如何使用matplotlib在python中绘制时间戳?

我已经在谷歌上全面搜索,但似乎无法找到我要找的东西。 基本上,我有两个列表:一个列表包含时间戳数据,另一个列表包含相应的值。 现在我的问题是:我的时间戳格式如下: ['Mon Sep 1 16:40:20 2015', 'Mon Sep 1 16:45:20 2015', 'Mon S...

12得票4回答
如何使用SimpleImputer或等效工具仅转换某些列

我正在使用scikit库迈出第一步,并发现我需要回填数据帧中的仅某些列。 我仔细阅读了文档,但我仍然无法弄清如何实现这一点。 为了更具体地说明,假设我有:A = [[7,2,3],[4,np.nan,6],[10,5,np.nan]] 我希望将第二列用平均值填充,但不要对第三列进行操作。我...

8得票2回答
如何从PySpark中加载SQLLite数据库文件中的表格?

我正在尝试从本地磁盘中的SQLLite .db文件加载表格。在PySpark中有没有更好的方法来完成这个任务? 目前,我使用了一种可行但不够优雅的解决方案。首先,我通过sqlite3使用pandas读取表格。其中一个问题是,在此过程中未传递模式信息(可能是问题,也可能不是问题)。我想知道是否...

39得票2回答
pandas在groupby.value_counts()之后使用reset_index()

我正在尝试按一列分组,并计算另一列的值计数。 import pandas as pd dftest = pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2], 'Amt':[20,20,20,30,30,30,30,4...

17得票3回答
如何在Python的sklearn中使用GridSearchCV进行特征选择

我正在使用带有交叉验证的递归特征消除(rfecv)作为 randomforest classifier 的特征选择器,如下所示。 X = df[[my_features]] #all my features y = df['gold_standard'] #labels clf = Ran...

8得票2回答
Python中用于残差与预测值的残差图

我已经运行了一个KNN模型。现在我想绘制残差与预测值图。每个不同网站的示例都显示我首先必须运行线性回归模型。但我不知道该如何操作。有人能帮忙吗?先谢谢了。 这是我的模型- train, validate, test = np.split(df.sample(frac=1), [int(.6*...

7得票1回答
Python Pandas -- 用前一列的值填充整行

我是一个新手pandas开发者。如何使用以前看到的一列中包含的值填充数据框? 自包含的示例: import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [...

8得票4回答
SVC分类器训练时间过长

我正在使用具有线性内核的SVC分类器来训练我的模型。 训练数据:42000条记录 model = SVC(probability=True) model.fit(self.features_train, self.labels_train) y_pred = mode...

7得票2回答
无法将具有多个列的数据框设置为单列total_servings。

我是一个初学者,正在熟悉pandas。 当我尝试用以下方式创建新列时,它会抛出错误: drinks['total_servings'] = drinks.loc[: ,'beer_servings':'wine_servings'].apply(calculate,axis=1) 以下是我...