18得票4回答
在使用seaborn绘图时,对于缺失值应该如何处理呢?

我使用lambda函数将缺失值替换为NaN,具体代码如下: data = data.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x) 其中,data是我正在处理的数据框。 之后,我...

17得票3回答
加速Matplotlib?

我曾在这里读到,matplotlib擅长处理大型数据集。我正在编写一个数据处理应用程序,并将matplotlib的图表嵌入到wx中。但是,我发现matplotlib在处理大量数据方面非常糟糕,无论是速度还是内存方面都表现不佳。除了对输入进行下采样之外,是否有人知道加速(减少内存占用)matpl...

17得票2回答
Python:如何使用SKlearn进行多项式逻辑回归

我有一个测试数据集和训练数据集如下所示。我提供了一份包含最少记录的样本数据,但我的数据集有超过1000个记录。其中E是我需要使用算法进行预测的目标变量。它仅有四个类别,如1、2、3、4。它只能取这些值之一。训练数据集:A B C D E 1 20 30 1...

17得票3回答
机器学习项目:探索性数据分析前还是后拆分训练/测试集?

在进行任何探索性数据分析之前,是将数据拆分为训练集和测试集还是仅基于训练数据进行所有探索? 我正在开展我的第一个完整的机器学习项目(课程毕业项目的推荐系统),并且正在寻求操作顺序的澄清。 我大致的概要是导入和清理数据,进行探索性分析,训练模型,然后在测试集上进行评估。 我现在正在进行探索性数据...

15得票3回答
Pandas - pandas查询中类似于str.contains()的等效方法

使用以下条件进行子集创建数据框subset_df = df_eq.loc[(df_eq['place'].str.contains('Chile')) & (df_eq['mag'] > 7.5),['time','latitude','longitude','mag','pla...

14得票5回答
非超级计算机处理大量数据的一般技术

我正在上一些AI课程,学习了一些基础算法,想要进行实验。通过Kaggle,我已经获得了几个包含大量优秀真实数据的数据集,该网站举办数据分析竞赛。 我尝试参加几个比赛以提高我的机器学习技能,但是一直找不到一个好的方法来在代码中访问这些数据。 Kaggle为每个比赛提供一个大型数据文件,大小在5...

14得票1回答
使用JavaScript进行数据分析?

今天我的数据分析流程大致如下:使用R、Julia或Python进行繁重的工作,然后使用JavaScript在Web上显示结果(例如,使用D3.js)。 我最初在JS方面的关注点主要是数据可视化/交互,因此我以这个为出发点开始学习。但我在想,是否有专注于数据分析(使用数据框架进行数据操作,实现统...

14得票1回答
Matplotlib:在3D条形图的x轴上格式化日期

如果有这个3D条形图的示例代码,你该如何将x轴上的数字数据转换为格式化的日期/时间字符串?我尝试使用ax.xaxis_date()函数但没有成功。我还尝试使用plot_date()函数,但它似乎不适用于3D条形图。下面是一个修改过的示例代码,用于说明我的尝试:from mpl_toolkits...

13得票3回答
按多个值分组并绘制结果。

我正在使用一些关于杀菌剂使用情况的数据,其中包括年份、杀菌剂、使用量,以及一些与此无关的列在panda DataFrame中。它看起来有点像:Year, State, Fungicide, Value 2011, California, A, 12879 2011, ...

13得票4回答
在pandas中向现有数据框添加新行时出现错误

我有以下数据框。 df3=pd.DataFrame(columns=["Devices","months"]) 我正在从循环中获取行值 row, 打印数据 Devices months 1 Powerbank Feb month 当我将这个数据行添加到...