7得票3回答
Python - Pandas相较于Numpy/Scipy有哪些重要的改进?

我一直在使用numpy / scipy进行数据分析。最近我开始学习Pandas。 我已经学习了一些教程,正在努力理解Pandas相对于Numpy / Scipy的主要改进之处。 在我看来,Pandas的关键思想是将不同的numpy数组包装成一个数据框,并提供一些实用函数。 那么,Pand...

8得票2回答
嘈杂正弦时间序列中的实时峰值检测

我一直在尝试实时检测正弦时间序列数据中的峰值,但到目前为止没有成功。我似乎找不到一个实时算法,可以以合理的准确度检测正弦信号中的峰值。要么无法检测到峰值,要么会检测到沿着正弦波的无数个点作为峰值。 对于类似正弦波的输入信号,并且可能包含一些随机噪声,有什么好的实时算法呢? 作为一个简单...

21得票1回答
Python Pandas基于索引联接数据帧。

我试图在同一列"Date"上将两个数据框连接起来,代码如下:import pandas as pd from datetime import datetime df_train_csv = pd.read_csv('./train.csv',parse_dates=['Date'],index...

132得票3回答
为什么使用独热编码可以提高机器学习性能?

我注意到,当在一个特定的数据集(矩阵)上使用One Hot编码,并将其作为学习算法的训练数据时,相对于使用原始矩阵本身作为训练数据,它能够显著提高预测准确性。这种性能提升是如何发生的呢?

8得票2回答
如何使用dplyr按id分组,在数据框中筛选出某一列的前10%?

I have the following data frame: id total_transfered_amount day 1 1000 2 1 2000 3 1 3000 ...

20得票5回答
从R到Python的case_when函数

如何在Python代码中实现R语言的case_when函数? 以下是R语言的case_when函数: https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when 假设我们有以下数据框(下面是P...

7得票2回答
Pandas - 分组并创建新的DataFrame?

这是我的情况 - In[1]: data Out[1]: Item Type 0 Orange Edible, Fruit 1 Banana Edible, Fruit 2 Tomato ...

17得票3回答
机器学习项目:探索性数据分析前还是后拆分训练/测试集?

在进行任何探索性数据分析之前,是将数据拆分为训练集和测试集还是仅基于训练数据进行所有探索? 我正在开展我的第一个完整的机器学习项目(课程毕业项目的推荐系统),并且正在寻求操作顺序的澄清。 我大致的概要是导入和清理数据,进行探索性分析,训练模型,然后在测试集上进行评估。 我现在正在进行探索性数据...

13得票3回答
按多个值分组并绘制结果。

我正在使用一些关于杀菌剂使用情况的数据,其中包括年份、杀菌剂、使用量,以及一些与此无关的列在panda DataFrame中。它看起来有点像:Year, State, Fungicide, Value 2011, California, A, 12879 2011, ...

7得票1回答
为Pandas DataFrame图设置x轴间隔(刻度)。

我正在尝试在 Pandas DataFrame 的 matplotlib 图表上设置 x 轴的刻度(时间步长)。我的目标是使用 DataFrame 的第一列作为刻度,但到目前为止我还没有成功。 我迄今为止的尝试包括: 尝试 1: #See 'xticks' data_df[header_...