14得票1回答
使用JavaScript进行数据分析?

今天我的数据分析流程大致如下:使用R、Julia或Python进行繁重的工作,然后使用JavaScript在Web上显示结果(例如,使用D3.js)。 我最初在JS方面的关注点主要是数据可视化/交互,因此我以这个为出发点开始学习。但我在想,是否有专注于数据分析(使用数据框架进行数据操作,实现统...

9得票2回答
日志文件转换为 Pandas 数据框架。

我有日志文件,其中有许多形如以下的行: LogLevel [13/10/2015 00:30:00.650] [Message Text] 我的目标是将日志文件中的每一行转换为一个漂亮的数据框。我已经尝试通过在 [ 字符上分割行来做到这一点,但是我仍然没有得到一个整洁的数据框。 ...

15得票3回答
Pandas - pandas查询中类似于str.contains()的等效方法

使用以下条件进行子集创建数据框subset_df = df_eq.loc[(df_eq['place'].str.contains('Chile')) & (df_eq['mag'] > 7.5),['time','latitude','longitude','mag','pla...

9得票2回答
如何在MySQL中延迟列?

考虑下面的表格: SELECT id, value FROM table ORDER BY id ASC; +-----+---------+ | id | value | +-----+---------+ | 12 | 158 | | 15 | 346 | | ...

17得票2回答
Python:如何使用SKlearn进行多项式逻辑回归

我有一个测试数据集和训练数据集如下所示。我提供了一份包含最少记录的样本数据,但我的数据集有超过1000个记录。其中E是我需要使用算法进行预测的目标变量。它仅有四个类别,如1、2、3、4。它只能取这些值之一。训练数据集:A B C D E 1 20 30 1...

8得票2回答
如何使用dplyr按id分组,在数据框中筛选出某一列的前10%?

I have the following data frame: id total_transfered_amount day 1 1000 2 1 2000 3 1 3000 ...

8得票1回答
为什么GridSearchCV模型的结果与我手动调整的模型不同?

这是我在这里的第一个问题,希望我做得没错。 我正在处理kaggle上流行的泰坦尼克号数据集,如果您想查看的话,这是教程“一个数据科学框架:实现99%的准确性”。 其中的5.2部分介绍了如何使用网格搜索和调整超参数。在我提出具体问题之前,让我与您分享相关代码; 这是使用GridSearch...

20得票2回答
如何合并两个数据框并对列的值求和

我有两个数据框。df1 Name class value Sri 1 5 Ram 2 8 viv 3 4 df2 Name class value Sri 1 5 viv 4 4 我的期望输出是:df, Name class va...

24得票5回答
R:将转换为因子,并按case_when相同的级别顺序排序

在进行数据分析时,有时我需要将值重新编码为因子,以便进行分组分析。我希望保持因子的顺序与 case_when 中指定的转换顺序相同。在这种情况下,顺序应为 "Excellent" "Good" "Fail"。如何在不繁琐地再次提及...

21得票1回答
seaborn直方图、计数图和分布图之间的区别

我认为它们看起来都一样,但肯定存在一些差异。 它们都以单列输入为基础,而y轴表示所有图形的计数。