183得票13回答
如何合并多个数据框架

我有不同的数据框,需要根据日期列将它们合并在一起。如果只有两个数据框,我可以使用df1.merge(df2, on='date'),对于三个数据框,我可以使用df1.merge(df2.merge(df3, on='date'), on='date'),但是当涉及到多个数据框时,这种方法变得非...

11得票4回答
使用numpy/scipy如何处理缺失数据?

在数据清洗中,我经常处理的问题之一是缺失值。R使用其"NA"缺失数据标签来处理这个问题。在Python中,似乎我必须处理掩码数组,这似乎很麻烦并且没有得到很好的记录。你有什么建议可以使Python中这个过程更容易吗?这对于我将Python用于数据分析来说成为了一个决定性因素。谢谢。 更新 显...

7得票1回答
为Pandas DataFrame图设置x轴间隔(刻度)。

我正在尝试在 Pandas DataFrame 的 matplotlib 图表上设置 x 轴的刻度(时间步长)。我的目标是使用 DataFrame 的第一列作为刻度,但到目前为止我还没有成功。 我迄今为止的尝试包括: 尝试 1: #See 'xticks' data_df[header_...

21得票4回答
在Excel数据透视表中使用QUARTILE函数按子群体汇总数据

我在Excel电子表格中有一个大型数据表,这个表可以被视为一组属于不同亚群体身份的个体的值的集合: IndivID SubPopID Value 1 A 33.56 2 E 42.31 3 ...

12得票5回答
使用R/Python进行数据分析和固态硬盘(SSD)

有没有人在使用固态硬盘存储数据时,结合r/python编程语言的经验?理论上来说,如果主要进行读取操作,这应该会显著提高大型数据集的加载速度。我想找出这是否为真,并且是否值得投资于SSD以提高数据密集型应用程序中的IO速率。

9得票3回答
Spark-SQL Server 连接

我们能够将Spark与SQL Server连接起来吗?如果可以,应该如何操作呢? 我是Spark的新手,希望能够将服务器与Spark连接,并且直接从SQL Server上工作,而不必上传.txt或.csv文件。请帮忙解答,谢谢。

20得票5回答
从R到Python的case_when函数

如何在Python代码中实现R语言的case_when函数? 以下是R语言的case_when函数: https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when 假设我们有以下数据框(下面是P...

14得票5回答
非超级计算机处理大量数据的一般技术

我正在上一些AI课程,学习了一些基础算法,想要进行实验。通过Kaggle,我已经获得了几个包含大量优秀真实数据的数据集,该网站举办数据分析竞赛。 我尝试参加几个比赛以提高我的机器学习技能,但是一直找不到一个好的方法来在代码中访问这些数据。 Kaggle为每个比赛提供一个大型数据文件,大小在5...

7得票5回答
对象pandas没有属性名Series。

import pandas as pd numbers = {1,2,3,4,5} ser = pd.Series(numbers) print ser 我用Python为Pandas系列编写了此代码。但是它会显示以下错误: "AttributeError: 'module' obje...

484得票4回答
如何在Python Pandas中按两个或多个列对数据框进行排序?

假设我有一个包含列a,b和c的数据框,我想按列b升序排序,并按列c降序排序,我该怎么做?