最新 'data-analysis' 问题 - 第6页

关联标签

183得票13回答

如何合并多个数据框架

我有不同的数据框，需要根据日期列将它们合并在一起。如果只有两个数据框，我可以使用df1.merge(df2, on='date')，对于三个数据框，我可以使用df1.merge(df2.merge(df3, on='date'), on='date')，但是当涉及到多个数据框时，这种方法变得非...

pythonpandasdataframemergedata-analysis

11得票4回答

使用numpy/scipy如何处理缺失数据？

在数据清洗中，我经常处理的问题之一是缺失值。R使用其"NA"缺失数据标签来处理这个问题。在Python中，似乎我必须处理掩码数组，这似乎很麻烦并且没有得到很好的记录。你有什么建议可以使Python中这个过程更容易吗？这对于我将Python用于数据分析来说成为了一个决定性因素。谢谢。更新显...

pythonnumpydata-analysis

7得票1回答

为Pandas DataFrame图设置x轴间隔（刻度）。

我正在尝试在 Pandas DataFrame 的 matplotlib 图表上设置 x 轴的刻度（时间步长）。我的目标是使用 DataFrame 的第一列作为刻度，但到目前为止我还没有成功。我迄今为止的尝试包括：尝试 1: #See 'xticks' data_df[header_...

pythonmatplotlibpandasdata-analysis

21得票4回答

在Excel数据透视表中使用QUARTILE函数按子群体汇总数据

我在Excel电子表格中有一个大型数据表，这个表可以被视为一组属于不同亚群体身份的个体的值的集合： IndivID SubPopID Value 1 A 33.56 2 E 42.31 3 ...

excelstatisticsexcel-2007pivot-tabledata-analysis

12得票5回答

使用R/Python进行数据分析和固态硬盘（SSD）

有没有人在使用固态硬盘存储数据时，结合r/python编程语言的经验？理论上来说，如果主要进行读取操作，这应该会显著提高大型数据集的加载速度。我想找出这是否为真，并且是否值得投资于SSD以提高数据密集型应用程序中的IO速率。

pythonrdata-analysissolid-state-drive

9得票3回答

Spark-SQL Server 连接

我们能够将Spark与SQL Server连接起来吗？如果可以，应该如何操作呢？我是Spark的新手，希望能够将服务器与Spark连接，并且直接从SQL Server上工作，而不必上传.txt或.csv文件。请帮忙解答，谢谢。

sql-serverapache-sparkdata-analysis

20得票5回答

从R到Python的case_when函数

如何在Python代码中实现R语言的case_when函数？以下是R语言的case_when函数： https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when 假设我们有以下数据框（下面是P...

pythonpandasdataframedata-analysis

14得票5回答

非超级计算机处理大量数据的一般技术

我正在上一些AI课程，学习了一些基础算法，想要进行实验。通过Kaggle，我已经获得了几个包含大量优秀真实数据的数据集，该网站举办数据分析竞赛。我尝试参加几个比赛以提高我的机器学习技能，但是一直找不到一个好的方法来在代码中访问这些数据。 Kaggle为每个比赛提供一个大型数据文件，大小在5...

pythondatabasemachine-learningdata-analysiskaggle

7得票5回答

对象pandas没有属性名Series。

import pandas as pd numbers = {1,2,3,4,5} ser = pd.Series(numbers) print ser 我用Python为Pandas系列编写了此代码。但是它会显示以下错误： "AttributeError: 'module' obje...

pythonpandasdata-analysis

484得票4回答

如何在Python Pandas中按两个或多个列对数据框进行排序？

假设我有一个包含列a，b和c的数据框，我想按列b升序排序，并按列c降序排序，我该怎么做？

pythonpandaspython-2.7sortingdata-analysis