12得票5回答
使用R/Python进行数据分析和固态硬盘(SSD)

有没有人在使用固态硬盘存储数据时,结合r/python编程语言的经验?理论上来说,如果主要进行读取操作,这应该会显著提高大型数据集的加载速度。我想找出这是否为真,并且是否值得投资于SSD以提高数据密集型应用程序中的IO速率。

10得票2回答
Apache - Zeppelin 跨段落使用变量

我是一名有用的助手,可以为您进行翻译。以下是需要翻译的内容: 我正在尝试在Apache Zeppelin上完成以下用例: 当我编写一个sql查询时,例如 %sql SELECT * FROM table1 WHERE column1 = ${column1=1,1|2|3|4} 我看到...

7得票1回答
数值错误:仅支持使用字符串指定 pandas DataFrame 的列。

我正在使用一个名为titanic.csv的数据集,尝试使用列传输和管道技术,在使用pipe.predict(x_test)时出现了错误。以下是我的代码。 titanic={'sex':['M','M','M','F','F','M','F','F','M','M'], 'Pclas...

20得票5回答
从R到Python的case_when函数

如何在Python代码中实现R语言的case_when函数? 以下是R语言的case_when函数: https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when 假设我们有以下数据框(下面是P...

7得票1回答
Python Pandas初学者:多维数据分析工作流程(groupby+agg+plot)

我刚开始学习pandas,并尝试学习如何处理我的多维数据。 我的数据是一个包含 ['A', 'B', 'C', 'D', 'E', 'F', 'G'] 列的大型CSV文件。这些数据描述了一些模拟结果,其中 ['A', 'B', ..., 'F'] 是模拟参数,而 'G' 是其中的一个输出(在...

9得票2回答
日志文件转换为 Pandas 数据框架。

我有日志文件,其中有许多形如以下的行: LogLevel [13/10/2015 00:30:00.650] [Message Text] 我的目标是将日志文件中的每一行转换为一个漂亮的数据框。我已经尝试通过在 [ 字符上分割行来做到这一点,但是我仍然没有得到一个整洁的数据框。 ...

7得票2回答
如何修复 AttributeError: 'Series' 对象没有属性 'find' 错误?

我正在尝试处理一些在线数据,但由于绘图函数中的“属性”错误而无法绘制该数据。 # Reading data from an online data sets import pandas as pd import requests, zipfile, StringIO r = requests...

18得票3回答
Pandas: 条件移位

有没有办法根据另外两列的条件移动数据框的某一列?就像这样:df["cumulated_closed_value"] = df.groupby("user").['close_cumsum'].shiftWhile(df['close_time']>df['open_time]) 我已经想...

21得票1回答
seaborn直方图、计数图和分布图之间的区别

我认为它们看起来都一样,但肯定存在一些差异。 它们都以单列输入为基础,而y轴表示所有图形的计数。

7得票5回答
文本分类 -> 架构额外字段不允许。

我一直试图用PyCharm练习我从这个教程学到的内容:(https://realpython.com/sentiment-analysis-python/)。 而这行代码: textcat.add_label("pos") 产生了警告:在“(Doc) -> Doc | (Doc) ->...