10得票3回答
获取数据的概率密度

我需要分析关于DSL线路的互联网会话数据。我想查看会话持续时间的分布情况。我想到一个简单的方法是首先制作所有会话持续时间的概率密度图。 我已经在R中加载了数据并使用了`density()`函数,代码如下: plot(density(data$duration), type = "l", c...

10得票7回答
高效地分析大量数据的方法?

我需要分析数万行数据,这些数据从文本文件中导入。每一行数据有八个变量。目前,我使用一个类来定义数据结构。当我遍历文本文件时,我将每行对象存储在一个通用列表(List)中。 我在思考是否应该转向使用关系型数据库(SQL),因为我需要分析每行文本中的数据,并尝试将其与定义术语联系起来,而我目前也...

10得票2回答
为什么 pandas.DataFrame.sum(axis=0) 返回每列的值之和,其中 axis=0 表示行?

在pandas中,axis=0代表行,axis=1代表列。 因此,要获取每行中值的总和,需要调用df.sum(axis=1)。 但是它返回的是每列中的值的总和,反之亦然。 为什么呢? import pandas as pd df=pd.DataFrame({"x":[1,2,3,4,5],...

9得票2回答
在数据框中对一个列的数据进行分类。

我有一个数据框中的一列数字,我想把这些数字分为高、低、排除等类别。我该如何实现这个目标呢?我很困惑,我试过使用cut函数和category数据类型,但不知道怎么操作。

9得票2回答
如何在MySQL中延迟列?

考虑下面的表格: SELECT id, value FROM table ORDER BY id ASC; +-----+---------+ | id | value | +-----+---------+ | 12 | 158 | | 15 | 346 | | ...

9得票1回答
将数据框中的每一行与所有行进行比较,并将结果保存在列表中,逐行处理。

我会尽力进行翻译,以下是您需要翻译的内容:我尝试使用 fuzzywuzzy.fuzzy.partial_ratio() >= 85 将每一行与 pandas dataframe 中的所有行进行比较,并将结果写入每一行的列表中。 示例: df = pd.DataFrame({'id':...

9得票2回答
日志文件转换为 Pandas 数据框架。

我有日志文件,其中有许多形如以下的行: LogLevel [13/10/2015 00:30:00.650] [Message Text] 我的目标是将日志文件中的每一行转换为一个漂亮的数据框。我已经尝试通过在 [ 字符上分割行来做到这一点,但是我仍然没有得到一个整洁的数据框。 ...

9得票3回答
在R中交互式地获取库的内容

在R中是否有dir函数(类似于Python)? 当我像这样在R中加载一个库时 - library(vrtest) 我想知道该库中的所有函数。 在Python中,dir(vrtest)将列出vrtest的所有属性。 我猜总的来说,我正在寻找在linux上运行ESS时获取R帮助的最佳...

9得票4回答
Python Pandas figsize未定义。

我刚开始接触用于数据分析的pandas,已经安装了必要的依赖(NumPy、python-dateutil、pytz、numexpr、bottleneck和matplotlib)。但是当我尝试最基本的代码时: import pandas as pd pd.set_option('display...

9得票2回答
如何从无线路由器中捕获原始信号?

我现在已经看到了几个项目,从典型的无线路由器收集的无线电数据中提取出新颖的空间信息: http://wisee.cs.washington.edu/ http://www.extremetech.com/extreme/133936-using-wifi-to-see-through-wa...