17得票2回答
Python:如何使用SKlearn进行多项式逻辑回归

我有一个测试数据集和训练数据集如下所示。我提供了一份包含最少记录的样本数据,但我的数据集有超过1000个记录。其中E是我需要使用算法进行预测的目标变量。它仅有四个类别,如1、2、3、4。它只能取这些值之一。训练数据集:A B C D E 1 20 30 1...

12得票1回答
在数据分析中,选择协方差矩阵中最大的特征值和特征向量意味着什么?

假设有一个名为B的矩阵,大小为500*1000 double(这里的500表示观测数,1000表示特征数)。 sigma是矩阵B的协方差矩阵,D是一个对角矩阵,其对角线元素为sigma的特征值。假设A是协方差矩阵sigma的特征向量。 我有以下问题: 我需要选择前k=800个对应于最大...

183得票13回答
如何合并多个数据框架

我有不同的数据框,需要根据日期列将它们合并在一起。如果只有两个数据框,我可以使用df1.merge(df2, on='date'),对于三个数据框,我可以使用df1.merge(df2.merge(df3, on='date'), on='date'),但是当涉及到多个数据框时,这种方法变得非...

36得票12回答
R和SPSS的区别

我将很快分析大量与网络流量相关的数据,并对其进行预处理以便进行分析。我发现R和SPSS是最受欢迎的统计分析工具之一。我还将生成大量图形和图表。因此,我想知道这两个软件之间的基本差异。 我不是在问哪个更好,而只是想知道它们的工作流程方面的差异(除了SPSS有GUI之外)。无论哪种情况下,我都会...

9得票2回答
如何从无线路由器中捕获原始信号?

我现在已经看到了几个项目,从典型的无线路由器收集的无线电数据中提取出新颖的空间信息: http://wisee.cs.washington.edu/ http://www.extremetech.com/extreme/133936-using-wifi-to-see-through-wa...

10得票4回答
在列表中找到平均值但忽略任何零 [Python]

我有一个温度数据的文本文件,看起来像这样: 3438012868.0 0.0 21.7 22.6 22.5 22.5 21.2 3438012875.0 0.0 21.6 22.6 22.5 22.5 21.2 3438012881...

19得票3回答
在pandas中,你能否按均值进行聚合并将均值四舍五入到最近的整数?

我有169列数据,已经处理为1代表“是”、0代表“否”,现在需要按平均值对200万行进行聚合,然后将结果四舍五入到最近的整数,怎样实现呢? 下面这张图片展示了每列的数值要么是0,要么是1。

7得票5回答
从大型数据集的一对列中选择最后一个有效的数据日期。

我有一个数据框,其中第一列包含日期,其他列包含这些日期上的数据: date k1-v1 k1-v2 k2-v1 k2-v2 k1k3-v1 k1k3-v2 k4-v1 k4-v2 0 2021-01-05 2.0 7.0 NaN N...

9得票3回答
在R中交互式地获取库的内容

在R中是否有dir函数(类似于Python)? 当我像这样在R中加载一个库时 - library(vrtest) 我想知道该库中的所有函数。 在Python中,dir(vrtest)将列出vrtest的所有属性。 我猜总的来说,我正在寻找在linux上运行ESS时获取R帮助的最佳...

39得票1回答
使用Pandas GroupBy绘制结果

我正开始学习 Pandas,并且正在尝试找到实现某些任务的最 Pythonic(或“Panda-thonic”)方法。 假设我们有一个包含列 A、B 和 C 的 DataFrame。 列 A 包含布尔值:每行的 A 值都是 true 或 false。 列 B 具有一些重要值,我们想要绘制...