84得票18回答
在Linux中,有一个命令行实用程序可以打印数字统计信息。

我经常会遇到每行只有一个数字的文件,我最后会将其导入Excel中,以查看中位数、标准差等内容。 在Linux中是否有命令行实用程序可以做同样的事情?我通常需要找到平均值、中位数、最小值、最大值和标准差。

83得票6回答
Matplotlib中的箱线图:标记和异常值

我有一些关于matplotlib中boxplots的问题: 问题A。我用Q1、Q2和Q3标记了下面的标记,它们代表什么?我认为Q1是最大值,Q3是异常值,但Q2是什么?                        问题B:matplotlib如何识别异常值?(即它如何知道它们不是真正...

83得票6回答
通过API从Google Play开发者获取统计数据

我负责开发一个网站,可以展示来自苹果应用商店和谷歌Play商店的统计数据给客户,这样他们就可以轻松地看到发生了什么。 我已经找到了一些获取App Store数据的方法,但是获取Google Play开发者统计数据似乎更难。 我听说过网络爬虫,但这不是一个好的解决方案,因为它可能会在开发者控...

81得票11回答
如何更好地按照5星评级进行排序?

我正在尝试使用五星评级系统按客户评分对一系列产品进行排序。我为此设置的网站没有太多的评分,并且持续添加新产品,因此通常会有一些评分较少的产品。 我尝试使用平均星级评估算法,但是当评分数量很少时,该算法会失效。 例如,一个具有3个5星评级的产品将比一个具有100个5星评级和2个2星评级的产品...

81得票3回答
在R中解释quantile()函数

我整天都被R分位数函数困惑着。 我对分位数的工作原理有直观的概念,并且拥有统计学硕士学位,但是文档对我来说令人困惑。 从文档中可以看到: Q[i](p) = (1 - gamma) x[j] + gamma x[j+1], 到目前为止我还能跟上。对于类型i的分位数,它是基于一些...

80得票3回答
Pandas中的T检验

如果我想在Pandas中计算两个类别的平均值,可以这样做: data = {'Category': ['cat2','cat1','cat2','cat1','cat2','cat1','cat2','cat1','cat1','cat1','cat2'], 'values'...

79得票14回答
从一个具有权重的列表中随机选择k个元素

在不考虑权重(等概率)情况下进行选择的方法可以在这里清晰地描述。 我想知道是否有一种方法可以将这种方法转换为加权方法。 我对其他方法也很感兴趣。 更新:抽样无替换

79得票9回答
Pandas - 计算所有列的z-score

我有一个数据框,它包含一个仅有ID列和其他所有列都是数值类型的值,我想要计算这些数值类型列的z分数。以下是其中的一个子集:ID Age BMI Risk Factor PT 6 48 19.3 4 PT 8 43 20.9 NaN ...

79得票14回答
滚动方差算法

我正在尝试寻找一种高效、数值稳定的算法来计算滚动方差(例如,一个20周期的滚动窗口内的方差)。我知道Welford算法可以有效地计算数字流的运行方差(只需要一次遍历),但不确定是否可以将其适应于滚动窗口。我还希望解决方案避免John D. Cook在这篇文章顶部讨论的精度问题。任何语言的解决方...

77得票2回答
逻辑回归预测的置信区间

在 R 中,predict.lm 函数基于线性回归的结果计算预测,并提供计算这些预测的置信区间选项。根据手册,这些区间基于拟合误差方差,而不是系数的误差区间。 另一方面,predict.glm 函数基于逻辑回归和泊松回归(以及其他几种)计算预测,没有置信区间选项。我甚至很难想象如何计算此类置...