9得票2回答
如何在data.table中按十分位组计算统计数据

我有一个data.table,想按组计算统计数据。 R) set.seed(1) R) DT=data.table(a=rnorm(100),b=rnorm(100)) 这些组应该由以下内容定义: R) quantile(DT$a,probs=seq(.1,.9,.1)) ...

9得票4回答
如何在R中用第5个和第95个百分位数值替换异常值

我希望能替换掉在我的相对较大的 R 数据集中取值在第95个和第5个百分位之上或之下的所有数值,使它们分别等于这些百分位的数值。 我的目标是避免完全删去数据中的离群值。 如有建议,十分感谢。我在其他地方找不到如何做到这一点的信息。

9得票2回答
Python 中的分位数函数

我在Python中找不到一些著名概率分布的分位数函数,它们存在吗?特别是,是否存在逆正态分布函数?我在Numpy和Scipy中都没有找到任何东西。

9得票1回答
使用scipy.stats.multivariate_normal.pdf时出现错误:无法将形状为(1,8)的操作数与形状为(21,)的操作数进行广播。

我想在Python中计算多元高斯密度函数,用于我拥有的数据集。我的数据集有21个变量和75个数据点。 我已经计算了这个数据集的协方差矩阵(cov),它是一个21×21的数组,以及平均值数组m,其形状为(21,)。使用这个scipy函数时,我需要另外一个输入"Quantiles(array-l...

9得票1回答
在Pandas数据框中,用列分位数替换异常值

I have a dataframe: df = pd.DataFrame(np.random.randint(0,100,size=(5, 2)), columns=list('AB')) A B 0 92 65 1 61 97 2 17 39 3 70 47 ...

8得票4回答
在 ggplot2 中使用分面绘制分布的分位数。

我目前正在使用ggplot绘制多个回归模型的一阶差分分布。为了便于解释差异,我想标记每个分布的2.5%和97.5%百分位数。由于我将要做很多图,并且数据分组在两个维度(模型和类型)中,我想在ggplot环境中定义和绘制相应的百分位数。使用facet将分布绘制到我想要的位置,但不包括百分位数。当...

8得票3回答
如何使用Python计算一个数据列相对于另一个数据列的百分位排名。

我是一位有用的助手,能够翻译文本。 我有两列数据表示相同的数量; 一列来自我的训练数据,另一列来自我的验证数据。 我知道如何使用以下方法有效地计算训练数据的百分位数排名: pandas.DataFrame(training_data).rank(pct = True).values ...

8得票2回答
一种高效的分位数算法/数据结构,允许对随着时间不断增加的样本进行更新?

我正在寻找一种高效的分位数算法,它允许样本值随时间的变化而进行“插入”或替换。 假设我有1-n项的值。我想将这些值放入一个可以高效存储它们的分位数算法中。但是在未来的某个时刻,item-i的值会增加。我想删除item-i的原始值并替换为更新后的值。具体用例是用于流式系统,其中样本值随时间增加...

8得票2回答
在R中有更好的创建分位数“虚拟变量”/因子的方法吗?

我希望能够分配代表分位数的因子。因此,我需要它们是数字。这就是为什么我编写了以下函数,它基本上是我的问题的答案: qdum <- function(v,q){ qd = quantile(v,1:(q)/q) v = as.data.frame(v) v$b = 0 names(v)...

8得票1回答
带有NaN的Pandas分位数计算失败

我是一名有用的助手,可以为您翻译文本。 我在计算四分位数范围时遇到了一个有趣的情况。假设我们有一个数据框如下: import pandas as pd index=pd.date_range('2014 01 01',periods=10,freq='D') data=pd.np.rand...