788得票11回答
使用Pandas GroupBy获取每个组的统计信息(例如计数、平均值等)?

我有一个数据框df,我使用其中的几列进行groupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() 以上的方法,我几乎得到了我需要的表格(数据框)。缺少的是一个包含每个组中行数的附加列。换句话说,我有平...

593得票15回答
宇宙射线:它们影响程序的概率是多少?

我又参加了一次设计评审会,听到有人声称特定情景发生的概率“比宇宙射线影响该程序的风险还要低”,这时我意识到自己对这个概率毫无头绪。 “因为2-128是340282366920938463463374607431768211456中的1,即使这些计算错误数十亿倍,我认为我们冒险一试也是有...

497得票35回答
如何找到统计模式?

R中,mean() 和 median() 是标准函数,它们执行你期望的操作。 mode() 返回对象内部存储模式,而不是其参数中出现最多的值。但是否有一个标准库函数可以实现向量(或列表)的统计众数?

458得票10回答
从Git仓库生成统计信息。

我正在寻找一些好的工具/脚本,可以从 Git 存储库中生成一些统计信息。我在一些代码托管网站上看到了这个功能,它们包含了以下信息... 每个作者的提交次数 每天/每周/每年等的提交次数 随时间推移的代码行数 图表 ...还有更多 基本上,我只是想了解我的项目随着时间增长的情况,哪位开发...

312得票16回答
如何将一个numpy数组归一化为单位向量

我想将一个NumPy数组转换为单位向量。更具体地说,我正在寻找与这个归一化函数等效的版本: def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / nor...

300得票12回答
如何使用Python/Numpy计算百分位数?

有没有一种方便的方法来计算序列或单维度的numpy数组的百分位数? 我正在寻找类似于Excel的百分位函数的方法。

266得票50回答
MySQL中计算中位数的简单方法

如何在 MySQL 中计算中位数,最好是简单快速的方法?我已经使用 AVG(x) 找到了平均值,但我很难找到一种简单的方式来计算中位数。目前,我正在将所有行返回到 PHP 中,排序,然后选择中间行,但肯定有一些简单的方法可以在单个 MySQL 查询中完成。 示例数据:id | val ---...

259得票5回答
Python NumPy中的np.mean()与np.average()有何区别?

我注意到In [30]: np.mean([1, 2, 3]) Out[30]: 2.0 In [31]: np.average([1, 2, 3]) Out[31]: 2.0 然而,由于它们毕竟是两个不同的函数,应该会有一些区别。 它们之间有什么区别?

245得票11回答
在scikit-learn LinearRegression中寻找p值(显著性)。

我怎样找到每个系数的p值(显著性)?lm = sklearn.linear_model.LinearRegression() lm.fit(x,y)

224得票17回答
用Python计算Pearson相关性和显著性

我正在寻找一个函数,它以两个列表作为输入,并返回Pearson相关系数和相关性的显著性。