对于一个numpy数组，如何每n个元素求平均值？

Question

对于一个numpy数组，如何每n个元素求平均值？

92

我有一个numpy数组。我希望创建一个新数组，该数组是每个连续三元组元素的平均值。因此，新数组的大小将是原始数组的三分之一。

例如：

 np.array([1,2,3,1,2,3,1,2,3])

应该返回数组：

 np.array([2,2,2])

有人能建议一种高效的方法来做这件事吗？我一直想不出来。

- user1654183

3个回答

13

对于寻找多维数组通用简化方法的谷歌用户：可以使用在scikit-image模块中的block_reduce函数（文档链接）。

该函数具有非常简单的接口，通过应用numpy.mean等函数来降低数组的采样率，但也可以使用其他函数（例如最大值、中位数等）。通过提供不同大小的块的元组，在不同轴上使用不同的因子进行下采样。以下是一个使用2D数组的示例；仅通过平均值将轴1下采样5次：

import numpy as np
from skimage.measure import block_reduce

arr = np.stack((np.arange(1,20), np.arange(20,39)))

# array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
#        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38]])

arr_reduced = block_reduce(arr, block_size=(1,5), func=np.mean, cval=np.mean(arr))

# array([[ 3. ,  8. , 13. , 17.8],
#        [22. , 27. , 32. , 33. ]])

正如在其他回答的评论中讨论的那样：如果减少维度的数组大小不能被块大小整除，则参数cval （默认值为0）提供填充值。

- L_W

1

将已接受的答案应用于每列/特征的二维数组：

arr.reshape(-1, downsample_ratio, arr.shape[1]).mean(axis = 1)

- meliksahturker

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jaime · Accepted Answer

153

如果你的数组arr的长度是3的倍数：

np.mean(arr.reshape(-1, 3), axis=1)

将数组转换为高维数组，然后对其中一个附加维度执行某种形式的约简操作是numpy编程的基础。

- Jaime

19

Jaime - 谢谢你，这是一种非常优雅的做事方式。你有没有关于所谓的“numpy编程的基本要素”可以阅读的建议？ - user1654183

14

еҰӮжһңarrзҡ„й•ҝеәҰдёҚжҳҜ3зҡ„еҖҚж•°пјҢеҸҜд»Ҙиҝҷж ·еҒҡпјҡ

arr = np.nanmean(np.pad(arr.astype(float), (0, 3 - arr.size%3), mode='constant', constant_values=np.NaN).reshape(-1, 3), axis=1)

е°ҶarrиҪ¬жҚўдёәжө®зӮ№еһӢпјҢз”ЁNaNеЎ«е……дҪҝе…¶й•ҝеәҰжҲҗдёә3зҡ„еҖҚж•°еҗҺпјҢеҶҚжҢүз…§жҜҸ3дёӘе…ғзҙ дёҖз»„иҝӣиЎҢе№іеқҮеҖји®Ўз®—пјҢе№¶иҝ”еӣһз»“жһңгҖӮ - plong0

4

@plong0发表的填充注释对我很有帮助，但为了使其通用，即使你的数组也可以被3整除，我不得不添加另一个模数来调整填充大小：(0, ((3 - arr.size%3) % 3))，或者类似这样的(0, 0 if arr.size % 3 == 0 else 3 - arr.size % 3)。 - Scott Staniewicz

7

对于一个长度不一定是3的倍数的数组，我使用了np.mean(arr[:(len(arr)//3)*3].reshape(-1,3), axis=1)这个方法，我认为这个方法更简单。我相信这对于Python2和Python3都适用。 - Chris

2

@Chris 这不一样，因为它只是丢弃最后一组的数据（如果它不是一个由3个元素组成的组），而上面的解决方案也适用于剩余的组。 - bluenote10

@bluenote10：我认为这是一个优点，而不是缺点。你真的不想包括那些平均值“较低”的数值（在我的用例中）应该被丢弃。 - Chris