我有一个numpy数组。我希望创建一个新数组,该数组是每个连续三元组元素的平均值。因此,新数组的大小将是原始数组的三分之一。
例如:
np.array([1,2,3,1,2,3,1,2,3])
应该返回数组:
np.array([2,2,2])
有人能建议一种高效的方法来做这件事吗?我一直想不出来。
arr
的长度是3的倍数:np.mean(arr.reshape(-1, 3), axis=1)
将数组转换为高维数组,然后对其中一个附加维度执行某种形式的约简操作是numpy编程的基础。
对于寻找多维数组通用简化方法的谷歌用户:可以使用在scikit-image
模块中的block_reduce
函数(文档链接)。
该函数具有非常简单的接口,通过应用numpy.mean
等函数来降低数组的采样率,但也可以使用其他函数(例如最大值、中位数等)。通过提供不同大小的块的元组,在不同轴上使用不同的因子进行下采样。以下是一个使用2D数组的示例;仅通过平均值将轴1下采样5次:
import numpy as np
from skimage.measure import block_reduce
arr = np.stack((np.arange(1,20), np.arange(20,39)))
# array([[ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
# [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38]])
arr_reduced = block_reduce(arr, block_size=(1,5), func=np.mean, cval=np.mean(arr))
# array([[ 3. , 8. , 13. , 17.8],
# [22. , 27. , 32. , 33. ]])
正如在其他回答的评论中讨论的那样:如果减少维度的数组大小不能被块大小整除,则参数cval (默认值为0)提供填充值。
将已接受的答案应用于每列/特征的二维数组:
arr.reshape(-1, downsample_ratio, arr.shape[1]).mean(axis = 1)
arr
зҡ„й•ҝеәҰдёҚжҳҜ3зҡ„еҖҚж•°пјҢеҸҜд»Ҙиҝҷж ·еҒҡпјҡarr = np.nanmean(np.pad(arr.astype(float), (0, 3 - arr.size%3), mode='constant', constant_values=np.NaN).reshape(-1, 3), axis=1)
е°Ҷarr
иҪ¬жҚўдёәжө®зӮ№еһӢпјҢз”ЁNaNеЎ«е……дҪҝе…¶й•ҝеәҰжҲҗдёә3зҡ„еҖҚж•°еҗҺпјҢеҶҚжҢүз…§жҜҸ3дёӘе…ғзҙ дёҖз»„иҝӣиЎҢе№іеқҮеҖји®Ўз®—пјҢ并иҝ”еӣһз»“жһңгҖӮ - plong0(0, ((3 - arr.size%3) % 3))
,或者类似这样的(0, 0 if arr.size % 3 == 0 else 3 - arr.size % 3)
。 - Scott Staniewicznp.mean(arr[:(len(arr)//3)*3].reshape(-1,3), axis=1)
这个方法,我认为这个方法更简单。我相信这对于Python2和Python3都适用。 - Chris