NumPy直方图 - ValueError范围参数必须是有限的 - 输入数组没有问题。

4

我很难理解这个错误,因为我会给你一个正常工作的例子和一个我感兴趣的但是 不正常 的例子。

我需要分析一个包含一整年每小时价格的数据集,称为 sys_prices,经过各种转换后,它是一个具有 8785 行(1 列)的 numpy.ndarray 对象,每行都是一个只包含一个元素的 numpy.ndarray 项目,该元素为一个 numpy.float64 数字。

不正常的代码如下:

stop_day = 95
start_day = stop_day - 10 # 10 days before
stop_day = (stop_day-1)*24
start_day = (start_day-1)*24

pcs=[] # list of prices to analyse
for ii in range(start_day, stop_day):
    pcs.append(sys_prices[ii][0])

p, x = np.histogram(pcs, bins='fd') 

*24的部分是调整数据集中的索引,以尊重每小时的分辨率。

我期望将列表pcs提供给histogram方法,以便将我的直方图值和箱边缘分别放入px中。

我之所以这样说是因为以下代码可行

start_day = 1 
start_month = 1 
start_year = 2016 
stop_day = 1
stop_month = 2 
stop_year = 2016
num_prices = (date(stop_year, stop_month, stop_day) - date(start_year, start_month, start_day)).days*24

jan_prices = []
for ii in range(num_prices):
    jan_prices.append(sys_prices[ii][0])

p, x = np.histogram(jan_prices, bins='fd') # bin the data`

代码的区别在于,有效的代码只分析从一年中选择的某一天开始向后任意期间内的10天,而工作示例使用1月份所有价格(例如数据集的前744个值)。

更奇怪的是:我使用了不同的“stop_day”值,似乎95会引发错误,而99、100或200则不会。您能帮我吗?

请展示完整的错误信息,包括堆栈跟踪。 - user2357112
听起来你的输入中有无限或NaN值。 - user2357112
@user2357112,是的,这就是它听起来的样子。但是我不明白为什么同一个数据集,不同的切片方式,有时会产生错误,有时则不会。完整的错误信息如下:`Traceback (most recent call last): File "<ipython-input-2-ec3777e6831e>", line 11, in <module> p, x = np.histogram(pcs, bins='fd') # bin the data File "C:\Users\Filippo\Anaconda3\lib\site-packages\numpy\lib\function_base.py", line 669, in histogram 'range parameter must be finite.')ValueError: range parameter must be finite.` - Filippo Antonio Capizzi
我进入了 function_base 来理解它,似乎一些 minimummaximum 变量是无限的 NaN。考虑到数据集中充满了浮点数,其中一些小数部分有周期性数字,这可能是原因吗?当将它们附加到列表中时,我已经应用了 float 方法来处理这些数字:这样做可以解决问题吗? - Filippo Antonio Capizzi
2个回答

6
我解决了它,数据集中有一个我没有发现的 NaN。
对于那些想知道如何找到它的人,我只是使用了这段代码来找到项目的索引:
nanlist=[]
for ii in range(len(array)):
    if numpy.isnan(array[ii]):
        nanlist.append(ii)

array是您的容器。


3
请注意,您可以使用 np.argwhere(np.isnan(array)) 来执行该循环。 - Dan D.
1
@DanD。谢谢,我不知道那个方法!它应该更快,对吧? - Filippo Antonio Capizzi
1
更重要的是,它可以处理多维数组。 - Dan D.

1
问题产生的原因是,直方图默认使用min(pcs)和max(pcs)来确定bin的最小和最大范围,但由于数据集中存在nan,因此min和max变成了nan。您可以通过使用np.nanminnp.nanmax作为范围参数来解决这个问题。

p,x = np.histogram(pcs,range=(np.nanmin(pcs),np.nanmax(pcs)),bins ='fd')

我认为这比接受的答案更好,因为它不需要修改pcs。


1
你好 @kkawabat,感谢你的回答!回顾之前的解决方案,那只是一个不能工作的“修复”。相反,你的解决方案是实用且无误的。 - Filippo Antonio Capizzi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接