我正在使用Python/NumPy实现贝叶斯变点检测(如果您感兴趣,可以查看论文)。我需要计算数据范围
[a, b]
的似然性,其中a
和b
可以取从1
到n
的所有值。但是,我可以在某些点上剪枝计算,这样我就不必计算每个似然性。另一方面,有些似然性被多次使用,因此我可以将值保存在矩阵P[a, b]
中以节省时间。现在,每当我使用它时,我都会检查该值是否已经计算过,但我觉得这有点麻烦。它看起来像这样:# ...
P = np.ones((n, n)) * np.inf # a likelihood can't get inf, so I use it
# as pseudo value
for a in range(n):
for b in range(a, n):
# The following two lines get annoying and error prone if you
# use P more than once
if P[a, b] == np.inf:
P[a, b] = likelihood(data, a, b)
Q[a] += P[a, b] * g[a] * Q[a - 1] # some computation using P[a, b]
# ...
我想知道是否有更加直观和符合Python风格的方法来实现此目标,而不需要在每次使用P[a,b]
之前都要写上if...
语句。比如说,如果不满足某些条件就自动调用函数。我当然可以让likelihood
函数意识到它可以保存值,但那样它就需要一些状态(比如变成对象)。我想避免这种情况。
似然函数
由于在评论中被要求提供,我会附上似然函数。它实际上计算了共轭先验和似然函数。而且全部以对数形式表示...所以它非常复杂。
from scipy.special import gammaln
def gaussian_obs_log_likelihood(data, t, s):
n = s - t
mean = data[t:s].sum() / n
muT = (n * mean) / (1 + n)
nuT = 1 + n
alphaT = 1 + n / 2
betaT = 1 + 0.5 * ((data[t:s] - mean) ** 2).sum() + ((n)/(1 + n)) * (mean**2 / 2)
scale = (betaT*(nuT + 1))/(alphaT * nuT)
# splitting the PDF of the student distribution up is /much/ faster. (~ factor 20)
prob = 1
for yi in data[t:s]:
prob += np.log(1 + (yi - muT)**2/(nuT * scale))
lgA = gammaln((nuT + 1) / 2) - np.log(np.sqrt(np.pi * nuT * scale)) - gammaln(nuT/2)
return n * lgA - (nuT + 1)/2 * prob
虽然我使用的是Python 2.7,但2.7和3.x版本的答案都可以。
None
吗?然后,如果P[a, b]
不存在,你就可以使用P[a, b] = likelihood(data, a, b)
。 - user189P
的初始值都是inf
,那么if
语句的条件不应该总是为真吗?或者你在代码的其他部分更改了P
吗? - Bas SwinckelsP[a, b]
被多次使用。因此,if...
语句只用于计算一次。第一次需要P[a, b]
时,我实际上在if
语句中更改了它。为了使问题更清晰,代码有些简化。 - hildensiaNone
,而只能放置数字。但是,为了进行一些其他计算,我需要它成为一个numpy数组。 - hildensiaP[a,b]
时,你可以分别计算P[1,a]
和P[1,b]
,存储这些结果,然后返回它们的差异。之后,你只需要计算先前未见过的P[1,x]
。 - Adrian Ratnapala