Python和lmfit:如何使用共享参数拟合多个数据集?

15

我想使用 lmfit 模块对可变数量的数据集进行函数拟合,其中包含一些共享参数和一些独立参数。

以下是一个生成高斯数据并分别对每个数据集进行拟合的示例:

import numpy as np
import matplotlib.pyplot as plt
from lmfit import minimize, Parameters, report_fit

def func_gauss(params, x, data=[]):
    A = params['A'].value
    mu = params['mu'].value
    sigma = params['sigma'].value
    model = A*np.exp(-(x-mu)**2/(2.*sigma**2))

    if data == []:
        return model
    return data-model

x  = np.linspace( -1, 2, 100 )
data = []
for i in np.arange(5):
    params = Parameters()
    params.add( 'A'    , value=np.random.rand() )
    params.add( 'mu'   , value=np.random.rand()+0.1 )
    params.add( 'sigma', value=0.2+np.random.rand()*0.1 )
    data.append(func_gauss(params,x))

plt.figure()
for y in data:
    fit_params = Parameters()
    fit_params.add( 'A'    , value=0.5, min=0, max=1)
    fit_params.add( 'mu'   , value=0.4, min=0, max=1)
    fit_params.add( 'sigma', value=0.4, min=0, max=1)
    minimize(func_gauss, fit_params, args=(x, y))
    report_fit(fit_params)

    y_fit = func_gauss(fit_params,x)
    plt.plot(x,y,'o',x,y_fit,'-')
plt.show()


# ideally I would like to write:
#
# fit_params = Parameters()
# fit_params.add( 'A'    , value=0.5, min=0, max=1)
# fit_params.add( 'mu'   , value=0.4, min=0, max=1)
# fit_params.add( 'sigma', value=0.4, min=0, max=1, shared=True)
# minimize(func_gauss, fit_params, args=(x, data))
#
# or:
#
# fit_params = Parameters()
# fit_params.add( 'A'    , value=0.5, min=0, max=1)
# fit_params.add( 'mu'   , value=0.4, min=0, max=1)
#
# fit_params_shared = Parameters()
# fit_params_shared.add( 'sigma', value=0.4, min=0, max=1)
# call_function(func_gauss, fit_params, fit_params_shared, args=(x, data))
2个回答

18
我认为你已经走了大部分的路。你需要将数据集放入一个数组或结构中,以便在一个全局目标函数中使用,然后将其传递给minimize()函数并使其适用于所有数据集和一组参数。你可以根据需要在数据集之间共享这组参数。对你的示例稍作扩展,下面的代码确实能够对5个不同的高斯函数进行单次拟合。如果要展示如何在数据集之间绑定参数,我在这5个数据集中使用了几乎相同的sigma值。我创建了5个不同的sigma参数("sig_1"、 "sig_2"、...、"sig_5"),但是通过数学约束强制使它们具有相同的值。因此,该问题中的变量总数为11,而不是15。
import numpy as np
import matplotlib.pyplot as plt
from lmfit import minimize, Parameters, report_fit

def gauss(x, amp, cen, sigma):
    "basic gaussian"
    return amp*np.exp(-(x-cen)**2/(2.*sigma**2))

def gauss_dataset(params, i, x):
    """calc gaussian from params for data set i
    using simple, hardwired naming convention"""
    amp = params['amp_%i' % (i+1)].value
    cen = params['cen_%i' % (i+1)].value
    sig = params['sig_%i' % (i+1)].value
    return gauss(x, amp, cen, sig)

def objective(params, x, data):
    """ calculate total residual for fits to several data sets held
    in a 2-D array, and modeled by Gaussian functions"""
    ndata, nx = data.shape
    resid = 0.0*data[:]
    # make residual per data set
    for i in range(ndata):
        resid[i, :] = data[i, :] - gauss_dataset(params, i, x)
    # now flatten this to a 1D array, as minimize() needs
    return resid.flatten()

# create 5 datasets
x  = np.linspace( -1, 2, 151)
data = []
for i in np.arange(5):
    params = Parameters()
    amp   =  0.60 + 9.50*np.random.rand()
    cen   = -0.20 + 1.20*np.random.rand()
    sig   =  0.25 + 0.03*np.random.rand()
    dat   = gauss(x, amp, cen, sig) + np.random.normal(size=len(x), scale=0.1)
    data.append(dat)

# data has shape (5, 151)
data = np.array(data)
assert(data.shape) == (5, 151)

# create 5 sets of parameters, one per data set
fit_params = Parameters()
for iy, y in enumerate(data):
    fit_params.add( 'amp_%i' % (iy+1), value=0.5, min=0.0,  max=200)
    fit_params.add( 'cen_%i' % (iy+1), value=0.4, min=-2.0,  max=2.0)
    fit_params.add( 'sig_%i' % (iy+1), value=0.3, min=0.01, max=3.0)

# but now constrain all values of sigma to have the same value
# by assigning sig_2, sig_3, .. sig_5 to be equal to sig_1
for iy in (2, 3, 4, 5):
    fit_params['sig_%i' % iy].expr='sig_1'

# run the global fit to all the data sets
result = minimize(objective, fit_params, args=(x, data))
report_fit(result)

# plot the data sets and fits
plt.figure()
for i in range(5):
    y_fit = gauss_dataset(fit_params, i, x)
    plt.plot(x, data[i, :], 'o', x, y_fit, '-')

plt.show()

说实话,我认为最好将多个数据集保存在字典或 DataSet 类的列表中,而不是使用多维数组。希望这能帮助你真正需要做的事情。

这是一个很好的例子!它真正展示了参数中 expr 参数的实用性。 - Merlin
我不太明白这里的某些内容。当你进行全局拟合时,你希望找到最适合多个数据集的最佳公共参数。使用这种方法,难道不是要将所有其他的标准差都等同于第一个吗?全局最小值如何被发现呢? - iasonas
此外,在lmfit的最新版本0.9中,参数对象不会被更改而是被复制。因此,为了使此脚本正常工作,您必须在最后几行进行更改:将 minimize(objective, fit_params, args=(x, data)) --> 更改为 result = minimize(objective, fit_params, args=(x, data)) 并且:fit_params --> result.params - iasonas
1
实际上,我尝试编辑原始答案以更正最近评论中指出的API在0.8和0.9之间的记录和更改行为。作为有关软件的首席作者,我认为这应该是可以接受的。然而被三名SO评审人员拒绝,他们宁愿保留错误的答案,也不愿意更新答案以反映已更改的API。有时候SO似乎更喜欢散布虚假信息... - M Newville
只需将result.fit_params替换为fit_params(result.fit_paramspython 3.8lmfit==1.0.1下无法正常工作)。 - ecjb
显示剩余2条评论

1

我采用了简单的方法:定义一个名为firs n(= cargsnum)的函数,其中n个参数是所有数据集共同的,其他参数是个体的。

def likelihood_common(var, xlist, ylist, mlist, cargsnum):
    cvars = var[:cargsnum]
    iargnum = [model.func_code.co_argcount - 1 - cargsnum for model in mlist]
    argpos = [cargsnum,] + list(np.cumsum(iargnum[:-1]) + cargsnum)
    args = [list(cvars) + list(var[pos:pos+iarg]) for pos, iarg in zip(argpos, iargnum)]
    res = [likelihood(*arg) for arg in zip(args, xlist, ylist, mlist)]
    return np.sum(res)

假设每个数据集都有相同的权重。 我在这种方法中遇到的问题是计算速度非常慢,而且在拟合参数和数据集数量较大时不稳定。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接