这些函数已经存在于scipy中。Sigmoid函数可以使用scipy.special.expit
进行调用。
In [36]: from scipy.special import expit
将 expit
与矢量化的 sigmoid 函数进行比较:
In [38]: x = np.linspace(-6, 6, 1001)
In [39]: %timeit y = sigmoid(x)
100 loops, best of 3: 2.4 ms per loop
In [40]: %timeit y = expit(x)
10000 loops, best of 3: 20.6 µs per loop
expit
比自己实现公式更快:
In [41]: %timeit y = 1.0 / (1.0 + np.exp(-x))
10000 loops, best of 3: 27 µs per loop
逻辑分布的累积分布函数是S形函数。该函数可通过scipy.stats.logistic
库的cdf
方法获得,但cdf
实际上会调用expit
方法,因此使用该方法没有意义。您可以使用pdf
方法计算S形函数的导数,或使用开销较小的_pdf
方法,但自己编写方法速度更快:
In [44]: def sigmoid_grad(x):
....: ex = np.exp(-x)
....: y = ex / (1 + ex)**2
....: return y
时间 (x 的长度为 1001):
In [45]: from scipy.stats import logistic
In [46]: %timeit y = logistic._pdf(x)
10000 loops, best of 3: 73.8 µs per loop
In [47]: %timeit y = sigmoid_grad(x)
10000 loops, best of 3: 29.7 µs per loop
如果你要使用在分布尾部值较大的数据,请小心实现。指数函数很容易出现溢出情况。相比我快速实现的sigmoid_grad
,logistic._cdf
更加健壮。
In [60]: sigmoid_grad(-500)
/home/warren/anaconda/bin/ipython:3: RuntimeWarning: overflow encountered in double_scalars
import sys
Out[60]: 0.0
In [61]: logistic._pdf(-500)
Out[61]: 7.1245764067412855e-218
使用
sech**2
(
1/cosh**2
) 实现的速度比上述的
sigmoid_grad
稍慢:
In [101]: def sigmoid_grad_sech2(x):
.....: y = (0.5 / np.cosh(0.5*x))**2
.....: return y
.....:
In [102]: %timeit y = sigmoid_grad_sech2(x)
10000 loops, best of 3: 34 µs per loop
但它更好地处理了尾巴:
In [103]: sigmoid_grad_sech2(-500)
Out[103]: 7.1245764067412855e-218
In [104]: sigmoid_grad_sech2(500)
Out[104]: 7.1245764067412855e-218
1/(1+np.exp(-x))
已经能够接受 numpy 数组作为输入,而且非常快(我猜测记忆化不会有任何帮助)。使用vectorize
会使它变慢很多,因为它是使用缓慢的 for 循环实现的。 - Gustav Larsson