scikit-learn的MinMaxScaler与NumPy实现相比产生略微不同的结果

Question

scikit-learn的MinMaxScaler与NumPy实现相比产生略微不同的结果

pythonnumpynormalizationscikit-learnscaling

8

我将scikit-learn的Min-Max缩放器与使用NumPy的“手动”方法进行了比较。然而，我注意到结果略有不同。有人能解释一下吗？

使用以下公式进行Min-Max缩放：

enter image description here

这应该与scikit-learn的公式相同：(X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

我按照以下方式使用两种方法：

def numpy_minmax(X):
    xmin =  X.min()
    return (X - xmin) / (X.max() - xmin)

def sci_minmax(X):
    minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
    return minmax_scale.fit_transform(X)

在一个随机样本中：

import numpy as np

np.random.seed(123)

# A random 2D-array ranging from 0-100

X = np.random.rand(100,2)
X.dtype = np.float64
X *= 100

结果略有不同：

from matplotlib import pyplot as plt

sci_mm = sci_minmax(X)
numpy_mm = numpy_minmax(X)

plt.scatter(numpy_mm[:,0], numpy_mm[:,1],
        color='g',
        label='NumPy bottom-up',
        alpha=0.5,
        marker='o'
        )

plt.scatter(sci_mm[:,0], sci_mm[:,1],
        color='b',
        label='scikit-learn',
        alpha=0.5,
        marker='x'
        )

plt.legend()
plt.grid()

plt.show()

enter image description here

- user2489252

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- behzad.nouri · Accepted Answer

scikit-learn 逐个处理每个特征。因此，在进行 min 操作时，必须指定 axis=0，否则 numpy.min 将对数组中的所有元素求最小值，而不是单独对每一列求最小值：

>>> xs
array([[1, 2],
       [3, 4]])
>>> xs.min()
1
>>> xs.min(axis=0)
array([1, 2])

numpy.max也是同样的情况；因此正确的函数应为：

def numpy_minmax(X):
    xmin =  X.min(axis=0)
    return (X - xmin) / (X.max(axis=0) - xmin)

这样做可以得到一个精确匹配：

精确匹配