如何一致地缩放数据框:MinMaxScaler() sklearn

12

我有三个数据框,每个数据框都使用MinMaxScaler()进行了独立缩放。

def scale_dataframe(values_to_be_scaled)
    values = values_to_be_scaled.astype('float64')
    scaler = MinMaxScaler(feature_range=(0, 1))
    scaled = scaler.fit_transform(values)

    return scaled

scaled_values = []
for i in range(0,num_df):
    scaled_values.append(scale_dataframe(df[i].values))

我遇到的问题是每个数据框根据其自己的列最小值和最大值进行缩放。我需要所有数据框都按照共享一组整体数据列最小值和最大值的方式进行缩放。是否可以使用MinMaxScaler()实现这一点?一个选择是制作一个大数据框,然后在分区之前对数据框进行缩放,但这不是理想的方法。


你可以这样做,但实际上,每个特征(列)都是基于其最大值和最小值进行缩放,而不是基于数据集的最小值和最大值。我认为在所有情况下,您需要根据其最小值和最大值来缩放其列。因此,您应该使用MinMaxScaler。 - seralouk
@serafeim,我编辑了帖子以反映您的意思,希望这样可以澄清。 - xjtc55
1个回答

15

请查看sklearn的优秀文档

正如您所见,它支持partial_fit()!这允许在线缩放/小批量缩放,并且您可以控制小批次!

示例:

import numpy as np
from sklearn.preprocessing import MinMaxScaler

a = np.array([[1,2,3]])
b = np.array([[10,20,30]])
c = np.array([[5, 10, 15]])

""" Scale on all datasets together in one batch """
offline_scaler = MinMaxScaler()
offline_scaler.fit(np.vstack((a, b, c)))                # fit on whole data at once
a_offline_scaled = offline_scaler.transform(a)
b_offline_scaled = offline_scaler.transform(b)
c_offline_scaled = offline_scaler.transform(c)
print('Offline scaled')
print(a_offline_scaled)
print(b_offline_scaled)
print(c_offline_scaled)

""" Scale on all datasets together in minibatches """
online_scaler = MinMaxScaler()
online_scaler.partial_fit(a)                            # partial fit 1
online_scaler.partial_fit(b)                            # partial fit 2
online_scaler.partial_fit(c)                            # partial fit 3
a_online_scaled = online_scaler.transform(a)
b_online_scaled = online_scaler.transform(b)
c_online_scaled = online_scaler.transform(c)
print('Online scaled')
print(a_online_scaled)
print(b_online_scaled)
print(c_online_scaled)

输出:

Offline scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]
Online scaled
[[ 0.  0.  0.]]
[[ 1.  1.  1.]]
[[ 0.44444444  0.44444444  0.44444444]]

谢谢。这正是我需要完成的。 - xjtc55

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接