为什么sklearn提供的one-hot编码器速度如此缓慢?
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(sparse=False, handle_unknown='ignore')
categories = np.expand_dims(np.array(list(map(chr, np.arange(97,123)))), axis=1)
enc.fit(categories)
vec = np.expand_dims(list(map(chr, np.random.randint(97,123,1000))), axis=1)
%timeit enc.transform(np.array([['b']]))
%timeit (categories == 'b')[:,0] *1
输出:
569 µs ± 3.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
3.23 µs ± 58.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
相对于朴素的做法,这种方法慢了100倍,但实际上可以通过利用“categories”元素是唯一的知识来加速。
OneHotEncoder
可能正在解决比您实际需要的问题更难的问题。 - ForceBru