使用Dask聚类大数据集

Question

使用Dask聚类大数据集

scikit-learncluster-computingcluster-analysisdaskdbscan

3

我已经安装了dask。我的主要目的是对大数据集进行聚类，但在开始工作之前，我想进行一些测试。然而，每当我想运行一个dask代码片段时，它都需要太长时间，最后会出现内存错误。我尝试了他们的Spectral Clustering Example和下面的简短代码。

你认为问题是什么？


from dask.distributed import Client
from sklearn.externals.joblib import parallel_backend
from sklearn.datasets import make_blobs
from sklearn.cluster import DBSCAN

import datetime

X, y = make_blobs(n_samples = 150000, n_features = 2, centers = 3, cluster_std = 2.1)
client = Client()

now = datetime.datetime.now()
model = DBSCAN(eps = 0.5, min_samples = 30)
with parallel_backend('dask'):
    model.fit(X)
print(datetime.datetime.now() - now)

- emily.mi

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MRocklin · Accepted Answer

Scikit-Learn算法并不适用于训练大型数据集，而是适用于内存中的数据。具体内容可参考：https://ml.dask.org/#parallelize-scikit-learn-directly

Dask ML等项目提供了其他看起来像Scikit-Learn的算法，但实现方式不同，支持更大的数据集大小。如果您正在寻找聚类，则可以查看此页面以了解当前支持的内容：https://ml.dask.org/clustering.html