使用Dask聚类大数据集

3
我已经安装了dask。我的主要目的是对大数据集进行聚类,但在开始工作之前,我想进行一些测试。然而,每当我想运行一个dask代码片段时,它都需要太长时间,最后会出现内存错误。我尝试了他们的Spectral Clustering Example和下面的简短代码。
你认为问题是什么?

from dask.distributed import Client
from sklearn.externals.joblib import parallel_backend
from sklearn.datasets import make_blobs
from sklearn.cluster import DBSCAN

import datetime

X, y = make_blobs(n_samples = 150000, n_features = 2, centers = 3, cluster_std = 2.1)
client = Client()

now = datetime.datetime.now()
model = DBSCAN(eps = 0.5, min_samples = 30)
with parallel_backend('dask'):
    model.fit(X)
print(datetime.datetime.now() - now)

1个回答

1

2
谢谢你的回答。那些支持的Dask聚类算法没有显示预期的输出。我必须使用基于密度的聚类方法(DBSCAN)。你认为我应该使用哪种技术?我还搜索了Apache Spark用于大数据聚类,但是它与Dask存在相同的问题,DBSCAN不在它们的聚类列表中。DBSCAN可以在不使用他们的库的情况下在Apache Spark中实现。但我认为这不会很有效率。我想知道你对此有何看法。 - emily.mi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接