我正在处理一个图像分类问题,正在创建一个词袋模型。为此,我提取了所有图片的SIFT描述符,并且需要使用KMeans算法来找到中心作为我的词袋。
以下是我的数据: - 图像数量:1584 - SIFT描述符数量(32个元素向量):571685 - 中心数量:15840
因此,我运行了KMeans算法来计算我的中心。
以下是我的数据: - 图像数量:1584 - SIFT描述符数量(32个元素向量):571685 - 中心数量:15840
因此,我运行了KMeans算法来计算我的中心。
dico = pickle.load(open('./dico.bin', 'rb')) # np.shape(dico) = (571685, 32)
k = np.size(os.listdir(img_path)) * 10 # = 1584 * 10
kmeans = KMeans(n_clusters=k, n_init=1, verbose=1).fit(dico)
pickle.dump(kmeans, open('./kmeans.bin', 'wb'))
pickle.dump(kmeans.cluster_centers_, open('./dico_reduit.bin', 'wb'))
使用这段代码时,由于我的笔记本电脑内存仅为2GB,因此我遇到了内存错误,所以我决定将中心数量除以2,并随机选择一半的SIFT描述符。然而这次,我得到了一个值错误:数组太大
。
我该如何在不出现内存问题的情况下得到相关结果?
dico
的形状。(因为我对您的帖子中的数字有些困惑;但我没有使用词袋模型的经验) - saschan=batch_size
会在内存中读取,而不是将所有内容读入内存。 - sascha