我有一个文档d1,其中包含以"user_id tag_id"的格式构成的行。还有另一个文档d2,其中包含“tag_id tag_name”。
我需要生成具有相似标记行为的用户群集。我想在Python中使用k-means算法尝试此操作。
我完全不了解这个操作,不知道如何开始实施。有没有人可以提供任何指针?
我需要先使用用户的标记词汇从d1中创建不同的文档,然后对这些文档应用k-means算法吗?d1中有约一百万个用户。我不确定自己的想法是否正确,是否需要创建一百万个文件?
我需要先使用用户的标记词汇从d1中创建不同的文档,然后对这些文档应用k-means算法吗?d1中有约一百万个用户。我不确定自己的想法是否正确,是否需要创建一百万个文件?