我正在学习R语言,需要对带有时间戳字段的数字数据进行聚类。其中一个参数是时间,由于数据严格依赖于白天和黑夜,我想考虑到这些数据的“球形”特性。
从手册中了解到,如skmeans等库无法处理“圆柱形”数据,只能处理“球形”数据(即所有组件都在极坐标系中)。
针对这个问题,我的解决方案是:将小时列(0-24)分解为两个不同的列X和Y,并将时间表达为极坐标,例如x^2+y^2=1。这样,使用欧几里得距离的k-means应该可以正确解释数据。
我的想法正确吗?
从手册中了解到,如skmeans等库无法处理“圆柱形”数据,只能处理“球形”数据(即所有组件都在极坐标系中)。
针对这个问题,我的解决方案是:将小时列(0-24)分解为两个不同的列X和Y,并将时间表达为极坐标,例如x^2+y^2=1。这样,使用欧几里得距离的k-means应该可以正确解释数据。
我的想法正确吗?