我遇到了一个奇怪的高维聚类问题。以下是一个类比来解释它。
假设有2^10个人进入一片森林,我们想知道那里有多少种鸟。
这些鸟在128个维度上不同,所有维度都是二进制的。也就是说:一只鸟有大喙或小喙,有蓝色的翅膀或没有等。 (每个鸟种可以用128个位表示)
我的问题是,当这些人离开森林时,我们只有他们观察到的聚合数据:
“我看到8只鸟,其中3只有蓝色的喙(5只没有),4只有蓝色的翅膀(4只没有),1只有大喙(7只没有)等”。他们没有报告他们观察到的个体特征,而只报告了聚合数据。
还有两个额外的限制:
i)所有物种至少被观察一次; ii)物种数量很少(〜2 ^ 5)。
当然,我们可以编译他们的聚合数据的聚合数据(3000次观察中,357只鸟有大喙等)。但是聚类呢?
所以问题是:
我们如何找出那里有多少种鸟?
我们如何找出每个物种的特征?