如何评估降维技术?

4

我有一个NxM的二进制数据集。我对其应用了多种降维技术并绘制了前两个维度。这是我获取是否适用于我的数据集的直觉的方式。是否有更合适/系统化/启发式/正式的方法来测试我使用的降维技术的适用性呢?


为什么要使用Matlab呢?它看起来高效而强大,但它也有帮助吗?你需要为黑匣子解决方案付出代价。 - Micromega
你有什么推荐? - JustCurious
我想为它付款,但我是个穷人。 - Micromega
2个回答

1
应用降维技术的主要目的是尽可能地捕获原始数据的分布,即使在降维后也是如此。因此,我们要确保尽可能地捕获数据的方差。假设您有一个N*N矩阵,并且我们对X执行SVD(奇异值分解)。然后,我们将观察奇异值,即结果S矩阵中的对角线条目。(X = USV)并且您想基于所需的百分比方差截断它们到某个索引K。如果您选择U的前K列,则将原始N维降至K维。

0

你可以使用SOM技术在二维空间中看到多个维度。还有其他的技术,如果我能记起它们的名字,我会更新答案,但我习惯于使用SOM。

你可以点击这里找到一个很好的Matlab SOM工具箱。

这有助于你进行可视化,但评估应该使用效率计来衡量对于你的降维最重要的是什么(SOM本身可以用作降维技术)。什么是重要的,以最小的损失压缩数据?尽可能地压缩数据?以可见的方式表示数据?你可以通过一个好的函数来测量你的技术有多好,而不需要看到它们如何改变数据空间的表示。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接