[已解决]
我的错误在于我没有意识到如果全部为同一类型,则熵为0。因此,如果全部为正数,则熵为0;如果全部为负数,则熵也为零。当正负数量相等时,熵为1。
出现负信息增益是没有意义的。
但是基于这个例子,我得到了一个负信息增益。
以下是数据:
如果我计算湿度属性的信息增益,结果如下:
很明显我在这里漏掉了什么。
编辑: 澄清我的理解。
整个系统的熵定义如下:
在这种情况下,它是这样的:
每个属性的信息增益定义如下:
对于湿度,我计算如下:
系统熵 - (1/4)正常湿度熵 - (3/4)高湿度熵
如此在Libre Office Calc中计算:
或者我对于属性信息增益公式的理解是不正确的吗?