熵和信息增益

3

希望这个问题不难。

如果我有这样一组数据:

Classification  attribute-1  attribute-2

Correct         dog          dog 
Correct         dog          dog
Wrong           dog          cat 
Correct         cat          cat
Wrong           cat          dog
Wrong           cat          dog

那么相对于属性1,属性2的信息增益是多少呢?
我已经计算了整个数据集的熵:-(3/6)log2(3/6)-(3/6)log2(3/6)=1
然后我卡住了!我认为您需要计算属性1和属性2的熵。然后将这三个计算结果用于信息增益计算?
任何帮助都将不胜感激,
谢谢 :)。
1个回答

8

首先,您需要计算每个属性的熵值。然后计算信息增益。稍等片刻,我会展示应该如何完成。

对于属性1:

attr-1=dog:
info([2c,1w])=entropy(2/3,1/3)

attr-1=cat
info([1c,2w])=entropy(1/3,2/3)

属性-1的值:

info([2c,1w],[1c,2w])=(3/6)*info([2c,1w])+(3/6)*info([1c,2w])

属性-1的收益:

gain("attr-1")=info[3c,3w]-info([2c,1w],[1c,2w])

你需要对下一个属性做同样的操作。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接