神经网络层的权重分布如何解释

5
我设计了一个三层神经网络,其输入是来自CNN和RNN的连接特征。网络学习到的权重非常小,这有什么合理的解释?如何解释Tensorflow中的权重直方图和分布?有没有好的资源可以参考?
这是使用tensorboard可视化的三层神经网络第一隐藏层的权重分布。如何解释这个结果?所有的权重都为零吗?
这是三层神经网络第二隐藏层的权重分布:
2个回答

9
如何解释Tensorflow中的权重直方图和分布?
嗯,你可能没有意识到,但你刚刚问了一个价值100万美元的问题在机器学习和人工智能领域...
模型可解释性是当前研究的超级活跃和超级热门领域(想象一下圣杯之类的东西),最近由于深度学习模型在各种任务中的(通常是巨大的)成功而被提出;这些模型目前只是黑匣子,我们自然感到不舒服...
有任何好的资源吗?
也许不完全是您所想的资源类型,并且我们已经偏离了适合SO的主题,但既然你问了...:

在更实际的层面上:

神经网络的逐层相关性传播(LRP)工具箱(论文项目页面代码TF Slim包装器) Fast Forward Labs的《FairML:审计黑盒预测模型》(博客文章论文代码) Geoff Hinton最近发表的一篇论文(2017年11月),将神经网络提炼成软决策树,配有独立的PyTorch实现 SHAP:解释模型预测的统一方法(论文,作者的代码
这些对于初学者来说应该足够了,能够让你对你所询问的主题有一个大致的了解... 更新(2018年10月):我在回答预测分析-“为什么”因素?的问题中提供了更详细的实用资源清单。

2
网络学习到的权重值非常小,这是为什么?如何解释这个现象?所有的权重都取零值了吗?
并不是所有的权重都是零,但很多是。一个原因是正则化(与大型网络结合使用),正则化使得权重变小(包括L1和L2)。如果您的网络很大,大多数权重是不需要的,即它们可以被设置为零,模型仍然表现良好。
如何解释Tensorflow中的权重直方图和分布?有没有好的资源?
我对权重分布不是很确定。有一些研究对它们进行了分析,但我不知道是否有普遍的解释,例如对于CNNs,已知特征/滤波器的中心权重通常比角落中的权重具有更大的幅度,请参见[Locality-Promoting Representation Learning,2021,ICPR,https://arxiv.org/abs/1905.10661]。对于CNNs,如果您有大型滤波器,还可以直接可视化权重。例如,对于简单的网络,您可以看到权重首先会收敛到某种类平均值,然后才开始过拟合。这在[The learning phases in NN: From Fitting the Majority to Fitting a Few,2022,http://arxiv.org/abs/2202.08299]的图2中显示。除了权重之外,您还可以查看哪些样本触发了特定特征的最强激活。如果您不想查看单个特征,还可以将网络实际上记忆在输入上的内容可视化,例如,请参见[Explaining Neural Networks by Decoding Layer Activations,https://arxiv.org/abs/2005.13630]。这只是一些例子(免责声明,我撰写了这些作品)- 还有成千上万的其他关于可解释性的作品。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接