神经网络层的权重分布如何解释

Question

神经网络层的权重分布如何解释

machine-learningtensorflowneural-networkdeep-learning

5

我设计了一个三层神经网络，其输入是来自CNN和RNN的连接特征。网络学习到的权重非常小，这有什么合理的解释？如何解释Tensorflow中的权重直方图和分布？有没有好的资源可以参考？

这是使用tensorboard可视化的三层神经网络第一隐藏层的权重分布。如何解释这个结果？所有的权重都为零吗？

这是三层神经网络第二隐藏层的权重分布：

- naeha

2个回答

2

网络学习到的权重值非常小，这是为什么？如何解释这个现象？所有的权重都取零值了吗？

并不是所有的权重都是零，但很多是。一个原因是正则化（与大型网络结合使用），正则化使得权重变小（包括L1和L2）。如果您的网络很大，大多数权重是不需要的，即它们可以被设置为零，模型仍然表现良好。

如何解释Tensorflow中的权重直方图和分布？有没有好的资源？

我对权重分布不是很确定。有一些研究对它们进行了分析，但我不知道是否有普遍的解释，例如对于CNNs，已知特征/滤波器的中心权重通常比角落中的权重具有更大的幅度，请参见[Locality-Promoting Representation Learning，2021，ICPR，https://arxiv.org/abs/1905.10661]。对于CNNs，如果您有大型滤波器，还可以直接可视化权重。例如，对于简单的网络，您可以看到权重首先会收敛到某种类平均值，然后才开始过拟合。这在[The learning phases in NN: From Fitting the Majority to Fitting a Few，2022，http://arxiv.org/abs/2202.08299]的图2中显示。除了权重之外，您还可以查看哪些样本触发了特定特征的最强激活。如果您不想查看单个特征，还可以将网络实际上记忆在输入上的内容可视化，例如，请参见[Explaining Neural Networks by Decoding Layer Activations，https://arxiv.org/abs/2005.13630]。这只是一些例子（免责声明，我撰写了这些作品）- 还有成千上万的其他关于可解释性的作品。

- J.T.

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- desertnaut · Accepted Answer

如何解释Tensorflow中的权重直方图和分布？

嗯，你可能没有意识到，但你刚刚问了一个价值100万美元的问题在机器学习和人工智能领域...

模型可解释性是当前研究的超级活跃和超级热门领域（想象一下圣杯之类的东西），最近由于深度学习模型在各种任务中的（通常是巨大的）成功而被提出；这些模型目前只是黑匣子，我们自然感到不舒服...

有任何好的资源吗？

也许不完全是您所想的资源类型，并且我们已经偏离了适合SO的主题，但既然你问了...：

一篇2017年7月的Science文章提供了关于当前深度学习技术现状和研究的概述：AI侦探如何揭开深度学习的黑匣子（没有内部链接，但搜索名称和术语将会有所收获）
DARPA本身正在进行可解释人工智能（XAI）计划。
在NIPS 2016上有一个有关复杂系统可解释机器学习的研讨会。

在更实际的层面上：

神经网络的逐层相关性传播（LRP）工具箱（论文，项目页面，代码，TF Slim包装器） Fast Forward Labs的《FairML：审计黑盒预测模型》（博客文章，论文，代码) Geoff Hinton最近发表的一篇论文（2017年11月），将神经网络提炼成软决策树，配有独立的PyTorch实现 SHAP：解释模型预测的统一方法（论文，作者的代码）

这些对于初学者来说应该足够了，能够让你对你所询问的主题有一个大致的了解... 更新（2018年10月）：我在回答预测分析-“为什么”因素？的问题中提供了更详细的实用资源清单。