连续与离散人工神经网络

14

我知道这可能是一个非常小众的问题,但有没有人有使用连续神经网络的经验?我特别想知道连续神经网络与通常用于离散神经网络的用途有何区别。

为了明确起见,我要澄清一下我所说的“连续神经网络”的含义,因为我认为它有不同的解释。我并不是指激活函数是连续的。相反,我暗示了将隐藏层中的神经元数量增加到无限数量的想法。

因此,为了明确起见,这是您典型的离散NN的架构:

alt text
(来源:garamatt at sites.google.com)

x是输入,g是隐藏层的激活函数,v是隐藏层的权重,w是输出层的权重,b是偏置,输出层具有线性激活(即无)。

离散NN和连续NN之间的区别如下图所示:

alt text
(来源:garamatt at sites.google.com)

也就是说,您让隐藏神经元数量变为无限大,以便您的最终输出是一个积分。在实践中,这意味着您不是计算确定性总和,而是必须使用数值积分来近似相应的积分。

显然,神经网络的一个普遍误解是太多的隐藏神经元会导致过拟合。

我的问题特指离散和连续神经网络的定义,我想知道是否有人有使用后者的经验以及他们用它做了什么。

更多关于这个主题的描述可以在这里找到:http://www.iro.umontreal.ca/~lisa/seminaires/18-04-2006.pdf


你是指输入还是目标是离散的/连续的? - Amro
我大致浏览了你提到的那篇论文,但只是轻描淡写地看了一下。它似乎更多是理论探讨,而不是实际应用(但我可能记错了)。无论如何,这是一个相当新的话题,所以你很难在现实世界中找到任何人将其应用。你最好的机会是通过谷歌学术搜索学术论文来寻找连续神经网络的用途。 - Junier
5个回答

2
我认为这只对试图证明没有函数超出NN架构逼近能力的理论家感兴趣,或者它可能是一种通过反向传播构建分段线性逼近函数的方法。如果是后者,我认为已经存在比反向传播更快、更不易受局部最小值影响且更少过拟合的方法。
我对NN的理解是,连接和神经元包含了它所训练的数据的压缩表示。关键在于你有一个需要比"常规教训"更多内存的大型数据集,这是每个例子中都突出的。NN被认为是经济的容器,将从这个巨大的语料库中提炼出这个常规教训。
如果你的NN有足够的隐藏单元来密集采样原始函数,这等价于说你的NN足够大,可以记忆训练语料库(而不是从中推广)。把训练语料库看作是原始函数在给定分辨率下的样本。如果NN有足够的神经元以比你的训练语料库更高的分辨率采样函数,那么系统没有推广的压力,因为它不受限于神经元数量。
由于没有引入也不需要推广,你可以通过将所有训练数据存储在内存中并使用k最近邻来记忆语料库,这将始终比任何NN表现更好,并且即使NN的采样分辨率趋近于无限,它也始终能与任何NN一样表现良好。

也许您可以澄清“无限”一词的用法,例如我们的描述:“将隐藏层中的神经元数量增加到无限数量”。我认为这里使用“无限”意味着没有上限。我认为您的意思是选择足够大的隐藏单元数以在给定分辨率下对特定函数进行采样。 - Eric
好的,我只是将理论与实际实现分开。理论上,您可以构建一个具有无限数量隐藏神经元的神经网络,以便在评估时具有与计算该积分相同的效果。实际上,这意味着您需要近似计算积分,而不是直接计算。我并没有说要在内存中构建这样的神经网络。 - ldog
我的理解是神经网络中的连接和神经元包含对其训练数据的压缩表示。但实际情况并非如此。通常情况下,经过良好训练的网络将学习隐藏单元中的滤波器,以揭示对分类任务有用的相关性,但这并不总是正确的,并且“压缩”肯定不是考虑它的方式。 - dwf
非常有趣的观点,点个赞。简洁地说:没有任何偏见,你就不算真正“学习”。但是你可能会认为,拥有无限数量的单元不会引入任何偏见。我相信这篇论文会解决这个问题。 - Junier
你能详细说明一下吗?如果是后者,我认为有比反向传播更快、更不容易受到局部最小值的影响以及更不容易过拟合的现有方法。 - Noein
显示剩余3条评论

2
这个术语在机器学习文献中并没有完全流行起来,这就解释了所有的困惑。看起来这是一篇孤立的论文,但它确实很有趣,但它并没有真正引导出什么结果,这可能意味着几件事情; 作者可能只是失去了兴趣。
我知道贝叶斯神经网络(具有可数隐藏单元,连续神经网络的论文扩展到不可数情况)已经成功地被 Radford Neal 使用(请参见他的论文,关于这方面的所有内容),以贝叶斯神经网络赢得了NIPS 2003特征选择挑战

哦,有趣,我会深入研究它。 - ldog

1

过去我曾经参与过几个使用连续神经网络的研究项目。激活函数使用双极双曲正切函数,网络接收数百个浮点输入并输出约一百个浮点值。

在这个特定案例中,网络的目标是学习矿物列车的动态方程。网络接收列车当前状态并预测未来50秒内的速度、车厢间动力学以及其他列车行为。

这个项目的理念主要是关于性能。这个项目针对嵌入式设备,评估神经网络比解决传统的ODE(常微分方程)系统更加高效。

总的来说,连续神经网络应该能够学习任何类型的函数。当使用确定性方法无法解决系统时,这尤其有用。相对于二进制网络通常用于模式识别/分类目的。

由于非确定性的本质,任何类型的神经网络都是敏感的,选择正确的输入/网络架构可能会有些黑科技。


2
Hayman,我认为你没有回答问题。正如gmatt所说的那样,他并不是在询问具有连续激活函数(如sigmoid或tanh)的NN。事实上,感知器ANN(具有阶跃函数激活,即您所谓的“二进制网络”)实际上并未被使用,因为它们不可微分,因此无法与反向传播一起使用。此外,除了权重的随机初始化之外,我不确定训练ANN的非确定性在哪里;您所说的ANN的非确定性本质是什么意思? - Junier

0

前馈神经网络始终是“连续”的——这是反向传播学习实际上起作用的唯一方式(您无法通过离散/阶跃函数进行反向传播,因为在偏置阈值处它是不可微分的)。

您可能具有输入或目标输出的离散(例如“one-hot”)编码,但所有计算都是连续值。输出可能会受到限制(即使用softmax输出层,使输出总是加起来为1,这在分类设置中很常见),但仍然是连续的。

如果您指的是预测连续、不受限制的目标的网络,请考虑任何预测问题,其中“正确答案”不是离散的,线性回归模型将不足以解决。例如,在各种金融预测应用中,递归神经网络曾经是一种时尚的方法。


1
其实,我也不确定你们两个回答中的任何一个是否理解我所说的连续NN。我的意思不是激活是连续的,而是请看http://www.iro.umontreal.ca/~lisa/seminaires/18-04-2006.pdf。这个想法是用“无限”的数量替换隐藏单元的数量,使得你的总和变成一个积分。理论上,这应该比通常的方法有很多好处。我会在我的问题中添加这个细节,以使事情更清晰。 - ldog
啊,我还记得这篇论文,有点模糊。正在写另一个答案。 - dwf

0

连续神经网络并不被认为是通用逼近器(在$L^p$或$C(\mathbb{R})$拓扑上的紧致一致收敛意义下的密度,即通用逼近定理中的意义),但仅在本文中的意义下是通用插值器: https://arxiv.org/abs/1908.07838


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接