在CNN中,卷积操作将一个核矩阵与输入矩阵进行“卷积”。现在,我知道全连接层如何利用梯度下降和反向传播进行训练。但是核矩阵如何随时间变化呢?核矩阵的初始化有多种方式,如Keras文档所述。然而,我想知道它是如何被训练的?如果也使用反向传播,那么是否有详细描述训练过程的论文? 这篇文章也提出了类似的问题,但没有得到答案。