矩阵求导术(一)——标量对矩阵的求导方法

发布时间:2023-12-29 20:15:16

矩阵求导术(一)——标量对矩阵的求导方法

  • 前言

自从开始了解机器学习、深度学习的知识以来,便免不了要同矩阵打交道。

矩阵的基本运算法则、矩阵分解等均是很重要的基础知识,不论是在统计机器学习领域还是在如今大火的深度学习领域。矩阵运算使得多变量计算式可以更加简洁地表达,从而提高算法开发效率。但好在上述知识在一般的线性代数教材上均有详细阐述,但一旦涉及矩阵求导,就仿佛涉足了一个线性代数与数学分析的接壤区域,鲜有专门的教材体积如何计算矩阵求导。

最先是在一个微信公众号上读到了矩阵求导的文章,但文章最先直接就开始摆出一些所谓“常用结论”,这让我不太喜欢,我需要的是真正能说服我的通法,所以没有继续看下去;如今再次遇到矩阵求导问题,才记起那篇微信推送文章。好在文章后面有参考资料,所以系统解决了矩阵求导问题,这里做一个简略的总结。

  • 参考资料

1. 微信推送原文

2. 知乎高赞

  • 矩阵求导——标量对矩阵求导

  • 主要参考上面知乎高赞文章
  • 解决矩阵求导问题的总体思路是:微分+trace trick

注意,向量(含列向量、行向量)也是矩阵的一种特殊情况,所以也在本部分内容的讨论范围。

  • 布局说明

字母与向量和矩阵的对应关系同参考文献。需要说明的是,对于向量的求导算法更偏向于“分母布局”,即运算得到的矩阵(或向量)要与求导式分母矩阵的形状保持一致。
\frac{\partial f }{\partial \boldsymbol X}=[\frac{\partial f }{\partial \boldsymbol X_{ij}}]

<
文章来源:https://blog.csdn.net/qq_34134404/article/details/103881894
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。