本文主要是将上一篇博文中的得出的梯度下降法的算法用矩阵进行化简，得到一个一般化的公式，最后对这两种方法进行了比较。

几个结论

在开始正式推导之前，我将会列出一些推导过程中需要用到的定义和结论，其中有些我会给出证明。

首先是关于矩阵迹的定义:一个的矩阵的迹，是指的主对角线上各个元素的总和。迹是定义在矩阵上的一种运算，它是一个实数。

关于矩阵的迹，它有以下几个结论：

几个结论的简略证明如下：

根据矩阵乘法的运算法则，如果，则。

所以，

现在证明

所以，

即，

结论3、4、5此处就不再给出证明了。²

矩阵推导

有了上述的准备工作，就可以开始我们的推导工作了。我们将训练数据表示成矩阵的形式:

参数和输出结果表示成向量形式:\(\theta = \left[

\right]\),\(y = \left[

\right]\)

所以就可以表示成：

根据向量的基本性质:，所以：

因此，为了使达到最小，只需要求出令时的值,这时的值就是梯度下降法中最终得到的参数值。

最终³，我们得到了最终的Normal Equation:

所以，梯度下降法就转变为一个矩阵计算：

但是，需要注意的是，不要以为式子变简单了，计算量就减少了，事实上，当X的维数很高时，计算量反而更大，因为大矩阵运算会消耗很多资源。

Flyaway is the owner of this blog.