线性回归's Gradient

发表于2025-07-15|更新于2025-07-15

|浏览量:

损失函数和代价函数

在线性回归中，我们通常使用MSE（Mean Square Error, 均方误差）作为我们算法的损失函数，其基本思想为衡量预测值和真实结果之间的绝对距离。MSE的公式为：。同时我们为了防止函数过拟合，我们引入正则表达式。在这里，我们先用L2正则表达式作为例子，L2正则表达式为：。结合这两项，我们函数的代价函数可以表达为：

。

在反向传播中，我们需要计算梯度，以更新算法的权重：

计算梯度

根据求导规则，对** x+y求导** 等于 对x求导 加上 对y求导，即 (x + y)’ = x’ + y’ :

MSE梯度

我们分别计算两个部分，我们先计算第一部分：

根据链式法则，我们有 f[g(x)]’ = f(g(x)) * g’(x)，于是

其中：

所以，第一部分求导结果如下

正则表达式梯度

我们再对正则表达式部分求导：

正则表达式和MSE部分梯度总结起来就是：

计算Bias梯度

接着我们对b求导

其中：

所以更新权重的算法现在为：

深入理解L2正则表达式

通过观察上面的更新公式，我们可以观察到：

其中为学习率，为正则参数，m 为训练样本容量。可以看到L2正则表达式实际上在做的是，每一轮训练都把现有的固定乘以一个稍微小于1的系数——越大的权重将减少的越多——因此我们能避免个别权重过大，让模型过于复杂。

文章作者: nty

文章链接: https://nie-tianyi.github.io/2025/07/15/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E6%A2%AF%E5%BA%A6%E6%8E%A8%E5%AF%BC_preprocessed/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 nty的技术博客！

机器学习梯度下降线性回归

相关推荐

凸函数优化笔记（1）

向量的范数 norm 我们用符号双竖杠来表示向量范数，例如来表示向量的范数。向量的范数是我们可以用来衡量向量“大小”或者“长度”的一个指标。其定义形式如下，我们通常说一个向量的-norm为：其中为一个大于1的实数如果，那么的范数就是我们熟知的曼哈顿距离的公式：如果，那么的范数就是我们熟知的欧几里得距离，他描述了向量的长度：如果我们没有注明的值，通常我们默认，即时，范数描述了向量的长度，假设是一个二维的向量，那么的范数描绘在平面上的长度；如果是一个三维的向量，那么的范数描述了向量在空间中的长度；由此推广，当在四维、五维，甚至更高维度的空间内时，范数描述了向量在更高维空间中的长度。而当趋于的时候，向量的范数趋向于中绝对值最大的分量，即：柯西-施瓦茨不等式（Cauchy-Schwarz inequality）柯西不等式公式为：或者进一步可以写为：回忆一下向量乘法的规则：所以柯西不等式式其实只是在另一个方面论证了一个简单的事实 : 赫尔德不等式（Holder’s...

神经网络's Gradient

正向传播假设我们的神经网络是由三层神经元构成：分别是一层拥有4个神经元的隐藏层，一层拥有三个神经元的隐藏层，以及最后一层只拥有一个神经元的输出层，神经网络结构如下图所示：假设我们输入的数据的维度是2，那么第一层神经元里面的每一个神经元都有和两个权重以及一个偏置，整个第一层就一共有...

逻辑回归's Gradient

损失函数和代价函数我们使用交叉熵损失（Cross Entropy Loss）函数作为逻辑回归算法的损失函数，其公式如下其中, 为 Sigmoid 函数，通过计算给出的输入和自身权重乘积（以及加上偏置），经过Sigmoid函数的处理，最后计算出一个处于(0,1）之间的概率，这个概率表示预测为真的概率。Sigmoid函数公式如下：其中与等价，都是计算，只不过前者为矩阵写法，表示一个一维矩阵的转置（transpose）乘以另外一个一维矩阵，而后者是常见的求和公式。使用矩阵写法不仅在书写上更方便，也更符合我们需要在NumPy中需要写的代码。一个小细节：为什么机器学习中总是习惯性的写成，而不是？因为在机器学习中，我们习惯性的将和视作形状为的列向量（column vector），于是实际上是一个形状，求转置后，成为一个形状为的矩阵，然后乘以另一个形状为...

机器学习简介

线性函数定义

这句话“a linear function of linear function is still a linear function”有严谨的数学推导论证。下面我将从线性代数的角度进行详细推导。线性函数的定义在数学中，一个函数是线性的，当且仅当它满足以下两个条件：可加性：对于所有向量 ,有。齐次性：对于所有标量和向量，有。问题陈述假设有两个线性函数：是线性的，是线性的。定义组合函数为。我们需要证明也是线性的。严谨推导 1. 验证可加性对于任意 : 由于 ( g ) 是线性的，满足可加性，因此 ( g(x + y) = g(x) + g(y) )。代入上式：又因为 ( f ) 是线性的，也满足可加性，因此 ( f(g(x) + g(y)) = f(g(x)) + f(g(y)) )。所以： thus, 满足可加性。 2. 验证齐次性对于任意标量和向量 : 由于 ( g ) 是线性的，满足齐次性，因此。代入上式：又因为 ( f ) 是线性的，也满足齐次性，因此。所以： thus, ...