向量的范数 norm

我们用符号双竖杠来表示向量范数,例如image来表示向量image的范数。向量的范数是我们可以用来衡量向量“大小”或者“长度”的一个指标。其定义形式如下,我们通常说一个向量imageimage-norm为:

image

其中image为一个大于1的实数

如果image,那么image的范数就是我们熟知的曼哈顿距离的公式:

image

如果image,那么image的范数就是我们熟知的欧几里得距离,他描述了向量的长度:

image

如果我们没有注明image的值,通常我们默认image,即image

image时,范数描述了向量image的长度,假设image是一个二维的向量,那么image的范数image描绘image在平面上的长度;如果image是一个三维的向量,那么image的范数image描述了向量image在空间中的长度;由此推广,当image在四维、五维,甚至更高维度的空间内时,范数描述了向量image在更高维空间中的长度。

而当image趋于image的时候,向量image的范数趋向于image中绝对值最大的分量,即:

image

柯西-施瓦茨不等式(Cauchy-Schwarz inequality)

柯西不等式公式为:

image

或者进一步可以写为:

image

回忆一下向量乘法的规则:

image

所以柯西不等式式其实只是在另一个方面论证了一个简单的事实 :image

赫尔德不等式(Holder’s Inequality)

赫尔德不等式是柯西不等式的推广形式,其公式如下:

如果有一个imageimage,满足image,那么对于向量imageimage,以下不等式成立:

image

imageimage都等于 2 时,赫尔德不等式就是柯西不等式。换句话说,柯西不等式就是赫尔德不等式的特殊情况。

凸集(Convex Set)定义

对于集合中任意两点的连线,线上所有点仍然都在集合内的集合,叫做凸集(Convex Set)。例如:

对于任何在集合C内的两点image,有:

image

image

例如在上图中第一个图形是一个典型的凸集,因为图形内包括图形边线上任意两点的连线始终都在图形内;第二个图形是一个典型的非凸集,因为我们可以找到两个图形中的点,这两点的连线上的点并不是全在图形中;第三个图形也不是凸集,因为正方形边线上的点的连线可以不在集合内。

还有一些特殊的凸集,例如一个无限延展的二维平面或者三维空间,集合中任意两点的连线都在集合内;一条直线分割的平面的两个部分也都可以算作凸集。

凸集性质一:凸集的交集仍然是凸集

凸集性质二:非膨胀性(Non-expensiveness)

凸集外的任意两点,在凸集上的投影之间的距离,不会比两点本身之间的距离更远。用数学表示为:

image

画图表示为:

我们把这种性质叫做“Non-expensiveness”,非膨胀性。

什么是凸集外一点在凸集上的投影?例如上图中点image在凸集image上的投影为:在凸集image中,我们能找到的距离image最近的点,用数学公式可以表示为:

image

这样的投影有一个性质:如果集合满足非空、闭集、凸集,集合外任意一点在集合上的投影是唯一的。

利普希茨条件 L-Lipschitz

我们说一个函数image是L-Lipschitz的,如果其满足:

image

利普希茨的条件在高维空间中也成立,其在高维空间的表示为:

对于一个函数image是L-Lipschitz的,如果其满足:

image

其中image是一个常数,如果image是小于等于1的,那么我们说函数image是 non-expensiveness 的。

L-Lipschitz衡量了一个函数最快变化能有多快:例如image,在这样的情况下,image就是一个在二维平面上的函数,此时image表示了image斜率的最大值,即函数的导数存在上界imageimage

L-光滑(L-Smooth)

我们说一个函数image是L-光滑的(L-Smooth)如果函数image符合以下条件:

  1. image是 “continuously differentiable”,或者说函数image的梯度image存在连续
  2. image

这条定理其实描述了函数image二阶导数是有上界image的,即image

再进一步思考,如果一个函数的二阶导数是有上界的,那么其一定存在一个二次函数,作为函数image的上界(upper bound)以及一个二次函数,作为函数image的下届(lower bound)。

可导

可导和连续

**连续的定义:**如果函数image在点image处连续,那么对于任意image,总存在一个image,使得对于所有满足imageimage,有:

image

这个定义描述了函数imageimage出不能“跳跃”。即满足以下三个条件:

  1. 函数在image处有定义。
  2. 函数在image处有的极限存在。
  3. 并且极限值等于其函数值

**可导的定义:**函数 image 在点 image 处可导,如果存在一个实数 image(这个 image 就是导数 image),使得对于任意给定的 image,总存在一个 image,使得对于所有满足 imageimage,都有:

image

或者说,函数imageimage处可导,如果以下极限存在:

image

或者我们还可以从左极限右极限的角度定义可导:

如果一个image的左极限和右极限都存在并且相等,那么imageimage处可导。

可导意味着函数在image处存在“瞬时斜率”,即在image存在唯一一条、非垂直的切线。

不可导一般意味着函数在image处不存在“瞬时斜率”,通常不可导的原因有:

  • 该点左极限 ≠ 右极限
  • 该点极限无穷大
  • 该点极限完全不收敛

可导一定连续,但是连续不一定可导

如果一个函数在其定义域内处处可导,那么我们称这个函数是一个可导的函数(differentiable function)。可导函数上任意一点都可以找到一条非垂直的、经过该点的切线。假设我们的函数image可导,那么其在image点上的切线为:

image

凸函数(Convex Funtion)

一个函数image是凸函数如果其满足:

  1. 函数的定义域是一个凸集。
  2. 函数上任意两点的连线都大于等于函数本身。

用数学的语言来描述则为:dom(image)是一个 凸集,而且对于任何image,以及任意image,有:

image

用图像可以表示为:

常见的凸函数例如imageimageimage

吧所有的范数函数image也都是凸函数。范数函数满足两点性质:一是三角不等式(Triangle Inequality)image;二是绝对其次性(Absolute Homogeneity)image。因此我们可以证明:

image

这正好是凸函数的定义。

函数图像(Graph)和上方图(Epigraph)

我们定义一个函数的图像(graph)为构成函数的线条,定义为

image

而一个函数上方图(epigraph)为构成函数的线条以及其上方的空间组成的平面,定义为

image

一个函数的图像为构成函速的线条(下图中的深黑色线条),而epigraph为线条以及线条上方围成的面积组成:

我们可以观察到如果一个函数是凸函数,那么其的epigraph是一个凸集,反之亦然。

imageis convex functionimageimageis convex set

琴生不等式(Jensen’s Inequality)

对于凸函数image来说,如有imageimage,并且image,则存在:

image

证明TODO

根据凸函数的一阶性质,我们有:

我们令 ,于是我们有:

两边乘以一个整数得到:

加起来所有式子,得到:

,所以

### 凸函数的一阶性质 **如果函数的定义域**![image](images/凸函数优化一/479d081de7c573c940864d6e4fb2eb98.svg)**是凸集,而且函数**![image](images/凸函数优化一/18f3c2855f0e85a1ac2257f64d917144.svg)**处处可导,那么有:**

image是凸函数imageimage

这基本上就是在另一个方面定义了凸函数,一个函数如果是凸函数,那么他大于等于自己的每一条切线。用图像可以表示为:

凸函数的二阶性质

如果函数的定义域image是凸集,而且函数image二阶可导(即imageHessian矩阵存在),那么有:

image**是凸函数 **imageimage

我们说一个矩阵A是半正定的(Positive Semidefinite),用符号表示为image,如果对于所有非零实向量,都满足 image

凸函数操作

  1. 如果有image多个凸函数,image,那么函数image在定义域image上也是凸函数。
证明

,因为是凸函数,我们有对于

两边同时乘以一个正数,我们有:

把所有式子加起来,我们有:

即:

即:

是凸函数

2. **如果**![image](images/凸函数优化一/18f3c2855f0e85a1ac2257f64d917144.svg)**是一个定义在**![image](images/凸函数优化一/c6eaabe1bcb33bdd7165c1ee80c44141.svg)**上的凸函数,而**![image](images/凸函数优化一/0e36ae51870644a186d418d8699de833.svg)**是一个仿射函数(affine function)**![image](images/凸函数优化一/deae103cb7ceead0afd33f739c9340db.svg)**,那么复合函数**![image](images/凸函数优化一/f2e96c250a560f60ad6e9353dab19c8d.svg)**也是一个凸函数(在复合函数定义域**![image](images/凸函数优化一/0c03b232ec92a1c53c233bf15d1f6a1c.svg)**内)**
证明

因为是一个凸函数,所以我们有:

因为是一个仿射函数,:

所以

也是一个凸函数

## 局部和全局最小值 我们说点![image](images/凸函数优化一/712ecf7894348e92d8779c3ee87eeeb0.svg)是![image](images/凸函数优化一/87acb7d7c091fd4c42edf300c3fff34c.svg)的局部最小值(Local Minima),如果存在一个![image](images/凸函数优化一/746d91c3f5e4b385b9d96c7ece1332bc.svg)使得:

image

凸函数的局部最小值即为全局最小值

**任何凸函数的局部最小值都是全局最小值(Global Minima)。**用数学语言表示为,如果image是凸函数image的局部最小值(Local Minima),那么image是这个函数的全局最小值(Global Minima),意味着image

凸函数梯度为0的点即为其全局最小值

**如果一个凸函数可导,那么其梯度为0的点就是其全局最小值。**用数学语言表示为,如果函数image可导并且是凸函数,而且定义在一个开放的域中。那么如果存在一个image使得image,那么image是一个全局最小值。

严格凸函数

一个函数image是严格凸函数(Strictly Convex)如果其满足:

  • 函数定义域image是一个凸集
  • 对于所有image以及 image来说,我们有:

image

例如下图中左图不是严格凸函数,而右图是严格凸函数:

严格凸函数最多只有一个全局最小值

最小值点

image 为一个凸函数,且 image 为一个凸集。点 image 是函数 image 在集合 image 上的最小化点(Minimizer),若其满足:

image

求最小化点

设函数 image 是凸函数且在其开定义域 image上可微,并设 image 为一个凸集。点 image 是函数 image 在集合 image 上的最小化点当且仅当满足以下条件:

image

下水平集(Sublevel Set)

如果有一个函数image,我们说集合image是函数imageimage-下水平集(image-sublevel set)。

用图像可以表示成:

凸优化(Convex Optimization)

最后我们定义凸优化问题:

image

  • image是一个凸函数。
  • image是一个凸集。

凸优化问题有以下我们梦寐以求的性质:

  • 在凸优化问题中,每一个局部最小值都是全局最小值。

课后思考

最小二乘法

回忆一下我们在线性回归中使用的损失函数,image,其中image