龙强-最优化理论与算法课程 。21年免费课程上有许多的笔误口误,但瑕不掩瑜——这些错误,都比较容易看出来。25年付费课程,我没看过。
梯度(一阶偏导数向量):
▽ f ( x ) = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 , ⋯ , ∂ f ∂ x n ) \bigtriangledown f(x) = (\frac {\partial f}{\partial x_1}, \frac {\partial f}{\partial x_2}, \cdots, \frac {\partial f}{\partial x_n}) ▽ f ( x ) = ( ∂ x 1 ∂ f , ∂ x 2 ∂ f , ⋯ , ∂ x n ∂ f )
Hesse 矩阵(二阶偏导数矩阵):
H ( x ) = ▽ 2 f ( x ) = ( ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 2 x 1 ⋯ ∂ 2 f ∂ x n x 1 ∂ 2 f ∂ x 1 x 2 ∂ 2 f ∂ x 2 2 ⋯ ∂ 2 f ∂ x n x 2 ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x 1 x n ∂ 2 f ∂ x 2 x n ⋯ ∂ 2 f ∂ x n 2 ) H(x) = \bigtriangledown^2 f(x) = \begin{pmatrix} \frac {\partial^2 f}{\partial x_1^2} & \frac {\partial^2 f}{\partial x_2x_1} & \cdots & \frac {\partial^2 f}{\partial x_nx_1} \\ \frac {\partial^2 f}{\partial x_1x_2} & \frac {\partial^2 f}{\partial x_2^2} & \cdots & \frac {\partial^2 f}{\partial x_nx_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial^2 f}{\partial x_1x_n} & \frac {\partial^2 f}{\partial x_2x_n} & \cdots & \frac {\partial^2 f}{\partial x_n^2} \\ \end{pmatrix} H ( x ) = ▽ 2 f ( x ) = ∂ x 1 2 ∂ 2 f ∂ x 1 x 2 ∂ 2 f ⋮ ∂ x 1 x n ∂ 2 f ∂ x 2 x 1 ∂ 2 f ∂ x 2 2 ∂ 2 f ⋮ ∂ x 2 x n ∂ 2 f ⋯ ⋯ ⋱ ⋯ ∂ x n x 1 ∂ 2 f ∂ x n x 2 ∂ 2 f ⋮ ∂ x n 2 ∂ 2 f
线性函数:f ( x ) = c T x + b , ▽ f ( x ) = c , ▽ 2 f ( x ) = 0 f(x) = c^T x + b,\quad\bigtriangledown f(x) = c,\quad\bigtriangledown^2 f(x) = 0 f ( x ) = c T x + b , ▽ f ( x ) = c , ▽ 2 f ( x ) = 0 二次函数:f ( x ) = 1 2 x T Q x + c T x + b , ▽ f ( x ) = Q x + c , ▽ 2 f ( x ) = Q f(x) = \frac{1}{2} x^TQx + c^T x + b,\quad\bigtriangledown f(x) = Qx + c,\quad\bigtriangledown^2 f(x) = Q f ( x ) = 2 1 x T Q x + c T x + b , ▽ f ( x ) = Q x + c , ▽ 2 f ( x ) = Q (对称) Jacobi 矩阵(对向量值函数求梯度):
考虑向量值函数 h ( x ) = ( h 1 ( x ) , h 2 ( x ) , ⋯ , h m ( x ) ) T h(x) = (\ h_1(x),\ h_2(x),\ \cdots,\ h_m(x)\ )^T h ( x ) = ( h 1 ( x ) , h 2 ( x ) , ⋯ , h m ( x ) ) T ,其中每个分量 h i ( x ) h_i(x) h i ( x ) 都是 n 元实值函数,假设对所有的 i , j i,j i , j 偏导数 ∂ h i ( x ) ∂ x j \frac{\partial h_i(x)}{\partial x_j} ∂ x j ∂ h i ( x ) 存在。h h h 在点 x x x 的 Jacobi 矩阵为
J ( h ) = ( ∂ h 1 ( x ) ∂ x 1 ∂ h 1 ( x ) ∂ x 2 ⋯ ∂ h 1 ( x ) ∂ x n ∂ h 2 ( x ) ∂ x 1 ∂ h 2 ( x ) ∂ x 2 ⋯ ∂ h 2 ( x ) ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ h m ( x ) ∂ x 1 ∂ h m ( x ) ∂ x 2 ⋯ ∂ h m ( x ) ∂ x n ) = ( ▽ h 1 ( x ) ▽ h 2 ( x ) ⋮ ▽ h m ( x ) ) J(h) = \begin{pmatrix} \frac {\partial h_1(x)}{\partial x_1} & \frac {\partial h_1(x)}{\partial x_2} & \cdots & \frac {\partial h_1(x)}{\partial x_n} \\ \frac {\partial h_2(x)}{\partial x_1} & \frac {\partial h_2(x)}{\partial x_2} & \cdots & \frac {\partial h_2(x)}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial h_m(x)}{\partial x_1} & \frac {\partial h_m(x)}{\partial x_2} & \cdots & \frac {\partial h_m(x)}{\partial x_n} \\ \end{pmatrix} = \begin{pmatrix} \bigtriangledown h_1(x) \\ \bigtriangledown h_2(x) \\ \vdots \\ \bigtriangledown h_m(x) \\ \end{pmatrix} J ( h ) = ∂ x 1 ∂ h 1 ( x ) ∂ x 1 ∂ h 2 ( x ) ⋮ ∂ x 1 ∂ h m ( x ) ∂ x 2 ∂ h 1 ( x ) ∂ x 2 ∂ h 2 ( x ) ⋮ ∂ x 2 ∂ h m ( x ) ⋯ ⋯ ⋱ ⋯ ∂ x n ∂ h 1 ( x ) ∂ x n ∂ h 2 ( x ) ⋮ ∂ x n ∂ h m ( x ) = ▽ h 1 ( x ) ▽ h 2 ( x ) ⋮ ▽ h m ( x )
这个矩阵称为向量值函数 h h h 在 x x x 处的导数。
J ( ▽ f ) = H ( x ) T J(\bigtriangledown f) = H(x)^T J ( ▽ f ) = H ( x ) T
n 元函数的 Taylor 展开式。设 f ( x ) : R n → R f(x): R^n \to R f ( x ) : R n → R ,二阶可导,在 x ∗ x^* x ∗ 的邻域内:
f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + o ∥ x − x ∗ ∥ f(x) = f(x^*) + \bigtriangledown f^T(x^*)(x-x^*) + o\left\| x-x^* \right\| f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + o ∥ x − x ∗ ∥
f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + 1 2 ( x − x ∗ ) T ▽ 2 f ( x ∗ ) ( x − x ∗ ) + o ∥ x − x ∗ ∥ 2 f(x) = f(x^*) + \bigtriangledown f^T(x^*)(x-x^*) + \frac{1}{2}(x-x^*)^T\bigtriangledown^2 f(x^*)(x-x^*) + o\left\| x-x^* \right\|^2 f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + 2 1 ( x − x ∗ ) T ▽ 2 f ( x ∗ ) ( x − x ∗ ) + o ∥ x − x ∗ ∥ 2
一阶中值公式:对 x , ∃ λ ∈ ( 0 , 1 ) x,\exists \lambda \in (0,1) x , ∃ λ ∈ ( 0 , 1 ) ,使
f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ + λ ( x − x ∗ ) ) ( x − x ∗ ) f(x) = f(x^*) + \bigtriangledown f^T(x^*+\lambda(x-x^*))(x-x^*) f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ + λ ( x − x ∗ )) ( x − x ∗ )
Lagrange 余项:对 x , ∃ μ ∈ ( 0 , 1 ) x,\exists \mu \in (0,1) x , ∃ μ ∈ ( 0 , 1 ) ,记 x μ = x ∗ + μ ( x − x ∗ ) x_\mu = x^* + \mu(x-x^*) x μ = x ∗ + μ ( x − x ∗ ) ,使
f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + 1 2 ( x − x ∗ ) T ▽ 2 f ( x μ ) ( x − x ∗ ) f(x) = f(x^*) + \bigtriangledown f^T(x^*)(x-x^*) + \frac{1}{2}(x-x^*)^T\bigtriangledown^2 f(x_\mu)(x-x^*) f ( x ) = f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) + 2 1 ( x − x ∗ ) T ▽ 2 f ( x μ ) ( x − x ∗ )
向量范数的定义。若实值函数 ∥ . ∥ : R n → R \|\ .\ \|: R^n \rightarrow R ∥ . ∥ : R n → R 满足下列条件:
∥ x ∥ ≥ 0 , ∀ x ∈ R n ; ∥ x ∥ = 0 当且仅当 x = 0 \|x\| \ge 0,\ \forall x \in R^n;\ \|x\| = 0\ 当且仅当\ x=0 ∥ x ∥ ≥ 0 , ∀ x ∈ R n ; ∥ x ∥ = 0 当且仅当 x = 0 ∥ α x ∥ = ∣ α ∣ ∥ x ∥ , ∀ α ∈ R , x ∈ R n \|\alpha x\| = |\alpha|\ \|x\|,\ \forall \alpha \in R,\ x \in R^n ∥ αx ∥ = ∣ α ∣ ∥ x ∥ , ∀ α ∈ R , x ∈ R n ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ , ∀ x , y ∈ R n \|x+y\| \le \|x\|\ + \|y\|,\ \forall \ x,y \in R^n ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ , ∀ x , y ∈ R n 则称 ∥ . ∥ \|\ .\ \| ∥ . ∥ 为向量范数。
常见向量范数有:
L 1 L_1 L 1 范数 ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ \|x\|_1 = \sum_{i=1}^n|x_i| ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ L 2 L_2 L 2 范数 ∥ x ∥ 2 = ∑ i = 1 n ( x i ) 2 \|x\|_2 = \sqrt{\sum_{i=1}^n(x_i)^2} ∥ x ∥ 2 = ∑ i = 1 n ( x i ) 2 L ∞ L_{\infty} L ∞ 范数 ∥ x ∥ ∞ = max i ∣ x i ∣ \|x\|_{\infty} = \max_{i}|x_i| ∥ x ∥ ∞ = max i ∣ x i ∣ L p L_p L p 范数 ∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p \|x\|_p = (\sum_{i=1}^n|x_i|^p)^\frac{1}{p} ∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) p 1 p = 1 p = 1 p = 1 时,L p L_p L p 范数退化成 L 1 L_1 L 1 范数;p = 2 p = 2 p = 2 时,L p L_p L p 范数退化成 L 2 L_2 L 2 范数;p → ∞ p \to \infty p → ∞ 时, 范数退化成 L ∞ L_{\infty} L ∞ 范数。
任何两种向量范数都是等价的。
矩阵范数的定义。若对 ∀ A ∈ R n × n \forall A \in R^{n\times n} ∀ A ∈ R n × n 都有一个实数 ∥ A ∥ \|A\| ∥ A ∥ 与之对应,且满足:
非负性:当 A ≠ 0 时, ∥ A ∥ ≥ 0 ,当且仅当 A = 0 时, ∥ A ∥ = 0 当 A \ne 0 时,\|A\| \ge 0,当且仅当 A = 0时,\|A\| = 0 当 A = 0 时, ∥ A ∥ ≥ 0 ,当且仅当 A = 0 时, ∥ A ∥ = 0 齐次性:∀ λ ∈ R , ∥ λ A ∥ = ∣ λ ∣ ⋅ ∥ A ∥ \forall \lambda \in R,\|\lambda A\| = |\lambda| \cdot \|A\| ∀ λ ∈ R , ∥ λ A ∥ = ∣ λ ∣ ⋅ ∥ A ∥ 三角不等式:A , B ∈ R n × n , ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ A,\ B \in R^{n\times n},\|A+B\| \le \|A\| + \|B\| A , B ∈ R n × n , ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ 相容性:A , B ∈ R n × n , ∥ A B ∥ ≤ ∥ A ∥ ⋅ ∥ B ∥ A,\ B \in R^{n\times n},\|AB\| \le \|A\| \cdot \|B\| A , B ∈ R n × n , ∥ A B ∥ ≤ ∥ A ∥ ⋅ ∥ B ∥ 则称 ∥ A ∥ \|\ A\ \| ∥ A ∥ 为 R n × n R^{n\times n} R n × n 上的矩阵范数。
f : R → R min f ( x ) , s . t . x ∈ R \begin{align*} & f: R\to R \\ & \min f(x),\ s.t.\ x \in R \\ \end{align*} f : R → R min f ( x ) , s . t . x ∈ R
一阶必要条件:x ∗ 是极小值点 ⇒ f ′ ( x ) = 0 x^*\ 是极小值点 \Rightarrow f'(x) = 0 x ∗ 是极小值点 ⇒ f ′ ( x ) = 0 二阶必要条件:x ∗ 是极小值点 ⇒ f ′ ( x ) = 0 , f ′ ′ ( x ∗ ) ≥ 0 x^*\ 是极小值点 \Rightarrow f'(x) = 0,\ f''(x^*) \ge 0 x ∗ 是极小值点 ⇒ f ′ ( x ) = 0 , f ′′ ( x ∗ ) ≥ 0 ,反过来不行,比如 y = x 3 y=x^3 y = x 3 在 x = 0 x=0 x = 0 处没有极小值 二阶充分条件:f ′ ( x ) = 0 , f ′ ′ ( x ∗ ) > 0 ⇒ x ∗ 是极小值点 f'(x) = 0,\ f''(x^*) > 0 \Rightarrow x^*\ 是极小值点 f ′ ( x ) = 0 , f ′′ ( x ∗ ) > 0 ⇒ x ∗ 是极小值点 充要条件:f ( x ) 可微凸, x ∗ 全局极小 ⇔ f ′ ( x ∗ ) = 0 f(x)可微凸,x^*\ 全局极小 \Leftrightarrow f'(x^*) = 0 f ( x ) 可微凸, x ∗ 全局极小 ⇔ f ′ ( x ∗ ) = 0 ,若 f ( x ) f(x) f ( x ) 严格凸,则全局极小值唯一 拓展得到无约束优化问题的极值条件
( p ) { m i n . f ( x ) s . t . g i ( x ) ≤ 0 i = 1 , 2 , ⋯ , m i h j ( x ) = 0 j = 1 , 2 , ⋯ , m j x ∈ X X ⊂ R n (p)\begin{cases} min. & f(x) \\ s.t. & g_i(x)\le0 & i=1,2,\cdots,m_i \\ & h_j(x)=0 & j=1,2,\cdots,m_j \\ & x\in X & X\subset R^n \end{cases} ( p ) ⎩ ⎨ ⎧ min . s . t . f ( x ) g i ( x ) ≤ 0 h j ( x ) = 0 x ∈ X i = 1 , 2 , ⋯ , m i j = 1 , 2 , ⋯ , m j X ⊂ R n
其中,x x x 是决策变量 ,f ( x ) f(x) f ( x ) 是目标函数 ,g i ( x ) ≤ 0 g_i(x)\le0 g i ( x ) ≤ 0 是不等式约束 ,h j ( x ) = 0 h_j(x)=0 h j ( x ) = 0 是等式约束 ,x ∈ X x\in X x ∈ X 是箱子集。后三者统称为“约束条件 ”。
满足约束条件的点是可行点 。可行集(可行域 )是全体可行点组成的集合,即F = { x ∈ R n ∣ g i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , m i , h j ( x ) = 0 , j = 1 , 2 , ⋯ , m j , x ∈ X } F=\{x\in R^n|g_i(x)\le0,i=1,2,\cdots,m_i, h_j(x)=0,j=1,2,\cdots,m_j, x\in X\} F = { x ∈ R n ∣ g i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , m i , h j ( x ) = 0 , j = 1 , 2 , ⋯ , m j , x ∈ X } 。
全局极小点:对于x ∗ ∈ F x^*\in F x ∗ ∈ F ,若对∀ x ∈ F \forall x \in F ∀ x ∈ F ,f ( x ∗ ) ≤ f ( x ) f(x^*) \le f(x) f ( x ∗ ) ≤ f ( x ) 都成立,则称x ∗ x^* x ∗ 为最优化问题(p)的全局极小点。
局部极小点:对于 x ∗ ∈ F x^*\in F x ∗ ∈ F ,若存在 x ∗ x^* x ∗ 的 ε > 0 \varepsilon > 0 ε > 0 邻域 N ( x ∗ , ε ) = { x ∣ ∣ x ∗ − x ∣ < ε } N(x^*,\varepsilon)=\{x\mid\left | x^*-x \right | <\varepsilon\} N ( x ∗ , ε ) = { x ∣ ∣ x ∗ − x ∣ < ε } ,使得对每个 x ∈ F ∩ N ( x ∗ , ε ) x \in F \cap N(x^*,\varepsilon) x ∈ F ∩ N ( x ∗ , ε ) ,f ( x ∗ ) ≤ f ( x ) f(x^*) \le f(x) f ( x ∗ ) ≤ f ( x ) 都成立,则称x ∗ x^* x ∗ 为最优化问题(p)的局部极小点。
按约束分类 按线性性质分类 线性规划问题:目标函数、约束函数都是线性函数 非线性规划问题:目标函数、约束函数存在非线性函数 按决策变量的连续性分类 连续优化问题 离散优化问题,也叫组合优化 整数规划问题 0-1 规划问题,表示是否使用某项资源 混合整数规划问题:一部分变量连续,一部分变量离散 按目标函数的个数分类 单目标规划问题:只有一个目标函数 多目标规划问题:多个目标函数 按决策变量的随机性分类 约定两个符号的表示:
x ( 1 ) , x ( 2 ) ∈ R n x 1 , x 2 ∈ R \begin{matrix} x^{(1)}, x^{(2)} & \in R^n \\ x_1, x_2 & \in R \end{matrix} x ( 1 ) , x ( 2 ) x 1 , x 2 ∈ R n ∈ R
凸集的定义:设 S S S 为 n 维欧式空间 R n R^n R n 中一个集合。若对 S S S 中任意两点,联接它们的线仍属于 S S S 。换言之,对 S S S 中任意两点 x ( 1 ) x^{(1)} x ( 1 ) ,x ( 2 ) x^{(2)} x ( 2 ) 及每个实数 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ ∈ [ 0 , 1 ] ,都有 λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ∈ S \lambda x^{(1)} + (1-\lambda) x^{(2)} \in S λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ∈ S ,则称 S S S 为凸集。
规定,单点集 { x } \{x\} { x } 为凸集,空集 ∅ \varnothing ∅ 为凸集。
凸锥的定义:设集合 C ⊂ R n C \subset R^n C ⊂ R n ,若对 C C C 中每一点 x x x ,当 λ \lambda λ 取任何非负数时,都有 λ x ∈ C \lambda x \in C λ x ∈ C ,则称 C C C 为锥,又若 C C C 为凸集,则称 C C C 为凸锥。
规定,集合 { 0 } \{0\} { 0 } 为凸锥,R n R^n R n 为凸锥。
凸集的性质:
1)凸集的交集是凸集;(并集不是) 2)凸集的内点集是凸集; 3)凸集的闭包是凸集。 4)分离与支撑:凸集边界上任意点存在支撑超平面;两个互相不交的凸集之间存在分离超平面。 打个比方:内点集,橙子去掉皮后的部分;闭包,包括皮的橙子
凸集分离定理:
凸集分离定理,让我想起了感知机 闭凸集的一个性质 inf 是下确界,min 是最小值,inf 不一定能取到值,min 一定能取到值。类似的还有上确界 sup 和最大值 max。
铺垫凸集分离定理的提出,这部分看不懂,跳过
最优化的凸函数定义与同济教程中的凸函数定义刚好相反。最优化中一般求最小值,从上往下看,图形应该是凸的。
凸函数的定义:设集合 S ⊂ R n S \subset R^n S ⊂ R n 为凸集,函数 f : S → R f :S\to R f : S → R 。若 ∀ x ( 1 ) , x ( 2 ) ∈ S , λ ∈ ( 0 , 1 ) \forall x^{(1)},\ x^{(2)} \in S,\ \lambda \in (0,1) ∀ x ( 1 ) , x ( 2 ) ∈ S , λ ∈ ( 0 , 1 ) ,均有 f ( λ x ( 1 ) + ( 1 − λ ) ) x ( 2 ) ≤ λ f ( x ( 1 ) ) + ( 1 − λ ) f ( x ( 2 ) ) f(\lambda x^{(1)} + (1-\lambda))x^{(2)} \le \lambda f(x^{(1)}) + (1-\lambda)f(x^{(2)}) f ( λ x ( 1 ) + ( 1 − λ )) x ( 2 ) ≤ λ f ( x ( 1 ) ) + ( 1 − λ ) f ( x ( 2 ) ) ,则称 f ( x ) f(x) f ( x ) 为凸集 S S S 上的凸函数。
若进一步有上面不等式以严格不等式成立,则称 f ( x ) f(x) f ( x ) 为凸集 S S S 上的严格凸 函数。当 − f ( x ) -f(x) − f ( x ) 为凸函数(严格凸函数)时,则称 f ( x ) f(x) f ( x ) 为凹函数(严格凹函 数)。
直线也是凸函数,但不是严格凸函数。
凸函数的性质:设 f 1 , f 2 f_1,\ f_2 f 1 , f 2 是凸函数,则 λ 1 f 1 + λ 2 f 2 \lambda_1 f_1 + \lambda_2 f_2 λ 1 f 1 + λ 2 f 2 也是凸函数,该性质可以推广到有限个,比如 λ 1 f 1 + λ 2 f 2 + λ 3 f 3 \lambda_1 f_1 + \lambda_2 f_2 + \lambda_3 f_3 λ 1 f 1 + λ 2 f 2 + λ 3 f 3 。
证: ∀ x ( 1 ) , x ( 2 ) , x ( 3 ) ∈ S λ 1 , λ 2 , λ 3 ∈ R , λ 1 , λ 2 , λ 3 ≥ 0 , λ 1 + λ 2 + λ 3 = 1 f ( λ 1 x ( 1 ) + λ 2 x ( 2 ) + λ 3 x ( 3 ) ) = f ( λ 1 x ( 1 ) + ( 1 − λ 1 ) ( λ 2 x ( 2 ) 1 − λ 1 + λ 3 x ( 3 ) 1 − λ 1 ) ) ≤ λ 1 f ( x ( 1 ) ) + ( 1 − λ 1 ) f ( λ 2 x ( 2 ) 1 − λ 1 + λ 3 x ( 3 ) 1 − λ 1 ) ≤ λ 1 f ( x ( 1 ) ) + λ 2 f ( x ( 2 ) ) + λ 3 f ( x ( 3 ) ) \begin{align*} & 证:\forall x^{(1)},\ x^{(2)},\ x^{(3)} \in S \\ & \lambda_1,\ \lambda_2,\ \lambda_3 \in R,\ \lambda_1,\ \lambda_2,\ \lambda_3 \ge 0,\ \lambda_1 + \lambda_2 + \lambda_3 = 1 \\ & f(\lambda_1x^{(1)} + \lambda_2x^{(2)} + \lambda_3x^{(3)}) \\ & = f(\lambda_1x^{(1)} + (1-\lambda_1)(\frac{\lambda_2x^{(2)}}{1-\lambda_1} + \frac{\lambda_3x^{(3)}}{1-\lambda_1})) \\ & \le \lambda_1f(x^{(1)}) + (1-\lambda_1)f(\frac{\lambda_2x^{(2)}}{1-\lambda_1} + \frac{\lambda_3x^{(3)}}{1-\lambda_1}) \\ & \le \lambda_1f(x^{(1)}) + \lambda_2f(x^{(2)}) + \lambda_3f(x^{(3)}) \\ \end{align*} 证: ∀ x ( 1 ) , x ( 2 ) , x ( 3 ) ∈ S λ 1 , λ 2 , λ 3 ∈ R , λ 1 , λ 2 , λ 3 ≥ 0 , λ 1 + λ 2 + λ 3 = 1 f ( λ 1 x ( 1 ) + λ 2 x ( 2 ) + λ 3 x ( 3 ) ) = f ( λ 1 x ( 1 ) + ( 1 − λ 1 ) ( 1 − λ 1 λ 2 x ( 2 ) + 1 − λ 1 λ 3 x ( 3 ) )) ≤ λ 1 f ( x ( 1 ) ) + ( 1 − λ 1 ) f ( 1 − λ 1 λ 2 x ( 2 ) + 1 − λ 1 λ 3 x ( 3 ) ) ≤ λ 1 f ( x ( 1 ) ) + λ 2 f ( x ( 2 ) ) + λ 3 f ( x ( 3 ) )
水平集的定义:设集合 S ⊂ R S\subset R S ⊂ R ,函数 f : S → R f :S\to R f : S → R ,α ∈ R \alpha\in R α ∈ R ,称 S α = { x ∈ S ∣ f ( x ) ≤ α } S_{\alpha} = \{ x\in S∣ f(x) \le \alpha \} S α = { x ∈ S ∣ f ( x ) ≤ α } 为 f ( x ) f(x) f ( x ) 在 S S S 上的 α \alpha α 水平集。
水平集的性质:设集合 S ⊂ R S\subset R S ⊂ R 是凸集,函数 f : S → R f :S\to R f : S → R 是凸函数,则对 ∀ α ∈ R \forall\alpha\in R ∀ α ∈ R ,S α S_{\alpha} S α 是凸集。
凸组合的定义:设 x ( 1 ) , x ( 2 ) , … , x ( m ) ∈ R n , λ j ≥ 0 , ∑ j = 1 m λ j = 1 x^{(1)},\ x^{(2)},\ \dots\ ,\ x^{(m)} \in R^n,\ \lambda_j \ge 0,\ \sum_{j=1}^m \lambda_j = 1 x ( 1 ) , x ( 2 ) , … , x ( m ) ∈ R n , λ j ≥ 0 , ∑ j = 1 m λ j = 1 ,那么称 ∑ j = 1 m λ j x ( j ) \sum_{j=1}^m \lambda_jx^{(j)} ∑ j = 1 m λ j x ( j ) 为 x ( 1 ) , x ( 2 ) , … , x ( m ) x^{(1)},\ x^{(2)},\ \dots\ ,\ x^{(m)} x ( 1 ) , x ( 2 ) , … , x ( m ) 的凸组合。
λ j ∈ R \lambda_j \in R λ j ∈ R 时,构成线性组合,是线性子空间λ j ≥ 0 , ∑ λ j > 0 \lambda_j \ge 0,\ \sum\lambda_j > 0 λ j ≥ 0 , ∑ λ j > 0 时,构成半正组合,是凸锥λ j ≥ 0 , ∑ λ j = 1 \lambda_j \ge 0,\ \sum\lambda_j = 1 λ j ≥ 0 , ∑ λ j = 1 时,构成凸组合,是凸集S S S 是凸集 ⇔ \Leftrightarrow ⇔ S S S 中任意有限点的凸组合属于 S S S 。C C C 是凸锥 ⇔ \Leftrightarrow ⇔ C C C 中任意有限点的半正组合属于 C C C 。f ( x ) f(x) f ( x ) 为凸集 S S S 上的凸函数 ⇔ \Leftrightarrow ⇔ S S S 上任意有限点的凸组合的函数值不大于各点函数值的凸组合。
方向导数:设 为非空凸集,函数 f : S → R f:S\to R f : S → R , 再设 x ∗ ∈ S x^* \in S x ∗ ∈ S , 为方向,使当 λ > 0 \lambda > 0 λ > 0 充分小时有 x ∗ + λ d ∈ S x^*+ \lambda d \in S x ∗ + λ d ∈ S ,如果 lim λ → + 0 [ f ( x ∗ + λ d ) - f ( x ∗ ) ] λ 存在 ( 包括 ± ∞ ) \lim_{\lambda\to+0} \frac{[f(x^*+ \lambda d) - f(x^*)]}{\lambda} 存在(包括 \pm\infty) lim λ → + 0 λ [ f ( x ∗ + λ d ) - f ( x ∗ )] 存在 ( 包括 ± ∞ ) ,则称 f ( x ) f(x) f ( x ) 为在点 x ∗ x^* x ∗ 沿方向 的方向导数存在,记作 f ′ ( x ∗ ; d ) f^′(x^*;d) f ′ ( x ∗ ; d ) 。若 f ( x ) f(x) f ( x ) 在 x ∗ x^* x ∗ 处可导,则 f ′ ( x ∗ ; d ) = [ ▽ f ( x ∗ ) ] T d f^′(x^*;d) = [\bigtriangledown f(x^*) ]^Td f ′ ( x ∗ ; d ) = [ ▽ f ( x ∗ ) ] T d 。
凸函数的性质:设集合 S S S 为凸集,函数 f : S → R f :S\to R f : S → R 。f ( x ) f(x) f ( x ) 为凸集 S S S 上的凸函数。x ∗ x^* x ∗ 为问题(fs ) 的 l.opt,则 x ∗ x^* x ∗ 为 g.opt 。又如果 是严格凸函数,那么 x ∗ x^* x ∗ 是(fs)的唯一 g.opt。
证:反证法,假设存在 x 优于 x ∗ ⇒ f ( x ) < f ( x ∗ ) , ∀ λ ∈ ( 0 , 1 ) , f ( λ x + ( 1 − λ ) x ∗ ) ≤ λ f ( x ) + ( 1 − λ ) f ( x ∗ ) < λ f ( x ∗ ) + ( 1 − λ ) f ( x ∗ ) = f ( x ∗ ) 令 λ → 0 , f ( x ∗ ) < f ( x ∗ ) , 假设错误,原命题成立 证:反证法,假设存在另一个点 x ∈ S ,使 f ( x ) = f ( x ∗ ) , ∀ λ ∈ ( 0 , 1 ) , f ( λ x + ( 1 − λ ) x ∗ ) < λ f ( x ) + ( 1 − λ ) f ( x ∗ ) = f ( x ∗ ) 此时存在比 x ∗ 更小的点,假设错误, x ∗ 是( f s )的唯一全局最优解 \begin{align*} & 证:反证法,假设存在 x 优于 x^* \Rightarrow f(x) < f(x^*),\ \forall \lambda \in (0,1),\\ & f(\lambda x + (1-\lambda)x^*) \\ & \le \lambda f(x) + (1-\lambda)f(x^*) \\ & < \lambda f(x^*) + (1-\lambda)f(x^*) = f(x^*) \\ & 令\ \lambda \rightarrow 0,\ f(x^*) < f(x^*),\ 假设错误,原命题成立 \\ & \\ & 证:反证法,假设存在另一个点 x \in S,使 f(x) = f(x^*),\ \forall \lambda \in (0,1),\\ & f(\lambda x + (1-\lambda)x^*) \\ & < \lambda f(x) + (1-\lambda)f(x^*) = f(x^*) \\ & 此时存在比 x^* 更小的点,假设错误,x^* 是(fs)的唯一全局最优解 \end{align*} 证:反证法,假设存在 x 优于 x ∗ ⇒ f ( x ) < f ( x ∗ ) , ∀ λ ∈ ( 0 , 1 ) , f ( λ x + ( 1 − λ ) x ∗ ) ≤ λ f ( x ) + ( 1 − λ ) f ( x ∗ ) < λ f ( x ∗ ) + ( 1 − λ ) f ( x ∗ ) = f ( x ∗ ) 令 λ → 0 , f ( x ∗ ) < f ( x ∗ ) , 假设错误,原命题成立 证:反证法,假设存在另一个点 x ∈ S ,使 f ( x ) = f ( x ∗ ) , ∀ λ ∈ ( 0 , 1 ) , f ( λ x + ( 1 − λ ) x ∗ ) < λ f ( x ) + ( 1 − λ ) f ( x ∗ ) = f ( x ∗ ) 此时存在比 x ∗ 更小的点,假设错误, x ∗ 是( f s )的唯一全局最优解
凸函数判别的一阶充要条件:设 S S S 是开集(不包含边界点的集合),f f f 在 S S S 上可微,则 f f f 是凸函数 ⇔ ∀ x , x ∗ ∈ S \Leftrightarrow \forall x,\ x^* \in S ⇔ ∀ x , x ∗ ∈ S ,有 f ( x ) ≥ f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) f(x) \ge f(x^*) + \bigtriangledown f^T (x^*)(x-x^*) f ( x ) ≥ f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) ;f f f 是严格凸函数 ⇔ ∀ x , x ∗ ∈ S , x ≠ x ∗ \Leftrightarrow \forall x,\ x^* \in S,\ x \ne x^* ⇔ ∀ x , x ∗ ∈ S , x = x ∗ ,有 f ( x ) > f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) f(x) > f(x^*) + \bigtriangledown f^T (x^*)(x-x^*) f ( x ) > f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ )
⟹ : ∀ x , y ∈ S , ∀ λ ∈ ( 0 , 1 ) λ f ( x ) + ( 1 − λ ) f ( y ) = f ( y ) + λ ( f ( x ) − f ( y ) ) ≥ f ( λ x + ( 1 − λ ) y ) = f ( y + λ ( x − y ) ) = f ( y ) + λ ▽ T f ( y ) ( x − y ) + o ∥ x − y ∥ 可得 f ( x ) − f ( y ) ≥ ▽ T f ( y ) ( x − y ) + o ∥ x − y ∥ λ 令 λ → 0 , f ( x ) ≥ f ( y ) + ▽ T f ( y ) ( x − y ) , ∀ y ∈ S \begin{align*} & \Longrightarrow : \\ & \forall x,y \in S,\ \forall \lambda \in (0,1) \\ & \lambda f(x) + (1-\lambda)f(y) = {\color{Red}f(y) + \lambda(f(x)-f(y))} \\ & \ge f(\lambda x+(1-\lambda )y) = f(y+\lambda(x-y)) = {\color{Red}f(y) + \lambda\bigtriangledown^T f(y)(x-y) + o\|x-y\|} \\ & 可得\ f(x)-f(y) \ge \bigtriangledown^T f(y)(x-y) + \frac{o\|x-y\| \\}{\lambda} \\ & 令\ \lambda \to 0,\ f(x) \ge f(y) + \bigtriangledown^T f(y)(x-y),\ \forall y \in S \\ & \\ & \end{align*} ⟹: ∀ x , y ∈ S , ∀ λ ∈ ( 0 , 1 ) λ f ( x ) + ( 1 − λ ) f ( y ) = f ( y ) + λ ( f ( x ) − f ( y )) ≥ f ( λ x + ( 1 − λ ) y ) = f ( y + λ ( x − y )) = f ( y ) + λ ▽ T f ( y ) ( x − y ) + o ∥ x − y ∥ 可得 f ( x ) − f ( y ) ≥ ▽ T f ( y ) ( x − y ) + λ o ∥ x − y ∥ 令 λ → 0 , f ( x ) ≥ f ( y ) + ▽ T f ( y ) ( x − y ) , ∀ y ∈ S
凸函数判别的二阶充要条件:设 S S S 是开集,f f f 在 S S S 上二次可微,则 f 凸 ⇔ ∀ x ∈ S , ▽ 2 f ( x ) f 凸 \Leftrightarrow \forall x \in S,\bigtriangledown^2 f(x) f 凸 ⇔ ∀ x ∈ S , ▽ 2 f ( x ) 半正定。若 ∀ x ∈ S , ▽ 2 f ( x ) \forall x \in S,\bigtriangledown^2 f(x) ∀ x ∈ S , ▽ 2 f ( x ) 正定,则 f f f 严格凸。
⟸ : ∀ x , y ∈ S f ( x ) = f ( y ) + ▽ T f ( y ) ( x − y ) + 1 2 ( x − y ) T ▽ 2 ( x μ ) ( x − y ) , 记 x μ = y + μ ( x − y ) 由半正定 : ∀ x ∈ R n , x T A x ≥ 0 可得, 1 2 ( x − y ) T ▽ 2 ( x μ ) ( x − y ) ≥ 0 f ( x ) ≥ f ( y ) + ▽ T f ( y ) ( x − y ) 由上一个证明可得, f 为凸函数 ⟹ : ∀ x , y ∈ S , ∀ λ ∈ ( 0 , 1 ) f ( λ x + ( 1 − λ ) y ) = f ( y + λ ( x − y ) ) = f ( y ) + λ ▽ T f ( y ) ( x − y ) + λ 2 ( x − y ) T ▽ 2 ( y ) ( x − y ) + o ( λ 2 ∥ x − y ∥ 2 ) 易得 f 凸 ⇒ f ( x ) ≥ f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) , ∀ x ∈ S 可得 λ 2 ( x − y ) T ▽ 2 ( y ) ( x − y ) + o ( λ 2 ∥ x − y ∥ 2 ) λ 2 ≥ 0 令 λ → 0 , ( x − y ) T ▽ 2 ( y ) ( x − y ) ≥ 0 ⇒ ▽ 2 f ( x ) 半正定 \begin{align*} & \Longleftarrow: \\ & \forall x,y \in S \\ & f(x) = f(y) + \bigtriangledown^Tf(y)(x-y) + \frac{1}{2}(x-y)^T\bigtriangledown^2(x_{\mu})(x-y),记\ x_{\mu} = y+\mu(x-y) \\ & 由半正定: \forall x \in R^n,\ x^TAx \ge 0 可得,\frac{1}{2}(x-y)^T\bigtriangledown^2(x_{\mu})(x-y) \ge 0 \\ & f(x) \ge f(y) + \bigtriangledown^Tf(y)(x-y) \\ & 由上一个证明可得,f 为凸函数 \\ & \\ & \Longrightarrow: \\ & \forall x,y \in S,\ \forall \lambda \in (0,1) \\ & f(\lambda x+(1-\lambda )y) = {\color{Red}f(y+\lambda(x-y))} \\ & = {\color{Red}f(y) + \lambda\bigtriangledown^T f(y)(x-y) + \lambda^2(x-y)^T\bigtriangledown^2(y)(x-y) + o(\lambda^2\|x-y\|^2)} \\ & 易得\ f凸 \Rightarrow f(x) \ge f(x^*) + \bigtriangledown f^T (x^*)(x-x^*),\forall x \in S \\ & 可得\ \frac{\lambda^2(x-y)^T\bigtriangledown^2(y)(x-y) + o(\lambda^2\|x-y\|^2)}{\lambda^2} \ge 0 \\ & 令\ \lambda \to 0,\ (x-y)^T\bigtriangledown^2(y)(x-y) \ge 0 \Rightarrow \bigtriangledown^2 f(x) 半正定\\ \end{align*} ⟸: ∀ x , y ∈ S f ( x ) = f ( y ) + ▽ T f ( y ) ( x − y ) + 2 1 ( x − y ) T ▽ 2 ( x μ ) ( x − y ) , 记 x μ = y + μ ( x − y ) 由半正定 : ∀ x ∈ R n , x T A x ≥ 0 可得, 2 1 ( x − y ) T ▽ 2 ( x μ ) ( x − y ) ≥ 0 f ( x ) ≥ f ( y ) + ▽ T f ( y ) ( x − y ) 由上一个证明可得, f 为凸函数 ⟹: ∀ x , y ∈ S , ∀ λ ∈ ( 0 , 1 ) f ( λ x + ( 1 − λ ) y ) = f ( y + λ ( x − y )) = f ( y ) + λ ▽ T f ( y ) ( x − y ) + λ 2 ( x − y ) T ▽ 2 ( y ) ( x − y ) + o ( λ 2 ∥ x − y ∥ 2 ) 易得 f 凸 ⇒ f ( x ) ≥ f ( x ∗ ) + ▽ f T ( x ∗ ) ( x − x ∗ ) , ∀ x ∈ S 可得 λ 2 λ 2 ( x − y ) T ▽ 2 ( y ) ( x − y ) + o ( λ 2 ∥ x − y ∥ 2 ) ≥ 0 令 λ → 0 , ( x − y ) T ▽ 2 ( y ) ( x − y ) ≥ 0 ⇒ ▽ 2 f ( x ) 半正定
凸规划的定义:当 ( f S ) (f\ S) ( f S ) 中,S S S 为凸集,f f f 是 S S S 上的凸函数(求min)时,称( f S ) (f\ S) ( f S ) 为凸规划,即求凸函数在凸集上的极小点。对于 ( f g h ) (fgh) ( f g h ) ,当 f , g i f,\ g_i f , g i 为凸函数, h j h_j h j 为线性函数时,( f g h ) (fgh) ( f g h ) 为凸规划。
凸规划的局部极小点就是全局极小点,且极小点的集合是凸集。
凸包的定义:设 S ⊂ R n S \subset R^n S ⊂ R n 为非空集合(不一定是凸集),由 S S S 中所有的有限点的凸组合所构成的集合,称为 S S S 的凸包,记为 c o v ( S ) cov(S) co v ( S ) 。如果 S S S 是凸集,则 S = c o v ( S ) S = cov(S) S = co v ( S ) 。
多面集的定义:有限个半空间的交 S = { x ∣ A x ≤ b } S = \left\{x | Ax \le b \right\} S = { x ∣ A x ≤ b } 称为多面集,其中 A A A 为 m × n m \times n m × n 矩阵,b b b 为 m 维向量。当 b b b 为0时,{ x ∣ A x ≤ 0 } \left\{x | Ax \le 0 \right\} { x ∣ A x ≤ 0 } 表示凸锥。
多面集很像是约束条件方程组、非齐次线性方程组。
极点的定义:设 S S S 为非空凸集,x ∈ S x \in S x ∈ S ,若 x x x 不能表示成 S S S 中两个不同点的凸组合;换言之,若假设 x = λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ( λ ∈ ( 0 , 1 ) ) , x ( 1 ) , x ( 2 ) ∈ S x = \lambda x^{(1)} + (1 - \lambda)x^{(2)} \ (\lambda \in (0,1)),\ x^{(1)},\ x^{(2)} \in S x = λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ( λ ∈ ( 0 , 1 )) , x ( 1 ) , x ( 2 ) ∈ S ,必推得 x = x ( 1 ) = x ( 2 ) x = x^{(1)} = x^{(2)} x = x ( 1 ) = x ( 2 ) ,则称 x x x 是凸集 S S S 的极点。
已知 x x x 为 S S S 的极点,∃ x ( 1 ) , x ( 2 ) 为 S 的点, λ ∈ ( 0 , 1 ) ,若 x = λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ,则 x = x ( 1 ) = x ( 2 ) \exists x^{(1)},\ x^{(2)} 为 S 的点,\lambda\in (0,1),若x = \lambda x^{(1)} + (1-\lambda)x^{(2)},则 x = x^{(1)} = x^{(2)} ∃ x ( 1 ) , x ( 2 ) 为 S 的点, λ ∈ ( 0 , 1 ) ,若 x = λ x ( 1 ) + ( 1 − λ ) x ( 2 ) ,则 x = x ( 1 ) = x ( 2 )
方向的定义:设 S S S 为 R n R^n R n 中的闭凸集,d d d 为非零向量,如果对 S S S 中的每一个 x x x ,都有射线 { x + λ d ∣ λ ≥ 0 } ⊂ S \{ x + \lambda d | \lambda \ge 0 \} \subset S { x + λ d ∣ λ ≥ 0 } ⊂ S ,则称向量 d d d 为 S S S 的方向。
已知 d d d 为 S S S 的极方向,∃ d ( 1 ) , d ( 2 ) 为 S 的方向, λ 1 , λ 2 ≥ 0 ,若 d = λ 1 d ( 1 ) + λ 2 d ( 2 ) ,则 d = d ( 1 ) = d ( 2 ) \exists d^{(1)},\ d^{(2)} 为 S 的方向,\lambda_1,\ \lambda_2 \ge 0,若d = \lambda_1 d^{(1)} + \lambda_2 d^{(2)},则 d = d^{(1)} = d^{(2)} ∃ d ( 1 ) , d ( 2 ) 为 S 的方向, λ 1 , λ 2 ≥ 0 ,若 d = λ 1 d ( 1 ) + λ 2 d ( 2 ) ,则 d = d ( 1 ) = d ( 2 )
极方向的定义:设 d ( 1 ) d^{(1)} d ( 1 ) 和 d ( 2 ) d^{(2)} d ( 2 ) 是 S S S 的两个方向,若对任何正数 λ \lambda λ ,有 d ( 1 ) ≠ λ d ( 2 ) d^{(1)} \ne \lambda d^{(2)} d ( 1 ) = λ d ( 2 ) ,则称 d ( 1 ) d^{(1)} d ( 1 ) 和 d ( 2 ) d^{(2)} d ( 2 ) 是两个不同的方向。若 S S S 的方向 d d d 不能表示成该集合的两个不同方向的正的线性组合,则称 d d d 为 S S S 的极方向。
图中有两个标为红色的极方向 集合S表示的图形应当是有一侧没边的,如此就存在方向,即有界集不存在方向。平行于一侧边的方向是极方向。
用极点表示一些点(凸组合),在这些点上加一个方向,这个方向用极方向表示。
定理(极点特征)设 A m × n A_{m\times n} A m × n 满秩,x x x 是 S S S 极点的充要条件是:存在分解 A = ( B , N ) A = (B,\ N) A = ( B , N ) ,其中 B B B 为 m m m 阶非奇异矩阵(即可逆矩阵),使 x T = ( x B T , x N T ) x^T = (x_B^T,\ x_N^T) x T = ( x B T , x N T ) ,这里 x B = B − 1 b ≥ 0 , x N = 0 x_B = B^{-1}b \ge 0,\ x_N = 0 x B = B − 1 b ≥ 0 , x N = 0 。 注:S S S 中必存在有限多个极点( ≤ C n m \le C_n^m ≤ C n m ) 。
a \begin{align*} & a\\ & \end{align*} a
从6个可能的点中求极点,课件里只判断了3个点 定理 (极方向特征)设 A = ( a 1 , a 2 , … , a n ) A = (a_1,\ a_2,\ \dots\ ,\ a_n) A = ( a 1 , a 2 , … , a n ) ,秩为 m m m (1) d d d 是 S S S 方向的充要条件是 A d = 0 , 且 d ≥ 0 Ad=0,\ 且d \ge 0 A d = 0 , 且 d ≥ 0 (2) d d d 是 S S S 极方向的充要条件是:存在分解 A = ( B , N ) A = (B,\ N) A = ( B , N ) ,其中 B B B 为 m m m 阶非奇异矩阵,对于 N N N 中的列向量 a j a_j a j ,使 B − 1 a j ≤ 0 , d T = ( d B T , d N T ) B^{-1}a_j \le 0,\ d^T = (d_B^T,\ d_N^T) B − 1 a j ≤ 0 , d T = ( d B T , d N T ) ,这里 d B = − B − 1 a j ≥ 0 , d N = ( 0 , ⋯ , 1 , ⋯ , 0 ) T d_B = -B^{-1}a_j \ge 0,\ d_N = (0,\ \cdots\ ,\ 1,\ \cdots\ ,\ 0)^T d B = − B − 1 a j ≥ 0 , d N = ( 0 , ⋯ , 1 , ⋯ , 0 ) T 。 注:S中必存在有限多个极方向 ( ≤ ( n - m ) C n m \le (n-m)C_n^m ≤ ( n - m ) C n m ) 。
从30个方向中求极方向 极点:x B = B − 1 b ≥ 0 , x N = 0 x_B = B^{-1}b \ge 0,\ x_N = 0 x B = B − 1 b ≥ 0 , x N = 0 极方向:d B = − B − 1 a j ≥ 0 , d N = e j d_B = -B^{-1}a_j \ge 0,\ d_N = e_j d B = − B − 1 a j ≥ 0 , d N = e j
定理(表示定理)考虑多面体 S = { x ∈ R n ∣ A x = b , x ≥ 0 } S = \{x\in R^n|Ax = b, x \ge 0\} S = { x ∈ R n ∣ A x = b , x ≥ 0 } ,设 A A A 满秩,x ( 1 ) , x ( 2 ) , ⋯ , x ( k ) x^{(1)} ,\ x^{(2)},\ \cdots\ ,\ x^{(k)} x ( 1 ) , x ( 2 ) , ⋯ , x ( k ) 为所有极点,d ( 1 ) , d ( 2 ) , ⋯ , d ( l ) d^{(1)},\ d^{(2)},\ \cdots\ ,\ d^{(l)} d ( 1 ) , d ( 2 ) , ⋯ , d ( l ) 为所有极方向。那么,对于 ∀ x ∈ S , ∃ λ i ≥ 0 , i = 1 , 2 , ⋯ , k \forall x\in S,\ \exists\lambda_i \ge 0,\ i=1,\ 2,\ \cdots\ ,\ k ∀ x ∈ S , ∃ λ i ≥ 0 , i = 1 , 2 , ⋯ , k ,且 λ 1 + λ 2 + ⋯ + λ k = 1 , μ j ≥ 0 , j = 1 , 2 , ⋯ , l \lambda_1 + \lambda_2 +\cdots+ \lambda_k = 1,\ \mu_j \ge 0,\ j = 1,\ 2,\ \cdots\ ,\ l λ 1 + λ 2 + ⋯ + λ k = 1 , μ j ≥ 0 , j = 1 , 2 , ⋯ , l ,有 x = λ 1 x ( 1 ) + λ 2 x ( 2 ) + ⋯ + λ k x ( k ) + μ 1 d ( 1 ) + μ 2 d ( 2 ) + ⋯ + μ l d ( l ) x = \lambda_1x^{(1)} + \lambda_2x^{(2)} +\ \cdots\ + \lambda_kx_{(k)} + \mu_1d^{(1)} + \mu_2d^{(2)} +\ \cdots\ + \mu_ld^{(l)} x = λ 1 x ( 1 ) + λ 2 x ( 2 ) + ⋯ + λ k x ( k ) + μ 1 d ( 1 ) + μ 2 d ( 2 ) + ⋯ + μ l d ( l ) 。
不可能找到进基变量使目标函数再下降了,迭代终止,找到最优解。
对于 z j − c j ≤ 0 z_j - c_j \le 0 z j − c j ≤ 0 ,x j x_j x j 仍然保持为0 对于 z j − c j > 0 z_j - c_j > 0 z j − c j > 0 ,取 z k − c k = m a x z j − c j > 0 { z j − c j } = m a x j ∈ R { z j − c j } z_k - c_k = \underset{z_j-c_j>0}{max}\{z_j-c_j\} = \underset{j\in R}{max}\{z_j-c_j\} z k − c k = z j − c j > 0 ma x { z j − c j } = j ∈ R ma x { z j − c j }
A x = b Ax=b A x = b 解的变化:x B = B − 1 b − B − 1 N x N → x k 由 0 变正以后 x B = B − 1 b − B − 1 P k x k → 令 b ˉ = B − 1 令 y k = B − 1 P K x B = b ˉ − y k x k x_B = B^{-1}b - B^{-1}Nx_N \xrightarrow{x_k由0变正以后} x_B = B^{-1}b - B^{-1}P_kx_k \xrightarrow[令\bar{b}=B^{-1}]{令y_k=B^{-1}P_K} x_B = \bar{b} - y_k x_k x B = B − 1 b − B − 1 N x N x k 由 0 变正以后 x B = B − 1 b − B − 1 P k x k 令 y k = B − 1 P K 令 b ˉ = B − 1 x B = b ˉ − y k x k 其中,B − 1 B^{-1} B − 1 形状为 m × m m\times m m × m ,N N N 形状为 m × ( n − m ) m \times (n-m) m × ( n − m ) ,B − 1 N B^{-1}N B − 1 N 形状为 m × ( n − m ) m \times (n-m) m × ( n − m ) ,x N x_N x N 形状为 ( n − m ) × 1 (n-m) \times 1 ( n − m ) × 1 ,是零向量。x k x_k x k 变正以后,B − 1 N B^{-1}N B − 1 N 的第k k k 列保留下来,作为 P k P_k P k 。
x B = ( x B 1 x B 1 ⋮ x B m ) = ( b ˉ 1 b ˉ 2 ⋮ b ˉ m ) − ( y 1 k y 2 k ⋮ y m k ) x k x N = ( 0 ⋯ 0 x k 0 ⋯ 0 ) T f = f 0 − ( z k − c k ) x k x B ≥ 0 , z k − c k > 0 , x k > 0 \begin{align*} & x_B = \begin{pmatrix} x_{B_1} \\ x_{B_1} \\ \vdots \\ & x_{B_m}\end{pmatrix} = \begin{pmatrix} \bar{b}_1 \\ \bar{b}_2 \\ \vdots \\ \bar{b}_m \end{pmatrix} - \begin{pmatrix} y_{1k} \\ y_{2k} \\ \vdots \\ y_{mk} \end{pmatrix} x_k \\ & x_N = (0 \quad \cdots \quad 0 \quad x_k \quad 0 \quad \cdots \quad 0)^T \\ & f = f_0 - (z_k - c_k)x_k \\ & x_B \ge 0, z_k - c_k > 0, x_k > 0 \end{align*} x B = x B 1 x B 1 ⋮ x B m = b ˉ 1 b ˉ 2 ⋮ b ˉ m − y 1 k y 2 k ⋮ y mk x k x N = ( 0 ⋯ 0 x k 0 ⋯ 0 ) T f = f 0 − ( z k − c k ) x k x B ≥ 0 , z k − c k > 0 , x k > 0
x k x_k x k 越大,函数值下降越多。若 y i k ≤ 0 , ∀ x k y_{ik} \le 0, \forall x_k y ik ≤ 0 , ∀ x k 若 y i k > 0 y_{ik} > 0 y ik > 0 ,x k x_k x k 不能无限增大,否则 x B = b ˉ − y k x k < 0 x_B = \bar{b} - y_k x_k < 0 x B = b ˉ − y k x k < 0 ,不可行 综上,x k x_k x k 应选取满足 1、3 的最大值
r 为出基下标,k 为进基下标
可证明:新可行解 x = ( ) x = () x = ( ) 是基本可行解
对应基变量的判别数总是小于等于
缺少一部分证明,大概一页草稿纸多一点的样子。
缺少线性规划部分的证明和应用,这部分听完课再补上。