抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

我看了看手上的牌,明白自己无牌可出

明年再来,我给你加位。

Chapter1

1.1 向量

  • 向量:一个有序的数字列表

  • 可写成

    [1.10.03.67.2]or(1.10.03.67.2)or(1.1,0.0,3.6,7.2)\begin{bmatrix}-1.1 \\ 0.0 \\ 3.6 \\ -7.2\end{bmatrix} or \begin{pmatrix}-1.1 \\ 0.0 \\ 3.6 \\ -7.2\end{pmatrix} or \begin{pmatrix}-1.1, 0.0, 3.6, -7.2\end{pmatrix}

  • 列表中的数字是元素(项、系数、分量)

  • 元素的数量是向量的大小(维数、长度),大小为n的向量称为n维向量

  • 向量中的数字通常被称作标量

向量默认为列向量

1.1.1 向量的符号表示

  • aia_i中的ii表示为索引,注意:有时i指的是向量列表中的第i个向量

  • 对于所有ii,如果有ai=bia_i=b_i,则称两个相同大小的向量aabb是相等的,可写成a=ba=b

1.1.2 块向量

  • 块向量a=[bcd]a = \begin{bmatrix} b \\ c \\ d \end{bmatrix}具有块项bbccdd

  • 块向量aa的大小是m+n+pm+n+p(各块项的大小之和)

1.1.3 零向量、全一向量和单位向量

  • 零向量:所有项全为0

  • 全一向量:所有项全为1

  • 单位向量:仅有一个元素为1,其余全为0;当第ii项为1,其余项为0时表示为eie_i

1.1.4 稀疏向量

  • 如果一个向量的许多项是0,该向量为稀疏(Sparse)的

  • nnz(x)nnz(x)是指向量中非零的项数(number of non-zeros),有时用0\ell_0表示

  • 例:零向量,单位向量

1.2 数域

有理数 实数 复数
符号 Q\bold{Q} R\bold{R} C\bold{C}
13\frac{1}{3} π\pi 1+i1+i

数的非空集合P,且其中任意两个数的和、差、积、商(除数不为0)仍属于该集合,则称数集P为一个数域。

1.2 向量空间

VV是非空子集,PP是一数域,向量空间VV满足:

  1. 向量加法:V+VVV+V\to V,即x,yV,x+yV\forall x,y \in V, x+y \in V(加法封闭)

  2. 标量乘法:F×VVF \times V \to V,即xV,λP,λxv\forall x \in V, \lambda \in P, \lambda x \in v(乘法封闭)

上述两种运算满足如下八条规则

x,y,zV,λ,μP:\forall x,y,z \in V, \lambda , \mu \in P:

  1. 交换律:x+y=y+xx+y=y+x

  2. 结合律:x+(y+z)=(x+y)+zx+(y+z)=(x+y)+z

  3. VV存在一个零元素,记作00x+0=xx+0=x

  4. 存在xx的负元素,记作x-x,满足x+(x)=0x+(-x)=0

  5. xV,1x=x,1P\forall x \in V, 1x=x,1 \in P

  6. λ(μx)=(λμ)x\lambda ( \mu x)=( \lambda \mu)x

  7. (λ+μ)x=λx+μx( \lambda + \mu )x= \lambda x + \mu x

  8. λ(x+y)=λx+λy\lambda(x+y)=\lambda x+\lambda y

向量空间也被称为线性空间

1.2.1 向量加法的性质

设向量a,b,cVa,b,c \in VVV是一个向量空间,有:

  • 交换律:a+b=b+aa+b=b+a

  • 结合律:(a+b)+c=a+(b+c)(a+b)+c=a+(b+c)

  • a+0=0+a=aa+0=0+a=a

  • aa=0a-a=0

1.2.3 一点到另一点的位移

  • q\color{red}{q}到点p\color{yellow}{p}的位移是pq\color{yellow}{p} \color{grey}- \color{red}{q},不确定可以找个原点想象一下

1.3 标量与向量的乘法

标量β\beta与n维向量aa进行相乘(也可表示为aβa\beta):

βa=[βa1βan]\beta a = \begin{bmatrix} \beta a_1 \\ \vdots \\ \beta a_n\end{bmatrix}

1.3.1 标向量乘法(纯量乘法)的性质

标量β,γ\beta, \gamma,向量a,ba,b

  • 结合律:(βγ)a=β(γa)(\beta \gamma )a=\beta(\gamma a)

  • 左分配律:(β+γ)a=βa+γa(\beta+\gamma)a=\beta a+\gamma a

  • 右分配律:β(a+b)=βa+βb\beta(a+b)=\beta a+\beta b

1.3.2 线性组合

对于向量a1,,ama_1, \cdots , a_m和标量β1,,βm\beta_1, \cdots, \beta_mβ1a1++βmam\beta_1 a_1 + \cdots + \beta_m a_m是向量的线性组合β1,,βm\beta_1, \cdots, \beta_m是该向量的系数

1.4 内积

a,b=a1b1+a2b2++anbn=aTb\langle a, b \rangle = a_1 b_1+a_2 b_2+\cdots + a_n b_n = a^T b

定义:在数域R\mathbb{R}上的向量空间VV,定义函数,:V×VR\langle\cdot,\cdot \rangle:V \times V \to \mathbb{R},满足:

  1. a,a0,aV\langle a, a \rangle \ge 0, \forall a \in V,当且仅当a=0时,a,a=0\langle a, a \rangle = 0

  2. αa+βb,c=αa,c+βb,c,α,βR\langle \alpha a + \beta b, c \rangle = \alpha \langle a, c \rangle + \beta \langle b, c \rangle,\forall \alpha, \beta \in \mathbb{R},且a,b,cVa,b,c \in V

  3. a,b=b,a,a,bV\langle a, b \rangle = \langle b, a \rangle, \forall a,b \in V

则函数,\langle\cdot,\cdot \rangle称为内积

1.4.1 内积的性质

  • 交换律:aTb=bTaa^T b=b^T a

  • 结合律:(γa)Tb=γ(aTb)(\gamma a)^T b = \gamma (a^T b)

  • 分配律:(a+b)Tc=aTc+bTc(a+b)^T c = a^T c + b^T c

1.4.2 常用的内积等式

  • 选出第ii项:eiTa=aie_i^T a = a_i

  • 向量每一项之和:1Ta=a1++an\bold{1}^T a = a_1 + \cdots + a_n

  • 向量每一项的平方和:aTa=a12++an2a^T a = a_1^2+\cdots +a_n^2

1.4.3 柯西-施瓦茨不等式(Cauchy-Schwartzn)

,\langle\cdot,\cdot \rangle是向量空间VV上的内积,x,yV\forall x,y \in V,有

x,y2x,xy,y|\langle x,y \rangle |^2 \le \langle x,x \rangle \langle y,y \rangle

x=βy,βRx=\beta y, \beta \in \mathbb{R}等式成立

Chapter2

2.1 线性函数

  • 线性函数:f:RnR.ff: \mathbb{R}^n \to \mathbb{R. f}是一个将n维向量映射成数的函数

  • 线性函数ff满足(kR,x,yRnk\in \mathbb{R}, x,y \in \mathbb{R}^n):

    • 齐次性(homogeneity):f(kx)=kf(x)f(kx)=kf(x)

    • 叠加性(Additivity):f(x+y)=f(x)+f(y)f(x+y)=f(x)+f(y)

  • 一个函数如果满足这两个性质,就称其为线性函数

2.1.1 内积函数

  • 对于n维向量aa,满足以下形式的函数成为内积函数(inner product function):

f(x)=aTx=a1x1+a2x2++anxnf(x)=a^T x=a_1 x_1 + a_2 x_2 + \cdots + a_n x_n

  • 内积函数都是线性的

2.1.2 所有线性函数都是内积

线性函数表示为内积形式:

f(x)=f(x1e1+x2e2++xnen)=x1f(e1)+x2f(e2)++xnf(en)\begin{aligned} f(x)&=f(x_1 e_1 + x_2 e_2 + \cdots + x_n e_n)\\ &= x_1 f(e_1) + x_2 f(e_2) + \cdots + x_n f(e_n) \end{aligned}

此时表示为内积形式(f(en)f(e_n)为常量对应ana_n

2.1.3 仿射函数

  • 定义:一个线性函数加上一个常数称为仿射函数(affine function)

  • 一般形式为f(x)=aTx+b, aRn,bRf(x)=a^T x+b, \space a \in \mathbb{R}^n,b \in \mathbb{R}

  • 函数f:RnRf:\mathbb{R}^n \to \mathbb{R}满足:

f(αx+βy)=αf(x)+βf(y), α+β=1,α,βR,x,yRnf(\alpha x + \beta y)=\alpha f(x) + \beta f(y), \space \alpha + \beta =1,\alpha, \beta \in \mathbb{R},x,y \in \mathbb{R} ^n

2.2 梯度与偏导

假设:f:RnRf:\mathbb{R}^n \to \mathbb{R},函数ffzz点可微,其第ii个分量的一阶偏导为:

fzi(z)=limt0f(z1,,zi1,zi+t,zi+1,,zn)f(z)t=limt0f(z+tei)f(z)t\begin{aligned} \frac{\partial f}{\partial z_i}(z) &=\lim_{t \to 0} \frac{f(z_1,\cdots,z_{i-1},z_i+t,z_{i+1},\cdots,z_n)-f(z)}{t} \\ &=\lim_{t \to 0} \frac{f(z+te_i)-f(z)}{t} \end{aligned}

ff在点zz的梯度为:

f(z)=[fz1(z)fzn(z)]\nabla f(z)=\begin{bmatrix} \frac{\partial f}{\partial z_1}(z) \\ \vdots \\ \frac{\partial f}{\partial z_n}(z)\end{bmatrix}

2.2 一阶泰勒近似

假设:f:RnRf:\mathbb{R}^n \to \mathbb{R},函数ffzz点可导,其附近的一阶泰勒公式为:

f^(x)=f(z)+fx1(z)(x1z)+fx2(z)(x2z)++fxn(z)(xnz)\hat{f}(x)=f(z)+\frac{\partial f}{\partial x_1}(z)(x_1-z)+\frac{\partial f}{\partial x_2}(z)(x_2-z)+\cdots+\frac{\partial f}{\partial x_n}(z)(x_n-z)

  • xx非常接近zz时,f^(x)\hat{f}(x)也非常接近f(z)f(z)

  • f^(x)\hat{f}(x)是一个关于xx的仿射函数

写成内积形式:

f^(x)=f(z)+f(z)T(xz)f(z)=[fx1(z)fxn(z)]\hat{f}(x)=f(z)+\nabla f(z)^T(x-z) \\ \nabla f(z)=\begin{bmatrix} \frac{\partial f}{\partial x_1}(z) \\ \vdots \\ \frac{\partial f}{\partial x_n}(z) \end{bmatrix}

2.3 回归模型

y^=xTβ+v\hat{y}=x^T\beta+v

  • xx是特征向量,它的元素xix_i称为回归元

  • n维向量β\beta是权重向量

  • 标量vv是偏移量

  • 标量y^\hat{y}是预测值

Chapter3

3.1 范数

向量范数:在向量空间中存在一个函数:RnR||\cdot||:\mathbb{R}^n\to\mathbb{R},且满足以下条件:

  • 齐次性:αx=αx,αRxRn||\alpha x||=|\alpha|||x||,\alpha \in \mathbb{R}且x \in \mathbb{R}^n

  • 三角不等性:x+yx+y,x,yRn||x+y|| \le ||x||+||y||,x,y \in \mathbb{R}^n

  • 非负性:x0,xRnx=0x=0||x|| \ge 0,x\in \mathbb{R}^n 且 ||x||=0 \Leftrightarrow x=0

则称||\cdot ||为向量范数

常用的范数与不等式(抄在书上)

1\ell_1-范数(曼哈顿范数)

x1=x1+x2++xn,x,yRn,αR||x||_1=|x_1|+|x_2|+ \cdots +|x_n|,x,y \in \bold{R}^n,\alpha \in \bold{R}

2\ell_2-范数(欧几里得范数,一般的||\cdot||也是)

x2=(x12+x22++xn2)=xTx=(x,x)12||x||_2=\sqrt{(x_1^2+x_2^2+ \cdots +x_n^2)}=\sqrt{x^Tx}=(\langle x,x \rangle )^\frac{1}{2}

p\ell_p-范数

xp=(x1p+x2p++xnp)1p,xRn||x||_p=(|x_1|^p+|x_2|^p+\cdots+|x_n|^p)^\frac{1}{p},x \in \mathbb{R}^n

\ell_\infin-范数

x=max1inxi,xRn||x||_\infin = \max_{1 \le i \le n} |x_i|,x \in \bold{R}^n

0\ell_0-范数 (非0元素的个数)

x0=nnz(x)||x||_0=nnz(x)

柯西-施瓦茨不等式

可用于证明2\ell_2-范数的三角不等性

x,y2x,xy,y=x22y22|\langle x,y \rangle |^2 \le \langle x,x \rangle \langle y,y \rangle = ||x||_2^2 ||y||_2^2

Minkowshi不等式

可用于证明p\ell_p-范数的三角不等性

(i=1nxi+yip)1p(i=1nxip)1p+(i=1nyip)1p,p1,x,yRn(\sum_{i=1}^n |x_i+y_i|^p)^\frac{1}{p} \le (\sum_{i=1}^n|x_i|^p)^\frac{1}{p} + (\sum_{i=1}^n|y_i|^p)^\frac{1}{p},p \ge 1, x,y \in \bold{R}^n

Hölder不等式

i=1nxiyi(i=1nxip)1p(i=1nyip)1p,1p+1q=1,1<p,q<\sum_{i=1}^n |x_iy_i| \le (\sum_{i=1}^n|x_i|^p)^\frac{1}{p} (\sum_{i=1}^n|y_i|^p)^\frac{1}{p},\frac{1}{p}+\frac{1}{q}=1,1<p,q<\infin

3.1.1 均方根

  • n维向量xx的均方值:

x12+x22++xn2n=x22n\frac{x_1^2+x_2^2+\cdots+x_n^2}{n}=\frac{||x||_2^2}{n}

  • n维向量xx的均方根:

rms(x)=x12+x22++xn2n=x2n\mathit{rms}(x)=\sqrt{\frac{x_1^2+x_2^2+\cdots+x_n^2}{n}}=\frac{||x||_2}{\sqrt n}

3.1.2 切比雪夫不等式

假设k为向量xx分量满足条件xia|x_i|\ge a的个数

则:x22=x12+x22++xn2ka2||x||_2^2=x_1^2+x_2^2+\cdots + x_n^2 \ge ka^2

即:kx22a2k\le \frac{||x||_2^2}{a^2}

即满足xia|x_i|\ge axix_i个数不会超过x22a2\frac{||x||_2^2}{a^2}

使用均方根来描述即为:

kn(rms(x)a)2\frac{k}{n}\le (\frac{\mathit{rms}(x)}{a})^2

例:不超过4%4\%的项满足xi5×rms(x)|x_i| \ge 5 \times \mathit{rms}(x)

3.2 距离

n维向量aabb之间的欧氏距离:

dist(a,b)=ab2\mathit{dist}(a,b)=||a-b||_2

3.2.1 三角不等式

  • 顶点为a,b,ca,b,c

  • 两点之间的距离大于0,如ab2>0||a-b||_2 > 0

  • 第三边长度不大于另外两边之和,即三角不等式关系:

ac2=(ab)+(bc)2ab2+bc2||a-c||_2=||(a-b)+(b-c)||_2\le ||a-b||_2+||b-c||_2

3.2.2 特征距离与最近邻

  • 对于特征向量xxyy,它们的特征距离为xy2||x-y||_2

  • 对于向量xx,在一组向量z1,z2,,zmz_1,z_2,\cdots,z_m中找到zjz_j满足:xzj2xzi2, i=1,,m||x-z_j||_2 \le ||x-z_i||_2,\space i=1,\cdots,m

  • zjz_jxx的最近邻

3.3 标准差

平均值:

avg(x)=1Txn\mathit{avg}(x)=\frac{\bold1^Tx}{n}

去均值向量:

x~=xavg(x)1\tilde{x}=x-\mathit{avg}(x)\bold1

标准差:

std(x)=rms(x~)=x(1Tx/n)12n\mathit{std}(x)=\mathit{rms}(\tilde{x})=\frac{||x-(\bold1^Tx/n)\bold1||_2}{\sqrt n}

rms(x)2=avg(x)2+std(x)2\mathit{rms}(x)^2=\mathit{avg}(x)^2+\mathit{std}(x)^2

3.4 角

(a,b)=arccos(aTba2b2)\angle(a,b)=\arccos(\frac{a^Tb}{||a||_2||b||_2})

Chapter4

4.1 优化问题

假设NN个样本向量x1,x2,,xNRnx_1,x_2,\cdots,x_N\in \mathbb{R}^n,需要找到中心向量zz满足:

minzRni=1Nxiz22\min_{z\in \mathbb R^n}\sum_{i=1}^N ||x_i-z||_2^2

4.1.1 渐近符号

高阶无穷小记号oo

x,yx,y是同一变化过程中的无穷小,即x0,y0x \to 0, y\to 0,如果它们极限

limyx=0\lim \frac y x = 0

则称yyxx的高阶无穷小,记作y=o(x)y=o(x)

4.1.2 必要条件

假设函数ffx^\hat x可微,则有

x^=arg minx inRnf(x)f(x^)=0\hat x = \argmin_{x \ in\mathbb{R}^n} f(x) \Rightarrow \nabla f(\hat x)=0

f(x^)=0\nabla f(\hat x)=0是最优问题解的必要条件

f(x^)=0x^=arg minxRnf(x)\nabla f(\hat x)=0\nLeftrightarrow \hat x = \argmin_{x \in \mathbb{R}^n} f(x)

有可能意味着最大值

4.2 凸集

定义域为ΩRn\Omega \in \mathbb{R}^n成为凸的(Convex)集合,则x,yΩ,αR,0α1\forall x,y \in \Omega, \alpha \in \mathbb{R},0 \le \alpha \le 1

αx+(1α)yΩ\alpha x + (1-\alpha)y \in \Omega

4.2 凸函数

满足

f(αx+(1α)y)αf(x)+(1α)f(y),x,yΩ,αR,0α1f(\alpha x + (1-\alpha )y) \le \alpha f(x) + (1-\alpha) f(y), \\ \forall x,y \in \Omega,\alpha \in \bold R, 0\le\alpha\le 1

引理:可微函数ff是凸函数的充要条件(应该不会考),见证明

f(y)f(x)+f(x),yx,x,yf(y) \ge f(x) + \langle \nabla f(x), y-x \rangle , \forall x,y

定理:如果可微函数ff是凸函数,则有:

x^=arg minxRnf(x^)=0\hat x = \argmin_{x \in \mathbb{R}^n} \Leftrightarrow \nabla f(\hat x) = 0

4.3 优化问题

向量偏导

就是求偏导

聚类中心

假设NN个样本向量x1,x2,,xNRnx_1,x_2,\cdots,x_N\in \mathbb{R}^n,需要找到中心向量z满足:

minzRni=1Nxiz22\min_{z\in \mathbb R^n}\sum_{i=1}^N ||x_i-z||_2^2

f(z)=minzRni=1Nxiz22=i=1Nxiz,xiz=i=1N{xiTxi2xiTz+zTz}\begin{aligned}f(z)&= \min_{z\in \mathbb R^n}\sum_{i=1}^N ||x_i-z||_2^2 \\ &= \sum_{i=1}^N \langle x_i-z,x_i-z \rangle \\ &= \sum_{i=1}^N \{ x_i^Tx_i - 2x_i^Tz + z^Tz \} \end{aligned}

f(z)=i=1N{2xi+2z}=0\nabla f(z)=\sum_{i=1}^N \{ -2x_i + 2z \} =0

z=1Ni=1Nxiz=\frac{1}{N} \sum_{i=1}^N x_i

标量

同上,优化问题的思路基本是求偏导,找到偏导为0的情况

4.4 聚类

分成k个集合尽量使得同一个集合中的向量彼此接近

聚类目标:找到簇cc与聚类中心zz使得

ci=arg minzjj={1,,k}xizj22,i=1,2,,Nc_i=\argmin_{z_j} \sum_{j=\{ 1, \cdots, k \} } || x_i - z_j||_2^2,i=1,2,\cdots , N

4.4 k-means

懒得写了,看看实验报告吧

Chapter5

5.1 线性相关

对于向量a1,,amRna_1,\cdots,a_m\in\mathbb{R}^n,如果存在不全为0的数β1,,βmR\beta_1,\cdots,\beta_m\in\mathbb{R},使得

β1a1++βmam=0\beta_1 a_1 + \cdots + \beta_m a_m = 0

则称向量a1,,ama_1,\cdots,a_m线性相关

等价于:至少有一个向量aia_i是其他向量的线性组合

5.2 线性无关(又叫线性独立)

向量a1,,amRna_1,\cdots,a_m\in\mathbb{R}^n线性无关,即

β1a1++βmam=0\beta_1 a_1 + \cdots + \beta_m a_m =0

当且仅当β1==βm=0\beta_1=\cdots=\beta_m=0,上述等式成立

等价于:不存在一个向量aia_i是其他向量的线性组合

一个n维向量集最多有n个线性无关的向量

5.2.1 线性无关向量的线性组合

线性无关向量a1,,aka_1,\cdots,a_k的线性组合的系数是唯一的

5.3 基

n个线性相关的n维向量a1,,ana_1,\cdots,a_n的集合称为

任何一个n维向量bb都可以用它们的线性组合来表示

b=β1a1++βnanb=\beta_1 a_1 + \cdots + \beta_n a_n

5.4 标准正交向量

对于a1,,amRna_1,\cdots,a_m\in\mathbb{R}^n

相互正交:

aiTaj=0,ija_i^Ta_j = 0,i \ne j

标准正交(每个向量的模长都为单位长度1):

aiTaj={1, i=j0, ija_i^Ta_j=\begin{cases} 1 ,\ i=j \\ 0, \ i \ne j\end{cases}

当m=n时,a1,,ana_1,\cdots, a_n是n维向量的一个标准正交基

5.4.2 标准正交分解

a1,,ana_1,\cdots, a_n是n维向量的一个标准正交基,对于任意n维向量xx

x=(a1Tx)a1++(anTx)anx=(a_1^Tx)a_1+\cdots+(a_n^Tx)a_n

验证上式两边同乘任意aia_i

aiTx=(a1Tx)aiTa1++(aiTx)aiTai++(anTx)aiTan=aiTxa_i^Tx=(a_1^Tx)a_i^Ta_1+\cdots+(a_i^Tx)a_i^Ta_i+\cdots+(a_n^Tx)a_i^Ta_n=a_i^Tx

5.5 Gram-Schmidt(正交化)算法

对于n维向量a1,,aka_1,\cdots,a_k,将其标准正交化。见[流程](最优化方法例题解法 - 没有秃头基因的燊的博客 (yzs020220.github.io))

时间复杂度为2nk22nk^2

Chapter6

涉及概念较多,很多不一定考,看ppt吧(题型主要是从矩阵计算分解到向量计算)

6.11 矩阵乘法

不要记混了,行(左)与列(右)元素一一对应相乘之后相加

Cij=k=1PAikBkjC_{ij}=\sum_{k=1}^P A_{ik}B_{kj}

Chapter7

7.1 矩阵左逆

当一个矩阵XX满足XA=IXA=I时,XX被称为AA的左逆

7.2 矩阵右逆

当一个矩阵XX满足AX=IAX=I时,XX被称为AA的右逆

7.3 性质

  • 一个大小为m×nm × n的矩阵,其左逆或右逆的维度为n×mn × m

  • A的左逆为X当且仅当XTX^TATA^T的右逆

  • A的右逆为X当且仅当XTX^TATA^T的左逆

7.4 矩阵的逆

如果矩阵A存在左逆和右逆,则左逆和右逆一定相等

XA=I,AY=IX=XI=X(AY)=(XA)Y=YXA=I,AY=I \Rightarrow X=XI=X(AY)=(XA)Y=Y

矩阵XX记作A1A^{-1}

7.7 非奇异矩阵

对于方阵ARn×nA \in \mathbb{R}^{n\times n},以下条件都是等价的

  1. A可左逆

  2. A的列向量线性无关

  3. A可右逆

  4. A的行向量线性无关

7.12 Gram矩阵

实矩阵:

G=ATAG=A^TA

复矩阵:

G=AHAG=A^HA

7.14 伪逆

矩阵ARm×nA \in \mathbb{R}^{m\times n},当mnm\ge n时,列向量线性无关,即ATAA^TA可逆

定义伪逆:

A+=(ATA)1ATA^+=(A^TA)^{-1}A^T

为矩阵A的左逆:

A+A=(ATA)1ATA=(ATA)1(ATA)=IA^+A=(A^TA)^{-1}A^TA=(A^TA)^{-1}(A^TA)=I

当A为方阵,伪逆等于矩阵的逆

矩阵ARm×nA \in \mathbb{R}^{m\times n},当mnm\le n时,行向量线性无关,即AATAA^T可逆

定义伪逆:

A=AT(AAT)1A^\dagger=A^T(AA^T)^{-1}

伪逆AA^\dagger为A的右逆

AA=AAT(AAT)1=(AAT)1(AAT)=IAA^\dagger=AA^T(AA^T)^{-1}=(AA^T)^{-1}(AA^T)=I

当A为方阵,伪逆等于矩阵的逆

Chapter8

8.2 标准列正交矩阵

如果A的Gram矩阵为单位矩阵,则ARm×nA\in \mathbb R^{m\times n}具有标准正交列:

ATA=IA^TA=I

8.5 正交矩阵

定义:所有列两两相互正交的方形实矩阵称为正交矩阵

如果矩阵AA正交则

  • AA是可逆的,左逆等于右逆,且逆为ATA^T

ATA=IA是方的}AAT=I\left. \begin{aligned} A^TA=I \\ A是方的 \end{aligned}\right \} \Rightarrow AA^T=I

  • ATA^T也是一个正交矩阵

  • AA的行是标准正交的,即范数为1且相互正交

8.6 置换矩阵

置换矩阵AA在每一行和每一列中都有一个等于1的元素,置换矩阵满足正交性:

  • ATA=IA^TA=I

  • AT=A1A^T=A^{-1}是逆置换矩阵

Chapter9

9.1 三角矩阵

  • 上三角矩阵(Upper)

  • 下三角矩阵(Lower)

  • 对角元素都为1称为单位上三角矩阵/下三角矩阵

9.2 前向回代

AA是具有非零对角元素的下三角矩阵,解Ax=bAx=b

x1=b1/A11x2=(b2A21x1)/A22x3=(b3A31x1A32x2)/A33  xn=(bnAn1x1An2x2An,n1xn1)/Ann\begin{aligned} &x_1=b_1/A_{11} \\ &x_2=(b_2-A_{21}x_1)/A_{22} \\ &x_3=(b_3-A_{31}x_1-A_{32}x_2)/A_{33} \\ & \ \ \vdots \\ &x_n=(b_n-A_{n1}x_1-A_{n2}x_2-\cdots-A_{n,n-1}x_{n-1})/A_{nn} \end{aligned}

9.3 后向回代

AA是具有非零对角元素的上三角矩阵,解Ax=bAx=b

xn=bn/Annxn1=(bn1An1,nxn)/An1,n1xn2=(bn2An2,n1xn1An2,nxn)/An2,n2  x1=(b1A12x2A13x3A1nxn)/A11\begin{aligned} &x_n=b_n/A_{nn} \\ &x_{n-1}=(b_{n-1}-A_{n-1,n}x_n)/A_{n-1,n-1} \\ &x_{n-2}=(b_{n-2}-A_{n-2,n-1}x_{n-1}-A_{n-2,n}x_n)/A_{n-2,n-2} \\ & \ \ \vdots \\ &x_1=(b_1-A_{12}x_2-A_{13}x_3-\cdots-A_{1n}x_{n})/A_{11} \end{aligned}

9.4 三角矩阵的逆矩阵

矩阵AA的逆可以通过逐列解方程AX=IAX=I来计算得到

9.5 QR分解

如果矩阵ARm×nA\in \R^{m\times n}的列向量线性无关,则可以分解为一组标准正交向量QQ与上三角矩阵RR

A=[a1a2an]=[q1q2qn][R11R12R1n0R22R2n00Rnn]=QR\begin{aligned} A&=\begin{bmatrix}a_1& a_2& \cdots & a_n\end{bmatrix} \\ &=\begin{bmatrix}q_1& q_2& \cdots & q_n \end{bmatrix} \begin{bmatrix} R_{11}& R_{12}& \cdots & R_{1n} \\ 0& R_{22} & \cdots & R_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & R_{nn} \end{bmatrix} \\ &= QR \end{aligned}

Gram-Schmidt正交化

qi~=ai(q1Tai)q1(qi1Tai)qi1\tilde{q_i}=a_i-(q_1^Ta_i)q_1-\cdots-(q_{i-1}^Ta_i)q_{i-1}

Rji=(qjTai)R_{ji}=(q_j^Ta_i)

一般要求Rii>0R_{ii}>0使得QQRR是唯一的

9.6 QR分解和伪逆

具有线性无关列向量的矩阵AA的伪逆为

A+=(ATA)1ATA^+=(A^TA)^{-1}A^T

AA的伪逆表示为QRQR因子:

A+=((QR)T(QR))1(QR)T=(RTQTQR)1RTQT=(RTR)1RTQT=R1RTRTQT=R1QT\begin{aligned} A^+ &= \left( (QR)^T(QR) \right)^{-1}(QR)^T \\ &= (R^TQ^TQR)^{-1}R^TQ^T \\ &= (R^TR)^{-1}R^TQ^T \\ &= R^{-1}R^{-T}R^TQ^T \\ &= R^{-1}Q^T \end{aligned}

对于方阵非奇异矩阵AA,其逆为:

A1=(QR)1=R1QTA^{-1}=(QR)^{-1}=R^{-1}Q^T

Chapter10

10.2 应用QR分解

计算非奇异矩阵ARn×nA\in \R^{n\times n}的逆A1A^{-1},通过AX=IAX=I,即QRX=IQRX=I

X=[x1,x2,,xn],xiRn,i=1,,nI=[e1,e2,,en],eiRn,i=1,,nQRX=IRX=QTIRx1=QTe1,Rx2=QTe2,,Rxn=QTen\begin{aligned} &X=[x_1,x_2,\cdots,x_n],x_i\in\R^n,i=1,\cdots,n \\ &I=[e_1,e_2,\cdots,e_n],e_i\in\R^n,i=1,\cdots,n \\ &QRX=I \Rightarrow RX=Q^TI \\ &Rx_1=Q^Te_1,Rx_2=Q^Te_2,\cdots,Rx_n=Q^Te_n \end{aligned}

回代法求解

10.3 LU分解

LL为下三角矩阵且对角线元素全为1,UU为上三角矩阵

A=LUA=LU

  1. 矩阵UU的第一行元素:

u1j=a1j,j=1,,nu_{1j}=a_{1j},j=1,\cdots,n

  1. 矩阵LL的第一列元素:

li1=ai1u11,i=2,3,,nl_{i1}=\frac{a_{i1}}{u_{11}},i=2,3,\cdots,n

r=2r=2开始直到r=nr=n

  1. 矩阵UU第r行主对角线以右元素urju_{rj}

urj=arjk=1r1lrkukj,j=r,,nu_{rj}=a_{rj}-\sum_{k=1}^{r-1}l_{rk}u_{kj},j=r,\cdots,n

  1. 矩阵LL第r列主对角线以下元素lirl_{ir}

lir=(airk=1r1likukr)/urr,i=r+1,,nl_{ir}=\left(a_{ir}- \sum_{k=1}^{r-1} l_{ik}u_{kr} \right)/u_{rr},i=r+1,\cdots,n

10.4 LU求解方程

求解Ax=bAx=b

  1. 对矩阵AA进行LU分解

  2. 回代法求出yyAx=LUx=Ly=bAx=LUx=Ly=b

  3. 回代法求出xxUx=bUx=b

Chapter11

11.2 最小二乘法

寻找超定方程组(方程组系数矩阵为高矩阵,可能无解)的近似解,并尽可能地逼近方程组的目标bb

minxAxb22=minxi=1m(j=1nAijxjbj)2\min_x ||Ax-b||_2^2 = \min_x \sum_{i=1}^m (\sum_{j=1}^n A_{ij}x_j - b_j)^2

xx上的xix_i求偏导,当f(x)=0\nabla f(x)=0时,得到x^\hat x即为近似解

当残差r^=Ax^b=0\hat r=A\hat x - b=0时,x^\hat x是线性方程组Ax=bAx=b的解,否则为误差最小平方和下方程组的近似解

11.5 目标求解

f(x)=2(ATAxATb)=0ATAx=ATb\nabla f(x)= 2(A^TAx-A^Tb)=0 \Rightarrow A^TAx = A^Tb

则在AA的列向量线性无关时,x^=(ATA)1ATb\hat x=(A^TA)^{-1}A^Tb

11.7 正规方程

ATAx=ATbA^TAx=A^Tb

AA列向量线性无关,则

  • ATAA^TA为非奇异矩阵

  • 正规方程此时有唯一解

11.8 QR分解求解正规方程

若矩阵AA列向量线性无关,则最小二乘法问题的解:

x^=(ATA)1ATb=(RTQTQR)1RTQTb=(RTR)1RTQTb=R1QTb\begin{aligned} \hat x &= (A^TA)^{-1}A^Tb \\ &= (R^TQ^TQR)^{-1} R^TQ^Tb \\ &= (R^TR)^{-1}R^TQ^Tb \\ &= R^{-1}Q^Tb \end{aligned}

流程:

  • 对矩阵AA进行QR分解

  • 计算矩阵向量乘积d=QTbd=Q^Tb

  • 通过回代法求解Rx=dRx=d

Chapter13

13.1 约束优化问题

minx{f(x)}s.t.h(x)=0\min_x \left \{ f(x) \right \} \quad s.t. \quad h(x)=0

引入拉格朗日函数:

L(x,λ)=f(x)λh(x)L(x,\lambda)=f(x)-\lambda h(x)

对拉格朗日函数求偏导:

{xL(x,λ)=xf(x)λxh(x)=0λL(x,λ)=h(x)=0\begin{cases} \nabla_xL(x,\lambda)=\nabla_x f(x)-\lambda \nabla_x h(x)=0 \\ \nabla_\lambda L(x,\lambda)=-h(x)=0 \end{cases}

13.1 KKT条件:必要条件

minx/maxf(x)s.t.hi(x)=0, iI{1,,p}gj(x)0, jJ{1,,q}\min_x/\max f(x) \\ \begin{aligned} s.t. \quad & h_i(x)=0, \ i\in I \triangleq \left \{ 1, \cdots,p\right \} \\ & g_j(x) \le 0, \ j\in J \triangleq \{ 1, \cdots ,q \} \end{aligned}

引入拉格朗日函数:

L(x,λ,μ)=f(x)iIλihi(x)jJμjgj(x)L(x,\lambda,\mu) = f(x)-\sum_{i\in I} \lambda_ih_i(x) - \sum_{j\in J} \mu_jg_j(x)

KKT条件:

xL(x,λ,u)=xf(x)iIλixhi(x)jJujxgj(x)=0iIλihi(x)=0,hi(x)=0jJujgj(x)=0,gj(x)0,uj0(不全为0)\begin{aligned} &\nabla_xL(x,\lambda,u)=\nabla_xf(x)- \sum_{i \in I} \lambda_i \nabla_x h_i(x) -\sum_{j \in J}u_j\nabla_xg_j(x) =0 \\ &\sum_{i\in I}\lambda_ih_i(x)=0,h_i(x)=0 \\ &\sum_{j\in J}u_j g_j(x)=0,g_j(x)\le0,u_j \ge 0(不全为0) \end{aligned}

评论