明年再来,我给你加位。
Chapter1
1.1 向量
-
向量:一个有序的数字列表
-
可写成
⎣⎢⎢⎢⎡−1.10.03.6−7.2⎦⎥⎥⎥⎤or⎝⎜⎜⎜⎛−1.10.03.6−7.2⎠⎟⎟⎟⎞or(−1.1,0.0,3.6,−7.2)
-
列表中的数字是元素(项、系数、分量)
-
元素的数量是向量的大小(维数、长度),大小为n的向量称为n维向量
-
向量中的数字通常被称作标量
向量默认为列向量
1.1.1 向量的符号表示
1.1.2 块向量
1.1.3 零向量、全一向量和单位向量
1.1.4 稀疏向量
1.2 数域
|
有理数 |
实数 |
复数 |
符号 |
Q |
R |
C |
例 |
31 |
π |
1+i |
数的非空集合P,且其中任意两个数的和、差、积、商(除数不为0)仍属于该集合,则称数集P为一个数域。
1.2 向量空间
设V是非空子集,P是一数域,向量空间V满足:
-
向量加法:V+V→V,即∀x,y∈V,x+y∈V(加法封闭)
-
标量乘法:F×V→V,即∀x∈V,λ∈P,λx∈v(乘法封闭)
上述两种运算满足如下八条规则
∀x,y,z∈V,λ,μ∈P:
-
交换律:x+y=y+x
-
结合律:x+(y+z)=(x+y)+z
-
V存在一个零元素,记作0,x+0=x
-
存在x的负元素,记作−x,满足x+(−x)=0
-
∀x∈V,1x=x,1∈P
-
λ(μx)=(λμ)x
-
(λ+μ)x=λx+μx
-
λ(x+y)=λx+λy
向量空间也被称为线性空间
1.2.1 向量加法的性质
设向量a,b,c∈V,V是一个向量空间,有:
-
交换律:a+b=b+a
-
结合律:(a+b)+c=a+(b+c)
-
a+0=0+a=a
-
a−a=0
1.2.3 一点到另一点的位移
- 点q到点p的位移是p−q,不确定可以找个原点想象一下
1.3 标量与向量的乘法
标量β与n维向量a进行相乘(也可表示为aβ):
βa=⎣⎢⎢⎡βa1⋮βan⎦⎥⎥⎤
1.3.1 标向量乘法(纯量乘法)的性质
标量β,γ,向量a,b:
-
结合律:(βγ)a=β(γa)
-
左分配律:(β+γ)a=βa+γa
-
右分配律:β(a+b)=βa+βb
1.3.2 线性组合
对于向量a1,⋯,am和标量β1,⋯,βm,β1a1+⋯+βmam是向量的线性组合,β1,⋯,βm是该向量的系数
1.4 内积
⟨a,b⟩=a1b1+a2b2+⋯+anbn=aTb
定义:在数域R上的向量空间V,定义函数⟨⋅,⋅⟩:V×V→R,满足:
-
⟨a,a⟩≥0,∀a∈V,当且仅当a=0时,⟨a,a⟩=0
-
⟨αa+βb,c⟩=α⟨a,c⟩+β⟨b,c⟩,∀α,β∈R,且a,b,c∈V
-
⟨a,b⟩=⟨b,a⟩,∀a,b∈V
则函数⟨⋅,⋅⟩称为内积
1.4.1 内积的性质
-
交换律:aTb=bTa
-
结合律:(γa)Tb=γ(aTb)
-
分配律:(a+b)Tc=aTc+bTc
1.4.2 常用的内积等式
-
选出第i项:eiTa=ai
-
向量每一项之和:1Ta=a1+⋯+an
-
向量每一项的平方和:aTa=a12+⋯+an2
1.4.3 柯西-施瓦茨不等式(Cauchy-Schwartzn)
设⟨⋅,⋅⟩是向量空间V上的内积,∀x,y∈V,有
∣⟨x,y⟩∣2≤⟨x,x⟩⟨y,y⟩
当x=βy,β∈R等式成立
Chapter2
2.1 线性函数
-
线性函数:f:Rn→R.f是一个将n维向量映射成数的函数
-
线性函数f满足(k∈R,x,y∈Rn):
-
一个函数如果满足这两个性质,就称其为线性函数
2.1.1 内积函数
- 对于n维向量a,满足以下形式的函数成为内积函数(inner product function):
f(x)=aTx=a1x1+a2x2+⋯+anxn
2.1.2 所有线性函数都是内积
线性函数表示为内积形式:
f(x)=f(x1e1+x2e2+⋯+xnen)=x1f(e1)+x2f(e2)+⋯+xnf(en)
此时表示为内积形式(f(en)为常量对应an)
2.1.3 仿射函数
-
定义:一个线性函数加上一个常数称为仿射函数(affine function)
-
一般形式为f(x)=aTx+b, a∈Rn,b∈R
-
函数f:Rn→R满足:
f(αx+βy)=αf(x)+βf(y), α+β=1,α,β∈R,x,y∈Rn
2.2 梯度与偏导
假设:f:Rn→R,函数f在z点可微,其第i个分量的一阶偏导为:
∂zi∂f(z)=t→0limtf(z1,⋯,zi−1,zi+t,zi+1,⋯,zn)−f(z)=t→0limtf(z+tei)−f(z)
f在点z的梯度为:
∇f(z)=⎣⎢⎢⎡∂z1∂f(z)⋮∂zn∂f(z)⎦⎥⎥⎤
2.2 一阶泰勒近似
假设:f:Rn→R,函数f在z点可导,其附近的一阶泰勒公式为:
f^(x)=f(z)+∂x1∂f(z)(x1−z)+∂x2∂f(z)(x2−z)+⋯+∂xn∂f(z)(xn−z)
写成内积形式:
f^(x)=f(z)+∇f(z)T(x−z)∇f(z)=⎣⎢⎢⎡∂x1∂f(z)⋮∂xn∂f(z)⎦⎥⎥⎤
2.3 回归模型
y^=xTβ+v
Chapter3
3.1 范数
向量范数:在向量空间中存在一个函数∣∣⋅∣∣:Rn→R,且满足以下条件:
-
齐次性:∣∣αx∣∣=∣α∣∣∣x∣∣,α∈R且x∈Rn
-
三角不等性:∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣,x,y∈Rn
-
非负性:∣∣x∣∣≥0,x∈Rn且∣∣x∣∣=0⇔x=0
则称∣∣⋅∣∣为向量范数
常用的范数与不等式(抄在书上)
ℓ1-范数(曼哈顿范数)
∣∣x∣∣1=∣x1∣+∣x2∣+⋯+∣xn∣,x,y∈Rn,α∈R
ℓ2-范数(欧几里得范数,一般的∣∣⋅∣∣也是)
∣∣x∣∣2=(x12+x22+⋯+xn2)=xTx=(⟨x,x⟩)21
ℓp-范数
∣∣x∣∣p=(∣x1∣p+∣x2∣p+⋯+∣xn∣p)p1,x∈Rn
ℓ∞-范数
∣∣x∣∣∞=1≤i≤nmax∣xi∣,x∈Rn
ℓ0-范数 (非0元素的个数)
∣∣x∣∣0=nnz(x)
柯西-施瓦茨不等式
可用于证明ℓ2-范数的三角不等性
∣⟨x,y⟩∣2≤⟨x,x⟩⟨y,y⟩=∣∣x∣∣22∣∣y∣∣22
Minkowshi不等式
可用于证明ℓp-范数的三角不等性
(i=1∑n∣xi+yi∣p)p1≤(i=1∑n∣xi∣p)p1+(i=1∑n∣yi∣p)p1,p≥1,x,y∈Rn
Hölder不等式
i=1∑n∣xiyi∣≤(i=1∑n∣xi∣p)p1(i=1∑n∣yi∣p)p1,p1+q1=1,1<p,q<∞
3.1.1 均方根
nx12+x22+⋯+xn2=n∣∣x∣∣22
rms(x)=nx12+x22+⋯+xn2=n∣∣x∣∣2
3.1.2 切比雪夫不等式
假设k为向量x分量满足条件∣xi∣≥a的个数
则:∣∣x∣∣22=x12+x22+⋯+xn2≥ka2
即:k≤a2∣∣x∣∣22
即满足∣xi∣≥a的xi个数不会超过a2∣∣x∣∣22
使用均方根来描述即为:
nk≤(arms(x))2
例:不超过4%的项满足∣xi∣≥5×rms(x)
3.2 距离
n维向量a和b之间的欧氏距离:
dist(a,b)=∣∣a−b∣∣2
3.2.1 三角不等式
∣∣a−c∣∣2=∣∣(a−b)+(b−c)∣∣2≤∣∣a−b∣∣2+∣∣b−c∣∣2
3.2.2 特征距离与最近邻
-
对于特征向量x和y,它们的特征距离为∣∣x−y∣∣2
-
对于向量x,在一组向量z1,z2,⋯,zm中找到zj满足:∣∣x−zj∣∣2≤∣∣x−zi∣∣2, i=1,⋯,m
-
则zj是x的最近邻
3.3 标准差
平均值:
avg(x)=n1Tx
去均值向量:
x~=x−avg(x)1
标准差:
std(x)=rms(x~)=n∣∣x−(1Tx/n)1∣∣2
rms(x)2=avg(x)2+std(x)2
3.4 角
∠(a,b)=arccos(∣∣a∣∣2∣∣b∣∣2aTb)
Chapter4
4.1 优化问题
假设N个样本向量x1,x2,⋯,xN∈Rn,需要找到中心向量z满足:
z∈Rnmini=1∑N∣∣xi−z∣∣22
4.1.1 渐近符号
高阶无穷小记号o
设x,y是同一变化过程中的无穷小,即x→0,y→0,如果它们极限
limxy=0
则称y是x的高阶无穷小,记作y=o(x)
4.1.2 必要条件
假设函数f在x^可微,则有
x^=x inRnargminf(x)⇒∇f(x^)=0
∇f(x^)=0是最优问题解的必要条件
∇f(x^)=0⇎x^=x∈Rnargminf(x)
有可能意味着最大值
4.2 凸集
定义域为Ω∈Rn成为凸的(Convex)集合,则∀x,y∈Ω,α∈R,0≤α≤1有
αx+(1−α)y∈Ω
4.2 凸函数
满足
f(αx+(1−α)y)≤αf(x)+(1−α)f(y),∀x,y∈Ω,α∈R,0≤α≤1
引理:可微函数f是凸函数的充要条件(应该不会考),见证明:
f(y)≥f(x)+⟨∇f(x),y−x⟩,∀x,y
定理:如果可微函数f是凸函数,则有:
x^=x∈Rnargmin⇔∇f(x^)=0
4.3 优化问题
向量偏导
就是求偏导
聚类中心
假设N个样本向量x1,x2,⋯,xN∈Rn,需要找到中心向量z满足:
z∈Rnmini=1∑N∣∣xi−z∣∣22
f(z)=z∈Rnmini=1∑N∣∣xi−z∣∣22=i=1∑N⟨xi−z,xi−z⟩=i=1∑N{xiTxi−2xiTz+zTz}
∇f(z)=i=1∑N{−2xi+2z}=0
z=N1i=1∑Nxi
标量
同上,优化问题的思路基本是求偏导,找到偏导为0的情况
4.4 聚类
分成k个集合尽量使得同一个集合中的向量彼此接近
聚类目标:找到簇c与聚类中心z使得
ci=zjargminj={1,⋯,k}∑∣∣xi−zj∣∣22,i=1,2,⋯,N
4.4 k-means
懒得写了,看看实验报告吧
Chapter5
5.1 线性相关
对于向量a1,⋯,am∈Rn,如果存在不全为0的数β1,⋯,βm∈R,使得
β1a1+⋯+βmam=0
则称向量a1,⋯,am线性相关
等价于:至少有一个向量ai是其他向量的线性组合
5.2 线性无关(又叫线性独立)
向量a1,⋯,am∈Rn线性无关,即
β1a1+⋯+βmam=0
当且仅当β1=⋯=βm=0,上述等式成立
等价于:不存在一个向量ai是其他向量的线性组合
一个n维向量集最多有n个线性无关的向量
5.2.1 线性无关向量的线性组合
线性无关向量a1,⋯,ak的线性组合的系数是唯一的
5.3 基
n个线性相关的n维向量a1,⋯,an的集合称为基
任何一个n维向量b都可以用它们的线性组合来表示
b=β1a1+⋯+βnan
5.4 标准正交向量
对于a1,⋯,am∈Rn
相互正交:
aiTaj=0,i=j
标准正交(每个向量的模长都为单位长度1):
aiTaj={1, i=j0, i=j
当m=n时,a1,⋯,an是n维向量的一个标准正交基
5.4.2 标准正交分解
a1,⋯,an是n维向量的一个标准正交基,对于任意n维向量x:
x=(a1Tx)a1+⋯+(anTx)an
验证上式两边同乘任意ai:
aiTx=(a1Tx)aiTa1+⋯+(aiTx)aiTai+⋯+(anTx)aiTan=aiTx
5.5 Gram-Schmidt(正交化)算法
对于n维向量a1,⋯,ak,将其标准正交化。见[流程](最优化方法例题解法 - 没有秃头基因的燊的博客 (yzs020220.github.io))
时间复杂度为2nk2
Chapter6
涉及概念较多,很多不一定考,看ppt吧(题型主要是从矩阵计算分解到向量计算)
6.11 矩阵乘法
不要记混了,行(左)与列(右)元素一一对应相乘之后相加
Cij=k=1∑PAikBkj
Chapter7
7.1 矩阵左逆
当一个矩阵X满足XA=I时,X被称为A的左逆
7.2 矩阵右逆
当一个矩阵X满足AX=I时,X被称为A的右逆
7.3 性质
-
一个大小为m×n的矩阵,其左逆或右逆的维度为n×m
-
A的左逆为X当且仅当XT是AT的右逆
-
A的右逆为X当且仅当XT是AT的左逆
7.4 矩阵的逆
如果矩阵A存在左逆和右逆,则左逆和右逆一定相等
XA=I,AY=I⇒X=XI=X(AY)=(XA)Y=Y
矩阵X记作A−1
7.7 非奇异矩阵
对于方阵A∈Rn×n,以下条件都是等价的
-
A可左逆
-
A的列向量线性无关
-
A可右逆
-
A的行向量线性无关
7.12 Gram矩阵
实矩阵:
G=ATA
复矩阵:
G=AHA
7.14 伪逆
矩阵A∈Rm×n,当m≥n时,列向量线性无关,即ATA可逆
定义伪逆:
A+=(ATA)−1AT
为矩阵A的左逆:
A+A=(ATA)−1ATA=(ATA)−1(ATA)=I
当A为方阵,伪逆等于矩阵的逆
矩阵A∈Rm×n,当m≤n时,行向量线性无关,即AAT可逆
定义伪逆:
A†=AT(AAT)−1
伪逆A†为A的右逆
AA†=AAT(AAT)−1=(AAT)−1(AAT)=I
当A为方阵,伪逆等于矩阵的逆
Chapter8
8.2 标准列正交矩阵
如果A的Gram矩阵为单位矩阵,则A∈Rm×n具有标准正交列:
ATA=I
8.5 正交矩阵
定义:所有列两两相互正交的方形实矩阵称为正交矩阵
如果矩阵A正交则
- A是可逆的,左逆等于右逆,且逆为AT
ATA=IA是方的}⇒AAT=I
-
AT也是一个正交矩阵
-
A的行是标准正交的,即范数为1且相互正交
8.6 置换矩阵
置换矩阵A在每一行和每一列中都有一个等于1的元素,置换矩阵满足正交性:
Chapter9
9.1 三角矩阵
-
上三角矩阵(Upper)
-
下三角矩阵(Lower)
-
对角元素都为1称为单位上三角矩阵/下三角矩阵
9.2 前向回代
A是具有非零对角元素的下三角矩阵,解Ax=b
x1=b1/A11x2=(b2−A21x1)/A22x3=(b3−A31x1−A32x2)/A33 ⋮xn=(bn−An1x1−An2x2−⋯−An,n−1xn−1)/Ann
9.3 后向回代
A是具有非零对角元素的上三角矩阵,解Ax=b
xn=bn/Annxn−1=(bn−1−An−1,nxn)/An−1,n−1xn−2=(bn−2−An−2,n−1xn−1−An−2,nxn)/An−2,n−2 ⋮x1=(b1−A12x2−A13x3−⋯−A1nxn)/A11
9.4 三角矩阵的逆矩阵
矩阵A的逆可以通过逐列解方程AX=I来计算得到
9.5 QR分解
如果矩阵A∈Rm×n的列向量线性无关,则可以分解为一组标准正交向量Q与上三角矩阵R
A=[a1a2⋯an]=[q1q2⋯qn]⎣⎢⎢⎢⎢⎡R110⋮0R12R22⋮0⋯⋯⋱⋯R1nR2n⋮Rnn⎦⎥⎥⎥⎥⎤=QR
Gram-Schmidt正交化
qi~=ai−(q1Tai)q1−⋯−(qi−1Tai)qi−1
Rji=(qjTai)
一般要求Rii>0使得Q和R是唯一的
9.6 QR分解和伪逆
具有线性无关列向量的矩阵A的伪逆为
A+=(ATA)−1AT
将A的伪逆表示为QR因子:
A+=((QR)T(QR))−1(QR)T=(RTQTQR)−1RTQT=(RTR)−1RTQT=R−1R−TRTQT=R−1QT
对于方阵非奇异矩阵A,其逆为:
A−1=(QR)−1=R−1QT
Chapter10
10.2 应用QR分解
计算非奇异矩阵A∈Rn×n的逆A−1,通过AX=I,即QRX=I
X=[x1,x2,⋯,xn],xi∈Rn,i=1,⋯,nI=[e1,e2,⋯,en],ei∈Rn,i=1,⋯,nQRX=I⇒RX=QTIRx1=QTe1,Rx2=QTe2,⋯,Rxn=QTen
回代法求解
10.3 LU分解
L为下三角矩阵且对角线元素全为1,U为上三角矩阵
A=LU
- 矩阵U的第一行元素:
u1j=a1j,j=1,⋯,n
- 矩阵L的第一列元素:
li1=u11ai1,i=2,3,⋯,n
从r=2开始直到r=n
- 矩阵U第r行主对角线以右元素urj
urj=arj−k=1∑r−1lrkukj,j=r,⋯,n
- 矩阵L第r列主对角线以下元素lir
lir=(air−k=1∑r−1likukr)/urr,i=r+1,⋯,n
10.4 LU求解方程
求解Ax=b
-
对矩阵A进行LU分解
-
回代法求出y:Ax=LUx=Ly=b
-
回代法求出x:Ux=b
Chapter11
11.2 最小二乘法
寻找超定方程组(方程组系数矩阵为高矩阵,可能无解)的近似解,并尽可能地逼近方程组的目标b:
xmin∣∣Ax−b∣∣22=xmini=1∑m(j=1∑nAijxj−bj)2
对x上的xi求偏导,当∇f(x)=0时,得到x^即为近似解
当残差r^=Ax^−b=0时,x^是线性方程组Ax=b的解,否则为误差最小平方和下方程组的近似解
11.5 目标求解
∇f(x)=2(ATAx−ATb)=0⇒ATAx=ATb
则在A的列向量线性无关时,x^=(ATA)−1ATb
11.7 正规方程
ATAx=ATb
若A列向量线性无关,则
-
ATA为非奇异矩阵
-
正规方程此时有唯一解
11.8 QR分解求解正规方程
若矩阵A列向量线性无关,则最小二乘法问题的解:
x^=(ATA)−1ATb=(RTQTQR)−1RTQTb=(RTR)−1RTQTb=R−1QTb
流程:
-
对矩阵A进行QR分解
-
计算矩阵向量乘积d=QTb
-
通过回代法求解Rx=d
Chapter13
13.1 约束优化问题
xmin{f(x)}s.t.h(x)=0
引入拉格朗日函数:
L(x,λ)=f(x)−λh(x)
对拉格朗日函数求偏导:
{∇xL(x,λ)=∇xf(x)−λ∇xh(x)=0∇λL(x,λ)=−h(x)=0
13.1 KKT条件:必要条件
xmin/maxf(x)s.t.hi(x)=0, i∈I≜{1,⋯,p}gj(x)≤0, j∈J≜{1,⋯,q}
引入拉格朗日函数:
L(x,λ,μ)=f(x)−i∈I∑λihi(x)−j∈J∑μjgj(x)
KKT条件:
∇xL(x,λ,u)=∇xf(x)−i∈I∑λi∇xhi(x)−j∈J∑uj∇xgj(x)=0i∈I∑λihi(x)=0,hi(x)=0j∈J∑ujgj(x)=0,gj(x)≤0,uj≥0(不全为0)