明年再来,我给你加位。
 Chapter1
 1.1 向量
- 
向量:一个有序的数字列表 
- 
可写成 ⎣⎢⎢⎢⎡−1.10.03.6−7.2⎦⎥⎥⎥⎤or⎝⎜⎜⎜⎛−1.10.03.6−7.2⎠⎟⎟⎟⎞or(−1.1,0.0,3.6,−7.2) 
- 
列表中的数字是元素(项、系数、分量) 
- 
元素的数量是向量的大小(维数、长度),大小为n的向量称为n维向量 
- 
向量中的数字通常被称作标量 
向量默认为列向量
 1.1.1 向量的符号表示
 1.1.2 块向量
 1.1.3 零向量、全一向量和单位向量
 1.1.4 稀疏向量
 1.2 数域
|  | 有理数 | 实数 | 复数 | 
| 符号 | Q | R | C | 
| 例 | 31 | π | 1+i | 
数的非空集合P,且其中任意两个数的和、差、积、商(除数不为0)仍属于该集合,则称数集P为一个数域。
 1.2 向量空间
设V是非空子集,P是一数域,向量空间V满足:
- 
向量加法:V+V→V,即∀x,y∈V,x+y∈V(加法封闭) 
- 
标量乘法:F×V→V,即∀x∈V,λ∈P,λx∈v(乘法封闭) 
上述两种运算满足如下八条规则
∀x,y,z∈V,λ,μ∈P:
- 
交换律:x+y=y+x 
- 
结合律:x+(y+z)=(x+y)+z 
- 
V存在一个零元素,记作0,x+0=x 
- 
存在x的负元素,记作−x,满足x+(−x)=0 
- 
∀x∈V,1x=x,1∈P 
- 
λ(μx)=(λμ)x 
- 
(λ+μ)x=λx+μx 
- 
λ(x+y)=λx+λy 
向量空间也被称为线性空间
 1.2.1 向量加法的性质
设向量a,b,c∈V,V是一个向量空间,有:
- 
交换律:a+b=b+a 
- 
结合律:(a+b)+c=a+(b+c) 
- 
a+0=0+a=a 
- 
a−a=0 
 1.2.3 一点到另一点的位移
- 点q到点p的位移是p−q,不确定可以找个原点想象一下
 1.3 标量与向量的乘法
标量β与n维向量a进行相乘(也可表示为aβ):
βa=⎣⎢⎢⎡βa1⋮βan⎦⎥⎥⎤
 1.3.1 标向量乘法(纯量乘法)的性质
标量β,γ,向量a,b:
- 
结合律:(βγ)a=β(γa) 
- 
左分配律:(β+γ)a=βa+γa 
- 
右分配律:β(a+b)=βa+βb 
 1.3.2 线性组合
对于向量a1,⋯,am和标量β1,⋯,βm,β1a1+⋯+βmam是向量的线性组合,β1,⋯,βm是该向量的系数
 1.4 内积
⟨a,b⟩=a1b1+a2b2+⋯+anbn=aTb
定义:在数域R上的向量空间V,定义函数⟨⋅,⋅⟩:V×V→R,满足:
- 
⟨a,a⟩≥0,∀a∈V,当且仅当a=0时,⟨a,a⟩=0 
- 
⟨αa+βb,c⟩=α⟨a,c⟩+β⟨b,c⟩,∀α,β∈R,且a,b,c∈V 
- 
⟨a,b⟩=⟨b,a⟩,∀a,b∈V 
则函数⟨⋅,⋅⟩称为内积
 1.4.1 内积的性质
- 
交换律:aTb=bTa 
- 
结合律:(γa)Tb=γ(aTb) 
- 
分配律:(a+b)Tc=aTc+bTc 
 1.4.2 常用的内积等式
- 
选出第i项:eiTa=ai 
- 
向量每一项之和:1Ta=a1+⋯+an 
- 
向量每一项的平方和:aTa=a12+⋯+an2 
 1.4.3 柯西-施瓦茨不等式(Cauchy-Schwartzn)
设⟨⋅,⋅⟩是向量空间V上的内积,∀x,y∈V,有
∣⟨x,y⟩∣2≤⟨x,x⟩⟨y,y⟩
当x=βy,β∈R等式成立
 Chapter2
 2.1 线性函数
- 
线性函数:f:Rn→R.f是一个将n维向量映射成数的函数 
- 
线性函数f满足(k∈R,x,y∈Rn): 
- 
一个函数如果满足这两个性质,就称其为线性函数 
 2.1.1 内积函数
- 对于n维向量a,满足以下形式的函数成为内积函数(inner product function):
f(x)=aTx=a1x1+a2x2+⋯+anxn
 2.1.2 所有线性函数都是内积
线性函数表示为内积形式:
f(x)=f(x1e1+x2e2+⋯+xnen)=x1f(e1)+x2f(e2)+⋯+xnf(en)
此时表示为内积形式(f(en)为常量对应an)
 2.1.3 仿射函数
- 
定义:一个线性函数加上一个常数称为仿射函数(affine function) 
- 
一般形式为f(x)=aTx+b, a∈Rn,b∈R 
- 
函数f:Rn→R满足: 
f(αx+βy)=αf(x)+βf(y), α+β=1,α,β∈R,x,y∈Rn
 2.2 梯度与偏导
假设:f:Rn→R,函数f在z点可微,其第i个分量的一阶偏导为:
∂zi∂f(z)=t→0limtf(z1,⋯,zi−1,zi+t,zi+1,⋯,zn)−f(z)=t→0limtf(z+tei)−f(z)
f在点z的梯度为:
∇f(z)=⎣⎢⎢⎡∂z1∂f(z)⋮∂zn∂f(z)⎦⎥⎥⎤
 2.2 一阶泰勒近似
假设:f:Rn→R,函数f在z点可导,其附近的一阶泰勒公式为:
f^(x)=f(z)+∂x1∂f(z)(x1−z)+∂x2∂f(z)(x2−z)+⋯+∂xn∂f(z)(xn−z)
写成内积形式:
f^(x)=f(z)+∇f(z)T(x−z)∇f(z)=⎣⎢⎢⎡∂x1∂f(z)⋮∂xn∂f(z)⎦⎥⎥⎤
 2.3 回归模型
y^=xTβ+v
 Chapter3
 3.1 范数
向量范数:在向量空间中存在一个函数∣∣⋅∣∣:Rn→R,且满足以下条件:
- 
齐次性:∣∣αx∣∣=∣α∣∣∣x∣∣,α∈R且x∈Rn 
- 
三角不等性:∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣,x,y∈Rn 
- 
非负性:∣∣x∣∣≥0,x∈Rn且∣∣x∣∣=0⇔x=0 
则称∣∣⋅∣∣为向量范数
 常用的范数与不等式(抄在书上)
ℓ1-范数(曼哈顿范数)
∣∣x∣∣1=∣x1∣+∣x2∣+⋯+∣xn∣,x,y∈Rn,α∈R
ℓ2-范数(欧几里得范数,一般的∣∣⋅∣∣也是)
∣∣x∣∣2=(x12+x22+⋯+xn2)=xTx=(⟨x,x⟩)21
ℓp-范数
∣∣x∣∣p=(∣x1∣p+∣x2∣p+⋯+∣xn∣p)p1,x∈Rn
ℓ∞-范数
∣∣x∣∣∞=1≤i≤nmax∣xi∣,x∈Rn
ℓ0-范数 (非0元素的个数)
∣∣x∣∣0=nnz(x)
 柯西-施瓦茨不等式
可用于证明ℓ2-范数的三角不等性
∣⟨x,y⟩∣2≤⟨x,x⟩⟨y,y⟩=∣∣x∣∣22∣∣y∣∣22
 Minkowshi不等式
可用于证明ℓp-范数的三角不等性
(i=1∑n∣xi+yi∣p)p1≤(i=1∑n∣xi∣p)p1+(i=1∑n∣yi∣p)p1,p≥1,x,y∈Rn
 Hölder不等式
i=1∑n∣xiyi∣≤(i=1∑n∣xi∣p)p1(i=1∑n∣yi∣p)p1,p1+q1=1,1<p,q<∞
 3.1.1 均方根
nx12+x22+⋯+xn2=n∣∣x∣∣22
rms(x)=nx12+x22+⋯+xn2=n∣∣x∣∣2
 3.1.2 切比雪夫不等式
假设k为向量x分量满足条件∣xi∣≥a的个数
则:∣∣x∣∣22=x12+x22+⋯+xn2≥ka2
即:k≤a2∣∣x∣∣22
即满足∣xi∣≥a的xi个数不会超过a2∣∣x∣∣22
使用均方根来描述即为:
nk≤(arms(x))2
例:不超过4%的项满足∣xi∣≥5×rms(x)
 3.2 距离
n维向量a和b之间的欧氏距离:
dist(a,b)=∣∣a−b∣∣2
 3.2.1 三角不等式
∣∣a−c∣∣2=∣∣(a−b)+(b−c)∣∣2≤∣∣a−b∣∣2+∣∣b−c∣∣2
 3.2.2 特征距离与最近邻
- 
对于特征向量x和y,它们的特征距离为∣∣x−y∣∣2 
- 
对于向量x,在一组向量z1,z2,⋯,zm中找到zj满足:∣∣x−zj∣∣2≤∣∣x−zi∣∣2, i=1,⋯,m 
- 
则zj是x的最近邻 
 3.3 标准差
平均值:
avg(x)=n1Tx
去均值向量:
x~=x−avg(x)1
标准差:
std(x)=rms(x~)=n∣∣x−(1Tx/n)1∣∣2
rms(x)2=avg(x)2+std(x)2
 3.4 角
∠(a,b)=arccos(∣∣a∣∣2∣∣b∣∣2aTb)
 Chapter4
 4.1 优化问题
假设N个样本向量x1,x2,⋯,xN∈Rn,需要找到中心向量z满足:
z∈Rnmini=1∑N∣∣xi−z∣∣22
 4.1.1 渐近符号
高阶无穷小记号o
设x,y是同一变化过程中的无穷小,即x→0,y→0,如果它们极限
limxy=0
则称y是x的高阶无穷小,记作y=o(x)
 4.1.2 必要条件
假设函数f在x^可微,则有
x^=x inRnargminf(x)⇒∇f(x^)=0
∇f(x^)=0是最优问题解的必要条件
∇f(x^)=0⇎x^=x∈Rnargminf(x)
有可能意味着最大值
 4.2 凸集
定义域为Ω∈Rn成为凸的(Convex)集合,则∀x,y∈Ω,α∈R,0≤α≤1有
αx+(1−α)y∈Ω
 4.2 凸函数
满足
f(αx+(1−α)y)≤αf(x)+(1−α)f(y),∀x,y∈Ω,α∈R,0≤α≤1
引理:可微函数f是凸函数的充要条件(应该不会考),见证明:
f(y)≥f(x)+⟨∇f(x),y−x⟩,∀x,y
定理:如果可微函数f是凸函数,则有:
x^=x∈Rnargmin⇔∇f(x^)=0
 4.3 优化问题
 向量偏导
就是求偏导
 聚类中心
假设N个样本向量x1,x2,⋯,xN∈Rn,需要找到中心向量z满足:
z∈Rnmini=1∑N∣∣xi−z∣∣22
f(z)=z∈Rnmini=1∑N∣∣xi−z∣∣22=i=1∑N⟨xi−z,xi−z⟩=i=1∑N{xiTxi−2xiTz+zTz}
∇f(z)=i=1∑N{−2xi+2z}=0
z=N1i=1∑Nxi
 标量
同上,优化问题的思路基本是求偏导,找到偏导为0的情况
 4.4 聚类
分成k个集合尽量使得同一个集合中的向量彼此接近
聚类目标:找到簇c与聚类中心z使得
ci=zjargminj={1,⋯,k}∑∣∣xi−zj∣∣22,i=1,2,⋯,N
 4.4 k-means
懒得写了,看看实验报告吧
 Chapter5
 5.1 线性相关
对于向量a1,⋯,am∈Rn,如果存在不全为0的数β1,⋯,βm∈R,使得
β1a1+⋯+βmam=0
则称向量a1,⋯,am线性相关
等价于:至少有一个向量ai是其他向量的线性组合
 5.2 线性无关(又叫线性独立)
向量a1,⋯,am∈Rn线性无关,即
β1a1+⋯+βmam=0
当且仅当β1=⋯=βm=0,上述等式成立
等价于:不存在一个向量ai是其他向量的线性组合
一个n维向量集最多有n个线性无关的向量
 5.2.1 线性无关向量的线性组合
线性无关向量a1,⋯,ak的线性组合的系数是唯一的
 5.3 基
n个线性相关的n维向量a1,⋯,an的集合称为基
任何一个n维向量b都可以用它们的线性组合来表示
b=β1a1+⋯+βnan
 5.4 标准正交向量
对于a1,⋯,am∈Rn
相互正交:
aiTaj=0,i=j
标准正交(每个向量的模长都为单位长度1):
aiTaj={1, i=j0, i=j
当m=n时,a1,⋯,an是n维向量的一个标准正交基
 5.4.2 标准正交分解
a1,⋯,an是n维向量的一个标准正交基,对于任意n维向量x:
x=(a1Tx)a1+⋯+(anTx)an
验证上式两边同乘任意ai:
aiTx=(a1Tx)aiTa1+⋯+(aiTx)aiTai+⋯+(anTx)aiTan=aiTx
 5.5 Gram-Schmidt(正交化)算法
对于n维向量a1,⋯,ak,将其标准正交化。见[流程](最优化方法例题解法 - 没有秃头基因的燊的博客 (yzs020220.github.io))
时间复杂度为2nk2
 Chapter6
涉及概念较多,很多不一定考,看ppt吧(题型主要是从矩阵计算分解到向量计算)
 6.11 矩阵乘法
不要记混了,行(左)与列(右)元素一一对应相乘之后相加
Cij=k=1∑PAikBkj
 Chapter7
 7.1 矩阵左逆
当一个矩阵X满足XA=I时,X被称为A的左逆
 7.2 矩阵右逆
当一个矩阵X满足AX=I时,X被称为A的右逆
 7.3 性质
- 
一个大小为m×n的矩阵,其左逆或右逆的维度为n×m 
- 
A的左逆为X当且仅当XT是AT的右逆 
- 
A的右逆为X当且仅当XT是AT的左逆 
 7.4 矩阵的逆
如果矩阵A存在左逆和右逆,则左逆和右逆一定相等
XA=I,AY=I⇒X=XI=X(AY)=(XA)Y=Y
矩阵X记作A−1
 7.7 非奇异矩阵
对于方阵A∈Rn×n,以下条件都是等价的
- 
A可左逆 
- 
A的列向量线性无关 
- 
A可右逆 
- 
A的行向量线性无关 
 7.12 Gram矩阵
实矩阵:
G=ATA
复矩阵:
G=AHA
 7.14 伪逆
矩阵A∈Rm×n,当m≥n时,列向量线性无关,即ATA可逆
定义伪逆:
A+=(ATA)−1AT
为矩阵A的左逆:
A+A=(ATA)−1ATA=(ATA)−1(ATA)=I
当A为方阵,伪逆等于矩阵的逆
矩阵A∈Rm×n,当m≤n时,行向量线性无关,即AAT可逆
定义伪逆:
A†=AT(AAT)−1
伪逆A†为A的右逆
AA†=AAT(AAT)−1=(AAT)−1(AAT)=I
当A为方阵,伪逆等于矩阵的逆
 Chapter8
 8.2 标准列正交矩阵
如果A的Gram矩阵为单位矩阵,则A∈Rm×n具有标准正交列:
ATA=I
 8.5 正交矩阵
定义:所有列两两相互正交的方形实矩阵称为正交矩阵
如果矩阵A正交则
- A是可逆的,左逆等于右逆,且逆为AT
ATA=IA是方的}⇒AAT=I
- 
AT也是一个正交矩阵 
- 
A的行是标准正交的,即范数为1且相互正交 
 8.6 置换矩阵
置换矩阵A在每一行和每一列中都有一个等于1的元素,置换矩阵满足正交性:
 Chapter9
 9.1 三角矩阵
- 
上三角矩阵(Upper) 
- 
下三角矩阵(Lower) 
- 
对角元素都为1称为单位上三角矩阵/下三角矩阵 
 9.2 前向回代
A是具有非零对角元素的下三角矩阵,解Ax=b
x1=b1/A11x2=(b2−A21x1)/A22x3=(b3−A31x1−A32x2)/A33  ⋮xn=(bn−An1x1−An2x2−⋯−An,n−1xn−1)/Ann
 9.3 后向回代
A是具有非零对角元素的上三角矩阵,解Ax=b
xn=bn/Annxn−1=(bn−1−An−1,nxn)/An−1,n−1xn−2=(bn−2−An−2,n−1xn−1−An−2,nxn)/An−2,n−2  ⋮x1=(b1−A12x2−A13x3−⋯−A1nxn)/A11
 9.4 三角矩阵的逆矩阵
矩阵A的逆可以通过逐列解方程AX=I来计算得到
 9.5 QR分解
如果矩阵A∈Rm×n的列向量线性无关,则可以分解为一组标准正交向量Q与上三角矩阵R
A=[a1a2⋯an]=[q1q2⋯qn]⎣⎢⎢⎢⎢⎡R110⋮0R12R22⋮0⋯⋯⋱⋯R1nR2n⋮Rnn⎦⎥⎥⎥⎥⎤=QR
Gram-Schmidt正交化
qi~=ai−(q1Tai)q1−⋯−(qi−1Tai)qi−1
Rji=(qjTai)
一般要求Rii>0使得Q和R是唯一的
 9.6 QR分解和伪逆
具有线性无关列向量的矩阵A的伪逆为
A+=(ATA)−1AT
将A的伪逆表示为QR因子:
A+=((QR)T(QR))−1(QR)T=(RTQTQR)−1RTQT=(RTR)−1RTQT=R−1R−TRTQT=R−1QT
对于方阵非奇异矩阵A,其逆为:
A−1=(QR)−1=R−1QT
 Chapter10
 10.2 应用QR分解
计算非奇异矩阵A∈Rn×n的逆A−1,通过AX=I,即QRX=I
X=[x1,x2,⋯,xn],xi∈Rn,i=1,⋯,nI=[e1,e2,⋯,en],ei∈Rn,i=1,⋯,nQRX=I⇒RX=QTIRx1=QTe1,Rx2=QTe2,⋯,Rxn=QTen
回代法求解
 10.3 LU分解
L为下三角矩阵且对角线元素全为1,U为上三角矩阵
A=LU
- 矩阵U的第一行元素:
u1j=a1j,j=1,⋯,n
- 矩阵L的第一列元素:
li1=u11ai1,i=2,3,⋯,n
从r=2开始直到r=n
- 矩阵U第r行主对角线以右元素urj
urj=arj−k=1∑r−1lrkukj,j=r,⋯,n
- 矩阵L第r列主对角线以下元素lir
lir=(air−k=1∑r−1likukr)/urr,i=r+1,⋯,n
 10.4 LU求解方程
求解Ax=b
- 
对矩阵A进行LU分解 
- 
回代法求出y:Ax=LUx=Ly=b 
- 
回代法求出x:Ux=b 
 Chapter11
 11.2 最小二乘法
寻找超定方程组(方程组系数矩阵为高矩阵,可能无解)的近似解,并尽可能地逼近方程组的目标b:
xmin∣∣Ax−b∣∣22=xmini=1∑m(j=1∑nAijxj−bj)2
对x上的xi求偏导,当∇f(x)=0时,得到x^即为近似解
当残差r^=Ax^−b=0时,x^是线性方程组Ax=b的解,否则为误差最小平方和下方程组的近似解
 11.5 目标求解
∇f(x)=2(ATAx−ATb)=0⇒ATAx=ATb
则在A的列向量线性无关时,x^=(ATA)−1ATb
 11.7 正规方程
ATAx=ATb
若A列向量线性无关,则
- 
ATA为非奇异矩阵 
- 
正规方程此时有唯一解 
 11.8 QR分解求解正规方程
若矩阵A列向量线性无关,则最小二乘法问题的解:
x^=(ATA)−1ATb=(RTQTQR)−1RTQTb=(RTR)−1RTQTb=R−1QTb
流程:
- 
对矩阵A进行QR分解 
- 
计算矩阵向量乘积d=QTb 
- 
通过回代法求解Rx=d 
 Chapter13
 13.1 约束优化问题
xmin{f(x)}s.t.h(x)=0
引入拉格朗日函数:
L(x,λ)=f(x)−λh(x)
对拉格朗日函数求偏导:
{∇xL(x,λ)=∇xf(x)−λ∇xh(x)=0∇λL(x,λ)=−h(x)=0
 13.1 KKT条件:必要条件
xmin/maxf(x)s.t.hi(x)=0, i∈I≜{1,⋯,p}gj(x)≤0, j∈J≜{1,⋯,q}
引入拉格朗日函数:
L(x,λ,μ)=f(x)−i∈I∑λihi(x)−j∈J∑μjgj(x)
KKT条件:
∇xL(x,λ,u)=∇xf(x)−i∈I∑λi∇xhi(x)−j∈J∑uj∇xgj(x)=0i∈I∑λihi(x)=0,hi(x)=0j∈J∑ujgj(x)=0,gj(x)≤0,uj≥0(不全为0)