这页不按教材顺序讲线代,而按结构作用来重组:模型怎样被描述,优化怎样被塑形,稳定性怎样被决定。主线只有一条:机器学习系统首先是一个可组合的算子系统。
线性模型直接学习一个算子,深度网络学习一串可组合算子,卷积层学习受结构约束的稀疏算子。所谓建模,本质上是在规定:输入空间是什么、允许怎样的变换、哪些方向可以被保留或混合。
在线性回归里,梯度是 X^T(Xw-y),曲率是 X^T X;在更一般的网络里,Jacobian、Hessian、Gauss-Newton 和 Fisher 近似继续扮演同样角色。优化难度首先表现为谱几何:尺度差异大、相关性强、条件数差,训练就会慢且脆弱。
稳定性看的是扰动放大规律。大奇异值会放大某些方向,小奇异值会让某些信息几乎不可恢复。于是正交初始化、归一化、残差连接、低秩约束和正则化,都可以统一理解成对谱、尺度和可逆性的控制。
Strang, Introduction to Linear Algebra; Strang, Linear Algebra and Learning from Data; Axler, Linear Algebra Done Right; MIT 18.06SC; Stanford EE270; Stanford CS229.