首页/线代/线代如何进入 AI

线性代数如何进入 AI

这页不按教材顺序讲线代,而按结构作用来重组:模型怎样被描述,优化怎样被塑形,稳定性怎样被决定。主线只有一条:机器学习系统首先是一个可组合的算子系统。

第一部分:核心结构

算子结构 模型首先是从一个表示空间到另一个表示空间的 operator,矩阵只是它在某组基下的坐标表示。
表示结构 表示学习不是单纯把对象写成向量,而是在寻找更合适的基、子空间和坐标系,让结构显形。
投影结构 很多学习任务都可以读成“把目标投影到模型可表达的子空间”,最小二乘只是最经典的原型。
谱结构 特征值和奇异值决定哪些方向被保留、放大、压缩或忽略,它们直接控制信息流。
二次型结构 损失函数的局部几何由矩阵决定,曲率、耦合和尺度都写在 Hessian 或 Gram 结构里。
条件结构 稳定性核心不是“会不会炸”,而是扰动会不会因病态谱和小奇异值而被放大。

第二部分:统一解释

线性代数如何描述模型

线性模型直接学习一个算子,深度网络学习一串可组合算子,卷积层学习受结构约束的稀疏算子。所谓建模,本质上是在规定:输入空间是什么、允许怎样的变换、哪些方向可以被保留或混合。

线性代数如何影响优化

在线性回归里,梯度是 X^T(Xw-y),曲率是 X^T X;在更一般的网络里,Jacobian、Hessian、Gauss-Newton 和 Fisher 近似继续扮演同样角色。优化难度首先表现为谱几何:尺度差异大、相关性强、条件数差,训练就会慢且脆弱。

线性代数如何决定稳定性

稳定性看的是扰动放大规律。大奇异值会放大某些方向,小奇异值会让某些信息几乎不可恢复。于是正交初始化、归一化、残差连接、低秩约束和正则化,都可以统一理解成对谱、尺度和可逆性的控制。

第三部分:关键 insight

  • 模型、优化、稳定性,本质上是同一个算子的三种读取方式。
  • 表示学习的核心不是“向量化”,而是“找一个让结构显形的坐标系”。
  • 很多训练困难首先是谱问题,不首先是非线性问题。
  • 稳定性必须盯住最小奇异值,因为学习隐含着一个反问题。
  • 正交与低秩,是现代机器学习中最常见也最深的两种结构偏置。
  • 矩阵不是配角工具,而是模型结构、几何和病态性的暴露面。

参考支点

Strang, Introduction to Linear Algebra; Strang, Linear Algebra and Learning from Data; Axler, Linear Algebra Done Right; MIT 18.06SC; Stanford EE270; Stanford CS229.