首页/线代/线代如何进入 AI

线性代数如何进入 AI

这页不按教材顺序讲线代，而按结构作用来重组：模型怎样被描述，优化怎样被塑形，稳定性怎样被决定。主线只有一条：机器学习系统首先是一个可组合的算子系统。

第一部分：核心结构

算子结构 模型首先是从一个表示空间到另一个表示空间的 operator，矩阵只是它在某组基下的坐标表示。

表示结构 表示学习不是单纯把对象写成向量，而是在寻找更合适的基、子空间和坐标系，让结构显形。

投影结构 很多学习任务都可以读成“把目标投影到模型可表达的子空间”，最小二乘只是最经典的原型。

谱结构 特征值和奇异值决定哪些方向被保留、放大、压缩或忽略，它们直接控制信息流。

二次型结构 损失函数的局部几何由矩阵决定，曲率、耦合和尺度都写在 Hessian 或 Gram 结构里。

条件结构 稳定性核心不是“会不会炸”，而是扰动会不会因病态谱和小奇异值而被放大。

第二部分：统一解释

线性代数如何描述模型

线性模型直接学习一个算子，深度网络学习一串可组合算子，卷积层学习受结构约束的稀疏算子。所谓建模，本质上是在规定：输入空间是什么、允许怎样的变换、哪些方向可以被保留或混合。

线性代数如何影响优化

在线性回归里，梯度是 X^T(Xw-y)，曲率是 X^T X；在更一般的网络里，Jacobian、Hessian、Gauss-Newton 和 Fisher 近似继续扮演同样角色。优化难度首先表现为谱几何：尺度差异大、相关性强、条件数差，训练就会慢且脆弱。

线性代数如何决定稳定性

稳定性看的是扰动放大规律。大奇异值会放大某些方向，小奇异值会让某些信息几乎不可恢复。于是正交初始化、归一化、残差连接、低秩约束和正则化，都可以统一理解成对谱、尺度和可逆性的控制。

第三部分：关键 insight

模型、优化、稳定性，本质上是同一个算子的三种读取方式。
表示学习的核心不是“向量化”，而是“找一个让结构显形的坐标系”。
很多训练困难首先是谱问题，不首先是非线性问题。
稳定性必须盯住最小奇异值，因为学习隐含着一个反问题。
正交与低秩，是现代机器学习中最常见也最深的两种结构偏置。
矩阵不是配角工具，而是模型结构、几何和病态性的暴露面。

参考支点

Strang, Introduction to Linear Algebra; Strang, Linear Algebra and Learning from Data; Axler, Linear Algebra Done Right; MIT 18.06SC; Stanford EE270; Stanford CS229.