Skip to main content

相关疑问

什么是线性层?

线性层是深度学习的“积木”，通过对输入数据的线性变换实现：

特征空间的映射（如升维、降维、投影）；
为后续非线性计算提供基础（与激活函数配合）；
构建更复杂的结构（如注意力机制、全连接网络）。

数学定义

[ \mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b} ] \\ ( \mathbf{x} \in \mathbb{R}^{d_{\text{in}}} )（维度 ( d_{\text{in}} )） \\ ( \mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}} ) \\ ( \mathbf{b} \in \mathbb{R}^{d_{\text{out}}} ) \\ ( \mathbf{y} \in \mathbb{R}^{d_{\text{out}}} )

模型中参数的本质是什么？

(1) 数学视角

(2) 功能视角

参数是知识的编码：
- 预训练模型的参数编码了从海量数据中学到的通用模式（如 CNN 的边缘检测器、Transformer 的语法规则）。
- 微调时，参数适应新任务的特定模式（如医学文本中的专业术语）。

(3) 物理意义

参数本身无独立意义，其价值体现在与其他参数的协同作用中。例如：

模型参数调整如何发生？

(1) 前向传播（Forward Pass）

输入数据经过模型，每层的参数（如权重矩阵 $\mathbf{W}$ ）参与计算，生成预测结果。
示例：线性层的计算

[ \mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b} ]

(2) 反向传播（Backward Pass）

计算预测与真实标签的误差（损失函数），通过链式法则逐层回溯，得到每个参数对误差的贡献（梯度 $\nabla_{\mathbf{W}} L$ ）。
示例：梯度下降更新规则：

[ \mathbf{W}{\text{new}} = \mathbf{W}{\text{old}} - \eta \nabla_{\mathbf{W}} L ]

$(\nabla_{\mathbf{W}} L)$ 是损失函数 $(L)$ 关于参数 $(\mathbf{W})$ 的偏导数
$(L)$ 是损失函数
$( \eta )$ 为学习率）。

(3) 参数更新

优化器（如 Adam）根据梯度调整参数值，原参数被小幅修正，而非直接替换。

什么是线性层?
模型中参数的本质是什么？
模型参数调整如何发生？