Skip to main content

相关疑问

什么是线性层?

线性层是深度学习的“积木”,通过对输入数据的线性变换实现:

  • 特征空间的映射(如升维、降维、投影);
  • 为后续非线性计算提供基础(与激活函数配合);
  • 构建更复杂的结构(如注意力机制、全连接网络)。

数学定义

[y=Wx+b](xRdin)(维度(din)(WRdout×din)(bRdout)(yRdout)[ \mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b} ] \\ ( \mathbf{x} \in \mathbb{R}^{d_{\text{in}}} )(维度 ( d_{\text{in}} )) \\ ( \mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}} ) \\ ( \mathbf{b} \in \mathbb{R}^{d_{\text{out}}} ) \\ ( \mathbf{y} \in \mathbb{R}^{d_{\text{out}}} )

模型中参数的本质是什么?

(1) 数学视角

  • 参数是矩阵或向量的元素(如权重矩阵中的一个标量值 ( W_{ij} )),本质是浮点数。
  • 单个参数的意义
    • 表示输入特征之间的连接强度(如 ( W_{ij} ) 是第 ( i ) 个输入对第 ( j ) 个输出的重要性权重)。
    • 偏置 ( b_j ) 提供激活阈值偏移。

(2) 功能视角

  • 参数是知识的编码
    • 预训练模型的参数编码了从海量数据中学到的通用模式(如 CNN 的边缘检测器、Transformer 的语法规则)。
    • 微调时,参数适应新任务的特定模式(如医学文本中的专业术语)。

(3) 物理意义

  • 参数本身无独立意义,其价值体现在与其他参数的协同作用中。例如:
    • 一个注意力头中的 ( \mathbf{Q}, \mathbf{K}, \mathbf{V} ) 矩阵共同决定关注哪些上下文。

模型参数调整如何发生?

(1) 前向传播(Forward Pass)

  • 输入数据经过模型,每层的参数(如权重矩阵 W\mathbf{W})参与计算,生成预测结果。
    示例:线性层的计算
[y=Wx+b][ \mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b} ]

(2) 反向传播(Backward Pass)

  • 计算预测与真实标签的误差(损失函数),通过链式法则逐层回溯,得到每个参数对误差的贡献(梯度 WL\nabla_{\mathbf{W}} L)。
    示例:梯度下降更新规则:
[Wnew=WoldηWL][ \mathbf{W}{\text{new}} = \mathbf{W}{\text{old}} - \eta \nabla_{\mathbf{W}} L ]
  • (WL)(\nabla_{\mathbf{W}} L) 是损失函数 (L)(L) 关于参数 (W)(\mathbf{W}) 的偏导数
  • (L)(L) 是损失函数
  • (η)( \eta ) 为学习率)。

(3) 参数更新

  • 优化器(如 Adam)根据梯度调整参数值,原参数被小幅修正,而非直接替换。