相关疑问
什么是线性层?
线性层是深度学习的“积木”,通过对输入数据的线性变换实现:
- 特征空间的映射(如升维、降维、投影);
- 为后续非线性计算提供基础(与激活函数配合);
- 构建更复杂的结构(如注意力机制、全连接网络)。
数学定义
模型中参数的本质是什么?
(1) 数学视角
- 参数是矩阵或向量的元素(如权重矩阵中的一个标量值 ( W_{ij} )),本质是浮点数。
- 单个参数的意义:
- 表示输入特征之间的连接强度(如 ( W_{ij} ) 是第 ( i ) 个输入对第 ( j ) 个输出的重要性权重)。
- 偏置 ( b_j ) 提供激活阈值偏移。
(2) 功能视角
- 参数是知识的编码:
- 预训练模型的参数编码了从海量数据中学到的通用模式(如 CNN 的边缘检测器、Transformer 的语法规则)。
- 微调时,参数适应新任务的特定模式(如医学文本中的专业术语)。
(3) 物理意义
- 参数本身无独立意义,其价值体现在与其他参数的协同作用中。例如:
- 一个注意力头中的 ( \mathbf{Q}, \mathbf{K}, \mathbf{V} ) 矩阵共同决定关注哪些上下文。
模型参数调整如何发生?
(1) 前向传播(Forward Pass)
- 输入数据经过模型,每层的参数(如权重矩阵 )参与计算,生成预测结果。
示例:线性层的计算
(2) 反向传播(Backward Pass)
- 计算预测与真实标签的误差(损失函数),通过链式法则逐层回溯,得到每个参数对误差的贡献(梯度 )。
示例:梯度下降更新规则:
- 是损失函数 关于参数 的偏导数
- 是损失函数
- 为学习率)。
(3) 参数更新
- 优化器(如 Adam)根据梯度调整参数值,原参数被小幅修正,而非直接替换。