线性层是深度学习的“积木”,通过对输入数据的线性变换实现:
- 特征空间的映射(如升维、降维、投影);
- 为后续非线性计算提供基础(与激活函数配合);
- 构建更复杂的结构(如注意力机制、全连接网络)。
数学定义
[y=Wx+b](x∈Rdin)(维度(din))(W∈Rdout×din)(b∈Rdout)(y∈Rdout)
(1) 数学视角
(2) 功能视角
- 参数是知识的编码:
- 预训练模型的参数编码了从海量数据中学到的通用模式(如 CNN 的边缘检测器、Transformer 的语法规则)。
- 微调时,参数适应新任务的特定模式(如医学文本中的专业术语)。
(3) 物理意义
- 参数本身无独立意义,其价值体现在与其他参数的协同作用中。例如:
(1) 前向传播(Forward Pass)
- 输入数据经过模型,每层的参数(如权重矩阵 W)参与计算,生成预测结果。
示例:线性层的计算
[y=Wx+b]
(2) 反向传播(Backward Pass)
- 计算预测与真实标签的误差(损失函数),通过链式法则逐层回溯,得到每个参数对误差的贡献(梯度 ∇WL)。
示例:梯度下降更新规则:
[Wnew=Wold−η∇WL]
- (∇WL) 是损失函数 (L) 关于参数 (W) 的偏导数
- (L) 是损失函数
- (η) 为学习率)。
(3) 参数更新
- 优化器(如 Adam)根据梯度调整参数值,原参数被小幅修正,而非直接替换。