Teacher Forcing技术解析
暴露偏差(Exposure Bias): 训练过程中始终依赖 ground truth 信息,而在实际推理阶段,模型需要使用自己的预测值作为输入,导致训练与推理时输入分布不一致,这种不匹配可能导致生成质量下降。在 Curriculum Learning 中,模型初期主要依赖 ground truth 信息,但随着训练的进行,逐步增加使用模型预测结果的比例,让模型逐渐学会在“无教师”的环境下进行预测

1. 为什么需要 Teacher Forcing?
自回归训练中的问题
在自回归模型中(即模型依赖于自身先前的预测进行下一步生成),如果在早期训练阶段模型输出错误,错误会通过后续步骤不断累积。简单来说,由于错误传播的问题,模型在训练时很难准确捕捉到长时依赖关系。
Teacher Forcing 的作用
加速训练收敛: 由于每一时刻均使用 ground truth 信息,模型不必承受早期预测错误的累积,从而能更快学习到正确的序列依赖关系。
提高训练稳定性: 避免了因模型错误带来梯度消失或梯度爆炸的问题,使得训练过程更加平滑。
2. Teacher Forcing 的工作原理
以一个简单的语言模型为例,假设我们要生成下一个单词。训练过程中,模型的解码器获得以下输入和输出对:
初始输入: 输入 [START],期望输出 Mary。
接下来: 尽管模型可能在第一步预测了错误的单词(例如预测为 a),但教师强制机制会忽略预测结果,而直接将正确单词 Mary 作为下一步的输入,期望输出 had。
Free-running 模式(无 Teacher Forcing): 模型每一步的输入为上一时刻预测值,若初始预测错误则可能导致后续输出全盘失误。
Teacher Forcing 模式: 每一步都以 ground truth 作为输入,保证模型学习到正确的统计分布。
3. Teacher Forcing 的优缺点
优点
训练效率高: 由于每一步都使用正确输入,模型能更快对比预测值与实际值,使得误差能及时反馈,从而加速收敛。
更稳定的梯度传递: 避免了因连续错误输入带来的梯度不稳定问题,使得模型在复杂长序列任务上表现更好。
缺点
暴露偏差(Exposure Bias): 训练过程中始终依赖 ground truth 信息,而在实际推理阶段,模型需要使用自己的预测值作为输入,导致训练与推理时输入分布不一致,这种不匹配可能导致生成质量下降。
推理表现不稳定: 由于训练过程中没有模拟真实生成时的累积误差,模型在测试阶段容易出现错误传递和解码偏差。
4. 对抗 Teacher Forcing 缺点的改进方法
Scheduled Sampling 在训练过程中以一定概率选择使用模型自身的预测结果而非 ground truth 作为下一步输入,从而逐步过渡到与推理时一致的生成方式。这种方法能够在一定程度上缓解训练与推理阶段之间的差异,使模型具备“自纠正”能力。
在 Curriculum Learning 中,模型初期主要依赖 ground truth 信息,但随着训练的进行,逐步增加使用模型预测结果的比例,让模型逐渐学会在“无教师”的环境下进行预测。
在推理阶段使用集束搜索(Beam Search)可以探索多个候选序列,并且在一定程度上降低因单一步错误导致的整体生成质量下降。
Professor Forcing 以及最近提出的 TeaForN 方法通过对抗训练和 N-gram 预测扩展,进一步缩小了训练与推理阶段网络动态之间的差距,从而提升了生成质量。
更多推荐
所有评论(0)