深度学习——学习率调整

在深度学习中，学习率调度器（Learning Rate Scheduler）是优化模型训练过程的重要工具。它通过动态调整学习率，帮助模型在训练初期快速收敛，在后期稳定优化。PyTorch提供的torch.optim.lr_scheduler.StepLR是一种基础但实用的学习率调度策略，特别适合需要对学习率进行周期性调整的场景。数学表达式：假设初始学习率为lr₀，则在第n个epoch时的学习率为

qq1851417332

1345人浏览 · 2025-09-04 21:55:46

qq1851417332 · 2025-09-04 21:55:46 发布

StepLR的功能与参数 StepLR的核心功能是按照固定epoch间隔（step_size）逐步降低学习率。其典型实现方式如下：

scheduler = torch.optim.lr_scheduler.StepLR(
    optimizer, 
    step_size=5, 
    gamma=0.5
)

参数详细说明：

optimizer：需要绑定的优化器对象，可以是SGD、Adam等任何PyTorch优化器
step_size（整数）：学习率衰减的间隔周期，单位为epoch。例如step_size=5表示每5个epoch调整一次学习率
gamma（浮点数）：学习率衰减的乘法因子，取值范围通常在(0,1)之间。例如gamma=0.5表示每次调整时学习率减半
last_epoch（可选）：主要用于断点续训，记录上一个epoch的索引（默认-1表示从头开始训练）

数学表达式：假设初始学习率为lr₀，则在第n个epoch时的学习率为： lrₙ = lr₀ × γ^⌊n/step_size⌋

典型使用场景 StepLR特别适合以下场景：
图像分类任务：当模型在ImageNet等大型数据集上训练时
基础实验阶段：快速验证模型对学习率调整的敏感性
组合调度策略：作为复杂调度策略的基础组件，例如：
- 前期使用StepLR进行基础训练
- 后期切换为CosineAnnealingLR进行精细调优
- 配合ReduceLROnPlateau实现动态调整
完整训练循环示例下面展示一个包含StepLR的完整训练流程：

import torch
import torch.nn as nn
from torch.optim import SGD
from torch.optim.lr_scheduler import StepLR

# 定义简易模型
model = nn.Sequential(
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Linear(256, 10)
)

# 初始化优化器
optimizer = SGD(model.parameters(), lr=0.1)  # 初始学习率0.1

# 创建调度器
scheduler = StepLR(optimizer, step_size=5, gamma=0.5)

# 训练循环
for epoch in range(20):
    # 模拟训练过程
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = nn.CrossEntropyLoss()(output, target)
        loss.backward()
        optimizer.step()
    
    # 每个epoch结束时更新学习率
    scheduler.step()
    
    # 打印当前状态
    print(f'Epoch {epoch:2d}: lr = {optimizer.param_groups[0]["lr"]:.4f}, '
          f'loss = {loss.item():.4f}')

输出示例：

Epoch 0: lr = 0.1000, loss = 1.2345
...
Epoch 5: lr = 0.0500, loss = 0.5432  # 第5个epoch后学习率减半
...
Epoch 10: lr = 0.0250, loss = 0.3210  # 第10个epoch后再减半

与其他调度器的对比 PyTorch提供了多种学习率调度策略，以下是主要调度器的对比分析：

调度器类型	核心特点	典型应用场景
StepLR	固定步长衰减	基础分类任务
MultiStepLR	支持多个衰减节点	需要灵活调整衰减节奏的任务
ExponentialLR	指数衰减	需要快速收敛的任务
CosineAnnealingLR	余弦式周期性变化	需要跳出局部最优的任务
ReduceLROnPlateau	基于验证指标动态调整	对训练稳定性要求高的任务
CyclicLR	周期性变化学习率	需要探索更优参数空间的任务

(1) 初始学习率选择：

建议使用学习率扫描器(LR Finder)确定
典型范围：SGD优化器常用0.1-0.01，Adam优化器常用0.001-0.0001

(2) step_size设置：

观察训练损失曲线，选择损失开始平台化的epoch
示例：如果损失在epoch 8-12趋于平稳，可设step_size=8

(3) gamma选择：

常用范围0.1-0.5
较大gamma(如0.5)适合需要平缓衰减的场景
较小gamma(如0.1)适合需要快速降低学习率的场景

(4) 验证集监控：

建议在scheduler.step()前计算验证集指标
可以结合EarlyStopping策略

进阶使用技巧 (1) 组合调度策略：

from torch.optim.lr_scheduler import SequentialLR

# 前15个epoch使用StepLR
scheduler1 = StepLR(optimizer, step_size=5, gamma=0.5)
# 后续使用CosineAnnealing
scheduler2 = CosineAnnealingLR(optimizer, T_max=10)
# 组合调度器
combined = SequentialLR(optimizer, [scheduler1, scheduler2], [15])

(2) 学习率预热(Warmup)：

from torch.optim.lr_scheduler import LambdaLR

warmup_epochs = 5
lr_lambda = lambda e: (e + 1)/warmup_epochs if e < warmup_epochs else 1
warmup_scheduler = LambdaLR(optimizer, lr_lambda)

常见问题解决方案 Q1: 学习率调整后loss出现震荡？
可能原因：gamma设置过小导致学习率骤降
解决方案：尝试增大gamma值，或改用更平滑的CosineAnnealingLR

Q2: 如何实现断点续训？

# 保存检查点
torch.save({
    'model_state': model.state_dict(),
    'optimizer_state': optimizer.state_dict(),
    'scheduler_state': scheduler.state_dict(),
    'epoch': epoch
}, 'checkpoint.pth')

# 加载检查点
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state'])
optimizer.load_state_dict(checkpoint['optimizer_state'])
scheduler.load_state_dict(checkpoint['scheduler_state'])
start_epoch = checkpoint['epoch']

Q3: 如何选择step_size和gamma组合？

建议在验证集上实验不同组合
典型实验组合：
- step_size=[5,10,15]
- gamma=[0.1,0.3,0.5]
可以使用optuna等超参数优化工具自动搜索

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter鸿蒙应用开发：文件上传功能集成实战（含兼容性适配）

开源鸿蒙跨平台开发者社区

Flutter鸿蒙应用开发：音频播放功能集成实战（含兼容性适配）

开源鸿蒙跨平台开发者社区

鸿蒙三方库实战指南：从安装到核心功能的深度解析

ohos/axios 作为 axios 在鸿蒙平台的官方适配版本，不仅完整保留了 Web 端 axios 的 Promise 化 API、拦截器、请求取消等核心特性，更针对鸿蒙的网络权限机制、沙箱文件系统进行了深度优化，是当前社区使用最广泛的网络请求库 —— 其在 OpenHarmony 三方库中心仓的月下载量已连续 12 个月突破 10 万次。@ohos/axios 的核心功能与 Web 端