扩展：Q-Learning 收敛性证明

下面给出（针对有限状态—动作集合、贴现因子、有界奖励）。证明路线遵循“”，并兼顾异步坐标更新的事实。所用到的关键工具是：Bellman 最优算子是范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理。

AggressiveYu

378人浏览 · 2025-11-12 16:47:31

AggressiveYu · 2025-11-12 16:47:31 发布

下面给出 Q-learning 收敛性的一个严谨证明（针对有限状态—动作集合、贴现因子 $0<\gamma<1$ 、有界奖励）。证明路线遵循“压缩映射 + 随机逼近（stochastic approximation）/ODE 法”，并兼顾异步坐标更新的事实。所用到的关键工具是：Bellman 最优算子是 $\ell_\infty$ 范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理

1. 设定与假设：

注：实际常见的“GLIE”策略（渐近贪心且每个 (s,a）无穷次被探索）可保证 (A1)。

2. Bellman 最优算子与不动点：

3. 将 Q-learning 写成“异步随机逼近”

4. 极限 ODE 与全局渐近稳定：

5. 随机逼近收敛定理的应用

6. 用更“可计算”的不等式再看一眼（误差的超鞅收缩）

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter-OH 鸿蒙工具类应用实战 Day3：Note 记事本 Markdown 编辑器页面与文本实时预览

欢迎加入开源鸿蒙跨平台社区： https://openharmonycrossplatform.csdn.net。

开源鸿蒙跨平台开发者社区

Flutter 鸿蒙跨平台扫码工具实现指南（mobile_scanner 篇）

开源鸿蒙跨平台开发者社区

Flutter for OpenHarmony 学习笔记应用开发实战

你是不是也有这样的困扰：学过的知识转头就忘？背单词背了又忘？面试前复习知识点总是记不住？😫别担心！今天我们要开发的这个「智学卡片」APP 就是来解决这个问题的！它是一个基于 Flutter for OpenHarmony 开发的学习笔记 / 记忆卡片应用，主要功能包括：✨瀑布流展示学习卡片—— 各种知识点一目了然，分类清晰✨智能记忆复习系统—— 基于艾宾浩斯遗忘曲线，科学安排复习时间✨本地学习进