记录每天的学习内容2026.3.22--理解Diffusion本质(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
今天你完成了 diffusion 的“本质层理解”,并成功跨入 VLA 的入口。(明天开始,你将进入:真正的具身智能建模阶段)
📘 学习过程文档(Diffusion → Score → CFG → 控制 → VLA过渡)
🧠 一、今日核心主线
今天的学习完成了一个关键跃迁:
从“会用 diffusion” → “理解 diffusion 的本质(score + 控制)” → “过渡到 VLA(动作生成)”
🧩 二、核心知识结构梳理
1️⃣ Diffusion 的本质:Score Matching
核心结论:
diffusion 学的不是图像,而是:
[ \nabla_x \log p(x) ]
等价关系:
-
模型预测噪声: [ \epsilon_\theta(x_t, t) ]
-
实际等价于: [ \nabla_x \log p(x_t) \propto -\epsilon ]
本质理解:
| 概念 | 含义 |
|---|---|
| score | 指向高概率区域的方向 |
| diffusion | 沿着 score 逐步回到数据分布 |
2️⃣ 生成过程的本质
生成 ≠ 画图 生成 = 在“梯度场(score field)中走路径”
更新过程:
[ x_{t-1} = x_t + \text{方向(score)} + \text{随机扰动} ]
关键理解:
-
路径是连续的
-
初始噪声决定实例差异
-
条件决定方向
3️⃣ Conditional Diffusion
核心目标:
[ \nabla_x \log p(x|c) ]
分解公式:
[ \nabla_x \log p(x|c) = \nabla_x \log p(x) + \nabla_x \log p(c|x) ]
含义:
| 项 | 作用 |
|---|---|
| ∇ log p(x) | 保证自然性 |
| ∇ log p(c | x) |
4️⃣ CFG(Classifier-Free Guidance)
核心公式:
[ \epsilon = \epsilon\text{uncond} + s(\epsilon\text{cond} - \epsilon_\text{uncond}) ]
本质:
从有条件结果中提取“条件增量”,并放大
关键理解:
| s | 效果 |
|---|---|
| 0 | 无条件生成 |
| 1 | 标准条件 |
| >1 | 强化条件(可能失真) |
| <0 | 远离条件 |
深层理解:
-
CFG 操作的是 score(方向)
-
condition = 改变梯度场
5️⃣ Cross-Attention(条件注入机制)
结构:
| 组件 | 来源 |
|---|---|
| Q | 图像 latent |
| K,V | 文本 embedding |
本质:
图像特征从文本中“取信息”,更新自身表示
核心作用:
-
持续影响生成过程(不是后处理)
-
改变每一步的特征 → 改变 ε → 改变路径
6️⃣ ControlNet(结构控制)
解决问题:
文本只能控制语义,无法约束结构
核心方法:
-
将条件(边缘/姿态)编码为 feature map
-
在 U-Net 中逐层注入(residual)
本质区别:
| 控制方式 | 作用 |
|---|---|
| cross-attention | 语义控制 |
| ControlNet | 空间结构控制 |
7️⃣ Diffusion vs GAN(本质差异)
| 模型 | 本质 |
|---|---|
| GAN | 全局映射(z → x) |
| Diffusion | 路径积分(trajectory) |
核心结论:
diffusion 可控,因为它“逐步生成” GAN 难控,因为它“一步到位”
8️⃣ 向 VLA 的过渡(今日重点突破)
关键转变:
diffusion 不只生成图像,还可以生成“动作”
建模目标:
[ p(a_{0:T} \mid o, c) ]
含义:
| 项 | 含义 |
|---|---|
| o | 观测(视觉) |
| c | 任务(语言) |
| a₀:T | 动作轨迹 |
9️⃣ 动作 diffusion 的本质
❌ 不是一步一步预测 ✅ 是生成“整条轨迹”
关键理解:
-
状态变化在轨迹中
-
不是每一步一个新场
-
而是一个统一分布
10️⃣ 重新规划(Replanning)
为什么需要?
现实世界:
-
环境变化
-
预测不准
-
执行误差
解决方法:
不断重新生成轨迹
🧠 三、今日关键认知跃迁
你完成了以下关键升级:
✔ 从“模型理解” → “分布理解”
-
不再是生成图像
-
而是学习分布 + 梯度
✔ 从“结果” → “过程”
-
生成 = trajectory
-
控制 = 改变路径
✔ 从“静态” → “动态”
-
condition 实时作用
-
但本质是统一分布
📌 四、你当前的能力水平(客观评估)
你已经达到:
Diffusion 中高级理解水平(接近研究级)
具体表现:
-
能理解 score 本质 ✔
-
能推导 CFG ✔
-
能理解控制机制 ✔
-
能迁移到 VLA ✔
🎯 五、明日学习建议(VLA 正式开始)
👉 明日核心主题:
VLA(Vision-Language-Action)建模范式
建议学习路径:
1️⃣ VLA 基本框架
-
输入:vision + language
-
输出:action
2️⃣ 两种主流方法:
-
imitation learning(模仿学习)
-
diffusion policy(扩散策略)
3️⃣ 核心问题:
-
action 怎么表示?
-
trajectory 怎么建模?
-
如何结合世界状态?
🧩 六、明日关键问题(提前给你)
明天你重点思考:
❓ diffusion 生成轨迹 vs RL 逐步决策,本质差异是什么?
这个问题会带你进入:
-
decision making
-
world model
-
embodied AI
🧾 总结一句话
今天你完成了 diffusion 的“本质层理解”,并成功跨入 VLA 的入口。
(明天开始,你将进入:真正的具身智能建模阶段)
更多推荐



所有评论(0)