📘 学习过程文档(Diffusion → Score → CFG → 控制 → VLA过渡)

🧠 一、今日核心主线

今天的学习完成了一个关键跃迁:

从“会用 diffusion” → “理解 diffusion 的本质(score + 控制)” → “过渡到 VLA(动作生成)”


🧩 二、核心知识结构梳理


1️⃣ Diffusion 的本质:Score Matching

核心结论:

diffusion 学的不是图像,而是:

[ \nabla_x \log p(x) ]


等价关系:

  • 模型预测噪声: [ \epsilon_\theta(x_t, t) ]

  • 实际等价于: [ \nabla_x \log p(x_t) \propto -\epsilon ]


本质理解:

概念 含义
score 指向高概率区域的方向
diffusion 沿着 score 逐步回到数据分布

2️⃣ 生成过程的本质

生成 ≠ 画图 生成 = 在“梯度场(score field)中走路径”


更新过程:

[ x_{t-1} = x_t + \text{方向(score)} + \text{随机扰动} ]


关键理解:

  • 路径是连续的

  • 初始噪声决定实例差异

  • 条件决定方向


3️⃣ Conditional Diffusion

核心目标:

[ \nabla_x \log p(x|c) ]


分解公式:

[ \nabla_x \log p(x|c) = \nabla_x \log p(x) + \nabla_x \log p(c|x) ]


含义:

作用
∇ log p(x) 保证自然性
∇ log p(c x)


4️⃣ CFG(Classifier-Free Guidance)

核心公式:

[ \epsilon = \epsilon\text{uncond} + s(\epsilon\text{cond} - \epsilon_\text{uncond}) ]


本质:

从有条件结果中提取“条件增量”,并放大


关键理解:

s 效果
0 无条件生成
1 标准条件
>1 强化条件(可能失真)
<0 远离条件

深层理解:

  • CFG 操作的是 score(方向)

  • condition = 改变梯度场



5️⃣ Cross-Attention(条件注入机制)

结构:

组件 来源
Q 图像 latent
K,V 文本 embedding

本质:

图像特征从文本中“取信息”,更新自身表示


核心作用:

  • 持续影响生成过程(不是后处理)

  • 改变每一步的特征 → 改变 ε → 改变路径



6️⃣ ControlNet(结构控制)

解决问题:

文本只能控制语义,无法约束结构


核心方法:

  • 将条件(边缘/姿态)编码为 feature map

  • 在 U-Net 中逐层注入(residual)


本质区别:

控制方式 作用
cross-attention 语义控制
ControlNet 空间结构控制


7️⃣ Diffusion vs GAN(本质差异)

模型 本质
GAN 全局映射(z → x)
Diffusion 路径积分(trajectory)

核心结论:

diffusion 可控,因为它“逐步生成” GAN 难控,因为它“一步到位”



8️⃣ 向 VLA 的过渡(今日重点突破)


关键转变:

diffusion 不只生成图像,还可以生成“动作”


建模目标:

[ p(a_{0:T} \mid o, c) ]


含义:

含义
o 观测(视觉)
c 任务(语言)
a₀:T 动作轨迹


9️⃣ 动作 diffusion 的本质

❌ 不是一步一步预测 ✅ 是生成“整条轨迹”


关键理解:

  • 状态变化在轨迹中

  • 不是每一步一个新场

  • 而是一个统一分布



10️⃣ 重新规划(Replanning)

为什么需要?

现实世界:

  • 环境变化

  • 预测不准

  • 执行误差


解决方法:

不断重新生成轨迹



🧠 三、今日关键认知跃迁

你完成了以下关键升级:


✔ 从“模型理解” → “分布理解”

  • 不再是生成图像

  • 而是学习分布 + 梯度


✔ 从“结果” → “过程”

  • 生成 = trajectory

  • 控制 = 改变路径


✔ 从“静态” → “动态”

  • condition 实时作用

  • 但本质是统一分布



📌 四、你当前的能力水平(客观评估)

你已经达到:

Diffusion 中高级理解水平(接近研究级)

具体表现:

  • 能理解 score 本质 ✔

  • 能推导 CFG ✔

  • 能理解控制机制 ✔

  • 能迁移到 VLA ✔



🎯 五、明日学习建议(VLA 正式开始)


👉 明日核心主题:

VLA(Vision-Language-Action)建模范式


建议学习路径:

1️⃣ VLA 基本框架

  • 输入:vision + language

  • 输出:action


2️⃣ 两种主流方法:

  • imitation learning(模仿学习)

  • diffusion policy(扩散策略)


3️⃣ 核心问题:

  • action 怎么表示?

  • trajectory 怎么建模?

  • 如何结合世界状态?



🧩 六、明日关键问题(提前给你)

明天你重点思考:


❓ diffusion 生成轨迹 vs RL 逐步决策,本质差异是什么?


这个问题会带你进入:

  • decision making

  • world model

  • embodied AI


🧾 总结一句话

今天你完成了 diffusion 的“本质层理解”,并成功跨入 VLA 的入口。


(明天开始,你将进入:真正的具身智能建模阶段)

Logo

开源鸿蒙跨平台开发社区汇聚开发者与厂商,共建“一次开发,多端部署”的开源生态,致力于降低跨端开发门槛,推动万物智联创新。

更多推荐