为何 DeepSeek-R1 后,大模型纷纷聚焦思维链?
思维链最初是大模型预训练中的 “意外发现”:当要求模型解数学题时 “step by step” 思考,其正确率会显著提升。这一现象与 “上下文学习”(In-context learning,模型无需训练就能通过任务指示和示例掌握新任务)共同成为大模型智能涌现的标志性特征,最初让学界和业界颇为震撼。大模型的数学与逻辑能力薄弱,是用户普遍反馈的问题。这一短板严重制约了大模型的商业化落地 —— 人们难以
思维链最初是大模型预训练中的 “意外发现”:当要求模型解数学题时 “step by step” 思考,其正确率会显著提升。这一现象与 “上下文学习”(In-context learning,模型无需训练就能通过任务指示和示例掌握新任务)共同成为大模型智能涌现的标志性特征,最初让学界和业界颇为震撼。
大模型的数学与逻辑能力薄弱,是用户普遍反馈的问题。这一短板严重制约了大模型的商业化落地 —— 人们难以信任逻辑混乱的模型能做出正确决策。因此,提升数学与逻辑能力,成为所有基础模型公司的核心目标,而强化思维链,自然成了破局的关键方向。
强化思维链的四大路线
一、基于过程监督的强化学习
思路很直接:让模型 “step by step” 输出思考过程,再像老师批改作业一样,对每一步的正确性打分(对则加分,错则扣分)。
核心挑战在于两点:
- 步骤界定模糊:解题过程未必与标准答案完全匹配,得分点难以明确。
- 判定能力缺失:需要 “评委” 精准判断每一步的正确性,但当时缺乏足够强的模型或工具能胜任这一角色。
OpenAI 的 “Let's verify step by step” 是这一路线的代表,虽取得一定效果,但上述问题仍未完全解决。
二、蒙特卡洛树搜索(MCTS)
借鉴阿尔法狗在围棋中的成功经验,将解数学题视为 “迷宫寻路”:把问题拆解为节点,通过搜索寻找最优路径。其中,需评估当前路径的合理性(即 “状态价值”)。
核心难点在于:
- 抽象化困境:数学题的文字描述和解题过程是连续的,如何拆分为离散节点?
- 评估能力不足:即便完成抽象,谁能判断当前路径的优劣?
微软的 rStar 是这一路线的典型尝试,虽有进展,但抽象与评估的难题仍制约着效果。
三、监督微调
既然预训练模型能通过 “step by step” 提升正确率,那不妨给模型喂更多思维链数据,让它 “照葫芦画瓢”。
最大瓶颈是高质量思维链数据稀缺:
- 现有资料(如教科书)仅收录正确过程,缺乏错误思路 —— 而模型需要从错误中反思纠错。
- 数据收集成本高:要么筛选大模型 “step by step” 输出的正确样本(但部分模型存在 “过程与结果脱节” 的问题,即 “装模作样分析却给错答案”);要么收集人类解题时的 “碎碎念”(耗时且难以处理数学公式);要么蒸馏 OpenAI o1(但 OpenAI 不开放思维链,且严格限制诱导行为)。
这一路线的代表众多,例如 DeepSeek-R1 蒸馏出的 Qwen、Llama 小模型。实践证明,只要数据量足够,小模型也能通过模仿学会 “思考”。
四、基于规则的强化学习
与前两种路线不同,它不纠结于过程拆分或步骤评估,而是 “只看结果”—— 让模型自由发挥,通过结果反馈优化。
起初,这种思路并不被看好,质疑集中在:
- 模型可能 “摆烂”:要么做不对题,要么靠侥幸蒙对。
- 存在 “取巧风险”:模型可能通过背答案、找无关规律解题,而非真正学会思考。
- 可行性存疑:若仅靠结果就能优化,岂不是能直接训练模型 “赚钱”(接近 AGI)?
但事实证明这条路可行:DeepSeek-R1、Kimi-k1.5,乃至 OpenAI 的 o 系列,均采用类似思路,且效果显著。
思维链成大模型 “标配” 的必然性
DeepSeek-R1 的成功,让行业看到了第三、第四条路线的潜力(效果最优且可复现),也推动了思维链技术的普及。
如今,思维链已成为大模型的 “必选项”:它能以极低代价显著提升模型的逻辑、解题与代码能力。OpenAI 的 GPT-4.5 已是该公司最后一款非思维链模型,未来,所有主流大模型都将搭载这一能力 —— 毕竟,不做思维链,就意味着在智能水平上落后一截。大家可以在实践中学习思维链在对模型能力的升级,如果需要自己部署R1模型,但是又没有足够的GPU资源,可以在很多公有算力平台比如易嘉云(yijiacloud.com.cn)平台上直接使用云端算力,进行模型部署实战演练。
更多推荐
所有评论(0)