为何 DeepSeek-R1 后，大模型纷纷聚焦思维链？

思维链最初是大模型预训练中的 “意外发现”：当要求模型解数学题时 “step by step” 思考，其正确率会显著提升。这一现象与 “上下文学习”（In-context learning，模型无需训练就能通过任务指示和示例掌握新任务）共同成为大模型智能涌现的标志性特征，最初让学界和业界颇为震撼。大模型的数学与逻辑能力薄弱，是用户普遍反馈的问题。这一短板严重制约了大模型的商业化落地 —— 人们难以

易嘉云

637人浏览 · 2025-07-29 14:17:47

易嘉云 · 2025-07-29 14:17:47 发布

思维链最初是大模型预训练中的 “意外发现”：当要求模型解数学题时 “step by step” 思考，其正确率会显著提升。这一现象与 “上下文学习”（In-context learning，模型无需训练就能通过任务指示和示例掌握新任务）共同成为大模型智能涌现的标志性特征，最初让学界和业界颇为震撼。

大模型的数学与逻辑能力薄弱，是用户普遍反馈的问题。这一短板严重制约了大模型的商业化落地 —— 人们难以信任逻辑混乱的模型能做出正确决策。因此，提升数学与逻辑能力，成为所有基础模型公司的核心目标，而强化思维链，自然成了破局的关键方向。

强化思维链的四大路线

一、基于过程监督的强化学习

思路很直接：让模型 “step by step” 输出思考过程，再像老师批改作业一样，对每一步的正确性打分（对则加分，错则扣分）。

核心挑战在于两点：

步骤界定模糊：解题过程未必与标准答案完全匹配，得分点难以明确。
判定能力缺失：需要 “评委” 精准判断每一步的正确性，但当时缺乏足够强的模型或工具能胜任这一角色。

OpenAI 的 “Let's verify step by step” 是这一路线的代表，虽取得一定效果，但上述问题仍未完全解决。

二、蒙特卡洛树搜索（MCTS）

借鉴阿尔法狗在围棋中的成功经验，将解数学题视为 “迷宫寻路”：把问题拆解为节点，通过搜索寻找最优路径。其中，需评估当前路径的合理性（即 “状态价值”）。

核心难点在于：

抽象化困境：数学题的文字描述和解题过程是连续的，如何拆分为离散节点？
评估能力不足：即便完成抽象，谁能判断当前路径的优劣？

微软的 rStar 是这一路线的典型尝试，虽有进展，但抽象与评估的难题仍制约着效果。

三、监督微调

既然预训练模型能通过 “step by step” 提升正确率，那不妨给模型喂更多思维链数据，让它 “照葫芦画瓢”。

最大瓶颈是高质量思维链数据稀缺：

现有资料（如教科书）仅收录正确过程，缺乏错误思路 —— 而模型需要从错误中反思纠错。
数据收集成本高：要么筛选大模型 “step by step” 输出的正确样本（但部分模型存在 “过程与结果脱节” 的问题，即 “装模作样分析却给错答案”）；要么收集人类解题时的 “碎碎念”（耗时且难以处理数学公式）；要么蒸馏 OpenAI o1（但 OpenAI 不开放思维链，且严格限制诱导行为）。

这一路线的代表众多，例如 DeepSeek-R1 蒸馏出的 Qwen、Llama 小模型。实践证明，只要数据量足够，小模型也能通过模仿学会 “思考”。

四、基于规则的强化学习

与前两种路线不同，它不纠结于过程拆分或步骤评估，而是 “只看结果”—— 让模型自由发挥，通过结果反馈优化。

起初，这种思路并不被看好，质疑集中在：

模型可能 “摆烂”：要么做不对题，要么靠侥幸蒙对。
存在 “取巧风险”：模型可能通过背答案、找无关规律解题，而非真正学会思考。
可行性存疑：若仅靠结果就能优化，岂不是能直接训练模型 “赚钱”（接近 AGI）？

但事实证明这条路可行：DeepSeek-R1、Kimi-k1.5，乃至 OpenAI 的 o 系列，均采用类似思路，且效果显著。

思维链成大模型 “标配” 的必然性

DeepSeek-R1 的成功，让行业看到了第三、第四条路线的潜力（效果最优且可复现），也推动了思维链技术的普及。

如今，思维链已成为大模型的 “必选项”：它能以极低代价显著提升模型的逻辑、解题与代码能力。OpenAI 的 GPT-4.5 已是该公司最后一款非思维链模型，未来，所有主流大模型都将搭载这一能力 —— 毕竟，不做思维链，就意味着在智能水平上落后一截。大家可以在实践中学习思维链在对模型能力的升级，如果需要自己部署R1模型，但是又没有足够的GPU资源，可以在很多公有算力平台比如易嘉云（yijiacloud.com.cn）平台上直接使用云端算力，进行模型部署实战演练。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter for OpenHarmony 学生错题本APP技术文章

有没有同学跟我一样，每次考完试整理错题都抄到手酸😩？抄题半小时，做题 5 分钟？这款错题本 APP 就是来拯救你的！核心使用场景📸 考试 / 作业错题直接拍照录入，不用手抄🏷️ 自动添加知识点标签，分类整理一目了然📊 统计分析各科目正确率，精准定位薄弱知识点🔄 错题重做功能，考前针对性复习这款 APP 专门针对 OpenHarmony 系统优化，利用鸿蒙原生相机能力，拍照速度快、画质清晰

开源鸿蒙跨平台开发者社区

Flutter for OpenHarmony学习小组组队与打卡APP技术文章

有没有过这样的经历？😫一个人背单词背两天就放弃了...想考证刷题，学着学着就刷起了手机...想找学习搭子，身边朋友都没这个需求...打卡全靠自觉，断了也没人知道...当当当当！✨ 今天这个学习小组 APP 就是来拯救你的！✅ 一键创建 / 加入学习小组，找到志同道合的学习搭子✅ 每日打卡功能，全组人互相监督✅ 小组聊天互动，学习问题随时交流✅ 连续打卡徽章成就，学习动力满满！这个 APP 基于

开源鸿蒙跨平台开发者社区

Flutter for OpenHarmony 学习专注模式APP技术文章

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.csdn.net📦 实战场景前言：居民日常便民刚需场景日常网购快递多、驿站点位分散、下班找不到就近驿站、不知道驿站营业时间、大件快递想找驿站代收却不知道距离多远。传统地图软件操作复杂，老人不会搜、年轻人嫌麻烦。今天咱们基于Flutter for OpenHarmony，快速开发一套的快递驿站便民查询模块