Agent Harness,一篇就够了
Agent Harness 已经在 2026 年初迅速成为 AI 工程领域的核心架构概念。
🌍 Agent Harness 已经在 2026 年初迅速成为 AI 工程领域的核心架构概念。
Agent = Model + Harness。如果你不是模型本身,那你就是 Harness
Harness engineering 指的是我们围绕模型构建系统的方式。模型包含智能,而 harness 让这种智能变得有用。
1.三周:从概念诞生到行业标准
从去年11月说起,Anthropic在官方Blog«Effective Harnesses for Long-RunningAgents》中,描述了Claude AgentSDK如何作为通用Agent Harness 运作。
这是"Harness”一词在这个语境下最早的重量级亮相,但当时并没有引起广泛讨论。
转折发生在今年2月初。一篇名为《MyAlAdoptionJourney》的文章正式命名了"HarnessEngineering"这个概念。核心观点很直接:每当Agent犯错时,你就花时间工程化一个解决方案,确保Agent永远不再犯同样的错误。
随后几天,OAl发布了配套Blog,揭露一个三人工程团队用Codex Harness写了超过100万行生产代码,零手写代码。
从今年2月初到2月底这3周的密集爆发,Agent Harness 迅速成为AI 工程领域的核心架构概念。这些文章都指向同一个结论:模型是大宗商品,Harness才是护城河。
2.到底什么是"Harness"?
如果你不是模型本身,那你就是Harness
Harness指的是模型之外的一切:代码、配置和执行逻辑。
一个裸的基模不是Agent,但当Harness 赋予它状态管理、工具执行、反馈循环和可执行约束之后,它就变成了Agent。
Agent=Model(模型)+Harness
那"模型之外的一切"(harness)到底包括哪些?
- 系统提示词
- 工具、Skills、MCP及其描述
- 打包的基础设施(文件系统、沙箱、浏览器)
- 编排逻辑(Subagent、任务交接、模型路由)
- Hooks/中间件实现确定性执行(上下文压缩、续写、lint检查)
在Agent 系统中,模型和 Harness的边界可以有很多划分的方法。但在我看来,上面这个定义是最清晰的,因为它迫使我们思考如何围绕模型智能来设计系统

3.我们为什么需要Harness
有些我们希望Agent能做到的事,模型本身做不到。这就是Harness存在的意义。
大多数情况下,模型接收文本、图像、音频、视频为输入,输出文本。仅此而已。
它本质上就是一个“输入-输出”函数,没有手,没有记忆,没有环境。
开箱即用的模型做不到:
- 编写代码执行和验证(Coding)
- 获取实时信息(Web Search)
- 在多次交互仍保持持久状态(上下文和Memory)
- 搭建环境、安装软件包以完成工作
这些全部是Harness层面的能力。LLM的特性决定了它需要某种封装机制,才能做有用的事。
举个最简单的例子:我们每天用的Al聊天产品,本身就是一个Harness。它帮你把对话历史管理起来,让模型“记住“你之前说了什么。底层逻辑就是:我们要把对Agent期望的能力,转化为Harness 中的实际功能。
4.Harness的五大核心组件
4.1文件系统和持久存储
我们希望Agent 拥有持久存储,能读写真实数据,把上下文装不下的信息存起来,下次打开还能接着干。
模型任何一次调用,只能看到和使用当前上下文窗口里的内容。在有文件系统之前,我们只能复制黏贴给模型,体验非常糟,对自主Agent来说更是不行。所以解决方案是:
Harness 自带文件系统,让 Agent 可以直接读写你的文件。
这样一来就解锁了很多东西:
- Agent获得了一个工作区,可以读取数据、代码和文档。
- 文件系统天然就是协作界面。多个Agent和人类可以通过共享文件来协调工作。
- Agent不用把所有东西都塞进上下文,可以把中间结果存到文件里,下次接着用。
- Git给文件系统加上了版本管理,Agent可以追踪工作、回滚错误、创建实验分支
4.2Bash+代码:通用型工具
我们希望Agent自主解决问题,而不需要我们预先设计好每一个工具。
当前主流的Agent 执行架构是ReAct 循环:
模型推理→通过Tool Call采取行动→观察结果,在while循环中反复迭代。
但Harness 只能运行预先设定好的工具。你不可能提前把所有操作都写成工具,所以更好的方案是直接给Agent一个万能法宝:bash
Harness 自带bash 工具,让模型通过编写+执行代码来自主解决问题
说白了,(Bash+代码执行)就是把一台电脑交给模型。模型需要什么工具,自己写代码造一个,而不是只能用你提前给它准备好的那几个。
Harness仍然会附带其他工具,但代码执行已经成为自主解决问题的默认通用策略
4.3沙箱与工具:执行和验证工作
Agent需要一个具备合理默认配置的环境,在其中安全地行动、观察结果、持续推进。
模型现在能存文件、能跑代码了,但这些代码在哪运行?直接在电脑上跑Agent太危险(可能会删了重要文件或装奇怪的玩意),而且一台电脑也撑不住同时跑一堆Agent
所以Harness 把代码执行放到沙箱里:Agent在里面跑代码、装依赖、读写文件,不会影响你的真实环境。需要更高安全性的话,还能限制哪些命令可执行、能否联网。沙箱还天然支持规模化:需要时开一个,用完就扔,可以同时开一堆并行跑任务。
但光有沙箱不够,还得配好工具:Harness负责提前配好Agent干活需要的东西:语言运行时、常用依赖包、git、测试框架、浏览器…….。这些工具让Agent 能"看到"自己干的活怎么样。这就形成了自我验证循环:写代码、跑测试、查日志、发现问题、修bug,自己闭环
模型本身不会给自己搭环境。Agent在哪跑、有什么工具、能碰什么、怎么验证结果,全部是Harness层面的设计决策。
4.4 Memory和搜索:持续学习
我们希望Agent 能记住它见过的东西,并能获取训练时还不存在的信息
模型只知道两样东西:训练时学到的权重,和当前上下文窗口里的内容。你没法改它的权重,所以"给模型添加知识"只有一条路:把信息塞进上下文
Memory怎么实现?其实还是靠文件系统。
Harness 支持像AGENTS.md这样的记忆文件,Agent 启动时自动加载。Agent在工作中不断往里写新东西,下次启动时Harness又把更新后的内容注入上下文。本质上就是一种持续学习:这次会话学到的知识,下次还能用。
但Memory只解决了"记住过去",还有一个问题是“获取现在"。模型有知识截止日期,Pre-train之后的新信息它完全不知道。Web Search和Context7等MCP 工具让Agent能访问最新的信息。
所以Web Search和实时查询工具,是值得内建到Harness中的基础能力。
4.5上下文管理
我们希望Agent的表现不随着工作的推进而退化
Opus 4.6一个很重要的就是显著缓解“ContextRot”:随着上下文窗口逐渐填满,模型的推理和任务完成能力会下降。上下文是珍贵且稀缺的资源,每个载入上下文却无效的token都会削弱Agent的表现,所以需要Harness用策略来管理
Harness 在三个阶段对抗 Context Rot:
一启动阶段:Skills按需加载。Agent启动时如果把所有信息一股脑塞进上下文,留给任务的空间就所剩无几,模型还没推理上下文就撑爆了。Skills通过按需加载+渐进式披露:启动时只注入轻量的索引,等模型在推理时判断需要某个能力,Harness再把对应工具的完整描述动态注入上下文
二执行过程中:ToolCall卸载。工具返回内容太多怎么办?比如返回了几千行日志,全塞进上下文就是噪音。Harness只保留开头和结尾的关键部分,完整内容存到文件里,模型需要的时候再去读
三上下文快满时:Compaction 压缩。没有压缩,对话超过上下文窗口就会API报错。Compaction智能地删除和总结现有上下文,让Agent 能继续工作~
写在最后:价值在Harness层积累

随着模型能力增强,今天Harness中的某些功能会被模型吸收。
模型会在规划、自我验证和长周期连贯性方面原生变得更强,从而减少对上下文注入等手段的依赖。
今天的Harness在一定程度上是在弥补模型的不足。在模型不变的情况下改变Harness,产生的性能提升大于在Harness不变的情况下更换模型。
这颠覆了过去大家认为的“模型竞赛"直觉。将工程注意力重新导向基础设施、上下文管理和架构约束。

一个简单的类比:模型=CPU,上下文窗口=RAM(内存),Harness=操作系统。CPU再快,没有好的操作系统也跑不好程序。
Harness 赋予模型Memory、工具、安全执行环境、上下文管理和长期规划能力,把原始智能变成真正能干活的系统。即使模型不断进步,Harness依然是实现真正自主性的关键
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐

所有评论(0)