Agent Harness，一篇就够了

Agent Harness 已经在 2026 年初迅速成为 AI 工程领域的核心架构概念。

朝阳区靓仔_James

603人浏览 · 2026-03-26 11:46:13

朝阳区靓仔_James · 2026-03-26 11:46:13 发布

🌍 Agent Harness 已经在 2026 年初迅速成为 AI 工程领域的核心架构概念。

Agent = Model + Harness。如果你不是模型本身，那你就是 Harness

Harness engineering 指的是我们围绕模型构建系统的方式。模型包含智能，而 harness 让这种智能变得有用。

1.三周：从概念诞生到行业标准

从去年11月说起，Anthropic在官方Blog«Effective Harnesses for Long-RunningAgents》中，描述了Claude AgentSDK如何作为通用Agent Harness 运作。

这是"Harness”一词在这个语境下最早的重量级亮相，但当时并没有引起广泛讨论。

转折发生在今年2月初。一篇名为《MyAlAdoptionJourney》的文章正式命名了"HarnessEngineering"这个概念。核心观点很直接：每当Agent犯错时，你就花时间工程化一个解决方案，确保Agent永远不再犯同样的错误。

随后几天，OAl发布了配套Blog，揭露一个三人工程团队用Codex Harness写了超过100万行生产代码，零手写代码。

从今年2月初到2月底这3周的密集爆发，Agent Harness 迅速成为AI 工程领域的核心架构概念。这些文章都指向同一个结论：模型是大宗商品，Harness才是护城河。

2.到底什么是"Harness"?

如果你不是模型本身，那你就是Harness

Harness指的是模型之外的一切：代码、配置和执行逻辑。

一个裸的基模不是Agent，但当Harness 赋予它状态管理、工具执行、反馈循环和可执行约束之后，它就变成了Agent。

Agent=Model（模型）＋Harness

那"模型之外的一切"(harness)到底包括哪些?

系统提示词
工具、Skills、MCP及其描述
打包的基础设施（文件系统、沙箱、浏览器)
编排逻辑(Subagent、任务交接、模型路由）
Hooks/中间件实现确定性执行(上下文压缩、续写、lint检查）

在Agent 系统中，模型和 Harness的边界可以有很多划分的方法。但在我看来，上面这个定义是最清晰的，因为它迫使我们思考如何围绕模型智能来设计系统

3.我们为什么需要Harness

有些我们希望Agent能做到的事，模型本身做不到。这就是Harness存在的意义。

大多数情况下，模型接收文本、图像、音频、视频为输入，输出文本。仅此而已。

它本质上就是一个“输入-输出”函数，没有手，没有记忆，没有环境。

开箱即用的模型做不到：

编写代码执行和验证（Coding)
获取实时信息（Web Search）
在多次交互仍保持持久状态（上下文和Memory）
搭建环境、安装软件包以完成工作

这些全部是Harness层面的能力。LLM的特性决定了它需要某种封装机制，才能做有用的事。

举个最简单的例子：我们每天用的Al聊天产品，本身就是一个Harness。它帮你把对话历史管理起来，让模型“记住“你之前说了什么。底层逻辑就是：我们要把对Agent期望的能力，转化为Harness 中的实际功能。

4.Harness的五大核心组件

4.1文件系统和持久存储

我们希望Agent 拥有持久存储，能读写真实数据，把上下文装不下的信息存起来，下次打开还能接着干。

模型任何一次调用，只能看到和使用当前上下文窗口里的内容。在有文件系统之前，我们只能复制黏贴给模型，体验非常糟，对自主Agent来说更是不行。所以解决方案是：

Harness 自带文件系统，让 Agent 可以直接读写你的文件。

这样一来就解锁了很多东西：

Agent获得了一个工作区，可以读取数据、代码和文档。
文件系统天然就是协作界面。多个Agent和人类可以通过共享文件来协调工作。
Agent不用把所有东西都塞进上下文，可以把中间结果存到文件里，下次接着用。
Git给文件系统加上了版本管理，Agent可以追踪工作、回滚错误、创建实验分支

4.2Bash+代码：通用型工具

我们希望Agent自主解决问题，而不需要我们预先设计好每一个工具。

当前主流的Agent 执行架构是ReAct 循环：

模型推理→通过Tool Call采取行动→观察结果，在while循环中反复迭代。

但Harness 只能运行预先设定好的工具。你不可能提前把所有操作都写成工具，所以更好的方案是直接给Agent一个万能法宝：bash

Harness 自带bash 工具，让模型通过编写+执行代码来自主解决问题

说白了，（Bash+代码执行）就是把一台电脑交给模型。模型需要什么工具，自己写代码造一个，而不是只能用你提前给它准备好的那几个。

Harness仍然会附带其他工具，但代码执行已经成为自主解决问题的默认通用策略

4.3沙箱与工具：执行和验证工作

Agent需要一个具备合理默认配置的环境，在其中安全地行动、观察结果、持续推进。

模型现在能存文件、能跑代码了，但这些代码在哪运行?直接在电脑上跑Agent太危险（可能会删了重要文件或装奇怪的玩意），而且一台电脑也撑不住同时跑一堆Agent

所以Harness 把代码执行放到沙箱里：Agent在里面跑代码、装依赖、读写文件，不会影响你的真实环境。需要更高安全性的话，还能限制哪些命令可执行、能否联网。沙箱还天然支持规模化：需要时开一个，用完就扔，可以同时开一堆并行跑任务。

但光有沙箱不够，还得配好工具：Harness负责提前配好Agent干活需要的东西：语言运行时、常用依赖包、git、测试框架、浏览器…….。这些工具让Agent 能"看到"自己干的活怎么样。这就形成了自我验证循环：写代码、跑测试、查日志、发现问题、修bug，自己闭环

模型本身不会给自己搭环境。Agent在哪跑、有什么工具、能碰什么、怎么验证结果，全部是Harness层面的设计决策。

4.4 Memory和搜索：持续学习

我们希望Agent 能记住它见过的东西，并能获取训练时还不存在的信息

模型只知道两样东西：训练时学到的权重，和当前上下文窗口里的内容。你没法改它的权重，所以"给模型添加知识"只有一条路：把信息塞进上下文

Memory怎么实现？其实还是靠文件系统。

Harness 支持像AGENTS.md这样的记忆文件，Agent 启动时自动加载。Agent在工作中不断往里写新东西，下次启动时Harness又把更新后的内容注入上下文。本质上就是一种持续学习：这次会话学到的知识，下次还能用。

但Memory只解决了"记住过去"，还有一个问题是“获取现在"。模型有知识截止日期，Pre-train之后的新信息它完全不知道。Web Search和Context7等MCP 工具让Agent能访问最新的信息。

所以Web Search和实时查询工具，是值得内建到Harness中的基础能力。

4.5上下文管理

我们希望Agent的表现不随着工作的推进而退化

Opus 4.6一个很重要的就是显著缓解“ContextRot”：随着上下文窗口逐渐填满，模型的推理和任务完成能力会下降。上下文是珍贵且稀缺的资源，每个载入上下文却无效的token都会削弱Agent的表现，所以需要Harness用策略来管理

Harness 在三个阶段对抗 Context Rot:

一启动阶段：Skills按需加载。Agent启动时如果把所有信息一股脑塞进上下文，留给任务的空间就所剩无几，模型还没推理上下文就撑爆了。Skills通过按需加载+渐进式披露：启动时只注入轻量的索引，等模型在推理时判断需要某个能力，Harness再把对应工具的完整描述动态注入上下文

二执行过程中：ToolCall卸载。工具返回内容太多怎么办？比如返回了几千行日志，全塞进上下文就是噪音。Harness只保留开头和结尾的关键部分，完整内容存到文件里，模型需要的时候再去读

三上下文快满时：Compaction 压缩。没有压缩，对话超过上下文窗口就会API报错。Compaction智能地删除和总结现有上下文，让Agent 能继续工作～

写在最后：价值在Harness层积累

随着模型能力增强，今天Harness中的某些功能会被模型吸收。

模型会在规划、自我验证和长周期连贯性方面原生变得更强，从而减少对上下文注入等手段的依赖。

今天的Harness在一定程度上是在弥补模型的不足。在模型不变的情况下改变Harness，产生的性能提升大于在Harness不变的情况下更换模型。

这颠覆了过去大家认为的“模型竞赛"直觉。将工程注意力重新导向基础设施、上下文管理和架构约束。

一个简单的类比：模型=CPU，上下文窗口=RAM（内存），Harness=操作系统。CPU再快，没有好的操作系统也跑不好程序。

Harness 赋予模型Memory、工具、安全执行环境、上下文管理和长期规划能力，把原始智能变成真正能干活的系统。即使模型不断进步，Harness依然是实现真正自主性的关键

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

尤雨溪亲自点赞！用 Vue 3 写原生 App，这个框架终于来了！

维度传统混合开发渲染机制WebView 渲染，启动慢、长列表卡顿原生渲染，直接调用系统 UI 组件原生能力需要各种桥接、renderjs，维护成本高直接调用原生 API 和 SDK，零延迟开发体验厂商锁仓，Vite/Pinia 支持滞后Vite + TS + Vue 3 全家桶，现代前端体验包体积自带 WebView 内核，体积臃肿纯原生二进制包，平均小 30%有了它，你不仅获得了 React N

开源鸿蒙跨平台开发者社区

数字炸弹游戏应用技术深度解析与价值探索

开源鸿蒙跨平台开发者社区

AtomCode 助力开源鸿蒙跨平台三方库生态共建

自 OpenHarmony 问世以来，应用开发者面临的最大痛点从来不是操作系统本身的能力，而是三方库的匮乏。熟悉的等常用插件在鸿蒙上不可用上的 60000+ 插件中，支持 OHOS 平台的不到 10%每个插件的适配都需要开发者深入理解 Android/iOS 原生实现，再手动翻译为 ArkTS这不是技术上的鸿沟——Android 的 Kotlin 和 OHOS 的 ArkTS 在 Flutter