多智能体AI系统:原理、架构与提示词,提升效率90%!

AI前沿10小时前发布 yizz
1,833 0 0
广告也精彩

如何像 Anthropic 一样构建强大的多智能体研究系统?

1. 什么是多智能体系统?为什么要构建它?

1.1 传统 AI 的局限性:单点智能的瓶颈

传统的 AI,即使再强大,也往往受限于线性流程,难以高效处理复杂任务。例如,要“列出 S&P 500 指数中信息技术类公司的所有董事会成员”,单智能体需要:

  1. 找到 S&P 500 里哪些公司是 IT 类的
  2. 确定每个公司的董事会名单
  3. 过滤和格式化信息
  4. 引用权威来源(官网、年报等)

这个过程耗时、易错、信息不全

1.2 多智能体系统的优势:团队协作的力量

Anthropic 通过构建多智能体系统,模拟人类团队协作,解决了这一难题。多智能体系统的核心在于:

  • 主控智能体LeadResearcher):负责拆解问题制定策略
  • 子智能体(Subagent):并行执行每个子任务,利用搜索工具查找信息、判断真伪、做出初步总结。
  • 引用助手(CitationAgent):负责整合结果,并添加资料来源

多智能体就像一个团队,面对复杂任务,单点智能再强,也比不过一个分工合理、协调良好的团队。

1.3 多智能体系统带来的显著提升

  • 完成率提升多智能体版本Claude,完成率比单智能体提升了 90%
  • 效率提升:系统不再是“查完一个问题再查下一个”,而是同时创建多个子智能体,各自查找不同的部分,再把结果汇总。
  • 结果更全面:每个子智能体有自己独立的关注点,不会遗漏或重复。

2. Anthropic 是如何“组织”这支虚拟团队的?

2.1 角色划分:明确分工,各司其职

Anthropic 的多智能体系统,就像一支组织严密的团队,角色划分清晰:

  • 主控智能体(LeadResearcher):负责制定策略明确子任务边界,例如“请查找 A 公司近三年董事变动情况,只使用官网或年报”。
  • 子智能体(Subagent):接到具体小任务后,会自主查找信息判断真伪做出初步总结。关键在于提示词会明确告知它:“你要输出格式是什么”、“最多搜索几次”、“优先用哪个工具”。
  • 引用助手(CitationAgent):负责检查报告结果,将涉及的内容和原始链接对应起来,确保引用的准确性。
  • 记忆系统(Memory):当任务步骤太多、token 接近上限时,主控智能体会将中间计划写入 memory,等下一轮再调用回来继续任务。
  • 工具集:每个智能体都有一份“工具使用指南”,明确告诉它什么任务用什么工具,比如:“你查 Slack 里的对话内容只能用 A 工具,不要用 Web 搜索”。

2.2 并行工作:速度与效率的保障

系统不是线性执行,而是并行的。主控智能体会判断是否继续深入,当一个结果太模糊时,它会“临时再派一名智能体”去补充说明。

3. 如何让 AI 懂得协作的艺术:提示词工程

3.1 策略型提示词:引导而非模板

Anthropic 的做法不是堆砌“提示词模板”,而是研究“优秀的人是怎么做研究的”,然后把这些策略变成提示词结构。教会了智能体一些“团队协作的基本常识”:

  • 不能重复别人做的任务:每个子智能体都被赋予任务 ID,提示词会告诉它“你只负责 XX,不要查别的”。
  • 判断自己是否查到了有用信息:如果查到的内容太少、质量不好,它会选择再次搜索或报告失败,而不是胡乱输出。
  • 懂得做取舍:每个任务都有一个“搜索预算”(比如最多 10 次),防止死循环。
  • 先泛后专:主控智能体会优先引导子体提出“通用关键词”搜索,找到大概信息后,再进一步缩小搜索范围。

3.2 Anthropic 的提示词设计原则

Anthropic 总结了 8 条提示词设计原则,值得所有 Agent 系统参考:

  1. 像智能体一样思考:把自己当作 LLM,从它的角度验证 prompt 会如何误解。
  2. 教会主控智能体如何分工:为每个子任务提供输出格式、目标、使用工具、边界约束。
  3. 任务复杂度 = 资源预算:为简单任务控制工具调用数,为复杂任务合理扩容。
  4. 设计工具就像设计 UI:不只是接口,而是要明确用法、适用场景、互斥条件。
  5. 让智能体自我提示词调优Claude 4 能自行优化 prompt 和工具描述,自动缩短任务路径。
  6. 搜索策略:先广后深:防止一上来就发长串复杂搜索词导致搜索失败。
  7. 显式引导思考过程:使用思维模式输出结构,提升稳定性。
  8. 全流程并行执行:3-5 个子智能体并行 + 每个子体多工具并行,大幅加速任务完成速度。

4. 技术背后的另一面:工程细节

4.1 关键设计:确保系统上线

很多“AI 系统”都卡在 demo 阶段,是因为缺乏对复杂性处理的能力。Anthropic 做了几个关键设计,让这套系统真正能上线使用:

  • 智能体崩溃不等于任务失败:如果一个子智能体出错,系统会中断恢复,而不是整组任务报废。
  • 升级版本用“彩虹部署”:确保已有任务不受影响,逐步迁移新版本。
  • 任务之间不能互相干扰:每个子任务的上下文和行为被隔离管理。
  • 不会记录用户私密信息,但保留系统决策轨迹:方便追踪智能体行为,但不触碰隐私。

4.2 Token 消耗:价值与成本的权衡

这类系统“烧 token 烧得很快”,一个多智能体任务可能消耗普通聊天任务 15 倍以上的资源。所以,这类系统必须应用在“足够有价值的任务”中,比如投资研究、医学方案分析、商业信息搜集等。

5. 多智能体系统:适用场景

5.1 主要应用领域

目前,这套系统主要用在几类任务中:

  • 商业研究 / 投资分析:企业画像、投融资追踪、竞争对手拆解等。
  • 信息验证 / 合规查证:比如人物背景调查、文献追踪、事实校验。
  • 辅助写作 / 内容策划:比如长篇内容生成、查找引用文献、构建信息大纲。

5.2 典型使用场景

最常见的使用场景是“为复杂领域构建系统化知识材料”,比如为某个医疗话题写背景研究、为某个技术方向整理论文脉络。一句话总结:如果你问的问题“不是一句话能回答的”,它就很可能适合多智能体系统来完成。

6. Claude Research 系统的实际价值反馈

6.1 用户最频繁的使用场景

Anthropic 收集的用户数据中,有 5 类场景使用最频繁:

  • 专业内容撰写与优化
  • 市场调研与增长策略
  • 学术研究支持
  • 软件系统架构建议
  • 多平台信息验证与交叉比对

6.2 用户评价

部分用户表示:这类 AI 研究系统帮他们节省了“本该花上几天的工作”。

7. 多智能体系统的优势总结

7.1 多智能体系统的优势

研究类任务本质上是开放式问题,很难事先预测需要哪些步骤。你无法为探索复杂主题预设一条固定路径,因为研究过程是动态的、依赖于每一步发现的线索的。当人类进行研究时,他们会根据新的发现不断调整策略,追踪在探索中浮现出的线索。这种不可预测性使得 AI 智能体在研究任务中尤其适用。研究需要灵活性,要能在探索过程中转向或延伸至相关方向。模型必须在多个回合中自主决策,基于中间成果判断接下来要走哪条路。线性的一次性流水线方案无法胜任这类任务。

搜索的本质是压缩:从海量语料中提取出有价值的见解。子智能体通过并行运行、拥有各自的上下文窗口,同时探索问题的不同方面,再将最重要的 token 汇总给主控研究智能体,极大促进了信息压缩的效率。每个子智能体还可实现关注点的分离——使用不同的工具、提示词和探索路径——从而降低路径依赖、增强研究的独立性和完整性。一旦模型智能达到某一临界点,多智能体系统就成为扩展性能的关键方式。例如,在过去十万年中,个体人类的智能虽有提升,但进入信息时代后,人类社会的整体能力实现了指数级增长,这得益于“集体智能”与协调能力。即使是通用智能体,作为个体也有极限;成群智能体协作可以实现远超单体能力的成就。

我们的内部评估表明:在需要同时追踪多个独立方向的“广度优先”查询中,多智能体系统的表现尤为出色。我们发现,在以 Claude Opus 4 为主控智能体、Claude Sonnet 4 为子智能体的系统中,整体性能相比单智能体 Claude Opus 4 提高了 90.2%。比如在查询“信息技术类 S&P 500 公司所有董事会成员”时,多智能体系统能将任务拆解分派给多个子智能体并行处理,而单智能体系统则只能顺序检索,效率低且结果不全。

7.2 为什么会有效

多智能体系统之所以有效,是因为它们能在任务上“烧掉”足够多的 token。在我们对 BrowseComp(测试智能体查找难找信息能力)的分析中,影响性能的三个关键因素解释了 95% 的方差——其中“使用的 token 数量”单独就解释了 80% 的差异,另外两个是工具调用次数与模型选择。这验证了我们通过分布式架构设计提升 token 使用效率的策略,即利用不同上下文窗口的子智能体来提升并行推理能力。Claude 最新模型更进一步地提高了 token 使用效率:将 Sonnet 3.7 升级为 Sonnet 4,效果甚至优于直接翻倍 token 上限。多智能体架构能在超过单智能体处理能力的任务中充分发挥 token 预算的作用。

7.3 多智能体系统的缺点

但也存在缺点:这种架构在实践中非常“烧 token”。我们的数据表明,一个普通的智能体交互平均消耗的 token 是一次聊天的 4 倍,而一个多智能体系统的 token 消耗大约是聊天的 15 倍。为了在经济上可行,多智能体系统必须应用在价值足够高的任务上,才能抵消性能带来的成本。此外,如果某个任务领域要求所有智能体共享完整上下文,或者智能体间存在大量强耦合依赖,那么目前的多智能体系统也并不适用。例如,大多数编程任务中并没有太多可并行处理的子任务,而 LLM 智能体目前还不擅长实时协作与分工。我们发现,多智能体系统最适合高价值、强并行、上下文超出单一窗口、以及需要与复杂工具交互的场景。

8. Anthropic Research 架构概览

8.1 核心

我们的 Research 系统采用多智能体架构,使用“协调者-工作者”模式,即主控智能体负责整体协调,而多个专职子智能体并行执行任务。

[图片]

多智能体架构实战图示:用户的查询首先由主控智能体接收处理,它会创建多个专职子智能体,各自并行探索查询的不同方面。

8.2 工作流程

当用户提交一个查询时,主控智能体会分析该查询、制定研究策略,并同时生成多个子智能体,分别去探索不同方向。如图所示,子智能体就像智能过滤器,迭代调用搜索工具,在这个例子中是收集 2025AI 智能体公司的信息,之后将公司列表返回给主控智能体,后者再汇总为最终答案。传统的检索增强生成(RAG)方法采用的是静态检索——根据输入查询,提取若干最相似的文本片段用于生成回答。而我们采用的架构则是动态的多步骤搜索,能够根据新发现的信息不断调整策略,并对结果进行分析,从而生成高质量的答案。

[图片]

多智能体 Research 系统的完整工作流程图:用户提交查询后,系统创建一个 LeadResearcher 智能体并进入迭代研究流程。LeadResearcher 先思考整体策略并将研究计划保存至 Memory(用于持久化上下文),因为当上下文窗口超过 20 万 token 时,会发生截断,因此必须保留原始计划。随后,LeadResearcher 会创建多个专职子智能体(图示中为两个,实际可任意数量),分别承担具体的研究子任务。每个子智能体独立进行网页搜索,利用交叉思考(interleaved thinking)评估工具结果,并将发现返回主控智能体。LeadResearcher 汇总这些信息,并判断是否还需要进一步研究——如果需要,可以生成更多子智能体,或调整策略。一旦信息充足,系统便退出研究循环,并将所有结果交由 CitationAgent 处理,该智能体负责将研究内容与原始文档进行比对、定位引用出处,从而确保所有结论都有出处。最终带有引用信息的研究结果返回给用户。

9. 针对研究智能体的提示词工程与评估机制

9.1 面临的挑战

相比单智能体系统,多智能体系统面临的协调复杂度呈指数级增长。早期的智能体常常犯一些错误:比如为简单问题生成 50 个子智能体,在网上没完没了地搜索根本不存在的信息,或者频繁地互相打断更新进度,反而妨碍了任务推进。由于每个智能体的行为都由其提示词驱动,因此提示词工程成为我们优化这些行为的主要手段。以下是我们在优化提示词时总结的关键原则:

9.2 技巧

  1. 像智能体那样思考。想要优化提示词,必须理解它们的作用。为此我们在 Console 平台上构建了模拟环境,使用实际系统中的提示词与工具,逐步观察智能体的工作过程。这立刻暴露了很多失败模式:智能体在已有足够信息时仍继续搜索、生成冗长的搜索查询、或选择了错误的工具。提示词调优的关键是建立起对智能体行为的准确心理模型,很多影响深远的优化都来自这种理解。
  2. 教会协调者如何分派任务。在我们的系统中,主控智能体需要将一个查询拆解成若干子任务,并描述给各个子智能体。每个子智能体都必须明确:研究目标、输出格式、可用工具和资源、任务边界。如果这些信息不清晰,智能体就可能重复劳动、遗漏关键部分、或找不到正确信息。我们最初允许主控智能体仅用一句话说明任务,比如“研究半导体短缺情况”,但实际发现这种描述太模糊,子智能体往往误解任务或进行重复检索。比如,一个智能体研究 2021 年的汽车芯片危机,另外两个则都在查找 2025 年的供应链情况,没有合理的分工。
  3. 将任务复杂度与资源分配挂钩。智能体不擅长判断任务所需的工作量,因此我们在提示词中加入了“规模控制规则”。简单的事实查询只需 1 个智能体、调用 3-10 次工具;比较任务需要 2-4 个子智能体,每个调用 10-15 次工具;复杂研究任务则可能需要超过 10 个子智能体、每个都有明确分工。这种显式规则帮助主控智能体合理分配资源,避免在简单任务中“过度投资”——这是我们早期版本常见的错误模式。
  4. 工具的设计与选择至关重要。智能体与工具之间的接口就像人类与计算机之间的 UI 界面一样关键。用对了工具,就能高效完成任务——有时甚至是唯一可行的方式。比如,一个智能体试图在网页上搜索只有 Slack 里才存在的信息,那肯定是徒劳无功。在引入 MCP server 后,模型可以接入外部工具,但由于工具描述质量参差不齐,这个问题变得更严重。我们明确要求
© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!