Claude 的「顾问策略」:让便宜模型遇到难题时自动请教贵模型
Anthropic 前几天发了一篇官方博客,核心就一句话:让便宜模型跑日常任务,只在遇到难题时请教贵模型。这个思路叫「顾问策略」(Advisor Strategy),效果出乎意料地好,而且普通人在现有的智能体平台里就能实现。
Anthropic 前几天发了一篇官方博客,核心就一句话:让便宜模型跑日常任务,只在遇到难题时请教贵模型。这个思路叫「顾问策略」(Advisor Strategy),效果出乎意料地好,而且普通人在现有的智能体平台里就能实现。
先说这个策略到底在做什么。
传统做法是拿最强的模型跑所有任务。但最强的模型又贵又慢。比如,Claude 系列模型分成三档,分别是最贵的 Opus、中等的 Sonnet 和最便宜的 Haiku。让 Claude Opus 帮你做一个简单的文件整理,就像请一个年薪百万的顾问帮你收拾桌面,能做,但太浪费了。
还有一种常见做法叫「大脑指挥,小兵干活」。用一个强模型当总指挥,把任务拆成小块,派给便宜模型去执行。这种模式在很多 Agent 框架里都能看到。
Anthropic 的顾问策略反过来了。让便宜模型全程当主力干活,只有遇到搞不定的问题时,才去请教贵模型。
具体来说,Sonnet(或者更便宜的 Haiku)作为「执行者」,负责跑主循环、调用工具、读取结果、一步步推进任务。当它遇到一个自己拿不准的决策,就把上下文打包发给 Opus,也就是「顾问」。Opus 看到的是跟执行者完全一样的上下文,对话历史、工具调用记录,全都能看到。但 Opus 不会自己去调工具,也不会直接产出面向用户的内容,它只做一件事:给执行者提建议。比如一个行动计划,或者帮小模型纠正方向。建议给完,执行者接着干。
效果怎么样?Anthropic 给了实测数据。
Sonnet 加上 Opus 顾问,在 SWE-bench Multilingual 编程测试上比 Sonnet 单跑高出 2.7 个百分点,同时每个任务的成本反而降了 11.9%。性能提升的同时还省了钱。这是因为,Opus 每次只生成一段简短的建议,通常 400 到 700 个 token,大部分工作还是 Sonnet 在做。另一方面,有了 Opus 的指导,Sonnet 少走弯路、减少无效重试,总 token 消耗反而更低了。
更夸张的是 Haiku 那组。Haiku 单独跑 BrowseComp 网页搜索测试,得分 19.7%。加上 Opus 顾问之后,直接飙到 41.2%,翻了一倍多。而这个组合的成本,只有 Sonnet 单独跑的 15%。
也就是说,大部分时候,便宜模型就够用了。但在关键节点让最强模型把一下关,整体效果就能大幅拉升。你把它理解成给你的智能体装了一部「电话」就行。平时自己干活,遇到拿不准的事,拿起电话打给一个更资深的专家问一下,问完继续干。
那普通人怎么实现这个?
如果你是开发者,或者会 AI 编程,Anthropic 在 API 层面已经提供了一个原生的 advisor tool,开发者在调用 Messages API 时加一行配置就能用。
但是,大部分人用的是扣子、Dify 这类智能体搭建平台,或者 Claude Code、Trae、GitHub Copilot 这类 AI 编程工具。这些平台有一个共同的限制,运行任何指令的时候,都只能固定选一个模型。没有一个选项叫「平时用 Sonnet,遇到困难自动切 Opus」。
怎么办?
思路其实很简单:在智能体里面再嵌套一层调用,让它在需要的时候自己去请求另一个模型。
我在成长圈里给大家分享过一个 Skill,叫 invoking-llm。它的作用就是让你的智能体在执行过程中,随时可以调用任意一个大模型的 API。你的智能体主体跑的是 Sonnet,当它碰到一个特别复杂的推理问题或者关键决策,就可以通过这个 Skill 临时去调一次 Opus 或者 o3,拿到结果之后继续按原来的流程走。