Claude的Agent四件套终于来了!Agents是新一代应用形式!

发布时间:2026-05-07 17:43  浏览量:1

Anthropic 在短短几年内就成为了OpenAI 的最强劲敌!

刚刚,Anthropic CEO Dario Amodei 透露:Anthropic 第一季度的收入和使用量同比增长了 80 倍。

它在以超快的速度跻身 AI 领域的第一梯队之后,Agent 成为它的下一个方向。

在4月份,Anthropic 重磅推出 Claude Managed Agents;

然后在昨天,Anthropic 旧金山举办的“Code with Claude” 开发者大会,围绕Managed Agents 一口气增加了四项新功能——梦境(Dreaming)、结果验收(Outcomes)、多智能体编排、以及 Webhooks

X上的网友评论:Agents 不仅仅是功能,它们是新一代应用形式 !

这四项新功能都有什么特长?我们一起来看一下!

前段时间,Claude Code 源代码泄露之后,就有大佬扒出了ClaudeCode 7层记忆机制里就有做梦机制。

两者都借鉴人类睡眠“做梦”的概念,让 AI 主动回顾过去会话记录,提取模式、整合记忆。

这也就是为什么在X上有网友提出质疑:“他们竟然把一个内存压缩功能命名为“梦境”,这对于一个本质上只是具有一定野心的日志文件来说,真是太夸张了。”

那么这两个有什么不同吗?

7层记忆机制里的做梦是进行会话内的后台短期记忆管理,解决上下文窗口不足;而 Claude Managed Agents 里的梦境则是扩展智能体的记忆能力 ,从而帮助智能体实现自我改进。

在官方博客里表示,“在启用梦境之后,Harvey 的任务完成率提高了约 6 倍。”

梦境能够揭示单个智能体自身无法发现的模式,包括重复出现的错误、智能体趋同的工作流程以及团队共享的偏好。它还能重构记忆,使其在演化过程中保持高信号强度。这对于长时间运行的任务和多智能体编排尤为有用。

在过去,AI 生成的内容往往需要用户再次评估。

现在 Outcomes 将评估这一环也交给了AI,真正实现了闭环。

“开发者编写评分标准,评分员(grader) 检查输出结果,如果结果不符合标准,则自动迭代。”

也就是说现在的流程变成了“AI 生成 → AI 验收 → AI 自动返工 → AI 再提交”

而且,评分员(grader) 会在自己的上下文窗口中,根据设定的标准评估输出结果,评估结果并不会被其他智能体影响。

根据 Claude 的官方测评,结果验收(Outcomes)功能相比标准提示循环,任务成功率最多可提升 10 个百分点,在最难的问题上提升最为显著。此外还提高了文件生成质量,在内部基准测试中,docx 文件的任务成功率提升了 8.4%,pptx 文件的任务成功率提升了 10.1%。

当智能体知道“好”的标准是什么时,它们就能发挥出最佳水平。例如,一个结构框架、一个呈现标准,或者一套需要满足的要求。有了结果,智能体就可以对照这个标准检查自己的工作,并进行自我修正,直到输出结果足够好,而无需人工审核每一次尝试。

传统 Agent 往往是:一个模型串行执行所有任务。

多智能体编排也就意味着,当单个 Agent 难以胜任多个工作时,主代理就会将任务分解成多个部分,并将每个部分委派给专门的智能体执行。

这些 Agent 在共享文件系统上并行工作,并为主 Agent 提供整体上下文信息。由于事件是持久的,每个 Agent 都会记住自己执行的操作,因此主 Agent可以在工作流程中途与其他 Agent 进行通信。

用户还可以实时跟踪:哪个 Agent 执行了什么操作、执行顺序以及原因。

这并非串行链式执行,而是真正的并行分工!

这个功能简单来说就是:在完成任务的时候喊你一声。

会话和存储库事件的异步通知。Agent 会在任务完成后主动回调,从而从一个交互式工具转变为一个可集成的后端服务。

有网友对这个功能特别兴奋:Outcomes 加上 Webhooks 才是真正的护城河!Anthropic 正在悄然构建类似 Stripe Webhook 的代理功能。

在X上的网友对Claude 的这次更新表示兴奋:

“这对持续性人工智能工作流程来说意义重大!”

“说实话,真正吸引我的是梦境功能。不是多智能体之类的东西,也不是网络钩子。而是你的智能体在你睡觉的时候回顾它过去的运行记录,找出它总是出错的地方,并在下次运行前更新记忆。这才是真正意义上的实用功能。”

当然也有网友质疑:

“如果 Dreams 基于有缺陷的反馈进行训练,那么随着规模扩大,它的表现只会越来越差。我很好奇 Anthropic 是如何让团队自行定义“改进”的真正含义的。”

Reddit 上的网友表示“梦境机制只会白白消耗你的代币!”

在这段时间的AI竞赛里,各大AI巨头接连推出新的模型、新的功能。

当 Anthropic 推出这些功能之后,有人评论:“又一批初创公司倒下了!”

这句话虽然有些夸张,但也折射出一个越来越清晰的现实:基础能力正在快速被平台化,行业的竞争门槛正在被拉高。

谁最后能在这场竞赛中成功走出来?