下载客户端

《失控进化》AEVO是什么?港科大爆火论文解读:MetaAgent接管进化机制,破解智能体长程失控难题

2026-06-08 15:43:10
转载

导读

本文解读港科大爆火论文《Harnessing Agentic Evolution》中的AEVO框架,该框架由元智能体管控进化机制,破解智能体长程失控难题,在多项测试中得分远超基线,还通过Harness实现进化过程可观测、可编辑等。

港科大爆火论文《Harnessing Agentic Evolution》深度解析!这篇论文核心研究智能体在长程进化中的失控问题,传统固定流程容易陷入旧规则,而通用编码智能体又易在复杂历史中漂移或早停。 论文核心论点:AEVO框架将进化过程本身建模成交互式环境,让累积的候选方案、反馈、轨迹、失败和成本成为过程级状态,再由一个元智能体(Meta-Agent)来编辑和优化未来的搜索机制。 方法入口:AEVO的动作不是直接生成新候选,而是修改影响后续搜索的底层机制,包括流程(procedure)、提示词(prompt)、技能(skill)、目标(goal)、工具(tool)、反馈格式(feedback format)、验证器(validator)和笔记(notes)等。 Harness作用:Harness提供了一个统一的工作区,记录候选历史、隔离评测器,并提供可恢复的命令行接口,使得整个进化过程可观察、可编辑、可记录、可恢复。 两类统一:在基于流程的进化中,AEVO修改选择、反馈、更新和预算规则;在基于智能体的进化中,AEVO修改通用智能体的运行上下文。 关键结果:在Terminal-Bench测试中,AEVO得分53.8,远超最强基线44.3;在ARC-AGI-2测试中得分47.0,对比最强基线36.0,平均相对提升高达26%。 开放式优化:AEVO在circle_packing_26、autocorrelation_second和Kernel优化三类任务中均达到最佳或并列最佳结果,例如在Kernel任务中,100轮进化到1138个周期,200轮进化到1121个周期。 轨迹解释:固定流程容易陷入平台期,直接编码的智能体容易过早停止进化。AEVO将停滞、重复失败和无效尝试转化为流程级的反馈,从而推动机制层面的修正。 系列定位:相比Meta-Harness、AHE、Continual Harness和Autogenesis等框架,AEVO补充了更通用的进化环境接口,将harness优化、在线调整和资源治理纳入统一框架理解。 风险边界:AEVO依赖于受保护的评测器、结构化的历史记录和可编辑的机制,元干预(meta-intervention)也会带来额外成本;实验中在缺乏Harness保护的情况下,两次出现了奖励黑客(reward hacking)的轨迹。

评论

共0条评论
face
inputImg
相关阅读
最新更新

最新更新