文爱社区田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，资本暴跌97%

发布日期：2024-10-29 11:08 点击次数：192

【新智元导读】AI 评估 AI 可靠吗？来自 Meta、KAUST 团队的最新盘录取文爱社区，建议了 Agent-as-a-Judge 框架，阐述了智能体系统大致以类东谈主的面貌评估。它不仅减少 97% 资本和时辰，还提供丰富的中间反馈。

AI 智能体，能否像东谈主类相通有用地评估其他 AI 智能体？

关于 AI 智能体来说，评估决议旅途一直是毒手的问题。

已有的评估秩序，要么只更正成果，要么要要过多的东谈主工完成。

为了处分这一问题，田渊栋、Jürgen Schmidhuber 指导的团队建议了「Agent-as-a-Judge」框架。

简言之，让智能体来评估智能体系统，让 AI 审 AI。

它不仅不错减少 97% 的资本和时辰，还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延长，通过融入智能体特质，大致为系数这个词任务处分过程提供中间反馈。

论文地址：https://arxiv.org/abs/2410.10934v1

盘考东谈主员建议了 DevAI 基准，为全新框架提供想法考证测试平台。包含 55 个真的的 AI 拓荒任务，带有老成的手动谛视。

成人电影网

通过对三个当先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。

总之，这项盘考信得过的变革之处在于：它提供了可靠的奖励信号，为可扩张的、自我纠正的智能体系统铺平了谈路。

「法官」智能体，打败大模子

现存评估秩序，无法为智能体系统的中间任务处分阶段，提供裕如的反馈。

另一方面，通过东谈主工进行更好的评估，代价太大。

而智能体系统的念念考面貌，更像东谈主类，平时是冉冉完成，而况在里面通常使用类东谈主的标记通讯来处分问题。

因此，智能体也大致提供丰富的反馈，并更正圆善的念念考和行径轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」资本效益，还具备智能体特质，使其在系数这个词过程中提供中间反馈。

下图展示了，大模子、智能体、东谈主类行为评判者的默示图。

DevAI：自动化 AI 拓荒数据集

另外，在代码生成领域，基准测试的发展也过时于智能体系统的快速跳跃。

比如，HumanEval 仅更正算法问题，而 MBPP 则处理简便的编程任务，但这两者都莫得反应出拓荒者濒临的最本体的挑战。

行为一个纠正，SWE-Bench 基准照实引入了 GitHub 实验问题，提供一种全新评估的秩序。

不外，它仍需要更正自动成立任务的拓荒过程。

为了处分现时代码生成基准测试中的上述问题，盘考东谈主员引入了 DevAI：AI 拓荒者数据集，其中包含 55 个由众人谛视者创建的真的宇宙笼统 AI 利用拓荒任务。

DevAI 结构是这么的：智能体系统早先接登科户查询以运行拓荒，然后把柄 AI 系统欢娱需求的进程来评估它，其中偏好行为可选的、较为柔性的法式。

图 3 展示了 DevAI 任务的一个例子。

DevAI 中的任务范围相对较小，但涵盖了常用的要害拓荒本领。

如图 2 所示，任务被标记并消散了 AI 的多个要害领域：监督学习、强化学习、计较机视觉、当然言语处理、生成模子等。

每个任务都是，可能交给盘考工程师的真的宇宙问题，并缩小了在这个基准上评估秩序的计较资本。

接下来，盘考东谈主员将当先的开源代码生成智能体框架，利用于 DevAI 中的任务：MetaGPT、GPT-Pilot、OpenHands。

他们让东谈主类评判者、大模子评判者、以及智能体评判者框架，来评估其性能。

成果如表 1 所示，MetaGPT 最具资本效益（1.19 好意思元），而 OpenHands 是最股东的（6.38 好意思元）。

从拓荒时辰来看，OpenHands 完成任务平均耗时 362.41 秒，而 GPT-Pilot 耗时最长，为 1622.38 秒。

平均而言，使用这三者之一双 DevAI 进行圆善评估，约莫需要 210.65 好意思元和 14 小时能力完成。

Human-as-a-Juge：DevAI 手动评估

为了详情 DevAI 的实用有用性，并准确计算现时首先进的智能体系统本体代码生成智商，盘考东谈主员手动评估三个 AI 拓荒者基线在 DevAI 中的利用。

如表 2 所示，（I）和（D）代表安定性能与考虑任务依赖性的性能。

线路多个众人的进化，而况意味着评估使用白盒测试（允许走访生成的 workspace、东谈主类汇集的轨迹和开源代码库）。

两种性能最佳的秩序（GPT-Pilot 和 OpenHands）不错欢娱约莫 29% 的条目，但惟有一项任务不错欢娱系数条目。

另外，在三位东谈主类评估者之间，他们的个东谈主评估存在无数不对，评释了单一东谈主类评估的弗成靠性。

下图 5 回首了东谈主类评估和共鸣评估的不匹配度。

� � � � � � � � � �- � � � �- � �- � � � � � � � � � �：智能体评估智能体

把柄以往智能体假想的陶冶，并通过效法东谈主类评估过程，盘考东谈主员波及了 8 个模块化交互组件，具体包括：

1 图像模块：构建一个图像，取得方法系数这个词结构，包括文献、模块、依赖项，还不错将代码块剖释为代码片断

2 定位模块：识别需求所援用的特定文献夹 / 文献

3 读取模块：卓绝了简便的文献认识，复旧跨 33 种不同体式的多模态数据的读取和邻接

4 搜索模块：提供了对代码的潦倒文邻接，而况不错快速检索高度关连的代码片断，以偏握背后幽微永诀

5 检索模块：从潦倒文中索要信息，识别轨迹中关连片断

6 查询模块：详情是否欢娱给定条目

7 牵挂模块：存储历史判断信息，允许智能体基于曩昔牵挂评估

8 策动模块：允许智能体把柄现时现象和方刑场地制定政策，并列序任务。

具体操作经过，如下图 9 所示。

下表 3 展示了，Agent-as-a-Judge 在各项任务中长久优于 LLM-as-a-Judge，绝顶是在那些训在职务依赖关系的情况下。

评判拓荒者智能体，是一项类别对抗衡的任务，欢娱条目的情况要比失败的情况少的多。

而判断滚动和对皆率等主见可能会产生误导。比如，由于 MetaGPT 很少欢娱条目， LLM-as-a-Judge 很容易将大多数情况识别为负面（在黑盒建树中达到 84.15%）。

PR 弧线通过均衡精准度和调回率，提供更明晰的性能估量法式。

这标明，在某些情况下，Agent-as-a-Judge 简直不错取代东谈主类评估员。

临了，在消融盘录取，盘考东谈主员分析了各式组件的添加，对 Agent-as-a-Judge 判断 OpenHands 性能的影响。

参考府上：

https://x.com/tydsh/status/1846538154129375412文爱社区

上一篇：大桥未久作品东风26导弹布阵壮不雅，彰显中国留意实力，好意思国亦感胆寒

下一篇：suzyq 足交探长：山东正在积极寻找第四外助克里斯发挥不足预期

文爱 社区 田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，资本暴跌97%

友情链接：

文爱社区田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，资本暴跌97%