紫色面具 萝莉

品色堂地址你的位置:紫色面具 萝莉 > 品色堂地址 > 文爱 社区 田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,资本暴跌97%

文爱 社区 田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,资本暴跌97%

发布日期:2024-10-29 11:08    点击次数:190

文爱 社区 田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,资本暴跌97%

【新智元导读】AI 评估 AI 可靠吗?来自 Meta、KAUST 团队的最新盘录取文爱 社区,建议了 Agent-as-a-Judge 框架,阐述了智能体系统大致以类东谈主的面貌评估。它不仅减少 97% 资本和时辰,还提供丰富的中间反馈。

AI 智能体,能否像东谈主类相通有用地评估其他 AI 智能体?

关于 AI 智能体来说,评估决议旅途一直是毒手的问题。

已有的评估秩序,要么只更正成果,要么要要过多的东谈主工完成。

为了处分这一问题,田渊栋、Jürgen Schmidhuber 指导的团队建议了「Agent-as-a-Judge」框架。

简言之,让智能体来评估智能体系统,让 AI 审 AI。

它不仅不错减少 97% 的资本和时辰,还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延长,通过融入智能体特质,大致为系数这个词任务处分过程提供中间反馈。

论文地址:https://arxiv.org/abs/2410.10934v1

盘考东谈主员建议了 DevAI 基准,为全新框架提供想法考证测试平台。包含 55 个真的的 AI 拓荒任务,带有老成的手动谛视。

成人电影网

通过对三个当先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」框架。

总之,这项盘考信得过的变革之处在于:它提供了可靠的奖励信号,为可扩张的、自我纠正的智能体系统铺平了谈路。

「法官」智能体,打败大模子

现存评估秩序,无法为智能体系统的中间任务处分阶段,提供裕如的反馈。

另一方面,通过东谈主工进行更好的评估,代价太大。

而智能体系统的念念考面貌,更像东谈主类,平时是冉冉完成,而况在里面通常使用类东谈主的标记通讯来处分问题。

因此,智能体也大致提供丰富的反馈,并更正圆善的念念考和行径轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」资本效益,还具备智能体特质,使其在系数这个词过程中提供中间反馈。

下图展示了,大模子、智能体、东谈主类行为评判者的默示图。

DevAI:自动化 AI 拓荒数据集

另外,在代码生成领域,基准测试的发展也过时于智能体系统的快速跳跃。

比如,HumanEval 仅更正算法问题,而 MBPP 则处理简便的编程任务,但这两者都莫得反应出拓荒者濒临的最本体的挑战。

行为一个纠正,SWE-Bench 基准照实引入了 GitHub 实验问题,提供一种全新评估的秩序。

不外,它仍需要更正自动成立任务的拓荒过程。

为了处分现时代码生成基准测试中的上述问题,盘考东谈主员引入了 DevAI:AI 拓荒者数据集,其中包含 55 个由众人谛视者创建的真的宇宙笼统 AI 利用拓荒任务。

DevAI 结构是这么的:智能体系统早先接登科户查询以运行拓荒,然后把柄 AI 系统欢娱需求的进程来评估它,其中偏好行为可选的、较为柔性的法式。

图 3 展示了 DevAI 任务的一个例子。

DevAI 中的任务范围相对较小,但涵盖了常用的要害拓荒本领。

如图 2 所示,任务被标记并消散了 AI 的多个要害领域:监督学习、强化学习、计较机视觉、当然言语处理、生成模子等。

每个任务都是,可能交给盘考工程师的真的宇宙问题,并缩小了在这个基准上评估秩序的计较资本。

接下来,盘考东谈主员将当先的开源代码生成智能体框架,利用于 DevAI 中的任务:MetaGPT、GPT-Pilot、OpenHands。

他们让东谈主类评判者、大模子评判者、以及智能体评判者框架,来评估其性能。

成果如表 1 所示,MetaGPT 最具资本效益(1.19 好意思元),而 OpenHands 是最股东的(6.38 好意思元)。

从拓荒时辰来看,OpenHands 完成任务平均耗时 362.41 秒,而 GPT-Pilot 耗时最长,为 1622.38 秒。

平均而言,使用这三者之一双 DevAI 进行圆善评估,约莫需要 210.65 好意思元和 14 小时能力完成。

Human-as-a-Juge:DevAI 手动评估

为了详情 DevAI 的实用有用性,并准确计算现时首先进的智能体系统本体代码生成智商,盘考东谈主员手动评估三个 AI 拓荒者基线在 DevAI 中的利用。

如表 2 所示,(I)和(D)代表安定性能与考虑任务依赖性的性能。

线路多个众人的进化,而况意味着评估使用白盒测试(允许走访生成的 workspace、东谈主类汇集的轨迹和开源代码库)。

两种性能最佳的秩序(GPT-Pilot 和 OpenHands)不错欢娱约莫 29% 的条目,但惟有一项任务不错欢娱系数条目。

另外,在三位东谈主类评估者之间,他们的个东谈主评估存在无数不对,评释了单一东谈主类评估的弗成靠性。

下图 5 回首了东谈主类评估和共鸣评估的不匹配度。

� � � � � � � � � �- � � � �- � �- � � � � � � � � � �:智能体评估智能体

把柄以往智能体假想的陶冶,并通过效法东谈主类评估过程,盘考东谈主员波及了 8 个模块化交互组件,具体包括:

1 图像模块:构建一个图像,取得方法系数这个词结构,包括文献、模块、依赖项,还不错将代码块剖释为代码片断

2 定位模块:识别需求所援用的特定文献夹 / 文献

3 读取模块:卓绝了简便的文献认识,复旧跨 33 种不同体式的多模态数据的读取和邻接

4 搜索模块:提供了对代码的潦倒文邻接,而况不错快速检索高度关连的代码片断,以偏握背后幽微永诀

5 检索模块:从潦倒文中索要信息,识别轨迹中关连片断

6 查询模块:详情是否欢娱给定条目

7 牵挂模块:存储历史判断信息,允许智能体基于曩昔牵挂评估

8 策动模块:允许智能体把柄现时现象和方刑场地制定政策,并列序任务。

具体操作经过,如下图 9 所示。

下表 3 展示了,Agent-as-a-Judge 在各项任务中长久优于 LLM-as-a-Judge,绝顶是在那些训在职务依赖关系的情况下。

评判拓荒者智能体,是一项类别对抗衡的任务,欢娱条目的情况要比失败的情况少的多。

而判断滚动和对皆率等主见可能会产生误导。比如,由于 MetaGPT 很少欢娱条目, LLM-as-a-Judge 很容易将大多数情况识别为负面(在黑盒建树中达到 84.15%)。

PR 弧线通过均衡精准度和调回率,提供更明晰的性能估量法式。

这标明,在某些情况 下,Agent-as-a-Judge 简直不错取代东谈主类评估员。

临了,在消融盘录取,盘考东谈主员分析了各式组件的添加,对 Agent-as-a-Judge 判断 OpenHands 性能的影响。

参考府上:

https://x.com/tydsh/status/1846538154129375412文爱 社区



Powered by 紫色面具 萝莉 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024

top