发布日期:2024-10-29 11:08 点击次数:190
【新智元导读】AI 评估 AI 可靠吗?来自 Meta、KAUST 团队的最新盘录取文爱 社区,建议了 Agent-as-a-Judge 框架,阐述了智能体系统大致以类东谈主的面貌评估。它不仅减少 97% 资本和时辰,还提供丰富的中间反馈。
AI 智能体,能否像东谈主类相通有用地评估其他 AI 智能体?
关于 AI 智能体来说,评估决议旅途一直是毒手的问题。
已有的评估秩序,要么只更正成果,要么要要过多的东谈主工完成。
为了处分这一问题,田渊栋、Jürgen Schmidhuber 指导的团队建议了「Agent-as-a-Judge」框架。
简言之,让智能体来评估智能体系统,让 AI 审 AI。
它不仅不错减少 97% 的资本和时辰,还能提供丰富的中间反馈。
这是「LLM-as-a-Judge」框架的有机延长,通过融入智能体特质,大致为系数这个词任务处分过程提供中间反馈。
论文地址:https://arxiv.org/abs/2410.10934v1
盘考东谈主员建议了 DevAI 基准,为全新框架提供想法考证测试平台。包含 55 个真的的 AI 拓荒任务,带有老成的手动谛视。
成人电影网通过对三个当先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」框架。
总之,这项盘考信得过的变革之处在于:它提供了可靠的奖励信号,为可扩张的、自我纠正的智能体系统铺平了谈路。
「法官」智能体,打败大模子
现存评估秩序,无法为智能体系统的中间任务处分阶段,提供裕如的反馈。
另一方面,通过东谈主工进行更好的评估,代价太大。
而智能体系统的念念考面貌,更像东谈主类,平时是冉冉完成,而况在里面通常使用类东谈主的标记通讯来处分问题。
因此,智能体也大致提供丰富的反馈,并更正圆善的念念考和行径轨迹。
「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」资本效益,还具备智能体特质,使其在系数这个词过程中提供中间反馈。
下图展示了,大模子、智能体、东谈主类行为评判者的默示图。
DevAI:自动化 AI 拓荒数据集
另外,在代码生成领域,基准测试的发展也过时于智能体系统的快速跳跃。
比如,HumanEval 仅更正算法问题,而 MBPP 则处理简便的编程任务,但这两者都莫得反应出拓荒者濒临的最本体的挑战。
行为一个纠正,SWE-Bench 基准照实引入了 GitHub 实验问题,提供一种全新评估的秩序。
不外,它仍需要更正自动成立任务的拓荒过程。
为了处分现时代码生成基准测试中的上述问题,盘考东谈主员引入了 DevAI:AI 拓荒者数据集,其中包含 55 个由众人谛视者创建的真的宇宙笼统 AI 利用拓荒任务。
DevAI 结构是这么的:智能体系统早先接登科户查询以运行拓荒,然后把柄 AI 系统欢娱需求的进程来评估它,其中偏好行为可选的、较为柔性的法式。
图 3 展示了 DevAI 任务的一个例子。
DevAI 中的任务范围相对较小,但涵盖了常用的要害拓荒本领。
如图 2 所示,任务被标记并消散了 AI 的多个要害领域:监督学习、强化学习、计较机视觉、当然言语处理、生成模子等。
每个任务都是,可能交给盘考工程师的真的宇宙问题,并缩小了在这个基准上评估秩序的计较资本。
接下来,盘考东谈主员将当先的开源代码生成智能体框架,利用于 DevAI 中的任务:MetaGPT、GPT-Pilot、OpenHands。
他们让东谈主类评判者、大模子评判者、以及智能体评判者框架,来评估其性能。
成果如表 1 所示,MetaGPT 最具资本效益(1.19 好意思元),而 OpenHands 是最股东的(6.38 好意思元)。
从拓荒时辰来看,OpenHands 完成任务平均耗时 362.41 秒,而 GPT-Pilot 耗时最长,为 1622.38 秒。
平均而言,使用这三者之一双 DevAI 进行圆善评估,约莫需要 210.65 好意思元和 14 小时能力完成。
Human-as-a-Juge:DevAI 手动评估
为了详情 DevAI 的实用有用性,并准确计算现时首先进的智能体系统本体代码生成智商,盘考东谈主员手动评估三个 AI 拓荒者基线在 DevAI 中的利用。
如表 2 所示,(I)和(D)代表安定性能与考虑任务依赖性的性能。
线路多个众人的进化,而况意味着评估使用白盒测试(允许走访生成的 workspace、东谈主类汇集的轨迹和开源代码库)。
两种性能最佳的秩序(GPT-Pilot 和 OpenHands)不错欢娱约莫 29% 的条目,但惟有一项任务不错欢娱系数条目。
另外,在三位东谈主类评估者之间,他们的个东谈主评估存在无数不对,评释了单一东谈主类评估的弗成靠性。
下图 5 回首了东谈主类评估和共鸣评估的不匹配度。
� � � � � � � � � �- � � � �- � �- � � � � � � � � � �:智能体评估智能体
把柄以往智能体假想的陶冶,并通过效法东谈主类评估过程,盘考东谈主员波及了 8 个模块化交互组件,具体包括:
1 图像模块:构建一个图像,取得方法系数这个词结构,包括文献、模块、依赖项,还不错将代码块剖释为代码片断
2 定位模块:识别需求所援用的特定文献夹 / 文献
3 读取模块:卓绝了简便的文献认识,复旧跨 33 种不同体式的多模态数据的读取和邻接
4 搜索模块:提供了对代码的潦倒文邻接,而况不错快速检索高度关连的代码片断,以偏握背后幽微永诀
5 检索模块:从潦倒文中索要信息,识别轨迹中关连片断
6 查询模块:详情是否欢娱给定条目
7 牵挂模块:存储历史判断信息,允许智能体基于曩昔牵挂评估
8 策动模块:允许智能体把柄现时现象和方刑场地制定政策,并列序任务。
具体操作经过,如下图 9 所示。
下表 3 展示了,Agent-as-a-Judge 在各项任务中长久优于 LLM-as-a-Judge,绝顶是在那些训在职务依赖关系的情况下。
评判拓荒者智能体,是一项类别对抗衡的任务,欢娱条目的情况要比失败的情况少的多。
而判断滚动和对皆率等主见可能会产生误导。比如,由于 MetaGPT 很少欢娱条目, LLM-as-a-Judge 很容易将大多数情况识别为负面(在黑盒建树中达到 84.15%)。
PR 弧线通过均衡精准度和调回率,提供更明晰的性能估量法式。
这标明,在某些情况 下,Agent-as-a-Judge 简直不错取代东谈主类评估员。
临了,在消融盘录取,盘考东谈主员分析了各式组件的添加,对 Agent-as-a-Judge 判断 OpenHands 性能的影响。
参考府上:
https://x.com/tydsh/status/1846538154129375412文爱 社区