发布日期:2024-10-29 11:52 点击次数:158
樱井莉亚主演的电影
【新智元导读】科幻中的贾维斯,依然离咱们不远了。Claude 3.5 接收东谈主类电脑掀翻了东谈主机交互全新范式,爆料称谷歌同类 Project Jarvis 预测年底亮相。AI 操控电脑已成为微软、苹果等巨头,下一个发力的战场。
AI 接收东谈主类电脑,等于下一个改日!
几天前,Anthropic 向通盘东谈主展示了,Claude 3.5 自主看屏幕操作光标完成复杂任务,足以惊掉下巴。
刚刚,Information 独家爆料称,谷歌正开垦同类新式样「Project Jarvis」,能将 Chrome 网页任务自动化。
谷歌「贾维斯」将由改日版 Gemini 2.0 驱动,预测在 12 月亮相。
起这个名字,是为了向钢铁侠中的 J.A.R.V.I.S 请安。
无特有偶,微软团队偷偷放出的 OmniParser,也在细则 AI 智能体操控屏幕的改日。
论文地址:https://arxiv.org/pdf/2408.00203
OmniParser 主若是一个屏幕领会的器具,不错将截图升沉为结构化数据,匡助 AI 精确一语气用户意图。
不仅如斯,OpenAI 里面已有了 AI 智能体雏形,不错操控诡计机完成在线订餐、自动查询科罚编程难题等任务。
包括苹果在内,预测在来岁发布跨多个 APP 屏幕识别能力。最新迭代的 Ferret-UI 2,等于通用 UI 模子。
可见,「Computer use」依然成为科技大厂们,重心发力的下一个战场。
谷歌「贾维斯」年底出世,最强 Gemini 2 加执
代号为 Jarvis Project 式样,内容上是一个大看成模子(LAM),亦然谷歌一直以来在作念的大模子标的。
它有益针对谷歌 Chrome 浏览器,进行了优化。
具体操作旨趣,与 Claude 3.5 类似,通过截屏、领会屏幕内容,然后自动点击按钮,或输入文本,最终匡助东谈主们完成基于网页的正常任务。
不管是采集连系信息、购物,或是预定航班等任务,谷歌「贾维斯」均可完了。
不外,它在实践不同操作时,中间会有几秒钟的念念考本领。
因此,在末端栽植中运转还不太本质,仍然需要云上操作。
5 月的谷歌 I/O 大会上,谷歌 CEO 劈柴曾展示了,Gemini 和 Chrome 何如协同职责的样子。
如前所述,谷歌「贾维斯」将由 Gemini 2.0 加执,也就意味着年底咱们不错看到超越版 Gemini 模子。
尽管 Sam Altman 否定了 Orion 模子的发布,但外媒推测,预测年底 OpenAI 也将放出新核弹
微软 OmniParser 也下场了樱井莉亚主演的电影
紧接着 Claude「诡计机使用」发布之后,微软就开源了 AI 框架 OmniParser。
假定你想要去布赖斯峡谷国度公园,不知是否需要订票入园,这时 OmniParser 不错带你查询。
它会领会屏幕后,自动点击「permits」按钮,然后再截屏找到「布赖斯峡谷国度公园」,终末就不错完成用户任务。
可见,想要把类似 GPT-4V 的多模态大模子应用于操作系统上,模子还需要具备雄壮的屏幕领会能力,主要包括两方面:
1、准确地识别用户界面中的可交互图标;
2、一语气屏幕截图中多样元素的语义,并准确将预期看成与屏幕上的相应区域关联起来。
基于上述念念路,微软最新提议的 OmniParser 模子,不错将用户界面截图领会为结构化元素,权贵增强了 GPT-4V 在对应界面区域预测行径的能力。
步调
一个复杂的操作任务平庸不错剖析成多个子行径局势,在实践历程中,模子需要具备以下能力:
1、一语气面前局势的用户界面,即分析屏幕内容中大体上在展示什么、检测到的图标功能是什么等;
2、预测面前屏幕上的下一个看成,来匡助完成通盘这个词任务。
连系东谈主员发现,将这两个策画剖析开,比如在屏幕领会阶段只索要语义信息等,不错放松 GPT-4V 的包袱;模子也简略从领会后的屏幕中哄骗更多信息,看成预测准确率更高。
因此,OmniParser 纠合了微调后的可交互图标检测模子、微调后的图标描述模子以及光学字符识别(OCR)模块的输出,不错生成用户界面的结构化暗示,类似于文档对象模子(DOM),以及一个叠加潜在可交互元素范畴框的屏幕截图。
可交互区域检测(Interactable Region Detection)
从用户界面屏幕中识别出「可交互区域」十分关键,亦然预测下一走路动来完成用户任务的基础。
连系东谈主员并莫得顺利提醒 GPT-4V 来预测屏幕中操作范围的 xy 坐标值,而是受命先前的职责,使用标识围聚步调在用户界面截图上叠加可交互图标的范畴框,并条件 GPT-4V 生成要实践看成的范畴框 ID。
为了提高准确性,连系东谈主员构造了一个用于可交互图标检测的微调数据集,包含 6.7 万个不重复的屏幕截图,其中通盘图像皆使用从 DOM 树派生的可交互图标的范畴框进行标识。
为了构造数据集,连系东谈主员领先从聚积上公开可用的网址中索要了 10 万个均匀样本,并从每个 URL 的 DOM 树中采集网页的可交互区域的范畴框。
除了可交互区域检测,还引有一个 OCR 模块来索要文本的范畴框。
然后同一 OCR 检测模块和图标检测模块的范畴框,同期移除肖似度很高的框(阈值为肖似超越 90%)。
关于每个范畴框,使用一个粗浅的算法在边框旁边标识一个 ID,以最小化数字标签和其他范畴框之间的肖似。
整合功能的局部语义(Incorporating Local Semantics of Functionality)
连系东谈主员发现,在很厚情况下,如果仅输入叠加了范畴框和关系 ID 的用户界面截图可能会对 GPT-4V 形成误导,这种局限性可动力于 GPT-4V 无法「同期」实践「识别图标的语义信息」和「预测特定图标框上的下一个看成」的复合任务。
新金瓶梅为了科罚这个问题,连系东谈主员将功能局部语义整合到提醒中,即关于可交互区域检测模子检测到的图标,使用一个微调过的模子为图标生顺利能描述;关于文本框,使用检测到的文本偏激标签。
然则,当今还莫得有益为用户界面图标描述而磨砺的天下模子,但这类模子十分适共策画场景,即简略为用户界面截图提供快速准确的局部语义。
连系东谈主员使用 GPT-4o 构造了一个包含 7000 对「图标 - 描述」的数据集,并在数据集上微调了一个 BLIP-v2 模子,后果也证明了该模子在描述常见应用图标时愈加可靠。
实验评估
SeeAssign 任务
为了测试 GPT-4V 模子正确预测范畴框描述所对应的标签 ID 的能力,连系东谈主员手工制作了一个名为 SeeAssign 的数据集,其中包含了来自 3 个不同平台(出动栽植、桌面电脑和聚积浏览器)的 112 个任务样本,每个样本皆包括一段简略的任务描述和一个屏幕截图。
凭据难度,任务被分为三类:粗浅(少于 10 个范畴框)、中等(10-40 个范畴框)和坚苦(超越 40 个范畴框)。
GPT-4V 不带局部语义的提醒:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
带局部语义的提醒:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
从后果来看,GPT-4V 一样造作地将数字 ID 分拨给表格,止境是当屏幕上有许多范畴框时;通过添加包括框内文本和检测到的图标的简略描述在内的局部语义,GPT-4V 正确分拨图标的能力从 0.705 提高到 0.938
ScreenSpot 评估
ScreenSpot 数据集是一个基准测试数据集,包含了来自出动栽植(iOS、Android)、桌面电脑(macOS、Windows)和聚积平台的 600 多个界面截图,其中任务指示是东谈主工创建的,以确保每个指示皆对应用户界面屏幕上的一个可操作元素。
后果披露,在三个不同的平台上,OmniParser 权贵提高了 GPT-4V 的基线性能,以致超越了有益在图形用户界面(GUI)数据集上微调过的模子,包括 SeeClick、CogAgent 和 Fuyu,况且超出的幅度很大。
还不错驻防到,加入局部语义(表中的 OmniParser w. LS)不错进一步提高举座性能,即在文本局势中加入用户界面截图的局部语义(OCR 文本和图标范畴框的描述),不错匡助 GPT-4V 准确识别要操作的正确元素。
Mind2Web 评估
测试鸠合有 3 种不同类型的任务:跨鸿沟、跨网站和跨任务,不错测试 OmniParser 在网页导航场景中的扶持能力。
后果披露,即使莫得使用网页的 HTML 信息,OmniParser 也能大幅提高智能体的性能,以致超越了一些使用 HTML 信息的模子,标明通过领会屏幕截图提供的语义信息十分有效,止境是在处理跨网站和跨鸿沟任务时,模子的进展尤为出色。
AITW 评估
连系东谈主员还在出动栽植导航基准测试 AITW 上对 OmniParser 进行了评估,测试包含 3 万条指示和 71.5 万条轨迹。
后果披露,用我方微调的模子替换了原有的 IconNet 模子,并加入了图标功能的局部语义信息后,OmniParser 在大精深子类别中的进展皆有了权贵提高,举座得分也比之前最佳的 GPT-4V 智能体提高了 4.7%。
这标明了,模子简略很好地一语气和处理出动栽植上的用户界面,即使在莫得迥殊磨砺数据的情况下也能进展出色。
参考尊府:
https://microsoft.github.io/OmniParser/
https://x.com/Prashant_1722/status/1850265364158124192樱井莉亚主演的电影