由一篇论文预测:以后你的siri将可以语音发指令,自动完成app操作帮你订餐 订机票 开启地图导航。
【苹果之前的一篇论文里,提到了一个用于理解UI界面的大模型:Ferret-UI】
可以理解 iOS 手机屏幕上的图标、小部件和文本,并推断它们的空间关系和功能含义。
你可以向 Ferret-UI 询问的示例问题:
- 提供此截图的摘要;
- 对于交互元素 [bbox],提供最能描述其功能的短语;
- 预测UI元素[bbox]是否可点击。
凭借强大的屏幕理解能力,向模型添加动作输出,可使其成为成熟的设备助手。
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs,
基于多模态大语言模型 (LLM) 的移动 UI 理解
论文摘要: 多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解和有效与用户界面 (UI) 屏幕交互的能力方面存在不足。
在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常表现出比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉特征。具体而言,每个屏幕根据原始纵横比分为 2 个子图像(即,纵向屏幕的水平划分和横向屏幕的垂直划分)。这两个子图像在发送到 LLM 之前分别进行编码。
我们从广泛的基本 UI 任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本被格式化为指令跟随,并带有区域注释,以方便精确引用和基础。为了增强模型的推理能力,我们进一步编制了高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后,Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。
底层的MLM:github.com/apple/ml-ferret