@TomMonkeyMan

@TomMonkeyMan

由一篇论文预测：以后你的siri将可以语音发指令，自动完成app操作帮你订餐订机票开启地图导航。

【苹果之前的一篇论文里，提到了一个用于理解UI界面的大模型：Ferret-UI】

可以理解 iOS 手机屏幕上的图标、小部件和文本，并推断它们的空间关系和功能含义。

你可以向 Ferret-UI 询问的示例问题：

提供此截图的摘要；
对于交互元素 [bbox]，提供最能描述其功能的短语；
预测UI元素[bbox]是否可点击。

凭借强大的屏幕理解能力，向模型添加动作输出，可使其成为成熟的设备助手。

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs，

基于多模态大语言模型 (LLM) 的移动 UI 理解

论文摘要：多模态大型语言模型 (MLLM) 的最新进展值得关注，然而，这些通用领域的 MLLM 往往在理解和有效与用户界面 (UI) 屏幕交互的能力方面存在不足。

在本文中，我们介绍了 Ferret-UI，这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM，具有引用、基础和推理功能。鉴于 UI 屏幕通常表现出比自然图像更长的纵横比，并且包含较小的感兴趣对象（例如图标、文本），我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉特征。具体而言，每个屏幕根据原始纵横比分为 2 个子图像（即，纵向屏幕的水平划分和横向屏幕的垂直划分）。这两个子图像在发送到 LLM 之前分别进行编码。

我们从广泛的基本 UI 任务中精心收集训练样本，例如图标识别、查找文本和小部件列表。这些样本被格式化为指令跟随，并带有区域注释，以方便精确引用和基础。为了增强模型的推理能力，我们进一步编制了高级任务的数据集，包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后，Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。

论文：arxiv.org/abs/2404.05719

底层的MLM：github.com/apple/ml-ferret

GitHub - apple/ml-ferret UI界面的大模型

GitHub - apple/ml-ferret UI界面的大模型

GitHub - apple/ml-ferret