腾讯这篇论文，暴露了它想操控所有APP的野心

kevinzha • 2023-12-27 09:53

以下文章来自新硅 NewGeek，作者：刘白

回想当年互联网技术从网页到移动端的进化，支付宝取代了现金、滴滴重塑了出行、美团改写了用餐方式...那么 AI 技术会带来什么样的变革？

只要告诉这个应用你想做什么，它就会自动打开相关的手机 App，直接把事儿给你办了。

比如帮你订个工作日起床闹钟、给领导发个微信消息、上美团点杯奶茶、去拼多多买一箱最便宜的纸巾、让滴滴叫一辆去机场的车、或者把刚拍的照片 P 好看一下然后直接发到朋友圈，顺手配一段伤感的文字。

640 (1).png

有了这个 APPAgent 就再也不用去一页页找各种 APP 了，未来需要咱们手动点开的可能就这一个 APP。

这是什么？这不就是个比微信更强大的超级流量入口嘛！

具体如何实现这一操作的，APPAgent 分为几个步骤。

首先是如何保证能够“调用”所有应用，比如说 Siri 能够访问“闹钟”应用，就是从系统上植入了访问接口，而市面上的 APP 几乎无穷无尽，不可能每一个开发者都给 Siri 搞一个接头暗号。

AppAgent 第一个厉害之处就来了，它不需要开发者做任何改动，可以直接模仿人类玩手机的方式，通过图形界面来操作 App。

也就是说，它把人类使用 APP 的过程拆解成了几个具体动作，比如滑动、点击、长按、输入等。

640 (2).png

也就是说它在 AI 的加持下，自行学习人类使用 APP 的过程，从而达到模拟的效果。

这意味着无论市面上出现了什么新的 App，只要给 AppAgent 一点时间自己摸索一下，它就能自己熟练使用了。

在这个过程中，最大的问题是AI如何识别这千千万万种不同的 APP、不同的页面按钮分别是做什么的。

AppAgent 要玩手机，首先要看得见手机屏幕。传统的方式是把常见的 UI 界面截图下来，人工打上标记，比如这个是输入框，那个是返回按钮，黄色袋鼠是美团，企鹅是 QQ 之类的。

然后通过这些数据训练出来一个能识别常见 UI 元素的视觉模型。

这个问题 GPTV 其实已经有解决方案了，GPTV 其实是 GPT-4 Vision 的一个缩写，今年 11 月跟着 GPT-4 的上线一起来到了大众的视野。

GPT-4 Vision 能做到的事简单来说，就是可以看懂用户发给它的图片。

比如像下面这样上传一张过马路的照片，然后问 GPT-4 照片里有多少人。它的回答是有 137 人，还很谦虚的说我是大概估算了一下，有些地方太暗还有些人被挡住了，所以我可能数得不准。[2]

640 (3).png

大家一拥而上搞出了许多花样，包括但不限于：足球比赛解说、实时解读摄像头里出现的物品、根据手绘草图在电脑上帮你画图等等。[3]

大家一致评价：识别速度快、准确性也高，不过缺点也不是没有，太贵。比如做一个 13 秒的足球视频解说，就要花费约 30 美元。

但是能用钱解决的问题，都不是问题。

第二步，APPAgent 会根据人类设定的目标，自我思考并拆解这个目标需要哪些过程。

收到一个请求后，AppAgent 首先做的事情是观察环境，也就是上面提到的“看图说话”。

然后再思考怎么根据现状去实现最终目标，得出结论之后就行动。

最后根据行动之后，带来了哪些改变，做一个复盘，然后把这个复盘传递给下一个步骤。

640 (4).png

比如说它点到了一个广告，就会发现和主要任务无关，并将这一结果的复盘向下传递，并得出结论不要点这个页面。

AppAgent 在训练的时候强调了以目标为导向的逻辑，如果进入了与目标不相关的页面就返回上一页。并且还加入了现有大模型中有关用户界面的知识和人类操作的演示。

效果好得惊人，团队在 9 个 APP 上总共测试了 45 个任务，AppAgent 在 10 个步骤内就能成功的概率高达 84.4%，而且平均下来只需要 5.1 个步骤就可以完成。

这样每一步下去都会越来越接近目标。

这是执行任务的过程拆解，而在具体的操作上，如何让 AI 识别各个功能按键又是个大问题。

为了提升 AppAgent 在操作上的准确度和效率，团队在两件事儿上下了功夫。

首先，他们先简化了手机界面的坐标，根据前端的 XML 文件给每个 UI 元素指定了一个唯一编号。

640 (5).png

然后，简化了手机的交互操作，规定了以下 6 种操作：轻点、长按、滑动、输入文字、返回和退出。

当 AppAgent 思考好了行动计划以后，只要根据操作+位置编号来执行就可以了。

像上图里的“点击（3）”，意思就是执行“点击”这个操作，点的位置是编号为3的区域，也就是邮件发送按钮。

这种操作方式极大地提高了 AppAgent 操作的准确率。

在过去，直接用 GPT-4 来操作手机完成任务，成功率仅有 2.2%，而还让 GPT-4 来指挥，但是执行端换成上面这种操作方式之后，成功率就提升到了 48.9%。

640 (6).png

实际上，这篇论文提供的是一种训练 AI 操作 APP 的解决方案，其突破性的创意在于改变了智能体实施操作的学习过程。

既互动方式模拟人类、识别 UI 靠数据标记、执行操作靠位置编号。

就当下来看，这是智能代理技术最为先进的解决方案，让明年 AI Agents 的普及成为了一种可能。

640 (7).png

这技术普及还有另一种问题：以后水军刷评论更方便了。

640 (8).png

参考文章：

[1] AppAgent: Multimodal Agents as Smartphone Users｜Tencent

[2] OpenAI's GPT-4 Vision explained: Transforming AI with Visual Capabilities | Encord

[3] 解说梅西球赛、英雄联盟，OpenAI GPT-4 视觉 API 被开发者玩出新花样 | 机器之心

文章信息来自于新硅NewGeek ，不代表白鲸出海官方立场，内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等，白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处

友情提醒：白鲸出海目前仅有微信群与QQ群，并无在Telegram等其他社交软件创建群，请白鲸的广大用户、合作伙伴警惕他人冒充我们，向您索要费用、骗取钱财！

分享文章

扫一扫在手机阅读、分享本文

10943

分享文章

扫一扫在手机阅读、分享本文

10943

2023-12-27

上一篇：智源张宏江对话谷歌卢一峰：什么才是大模型「皇冠上的... 下一篇：买买买不停！无惧物价飙升与财务压力，美国假日销售额...

要回复文章请先登录或注册

腾讯这篇论文，暴露了它想操控所有APP的野心

与CEO聊合作