腾讯干了票大的！整了个AppAgent，要用AI“统治”App

Original 杨文 AI先锋官 2024-01-19

作者｜杨文

编辑｜六耳

来源｜AI先锋官

今年这波AI浪潮，几乎所有的互联网厂商都急不可耐：

3月16日百度发布文心一言

4月11日阿里发布通义千问

5月6日科大讯飞发布星火大模型

6月13日三六零发布360智脑

6月28日字节跳动发布火山方舟

7月7日华为发布盘古3.0

7月13日京东发布灵犀

7月17日携程发布携程问道

7月26日网易发布子曰教育大模型

……

唯独腾讯“他强任他强，清风拂山岗”，那慢慢悠悠的劲儿，跟老大爷遛弯似的，直到9月7日才正式推出了混元大模型。

一个多月后，小编拿到了内测资格，体验了一番腾讯的混元助手，说实话，它的表现并不尽如人意，仍然会一本正经地胡说八道，上下文记忆能力、逻辑推理能力均有待提高。（详细内容请查看：记忆力不好还戏精！腾讯混元助手PK不过讯飞星火3.0？）

当你还在纳闷腾讯葫芦里到底卖的啥药时，它就冷不丁地放了个大招——AppAgent。这个“腹黑企鹅”闷声干大事啊。

最近，腾讯团队发表了一篇论文——AppAgent: Multimodal Agents as Smartphone Users（AppAgent：作为智能手机用户的多模式代理），同时开源了代码。

AppAgent究竟是个什么鬼？论文中是这样介绍的：AppAgent 是一种由大型语言模型提供支持的高级多模式代理，能够掌握和利用任何应用程序来执行复杂的任务。它通过直观的点击和滑动手势与应用程序交互，模仿人类的动作。

通俗来说，AppAgent可以学习用户的手机操作习惯，在手机上自己执行各种操作。用户只需要告诉AppAgent你想干什么，它就自动打开相应的手机APP，直接把活给干了。

比如说，它可以模仿用户的口吻在社交媒体APP上发帖、搜索视频并评论、撰写和发送邮件，还能P图、导航、定闹钟，甚至还能线上购物，总之一句话，AppAgent就是帮人类干活的智能小助手。

如此强悍的功能是如何做到的呢？

据论文显示，AppAgent分两个阶段运行，分别称为探索阶段和部署阶段。

在第一阶段，AppAgent观察不同应用程序用户界面的交互情况。通过充分观察，AppAgent就能熟练使用某个应用程序。这些知识被精心地汇编成文档。一旦这个学习阶段完成，AppAgent就开始自己采取行动。

在第二阶段，AppAgent可以跨任何受支持的应用程序处理高级任务。这种有条不紊的方法使AppAgent能够高效地完成不同应用程序中的各种复杂任务。

为了证明AppAgent的实用性，论文团队对Temu、Gmail、X、Youtube 等十款APP的50项任务进行了广泛的测试，包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。

论文中还给出了AppAgent在Gmail和X平台上的演示。例如，让AppAgent在 Gmail 中发一封邮件。在向AppAgent 发出要求之后，AppAgent 直接打开 Gmail，找到相应联系人，洋洋洒洒地写了一封邮件并发送给对方。全程不需要人类自己动手。

听完小编的介绍，大家是否觉得腾讯这波操作很牛呢？“自己动手，丰衣足食”这句话在AI时代可能要改改了，以后点外卖、打车、购物、签到……通通不用人类动手，一个AppAgent就搞定了，妥妥的“AI动手，丰衣足食”。

当然，也有人担心，技术的不稳定性让AppAgent 给人类带来便利的同时，也带来麻烦。因为一旦系统出了bug，AppAgent 抽个风把购物车清空，打工人得哭晕在厕所；抑或是AppAgent一顿胡言乱语把多年的好友气走……

不过，即便如此，未来仍然可期。

开源地址：

https://github.com/mnotgod96/AppAgent

论文地址:

https://arxiv.org/abs/2312.13771

项目地址：

https://appagent-official.github.io/

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

‍

继续滑动看下一个

腾讯干了票大的！整了个AppAgent，要用AI“统治”App

Original 杨文 AI先锋官

AI先锋官

向上滑动看下一个

看来，无论胜败，俄罗斯都不会恨西方太久

封面人物丨李现：不藏每一个棱角

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

赫塔.穆勒：一封公开信

788件古埃及文物运抵上博 2件展品率先开箱亮相

腾讯干了票大的！整了个AppAgent，要用AI“统治”App

腾讯干了票大的！整了个AppAgent，要用AI“统治”App

您可能也对以下帖子感兴趣

看来，无论胜败，俄罗斯都不会恨西方太久

封面人物丨李现：不藏每一个棱角

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

赫塔.穆勒：一封公开信

788件古埃及文物运抵上博 2件展品率先开箱亮相

生成图片，分享到微信朋友圈

腾讯干了票大的！整了个AppAgent，要用AI“统治”App

腾讯干了票大的！整了个AppAgent，要用AI“统治”App

您可能也对以下帖子感兴趣