查看原文
其他

腾讯干了票大的!整了个AppAgent,要用AI“统治”App

杨文 AI先锋官 2024-01-19

作者杨文

编辑|六耳

来源AI先锋官



今年这波AI浪潮,几乎所有的互联网厂商都急不可耐:


3月16日百度发布文心一言

4月11日阿里发布通义千问

5月6日科大讯飞发布星火大模型

6月13日三六零发布360智脑

6月28日字节跳动发布火山方舟

7月7日华为发布盘古3.0

7月13日京东发布灵犀

7月17日携程发布携程问道

7月26日网易发布子曰教育大模型

……


唯独腾讯“他强任他强,清风拂山岗”,那慢慢悠悠的劲儿,跟老大爷遛弯似的,直到9月7日才正式推出了混元大模型。


一个多月后,小编拿到了内测资格,体验了一番腾讯的混元助手,说实话,它的表现并不尽如人意,仍然会一本正经地胡说八道,上下文记忆能力、逻辑推理能力均有待提高。(详细内容请查看:记忆力不好还戏精!腾讯混元助手PK不过讯飞星火3.0?


当你还在纳闷腾讯葫芦里到底卖的啥药时,它就冷不丁地放了个大招——AppAgent。这个“腹黑企鹅”闷声干大事啊。



最近,腾讯团队发表了一篇论文——AppAgent: Multimodal Agents as Smartphone Users(AppAgent:作为智能手机用户的多模式代理),同时开源了代码。

 


AppAgent究竟是个什么鬼?论文中是这样介绍的:AppAgent 是一种由大型语言模型提供支持的高级多模式代理,能够掌握和利用任何应用程序来执行复杂的任务。它通过直观的点击和滑动手势与应用程序交互,模仿人类的动作。


通俗来说,AppAgent可以学习用户的手机操作习惯,在手机上自己执行各种操作。用户只需要告诉AppAgent你想干什么,它就自动打开相应的手机APP,直接把活给干了。


比如说,它可以模仿用户的口吻在社交媒体APP上发帖、搜索视频并评论、撰写和发送邮件,还能P图、导航、定闹钟,甚至还能线上购物,总之一句话,AppAgent就是帮人类干活的智能小助手。

 


如此强悍的功能是如何做到的呢?

 

据论文显示,AppAgent分两个阶段运行,分别称为探索阶段和部署阶段。


在第一阶段,AppAgent观察不同应用程序用户界面的交互情况。通过充分观察,AppAgent就能熟练使用某个应用程序。这些知识被精心地汇编成文档。一旦这个学习阶段完成,AppAgent就开始自己采取行动。



在第二阶段,AppAgent可以跨任何受支持的应用程序处理高级任务。这种有条不紊的方法使AppAgent能够高效地完成不同应用程序中的各种复杂任务。



为了证明AppAgent的实用性,论文团队对Temu、Gmail、X、Youtube 等十款APP的50项任务进行了广泛的测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。


论文中还给出了AppAgent在Gmail和X平台上的演示。例如,让AppAgent在 Gmail 中发一封邮件。在向AppAgent 发出要求之后,AppAgent 直接打开 Gmail,找到相应联系人,洋洋洒洒地写了一封邮件并发送给对方。全程不需要人类自己动手。


听完小编的介绍,大家是否觉得腾讯这波操作很牛呢?“自己动手,丰衣足食”这句话在AI时代可能要改改了,以后点外卖、打车、购物、签到……通通不用人类动手,一个AppAgent就搞定了,妥妥的“AI动手,丰衣足食”


当然,也有人担心,技术的不稳定性让AppAgent 给人类带来便利的同时,也带来麻烦。因为一旦系统出了bug,AppAgent 抽个风把购物车清空,打工人得哭晕在厕所;抑或是AppAgent一顿胡言乱语把多年的好友气走……


不过,即便如此,未来仍然可期。


开源地址:

https://github.com/mnotgod96/AppAgent

论文地址: 

https://arxiv.org/abs/2312.13771

项目地址:

https://appagent-official.github.io/


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾



继续滑动看下一个

腾讯干了票大的!整了个AppAgent,要用AI“统治”App

杨文 AI先锋官
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存