AGI万字长文：2023回顾与反思

腾讯研究院 2024-03-15

The following article is from 普通人的AI自由 Author Lian et Zian

Lian,MK 本文作者

摘要：

2023年大众对AI的看法：这是啥->好像也没那么厉害->和我没太大关系
目前还没有看到阻止AGI出现的硬性限制，且我们距离AGI只有几年距离
大模型的“想象力”、“取悦能力”比“逻辑能力”更早成熟
应用层没有独角兽；创业者最大的敌人是GPT官方
技术加速迭代是常态，不能等到“技术稳定”再出手
多模态大爆发：再次证明了AGI相对“窄AI”的代际优越性
Agent/代理暂时还没出现，记忆仍是瓶颈；核心问题是还没有“人的模型”
深度压缩是大模型的核心能力，端上智能越来越近
中美AI生态各自发展，2023年技术差距没有缩小

2023年是大模型澎湃发展的一年：从22年11月ChatGPT的惊艳面世，到23年3月GPT4作为“与AGI（通用人工智能）的第一次接触”，到23年末多模态大模型的全面爆发，再到刚刚面世的Sora再次震惊世界。大模型给了世界太多的惊喜、惊讶、迷茫、甚至恐惧。

有人问我：“AGI的出现可以和人类哪次发现/发明相比？”

“大概是人类开始使用‘火’的时刻。万有引力、iPhone什么的都不值一提。”

就像我在去年4月份文章中写的——在AGI和任何新事物的出现的时候：我们总是倾向于高估它的短期，但却低估它的长期。目前正是这个大趋势的真实写照：

短期：AGI并没有马上催生出大量“明星APP”和“变现机器”。只有ChatGPT，Charactor.ai 等少数App实现了用户突破。大量上层应用APP就像韭菜一样：不仅昙花一现，迅速被OpenAI官方所取代，而且还无法做到成本打平。于是，投资人极端谨慎，公众也渐渐对于AI麻木。
长期：技术的稳定的、加速度的迭代。23年3月预测的众多技术到现在都有了长足进步：视频生成、音频生成、代理Agent、记忆能力、模型小型化……它们距离商用可能还有各种各样的问题，但捅破这层窗户纸只是时间问题。

人间一日，AI十年。这篇万字长文算为婴儿期的AGI做一个快照；算是在激流的2023找个锚点，更是为了2024更好地出发。

1. 迈向AGI之路：

世界模型、涌现与自我进化

世界模型：狼真的来了。本次由ChatGPT掀起的革命与之前的“AI热”有着本质区别。如果说之前的AI都是“工具”，那么这次的AGI就是“大脑”。这个区别不仅来自于模型的目的，也来自于底层数据量。OpenAI一直主张的都是数据量和计算量的“暴力美学”，GPT从一开始就是要成为“世界模型”的，也就是说把世界上所有的知识压缩到模型里，达到“全知全能”。连“之所以使用视频和图像数据的原因”都是“仅仅因为有更多数据” --Ilya Sutskever（OpenAI前首席科学家，GPT之父）

从数据量级的角度来看，大模型正在接近全人类所有数据的量级。坊间传闻的GPT5应该在2024年就会出现，它应该就是“接近AGI”的存在了。

数据来源:https://arxiv.org/pdf/2211.04325.pdf

https://lifearchitect.ai/gpt-5/

当然，GPT5与GPT4相比应该不仅仅是数据量级的提升，还会有数据质量、压缩效率、表达能力的提升。如果参考近期模型小型化的进展：Mistral7B(7B参数)可以媲美GPT3.5(175B参数)的能力，那么GPT5相对于GPT4的提升也绝不仅仅是参数量级的倍数。

涌现：大脑可能比想象的更简单。大模型的一个重要特点是“涌现”，意思是大模型可以自发获得之前没有训练过的能力。比如：单模态版GPT3.5用纯文字训练，但可以具备一定的空间图像能力。“涌现”这个词更早来自于研究复杂系统/混沌/脑科学领域，即系统在达到一定复杂程度之后会自发出现规则结构-自组织。于是，一个灵魂拷问就是：是否“智慧”也是仅仅是人脑结构“涌现”的现象？

顺着这条思路，如果做一个很牵强的假设：模型的参数约等于神经元的链接；那么模型还有2个量级的差距(1.8Trillion vs. 100Trillion)达到人脑水平。按照现在的发展速度，抹平这个差距也只有2-4年时间。如果“涌现”=“智能”的假设成立，那么到那个时候，人工智能超越大脑智能的物理基础就已经具备了。

当然，我们还很难直接把模型直接比作大脑。一个明显的事实是：大脑只要利用少量数据进行训练就可以有远超大模型的能力。我认为，这说明了模型结构迭代的空间是巨大的；这也是为什么小型化的模型可以取得媲美大模型的效果的原因。

自我进化：合成数据训练。当模型需要全人类数据进行训练的时候，无论从数据获取还是从成本的角度来讲，大模型都会很快遇到天花板。但经过几个月的实践，基本可以确认数据瓶颈是不存在的：因为模型训练可以使用合成数据，并不断提升效果。具体的例子一是市面上几乎所有的模型都会用ChatGPT生产的合成数据做训练，还有近期研究发现通过 “自我对弈(SPIN)” 的方法生成合成数据可以不断提升模型能力。

论文地址：https://arxiv.org/abs/2401.01335v1

和大脑相比，现在的模型本身使用了比人脑接受更多的数据，但效果和人脑还有差距。那么，最自然的观点就是模型并没有充分使用这些数据。我们可以认为，“自我对弈”就是一种让模型不断精炼数据，向大脑能力靠拢的方式。再做一个更大胆的猜想：“自我对弈”和人脑的“想象力”是有相似之处的——大脑也是通过“想象”自己创造出合成数据，用于自我学习。

综合来讲，目前还没有看到阻止AGI出现的硬性限制，而且我们距离AGI只有几年的距离。之后，跑步进入硅基文明的碳基生物会活得怎么样呢？

2. 高估的短期：

应用层没有独角兽

让我们暂时跳出对于长期的猜测，聊点更实在的：2024年初的大模型，究竟能力怎么样？

如果一句话概括的话：GPT4正在上大学。Ta可以聊天，可以谈恋爱，可以画画，甚至可以在公司实习完成一些简单的、明确的任务；不过Ta经常犯错，会偷懒，还很犟，会不遵守你的指令然后自己胡编一通……

看似繁荣的AI生态，其实真正跑出来的应用是和人们的期望是有差距的。也就是我们在“高估AI的短期能力”的地方。

正经聊天：除了ChatGPT之外，其他基本都不太行。而且大家在抱怨OpenAI太贵的同时，OpenAI的收入也只是能与推理服务的成本打平；新模型训练还是完全要靠融资。
文生图：让打工人感受最深的，是Midjourney、Dall-E、Stable Diffusion等文生图产品正在全面颠覆创意设计行业。在ChatGPT和Bing之后第一位的应用就是作图应用Canva。文生图在2023年经过几轮迭代，首先聚焦是画人手（已解决），之后主线在细节控制能力、降低推理成本、生图速度提升（目前可以做到300ms）上面。目前实际的体验是虽然创意惊艳，但废图多，细节修改还得靠人，所以额外付费买单有限；与此同时，即使机器成本经过了几轮优化，人们对于图片质量的追求也水涨船高。
AI陪聊（AI伴侣）：Character.ai、星野、豆包这类陪伴型聊天产品是2023年唯一实现突破的2C产品。大概是用户在上头的时候，即使有些胡言乱语也可以接受。我认为，这类陪伴型AI产品有着巨大潜力：这是在人与人的连接之外，开启“人与AI连接”的新时代的第一步，在未来也可以创造基于“连接”的商业护城河。
AI法律文书：这是目前AI在2B行业唯一基本成熟的应用。法律文书格式固定且核心技术是法条/判例的引用。这个应用其实是“搜索”能力和大模型能力的搭配。
其他2B应用：基本是雷声大、雨点小。虽然现在是个公司都想和AI沾边，按实际上真正用起来的并不多；“浏览器里加个ChatGPT快捷方式”是大多数在问卷中回答到“工作中使用AI”的公司的主要做法。这其实也很正常，因为AI的2B能力还很掉链子：连最擅长的代码（如Github Copilot）也只是“实习生水平”；以及，问题还在于AI写代码的速度比人跟在后面Debug要快得多。另外一个看似伸手可及的应用是“AI客服”，但实际体验上也并没有达到可以大量取代人工客服的预期。

我也尝试用OpenAI的API搭了个“写作助手”，但完全无法达到帮助写出现在这文章的能力。直接的感受差不多是在“指挥一群脱缰的野马”：控制困难、不能精细调整、没有记性、不讲逻辑是最痛的。当然，我自己花的时间也有限，也没有好好研究写Prompt/提示词的技巧。在这个过程中，我也开始反思：现在的大模型究竟擅长的是什么？

Hallucination = Imagination | 幻觉 = 想象力

如果从2023年的产品和实际使用体验上来评价：大模型最成熟的能力并不是逻辑，而是想象力和取悦人的能力。这大概是合乎逻辑的。首先，我们看到的“幻觉问题”本身就是想象力的表现，而且在训练过程中，模型的学习方式一直都是“穷举归纳式的”，我们暂时还不知道如何“教会”模型“逻辑的方法”，而只能期待模型自己涌现出“逻辑”的能力。第二，因为模型训练时的优化目标包含了“让人继续聊下去”，所以取悦人，而非事实和逻辑，才是大模型更擅长的。这个特点是现在选择产品赛道时所需要仔细考虑的事情：娱乐向、创意向、2C的产品会早于逻辑向、2B产品成熟。

3. 官方卷死创业公司：

真的存在GPTs生态吗？

和之前的移动互联网创业大潮相比，AI创业者们要难得多，一个灵魂拷问是：如何不被官方卷死。

套壳GPT的“一个月独角兽”Jasper.ai（依靠GPT能力做广告文案）在GPT4问世之后价值几乎归零；刚刚面世的Sora让1个月前还风光无限的Runway、Pika都黯然失色……这也是为什么现在投资圈对于AI应用公司的投入非常谨慎的主要原因：AI应用公司们并没有技术护城河。

红衫做了一张囊括主要AI创业公司的地图，里面的Logo换得和走马灯一样快。说得好听的是“生态繁荣”，不好听的就是“熊瞎子掰苞米”。

到了落地层面，创业者们其实面临着非常艰难的选择:

路线一：API+Prompt+产品套壳：适合已经有产品/客户基础的公司

市面上最多的产品是调用API来实现的，但问题是，仅靠API+Prompt并无法形成护城河，Jasper的陨落就是最好的例子。备受瞩目的GPTs也是Prompt的低门槛模式，这可能也是GPT商店当前也并没有实质繁荣的原因：大DAU的应用要么是官方应用，要么是已有公司的产品延伸，而极少新的商业模式。对于一般用户来讲，通过GPTs还是很难做到精细控制和稳定输出。我的理解是，个人“手搓应用”的时代，还是先要有Agent的能力才能实现。

对于已经有产品和用户的公司来讲，叠加AI应用是很好的选择。榜单中的Canva的核心竞争力来自于其存量用户、友好的产品设计、针对各种社交媒体的海量模板和一键发布功能，API和模型的使用就实现了锦上添花。另一个目前比较成功的例子是多邻国Duolingo（披着学外语学习APP外衣的休闲手游）：它最核心的护城河是休闲游戏的玩法设计，使用OpenAI的API则让题库成本大大降低，题库深度没有上限。

路线二：开源模型+精调：适合有独有数据的公司

对于数据比较丰富的公司，是可以走开源模型+精调的道路的。因为独特的数据可以让精调出的模型在一定场景下有更好的表现。但实际操作起来难度其实不小，核心问题变成了：1)底层开源模型是否足够强大？2)底层模型升级之后，之前精调部分的经验是否可以复用？然而，这两点都很难保证。因为最强大的模型都不会开源，以及在底层黑箱的情况下做到精调经验的积累也很难。于是，这类商业模式就像大楼建立在流沙之上……生存的时间窗口取决于精调速度。

路线三：自己做底层模型：只适合大厂和少量大佬

训练底层世界大模型需要十亿美元级别的投入，以及万张GPU卡，除了几家大厂之外，其他公司都是很难的。连头部创业公司也都会在下一轮融资时遇到不少挑战。这也是为什么大多数国内公司都急着先推出产品，而无法完全集中精力专攻大模型的原因。

另外，即使是大厂，在一年时间内可以挑战OpenAI的也只有Google 的Gemini。Meta的LLama还只是个半吊子；Amazon、Apple、Tesla 也都没有特别好的进展。

那退一步，在现在的时刻，哪些是一般创业者可以做的呢？暂时想到的也只有 “唯快不破”：尽量低成本、高速度地在一些比较小的赛道中不断尝试，不求做出全民产品，而是去低成本地把握那些小的细分赛道。

最后，要记住的是：在这轮AI大潮中，新技术加速迭代是常态；我们不能期望在“技术稳定”时再出手，因为永远都等不到。

4. AI Agent / 替身：

记性不太好，呼唤“人的模型”

AI Agent/AI替身是除了AGI本身最重要的概念，因为它揭示了硅基文明的无限可能性。

AI Agent理念的核心是：设立目标->拆解任务->使用工具->做出决策；Agent 可以以人的方式相互交流->自主搭建社会协作关系；最终实现模仿人->替代人。

“斯坦福小镇”论文之后，一直有层出不穷的尝试，包括BabyGPT、AutoGPT等；OpenAI的Assitant API、Function Calling功能也是迈向AI Agent的第一步，让大语言模型可以开始使用工具。

论文地址：https://arxiv.org/abs/2304.03442

不过，（值得庆幸的是）AI Agent距离成熟还有一定距离。目前最突出的问题是记忆力的问题。这一方面是技术层面上的：记忆准确性、逻辑完整性、合理遗忘、长期记忆机制与Token长度、调用效率之间制衡的问题。记忆能力和长Token能力是当前很多团队的攻坚重点：刚发布的Gemeni1.5在研究中达到10M的Token长度，比GPT4整整多出两个数量级；ChatGPT也在近期官宣了“记忆能力”；国内最突出的是专攻超长Token的公司“月之暗面”。

还有一类是专攻AI Agent的“使用工具能力”的中间层产品。在当前底层模型卷不动，上层应用没价值的时刻，做中间层大概是最好的选择。（中间层需要支付大量API费用或算力）

再退一步，人格本身是记忆的聚合。记忆问题引申出的更本质问题是AI Agent的“人格”——记忆独立性问题，而这会直接涉及到当前大模型训练方式和底层数据。记忆独立性之所以重要又在于：只有Agent可以理解“某一个人”的时候，它才能和这个人很好合作，扮演乃至替代这个人做决策。

但仔细一想就不难发现，当今的大语言模型是“世界模型”，而不是“人的模型”。意思是，底层数据是来自于千千万万人的，每个人一丁点数据；而并不是大量来自某一个人的数据。于是，一个大胆的猜想是：在一个人与AI充分合作的社会，不仅需要“世界模型”，也需要“人的模型”。而这时的Agent本身，也会分化出“世界Agent”和“个人Agent”。

当然，一个没有碳基人的纯硅基社会另当别论。

5. 深度压缩与模型小型化

AI Agent之外另一个重要方向，是大模型的小型化。小模型的直接好处就是训练成本和推理的成本量级下降。比如能力相近的 LLaMA-7B的训练成本相当于1张A100芯片训练9.3年，而GPT3(175B)则有100年，差了11倍。GPT4的训练成本更是高达6500年！

但成本还并不是意义最重大的。“压缩”是LLM模型的最核心能力，所谓“世界模型”就是要将人类的所有知识都压缩到模型中。顺着这条路思考，小型化的意义在于：小型化的模型首次让一个公司、甚至个人可以使用“全人类的知识”。而且，小型化的模型既是上文讲到的“人的模型”的技术基础，又是开启“端上智能”的先决条件。在未来，无论是手机、电脑还是机器人，都可能会配备一个小模型。

在这里，可能会出现一个历史的分叉：岔路的一边是“中心化的大一统世界模型”，另一边是“端上智能+人的模型的混合社会”。让我们拭目以待。

回到今天，小型化主要有两个阶梯。第一个阶梯的模型参数在6B-7B，这是游戏显卡可以覆盖的范围。最具代表性的是Meta的LLaMA，Mistral7B和国内的智谱；NVIDIA的Chat with RTX，默认搭载的就是Mistral7B。

第二个阶梯模型的想象空间更大，它们的参数在1-2B；这个大小就可以在手机和移动硬件上广泛使用了。华为、荣耀、小米、OPPO、VIVO等都已宣布会在手机端侧搭载大模型，目前还只能用最新的骁龙8Gen3旗舰处理器，而且耗能散热都是问题；三星S24上也搭载了Google Gemini Nano。

但不要高兴得太早，一个灵魂拷问是：小型化的模型真的能有大模型的能力吗？小型化的模型是真的“世界模型”还是仅仅是“窄AI问答机器”？目前来看，当模型规模被压缩时，稳定性和记忆能力都会有损失。

技术上来看，小型化的优化方法（Quantization、Batchsize Optimization、Learning Rate Scheduler、Neural architecture等）大多也都能应用在大模型上，所以说小模型能力比大模型落后一个代际应该是常态。但另一方面，Mistral7B的成功至少说明了，基于大模型输出的数据进行训练/蒸馏可以快速复刻大模型的大多数能力。

6. 多模态大爆发：

视频、音频与虚拟人

2023年年末到今天最令人瞩目的就是视频、音频多模态能力的大爆发。

视频：Runway、Pika让我们看到了文生视频的可能性，2023年Q4有大量的高质量的文生视频-视频编辑工具的面世。

然而，比想象来的更快的，是来自于Sora的降维打击。Sora的出现，再次证明AGI相对“窄AI”的代际优越性。

除了视频之外，Sora也直接把3D能力做到了7成以上。我们将马上看到视频、影视、游戏制作行业的大洗牌。当然，Sora也不是全能的，它还需要更好的对于物理世界理解能力，这可能是受到数字世界缺乏“触觉”、“重力”、“惯性”传感器的数据的原因。但虚拟现实已经近在眼前。

多模态的另一个进展在音频上。在加入生成式AI后，技术已经可以达到低成本克隆音色（如字节、MiniMax等都有十秒钟音频快速克隆的能力）、非常自然的文本转语音技术（如ElevenLabs）。具体到实操上，目前已经可以做到在日常/商业场景和音乐场景（如AI孙燕姿，Suno等）这类没有复杂/随机情感变化的场合中的以假乱真。目前的差距在于：情感丰富的聊天场景。但要弥补这个差距是要首先理解感情。这点很像Sora出现之前的视频生成行业；在不远的将来，在音频行业也可以再次期待来自GPT的降维打击。

退一步，各种多模态技术的进展让我感受到了一种Convesion：一个可以全真模仿人的时代即将来临。There is no truth anymore online. 在未来，可能只有线下见面才是真的。

2023AGI大事记

22年11月，ChatGPT上线：“wow!", 大语言模型进入公众视野
23年2月，ControlNet提出：AI生图控制基础，文生图成为真正的生产力工具
23年2月，LLaMA开源：开源生态的反击，大多数公司的“自研”有了基础
23年3月，GPT-4上线：“与AGI的第一次接触”，人类开始看到“世界模型”的影子
23年3月，英伟达 H100 发布，大模型算力基础大幅增强
23年4月，斯坦福小镇论文- AI Agent：硅基文明的无限可能性：使用工具、协作和决策能力的首次实验
23年9月，12月，Mistral-7B，Mixtral-8x7B开源：模型小型化的里程碑，打平超越GPT-3.5(175B)；欧洲有了大模型团队
23年11月，GPTs + Assistants API：初级Agent形态与GPT生态构建
23年11月，OpenAI 宫斗：激进派-CEO-资本代言人Sam Altman获胜，拯救派-首席科学家-理想主义者Ilya Sutskever出局
23年12月，Google Gemini系列发布：OpenAI对手开始出牌，竞争正式加速升级
24年2月，英伟达Chat with RTX发布: 端上智能的曙光
24年2月，OpenAI Sora发布：视频生成代际跃迁，再次证明AGI相对“窄AI”的代际优越性；虚拟现实成为可能

推荐阅读

腾讯研究院：《影响2024年的十大科技应用趋势》

👇 点个“在看”分享洞见

继续滑动看下一个

腾讯研究院

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

AGI万字长文：2023回顾与反思

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

AGI万字长文：2023回顾与反思

您可能也对以下帖子感兴趣