Beyond integrated information: A taxonomy of information dynamics phenomena
论文链接:https://arxiv.org/abs/1909.02297
有了这种可以从整体指向个体和个体之间相互作用的因果力,就可以使信息产生“协同作用”。比如 Y = A XOR B,就是这样一种有协同作用的系统,因为要确定Y的取值,你必须同时知道A和B的状态取值,单独知道了一个,对Y的预测仍旧毫无作用,我说A与B的协同(整体),对Y有影响,而不是A或B对Y有影响。这样的话,对于一个有 n 个单元的系统,所有可能的组合态至少是 2^n 种,每种组合态就可以对下一个时刻的某种组合态产生影响。这就是信息整合论的因果力,causal power。一阶/高阶意识理论涉及到了意识的层次、自指等问题,这个我们后面专门讨论。还有非常多的意识理论,有兴趣的读者可以参考之前的一篇综述文章《意识理论综述:众多竞争的意识理论如何相互关联?》。
论文题目:A theory of consciousness from a theoretical computer science perspective: Insights from the Conscious Turing Machine论文链接:https://www.pnas.org/doi/10.1073/pnas.2115934119
为了继续探索规划和想象这个方向,LSTM 之父,在2012年的时候,提出了一种叫做 World Models(世界模型)的强化学习框架。其认为强化学习主体,应该内嵌一个虚拟世界,即 world model。在研究中,他用大量的实验证明了,内嵌了虚拟世界的模型能在相对小样本的数据上更加充分地学习——因为 Agent 可以 dreaming。
世界模型相关论文
World Models
https://arxiv.org/abs/1803.10122
Dream to Control: Learning Behaviors by Latent Imagination
https://arxiv.org/abs/1912.01603
Mastering Diverse Domains through World Models
https://arxiv.org/abs/2301.04104
具体来看,世界模型就是一个 RNN,它的输入主要包括了两组元素,一组是被编码的世界状态,另一个是自身在 t-1 的行动,这个RNN的目的就是预测下一步的 state/reward/action。有了这样一个世界模型,强化学习 Agent 在学习的时候就能带来很多收益。一方面在训练的时候,我们可以刻意地去训练这个世界模型(监督学习机制)。另一方面,它可以 dreaming——而这就是为什么世界模型能在相对小样本的数据上更加充分地学习的原因。dreaming 的过程是,把不太完备的世界模型,单独拿出来做训练,通过一些假想的 action,即可以自己生成虚拟的 action。同时,从某个 t 时刻开始,让 world model 这个真实世界的模拟器,来生成下一个时刻的 action/state和reward,再拿这些 dreaming 的数据训练强化学习主体的执行部分。这样就可以在 dreaming 过程中优化目标函数,让 reward 达到最大。这样就大大增加了训练样本,减少了训练时间。同时,这里的 CMA-ES 是一个规划算法。从而可以用规划算法优化目标。即,有了世界模型就有了一个模拟器,Agent就可以设定一个未来目标,在模拟的World Model中找到实现这个目标的规划路径,从而产生一步步的action。
包括自我的世界模型
论文题目:
Separating the World and Ego Models for Self-Driving
论文链接:
https://arxiv.org/abs/2204.07184
然而,世界模型的系列工作虽然很好,但很重要的遗憾是——世界模型里依然没有自我(self)。虽然它可以把 action 重新喂给自己,但这只是一个行动,并不完全是“反思”——当我们在“意识”领域提及“反思”的时候,更多的时候,反思指的是一种心理状态。对比人类自身,我们人类建模的 world model 里是包括了 self 的,而现有的 world model 研究并不包含自身。另一个遗憾是,世界模型系列的 dreaming 做梦的过程,是非自主的。agent 会刻意地把“打游戏”和做梦之间做了区分,但人类是任意时刻都可以切换甚至同时做这两点。
为了实现自指意识机器,不可忽视的还有 Kleene 早在30年代就提出的一个定理——Kleene 第二递归定理。Kleene 第二递归定理,即,对于任意可计算的功能f(比如打印字符串),总能找到一个特殊的源代码/程序n,执行这个程序的代码,就等价于拿着它自己的源代码执行 f 这个操作(即打印出自己的源代码)。要想理解 Kleene 第二递归定理,可以把大φ 认为是操作系统或编译器,下标n就是源代码。源代码要根据 f 构造出来。这里的关键是f可以是任意的可计算函数,所以不仅仅是打印,什么构造、思考、模拟、推理,甚至强化学习等等,都是可以的。根据这个定理,我们可以推出:只要“修正”、“提高”、“解释”、“反省”等过程是图灵可计算的,那么根据这个定理,总能找到这个特殊的源代码,和这些特殊的源代码f耦合在一起,就能构造出“修正自我”、“提高自我”、“解释自我”的程序——执行以后的效果等价于拿着自己的源代码执行f这个操作。这个定理是极其让人兴奋的。因为如果我们能获得自己的源代码,从某种程度上我们就是“神”了——因为这样就可以基于源代码完成自更新(自修改源代码)——而第二递归定理告诉我们,这种程序是存在的! 不仅如此,第二递归定理还有更深层次的寓意。让我们回忆一下冯·诺依曼的理论——他不仅是一个伟大的数学家,也是一个伟大的复杂科学理论先驱。他的著作 “Theory of Self-Reproducing Automata” 对于复杂性和生命的重要问题曾有过许多讨论。冯·诺依曼提出,所有已知的复杂系统,存在一个明确的分水岭,分水岭的左边,大部分是人造系统,比如当时的计算机、汽车、厂房等等;分水岭的右边,大部分是诸如人的大脑、细胞、生命、生态系统等大自然形成的系统。在分水岭左边的系统,随着时间的变化会不断降级,比如我们需要经常保养汽车,否则就会出各种问题;与此相反,在分水岭右边的系统,不仅不会随着时间的变化而降级,反倒能够不断进化,特别站在生态系统角度看,其中的物种能生生不息,并且似乎变得越来越高级。简单来说,冯·诺依曼告诉我们,自然系统之所以可以不断升级,就是因为达尔文式的进化——即基因突变,得到新的生命个体——有可能比原始生命个体更优——不断持续下去——就有可能产生一个类“熵减”的过程——形成秩序的增加。而有了第二递归定理后,我们就可以实现这件事了!如何实现呢?只要在自复制的过程中,去干扰图纸/源代码,即对图纸做一个变异——让源代码上附加一个新的东西——得到一个新的图纸(把下图中的大小两个图纸合在一起)。然后,让通用构造器在构造过程中,用新的图纸——相当于实现了一定意义上的自我修改——也就得到了一个新的物种——可以进一步迭代。这一定理配合冯·诺依曼对于复杂系统的理解有着很深的隐喻。冯·诺依曼判断,在复杂系统中存在一个复杂度阈值,如果系统的复杂度没有超过阈值,那么系统便会在热力学第二定律的作用下不断降级,以至于最后瓦解,相反,一旦超过这一阈值,系统便仿佛能够超越热力学第二定律,得以不断升级并进化。那么,这个阈值是什么?就是自复制!在自复制机器出现之前,所有形成的生命都是不断降级的过程——只有跨过这一点——才能形成不断进化的生物——所以,复杂的阈值与 Kleene 第二定律是非常相关的。对此部分内容感兴趣的读者可以进一步阅读《让 ChatGPT 拥有意识,冯·诺依曼会怎么做?——自指机器的奥秘》。
自我反省机器
Kleene 第二定律引发的思考有几点很重要:1. 相当一部分研究自我意识的人都认为不可能实现完美自省——但机器可以实现完备的自指,也就可以实现完备的自省——只要通过 Quine 的技巧和第二递归定律(在证明第二递归定理的证明过程中,本质上也用到了Quine)。Quine 操作就有点像“机器自我说话”——说出来的话也是自身。都是通过时间展开得到的。2. 机器和描述都不是完备的。但把它们合在一起的时候,把它们交给 OS/自然,靠自然的运作,t->t+1,就能实现完备的自指了。这个过程中,一定要做到虚拟和真实的尽可能相似,同时要让它们二者配合在一起运作,虽然它们两者都有一些缺陷,但最后让自然运作去弥合二者,这才能实现自复制。3. 机器和描述互为镜像——这和分形也有关系,比如冯·诺依曼的自打印结构。第二点的含义还可以引申到人类追求宇宙真理的过程。人类靠意识能否完美认知宇宙真理?这有可能是不可能的,因为所谓的认知真理,其实就是在用我们人脑来装下宇宙万象,而宇宙包含了我,而我无法装下我,这存在着无穷递归。而有了自指技术,其实人并不需要完美认知宇宙,认知到一定程度就可以了,然后人只要把自己的认知结果——有可能就是一个人工智能机器,与人合在一起形成一个整体,然后,把剩下的留给自然——谋事在人,成事在天,于是人-机构成的整体就能完美地模拟宇宙运转了。有了这些理论后,就不难理解自指意识了。在《Computatbility》这本书里就讨论了“自我反省机器“,self introspection 的可能性。通过第二递归定律,我们就可以构造出来这种机器。值得注意的是,这个自我反省机器必须得有一个参数 t,即运作t步,这样图灵机才能可停机——才能实现可计算的函数,才能使用 Quine。 同时,自我反省机器也是一个自我模拟的程序。因为 U 是一个通用模拟器,也很容易构造出自我修改程序。这个 V 就是在一定条件下修改另一个程序的源代码。虽然我们从更好的意识建模延伸到了自指意识机器、自我反省机器的构建,但之前这些讨论都是有缺陷的——因为自我反省机器要执行 t 步(模拟 t 步),但 t 和 U 的执行步数 T 不同,即这个自我反省机器并不是实时的机器。虽然我们实现了自我反省机器,但这里的实现只考虑了功能的等价,不考虑中间步骤的等价。可我们都知道,意识是实时的,所以有可能构造一个实时的等价自我机器吗?这是有可能的,因为操作系统是一个实时系统。配合 Quine 技巧,有可能构造出实时自模拟的程序。当然,通过自指实现的自我意识,也存在一定的问题:
文章写到这里,再多说一些大家都感兴趣的话题,比如自由意志。在自指框架下,自由意志的问题就很有趣。而这也和因果涌现有关。如上图,当我们照镜子的时候,镜子里的相是因?还是镜子外的我是因?假设镜子里的相是想象的,就有可能做出超过镜子外的我的行动(因为我们可以想象未来)。那么系统2的虚相就有可能指导系统1的大脑、身体来运作——就有了一个从内而外的因果箭头。但这个箭头也是虚假的,因为 Quine 自模拟。这时其实是分不清孰因孰果。在电影《黑客帝国》(The Matrix)里,有一个经典镜头便表现了这种因果关系: ORACLE: I'd ask you to sit down, but you're not going to anyway. And don't worry about the vase.先知:我就不请你坐了,反正你也不会坐。你别担心那花瓶。NEO: What vase?尼奥:什么花瓶?He turns to look around and his elbow knocks a VASE from the table. It breaks against the linoleum floor.他一转身,碰倒桌上的花瓶,掉地上碎了。ORACLE: That vase.先知:就那花瓶。Neo: Shit, I'm sorry.尼奥:见鬼!对不起。She pulls out a tray of chocolate chip cookies and turns. She is an older woman, wearing big oven mitts, comfortable slacks and a print blouse. She looks like someone's grandma.她取出饼干,转过身来。穿着、样子、动静,看上去就像一位邻家奶奶。ORACLE: I said don't worry about it. I'll get one of my kids to fix it.先知:我说没关系,我会叫那些孩子来还原它的。Neo: How did you know...?尼奥:你怎么知道会……?She sets the cookie tray on a wooden hot pad.她将饼干放一木盘上。ORACLE: What's really going to bake your noodle later on is, would you still have broken it if I hadn't said anything.先知:让你觉得更困惑的是,我不说,你还会不会打破那花瓶。正常情况下,因果序列表现为,先知对Neo说,不用担心花瓶,Neo听见后便转身,结果打碎了花瓶。不过,这里面存在一条奇妙的因果箭头:实际上,Neo头脑中还存在一个想象世界, 当先知与Neo说完话后,Neo便想象到花瓶碎掉的场景,或者说是一种预期,对未来的预期显然还未发生,正是这一预期使得Neo转身,花瓶便被Neo打碎,于是,预期便得以自我实现(Self-fulfilling Prophecy)。似乎,这里面存在一种从未来指向现在的因果箭头,当然,在这个例子中,这是因为人脑存在一个想象世界,不过,这种现象会在很多存在生命的个体中发生,比如虫子会在自己的控制下爬向食物,这里面,正是未来的预期,或者说目的,驱使了虫子的行动。 在自指程序下,只要能做到内外一致,就可以做到因果箭头的”颠倒“——实现自由意志。好了,关于意识的现象和理论部分我们就全部介绍完了,下面,还可以延展讨论几个问题:
2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢? 集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。本系列读书会线上进行,2023年3月3日开始,每周五晚,欢迎报名交流。 详情请见:“后 ChatGPT”读书会启动:从通用人工智能到意识机器