ChatExcel 开发团队导师袁粒：下一个变革前，保留火种

北大青年CEO俱乐部 2024-01-12

The following article is from 緑洲资本 Vitalbridge Author 参赞生命力

从语言到视觉，有多远的路要走，下一个大模型的变革会在何方？

今天我们分享与北大信息工程学院助理教授，博士生导师袁粒教授的对谈，Enjoy

以下为绿洲资本采访内容：

绿洲：您主攻的领域和研究的重点方向是哪些？

袁教授：我的研究主要集中在计算机视觉以及多模态机器学习。我在博士时期原来是纯计算机视觉为主的研究，当时就发现整个研究领域出现了大的趋势变化，让我感悟到模型从小到大，除了数据量变大之外，一个更显著的特点是从单模态往跨模态向更广的多模态上走，另一个特点是从有监督学习到无监督学习的范式过渡。

于是在读博的中后期，我的研究重点之一转向了如何找一个统一模型，这个模型需要在视觉、在 NLP （自然语言处理）、在不同的数据模态上都能表现出良好的性能。在做了大量的实验和研究之后，发现 CV 里的模型并不适合 NLP，NLP 里的 Transformer 反而也许可以做视觉任务。于是我的研究重点转向如何将 Transformer 用在视觉任务上。

Transformer 可以用在视觉领域是一个标志性的事件，既然它可以同时应用在 CV（计算机视觉）和 NLP 两个领域，那它对于多模态任务就是一个非常好的基础模型。我现在的研究关注设计基础框架用做多模态任务，从两模态到多模态。中国科学院自动化研究所研发的三模态预训练模型“紫东太初”就是一个三模态模型，他们开始尝试三模态，目前最高也就是三模态。当前主流的模型以视觉和文本两模态为主，比如文生图，图文互生，图文互检。未来的大趋势，包括我当下的研究也是构建一个数据集，从两模态做到多模态。我们希望不光是数据量变大，而是模态数增多之后，不同模态隐含的信息也不一样，模型本身是否能从更多的模态上学习，更加泛化。

绿洲：在大模型的发展过程中，视觉图像和 NLP 是可以融合的么？

袁教授：我读博期间这已经是大趋势：从不同模型走向同一个模型。现在两者已经走向融合了。众所周知 LLM（大语言模型）已经做得很好，视觉大模型也开始涌现。当然 GPT-4 虽然是一个多模态模型，但是它对外开放的接口是单模态的，只有语言，没有视觉。未来如果出现真正可以用起来的多模态大模型，它势必会带来更丰富的想象力。

绿洲：现在还没有做出多模态大模型的原因在哪里呢？

袁教授：多模态的任务比单模态的任务更难，数据也稀缺。做单模态任务需要搜集的数据相对来说肯定要简单一些。搜集多模态的数据，你要考虑这些模态的数据是否应该匹配，涉及到更复杂的算法设计，当然还有成本的问题。目前对于文本和视觉的数据比较多，但是对于其他单模态的数据量还是远远不够的。

绿洲：您开发 ChatExcel 的长远思考是什么？

袁教授：ChatExcel 是双模态的输入，一个模态是文本，另外一个模态是表格。大家可能认为表格不是一个模态，其实表格更像 Graph（图表），是一种特殊的模态。我们将两个模态送进模型，让模型去生成一个新的图表。ChatExcel 只是一个开端，但是我们的重点不在办公软件，因为办公领域的竞争已经相当成熟，缺乏想象空间了，我们认为更大的空间是在更多的场景和任务下，比如以视觉为中心的多模态场景。我们的方向和文生图不同，文生图是做生成，我们做的是用语言和语音对视觉模态做精细的编辑和修改，想象空间更广阔。

绿洲：之前 Meta 推出了 SAM (Segement Anything)，很多声音说 CV 不存在了，您对此怎么看？

袁教授：SAM 肯定是一个突破性的工作，但我并没有觉得 CV 就不存在了。对于 SAM 而言，如果你的图分辨率不高，或者说图片中的物体很小，它就做不到“万物皆可分”。计算机视觉本身就是一个很大的课题，分割只是其中一个任务。SAM 算是把分割做到了一定程度的极致，效果的确很惊人，在分割领域是公认的 SOTA (State-Of-The-Art) 模型。虽然用比较难的场景，比如密集场景去测试，会发现它还是无能为力，但重要的是我们必须承认这个模型的贡献，SAM 可以成为视觉领域的一个基础模型。

SAM 在应用层面肯定可以衍生出很多应用，其次它可以作为基础模型。比如说为其他任务提供特征提取，或者把分割本身作为一个基础任务，为更高级别的任务提供特征提取器。比如有个任务，必须分割到每个人、每个物体在哪儿，然后才能继续做下游任务，那么你可以用 SAM 去做提取，然后再应用在下游任务上，如姿态识别，目标关系识别等，这就是基础模型的意义，而并不是说视觉问题它都解决了。

但视觉除了二维视觉之外，还有三维视觉。视觉领域的问题不仅仅在分割，如果视觉再往多模态发展，它的问题会更多。

绿洲：视觉模型发展到什么程度算是突破呢？

袁教授：从二维到三维能算是一个突破。二维还有很多问题没有解决完，利用 SAM，比如图像描述上，通过分割，你可以优化文本描述。但是描述物体间的关系，并不只是通过分割解决的。分类、检测、分割是视觉的三大基础任务，如果某个模型在基础任务上做得很好，那么它就可以为更多的任务做基础模型。比如 SAM 本身不能做图像描述和姿态估计，但是它能找到人，并指出人的位置，完成最基础的任务。

为什么 NLP 大模型先出现，为什么视觉大模型没有 NLP 大模型那么轰动，效益那么大？因为视觉任务本身的数据维度更高，任务更难。这也就是为何 GPT 系列是更基于文本，在图像上的能力有限。至少在 GPT-3.5 前，都是单模态纯语言模型。GTP-4 的演示虽然展现了视觉输入，比如可以做图像描述, 可以做 VQA (Visual Question Answering 视觉问答），但具体内容并没有对公众开放，所以它的能力还是未知的。

绿洲：计算机视觉在国内主要的应用场景在哪里？哪个发展方向会更快一些？

袁教授：互联网相关的发展会更快，因为互联网产品触角更长，范围更广。自动驾驶应该是在应用上最有价值的一个领域。特斯拉一直在推纯视觉的解决方案，为什么要推纯视觉？因为最便宜，摄像头作为一个硬件，成本是最低的。如果视觉领域真正出现一个大模型，很多领域就会更蓬勃地发展，甚至被颠覆。比如现在的自动驾驶行业，首先硬件成本在降低，其次如果视觉任务可以做到极致，具备了智能视觉，那么自动驾驶就能上另一个台阶。特斯拉的 FSD（Full Self-Drive 完全自动驾驶），是要额外花大几万才能加到车上用的，而且在美国会比中国更好用，因为两国的交通场景、建筑风格还有自然风貌的差异都很大。特斯拉用的是美国的数据在训练，必然更适应美国的场景，表现力也更好，到了中国就是另一个域。“域适应”也是视觉领域一直没有很好解决的问题，也就是跨域的识别能力。如果真的出现一个与 ChatGPT 相当水平的视觉大模型，那整个市场空间的想象力要比目前 NLP 的空间更大，也许能帮助过渡到真正的完全自动驾驶。

绿洲：计算机视觉的发展而言，中国在全球范围内处于什么水平？

袁教授：人工智能大领域的现状现在几乎就只有在中美在竞争。NLP 的发展水平很接近；视觉方面，SAM 同期国内智源研究院就发布了 SegGPT，两者的工作十分类似，只是 SegGPT 晚发了几天，可以看出中国在大模型上面的发展速度咬得很紧。目前我们更多不是卡在算法上，而是因为高端 GPU 被禁售，硬件和算力被卡的问题。

绿洲：中美之间计算机视觉的应用场景会有比较大的区别么？

袁教授：我觉得应该比较类似，尤其是自动驾驶，全世界，至少中美都瞄准了这个领域。其他领域各国大同小异，本质上我认为不会有太大的差别。

绿洲：在视觉领域，有什么“简单方法”可以去判断一个新论文/方法是否靠谱？

袁教授：最简单的就是看这个工作课题组是否靠谱，以往的开源做得好不好，是否曾经有过学术不端的行为。可以去 Papers With Code 这个平台上看下复现的论文代码多不多，越多一般越靠谱；还有 GitHub 上的 star 数量和 fork 数量越多相对越靠谱，但这些都只是很量化的标准，更多的需要专业领域人来判断。

绿洲：最近市场上关于大模型走到天花板的问题，您怎么看？

袁教授：这只是一个小回落，而且回落得不厉害，这只是新事物发展的必然阶段，到达高潮之后会有一个轻微的回落。这波 ChatGPT 是给 AI 续命，对从业者或者研究领域的人而言，都是一针强心剂。这个圈子里，大家已经很久没有那么激动了，对整个行业来说是件好事。只是研究者需要思考整个研究的范式是否要做改变，这是我们要深入思考的问题。

绿洲：大模型的下一个大变革在哪里？

袁教授：没有人能百分百预测准。一边大模型要继续发展，我们也同时要思考它的能力，如果真的很快见顶，那我们只能在其之上做应用和小创新。下一个大变革应该在哪儿？每个 AI 从业者和研究者都要思考这个问题。有人预测再过几年互联网上的语料就不够用来训练大模型了，语料不足是否会影响语言类大模型的发展？目前还没有真正的视觉大模型，所以我们还是有很高的期待，大模型还远远没走到头，我们需要思考是否有其他的路去发展。比如训练语言大模型都已经需要那么多算力，训练视觉大模型的算力可能是指数级增长，目前的算力是否能跟上？要把全世界所有的 GPU 集中在一起去训练一个大模型，显然不太可能。尤其是国情差异等大环境下，训练本身就是一个问题。当然视觉大模型，或者多模态大模型不会像我们期望得来得那么快，也许只是因为我们的想象太贫瘠。如果英伟达可以继续在算力上进行突破，可能这条路就更短一些。

图像描述和 VQA，尤其是 VQA，我觉得可能是多模态任务皇冠上的明珠。VQA 任务为什么这么重要？如果 VQA 任务做到极致，有这种模型，任何一张图片，一个视频送进去，VQA 能告诉我分割、检测、描述等等所有的信息，那就等于所有的视觉任务都解决了，那才是真正的多模态，才真正见底。那时候见底了都无所谓，因为已经到了天马行空的状态。当然前提还是算力和数据的结合，如果这两者都能突破想象，那这个模型也许不会太晚才到。

同时 AI 的研究者也要思考低功耗的问题。目前功耗那么大，要出现真正超级智能的多模态大模型，可能集中全球的算力都不够。那时候是否要走另一条路，比如是否在底层的模型上要做革命，找一个泛化性强同时功耗低，训练成本低的一个大模型。

绿洲：您理想中的多模态的终极状态是怎样的？

袁教授：强且低功耗，就像人类大脑，人类大脑只有 20 多瓦，泛化性强。当然人类虽然泛化性很强，但单个任务的性能肯定没有垂直领域的大模型强。

绿洲：如何看待这波 GPT 出现的智能涌现？

袁教授：最简单的例子，当年计算器出现的时候，速度精度比人类快太多了，但是数学家并没有因此失业。计算器强不意味着不需要数学家了。大模型的智能涌现，具备了一定的智能行为，但是人类被机器超越早就不是新鲜事了，譬如AlphaGo，譬如深蓝。有些行业中的一部分工作可能会被替代，这是人类历史发展的主旋律，没有必要觉得恐惧。新行业出现，旧行业消亡，汽车代替马车，驾驶员代替车夫，未来真正的自动驾驶出现，驾驶员消失，肯定还会诞生其他行业。如果说没有工作了，人类会进入更高的状态，真正的 AI 革命生产力的时候，短期的阵痛并不会取代长期取得的变革成果。

GPT 系列在多任务上更像人类，我觉得这是它的训练方式造成的，为什么它会一本正经地胡说八道，因为训练方式就是让它正经，但不解决事实性，只是让人觉得，好像是人类和我在对话。这的确可能导致了一些恐怖谷的效应。

绿洲：您对生物大模型有什么看法？

袁教授：生物大模型走的路是低功耗，但是这条路任重道远，因为首先业界和学术界的关注太少，从业者太少，发展速度必然会减缓；第二对硬件的需求会更大，它并非基于冯诺依曼架构，我们需要高效的神经形态芯片进行训练，在 GPU 上训练的效率不高。生物大模型是需要软硬结合协同发展的领域。因为关注度不够，我希望能有更多的人去关注，并推动这个行业。AI 发展是个资源密集型行业，当企业认为发展路径过长，就不会投入资源，那只能靠学术界去推动，这也正是学术界存在的意义。学术界是保留火种的地方。当大家都在关注大模型做应用和创新的时候，学术界更要冷静地看待这件事，同时需要知道我们是否要保留火种。当这一代大模型走到头的时候，学术界回头来看，也许还能将更多的可能性向前推。学术界需要以更底层的创新导向，长期主义地向前发展。

绿洲：神经形态芯片领域，国内外有啥值得关注的研究者吗？

袁教授：国内有北大黄铁军教授、田永鸿教授；清华的施路平教授；中科院自动化所李国齐教授；浙大潘云鹤院士等。海外有 UCSD 的 Gert Cauwenberghs 教授，耶鲁大学的 Priyadarshini (Priya) Panda 教授，哈佛大学的 Hongkun Park 教授等。

来源：绿洲资本Vitalbridge

—往期推荐—

48岁北大微电子系校友冲刺科创板IPO

6月1日14:00北医青年校友创投沙龙No.2：合成生物学

北大教授陈钟谈 AI 未来：开源是重中之重

嘉华药锐完成超亿元A轮融资与数千万元A+轮融资