ChatLaw狂飙，北大瞄准汉化法律大模型

巩周周北大青年CEO俱乐部 2024-01-12

作者|巩周周

编辑|阮博涵

出品|未名科创

高校研发内卷，北大狠狠拿捏住了。

继Chatexcel火爆全网后，北大信工学院团队联合兔展智能再度重拳出击，发布出 ChatLaw 法律大模型。

7月4日，ChatLaw 攻占知乎热搜榜首，为自家高校再积一分。

“我们始终认为，最优秀的法律大模型会出现在中国。这是由需求决定的。在美国，每个州拥有不同的法律。在欧洲，国家缺少大规模人口和市场。只有中国，拥有如此巨大规模的人口，统一的法律服务市场，规范的法律判例。

因此，我们坚定地向这个项目投入算力、资源、人力。也许我们的产品现在还有诸多未完善的地方。但技术的发展是非线性的。也许在未来某个时间点，我们能够超越GPT，为这片土地的普通人带来普惠的法律服务。”

面对北大描绘的普惠法律大模型，怎会有人不动心？

于是，仅几个小时，ChatLaw就官宣出算力到达上限，服务器已崩溃的消息。

明日种种犹未到，未来之事不可期。这也令人啼笑皆非和困惑，当有一台大模型碎钞机转动时，出于对生成式AI庞大算力需求量的担忧，赛道玩家激增带来的是否不过是金钱世界的投资明星？

海外拐点已现

“AI+法律”加速落地

答案是否定的。

ChatLaw团队在所提到的非线性技术发展，被称作“涌现能力”。

简单来说，是当模型参数量大于一定程度时，能力便会突然提升，拥有一些未曾出现的能力，比如推理、学习能力等。Jason Wei在论文中将其定位为“在小模型中没有表现出来，但在大模型中表现出来的能力”。即，一种表象。

过去很长一段时间，AI和人类生活仿佛两条平行线互不干扰。过去5年，它却以颠覆者的姿态闯入各行各业，从自然语言深入理解人类意图；从描述中生成创作；从非结构化数据中提炼信息，让一系列应用成为现实。

海外，生成式大模型基础能力逐渐被证实。美国律师资格考试中，GPT-4成绩排名超过 90% 人类考生；美国统一律师资格考试中，GPT-4 有7 项考试领先人类考生，远高于模型和人类考生的平均正确率。

图片来源：浙商证券研究报告

OpenAI论文显示，大约80%的工人有至少10%的任务会受到GPT冲击，约19%有至少50%的任务受到较大冲击。而多数情况下，审核法律合同、撰写文书是一项严谨、重复率高、易疲惫的工种，与擅长文本处理的语言类大模型榫卯相契。

高用户需求及高功能适配度使得“GPT+法律”应用工具在全球加速落地。5月26日，通法律AI初创公司Spellbook宣布获得1090万美元（约7700万元）融资。据了解，Spellbook主要面向专业律师，使用通过GPT-4、数十亿份法律文件及其他大语言模型锤炼而成的产品为用户提供自动起草、审核法律合同等服务。

据Spellbook官方信息显示，目前有600多个法律团队提供专注法律的 ChatGPT 服务，后补申请名单超过54,000人并仍在高速增长。

Harvey是OpenAI投资企业，主营业务是AI法律顾问，Harvey主要是为律所打造的LLM，具备NLP+机器学习+数据分析能力，能够为律师提供合同分析、尽职调查、诉讼、监管合规等功能。

2023年2月，Harvey签约到第一家企业客户ALLEN&OVERY，有3500名律师正在试用，3月，签约到pwc，其决定与Harvey合作开发和训练专有AI法律模型。

不到一年，Harvey已进入规模商业化阶段。

图片来源：浙商证券研究报告

尽管现阶段，Harvey结果输出仍需要由律师仔细审查，但其能够根据大量数据来生成见解、建议和预测，让律师能够更快、更具成本地为客户提供解决方案的能力，深受市场欢迎。

细分领域应用市场规模初现，不少公司选择在垂直领域与大模型公司合作，二次开发商业化应用。Harvey的发展经历表明，垂直应用模式在2B和2C都存在丰富的应用场景。

北大团队

瞄上汉化版法律大模型

事实上，我国在2023年推出众多大模型，也是在向外释放人工智能时代我方已做好国产独立准备的信号，只待风声一起便迅速抢占市场。除去百度、科大讯飞、商汤、华为等30余家拥有数据、算力资源的大厂外，北大、清华、复旦等高校也快速调头，投身这场“混战”。

可模型虽多，整个市场可商化产品却乏善可陈，更别谈寥寥无几的营收。

垂直领域科研应用有着极强的马太效应。由于Know how，即便拥有渠道、资源也很难将业务规模化。于是，北大袁粒团队解决掉法律差别问题，目的性极强的选择针对中国法律的汉化版AI大模型。

从披露信息来看，北大发布的这款ChatLaw法律大模型，底座为姜子牙-13B、Anima-33B，存在ChatLaw-13B、ChatLaw-33B、ChatLaw-Text2Vec三个版本。是其团队在通用大模型基础上，用北大大量法律文本数据资源训练后，经由资深律师人工标注，再进行高质量事实性多轮对话，最终开发得来。

总体来说，ChatLaw法律大模型具备3大优势：

1、具备语音录入、上下文识别能力、结构化抽取、理解当事人需求

中文模型，可读取文件、录音，抽取关键信息，对事实进行归纳梳理，生成导图、图表、可视化分析。

2、提供清晰法律建议

先验知识约束算法，基于亿级法律领域结构化语料及专业化人工标注进行模型知识注入，确保内容正确度

3、自动写作文书

基于律法文书语料微调，一键归纳用户事实，自动化进行文书写作。

由于服务器崩溃，笔者仍在排队无法实操，不能对使用体验有所描述，分外可惜。但是，如若抛开使用体验，只从理念和产品特性来详谈，不得不承认，我国汉化版法律大模型商变机会非常可观，而北大抓住了前驱机会，只待未来发展。

解决模型幻觉与人机交互难题

不过，创业并非科研，客户需求和先手市场仅是第一座山头。更显著的做法是，让研发人员垒砌产品“护城河”。

在AI大模型中，存在恒定的普遍问题，即，模型幻觉和模型智能度低。其一是由于固有偏见、缺乏现实世界理解或是训练数据的限制，LLM可能会产生幻觉。而幻觉会导致答案看似合理，但实际却南辕北辙；其二是语义理解能力不足，人机交互困难。

“该领域还没有人解决幻觉问题。所有模型都有这个问题。”Alphabet首席执行官Sundar Pichai 曾公开谈起这一问题。

在应用过程中，幻觉问题是比想象更糟糕的。由于模型可以混淆人、事件以及想法之间的信息，所以我们很难分辨出答案正确与否。当幻觉出现在法律、医疗、工业制造等相对严肃的领域，问题就变得尤其严重。举个例子，法律环境下，即使是基于大量条例和文献训练出来的大模型，也难保知识库过旧，数据专业度欠佳导致结果偏差。

该情况，一般性策略是“题海”战术，将模型与外部客观知识库、数据库或搜索引擎结合，降低模型幻觉率。不过这也会涉及更多滞后问题，例如隐私安全。升级策略是让模型在非要害流程应用，随后逐步向要害环节渗透。“摸着石头过河”，提高性能准确度。

北大团队采用的是另一套逻辑：

“先验知识约束”，训练阶段把法律数据大规模注入模型，并对知识进行特殊处理和加强，确保模型后续推理中具备法律先验知识并保持稳健。同时，在推理过程中引入多个模块，从推理过程中便开始进行约束，确保模型生成正确法律法规。简单来讲，就是基于知识储量对模型推理“卡框划线”，降低幻觉倾向和出错概率。

北大团队表示，用户在通过多轮对话，不断向语言模型补充事实细节，最终得到具备指导意义对法律建议则变得可能。

此外，重塑智能是学术界和应用界的共识。

根据新思科技数据，全球AI市场规模有望由2021年的870亿美元增长至2030年的15970亿美元，2021—2030年复合增速达38.1%。根据All The Research数据，预计2026年全球AGI市场规模将达到1442亿美元，2016—2026年复合增速达到41.6%。

AI市场快速增长让多模态大模型理解能力的构建在全球范围不断增强。多轮对话能力、长文本理解能力、复杂问题解决能力、语音识别抓取内容能力等等，带着模型走向应用。

这方面，北大团队选择了“调度模型”的方式。

首先，研究团队针对性微调训练出专用调度模型，让其对问题进行分析，然后对子模型和插件进行调度重组，最终呈现出多模态输入和输出。通过文件、语音、文字整合等方式进行分析，最大化提升援助成功率。

另外，法律事件对于场景还原度、内容准确度要求较高，通常会涉及很复杂的实际情况。模型逻辑推理能力上，或许可以进一步增强。同时，在与用户磨合的过程中建立资源库，保证数据库流动性和新鲜度，易于进一步分析。

参考资料：

[1]《AI+法律：法律是大模型契合的行业之一，近期海外多场景落地》,浙商证劵研究报告,刘雯蜀

来源：未名科创

—往期推荐—

华创资本熊伟铭：不着急投资AIGC应用，真正的风口还没到来