查看原文
其他

张红:我国法律文本中的“数据”:语义、规范及其谱系 | 比较法研究202205

张红 北大法律信息网 2024-01-11

【作者】张红(武汉大学教授,法学博士)

【来源】北大法宝法学期刊库《比较法研究》2022年第5期(文末附本期期刊目录)。因篇幅较长,已略去原文注释。


内容提要:我国既有法律文本中的“数据”具有对客观事物的记录、现代信息技术中的符号、现代信息技术的专称三种语义类型。法律文本中的“数据”词性不明、内涵不清、外延不定,使数据规范对数据要素市场培育发展之保障功能无法充分彰显。通过辨析数据与数字、数据与信息技术、数据与信息的法律内涵,原“数据”的“本然之理”,“数据”定义应为以数字、文本、音像、信息技术符号或其他形态为载体对客观事物的记录。数据法治的价值目标与数据生命周期理论是构建数据法治谱系的思考范式,梳理数据法治谱系的重要维度可以展现不同阶段数据法治的规制脉络。

关键词:数据;法律文本;语义;法治谱系

目次
一、问题的提出
二、数据规范的应用与语义
三、数据的法律内涵
四、数据的法治谱系
五、结语


问题的提出
  随着现代数字技术的日益精进,“数字化生存”与数据分析决策正在深刻革新人们的生活方式和思维观念。数据技术作为一种“对存在的升级”,通过其独有“量化一切”的方式,将“数据”拔高至世界本体论的高度,“数据主义”的发展实践甚至引发现代的世界观革命。以“数据”为视角观察当下的社会生活,民众依赖数字化生存、企业掘金数字经济、政府推动数字治理。数据技术带来的变革不只是关于人类社会发展的宏大叙事,还实在且深远地渗透进社会生活的各个层面,数据更是已然成为全社会生产生活的基本要素,事关国家安全。2020年3月30日,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》,明确提出加快培育数据要素市场,将数据正式提升为与土地、人力、技术、资本并列的生产要素。那么,在此时代趋势与政策背景下,法律在保障数据资源公平自由流动、促进数据要素优化配置、实现数字经济场域中以数据为核心驱动各类资源要素协同高效利用等方面的治理功能愈发重要,理应受到重视。
  目前,关于“数据”的法学研究正如火如荼,著述甚多,大致可分为以下三类:其一,关注数据技术科学与法学的互动关系,探讨构建跨学科的领域法学;其二,围绕数据技术应用与法律实践的结合,明确数字技术对于法治的赋能作用;其三,将数据技术作为法学的研究对象,探讨有关数据的法律制度与理论。具体而言,既有成果多关注数据的立法目的与内在体系的确定、数据法律规制的模式选择、数据的法律属性、数据与信息的区分、数据利益的权属以及比较法上数据法律规制经验的介绍等方面,却忽视了数据法制体系对于数据法治实践的指导作用,缺乏对我国既有法律中“数据”相关规范条文的关注。
  法律不是“命令”的集合,而是文本的集合。语言是思想表达与交流的重要工具,语言的规范功能是法律文本成为“命令”集合的重要原因。法律概念的诠释、法律文本与现实生活的映射、法律人对法律文本的应用等,都离不开对文本语义的分析。不可否认的是,传统法学领域并未探讨数据的内涵和外延,传统立法中亦未对“数据”一词有过规范,导致作为法律概念的“数据”常与非法律概念混为一谈。又出于现代社会的嬗变更迭、信息技术的发展迭代等原因,导致法学领域对于“数据”的认知不清,进而引发数据规制谱系的混乱无序。有教义法传统的国家,奉行“最严格、最高的”“科学标准”,致力于完善“科学的法”。廓清法律概念的蕴意是法律实践的前提,考察法律意义上之“数据”的最优路径便在于探寻法律文本中“数据”的含义。法学领域对于“数据”概念的研究不应直接采用其他学科的研究成果,而应基于不同数据规范间各异的规范目的原“数据”的“本然之理”,方能奠定建构数据权利谱系与数据规范体系的底座,故检讨法律文本中含有“数据”的规范是必要的。因此,本文立足全面梳理我国法律文本中关于“数据”的既有规范,分析“数据”一词的语义类型与特征,区分数据与其他相关概念的差异与联系,力求明确“数据”的法律内涵,从而厘清数量庞大又梯次搭配的数据规范中“数据”承载的价值谱系,并简要勾勒出“数据”生命周期的法治框架,以期引起对数据法律文本的应有关注。
数据规范的应用与语义
  (一)“数据”在法律文本中的应用考察
  1.法律文本的来源
  依我国立法法第2条之规定,并结合其他规定,“法律”一词包含三个层次:最严格者,仅指全国人大及其常委会制定的法律;其次,还包括行政法规、地方性法规、自治条例和单行条例;最广义者,再加上部门规章及地方政府规章。本文所分析的“法律文本”仅限于上述的“最严格者”,不包括同样具有法源地位的行政法规、部委规章、地方性法规规章等。在“国家法律法规数据库”中“法律”分为7个领域:宪法相关法、民商法、行政法、经济法、社会法、刑法、诉讼与非诉讼程序法。其中,宪法相关法领域收录的现行有效法律文件51件,民商法领域收录现行有效法律文件23件、尚未生效法律文件1件,行政法领域收录现行有效法律文件96件、尚未生效法律文件1件,经济法领域收录的现行有效法律文件79件、尚未生效法律文件2件,社会法领域收录的现行有效法律文件27件,刑法领域收录的现行有效法律文件14件,诉讼与非诉讼程序法领域收录的现行有效法律文件11件,以上总计305件。
  2.数据规范的分布
  本文以“数据”一词为线索,对上述305件法律文件进行一一梳理,获得含有“数据”一词的法律文本共计76件,约占全部法律文件的24.92%。具体分布态势如下(见表1):
  表1 不同法律领域中“数据”文本占比
  以上梳理结果表明,“数据”一词已在我国法律文本中大量存在,就其涉及的法律领域而言,呈现出整体分散、大量集中的分布态势,集中出现在行政法与经济法领域。而经进一步考察,就含有“数据”的具体规范条文的分布态势而言,又呈现出总体分散、少量集中的特点。例如,因特别法律针对的调整对象的特殊性,含有“数据”的具体规范条文集中出现在我国数据安全法、电子签名法、网络安全法中。
  (二)“数据”在法律文本中的语义类型与特征
  1.“数据”的语义类型
  法律语言作为法律规范的载体,是日常生活用语在法律语境中抽象化与规范化的表达。虽然“数据”一词看似简单明了、散见于76件法律文本之中,但我们分析其法律蕴意不应仅局限于字面本身,而应关照具体的规范语境与特定的立法者本意等,不同法律文本中的“数据”、同一法律文本里不同条款中的“数据”的含义并不一致。通过对含有“数据”一词的规范条文的分析,本文认为“数据”在我国法律文本中主要有以下四种语义类型。
  (1)对客观事物的记录
  “数据”并非现代社会所独有,而是相伴人类文明的进步而产生。“数据”(data)在拉丁文里是“已知”(datum)的意思,可以理解为“事实”(fact)。“数据”的本义即“有根据的数字”,是人们使用数字记录客观世界的结果,通常表现为用于统计、计算的数字。从这个意义上讲,一串记载于纸质媒介上的数字或符号,就可以视为“数据”,并不一定具备可自动化信息处理的特征,也不依赖网络信息科技而存在。在我国现行法律文本中,使用本义上的“数据”的规范大量存在,集中在关于统计计量、产业管理、环境保护等领域,具有较强公法管制性质的法律文本中。考察这些使用“数据”本义的规范,可以发现,立法者在组织法律文本语言时对“数据”一词的使用情况,主要有以下三种类型。
  第一,只使用“数据”一词,加之行业限定语或特定形容词,组成“行业/专业+数据”。此种语境下,“数据”一词的语义多为对特定领域或专业活动的记录之全部。例如,我国统计法第23条第2款、人口与计划生育法第43条、电影产业促进法第34条、节约能源法第21条中的“统计数据”;环境保护法第17条第3款、水污染防治法第24条第1款、大气污染防治法第20条第2款、土壤污染防治法第82条、噪声污染防治法第38条、湿地保护法第22条第2款、食品安全法第15条第1款中的“监测数据”;测绘法第13条第2款的“观测数据”;社会保险法第74条中的“社会保险数据”;计量法第21条中的“计量数据”;银行业监督管理法第34条第1款第4项中的“业务数据”;海警法第58条第2款中的“海警工作基础数据”;海上交通安全法第36条中的“航行数据”;基本医疗卫生与健康促进法第49条中的“健康医疗数据”;科学技术进步法第102条第1款中的“科学技术数据”与种子法第16条中的“试验数据”等。
  第二,也使用“数据”一词,但与“报表”“报告”“资料”“信息”等用语表并列或表种属关系。此时,“数据”一词并非对特定领域或专业活动的全部记录,而大多强调特指以“数字”为表现形式的记录,可以理解为对相关事实记载的一种呈现方式。例如,我国银行业监督管理法第30条中的“全国银行业金融机构的统计数据、报表”、中国人民银行法第36条中的“全国金融统计数据、报表”、期货和衍生品法第14条中的“政策、信息或者数据”;测绘法第2条第2款中的“数据、信息、成果”、核安全法第64条中的“流出物和周围环境辐射监测数据、年度核安全报告等信息”、深海海底区域资源勘探开发法第21条中的“航海日志、记录、数据”、促进科技成果转化法第19条中的“职务科技成果及其技术资料和数据”、邮政法第40条中的“业务成本数据和其他有关资料”、药品管理法第18条与疫苗管理法第19条第1款中的“数据、资料和样品”、生物安全法第15条第1款中的“数据、资料等信息”、非物质文化遗产法第13条中的“非物质文化遗产档案及相关数据信息”、广告法第11条中的“广告使用数据、统计资料、调查结果、文摘、引用语等引证内容”与安全生产法第36条第3款中的“相关数据、信息”等。
  第三,常用“电子”作“数据”一词的修饰语,组成“电子数据”,强调采用电子化的方式或储存在电子介质中的记录,多特指作为证据种类的电子数据证据。例如,我国民事诉讼法第66条第1款第4项、行政诉讼法第33条第1款第4项、刑事诉讼法第50条、行政处罚法第46条、监察法第25条第1款、出入境管理法第77条第1款、国际刑事司法协助法第25条、海警法第30条第2款与审计法第34条中的“电子数据”。另外,证券投资基金法第102条中的“以电子介质登记的数据”与海关法第25条中的“电子数据报关单”,也都是强调经过电子化方式储存的记录。
  (2)现代信息技术中的符号
  随着科学技术尤其是信息传输技术的迅猛发展,“数据”的含义也从“对客观事物的记录”的本义上延伸信息技术领域,被引申为二进制数字0和1所标识的信息。在信息技术语境中,“数据”指可采用信息自动化程序处理的,具有一定意义的数字、字母和符号等的通称。在此层面上,“数据”作为信息技术中纯粹工具性的符号,其本身不具有任何“记录”的功能,而是作为一种记录内容的载体,需要通过应用代码技术方可呈现或获取其内容。在我国现行法律文本中,使用信息技术符号层面“数据”的规范数量颇多,集中在计算机信息系统保护、网络安全、电子签名等场景,主要以以下三种方式出现。
  第一,直接使用“数据”一词,专指计算机信息系统场景中存储、处理或传输的符号文件。例如,我国治安管理处罚法第29条第3项与刑法第285条第2款中的“数据”、电子商务法第57条第1款与电子签名法第34条第4项中的“电子签名数据”、人民武装警察法第32条第2款中的“数据资源”等。
  第二,用“网络”作“数据”一词的修饰语,组成“网络数据”,集中出现在我国网络安全法中,特指通过网络收集、存储、传输、处理和产生的符号文件。网络安全法回避了如何直接定义“数据”的问题,而是将“网络数据”定义为“网络空间的电子数据”。此“电子数据”并非前述证据法意义上的“电子数据”,而是指网络系统中作为信息技术符号的“数据”。
  第三,以“数据”一词作“电文”的形容词,组成“数据电文”,强调以现代信息技术中符号为载体的意思表示形态,区别于以一般的书面、口头等形式,常用于合同订立、申请申报行政许可等场景中。例如,我国民法典第469条、电子签名法第3条、第4条;商标法第22条、行政许可法第33条、密码法第29条、税收征收管理法第26条等。
  (3)现代信息技术的专称
  在我国法律文本中,“数据”一词还常出现在诸如表示“数据库”、“大数据”、“信息数据系统”等现代信息技术专称的特定词汇中。例如,我国非物质文化遗产法第13条、统计法第5条第2款、突发事件应对法第41条、中医药法第43条第1款、网络安全法第34条、环境影响评价法第6条第2款、土地管理法第34条、人民武装法第32条第2款、长江保护法第8条与科学技术进步法第107条第2款中的“数据库”;中小企业促进法第33条与基本医疗卫生与健康促进法第49条中的“大数据”;退役军人保障法第8条第2款中的“信息数据系统”等。
  2.“数据”的语义特征
  通过对法律文本中“数据”的语义类型化考察,可以发现“数据”一词在我国法中的语义语用有如下特征。
  (1)词性不明
  立法语言的规范性与严谨性可以反映出国家法律制度的完善程度。无论“数据”是表示对客观事物的记录,或是作现代信息技术中的符号,还是作现代信息技术的专称,“数据”本身理应当作名词使用。但在“数据电文”这一文本语义中,“数据”一词又成为“电文”的形容词,专指“数据化”的“电文”。那么,此时的“数据电文”应当特指采用现代信息技术中符号为记录、传输载体的“电文”,多指以电子数据交换、电子邮件等无纸化或非书面形式的意思表示,而应与以传统的电磁波传输技术为载体、一般为书面形式的电报、电传与传真等相区分。
  因此,从语义使用的角度看,我国1999年合同法第11条中将电报、电传与传真归属于“数据电文”的范围之内的作法,明显欠妥。民法典第469条将满足“有形地表现所载内容”“随时调取查用”要件的“数据电文”方可拟制为一种书面形式的意思表示、区别于“合同书、信件、电报、电传、传真”等一般书面形式的做法,是值得肯定的。
  (2)内涵不清
  法律概念的内涵是从法律文本术语所涉具体对象中提取共有属性特征。“数据”一词具有强烈的时代属性,其内涵会随着时代的发展而变化,大体经历了从对客观事物的纯粹记录到包含现代信息技术中的符号载体的语义演化过程,但这一演化进程在我国法律文本中是不明显的。例如,作为我国法律文本中最早使用“数据”一词的统计法(1983年),其第5条,“国家有计划地加强统计计算和数据传输技术的现代化建设”中“数据”指向的是信息技术中的符号载体层面,而其第6条第2款,“如果发现数据计算或者来源有错误”中的“数据”指向的又是对客观事物的记录层面,在同一部法律中分布如此相近的两个法律条文中“数据”一词的内涵并不统一,且大相径庭。仔细考察统计法文本语义类型的演进与其第5条的历史沿革,可以发现,立法者对“数据”一词的语义与使用有所修正,即将现代信息技术中符号载体层面的“数据”更换为“信息”,将客观事物记录层面中的“数据”予以保留,从而统一了统计法中“数据”的内涵。此种修正值得肯定,但也在一定程度上折射出我国法律文本中“信息”与“数据”一词的混用,这种混用不仅在技术层面上呈现,还体现在内容层面。
  如前所述,除用于现代信息技术的专称外,我国法中“数据”一词常与“报表”“报告”“资料”“信息”等词语连用,虽然此时“数据”大体可以理解为以“数字”为表现形式的记录,从而与“报表”“报告”“资料”等记录形式相区分,但“数据”与“信息”的语义内涵却含混不清,二者的逻辑关系也混杂难分,主要表现在以下三类。第一,将“数据”作为“信息”的一种,即“信息”包含“数据”。例如生物安全法第15条第1款、监察法第25条、食品安全法第19条、环境保护税法第15条第2款与核安全法第64条均使用“数据等信息”的类似表述。第二,将“信息”作为“数据”的一类,即“数据”包含“信息”。例如数据安全法第38条与出口管制法第2条第2款均使用“信息等数据”的类似表述。第三,将“数据”与“信息”并列使用,即二者不存在包含关系。例如反有组织犯罪法第42条、测绘法第24条使用的“信息数据”,电子商务法第25条、非物质文化遗产法第13条使用的“数据信息”,测绘法第2条第2款、安全生产法第36条第3款中的“数据、信息”等类似表述。
  可见,我国法律文本中的“数据”和“信息”存在着高度混用的现象,造成二者的内涵不清,且二者在各法律文本间又存在着相互矛盾的逻辑关联,这既引发了学界对二者内涵与关系的广泛讨论,也造成了司法实践中相关案件法律术语使用的普遍混乱。若简单地将“信息”与“数据”混为一谈,会使得同一对象中相关人格利益与财产利益无法区分,也会成为关于二者的权利或权益理论建构与适用的重大障碍,进而阻碍数据要素的高效流通、权益保护。
  (3)外延不定
  正因立法者组织法律语言时对于“数据”一词的混用与错用,使得法律文本中的“数据”词性多变、语义内涵游离不定,有损法律术语概念的精确性,导致“数据”的外延自然也无法确定。囿于“数据”的内涵不明、语义类型多样,解读法律层面上的“数据”可能会有以下三种困境。
  第一,“数据”规范的涵摄范围偏狭,无法适用。基于面向技术未来、保持规则弹性与降低立法成本等考量因素,有时立法者会在法律文本中使用较为模糊的用语。但当“数据”的法律语义认知成本过高时,容易促使裁判者向“一般性条款”逃逸,转而寻求他种救济方式。这不仅使得“数据”规范“其经验案例几乎没有或根本不存在”,也造成数据权益保护路径的舍近求远。例如,法院常运用我国反不正当竞争法第2条释义性的一般条款,对数据权益予以保护,但这种过度使用容易造成不同法律领域保护规则的混淆。第二,“数据”规范的涵摄范围过大,无所不包。有学者指出,当概念的语义没有足够的区分属性去界定其所指称的对象时,会出现“无边界”的情形。如前所述,我国不同“数据”规范中“数据”与其他诸如“信息”“资料”等列举项间存在时而交叉、时而包含、时而并列的逻辑关系,这必然会影响司法实践中裁判说理的准确。例如,在“淘宝诉杜某案”中,法院将“数据”定义为“具有可分析性、可统计性、有使用价值的信息的总和”,不仅包括计算机直接产生的原生数据,还包括而后形成衍生数据。观其要旨,不难发现,法院用“信息”来解释“数据”,认为“数据”不仅包括客观事物的记录,还包括现代信息技术中的符号文件,似有“数据”涵摄范围泛化之嫌。第三,“数据”规范的涵摄范围交叉,不易适用。“数据”在不同学科视域、不同法律领域中的意蕴各有不同,此种不同原本并不一定会造成规范适用的困难。但因法律术语概念使用的混同,仍须特别注意区分不同法律语境下“数据”所指向的对象。亦如前述,我国“三大基本程序法”均将“电子数据”列为法定证据种类,而网络安全法也使用了“电子数据”一词,二者同名却异质,引发了不同法律语境下“电子数据”的界定混乱。
  可见,法律文本中“数据”的外延不定会使法律对数据要素市场培育发展之保障功能无法充分彰显,亦致“数据采集”“数据处理”“数据共享”“数据安全”等规范表达与规制内容的底座空悬,无法妥善应对数字时代兴起的诸多疑难法律问题。
数据的法律内涵
  (一)数据与数字的辨析
  “数据”的本义为“有根据的数字”,“数字”(number)则起源于拉丁文中的“digitus”,原意为手指或脚趾。日常用语作为法律文本用语的重要来源,“数据”与“数字”在日常用语常被等同使用的状态也影响着法律文本中词汇选用。考察我国法律文本可知,“数字”一词也常出现其中,可作如下分类:其一,强调以数字为表示载体,如我国立法法第61条第2款、种子法第27条、商标法第8条中的“数字”;其二,表示现代信息技术或符号载体,如著作权法第10条第5项、乡村振兴促进法第53条第2款、档案法第24条中的“数字化”与公共图书馆法第2条中的“数字资源”;其三,与现代信息技术相结合的概念,如数据安全法第7条中的“数字经济”与乡村振兴促进法第12条中的“数字乡村”。这些规范中的“数字”与“数据”是什么关系、词义能否等同、能否同等使用呢?
  本文认为,“数字”是“数据”的下位概念,“数据”包含“数字”,二者不应完全等同使用。因“数字”与“数据”在日常用语、法律文本中常等同使用,故可依据法律文本中“数据”的语义类型对“数字”进行考察。首先,自对客观事物记录的层面观之,“数字”是“数据”的一种内容来源与呈现方式。“扳指算数”、“结绳记事”又或是使数字与文字在表达方式上彻底分离的“阿拉伯数字”,它们的产生都是源于人类计量客观事物的需要。统计学意义上的“数据”可以分为“定性数据”(非数值型数据)和“定量数据”(数值型数据)。单从形式符号的角度上看,“数字”本身即为“数值”,多指“定量数据”,是人为创造的描述客观存在秩序的工具,与图画、文字等共同组成了人与人、人与客观世界交互行为的记录方式。其次,自现代信息技术中的符号载体层面观之,“数字”是承载“数据”的具体工具。“数字”是指用于计算机读取的二进制代码、表述模拟信息的“0”和“1”之具体数字,是承载信息技术中“数据”符号的数理逻辑。最后,自现代信息技术的专称层面观之,“数据化”(datalization)的内涵相较“数字化”(digitizing)更广。“数字化”是指将模拟数据转换为0和1表示的二进制代码,“数据化”是指依托数据的手段描述事物,并对数据进行量化、分析和重组的过程。“数字化”将“数据”转变为了计算机可处理的符号语言,为进一步算法挖掘、量化分析“数据”的“数据化”提供了技术上的可能。
  因此,考虑到未来信息应用技术发展的延展性,结合当下数据技术实践的方兴未艾,我国法律文本中表示现代信息技术或符号载体语义的“数字化”与“数字资源”,建议采用“数据化”与“数据资源”进行替换与修正。
  (二)数据与信息技术的界分
  1.数据库
  “数据”与“数据库”只有一字之差,二者存在高度的关联性。广义上看,数据库(database)即为“数据”的集合,是用来储存和管理各类记录仓库。不过,当下的数据库概念一般指的是按照数据结构来存储和管理数据的计算机软件系统,同时亦作为数据管理方法与技术的概念而存在。在信息时代的技术驱动下,法学领域也逐步吸收了数据库的技术概念。例如,《欧盟数据库保护指令》第1条将“数据库”定义为“由独立的作品、数据或其他素材按照特定的条理和系统编排而成的集合,而这个集合中的元素也可以通过电子方法或其他方法被独立地获取和利用”。
  我国现行法律在大量使用“数据库”这一用语时,并没有明确“数据库”的法律概念,也没有单独对此进行专门的立法保护。司法实践与理论探讨中,数据库的问题主要集中在依据著作权法第15条对内容的选择或者编排体现独创性的数据库作为汇编作品予以保护。但是,现代信息技术语境中的数据库和一般的知识产品具有明显不同。以当下市面流行的若干全国企业工商信息查询数据库为例,其为用户提供的使用价值主要有二:其一,所收集的企业工商数据全面、及时、准确;其二,依据股权投资关系、涉诉涉法风险、人员任职关系等企业信息,进行分析、挖掘和重组,展示企业间的关联图谱。不同的数据库制作者对待“全国企业工商信息”这个同一题材的内容选择,其独创性只能体现在编排上。而囿于内容来源的同一、迎合用户使用习惯等原因,各企业工商信息查询数据库的编排方式往往趋近于同质,独创性的区分度并不明显。可见,现代语境中数据库的价值不在于数据集合的简单相加,而在于数据内容的集合价值。而这种集合价值,若仅依靠著作权法的保护,往往力有不逮。无独创性的数据库只能转向寻求反不正当竞争法第9条关于商业秘密条款之保护,但并非所有的数据集合都属于商业秘密,难以满足适用商业秘密条款保护的门槛。于是,司法实践中既无独创性又不构成商业秘密的数据库,只能又向“一般性条款”逃逸,寻求反不正当竞争法第2条的原则性条款的保护。但原则条款的标准界限模糊,法官的自由裁量空间较大,可能导致数据库制作者的权利难以得到有效保护,亦存力有不逮之处。
  因此,我国当前法制体系对于“数据库”的保护无法适应现代信息技术发展的时代要求,可将“数据库”视为知识产权法中邻接权的客体,创建数据处理者权,将具有独创性的数据库汇编作品著作权与数据处理者权并列,从而建立一种合理的数据库特殊保护制度,进而达致个人利益与公共利益的平衡。另外,需要注意的是,我国法律文本中“数据库”均为公共部门的数据库,对其保护不可当然地适用著作权法和反不正当竞争法的相关规定和理论。
  2.大数据
  身处当下的大数据时代,“大数据”(big data)愈发成为各行各业中普遍、流行的热门词汇,很多疑难杂症似乎都会随之迎刃而解,但业界并未有统一、权威的“大数据”定义。“大数据”最早出现在天文学和基因学领域,后来成为描述和定义信息爆炸时代产生的海量数据及其相关的技术创新。有学者认为,大数据是大量数据的集合,具有容量(volume)、多样性(variety)、速度(velocity)的“3V”特征,而国际数据公司认为大数据还具有价值(value)。虽然我国法律并未对“大数据”的法律概念予以界定,但依据国务院颁布的《促进大数据发展行动纲要》(国发﹝2015﹞50号)中对“大数据”的定义,大数据是指“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”。“大数据”所蕴含的极高应用价值在于数据具有“外部性”。同一组数据可在不同的使用维度上,层层产生、开拓新的价值。
  由此观之,“大数据”在本质上仍是“数据”,“数据”是其构成要素,其技术特性之“大”的简单描述未能勾勒出其与较早出现的“数据库”技术之间清晰的界限。“大数据”并非是规模庞大“数据库”的简单集合,二者之间是具有显著区别的,主要体现在以下三个方面:其一,大数据的运算、处理数据的规模更加庞大,常以GB、TB为基本单位处理数据,而数据库一般以MB为单位处理数据;其二,大数据主要针对的是实时产生、飞速增长的结构化与半结构化的数据,而数据库通常只包含主题类型单一、结构化的静态数据;其三,大数据的价值不仅在于收集、汇编与整合海量的数据,更在于对这些数据进行充分地挖掘、分析与使用,从而得出辅助决策的数据信息或知识工具。
  可见,在信息技术的视域中,“大数据”可以被描述为超过传统“数据库”存储和处理能力的数据技术。而我们日常所称的“大数据时代”可以理解为由信息技术科学发展所引起社会变化现象的总称。因此,“大数据”作为一种信息技术,与“数据”不可混为一谈,并且在科学技术领域尚且无法赋予其以准确概念时,“大数据”这一词并不适合直接用于法律文本中。
  (三)数据与信息的辩证
  如前所述,我国法律文本中“数据”与“信息”存在高度混用的现象,引发了学界对于二者内涵与关系的广泛讨论,大致可分为两类。第一,“数据与信息等同说”,即认为大数据时代下数据与信息没有区分的必要或者区分的价值较为有限,主张二者可以交互并用,或须统称为“数据信息”方可整体把握大数据。第二,“数据与信息区分说”,即认为数据与信息应当有所区分。针对数据与信息之间的区分关系,又主要有以下三种理解:其一,“数据与信息分层说”,即认为数据可划分为数据载体层、句法符号层与数据内容层,信息存在于数据内容层,二者不存在范围上的隶属关系;其二,“数据大于信息说”,即认为数据包含信息,数据上承载的内容包含信息与非信息;其三,“数据小于信息说”,即认为信息包含数据,除电子数据外,信息还可通过其他非电子数据的形式被记录。尽管诸多学者对于数据与信息之关系的理解分歧仍存,但已形成了“数据为信息的载体,信息是数据的内容”的通说共识,应无疑义。当下,越来越多的学者参考诸如信息情报学、计算机通信技术等其他学科领域的相关知识,用来阐释法学领域中的“信息”与“数据”之间的关系。此种研究方法和趋势固然值得肯定,但不同学科领域中亦存在着对于“信息”与“数据”之间关系的不同理解,若一味借鉴其他学科领域的知识,似乎说服力仍显不足。因此,本文认为,首先应须回归法学视域,通过考察我国法律文本的方式来把握“数据”与“信息”的关系。
  虽然我国法律历来混用“数据”与“信息”,但随着对现代信息技术理解的增进,立法者在法律文本中有意区分使用二者的态度也愈发明显。例如,我国2017年民法总则在立法过程中虽试图以知识产权客体的方式规定“数据信息”,但鉴于“数据”的概念范畴、权利和义务内容存在较大争议,民法总则自二审稿开始使用“数据”一词替换了原来的“数据信息”,并最终采取了分别规范的路径,于该法的第127条对“数据”的保护仅作了原则性的规定、第111条对“个人信息”的保护作了明确规定,民法总则的上述条款均被民法典完全承继;2016年网络安全法在附则中分别使用了两个定义条款并列规定了“网络数据”与“个人信息”的内涵,并将有关网络数据安全的规范主要设置于该法第三章与第五章、将涉及个人信息安全的规范集中设置于该法的第四章;《中华人民共和国刑法修正案(十一)》中的第4条也对“数据”与“信息”进行了并列区分的规范;2021年数据安全法也在定义条款中区分使用了数据与信息的概念,该法第3条第1款规定“本法所称数据,是指任何以电子或者其他方式对信息的记录”,强调了数据为信息的记录载体,载体的方式可为电子或其他介质;2021年个人信息保护法第4条第1款也规定了“个人信息”是“以电子或者其他方式记录”的“各种信息”。可见,立法者对于“数据”与“信息”不可混用、分别规范的倾向业已逐渐彰显,故法律文本中的“数据”与“信息”亦应当有所区分。
  那么,“数据”与“信息”之间有何逻辑关联呢?在信息链的传统语境中,事实是客观事物运动的表现,数据是按一定规则排列组合记录信息的物理符号,信息则是数据被赋予现实意义后的映射,也即“信息=数据+意义”。随着现代信息技术的更新换代及其在不同领域的广泛适用,信息时代中的“数据”不再限于单纯意义上对客观事实的测量数值,而是对人与人、人与客观世界交互行为的自动化记录,还包括文本、音像、信息技术中的符号代码等。虽然此时的数据作为信息载体的媒介形式多样,但仍只能将特定数据置于特定的背景与规则中进行解读,方可获取特定的信息。从此意义上讲,“数据”是“信息”及“信息技术”的“原材料”,涵盖范围较信息更广。诚然,现实中的数据与信息往往很难做到严格区分,因为数据与信息是可以相互转化的。例如,对一组数据的解读、加工、重组等处理行为会使所提取出的信息往往又通过数据这一媒介方式保存下来,从而成为下一次数据处理的“原材料”,进而实现数据的层层集聚与不断进化。虽然“数据-信息-数据”这一连续且区分的过程在一定程度上被现代信息技术所“熨平”,但是“信息=数据+意义”的公式仍可成立,数据与信息之间的差异仍然存在,并且以信息技术为记录方式与其他的记录方式在本质上并无二致,以普通书面形式等非信息化的“数据”媒介也将在未来较长时间内大量存在。因不同数据使用者处理数据的“意义”各异,同一数据对于不同使用者具有不同的使用价值,这也是数据独立价值的体现。只有充分认识并且足够重视“数据”与“信息”之间的区分关系,才能在法律文本中对二者进行更为妥善的分类规制,即“数据”侧重于载体,“信息”侧重于内容,方能解开信息时代下数据赋权与数据规制的混序状态。
  因此,应对我国法律文本中“数据”与“信息”的模糊性混同使用予以区分解释:其一,对于法律文本中所使用的“数据等信息”,其本质上是“信息”,指的是不同公权力部门或其他使用者出于不同的管制目的或处理意图,对于包括数据在内的记录予以提炼可获得的信息;其二,对于法律文本中所使用的“信息等数据”,其本质上应为“数据”,此时的“信息”只是用来表征数据作为媒介所承载的内容层面,用以区分不同的数据类型;其三,对于法律文本中并列使用的“数据信息”“信息数据”和“数据、信息”,指代的均是“数据”与“信息”,包含以信息技术符号或其他方式对客观事实的记录与记录中所含的信息内容。
  (四)小结
  通过上述对数据与数字、信息技术、信息等概念内涵区分的相关阐释,“数据”的法律内涵自然也呼之欲出了。本文将“数据”定义为:以数字、文本、音像、信息技术符号或其他形态为载体对客观事物的记录。这一定义还原数据的“本然之理”,强调数据本质为记录载体,可以统合信息技术记录方式与其他记录方式的概念范畴,使得散现于各数据规范中的“数据”内涵“形散而神聚”,既契合我国数据安全法第3条第1款定义数据的规范意旨,也符合当前信息时代下数据法治的实践需要。
数据的法治谱系
  (一)数据法治谱系的思考范式
  数据实践方兴未艾,数据研讨如火如荼,数据的内涵业已释明,应进一步廓清数据的法治目标与法制框架,为在我国法律文本既有框架的基础上建构逻辑清晰、维度完备、内容齐整的规制谱系提供理论依据和立法参考,推动我国数据法治走向成熟与完善。现有对数据的法学研究较为热衷于数据类型的划分以及将此作为数据权益配置的基础,本质上仍是对数据实践中利益分配的关注,不利于建构完整的数据法治图谱。既有主要承载数据规制规范的网络安全法、数据安全法的内容各有侧重、维度较为单一、系统性不足,尚无法全面撑起数据法制框架的“四梁八柱”。因此,从整体性的视角观察、规制数据更为必要,应从整体与部分相互依赖与制约的关系中揭示对象的特征和规律,不再拘泥于单一考察静态数据要素,而更注重把握动态数据实践的连续性、全局性,如此方能匹配信息时代下数据的庞大规模及其内部的复杂性,以致“数据采集”“数据处理”“数据共享”“数据安全”等规范表达与规制内容不会落空。
  实现数据法治谱系的连续性,须注重数据法治的价值考量。数据法治的价值目标有二:其一,平衡数据利用与数据保护之间的价值;其二,平衡个人、数据业者与公权力机关三方数据权益间复杂利益的价值。这也是数据法治时代无法回避的根本性命题。数据已经被定位为一种生产要素,无论是政府、企业还是个人,都从理性人的角度追求数据的利用价值。在数据利用技术的加持下,数据自然属性中蕴藏的经济红利得以充分释放,数据技术辅助精准决策、精准营销和精准医疗等也真切地为人们提供了便利。但是,数据的利用也是一把“双刃剑”,大量数据的汇聚过程也会带来相关风险问题的聚涌,个人隐私的泄露、公私财产的受损乃至威胁国家安全,不一而足,我们不能重蹈“公地悲剧”的覆辙。又鉴于数据利用技术的发展可能为保护或侵犯法益的行为提供巨大助力,数据承载的人格利益(如个人生物识别信息、隐私等)等关涉人格尊严和人身自由的法益,并非必然优先于数据利用之利益。如果对于数据利用的限制过于严苛,不仅会阻碍数据经济价值的充分彰显,还会使得信息技术裹足不前。个人对于其数据与信息保护的要求、数据业者对个人信息与公共数据等数据化利用的需求、公权力机关履行公共管理职责收集与利用公共数据的需要互相交织,使得三方主体间的数据权益配置需求多元且难以量化。可见,想要彻底实现数据法治的价值目标的难度很大,涉及的价值判断众多,还须学界与实务界进一步探讨,但不妨碍价值平衡原则可以描绘出数据谱系的连续性,并作为数据法治的基本原则。
  实现数据法治谱系的全局性,须立足于数据生命周期的全过程。为充分保障数据利用的自由与安全,达致数据法制框架的全局统一,应直接面向数据整个生命周期的治理逻辑。生命周期原为生物学上的概念,后被用于其他领域展现物体由诞生到消灭的全过程。莱维特首次将生命周期概念应用于产品开发上,提出了产品生命周期的概念。此后,随着信息技术的推广,以信息技术符号为载体的“数据”样态迅速增加,产生了数据生命周期理论。数据生命周期理论指的是数据从创建到销毁的整个过程,可以被划分为若干阶段。对数据生命周期的阶段性划分肇始于信息技术和情报学领域。泰勒提出了包含数据、信息、告知的知识、生产性知识和实际行动在内的五阶段的划分法,但由于技术进路与管理方法的差异,现阶段关于数据生命周期的理论模型已经多达40多种。尽管学界划分依据多样,结合我国数据安全法第3条第2款对于数据处理过程的界定,本文将数据生命周期划分为:收集、存储、加工、传输、应用、公开与销毁等7个阶段。这些阶段可以清晰地展示不同时段数据法治的规制脉络,也是构建数据法治谱系“四梁八柱”的重要维度。
  (二)数据法治谱系的重要维度
  1.数据收集
  数据收集是数据业者根据自身需要和被收集者的需要收集相关数据的行为,又称“数据获取”或“数据采集”。数据的收集是生命周期的起点,是数据集聚、拓展的“源头”。随着人脸识别、5G技术的飞速发展,诸如指纹、人脸、虹膜等人体生物特征被广泛应用于移动支付、场景解锁等情境中,这些数据的采集及其泄露风险关涉重大。信息时代的数据风险是一个非常复杂且系统的问题,个人很难对数据收集行为隐含的风险作出合理判断,而需要数据收集者的特别提示与专门说明。因而我国网络安全法第41条对数据的采集制定了明确且严格的限制性措施,规定网络运营者收集个人信息时,应主动公开收集、使用的规则、目的与范围,并必须征得被收集者同意。实践中网络平台运营者违反合法、正当、必要之原则,通过隐私协议等格式条款取得用户同意并违规收集相关数据的案件屡现报端,可以建立特别的数据收集格式条款的可撤销与无效认定规则,调和数据收集者与被收集者之间的权益冲突。
  2.数据存储
  以信息技术符号为载体的“数据”须依托存储介质方能存在。大数据时代下,海量、多源、异质数据的汇合存储,对于数据存储容量、存储稳定性以及存储的安全性提出了更高的要求,数据泄露的风险亦如影随形。数据泄露的风险贯穿于数据生命周期的全过程,但数据存储阶段作为大量数据的静态集聚,须更注重数据泄露的风险防范。为此,我国民法典第1038第2款、网络安全法第21条与第42条第2款、消费者权益保护法第29条第2款,均专门规定了数据业者确保数据安全、防止数据泄露的义务。但是,随着信息技术与现代生活的深入融合,数据与个人也深度绑定在了一起,数据的泄露更多是关乎于人,而非记录本身。当数据遭受网络攻击或网络偷盗行为而导致的泄露,常常是侵犯了受害人对其隐私、自我决定等权利,而非仅仅是财产损害。因此,在数据泄露造成的损害赔偿问题中,可以从权益损失的角度去界定此种损害的本质,从而避免损害的财产评估困难成为否定救济的理由,更好地保护数据所承载的人格利益。
  3.数据加工
  经过收集、储存形成的原生数据一般还不能直接用作生产要素,原生数据须经清洗、脱敏、匿名、计算等处理环节生成衍生数据,这一过程被称为“数据加工”。以数据的产生方式或价值内容为标准,原生数据与衍生数据的分界线便在数据的加工环节。数据的加工是数据价值的进一步拓展,最终为数据要素的分析价值奠定基础。匿名化、脱敏化是原生数据加工的重要环节,原生数据承载的具有标识性的人格属性被去除后所形成的衍生数据,是财产利益属性更为凸显的记录。当然,因数据的加工过程可以反复叠加、一直运行,如同数据与信息可以相互转化一样,衍生数据可能再次作为原生数据而被再一次加工。实践中,数据的加工环节往往具有独创性,衍生数据又具有非物质性、无体物等属性。因此,有学者主张衍生数据应当属于民法典第123条规定的知识产权其他客体范畴,以鼓励数据价值的挖掘和创新。
  4.数据传输
  数据传输是指数据从一个载体通过信息技术手段传输到另一个载体的流动过程。数据传输技术是数据流通的重要保障,包含数据查询、数据交换、数据调用、数据提供、数据交易等类型。数据业者内部的数据传输,是制作数据产品的重要步骤。而数据业者之间、数据业者与数据使用者之间外部的数据传输,是实现数据应用价值的必要手段。数据传输阶段的监管,是整个数据监管体系的关键内容。我国网络安全法第42条第1款将“经过处理无法识别特定个人且不能复原”作为禁止向他人提供个人信息的例外,那么没有经过匿名化、脱敏化处理的数据原则上应是禁止向他人提供的。网络空间生态中数据的巨量传输与流动,使得数据传输的对象常涉及境外机构、组织或个人,传统的数据属地管辖模式已经松动,需要重塑新的国际统一规则。网络安全法第37条对跨境数据传输采取了必要性与安全性的评估方案,但没有细化规范评估标准,存在一定的不确定性和不可预见性,这是我国数据跨境传输规则与国际接轨需要解决的重要问题。
  5.数据应用
  数据应用是指经过数据的量化、分析、重组等技术充分挖掘后,将得到的结果运用于实际生活场景的过程。数据的聚合应用进一步彰显和增添了数据所蕴含的经济价值与公共价值,也使得数据的应用场景愈发丰富,常见的有“某某行业+大数据”,如金融大数据、健康大数据等。大量个人数据的汇聚,也为自动化研究定制不同行业、不同阶层的用户决策辅助方案提供了可能。这种自动化决策辅助机制在极大提升决策效率、降低决策风险的同时,也带来了“信息茧房”“算法黑箱”“算法歧视”“大数据杀熟”等现象,侵犯了用户隐私权、知情权、选择权和公平交易权。我国目前对数据应用的法律规制主要以分散式立法的方式散现于不同层级的规范性文件中,例如规制“大数据杀熟”价格歧视的消费者权益保护法第8条、价格法第7条、电子商务法第77条等。当前信息时代背景下,亟需通过设置算法权力清单、确立算法正当程序原则、打造算法问责机制等方式,建构数据应用法律规制体系。
  6.数据公开
  数据公开是相对于数据保密而言,指数据拥有者主动将数据公开,允许他人访问的行为。数据公开中的数据虽然可见可访问,但却无法进行结构化提取,此为数据公开与数据开放之间的显著区别。按照主体的不同,可以将数据公开分为政务公开数据、企业公开数据和个人公开数据。国家机关公开数据对数据产业与数字经济发展、公共决策水平提升、司法公信力增强与社会治理能力现代化等方面的推动意义重大。为此,我国数据安全法第41条规定了国家机关的数据公开义务。国家机关公开数据带来巨大社会效益的同时,也有一些潜在风险需要防范。首当其冲的是,数据公开行为会泄露公民的个人隐私,遭遇如司法数据公开与被遗忘权相互冲突的博弈困境,须妥善平衡数据公开的效益与风险。
  7.数据销毁
  数据销毁是数据生命周期的最终阶段,指操作数据及数据存储介质、使数据彻底删除且无法复原的行为。根据销毁方式所针对的对象不同,数据销毁还可以被分成“软销毁”与“硬销毁”。数据软销毁是指采取数据覆写法对原有数据进行擦除或替换,使原有数据无法恢复。数据硬销毁是指用物理粉碎、焚烧、消磁等方式,对数据存储的物理介质予以彻底销毁。可见,数据销毁对于数据的破坏性是极大的,因而销毁的对象通常是无用、无效的数据。在我国现有的法律文本中,数据销毁的概念起始于国家秘密、国家安全信息的保密义务,而在信息社会中,保密义务也演化为“数据安全保障义务”和“个人信息保护义务”。
结语
  习近平总书记指出,“要以现存法规为基础,以忠实于法律文本载明的规则进行思维”。如果我们缺乏对法律文本的足够关注,不着力发掘概念蕴含的深层内容,则可能难以准确把握立法者原初的真实意图,从而造成法学概念与非法学概念的混同使用、概念与概念间的含混不清,进而无法建构特定概念的法治谱系。
  法律的语言应该是确定的,但法律又是以社会为基础的。随着现代信息技术的迅猛发展与广泛应用,“数据”的法律内涵必然处于不断的变化与发展当中。我国法律文本中的“数据”语义类型多样,既有具体专业领域的数据类型,也有数据利用场景的呈现,还有数据法治谱系建构所应考虑的规范表达。建构数据的法治谱系,应以现有的法律文本作研究的指引手册,以数据生命全周期为观察视角,方能实现数据利用与保护之间的动态平衡。



推荐阅读-向上滑动,查看完整目录-


《比较法研究》2022年第5期目录

【习近平法治思想研究】

1.习近平法治思想中的监察法治监督理论

秦前红(1)

2.习近平法治思想中的司法体制改革理论研究

吴卫军(16)

【专题研讨】

3.知识产权视野下商业数据保护研究

冯晓青(31)

4.论个人信息概念的不确定性及其法律应对

丁晓东(46)

5.我国法律文本中的“数据”:语义、规范及其谱系

张红(61)

6.数据限制处理权的法理基础与制度建构

崔聪聪(75)

【论文】

7.自洗钱入罪后的争议问题

张明楷(89)

8.企业合规改革视野下单位犯罪主体分离论与归咎责任论之提倡

王志远(104)

9.自动驾驶刑事风险研究

——刑事追责的困境与对策

程凡卿(118)

10.意大利行政诉讼中原告资格的认定与反思

罗智敏(131)

11.论规范性文件附带审查的“重复审查”

周乐军(142)

12.论农村集体经济组织对集体土地所有权的代表行使

——《民法典》第262条真义探析

宋志红(154)

13.论上市公司双层股权架构的兴利除弊

刘俊海(169)

14.人工智能时代算法垄断行为的反垄断法规制

殷继国(185)







《比较法研究》是由中华人民共和国教育部主管、中国政法大学主办、中国政法大学比较法学研究院编辑的法学期刊,为双月刊,逢单月25日出版发行。《比较法研究》是纯学术性法学期刊,主要刊载比较法学研究的学术论文,现设有“论文”、“专题研讨”、“法政时评”、“法学译介”等栏目。


-END-

责任编辑 | 王睿

审核人员 | 张文硕 宋思婕

本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。


往期精彩回顾

《比较法研究》2022年第4期要目

《比较法研究》2022年第3期要目

王锡锌:行政机关处理个人信息活动的合法性分析框架 | 比较法研究202203

陈兴良 | 共犯行为的正犯化:以帮助信息网络犯罪活动罪为视角 | 比较法研究202202



关注下方公众号,获取更多法律信息


点击「在看」,就是鼓励
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存