查看原文
其他

速览联邦学习技术史,哪些突破支撑起了联邦学习的大厦?






隐私计算概览


如果从1940年代克劳德·香农开启现代密码学算起,至今隐私计算已有70多年的发展历史,走过了萌芽期、探索期、成长期,目前正处于产业应用期。这大体上是一条以现代密码学为主线、协同信息论、统计学、数论、计算机体系结构等学科融合发展的演进历程。


从技术角度看,目前主流的隐私计算技术主要分为三大方向:一类是以多方安全计算、同态加密等为代表的、基于密码学的隐私计算技术;一类是以联邦学习为代表的、人工智能与隐私保护技术融合衍生的技术类型;一类是以可信执行环境为代表的、基于可信硬件的隐私计算技术。


Gartner每年发布的技术成熟度曲线报告,因其前瞻性和多年对全球科技趋势的连续跟踪,已经被视为了解全球科技新动向最具参考意义的报告之一。近两年,联邦学习被纳入Gartner技术成熟度曲线报告,处于创新应用阶段的联邦学习正受到越来越多的关注,这也恰好契合了数字时代的需求。




联邦学习发展史


随着人类社会数字化进程越来越快,产生了大量数据。通过机器学习技术可以自动化地挖掘数据中蕴藏的宝藏,经过大量数据训练出来的机器学习模型已经应用在各类场景中,正在深刻改变着我们的世界,例如精准医疗、临床辅助诊断、新药研发、人像识别、声纹识别、千人千面推荐算法、图片、语音、自然语言等多模态学习。在应用中,模型的精度、泛化能力等至关重要,而这些都赖于机器对大量数据的学习。


受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,多个数据来源方无法直接交换数据,形成“数据孤岛”现象,制约着人工智能模型能力的进一步提高。联邦学习的诞生即是为了解决这一问题。


联邦学习的技术理论基础可以追溯到分布式数据库(Distributed Database)关联规则挖掘技术,1996年,Cheung等人首次提出在分布式数据库中实现关联规则(Association Rules)挖掘(1)


2006年,Yu等人提出了在横向和纵向分割的数据上,实现带有隐私保护的分布式支持向量机建模(2), (3)


2012年,王爽教授团队首次提出分布式隐私保护下的在线机器学习等概念(4),并首次解决医疗在线安全联邦学习问题,该框架服务于多个国家级医疗健康网络,也是联邦学习系统构架层面的突破。


2016年,Google AI团队提出联邦学习算法框架应用于移动互联网手机终端的隐私保护(5)


2019年,微众银行AI团队提出联邦迁移学习(6),结合联邦学习和迁移学习并发布FATE开源系统。


2020年,李晓林教授首创知识联邦理论体系(7)


2021年3月,IEEE正式发布联邦学习首个国际标准《IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning》(8)



联邦学习(Federated Learning)是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,即“数据可用不可见”、“数据不动模型动”的应用新范式。




联邦学习之争——重要节点及里程碑



2012

王爽:提出医疗在线安全联邦学习框架


2012年,王爽教授团队提交并于2013年发表在SCI学术期刊Journal of Biomedical Informatics的《Expectation Propagation Logistic Regression (EXPLORER): Distributed privacy-preserving online model learning》论文,这是目前有据可查的全球第一篇医疗在线安全联邦学习文献,论文提出了数据“可用不可见”问题,在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模的概念。同年,该团队发表了开源联邦学习框架“WebGLORE: a web service for Grid Logistic Regression”(9),该底层技术服务于多个医疗网络数据的联邦建模需求

2016

Google:联邦学习移动端应用框架


2016年,Google AI团队提出联邦学习算法框架应用于移动互联网手机终端的隐私保护。该算法框架主要针对设备数据集进行协同机器学习模型训练,让数据在不离开设备的情况下,可以在多种设备上训练共享机器学习模型。2019年,Google实现了第一个产品级的移动端联邦学习系统,并把该系统从联邦学习推广到联邦计算和联邦分析。

2019

微众银行:发布联邦学习开源项目FATE


2019年2月,微众银行AI团队对外发布自主研发的联邦学习开源项目FATE(Federated AI Technology Enabler)。FATE提供了一种带有数据隐私保护功能的分布式安全计算框架,为机器学习、迁移学习算法提供隐私计算支持。同时,FATE提供了一套跨域交互信息管理方案,提供联邦学习信息安全审计功能。

2020

李晓林:提出知识联邦学习理论体系


2020年,李晓林教授提出知识联邦理论体系(7),知识联邦是一个安全多方应用框架,它支持安全多方查询、安全多方计算、安全多方学习、安全多方推理等联邦应用。知识联邦关注的是数据到知识的全生命周期隐私安全保护,包括知识创造、管理和使用及其监管,设计目标是面向生产环境的知识联邦生态系统,致力于推动人工智能发展。





展望


联邦学习作为机器学习的一个新分支,为人工智能和大数据的广泛应用打开了一扇大门。在加强对数据使用权、所有权和管理权的控制,降低数据滥用等风险,提高大数据应用质量,增强业务合规性,减少数据业务风险等方面,联邦学习提供了关键的技术支撑。


当前,以联邦学习为关键技术路线之一的隐私计算产业生态日渐成熟,互联网厂商、初创专精型厂商、人工智能厂商等各领域企业纷纷入局,推动了隐私计算技术的研发创新,也使得医疗、金融、政务等相关垂直领域的行业应用逐渐丰富,形成了百花齐放的行业发展态势。



参考资料:


隐私计算联盟, 中国信通院云大所. 隐私计算白皮书(2021年)

中国信通院. 联邦学习场景应用研究报告(2022年)

工信安全. 中国隐私计算产业发展报告(2020-2021)

中国移动通信联合会, 中科院信工所, 中国信通院. 2021隐私机密计算蓝皮书

CBInsights. 2022年中国隐私计算技术与市场发展研究报告

交通银行. 隐私计算金融应用蓝皮书

同盾科技人工智能研究院. 知识联邦白皮书

微众银行等. 联邦学习白皮书v2.0


参考文献:

1. Cheung DW, Han J, Ng VT, Fu AW, Fu Y. A fast distributed algorithm for mining association rules. In: Fourth International Conference on Parallel and Distributed Information Systems. 1996. p. 31–42.

2. Yu H, Jiang X, Vaidya J. Privacy-preserving SVM using nonlinear kernels on horizontally partitioned data. In: Proceedings of the 2006 ACM symposium on Applied computing. New York, NY, USA: Association for Computing Machinery; 2006. p. 603–10. (SAC ’06).

3. Yu H, Vaidya J, Jiang X. Privacy-Preserving SVM Classification on Vertically Partitioned Data [Internet]. Advances in Knowledge Discovery and Data Mining. 2006. p. 647–56. Available from: http://dx.doi.org/10.1007/11731139_74

4. Wang S, Jiang X, Wu Y, Cui L, Cheng S, Ohno-Machado L. EXpectation Propagation LOgistic REgRession (EXPLORER): distributed privacy-preserving online model learning. J Biomed Inform. 2013 Jun;46(3):480–96.

5. Konečný J, Brendan McMahan H, Yu FX, Richtárik P, Suresh AT, Bacon D. Federated Learning: Strategies for Improving Communication Efficiency [Internet]. arXiv [cs.LG]. 2016. Available from: http://arxiv.org/abs/1610.05492

6. Gao, D., Liu, Y., Huang, A., Ju, C., Yu, H., & Yang, Q. (2019, December). Privacy-preserving heterogeneous federated transfer learning. In 2019 IEEE International Conference on Big Data (Big Data) (pp. 2552-2559). IEEE.

7. Li H, Meng D, Wang H, Li X. Knowledge Federation: A Unified and Hierarchical Privacy-Preserving AI Framework. In: 2020 IEEE International Conference on Knowledge Graph (ICKG). 2020. p. 84–91.

8. IEEE Guide for Architectural Framework and Application of Federated Machine Learning. IEEE Std 3652 1-2020. 2021 Mar;1–69.

9. Jiang W, Li P, Wang S, Wu Y, Xue M, Ohno-Machado L, et al. WebGLORE: a web service for Grid LOgistic REgression. Bioinformatics. 2013 Dec 15;29(24):3238–40.


来源:投稿





END
往期推荐:




隐私计算头条周刊(5.29-6.4)


个性化联邦学习 Towards Personalized Federated Learning


探索 | 联邦学习概念辨析与金融应用思考


公开课|数据安全流通技术解—隐私计算


开放隐私计算社区征稿啦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存