查看原文
其他

联邦学习在工业物联网领域的应用

Gustavo 开放隐私计算 2024-01-09




谷歌在 2018 年剑桥分析丑闻期间提出了联邦学习 (Federated Learning,简称FL) 一词。当时由于对数字隐私的担忧,在线共享个人信息受到全球关注。缺乏隐私会导致敏感数据高度暴露于网络攻击和信息黑客攻击,因此欧盟通过执行通用数据保护条例有了一个更进一步的解决方案(GDPR)。GDPR 为作为数据控制者和处理者的公司制定了数据共享/存储的规则和限制。

该法规促使开发人员寻求提供隐私保护技术和方法,于是在现有应用程序/行业中广泛使用的传统集中式机器学习方法基础上,更关注隐私保护的FL诞生了。

数据隐私

01传统的集中式学习模型

在传统的集中式模型中,用于训练模型的所有数据都被收集并存储在一个中央位置,这个位置可以是数据中心,也可以是云提供商。机器学习模型和进行预测或分类的训练是在这个级别完成的。在训练期间,将从边缘设备(客户端)收集的数据分成批次,模型通过随机梯度下降(SGD) 方法从这些批次中学习。

根据Analytics Vidhya SGD 一次为数据集中的每个训练示例更改每个训练样本的参数

SGD 用于调整模型的参数,以最小化训练数据的预测和实际结果之间的差异。一旦数据经过训练,就可以部署它以对新数据进行预测或分类。然后,用户通过 API 发送访问特定功能的请求来使用 ML 模型。

这种类型的通信称为REST API,其中服务器公开一个 API,用户可以使用该 API 将数据发送到服务器进行训练或从训练模型接收预测。集中式模型中的通信基于客户端-服务器架构(如下所示),其中服务器充当 ML 模型的中央权威,客户端负责将数据发送到服务器或接收来自服务器的预测。

集中式 ML 模型,其中边缘设备将数据发送和接收数据到完成 ML 模型和训练的集中式 ML 数据库02传统模型的限制

主要使用集中式机器学习的行业是金融、电子商务和医疗保健,其中模型用于欺诈检测、推荐和医疗诊断等任务。集中式架构适用于大量数据被收集并存储在集中位置的行业,但是,这也可能继承许多与隐私问题有关的风险。这些限制的一些常见示例:

  • 数据泄露:存储在中央位置的数据泄露可能会暴露成千上万人的隐私。
  • 数据多样性:当数据存储在一个中心位置时,这可以被视为一种有偏见的模型,因为它可能无法代表其用于进行预测的人口。
  • 有限的责任和控制:当数据存储在中央位置时,用户的控制有限,当数据泄露发生时,很难追究组织的责任。
03联邦学习

联邦学习的架构不同于传统模型,因为联邦机器学习是跨多个协作训练 ML 模型的边缘设备(客户端)完成的。在这种情况下,原始数据不会传输到中央位置,因为模型是在每个设备上本地训练的,并且只有模型更新会发送到中央服务器。聚合更新用于创建改进的中央 ML 模型。

在 FL 中,每个设备训练一个模型并将其参数发送到服务器进行聚合。数据保存在设备上,知识通过聚合模型与同行共享

联邦学习过程中的物联网设备负责存储原始数据并使用这些数据训练本地模型。然后使用存储在设备上的数据训练本地模型。使用 SGD 方法更新本地模型。IoT 设备将模型更新发送到中央服务器。当中央 ML 模型从 IoT 设备接收更新以改进它时,就会发生模型聚合(一种常见的方法是使用联合平均算法)。


new_global_model = sum (w_i * local_model_i) / sum (w_i)其中:'new_global_mode' = 更新后的全局模型'local_model_i' =在“第 i 个”物联网设备上训练的本地模型'w_i' = 分配给“i”的权重-ith'代表用于训练本地模型的样本数量的物联网设备

更新后的全局模型被发送回物联网设备,该过程在多次迭代中重复进行以提高其准确性。

04在IOT应用中的优点和缺点物联网设备联合机器学习的目标是解决与集中式机器学习相关的隐私和可扩展性问题。这特别解决了处理敏感数据的问题,因为原始数据仅保存在 IoT 设备上。这使组织能够在多个设备上训练机器学习模型,而无需将此数据传输到中央位置。
目前,联邦学习面临着处理异构数据源(每个设备具有不同且独立分布的数据)和确保敏感模型的数据隐私和安全等技术挑战。物联网设备的计算资源也可能有限,这使得训练复杂模型具有挑战性。此外,必须保护设备上数据的隐私,以确保不泄露机密信息。联邦学习仍然被认为是一个新兴话题,并且正在进行的研究正在开发新技术以使其更有效和可靠。05工业物联网的应用场景举例联邦学习模型旨在处理分布在多个设备或服务器上的数据。数据可以包含任何适合机器学习的形式,例如数字、图像、音频和文本数据。在工业物联网 (IIoT) 领域,利用联邦学习在使用预测性维护的工业自动化领域非常有效。数据如:
  • 过程控制:温度、压力、流量、能耗

  • 质量保证:次品率、成品率、服务水平、客户满意度

  • 设备监控:停机时间、温度/振动、平均维修时间

对于在其组织内使用自动化的客户来说,这些数据可能是一个隐私问题。使用 FL方法训练机器学习模型意味着数据在边缘设备上进行本地训练,从而可以建立数据的隐私和安全性。图:工业自动化中 IIoT 设备的概念架构。参考:Edge Powered Industrial Control联邦学习在组合来自多个来源的数据以训练可用于改进制造流程、减少停机时间和优化设备性能的机器学习模型时也很有用。在可扩展性方面,联邦学习方法可用于根据来自多个工厂的数据训练 ML 模型,以识别常见模式和趋势。这些组织可以使用它们来识别其工厂中的常见模式和趋势。然后,聚合 ML 模型可以做出预测或建议,以优化所有工厂的运营。联邦学习方法可以存在于 IIoT 的不同领域,例如:
  • 能源管理:优化能源消耗并降低成本

  • 质量控制:识别制造过程中的缺陷和质量问题

  • 供应链:从物流运输系统优化供应链运作

  • 环境监测:使用环境传感器监测空气和水质,以检测污染和预测环境风险


06联邦学习的最新进展如前所述,联邦学习是一个活跃的研究领域,该领域已经取得了多项进展。安全聚合和差分隐私旨在为敏感数据端到端的完全隐私/加密提供解决方案。正在压缩 ML模型以减小其大小,以满足在物联网设备上有效运行所需的计算资源,从而提高效率并保持模型准确性。联邦迁移学习是一种新技术,它允许ML模型在处理不同的数据分布时在不同的联邦学习应用程序之间迁移。07总结总的来说,联邦学习模型或集中模型的应用和使用将在很大程度上取决于数据的性质和 ML 模型的目标。两种方法之间的主要区别在于数据和计算的分布。组织必须首先确定他们控制或处理的数据是否受隐私法规的约束。或者,组织可以使用集中式模型和联邦学习模型的混合方法。

【参考文献】

1.Abdulrahman, S., Tout, H., Ould-Slimane, H., Mourad, A., Talhi, C., & Guizani, M. (2020). A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site Learning and Beyond. IEEE Internet of Things Journal, PP.

2.K. A. Bonawitz, Vladimir Ivanov, Ben Kreuter, Antonio Marcedone, H. Brendan McMahan, Sarvar Patel, Daniel Ramage, Aaron Segal, & Karn Seth (2016). Practical Secure Aggregation for Federated Learning on User-Held Data. In NIPS Workshop on Private Multi-Party Machine Learning.

3.Sun, T., Li, D., & Wang, B. (2023). Decentralized Federated Averaging. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(4), 4289–4301.

4.Yiqiang Chen, Jindong Wang, Chaohui Yu, Wen Gao, & Xin Qin (2021). FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare. CoRR, abs/1907.09173.

本文由“开放隐私计算”整理翻译,转载请注明来源。


END
热门文章:




隐私计算头条周刊(06.05-06.11)


讲师招募|欢迎加入“隐私计算共学计划”


开放银行数据保护与合规的10个典型实践案例


冯登国院士最新演讲全文:数据安全新方向—数据使用安全


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存