查看原文
其他

数据中心能效指标与能耗模型研究

王少鹏 王树岭 中国信息通信研究院CAICT 2019-10-21

导读

高能耗一直是数据中心的突出问题,探寻绿色节能数据中心的建设、运维方案是所有数据中心从业人员共同的目标。能效指标是数据中心能耗情况的客观评价;能耗模型是数据中心能耗内在关联的体现。能效指标和能耗模型对于指导高效能数据中心建设、优化资源调度方案、提高能源利用效率等方面具有重要的作用。本文介绍了能效指标和能耗模型的内容,以期可以抛砖引玉,促进数据中心绿色节能的研究。


一、引言


近年来,互联网、人工智能、物联网等信息技术产业飞速发展,数据中心作为信息产业的基础支撑,建设速度不断加快,规模不断增大。而高耗能一直是数据中心需要面对的突出问题,备受政府、企业、社会关注,对于节能减排和绿色数据中心的研究,不仅有利于企业降低成本,更对社会的可持续发展有重要作用。在政府方面,为规范数据中心节能减排,国务院、工业和信息化部先后发文要求数据中心PUE应优于1.5,北京、上海等地区也对新建和改造数据中心在能耗方面提出更加严格的要求;在企业方面,新能源、高效制冷、智能运维等在绿色数据中心建设、运维等方面的实践已经取得了积极的效果。


对能耗情况的客观评价和设备间能耗关联关系的研究,一直以来都是数据中心绿色节能研究的基础和关键。能效指标主要对数据中心及相关设备能耗情况进行评估,可以客观地反映数据中心及其设备的节能情况;能耗模型对数据中心能耗情况进行建模,是数据中心能耗理解的基础,对能效优化具有重要的作用。


二、能效指标


数据中心能效指标对新建数据中心方案设计和在用数据中心运维管理等方面都具有十分重要的作用。目前,已经有几十种针对数据中心性能进行评价的指标,PUE、ASHRAE 90.4、CADE、EEUE等指标主要对数据中心能效进行评估。除了数据中心整体能效指标外,亦有大量针对数据中心设备、子系统等方面的能效评估指标,其中包括微模块、空调、服务器的能效指标。从设备级到系统级的能耗评价指标,在指导数据中心技术演进、设备研发、绿色运维、能耗模型优化等方面具有重要的意义。本文将主要介绍PUE、微模块和服务器的能效指标,从数据中心整体、子系统、设备3个维度梳理能效指标。


(1)PUE

2007年,绿色网格(The Green Grid)提出PUE的概念,公式(1)为PUE的定义公式。


(1)


其中,Ptotal为数据中心总耗电,包含IT设备耗电、制冷耗电、照明耗电等;PIT为数据中心中IT设备耗电。在数据中心耗电中,IT设备耗电所占的比重越高,证明越少的电能被应用于制冷、照明等,能源利用效率越高。根据公式可知,PUE的值应该大于1,且其值越接近于1时,数据中心能源效率越高。


目前,PUE能效指标是业界公认的、影响范围较大的评估指标,我国政府、企业、科研机构都将PUE作为评估数据中心能效的重要依据。以PUE计算公式为基准,针对不同数据中心的特点和计算要求,PUE的计算方法会略有不同。以Google为例,公式(2)为其公布的PUE计算公式。


(2)


其中,ESIS代表对冷却装置、照明、办公场所及一些联网设备进行供电的设施变电站的能源消耗,EITS代表对服务器、网络、存储设备和机房空调(CRAC)进行供电的IT变电站的能源消耗,ETX代表中高压变压器损耗,EHV代表高压电缆损耗,ELV代表低压电缆损耗,EF代表现场燃料(包括天然气和燃油)的能源消耗,ECRAC CRAC代表能源消耗,EUPS代表对服务器、网络和存储设备的不间断供电(UPS)造成的能量损耗,ENet1代表类型1单位分电站供给的机房能源。根据Google官方的说明,采用以上方法得到的PUE结果更加苛刻。


(2)微模块能效指标

微模块集配电、制冷、监控、照明等于一体,可快速安装部署,是近年来数据中心领域研究的重点之一。模块化的数据中心由多个相对独立的微模块系统组成,微模块的能耗情况直接影响着数据中心的整体能耗情况。2018年11月,TGG(中国)发布《微模块产品PUE测试规范》,在标准方面对微模块能效指标、测量环境、测量步骤等进行规范。其中,微模块PUE定义与数据中心PUE定义相似,是微模块产品总输入能耗(IMDC Total Energy)与微模块产品IT设备能耗(IMDC IT Equipment Energy)的比值。为了统一测试条件,更加客观地评价不同条件下微模块的能效指标,测试规范要求测试在焓差实验室进行。测试规范又考虑了IT负载对PUE的影响,在模拟室外侧温度分别为-5℃、5℃、15℃、25℃、35℃的情况下,测量微模块IT负载为25%、50%、75%、100%情况下的PUE值。最终通过公式(3),得到微模块在不同地区某个负载下的全年平均PUE。其中,PUEa~PUEe分别代表室外温度-5℃~35℃时,某个负载下的PUE值;Ta~Tb代表某个地区全年温度分布系数。


(3)


(3)服务器能效指标

研究机构和企业一直都在对服务器、存储设备、网络设备等进行能耗与节能的研究,以期可以制定评价标准、研发评测工具、推动节能技术发展。美国环境保护署(EPA)联合Intel、IBM、DELL等公司,于2009年发布能源之星服务器规范1.0版本,该规范成为业界较权威的服务器能效标准,并且规范在持续更新之中。在服务器电源方面,规范对电源效率和功率因素进行规范;在服务器方面,规范根据不同类型的服务器种类对空闲功耗情况提出要求,同时也对服务器的扩展组件功耗进行规范。


三、能耗模型建立过程

 能耗模型建立过程中,应当遵循全系统、精确、快速、通用性、弹性、简单等原则。图1为能耗模型的建立过程,并将对能耗建立过程进行分析。


图1  能耗模型建立流程图


(1)能耗组成与关联情况分析

通过对数据中心总体架构、设备组成与分布、IT设备部署等情况进行分析,进而分析数据中心能耗组成、占比情况,并对影响能耗的因素进行逐一梳理;在得到数据中心设备能耗组成与环境条件后,对设备间、设备与环境间的关联和影响关系进行分析,为能耗模型选择建立基础。


(2)能耗模型选择

通过对能耗组成和关联情况的分析,并结合数据中心能耗数据采集和设备自动化控制等方面的因素,从数据中心总体、子系统、设备3个层级,综合选择适用于数据中心能耗建模、易于数据中心能耗优化的模型。同时,能耗模型宜根据数据中心实际情况和3个层级各自的特点,分别选择聚类、线性回归、深度学习等数据挖掘方法。


(3)能耗数据采集

数据是建模的关键,为实现能耗模型的建立,需使用传感器对数据中心实时运行数据进行采集。


(4)能耗模型训练与调优

模型和数据选择完成后,需要完成对模型的训练;在训练过程中,应当调整参数不断优化模型,并利用新生成的数据对模型的效果进行验证和改进。


(5)能耗模型应用

能耗建模的最终目的是通过能耗模型服务于数据中心能耗管理,提高能效。建模完成后可以对数据中心能耗情况进行预测,并为能效优化提供基础支撑。


四、能耗建模关键点分析


能耗数据采集和建模方法选择是能耗建模的关键,其中能耗数据采集主要完成温度、负载、IT设备、UPS、空调等环境信息与设备状态的实时数据采集;能耗建模是以外部数据、历史数据、实时数据等为基础,结合聚类、线性回归算法、非线性回归算法、深度学习等数学模型,从而构建准确的能耗模型;能耗模型主要应用于数据中心状态预测、资源调度优化等方面。其中,能耗数据采集、能耗建模是数据中心能耗模型建立的重要步骤。


(一)能耗数据采集

数据中心能耗模型的建立依赖于数据中心监控数据的获取,而实时能耗分析与预测、设备动态调控等都对数据中心实时监测有更高的要求。因此,数据中心能耗模型建立的基础之一是进行能耗数据的采集。能耗数据采集主要包括以下方面:


(1)IT设备运行与负载情况:包含服务器、交换机、存储系统等设备,可以通过监控和采集上述设备的CPU、内存、流量等信息,实现设备业务运行状态的监控。


(2)数据中心硬件设备能耗数据:包含IT设备、供配电设备、制冷设备、照明设备等,应当从不同层级、不同粒度上监控设备及模块的电流、电压等相关信息。


(3)非IT类设备状态信息:包含空调、UPS等设备,主要监测设备的负载率、运行设置等情况。


(4)数据中心环境监测数据:包含数据中心内部机房温度和湿度、外部天气环境温度和湿度等,其中制冷系统的送回风温度等也应是重点监控信息。


能耗数据采集是能耗模型建立的基础,全面而详细的数据,有利于模型建立、能耗预测等后续工作的开展。因此,数据采集应当覆盖数据中心的各个方面,目前国内外数据中心建设、运维公司都在数据中心安装了大量的传感器,以便于实时了解数据中心的各种状态。根据Google在数据中心方面公开的资料,目前其数据中心的几千个传感器,实时采集温度、耗电量、泵速、设备运行设定等数据。相对而言,国内数据中心目前整体数据监控与采集仍然粗放,为实现能耗模型建立、精细化管理等目标,首先需要建立完善的状态监控与数据采集系统。


(二)能耗建模方法

学术界与产业界提出了诸多能耗模型的建立方法,部分方案已经通过实践验证,并取得了较好的效果。本文将主要对聚类、线性回归、深度学习3种模型建立方式进行讨论。


(1)基于聚类的能耗模型优化方案

聚类是一种无监督学习的方法,可以在无任何先知前提下,根据物体本身特性对其类别进行划分。将聚类算法应用于能耗模型,可以快速简单地发现不同能耗状态之间的关系,从而对能耗状态类别进行划分,并制定每种状态下的类别优化策略,实现能耗模型建立与能效优化的目标。


利用聚类进行能耗模型的建立与能效优化的过程中,首先应选择合适的聚类算法;然后调整参数实现对采集数据的类簇划分;再选取各个类簇中心,以其为研究基础,探讨能效优化的方法。在数据中心运维管理实践中,已经采用了聚类的方法。以聚类作为构建能耗模型的方法,优点是简单易行,但存在精度不高、优化方案工作量大等方面的问题。


(2)基于线性回归的能耗模型优化方案

回归分析通过建立模型,研究自变量与因变量之间的关系。在变量关系分析、预测、时间序列问题研究等方面具有重要的作用。回归分析又可分为线性回归、逻辑回归等不同的方法。而多元线性回归模型是能耗建模分析中常用的方法,其主要讨论因变量与多个自变量之间的线性关系。公式(4)为多元线性回归模型的计算公式。


(4)


线性回归不仅可以对数据中心总体能耗模型进行拟合,同时也应用在服务器、制冷系统等设备和子系统的能耗模型建立上。相对聚类,线性回归能够更加精准的建立能耗模型,但是当能耗变量较多、数据量较大时,模型建立将变得困难。


(3)基于深度学习的能耗模型优化方案

随着数据中心建设水平的不断提高,一方面监控设备的采样能力不断增强,采集数据的种类和数量都不断增多;另一方面,数据中心设备的自动化水平不断提高,集中化的精细式管控成为可能。多样与全面的数据,让构建更加优秀的模型成为可能,集中化的设备管控为数据中心能耗的降低提供基础;然而,与之而来的就是更加复杂的能耗模型构建,该模型需要根据每个数据中心的不同特点,建立设备间的相互影响关系,以及不同环境下设备的实时调控方式。


上述问题对传统能耗模型构建方式、传统设备调度策略带来了挑战。于是,各个机构开始尝试利用深度学习建立模型,并制定数据中心资源调度优化规则。通过深度学习训练CNN、RNN等神经网络,实现构建数据中心能耗模型,形成资源调度策略的目标。根据Google的公开资料,目前其已经将深度学习应用于数据中心能耗的管理。图2为Google应用深度学习管理能耗前后的PUE变化,应用深度学习后,制冷能耗减少40%,PUE降低约15%。利用深度学习能够通过处理大量的数据,建立更加复杂的模型;但与此同时,也对能耗数据采集、自动化控制等方面提出了更高的要求。



图2  Google深度学习应用前后能耗对比图(来源:Google官网)


五、结束语


能效指标是评估数据中心能耗情况的标准;能耗模型是数据中心能耗理解与能效优化的基础。本文从能效指标、能耗模型建立过程与关键技术等方面,全方位梳理了数据中心能效指标与能耗模型的内容。通过以上内容的梳理,不仅可以对数据中心能耗情况进行评估和建模,还可以在结合能效指标和能耗模型的基础上,进一步通过对数据中心资源的调度,实现节能减排的目标。


相信随着数据中心设备管理与控制技术的发展,以及能耗优化理论与技术的提高,数据中心产业将持续绿色健康发展,为互联网、物联网、大数据、人工智能等技术与产业的发展提供基础支撑。



作者简介

王少鹏

中国信息通信研究院云计算与大数据研究所数据中心部高级项目经理,开放数据中心委员会(ODCC)新技术与测试工作组项目经理。


王树岭

中国电力科学研究院有限公司信通所分析评估室咨询工程师。中国电力科学研究院信息通信研究所支撑国网公司互联网部技术服务组组长。



本文刊于《信息通信技术与政策》2019年第2期


《信息通信技术与政策》

由工业和信息化部主管、中国信息通信研究院于1975年主办的《电信网技术》(月刊)自2018年3月正式更名为《信息通信技术与政策》。《信息通信技术与政策》刊载内容在覆盖传统电信领域的基础上向信息、通信和ICT领域延伸。本刊物重点解读行业政策、标准,报道国家重大科研项目成果及业内最新最热产品与技术解决方案。


主要栏目:专题、专家论坛、产业与政策、发展策略、泰尔检测、产品与技术方案。


投稿邮箱:ictp@caict.ac.cn



中国信通院最新推出专业学习服务小程序—“信通微课”,方便您随时随地学习行业领先知识,欢迎体验!


扫描识别下方二维码,或从公众号首页导航栏进入“信通微课”小程序。




校  审 | 陈  力、 珊  珊

编  辑 | 凌  霄



推荐阅读

对液冷技术及其发展的探讨


边缘数据中心:边缘计算风口下数据中心的未来



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存