Data center network equipment board card level temperature inversion method, system and medium
附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。 图1是本申请实施例方法的流程图; 图2本申请实施例方法的神经网络模型的示意图; 图3是本申请实施例方法的计算目标板卡温度的示意图; 图4是本申请实施例的系统框图。 技术领域 本申请涉及数据中心设备数据挖掘和温度计算领域,具体涉及一种数据中心网络设备板卡级温度反演方法、系统及介质。 具体实施方式 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。 下面结合图1-图3,介绍本发明的具体实施方式为一种数据中心网络设备板卡级温度反演方法,包括以下具体步骤: 步骤1:以数据中心中典型的网络设备交换机为例,如华为-S7712系列交换机,该交换机可安装12块业务板卡,首先通过简单网络管理协议采集交换机的历史运行过程中(如过去一天内)各个板卡的接口数据(带宽利用率Bu、接口流量Flow)、交换机的运行数据(CPU利用率CPU_u、内存利用率RAM_u)以及交换机的温度数据Temp,采集时间间隔为5分钟,对采集到的数据进行数据清洗和归一化并按照时间对齐构建数据集; 其中,数据清洗包括异常值提出和缺失值填充,并对各类数据进行归一化,其中,归一化采用最大最小值归一化: 其中xnorm表示归一化后的数据,x表示原始数据。 步骤2:对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 其中,采用平均法对板卡接口数据进行融合从而降维: 其中m为板卡网络接口的数量,Bui和Flowi分别表示板卡的第i个接口的带宽利用率和接口流量。 步骤3:设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2; 模型的输入表示为: 输出表示为: Output1=[CPU_u,RAM_u] 其中,模型的损失函数为: yi=[CPU_ui,RAM_ui] 其中N为数据样本数量,yi为实测值,为预测值。 步骤4:设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 模型的输入表示为: Input2=[CPU_u,RAM_u] 输出表示为: Output2=[Temp] 其中,模型的损失函数为: zi=Temp 其中N为数据样本数量,zi为实测值,为预测值。 步骤5:通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 步骤5所述全连接神经网络模型的初始化参数包括:学习率(learning_rate)、迭代次数(epochs)、批尺寸(batch_size); 通过观察训练集和测试集的准确率和损失曲线,若收敛速度较快但并未达到最佳值,如准确率高于0.95,损失低于0.05,则可适当调小学习率,若收敛速度较慢,则可适当调大学习率;迭代次数通常首先设置的值较大,以获得完整的训练表现,在观察到网络在某次迭代后已经收敛,则可确定合适的迭代次数;批尺寸可预先指定一个值,观察训练曲线表现,若曲线震荡较大,可以适当提高批尺寸。 步骤6:输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 其中,若目标板卡为板卡1,则将其他板卡数据置0,此时全连接神经网络模型1的输入为: 全连接神经网络模型2的输出为: Output2=[Temp1]。 如图4所示,本申请实施例提供一种数据中心网络设备板卡级温度反演系统,包括, 数据采集模块1,采集数据中心网络设备历史运行过程中各个板卡的接口数据、设备的运行数据以及设备的温度数据,进行数据清洗和归一化并按照时间对齐构建数据集; 数据融合模块2,对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 模型建立模块3,设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2,设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 模型训练模块4,通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 目标板卡的温度输出模块5,输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 相较于现有技术,本发明提出一种数据中心网络设备板卡级温度反演方法。通过级联两个全连接神经网络模型分别建立板卡级数据与设备级运行数据之间的联系和设备运行数据与设备温度之间的联系,通过平均法降低输入维度提高神经网络模型的计算效率和准确率,通过冻结除目标板卡外其他板卡的数据,实现目标板卡对应的温度的反演,最终可提高数据中心设备运维管理的精细程度和效率。 本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的数据中心网络设备板卡级温度反演方法的步骤。 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。 以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。 背景技术 数据中心是新型电力系统数字化和智能化的基础支撑设施,数据中心的稳定运行是电力系统各类业务稳定运行的保障。网络设备如交换机、路由器等设备是数据中心的重要组成部分,尤其是核心交换机,由于连接着大量的服务器和其他设备等,当其发生故障时会对数据中心大部分设备造成影响,因此网络设备安全稳定的运行是数据中心稳定运行的基本保障。在新型电力系统的背景下,各类业务的数据量越来越大且实时性要求越来越高,导致了电网数据中心的设备面临着高度繁忙的情况,温度监控是保障设备安全的一种有效手段。 核心网络设备通常由多块板卡组成,然而,现有基于SNMP协议的机房设备运行数据监测只能监测网络设备整体的温度,无法对每块板卡的温度进行监测,造成了运维精度不够的问题,因此,准确的板卡级温度监测成为网络设备运维的迫切需求。 随着人工智能浪潮的迭起,神经网络和深度学习应用到了越来越多的领域之中,神经网络通过其强大的非线性拟合能力可以建立相互关联的不同数据之间的联系,基于此,利用数据中心海量的历史监测信息,使用神经网络模型有助于快速、准确的实现板卡级的温度反演,保障数据中心设备的运行安全。 发明内容 本申请实施例的目的在于提供一种数据中心网络设备板卡级温度反演方法、系统及介质,提高了数据中心设备运维管理的精细程度和效率。 为实现上述目的,本申请提供如下技术方案: 第一方面,本申请实施例提供一种数据中心网络设备板卡级温度反演方法,包括以下具体步骤: 步骤1:采集数据中心网络设备历史运行过程中各个板卡的接口数据、设备的运行数据以及设备的温度数据,进行数据清洗和归一化并按照时间对齐构建数据集; 步骤2:对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 步骤3:设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2; 步骤4:设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 步骤5:通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 步骤6:输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 所述步骤2中的平均带宽利用率和平均接口流量分别为: 其中m为板卡网络接口的数量。 所述步骤3中的全连接神经网络模型1的损失函数为: yi=[CPU_ui,RAM_ui] 其中N为数据样本数量,yi为实测值,为预测值。 所述步骤4中的全连接神经网络模型2的损失函数为: Zi=Temp 其中N为数据样本数量,zi为实测值,为预测值。 第二方面,本申请实施例提供一种数据中心网络设备板卡级温度反演系统,包括, 数据采集模块,采集数据中心网络设备历史运行过程中各个板卡的接口数据、设备的运行数据以及设备的温度数据,进行数据清洗和归一化并按照时间对齐构建数据集; 数据融合模块,对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 模型建立模块,设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2,设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 模型训练模块,通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 目标板卡的温度输出模块,输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的数据中心网络设备板卡级温度反演方法的步骤。 与现有技术相比,本发明的有益效果是: 通过级联两个全连接神经网络模型分别建立板卡级数据与设备级运行数据之间的联系和设备运行数据与设备温度之间的联系,通过平均法降低输入维度提高神经网络模型的计算效率和准确率,通过冻结除目标板卡外其他板卡的数据,实现目标板卡对应的温度的反演,提高了数据中心设备运维管理的精细程度和效率。 The invention relates to a data center network equipment board card level temperature inversion method and system and a medium, and the method comprises the following specific steps: collecting the interface data of each board card, the operation data of the equipment and the temperature data of the equipment in the historical operation process of the data center network equipment; performing data cleaning and normalization, and constructing a data set according to time alignment; carrying out dimension reduction on all interface data on the same board card through data fusion; designing a full-connection neural network model 1; designing a full-connection neural network model 2; respectively training the two full-connection neural network models; and inputting interface data of a target board card, wherein the output of the model 2 is the temperature of the target board card. By freezing the data of other board cards except the target board card, inversion of the temperature corresponding to the target board card is achieved, and the precision degree and efficiency of operation and maintenance management of data center equipment are improved. 1.一种数据中心网络设备板卡级温度反演方法,其特征在于,包括以下具体步骤: 步骤1:采集数据中心网络设备历史运行过程中各个板卡的接口数据、设备的运行数据以及设备的温度数据,进行数据清洗和归一化并按照时间对齐构建数据集; 步骤2:对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 步骤3:设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2; 步骤4:设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 步骤5:通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 步骤6:输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 2.根据权利要求1所述的一种数据中心网络设备板卡级温度反演方法,其特征在于,所述步骤2中的平均带宽利用率和平均接口流量分别为: 其中m为板卡网络接口的数量。 3.根据权利要求1所述的一种数据中心网络设备板卡级温度反演方法,其特征在于,所述步骤3中的全连接神经网络模型1的损失函数为: yi=[CPU_ui,RAM_ui] 其中N为数据样本数量,yi为实测值,为预测值。 4.根据权利要求1所述的一种数据中心网络设备板卡级温度反演方法,其特征在于,所述步骤4中的全连接神经网络模型2的损失函数为: zi=Temp 其中N为数据样本数量,zi为实测值,为预测值。 5.一种数据中心网络设备板卡级温度反演系统,其特征在于,包括, 数据采集模块,采集数据中心网络设备历史运行过程中各个板卡的接口数据、设备的运行数据以及设备的温度数据,进行数据清洗和归一化并按照时间对齐构建数据集; 数据融合模块,对于同一块板卡上的所有接口数据通过数据融合进行降维,每块板卡分别用平均带宽利用率和平均接口流量进行描述; 模型建立模块,设计全连接神经网络模型1,模型的输入数据为网络设备每块板卡分别用平均带宽利用率和平均接口流量,模型的输出数据为网络设备的CPU利用率和内存利用率,其中输入层维度为2K,K为网络设备的板卡数量,输出层的维度为2,设计全连接神经网络模型2,模型的输入数据为网络设备的CPU利用率和内存利用率,模型的输出数据为网络设备的温度数据,其中输入层的维度为2,输出层的维度为1; 模型训练模块,通过贝叶斯优化确定全连接神经网络模型1和2的隐藏层的层数以及神经元的个数,分别对2个全连接神经网络模型进行训练; 目标板卡的温度输出模块,输入目标板卡的接口数据,将网络设备的其他板卡数据置0,进行归一化和降维之后输入训练好的全连接神经网络模型1,并将其输出作为全连接神经网络模型2的输入,则模型2的输出即为目标板卡的温度。 6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如权利要求1-4任一所述的数据中心网络设备板卡级温度反演方法的步骤。