基于数据增强的DBN-ELM入侵检测方法

武洋名, 宗学军*, 何戡

(1.沈阳化工大学信息工程学院, 沈阳 110142;

2.辽宁省工业信息安全重点实验室, 沈阳 110142)

工业入侵检测系统(industrial intrusion detection system,IDS)作为一项工业控制系统(industrial control system,ICS)的安全保护关键技术成了研发热门。现如今,工业控制系统的网络安全关系到智能移动、智能电网、水处理、军事、冶金等各个行业。例如,在2021年美国输油管道公司遭到勒索软件攻击导致其被迫关闭关管道运营数天极大影响美国东南海岸燃油供给;
2017年12月工控恶意软件“TRITON”导致工厂停运数周、污水处理厂遭非法入侵导致污水直接排入大自然等安全事件频频发生,工控系统面临的安全问题日益严峻[1]。

近期人工智能技术在各个领域得到了广泛应用,大量研究人员对深度学习算法在工业入侵检测领域中的应用展开了研究。尚文利等[2]提出长短期记忆神经网络的异常数据检测模型。柳毅等[3]提出了堆稀疏自编码的lightGBM二叉树的入侵检测算法。商富博等[4]提出了一种将网络流量数据转化为图像数据后使用DSCNN-BiLSTM的方法进行验证。

随着大数据时代的到来,现有的深度学习算法难以解决大量数据的多分类问题。并且大量高维度数据不断涌入导致了数据样本分布不均衡等问题,增加了工业入侵检测的难度。多数研究中所应用的KD99数据集相对落后,针对当今工控网络不具备良好的泛化性。

综上,面向提高入侵检测的效率、降低漏报率、误报比并解决数据分布不均衡等问题为研究目的,现以工业复杂环境数据集为研究对象,提出一种基于WGAN-GP数据增强并使用深度信念网络与极限学习机相结合的深度学习入侵检测方法。在模型的训练中,将数据进行清洗并预处理,并送入WGAN-GP数据增强模块进行数据增强,避免了数据集数据分布不均衡而带来的误差。将数据增强后的数据送入DBN-ELM混合网络模型中,利用深度信念网络(deep belief network,DBN)自动特征提取的功能提取特征,将提取好的特征训练顶层的极限学习机(extreme learning machine, ELM)完成样本分类[5]。同时分别采用网络数据集验证方法有效性、工业数据集验证方法在工业复杂数据环境的适应性,进一步提高入侵检测系统性能,使检测结果具有实际意义。

1.1 数据预处理

入侵检测的性能与训练数据的质量之间存在着很大的关联性,从网络中收集到的原生流量存在大量噪声数据,不能直接用于工业入侵检测的研究中,因此首先需要对数据集进行数据预处理。

原生数据样本含有n个连续型特征以及1个数据标签,采用one-hot编码器将连续性特征数据转化为数值型数据。然后再进行归一化处理,经归一化处理后的连续性特征数据可直接用于训练和测试,归一化公式为

(1)

式(1)中:x为需处理的样本特征值;
xmin、xmax为该特征的最小值和最大值;
x*为标准化后的样本特征值。

1.2 WGAN-GP数据增强

从网络中收集到的原生入侵检测数据的列顺序随意性较大并且特征间的相关性不强,正常网络流量数据的数量远多于非正常的攻击流量数据,严重的数据不平衡问题对入侵检测模型的训练产生很大的负面影响。进一步提升网络的稳定性与收敛速度,本文提出一种基于WGAN-GP的数据增强算法,通过对每一个样本施加独立的梯度惩罚(gradient penalty,GP),满足了Lipschitz限制,使得神经元在反向传播过程中,权重可以更均匀地分布,有效提高了入侵检测模型对少数类样本的检测能力[6]。生成对抗网络由生成网络和判别网络构成,生成网络将随机噪声数据Z输入网络中,噪声数据会通过生成模型网络。G(Z)会生成虚假数据Xf,然后将真实数据与生成器产生的虚假数据一同传入判别器D中,其中输入噪声产生的数据为

h1=f1([Z]w1+b1)

(2)

h2=f1(h1w2+b2)

(3)

h3=f1(h2w3+b3)

(4)

Xf=f1(h3w4+b4)

(5)

将真实数据Xr与生成器产生的虚假数据Xf一同传入判别器D中,输入真实数据时,有

h1=f1(Xrw1+b1)

(6)

h2=f1(h1w2+b2)

(7)

yr=h1w3+b3

(8)

输入虚假数据时,有

h1=f1(Xfw1+b1)

(9)

h2=f1(h1w2+b2)

(10)

yf=h1w3+b3

(11)

式中:h1、h2、h3分别为各阶段噪声数据的输出向量;
f1为ReLU激活函数;
w1、w2、w3、w4分别为权重矩阵;b1、b2、b3、b4分别为偏执向量。输出层的激活函数采用sigmoid函数。判别模型的目标函数为

Ez~Pθ(z)ln[1-D(Z)]

(12)

式(12)中:V(D,G)为一个步长时训练生成器与判别器的函数变量;
X为真实数据;
EX~Pdata(X)为真实数据分布;
Pθ(z)为判别器的噪声分布;
Pdata(X)为真实数据分布;
D(Z)为判别映射函数,生成器和判别器之间构成了一个动态的博弈过程,生成器对损失函数不断优化,提高生成的虚假数据的能力使生成数据的分布不断靠近真是数据的分布,判别器通过对损失函数的优化不断提高判别真假数据的能力[7]。其中生成器与判别器的损失函数分别为

LG=EZ~Pg(Z){-lnD[G(Z)]}

(13)

LD=EX~PdatalnD(x)-

EZ~Pg(Z)ln{1-D[G(Z)]}

(14)

式中:E为数学期望;
Pg(X)为数据的真实分布;
Z~Pg(Z)为符合正太分布的噪声数据。

通过WGAN-GP网络的不断训练,生成器得到的数据更加贴近于真实数据,而最终判别器却无法识别出输入数据是来源于实际数据还是生成数据,从而实现了纳什均衡,从而形成了一种良好的生成模式[8]。

2.1 受限制玻尔兹曼机(restricted boltzmann machines, RBM)

RBM是一类随机神经网络模型,包含可见层和隐藏层两层神经元,神经元之间层内之间没有连接,层间全连接。由于在学习过程中不使用数据类,RBM模型能够实时检测攻击,具有较高的精度和适应性[9],其结构如图1所示。

w0为层间传递的权重图2 DBN结构图Fig.2 DBN structure diagram

图1 RBM结构图Fig.1 RBM structure diagram

受限制玻尔兹曼机基于能量模型,其中网络的能量函数定义为

(15)

式(15)中:θ={wij,dj,ci}为网络参数且均为实数;
(v,h)为在RBM中可见层v和隐藏层h的一个概率分布集合;
vj为训练集在可见层单元第j个变量;wij为可见层神经元i到隐藏层神经元j的连接权值;
dj为可见层中第j个神经元的偏置向量;
ci为隐藏层中第i个神经元的偏置向量;
其联合概率分布为

(16)

式(16)中:s为配分函数,参数满足:{W∈RNv×Nh,b∈RNv,c∈RNh},其中W为可见层单元与隐藏层之间的连接权重;
b、c分别为可见层与隐藏层中的各项偏置向量;
R为层间权重矩阵实数集合;
Nv为可见层神经元;
Nh为隐藏层神经元;
Nv×Nh为可见层神经元和隐藏层神经元矩阵。

2.2 DBN

DBN是一个多层网络结构,其下层为s型信念网络,上层为RBM,其网络框架如图2所示。DBN训练主要包括两个阶段:预练习和微调。首先使用RBM对每一层对未标记的样本数据进行无监督训练,同时通过对比散度算法(contrastive divergence, CD)调整RBM中的参数。在每个RBM层的训练结束后,从RBM层的训练中获得的参数被发送到下一个RBM层进行训练,直到所有RBM层完成训练[10]。预训练结束后,DBN通过神经网络层反向传播(back propagation, BP)调整各层节点的参数,从而实现整个DBN网络节点权值的全局微调。

深度信念网络训练过程中会随着隐藏层的层数增加,分类精度会更准确。可见层神经元可以表示为v={v1,v2,…,vn},隐藏层神经元可以表示为h={h1,h2,…,hn}其可见层与隐藏层的能量函数为

(17)

式(17)中:wji为可见层单元j与隐藏层单元i的连接权值,隐藏层输出结点为

(18)

(19)

(20)

互相关系数表示为

(21)

(22)

式中:∑为相互关系数。

其中分母为常数仅需要分析分子,互相关系数∑随着隐藏层层数的增加而减少ρ<1,ρk<ρk+1,互相关系数∑达到稳定时,即为训练效果最佳的隐藏层层数所需要的隐藏层层数[11]。

2.3 ELM

ELM是一种单层前馈神经网络,包含输入层、隐藏层和输出层,可以对神经元权重W,偏执向量b随机设置固定值并得到相应输出值[12],其具体结构如图3所示。

β为输出权重;
I为样本总数;
k、 j、m为层间参数图3 ELM结构图Fig.3 ELM structure diagram

对于一个有L个隐藏层节点的单隐藏层神经网络可表示为

(23)

式(23)中:g(x)为激活函数;
Wi为输入权重;
βi为输出权重;
bi为第i个隐藏层单元的偏置向量。单隐层神经网络学习的目标是使得输出的误差最小,可以表示为

(24)

即存在βi、Wi和bi使得

(25)

βi、Wi、bi、T确定后,整个神经网络的训练从而可以转化为求解线性系统,可以表示矩阵为

Hβ=T

(26)

式(26)中:H为隐藏结点输出;
β为输出权重;T为期望输出。

2.4 DBN-ELM模型混合网络模型

在工业控制系统中,大量的数据流量在分类时会多次迭代,会导致训练时间长,精度低等问题。DBN通过RBM层层堆叠展现其具有强大的自动提取特征的能力,ELM可以通过随机生成输入层和隐藏层的连接权值并在训练时无需调整即可获得唯一最优解,展现了其不仅具有快速学习的能力还具备泛化能力好的特点。为了得到更好的分类效果,使模型的分类精度更高,就需要加大物理内存来提高效率,故提出DBN与ELM相结合的算法[13],其具体结构如图4所示。

图4 DBN-ELM混合模型结构图Fig.4 DBN-ELM hybrid model structure diagram

设置一个DBN含有n个隐藏层,通过贪婪训练得到n-1个玻尔兹曼机,从输入层到隐藏层1,直到训练到第n-1层隐藏层。将该过程作为DBN部分,第n层隐藏层最为ELM的隐藏层并且与ELM的第n-1层隐藏层和输入层构成完整的ELM。其中从隐藏层到输出层的权重和偏执都是由ELM确定的[14]。该复合型网络可表示为

(27)

式(27)中:wi、bi为第n-1层隐藏层到第n层隐藏层的权重和偏执向量;
g(x)为激活函数;
βi为第n层隐藏层到输出层的输出权重。其误差函数表示为

(28)

(29)

(30)

式中:N、M分别为第n层、第n-1层隐藏层神经元的个数。

H(w1,w2,…,wN,b1,b2,…,bN,H(n-1,1),H(n-1,2),…,H(n-1,m))=

(31)

式(31)中:Hn为第n-1层隐藏层到第n层隐藏层的输出,同时将DBN的训练问题转化为求解线性系统问题。

Hnβ=T

(32)

(33)

(34)

3.1 数据集描述

使用加拿大网络安全研究所公布的 CICIDS2017数据集[15]进行入侵检测实验测试,并使用密西西比州立大学的天然气管道的数据集[16]进行仿真实验验证本实验所提出模型在工业环境中的适用性。

其中CICIDS2017数据集利用CICFlowMeter软件共提取84个特征属性和1个数据标签,该数据集的攻击流量细分成14种攻击类型包含暴力FTP、暴力SSH、DoS、SQL注入攻击、XSS攻击、Heartbleed、Web攻击、渗透、僵尸网络和DDoS等攻击类型。该数据集样本分布不均衡,其基本信息如表1所示。

密西西比州立大学天然气管道数据集含有26个特征属性,7种攻击类型。相比于CICIDS2017数据集,密西西比州立大学天然气管道的数据集是从工业控制系统中采集到数据,更能体现到本文提出的算法在工控环境中的实用性。该数据集基本信息如表2所示。

表1 CICIDS2017数据集

表2 密西西比州立大学天然气管道数据集基本信息

3.2 模型评判标准

采用准确率(ACC)、各个类别的精确率(P)、召回率(R)和综合评价指标F1值(F1-score)作为实验部分的评价指标,相关公式为

(35)

(36)

(37)

(38)

(39)

(40)

式中:TP为正确识别的攻击类别数目;
FN为漏报;
FP为误报;
TN为正确识别的正常类别数目。

3.3 WGAN-GP数据增强的实现

使用python3.7、pandas0.18.1、tensorflow 2.0进行数据处理和算法编写。利用sklearn0.18.2库中的模型结构进行部分算法的实现。根据上文提到的表1看出数据集样本分布不均衡,根据表1可以得出原始数据样本存在着分布不均衡的问题,在训练过程中模型很大程度会偏向多数类,忽略少数类,导致模型的训练效果差,因此提出WGAN-GP数据增强,对少量样本过采样,对多量样本欠采样并根据多次实验验证,将WGAN-GP中参数设置为:随机初始化降噪维度Noise_dim=128,1次迭代输入模型样本数目Batch_size=1 024,全部样本训练次数epochs=200,保留神经元概率keep_prob=0.8,隐藏层采用ReLU激活函数,输出层采用sigmoid激活函数,生成器和判别器网络均使用Adam优化器,初始化学习率init_lr=0.000 5,采用Wasserstein距离来衡量训练效果,训练过程中生成器与判别器得损失函数曲线如图5所示。

图5 损失函数曲线图Fig.5 Loss function graph

3.4 DBN-ELM的网络参数及深度分析

首先,选取数据集样本中30%数据作为训练样本集,用来训练预设的DBN-ELM模型。由CICIDS2017数据集中共81个特征,其中攻击样本中将DoS GoledenEye、DoS Hulk、DoS Slowhttptest、DoS slowloris归结为1类,Web Attack Brute Force、Web Attack Sql Injection、Web Attack XSS归结为一类,DBN-ELM网络参数中输入神经元数设置为81,输出神经元设置为8,根据图6看出相关系数趋势在隐藏层达到4层是趋势趋近稳定状态,故将RBM层数设置为4层使得模型训练的精度更准确,其余网络参数设计如表3所示。

图6 相关系数趋势图Fig.6 Correlation coefficient trend graph

表3 DBN-ELM的网络参数设计表

3.5 基于WGAN-GP-DBN-ELM入侵检测模型实现

3.5.1 数据增强前后实验结果对比

使用DBN-ELM混合网络模型分别在有无WGAN-GP数据增强的情况下进行测试,训练结果如表4所示。

由表4可以看出,DBN-ELM混合网络模型经过WGAN-GP数据增强后训练集精度增加了0.53%,测试集精度增加了0.89%,误报率降低了0.509%,漏报率降低了0.036%。由此可见WGAN-GP数据增强对处理数据集样本分布不均衡有着显著的效果。有无WGAN-GP数据增强的模型中F1对比如图7所示。

表4 数据增强前后实验结果对比表

图7 不同机器学习算法F1对照图Fig.7 F1 value comparison chart of different machine learning algorithms

3.5.2 多种入侵检测算法比较

入侵检测模型中,常用的机器学习算法及深度学习算法有:支持向量机(support vector machine, SVM)、随机森林(random forest, RF)、卷积神经网络(convolutional neural networks, CNN)、DBN。使用以上算法并建立入侵检测模型,将epoch次数设置为200,在CICIDS2017数据集验证,其检测结果如表5所示。

表5 检测结果对比

从表5可以看出检测效果最好的是深度信念网络,其训练集精度达到96.78%,测试集精度达到96.89%。传统机器学习算法相对本文提出的混合神经网络算法检测精度稍显不足。其中在DBN-ELM混合网络模型在融入ELM相比传统DBN检测精度提高了2.11%,测试集精度提高了1.84%。在WGAN-GP数据增强后,DBN-ELM混合网络模型的检测精度达到99.68%,测试集精度达到99.65%,相比于未经过数据增强的DBN-ELM混合网络。训练集精度提高了0.53%,测试集精度提高了0.85%。由此可以得出WGAN-GP数据增强在处理数据不平衡上有着显著的效果的结论,同时也可以提高入侵检测系统的性能。

3.6 入侵检测模型在工控网络环境下得验证

实验验证采用密西西比州立大学天然气管道数据集(表2)相比于CICIDS2017数据集该数据集更具有对工业背景的代表性,并且该数据集同样也存在数据样本分布不均衡的问题。依照本文提出的模型算法,首先对数据集进行数据分析及预处理,将预处理完成的数据样本使用WANG-GP进行数据增强,将增强后的数据先后依次送到DBN、ELM模块,最后得到分类结果。有无WGAN-GP数据增强的数据集对比如表6所示。

使用DBN-ELM混合网络分别在有无WGAN-GP数据增强进行实验,结果对比如表7所示。

表6 有无WGAN-GP数据增强的数据集对比表

表7 DBN-ELM混合网络有无WGAN-GP数据增强 实验结果

通过表7可以得到如下结论:DBN-ELM混合网络模型经过WGAN-GP数据增强后训练集精度增加了1.45%,测试集精度增加了1.9%,误报率降低了0.531%,漏报率降低了0.03%。WGAN-GP能够有效提高训练集、测试集训练精度并降低误报率、漏报比,经过在工业数据集中的验证,本文研究中采用的基WGAN-GP-DBN-ELM的入侵检测方法可以较好地适用于工控环境。

采用了一种基于WGAN-GP数据增强的DBN-ELM混合网络模型入侵检测模型。该方法采用的WGAN-GP数据增强方法可以有效解决数据集样本数据分布不平衡的问题,在此基础之上使用DBN-ELM混合网络模型,引入DBN模型自动提出特征的能力并采用ELM代替传统的分类器,使模型的收敛效率更佳。使用CICIDS2017数据集进行测试实验,测试了模型的性能。实验结果表明,相比于传统的机器学习算法以及常用深度学习算法,所提出模型在训练精度方面有了显著的提高,具备训练速度快、准确度高等优点,并且对数据集中攻击样本的精确率与F1均有所提高。同时,采用密西西比州立大学数据集作验证,实验结果充分验证了本文模型可以较好地适用在工业控制网络环境中的入侵检测并且具有有效性、泛化性好等优点,为工业入侵检测的研究提供了一种新的研究思路。

猜你喜欢 神经元精度样本 热连轧机组粗轧机精度控制一重技术(2021年5期)2022-01-18用样本估计总体复习点拨中学生数理化·高一版(2021年2期)2021-03-19超高精度计时器——原子钟中学生数理化·八年级物理人教版(2019年9期)2019-11-25分析误差提精度中学生数理化·八年级物理人教版(2019年12期)2019-05-21规划·样本领导决策信息(2018年16期)2018-09-27基于DSPIC33F微处理器的采集精度的提高电子制作(2018年11期)2018-08-04跃动的神经元——波兰Brain Embassy联合办公现代装饰(2018年5期)2018-05-26随机微分方程的样本Lyapunov二次型估计数学学习与研究(2017年3期)2017-03-09ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用中国生化药物杂志(2015年4期)2015-07-07毫米波导引头预定回路改进单神经元控制弹箭与制导学报(2015年1期)2015-03-11

推荐访问:入侵 检测方法 增强