加入收藏 | 设为首页 | 会员中心 | 我要投稿 百客网 - 域百科网 (https://www.yubaike.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

基于强化学习的网络主动防御方法及装置

发布时间:2022-10-19 13:18:14 所属栏目:安全 来源:
导读:  1.一种基于强化学习的网络主动防御方法,其特征在于,包括:

  感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;

  将所述网络安全态势值,输入至预设的自适应跳变周期调整
  1.一种基于强化学习的网络主动防御方法,其特征在于,包括:
 
  感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
 
  将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
 
  2.根据权利要求1所述的基于强化学习的网络主动防御方法,其特征在于,所述感知网络安全态势值,具体包括:
 
  获取攻击者的攻击收益,以及防御者的防御收益;
 
  根据所述攻击收益和所述防御收益,计算所述网络安全态势值。
 
  3.根据权利要求1所述的基于强化学习的网络主动防御方法,其特征在于,所述确定最佳的路由跳变周期之后,还包括:
 
  将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
 
  4.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型的目标是收敛到最优动作价值函数;
 
  所述强化学习算法模型的约束条件包括:入侵检测系统约束、容量约束和服务质量约束。
 
  5.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,在输出防御者的最优路由跳变矩阵的过程中,根据所述网络安全态势值动态调整强化学习速率。
 
  6.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。
 
  7.一种基于强化学习的网络主动防御装置,其特征在于,包括:
 
  感知模块,用于感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
 
  路由跳变周期决策模块,用于将所述网络安全态势值主动防御思想,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
 
  8.根据权利要求7所述的基于强化学习的网络主动防御装置,其特征在于,还包括路由跳变矩阵决策模块;
 
  所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
 
  9.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述基于强化学习的网络主动防御方法的步骤。
 
  10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至6任一所述基于强化学习的网络主动防御方法的步骤。
 

(编辑:百客网 - 域百科网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!