基于强化学习的网络主动防御方法及装置
发布时间:2022-10-19 13:18:14 所属栏目:安全 来源:
导读: 1.一种基于强化学习的网络主动防御方法,其特征在于,包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整
|
1.一种基于强化学习的网络主动防御方法,其特征在于,包括: 感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势; 将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。 2.根据权利要求1所述的基于强化学习的网络主动防御方法,其特征在于,所述感知网络安全态势值,具体包括: 获取攻击者的攻击收益,以及防御者的防御收益; 根据所述攻击收益和所述防御收益,计算所述网络安全态势值。 3.根据权利要求1所述的基于强化学习的网络主动防御方法,其特征在于,所述确定最佳的路由跳变周期之后,还包括: 将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。 4.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型的目标是收敛到最优动作价值函数; 所述强化学习算法模型的约束条件包括:入侵检测系统约束、容量约束和服务质量约束。 5.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,在输出防御者的最优路由跳变矩阵的过程中,根据所述网络安全态势值动态调整强化学习速率。 6.根据权利要求3所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。 7.一种基于强化学习的网络主动防御装置,其特征在于,包括: 感知模块,用于感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势; 路由跳变周期决策模块,用于将所述网络安全态势值主动防御思想,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。 8.根据权利要求7所述的基于强化学习的网络主动防御装置,其特征在于,还包括路由跳变矩阵决策模块; 所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。 9.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述基于强化学习的网络主动防御方法的步骤。 10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至6任一所述基于强化学习的网络主动防御方法的步骤。 (编辑:百客网 - 域百科网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


