基于强化学习的网络主动防御方法及装置

发布时间：2022-10-19 13:18:14 所属栏目：安全来源：

导读：　　1.一种基于强化学习的网络主动防御方法，其特征在于，包括：

　　感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；

　　将所述网络安全态势值，输入至预设的自适应跳变周期调整

　　1.一种基于强化学习的网络主动防御方法，其特征在于，包括：

　　感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；

　　将所述网络安全态势值，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

　　2.根据权利要求1所述的基于强化学习的网络主动防御方法，其特征在于，所述感知网络安全态势值，具体包括：

　　获取攻击者的攻击收益，以及防御者的防御收益；

　　根据所述攻击收益和所述防御收益，计算所述网络安全态势值。

　　3.根据权利要求1所述的基于强化学习的网络主动防御方法，其特征在于，所述确定最佳的路由跳变周期之后，还包括：

　　将所述网络安全态势值、网络状态数量、潜在的跳变路由数量，以及折扣因子，输入至预设的强化学习算法模型，输出防御者的最优路由跳变矩阵。

　　4.根据权利要求3所述的基于强化学习的网络主动防御方法，其特征在于，所述强化学习算法模型的目标是收敛到最优动作价值函数；

　　所述强化学习算法模型的约束条件包括：入侵检测系统约束、容量约束和服务质量约束。

　　5.根据权利要求3所述的基于强化学习的网络主动防御方法，其特征在于，在输出防御者的最优路由跳变矩阵的过程中，根据所述网络安全态势值动态调整强化学习速率。

　　6.根据权利要求3所述的基于强化学习的网络主动防御方法，其特征在于，所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。

　　7.一种基于强化学习的网络主动防御装置，其特征在于，包括：

　　感知模块，用于感知网络安全态势值，所述网络安全态势值用于衡量网络安全态势的变化趋势；

　　路由跳变周期决策模块，用于将所述网络安全态势值主动防御思想，输入至预设的自适应跳变周期调整算法模型，确定最佳的路由跳变周期。

　　8.根据权利要求7所述的基于强化学习的网络主动防御装置，其特征在于，还包括路由跳变矩阵决策模块；

　　所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量，以及折扣因子，输入至预设的强化学习算法模型，输出防御者的最优路由跳变矩阵。

　　9.一种电子设备，包括存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至6任一项所述基于强化学习的网络主动防御方法的步骤。

　　10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至6任一所述基于强化学习的网络主动防御方法的步骤。

（编辑：百客网 - 域百科网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

NLP系列之词袋模型及T	如何对已损坏的SQLite
何为增强分析百度百	安全专家你确实擅长和