网络安全捍卫者正在扩展他们的AI工具箱

导读 科学家们已经朝着利用一种称为深度强化学习(DRL)的人工智能形式保护计算机网络迈出了关键一步。当在严格的模拟环境中面对复杂的网络攻击时

科学家们已经朝着利用一种称为深度强化学习(DRL)的人工智能形式保护计算机网络迈出了关键一步。

当在严格的模拟环境中面对复杂的网络攻击时,深度强化学习在高达95%的情况下可以有效地阻止对手实现他们的目标。结果为自主人工智能在主动网络防御中发挥作用提供了希望。

能源部太平洋西北国家实验室的科学家在研究论文中记录了他们的发现,并于2月14日在华盛顿特区人工智能促进协会年会期间的网络安全人工智能研讨会上展示了他们的工作

起点是开发一个模拟环境来测试涉及不同类型对手的多阶段攻击场景。为实验本身创建这样一个动态攻防模拟环境是一个胜利。该环境为研究人员提供了一种方法,可以在受控测试设置下比较基于AI的不同防御方法的有效性。

这些工具对于评估深度强化学习算法的性能至关重要。该方法正在成为网络安全专家的强大决策支持工具——一种能够学习、适应快速变化的环境并自主做出决策的防御代理。虽然其他形式的人工智能是检测入侵或过滤垃圾邮件的标准,但深度强化学习扩展了防御者在与对手的日常对峙中协调顺序决策计划的能力。

深度强化学习提供更智能的网络安全、更早检测网络环境变化的能力,以及采取先发制人的措施阻止网络攻击的机会。

DRL:广泛攻击空间中的决策

“一个有效的网络安全人工智能代理需要根据它可以收集的信息和它制定的决策结果来感知、感知、行动和适应,”介绍该团队工作的数据科学家SamratChatterjee说。“深度强化学习在这个领域具有巨大的潜力,系统状态和行动选择的数量可能很大。”

DRL结合了强化学习和深度学习,特别适用于需要在复杂环境中做出一系列决策的情况。导致理想结果的良好决策通过积极的奖励(以数值表示)得到加强;通过负成本阻止导致不良结果的错误选择。

这类似于人们学习许多任务的方式。做家务的孩子可能会在理想的玩耍时间得到积极的强化;一个不做功课的孩子会得到负面强化,比如拿走一个数字设备。

“这与强化学习中的概念相同,”Chatterjee说。“智能体可以从一组动作中进行选择。每一个动作都会有反馈,无论好坏,都会成为它记忆的一部分。探索新机会和利用过去的经验之间存在相互作用。我们的目标是创造一个能够学习的智能体做出正确的决定。”

打开AIGym和MITREATT&CK

该团队使用名为OpenAIGym的开源软件工具包作为基础来创建自定义和受控的模拟环境,以评估四种深度强化学习算法的优缺点。

该团队使用了由MITRECorp.开发的MITREATT&CK框架,并结合了三个不同对手部署的七种战术和15种技术。防御者配备了23种缓解措施,以试图阻止或阻止攻击的进行。

攻击阶段包括侦察、执行、持久性、防御规避、命令和控制、收集和渗漏(当数据从系统中传输出来时)等战术。如果攻击成功到达最后的渗透阶段,则攻击被记录为对手的胜利。

Chatterjee说:“我们的算法在竞争激烈的环境中运行——一场与意图破坏系统的对手的较量。”“这是一个多阶段攻击,对手可以追求多种攻击路径,随着他们试图从侦察转向利用,这些攻击路径会随着时间的推移而改变。我们的挑战是展示基于深度强化学习的防御如何阻止这种攻击。”

DQN超越其他方法

该团队基于四种深度强化学习算法训练防御代理:DQN(深度Q网络)和所谓的演员-评论家方法的三种变体。这些代理人接受了关于网络攻击的模拟数据的训练,然后针对他们在训练中没有观察到的攻击进行了测试。

DQN表现最好。

最不复杂的攻击(基于不同水平的对手技能和持久性):DQN在攻击阶段中途阻止了79%的攻击,在最后阶段阻止了93%。

中等复杂的攻击:DQN在中途阻止了82%的攻击,在最后阶段阻止了95%。

最复杂的攻击:DQN在中途阻止了57%的攻击,在最后阶段阻止了84%——远高于其他三种算法。

Chatterjee说:“我们的目标是创建一个自主防御代理,它可以了解对手最有可能采取的下一步行动,为其制定计划,然后以最佳方式做出反应以保护系统。”

尽管取得了进展,但没有人愿意将网络防御完全委托给人工智能系统。相反,基于DRL的网络安全系统需要与人类协同工作,前PNNL的合著者ArnabBhattacharya说。

Bhattacharya说:“人工智能可以擅长防御特定策略,但不擅长理解对手可能采取的所有方法。”“我们离人工智能可以取代人类网络分析师的阶段还差得很远。人类的反馈和指导很重要。”

该研究发表在arXiv预印本服务器上。