用数学来解析企业网络安全威胁 作者:蒋鲁宁

企业信息安全管理体系中传统的技术安全控制措施(如防火墙,IDSIPS等)在很多场合下发现不能识别威胁或抵御威胁,其根本原因在于这些技术安全控制是基于已知特征的检测。网络攻击者很清楚这些传统安全控制机理,并在过去的时间里对如何规避这些安全控制的检测取得了长足的进步。此外企业网络边界也变得越来越模糊,一些新的应用出现也使得传统安全控制难以为继。很多貌似强大的企业网络防护体系未能阻止现代的恶意攻击而造成企业信息资产的泄漏,而且这种状况似乎愈加严重。面对这种局面,业界不断呼吁需要改变信息安全的思路,近些年来通过数学来计算存在的网络威胁就是一种有效的改变,特别随着大数据技术发展显得更加有效。

当前流行的术语如“数据安全解析”、“基于机器学习来识别异常”都属于所谓“对威胁的数学计算”这个范畴。简而言之,数据安全解析是采用数据科学(Data Science)方法来系统的分析数据、识别安全威胁,数据统计分析和机器学习是数据科学的主要组成部分,也是数据安全解析的基础。例如,针对海量网络流数据采用统计特征抽取以及支持向量机(SVM)、贝叶斯网络和人工神经网络(ANN)等各类机器学习技术来识别僵尸网络等威胁已得到较普遍的应用,其中涉及大量多维的距离或参数求解等数学和统计学领域知识。

网络攻击者相对容易采取一些技术来掩盖其入侵的具体活动,如利用社会工程学来掩盖意图进行诱骗、利用http等普遍应用的协议来掩盖其通信、利用针对0-day漏洞的恶意代码来绕过基于特征的威胁检测等等,这些技术也确实取得了很大程度上的成功。但网络攻击者活动的本质是恶意的,行为举止会完全不同于企业网内正常的用户,因此他们很难掩盖其基本的方法论和过程(如踩点、恶意代码投送与安装、与控制端联络、数据窃取等控制命令执行等),也很难消除执行这些方法论和过程的网络行为轨迹,如不可能抹除掉指挥控制命令发放与响应的网络数据载荷。针对威胁的数学计算或数据安全解析正是通过辨识这些行为数据中的蛛丝马迹来发现与正常行为有别的异常。例如僵尸网络中的僵尸程序(Bot)尽管很“低调”寄宿于一个主机,但其活动与该主机用户的业务行为会大相径庭,而同一僵尸网络中的所有僵尸程序反而会有类似的举动,这种反差和对照则为统计分析和机器学习提供了发现内在模式的基础。典型的示例包括通过统计特征建立行为基线以识别异常的偏离;通过监督式机器学习归纳恶意行为和正常行为特征为检测提供参照;通过非监督式机器学习来聚合特征形似的类来提供更高层面的可视化异常分析。

通过“数学”来发现异常依赖有效的算法,有效的算法意味着效果和效率,即数学计算应在合理的时间和资源需求下,识别出威胁,而不是花费大量时间产生出无法应对的误报。此外,不大可能有一种数学算法来算出一切威胁,这也是在安全数据解析中采用了诸多的统计分析算法和机器学习算法的原因。不同的场景下,某一种算法会比另一种算法更有效,因此即使是通过数学计算威胁,也需要采用诸如探索性数据分析(EDA)等方法进行协同。

算法的有效的前提是数据质量的保证,对于“劣质”的数据无论怎样有效的算法都无济于事。数据的质量是广义的,首先需要保证完整和全面。

借助数学来应对信息安全风险并不是全新的举措,早期的信息安全的风险管理中也有不同程度的运用。然而在面对当前更复杂、更先进的网络恶意行为挑战情况下,数据安全解析随着大数据技术的发展,为信息安全威胁管控变被动为主动提供了一个契机。

2016-03-11 10:25
来源:中国信息安全杂志(2016.02)
热门推荐更多
热点新闻更多