数据科学与信息安全 作者:蒋鲁宁

近些年来流行的“数据科学”概念并非所有人都认为这是个新概念。统计学家认为,长期以来他们从事的工作就是数据科学工作,重新冠以“数据科学”的名义毫无意义。数学家和计算机科学家也有类似的观点,只不过出发点是他们各自的领域。不过无论从什么角度审视数据科学,该领域确实包含了统计、数学和算法等内容,但也确实还涉及了其它方面,例如数据科学显然与大数据涌现密切相关,因此若数据科学作为一门新的学科,应是更大的知识体。

目前尚无有关数据科学严格、一致的定义,但总体认为数据科学是基于数据通过运用科学方法进行系统化、跨学科的研究领域,目的是阐明形式科学、社会自然科学和专项科学之间或之中现象的关联。

数据科学兴起的深层原因可能是ICT技术的发展而带来的广泛数据化现象,其中包括了数据的表达和处理,如人员行为的数据化。这种广泛数据化与大数据技术一起将信息爆炸引起的“灾难性”海量数据转换成高价值的数据资产奠定了基础,并促进了数据科学的发展、丰富了数据科学的内涵。

数据化现象不仅仅存在于物理空间,同样也存在于网络空间,例如通过对网络空间复杂、大量和不断产生的行为数据的析取和分析来识别异常和恶意行为。实际上,数据驱动的安全已经成为新一代信息安全的利器,并形成了称之为BDSA这样一个有着极大潜力的信息安全研究领域。

数据科学家Michael Walker在2013年曾描绘了数据科学职业化的十个方面路线图,借鉴这个路线图对如何将数据科学运用到信息安全领域也会颇有裨益。这个路线图首先提及的是数据科学基础,其中包括了数学基础、数据建模和数据算法等内容,对于信息安全还需要诸如风险管理和攻击语境等基础。第二个提及的是统计,其中包括描述性统计分析模型和推断性统计分析模型等内容。对于信息安全的探索性数据分析(EDA)统计分析是基本的工具。第三方面是面向数据分析的编程,如基于R,query DSL等语言。显而易见,这是任何一个数据科学家所必备的技能。第四个方面是机器学习,机器学习是通过数据化中的经验析取来改进任务执行的效能,例如在行为数据中学习获得正常行为基线并以此为参照来识别异常。机器学习已成为最有潜力识别未知攻击等恶意行为的技术。第五个方面是文本挖掘和自然语言理解。这个领域与传统的数据挖掘领域的不同是针对非结构化数据。信息安全中一个最直接的应用就是对日志等数据不再做归一化处理,而是利用文本解析技术将日志等数据进行索引和解析来支撑全文即时的交互检索。第六个方面是数据可视化,其中包括交互可视化和可视化解析。安全可视化一直是信息安全管理要面对的挑战,在安全数据化基础上运用数据可视化技术为应对这样的挑战提供了极好的契机。第七个方面是大数据技术,其中重点是以Hadoop生态为依托的大数据的批解析、流解析和交互解析技术。数据驱动的安全基本上也是大数据的问题。第八和第九个方面分别是数据摄取和数据整治,前者包括数据源管理、数据获取、数据丰富化和数据融合等内容,后者包括数据维度归约、数据清洗、缺失值处理、特征提取和去噪等内容。这两个方面是任何数据驱动的任务有效执行的保证,信息安全也不例外。第十个方面是数据处理工具集,显而易见,对于大规划数据处理和复杂的计算若没有得力的平台和工具支撑几乎不可能。

尽管数据科学尚处于新生阶段,但对信息安全的发展可能会产生深远的影响,甚至引领新一代信息安全控制的发展,因此需要信息安全人员格外加以关注。

2016-03-11 13:58
来源:中国信息安全杂志(2016.01)
热门推荐更多
热点新闻更多