大数据安全与隐私保护,大数据,CIO之家

大数据安全与隐私保护

冯登国张敏李昊　　E-Works　　　　编辑:dezai 　　图片来源:网络

本文在梳理大数据研究现状的基础上，重点分析了当前大数据所带来的安全挑战，详细阐述了当前大数据安全与隐私保护的关键技术。

　　当今，社会信息化和网络化的发展导致数据爆炸式增长。据统计，平均每秒有200万用户在使用谷歌搜索，Facebook用户每天共享的东西超过40亿，Twitter每天处理的推特数量超过3.4亿。同时，科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2012年全球信息总量已经达到2.7 ZB，而到2015年这一数值预计会达到8 ZB。这一现象引发了人们的广泛关注。在学术界，图灵奖获得者Jim Gray提出了科学研究的第四范式，即以大数据为基础的数据密集型科学研究；2008年《Nature))推出了大数据专刊对其展开探讨；2011年《Science》也推出类似的数据处理专刊。IT产业界行动更为积极，持续关注数据再利用，挖掘大数据的潜在价值。目前，大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner预测，2013年大数据将带动全球IT支出340亿美元，到2016年全球在大数据方面的总花费将达到2320亿美元。Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一。不仅如此，作为国家和社会的主要管理者，各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data.gov网站，向公众开放政府所拥有的公共数据。随后，英国、澳大利亚等政府也开始了大数据开放的进程，截至目前，全世界已经正式有35个国家和地区构建了自己的数据开放门户网站。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。在我国，2012年中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会，为我国大数据应用和发展提供学术咨询。

　　目前大数据的发展仍然面临着许多问题，安全与隐私问题是人们公认的关键问题之一。当前，人们在互联网上的一言一行都掌握在互联网商家手中，包括购物习惯、好友联络情况、阅读习惯、检索习惯等等。多项实际案例说明，即使无害的数据被大量收集后，也会暴露个人隐私。事实上，大数据安全含义更为广泛，人们面临的威胁并不仅限于个人隐私泄漏。与其它信息一样，大数据在存储、处理、传输等过程中面临诸多安全风险，具有数据安全与隐私保护需求。而实现大数据安全与隐私保护，较以往其它安全问题(如云计算中的数据安全等)更为棘手。这是因为在云计算中，虽然服务提供商控制了数据的存储与运行环境，但是用户仍然有些办法保护自己的数据，例如通过密码学的技术手段实现数据安全存储与安全计算，或者通过可信计算方式实现运行环境安全等。而在大数据的背景下，Facebook等商家既是数据的生产者，又是数据的存储、管理者和使用者，因此，单纯通过技术手段限制商家对用户信息的使用，实现用户隐私保护是极其困难的事。

　　当前很多组织都认识到大数据的安全问题，并积极行动起来关注大数据安全问题。2012年云安全联盟CSA组建了大数据工作组，旨在寻找针对数据中心安全和隐私问题的解决方案。本文在梳理大数据研究现状的基础上，重点分析了当前大数据所带来的安全挑战，详细阐述了当前大数据安全与隐私保护的关键技术。需要指出的是，大数据在引人新的安全问题和挑战的同时，也为信息安全领域带来了新的发展契机，即基于大数据的信息安全相关技术可以反过来用于大数据的安全和隐私保护。本文在第5节对其进行了初步分析与探讨。

　　2.大数据研究概述

　　2.1 大数据来源与特征

　　普遍的观点认为，大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集。大数据的常见特点包括大规模(volume)、高速性(velocity)和多样性(variety)。根据来源的不同，大数据大致可分为如下几类：

　　(1)来自于人。人们在互联网活动以及使用移动互联网过程中所产生的各类数据，包括文字、图片、视频等信息；

　　(2)来自于机。各类计算机信息系统产生的数据，以文件、数据库、多媒体等形式存在，也包括审计、日志等自动生成的信息；

　　(3)来自于物。各类数字设备所采集的数据。如摄像头产生的数字信号、医疗物联网中产生的人的各项特征值、天文望远镜所产生的大量数据等。

　　2.2 大数据分析目标

　　目前大数据分析应用于科学、医药、商业等各个领域，用途差异巨大。但其目标可以归纳为如下几类：

　　(1)获得知识与推测趋势

　　人们进行数据分析由来已久，最初且最重要的目的就是获得知识、利用知识。由于大数据包含大量原始、真实信息，大数据分析能够有效地摒弃个体差异，帮助人们透过现象、更准确地把握事物背后的规律。基于挖掘出的知识，可以更准确地对自然或社会现象进行预测。典型的案例是Google公司的Google Flu Trends网站。它通过统计人们对流感信息的搜索，查询Google服务器日志的IP地址判定搜索来源，从而发布对世界各地流感情况的预测。又如，人们可以根据Twitter信息预测股票行情等。

　　(2)分析掌握个性化特征

　　个体活动在满足某些群体特征的同时，也具有鲜明的个性化特征。正如“长尾理论”中那条细长的尾巴那样，这些特征可能千差万别。企业通过长时间、多维度的数据积累，可以分析用户行为规律，更准确地描绘其个体轮廓，为用户提供更好的个性化产品和服务，以及更准确的广告推荐。例如Google通过其大数据产品对用户的习惯和爱好进行分析，帮助广告商评估广告活动效率，预估在未来可能存在高达到数千亿美元的市场规模。
　　　　
　　(3)通过分析辨识真相

　　错误信息不如没有信息。由于网络中信息的传播更加便利，所以网络虚假信息造成的危害也更大。例如，2013年4月24日，美联社Twitter帐号被盗，发布虚假消息称总统奥巴马遭受恐怖袭击受伤。虽然虚假消息在几分钟内被禁止，但是仍然引发了美国股市短暂跳水。由于大数据来源广泛及其多样性，在一定程度上它可以帮助实现信息的去伪存真。目前人们开始尝试利用大数据进行虚假信息识别。例如，社交点评类网站Yelp利用大数据对虚假评论进行过滤，为用户提供更为真实的评论信息；Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。

2.3 大数据技术框架

大数据处理涉及数据的采集、管理、分析与展示等。图1是相关技术示意图。

　　(1)数据采集与预处理(Data Acquisition & Preparation)

　　大数据的数据源多样化，包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据。因此，大数据处理的第一步是从数据源采集数据并进行预处理操作，为后继流程提供统一的高质量的数据集。

　　由于大数据的来源不一，可能存在不同模式的描述，甚至存在矛盾。因此，在数据集成过程中对数据进行清洗，以消除相似、重复或不一致的数据是非常必要的。文献中数据清洗和集成技术针对大数据的特点，提出非结构化或半结构化数据的清洗以及超大规模数据的集成。

　　数据存储与大数据应用密切相关。某些实时性要求较高的应用，如状态监控，更适合采用流处理模式，直接在清洗和集成后的数据源上进行分析。而大多数其它应用则需要存储，以支持后继更深度的数据分析流程。为了提高数据吞吐量，降低存储成本，通常采用分布式架构来存储大数据。这方面有代表性的研究包括：文件系统GFSE、HDFS和Haystack等；NoSQL数据库Mongodb、CouchDB、HBase、Redis、Neo4j等。

　　(2)数据分析(Data Analysis)

　　数据分析是大数据应用的核心流程。根据不同层次大致可分为3类：计算架构、查询与索引以及数据分析和处理。

　　在计算架构方面，MapReduce是当前广泛采用的大数据集计算模型和框架。为了适应一些对任务完成时间要求较高的分析需求，文献对其性能进行了优化；文献提出了一种基于MapReduce架构的数据流分析解决方案MARISSA，使其能够支持实时分析任务；文献则提出了基于时间的大数据分析方案Mastiff；文献也针对广告推送等实时性要求较高的应用，提出了基于MapReduce的TiMR框架来进行实时流处理。

　　在查询与索引方面，由于大数据中包含了大量的非结构化或半结构化数据，传统关系型数据库的查询和索引技术受到限制，而NoSQL类数据库技术得到更多关注。例如，文献提出了一个混合的数据访问架构HyDB以及一种并发数据查询及优化方法。文献对key-value类型数据库的查询进行了性能优化。

　　在数据分析与处理方面，主要涉及的技术包括语义分析与数据挖掘等。由于大数据环境下数据呈现多样化特点，所以对数据进行语义分析时，就较难统一术语进而挖掘信息。文献针对大数据环境，提出了一种解决术语变异问题的高效术语标准化方法。文献对语义分析中语义本体的异质性展开了研究。传统数据挖掘技术主要针对结构化数据，因此迫切需要对非结构化或半结构化的数据挖掘技术展开研究。文献提出了一种针对图片文件的挖掘技术，文献提出了一种大规模TEXT文件的检索和挖掘技术。

　　(3)数据解释(Data Interpretation)

　　数据解释旨在更好地支持用户对数据分析结果的使用，涉及的主要技术为可视化和人机交互。目前已经有了一些针对大规模数据的可视化研究，通过数据投影、维度降解或显示墙等方法来解决大规模数据的显示问题。由于人类的视觉敏感度限制了更大屏幕显示的有效性，以人为中心的人机交互设计也将是解决大数据分析结果展示的一种重要技术。

　　(4)其它支撑技术(Data Transmission & Virtual Cluster)

　　虽然大数据应用强调以数据为中心，将计算推送到数据上执行，但是在整个处理过程中，数据的传输仍然是必不可少的，例如一些科学观测数据从观测点向数据中心的传输等。文献针对大数据特征研究高效传输架构和协议。

　　此外，由于虚拟集群具有成本低、搭建灵活、便于管理等优点，人们在大数据分析时可以选择更加方便的虚拟集群来完成各项处理任务。因此需要针对大数据应用展开的虚拟机集群优化研究。

　3.大数据带来的安全挑战

　　科学技术是一把双刃剑。大数据所引发的安全问题与其带来的价值同样引人注目。而最近爆发的“棱镜门”事件更加剧了人们对大数据安全的担忧。与传统的信息安全问题相比，大数据安全面临的挑战性问题主要体现在以下几个方面。

　　3.1 大数据中的用户隐私保护

　　大量事实表明，大数据未被妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同，隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。

　　人们面临的威胁并不仅限于个人隐私泄漏，还在于基于大数据对人们状态和行为的预测。一个典型的例子是某零售商通过历史记录分析，比家长更早知道其女儿已经怀孕的事实，并向其邮寄相关广告信息。而社交网络分析研究也表明，可以通过其中的群组特性发现用户的属性。例如通过分析用户的Twitter信息，可以发现用户的政治倾向、消费习惯以及喜好的球队等。

　　当前企业常常认为经过匿名处理后，信息不包含用户的标识符，就可以公开发布了。但事实上，仅通过匿名保护并不能很好地达到隐私保护目标。例如，AOL公司曾公布了匿名处理后的3个月内部分搜索历史，供人们分析使用。虽然个人相关的标识信息被精心处理过，但其中的某些记录项还是可以被准确地定位到具体的个人。纽约时报随即公布了其识别出的1位用户。编号为4417 749的用户是1位62岁的寡居妇人，家里养了3条狗，患有某种疾病，等等。另一个相似的例子是，著名的DVD租赁商Netflix曾公布了约50万用户的租赁信息，悬赏100万美元征集算法，以期提高电影推荐系统的准确度。但是当上述信息与其它数据源结合时，部分用户还是被识别出来了。研究者发现，Netflix中的用户有很大概率对非topl00、top500、topl000的影片进行过评分，而根据对非top影片的评分结果进行去匿名化(de-anonymizing)攻击的效果更好。

　　目前用户数据的收集、存储、管理与使用等均缺乏规范，更缺乏监管，主要依靠企业的自律。用户无法确定自己隐私信息的用途。而在商业化场景中，用户应有权决定自己的信息如何被利用，实现用户可控的隐私保护。例如用户可以决定自己的信息何时以何种形式披露，何时被销毁。包括：(1)数据采集时的隐私保护，如数据精度处理；(2)数据共享、发布时的隐私保护，如数据的匿名处理、人工加扰等；(3)数据分析时的隐私保护；(4)数据生命周期的隐私保护；(5)隐私数据可信销毁等。

　　3.2 大数据的可信性

　　关于大数据的一个普遍的观点是，数据自己可以说明一切，数据自身就是事实。但实际情况是，如果不仔细甄别，数据也会欺骗，就像人们有时会被自己的双眼欺骗一样。

　　大数据可信性的威胁之一是伪造或刻意制造的数据，而错误的数据往往会导致错误的结论。若数据应用场景明确，就可能有人刻意制造数据、营造某种“假象”，诱导分析者得出对其有利的结论。由于虚假信息往往隐藏于大量信息中，使得人们无法鉴别真伪，从而做出错误判断。例如，一些点评网站上的虚假评论，混杂在真实评论中使得用户无法分辨，可能误导用户去选择某些劣质商品或服务。由于当前网络社区中虚假信息的产生和传播变得越来越容易，其所产生的影响不可低估。用信息安全技术手段鉴别所有来源的真实性是不可能的。

　　大数据可信性的威胁之二是数据在传播中的逐步失真。原因之一是人工干预的数据采集过程可能引入误差，由于失误导致数据失真与偏差，最终影响数据分析结果的准确性。此外，数据失真还有数据的版本变更的因素。在传播过程中，现实情况发生了变化，早期采集的数据已经不能反映真实情况。例如，餐馆电话号码已经变更，但早期的信息已经被其它搜索引擎或应用收录，所以用户可能看到矛盾的信息而影响其判断。

　　因此，大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等，了解各项数据可信度，防止分析得出无意义或者错误的结果。

　　密码学中的数字签名、消息鉴别码等技术可以用于验证数据的完整性，但应用于大数据的真实性时面临很大困难，主要根源在于数据粒度的差异。例如，数据的发源方可以对整个信息签名，但是当信息分解成若干组成部分时，该签名无法验证每个部分的完整性。而数据的发源方无法事先预知哪些部分被利用、如何被利用，难以事先为其生成验证对象。

　　3.3 如何实现大数据访问控制

　　访问控制是实现数据受控共享的有效手段。由于大数据可能被用于多种不同场景，其访问控制需求十分突出。

　　大数据访问控制的特点与难点在于：

　　(1)难以预设角色，实现角色划分。由于大数据应用范围广泛，它通常要为来自不同组织或部门、不同身份与目的的用户所访问，实施访问控制是基本需求。然而，在大数据的场景下，有大量的用户需要实施权限管理，且用户具体的权限要求未知。面对未知的大量数据和用户，预先设置角色十分困难。

　　(2)难以预知每个角色的实际权限。由于大数据场景中包含海量数据，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其所可以访问的数据范围。而且从效率角度讲，定义用户所有授权规则也不是理想的方式。以医疗领域应用为例，医生为了完成其工作可能需要访问大量信息，但对于数据能否访问应该由医生来决定，不应该需要管理员对每个医生做特别的配置。但同时又应该能够提供对医生访问行为的检测与控制，限制医生对病患数据的过度访问。

　　此外，不同类型的大数据中可能存在多样化的访问控制需求。例如，在Web2.0个人用户数据中，存在基于历史记录的访问控制；在地理地图数据中，存在基于尺度以及数据精度的访问控制需求；在流数据处理中，存在数据时间区间的访问控制需求，等等。如何统一地描述与表达访问控制需求也是一个挑战性问题。

　　4.大数据安全与隐私保护关键技术

　　当前亟需针对前述大数据面l临的用户隐私保护、数据内容可信验证、访问控制等安全挑战，展开大数据安全关键技术研究。本节选取部分重点相关研究领域予以介绍。

　　4.1 数据发布匿名保护技术

　　对于大数据中的结构化数据(或称关系数据)而言，数据发布匿名保护是实现其隐私保护的核心关键技术与基本手段，目前仍处于不断发展与完善阶段。以典型的k匿名方案为例。早期的方案及其优化方案通过元组泛化、抑制等数据处理，将准标识符分组。每个分组中的准标识符相同且至少包含k个元组，因而每个元组至少与k-1个其它元组不可区分。由于是匿名模型是针对所有属性集合而言，对于具体的某个属性则未加定义，容易出现某个属性匿名处理不足的情况。若某等价类中某个敏感属性上取值一致，则攻击者可以有效地确定该属性值。针对该问题研究者提出l多样化(l-diversity)匿名。其特点是在每一个匿名属性组里敏感数据的多样性满足要大于或等于l。实现方法包括基于裁剪算法的方案以及基于数据置换的方案等。此外，还有一些介于志匿名与l多样化之间的方案。进一步的，由于l-diversity只是能够尽量使敏感数据出现的频率平均化。当同一等价类中数据范围很小时，攻击者可猜测其值。t贴近性(t-closeness)方案要求等价类中敏感数据的分布与整个数据表中数据的分布保持一致。其它工作包括(k，e)匿名模型(X，Y)匿名模型等。上述研究是针对静态、一次性发布情况。而现实中，数据发布常面临数据连续、多次发布的场景。需要防止攻击者对多次发布的数据联合进行分析，破坏数据原有的匿名特性。

　　在大数据场景中，数据发布匿名保护问题较之更为复杂：攻击者可以从多种渠道获得数据，而不仅仅是同一发布源。例如，在前所提及的Netflix应用中，人们发现攻击者可通过将数据与公开可获得的imdb相对比，从而识别出目标在Netflix的账号。并据此获取用户的政治倾向与宗教信仰等(通过用户的观看历史和对某些电影的评论和打分分析获得)。此类问题有待更深入的研究。

　　4.2 社交网络匿名保护技术

　　社交网络产生的数据是大数据的重要来源之一，同时这些数据中包含大量用户隐私数据。截至2012年10月Facebook的用户成员就已达10亿。由于社交网络具有图结构特征，其匿名保护技术与结构化数据有很大不同。

　　社交网络中的典型匿名保护需求为用户标识匿名与属性匿名(又称点匿名)，在数据发布时隐藏了用户的标识与属性信息；以及用户问关系匿名(又称边匿名)，在数据发布时隐藏用户间的关系。而攻击者试图利用节点的各种属性(度数、标签、某些具体连接信息等)，重新识别出图中节点的身份信息。

　　目前的边匿名方案大多是基于边的增删。随机增删交换边的方法可以有效地实现边匿名。其中文献在匿名过程中保持邻接矩阵的特征值和对应的拉普拉斯矩阵第二特征值不变，文献根据节点的度数分组，从度数相同的节点中选择符合要求的进行边的交换，类似的还有文献。这类方法的问题是随机增加的噪音过于分散稀少，存在匿名边保护不足问题。

　　另一个重要思路是基于超级节点对图结构进行分割和集聚操作。如基于节点聚集的匿名方案、基于基因算法的实现方案、基于模拟退火算法的实现方案哺们以及先填充再分割超级节点的方案。文献所提出的k-security概念，通过k个同构子图实现图匿名保护。基于超级节点的匿名方案虽然能够实现边的匿名，但是与原始社交结构图存在较大区别，以牺牲数据的可用性为代价。

　　社交网络匿名方案面临的重要问题是，攻击者可能通过其它公开的信息推测出匿名用户，尤其是用户之间是否存在连接关系。例如，可以基于弱连接对用户可能存在的连接进行预测，适用于用户关系较为稀疏的网络；根据现有社交结构对人群中的等级关系进行恢复和推测；针对微博型的复合社交网络进行分析与关系预测；基于限制随机游走方法，推测不同连接关系存在的概率，等等。研究表明，社交网络的集聚特性对于关系预测方法的准确性具有重要影响，社交网络局部连接密度增长，集聚系数增大，则连接预测算法的准确性进一步增强。因此，未来的匿名保护技术应可以有效抵抗此类推测攻击。

　　4.3 数据水印技术

　　数字水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用的方法，多见于多媒体数据版权保护。也有部分针对数据库和文本文件的水印方案。

　　由数据的无序性、动态性等特点所决定，在数据库、文档中添加水印的方法与多媒体载体上有很大不同。其基本前提是上述数据中存在冗余信息或可容忍一定精度误差。例如，Agrawal等人基于数据库中数值型数据存在误差容忍范围，将少量水印信息嵌入到这些数据中随机选取的最不重要位上。而Sion等人提出一种基于数据集合统计特征的方案，将一比特水印信息嵌入在一组属性数据中，防止攻击者破坏水印。此外，通过将数据库指纹信息嵌入水印中，可以识别出信息的所有者以及被分发的对象，有利于在分布式环境下追踪泄密者；通过采用独立分量分析技术(简称ICA)，可以实现无需密钥的水印公开验证。若在数据库表中嵌人脆弱性水印，可以帮助及时发现数据项的变化。

　　文本水印的生成方法种类很多，可大致分为基于文档结构微调的水印，依赖字符间距与行间距等格式上的微小差异；基于文本内容的水印，依赖于修改文档内容，如增加空格、修改标点等；以及基于自然语言的水印。通过理解语义实现变化，如同义词替换或句式变化等。

　　上述水印方案中有些可用于部分数据的验证。例如在文献中，残余元组数量达到阈值就可以成功验证出水印。该特性在大数据应用场景下具有广阔的发展前景，例如：强健水印类(RobustWatermark)可用于大数据的起源证明，而脆弱水印类(Fragile Watermark)可用于大数据的真实性证明。存在问题之一是当前的方案多基于静态数据集，针对大数据的高速产生与更新的特性考虑不足，这是未来亟待提高的方向。

　　4.4 数据溯源技术

　　如前所述，数据集成是大数据前期处理的步骤之一。由于数据的来源多样化，所以有必要记录数据的来源及其传播、计算过程，为后期的挖掘与决策提供辅助支持。

　　早在大数据概念出现之前，数据溯源(Data Provenance)技术就在数据库领域得到广泛研究。其基本出发点是帮助人们确定数据仓库中各项数据的来源，例如了解它们是由哪些表中的哪些数据项运算而成，据此可以方便地验算结果的正确性，或者以极小的代价进行数据更新。数据溯源的基本方法是标记法，如在口文献中通过对数据进行标记来记录数据在数据仓库中的查询与传播历史。后来概念进一步细化为why和where两类，分别侧重数据的计算方法以及数据的出处。除数据库以外，它还包括XML数据、流数据与不确定数据的溯源技术。

　　数据溯源技术也可用于文件的溯源与恢复。例如文献通过扩展Linux内核与文件系统，创建了一个数据起源存储系统原型系统，可以自动搜集起源数据。此外也有其在云存储场景中的应用。

　　未来数据溯源技术将在信息安全领域发挥重要作用。在2009年呈报美国国土安全部的“国家网络空间安全”的报告中，将其列为未来确保国家关键基础设施安全的3项关键技术之一。然而，数据溯源技术应用于大数据安全与隐私保护中还面I临如下挑战：

　　(1)数据溯源与隐私保护之间的平衡。一方面，基于数据溯源对大数据进行安全保护首先要通过分析技术获得大数据的来源，然才能更好地支持安全策略和安全机制的工作；另一方面，数据来源往往本身就是隐私敏感数据。用户不希望这方面的数据被分析者获得。因此，如何平衡这两者的关系是值得研究的问题之一。

　　(2)数据溯源技术自身的安全性保护。当前数据溯源技术并没有充分考虑安全问题，例如标记自身是否正确、标记信息与数据内容之间是否安全绑定等等。而在大数据环境下，其大规模、高速性、多样性等特点使该问题更加突出。

　4.5 角色挖掘

　　基于角色的访问控制(RBAC)是当前广泛使用的一种访问控制模型。通过为用户指派角色、将角色关联至权限集合，实现用户授权、简化权限管理。早期的RBAC权限管理多采用“自顶向下”的模式：即根据企业的职位设立角色分工。当其应用于大数据场景时，面临需大量人工参与角色划分、授权的问题(又称为角色工程)。

　　后来研究者们开始关注“自底向上”模式，即根据现有“用户一对象”授权情况，设计算法自动实现角色的提取与优化，称为角色挖掘。简单来说，就是如何设置合理的角色。典型的工作包括：以可视化的形式，通过用户权限二维图的排序归并的方式实现角色提取；通过子集枚举以及聚类的方法提取角色等非形式化方法；也有基于形式化语义分析、通过层次化挖掘来更准确提取角色的方法。

　　总体来说，挖掘生成最小角色集合的最优算法时间复杂度高，多属于NP一完全问题。因而也有研究者关注在多项式时间内完成的启发式算法。在大数据场景下，采用角色挖掘技术可根据用户的访问记录自动生成角色，高效地为海量用户提供个性化数据服务。同时也可用于及时发现用户偏离日常行为所隐藏的潜在危险。但当前角色挖掘技术大都基于精确、封闭的数据集，在应用于大数据场景时还需要解决数据集动态变更以及质量不高等特殊问题。

　　4.6 风险自适应的访问控制

　　在大数据场景中，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其可以访问的数据。风险自适应的访问控制是针对这种场景讨论较多的一种访问控制方法。Jason的报告描述了风险量化和访问配额的概念。随后，Cheng等人提出了一个基于多级别安全模型的风险自适应访问控制解决方案。Ni等人提出了另一个基于模糊推理的解决方案，将信息的数目和用户以及信息的安全等级作为进行风险量化的主要参考参数。当用户访问的资源的风险数值高于某个预定的门限时，则限制用户继续访问。文献提出了一种针对医疗数据提供用户隐私保护的可量化风险自适应访问控制。通过利用统计学和信息论的方法，定义了量化算法，从而实现基于风险的访问控制。但同时，在大数据应用环境中，风险的定义和量化都较之以往更加困难。

　　5.大数据服务与信息安全

　　5.1 基于大数据的威胁发现技术

　　由于大数据分析技术的出现，企业可以超越以往的“保护-检测-响应-恢复”(PDRR)模式，更主动地发现潜在的安全威胁。例如，IBM推出了名为IBM大数据安全智能的新型安全工具，可以利用大数据来侦测来自企业内外部的安全威胁，包括扫描电子邮件和社交网络，标示出明显心存不满的员工，提醒企业注意，预防其泄露企业机密。“棱镜”计划也可以被理解为应用大数据方法进行安全分析的成功故事。通过收集各个国家各种类型的数据，利用安全威胁数据和安全分析形成系统方法发现潜在危险局势，在攻击发生之前识别威胁。相比于传统技术方案，基于大数据的威胁发现技术具有以下优点。

　　(1)分析内容的范围更大

　　传统的威胁分析主要针对的内容为各类安全事件。而一个企业的信息资产则包括数据资产、软件资产、实物资产、人员资产、服务资产和其它为业务提供支持的无形资产。由于传统威胁检测技术的局限性，其并不能覆盖这六类信息资产，因此所能发现的威胁也是有限的。而通过在威胁检测方面引入大数据分析技术，可以更全面地发现针对这些信息资产的攻击。例如通过分析企业员工的即时通信数据、Email数据等可以及时发现人员资产是否面临其它企业“挖墙脚”的攻击威胁。再比如通过对企业的客户部订单数据的分析，也能够发现一些异常的操作行为，进而判断是否危害公司利益。可以看出，分析内容范围的扩大使得基于大数据的威胁检测更加全面。

　　(2)分析内容的时间跨度更长

　　现有的许多威胁分析技术都是内存关联性的，也就是说实时收集数据，采用分析技术发现攻击。分析窗口通常受限于内存大小，无法应对持续性和潜伏性攻击。而引入大数据分析技术后，威胁分析窗口可以横跨若干年的数据，因此威胁发现能力更强，可以有效应对APT类攻击。

　　(3)攻击威胁的预测性

　　传统的安全防护技术或工具大多是在攻击发生后对攻击行为进行分析和归类，并做出响应。而基于大数据的威胁分析，可进行超前的预判。它能够寻找潜在的安全威胁，对未发生的攻击行为进行预防。

　　(4)对未知威胁的检测

　　传统的威胁分析通常是由经验丰富的专业人员根据企业需求和实际情况展开，然而这种威胁分析的结果很大程度上依赖于个人经验。同时，分析所发现的威胁也是已知的。而大数据分析的特点是侧重于普通的关联分析，而不侧重因果分析，因此通过采用恰当的分析模型，可发现未知威胁。

　　虽然基于大数据的威胁发现技术具有上述的优点，但是该技术目前也存在一些问题和挑战，主要集中在分析结果的准确程度上。一方面，大数据的收集很难做到全面，而数据又是分析的基础，它的片面性往往会导致分析出的结果的偏差。为了分析企业信息资产面临的威胁，不但要全面收集企业内部的数据，还要对一些企业外的数据进行收集，这些在某种程度上是一个大问题。另一方面，大数据分析能力的不足影响威胁分析的准确性。例如，纽约投资银行每秒会有5000次网络事件，每天会从中捕捉25TB数据。如果没有足够的分析能力，要从如此庞大的数据中准确地发现极少数预示潜在攻击的事件，进而分析出威胁是几乎不可能完成的任务。

　　5.2 基于大数据的认证技术

　　身份认证是信息系统或网络中确认操作者身份的过程。传统的认证技术主要通过用户所知的秘密，例如口令，或者持有的凭证，例如数字证书，来鉴别用户。这些技术面临着如下两个问题。

　　首先，攻击者总是能够找到方法来骗取用户所知的秘密，或窃取用户持有的凭证，从而通过认证机制的认证。例如攻击者利用钓鱼网站窃取用户口令，或者通过社会工程学方式接近用户，直接骗取用户所知秘密或持有的凭证。

　　其次，传统认证技术中认证方式越安全往往意味着用户负担越重。例如，为了加强认证安全，而采用的多因素认证。用户往往需要同时记忆复杂的口令，还要随身携带硬件USBKey。一旦忘记口令或者忘记携带USBKey，就无法完成身份认证。为了减轻用户负担，一些生物认证方式出现，利用用户具有的生物特征，例如指纹等，来确认其身份。然而，这些认证技术要求设备必须具有生物特征识别功能，例如指纹识别。因此很大程度上限制了这些认证技术的广泛应用。

　　而在认证技术中引入大数据分析则能够有效地解决这两个问题。基于大数据的认证技术指的是收集用户行为和设备行为数据，并对这些数据进行分析，获得用户行为和设备行为的特征，进而通过鉴别操作者行为及其设备行为来确定其身份。这与传统认证技术利用用户所知秘密，所持有凭证，或具有的生物特征来确认其身份有很大不同。具体地，这种新的认证技术具有如下优点。

　　(1)攻击者很难模拟用户行为特征来通过认证，因此更加安全。利用大数据技术所能收集的用户行为和设备行为数据是多样的，可以包括用户使用系统的时间、经常采用的设备、设备所处物理位置，甚至是用户的操作习惯数据。通过这些数据的分析能够为用户勾画一个行为特征的轮廓。而攻击者很难在方方面面都模仿到用户行为，因此其与真正用户的行为特征轮廓必然存在一个较大偏差，无法通过认证。

　　(2)减小了用户负担。用户行为和设备行为特征数据的采集、存储和分析都由认证系统完成。相比于传统认证技术，极大地减轻了用户负担。

　　(3)可以更好地支持各系统认证机制的统一基于大数据的认证技术可以让用户在整个网络空间采用相同的行为特征进行身份认证，而避免不同系统采用不同认证方式，且用户所知秘密或所持有凭证也各不相同而带来了种种不便。

　　虽然基于大数据的认证技术具有上述优点，但同时也存在一些问题和挑战亟待解决。

　　(1)初始阶段的认证问题。基于大数据的认证技术是建立在大量用户行为和设备行为数据分析的基础上，而初始阶段不具备大量数据。因此，无法分析出用户行为特征，或者分析的结果不够准确。

　　(2)用户隐私问题。基于大数据的认证技术为了能够获得用户的行为习惯，必然要长期持续地收集大量的用户数据。那么如何在收集和分析这些数据的同时，确保用户隐私也是亟待解决的问题。它是影响这种新的认证技术是否能够推广的主要因素。

　　5.3 基于大数据的数据真实性分析

　　目前，基于大数据的数据真实性分析被广泛认为是最为有效的方法。许多企业已经开始了这方面的研究工作，例如Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件；Yelp等社交点评网络用大数据分析来识别虚假评论；新浪微博等社交媒体利用大数据分析来鉴别各类垃圾信息等。

　　基于大数据的数据真实性分析技术能够提高垃圾信息的鉴别能力。一方面，引入大数据分析可以获得更高的识别准确率。例如，对于点评网站的虚假评论，可以通过收集评论者的大量位置信息、评论内容、评论时问等进行分析，鉴别其评论的可靠性。如果某评论者为某品牌多个同类产品都发表了恶意评论，则其评论的真实性就值得怀疑；另一方面，在进行大数据分析时，通过机器学习技术，可以发现更多具有新特征的垃圾信息。然而该技术仍然面临一些困难，主要是虚假信息的定义、分析模型的构建等。

　　5.4 大数据与“安全一即一服务(Security-as-a-Service)”

　　前面列举了部分当前基于大数据的信息安全技术，未来必将涌现出更多、更丰富的安全应用和安全服务。由于此类技术以大数据分析为基础，因此如何收集、存储和管理大数据就是相关企业或组织所面临的核心问题。除了极少数企业有能力做到之外，对于绝大多数信息安全企业来说，更为现实的方式是通过某种方式获得大数据服务，结合自己的技术特色领域，对外提供安全服务。一种未来的发展前景是，以底层大数据服务为基础，各个企业之间组成相互依赖、相互支撑的信息安全服务体系，总体上形成信息安全产业界的良好生态环境。

　　6.小结

　　大数据带来了新的安全问题，但它自身也是解决问题的重要手段。本文从大数据的隐私保护、信任、访问控制等角度出发，梳理了当前大数据安全与隐私保护相关关键技术。但总体上来说，当前国内外针对大数据安全与隐私保护的相关研究还不充分。只有通过技术手段与相关政策法规等相结合，才能更好地解决大数据安全与隐私保护问题。

本文作者:冯登国张敏李昊来源:E-Works
CIO之家 www.ciozj.com 微信公众号:imciow

大数据

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉