新鲜

大数据时代带来的威胁:隐私泄露

字号+ 作者:GIS帝国 来源:GIS帝国 2015-11-09 10:57 我要评论( )

科学技术是一把双刃剑。大数据所引发的安全问题与其带来的价值同样引人注目。棱镜门等事件更加剧了人们对大数据安全的担忧。与传统的信息安全问题相比,大数据安

  科学技术是一把双刃剑。大数据所引发的安全问题与其带来的价值同样引人注目。“棱镜门”等事件更加剧了人们对大数据安全的担忧。与传统的信息安全问题相比,大数据安全面临的挑战性问题主要体现在以下几个方面。

  1 大数据中的用户隐私保护

  大量事实表明,大数据未被妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同,隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。

  人们面临的威胁并不仅限于个人隐私泄漏,还在于基于大数据对人们状态和行为的预测。一个典型的例子是某零售商通过历史记录分析,比家长更早知道 其女儿已经怀孕的事实,并向其邮寄相关广告信息。而社交网络分析研究也表明,可以通过其中的群组特性发现用户的属性。例如通过分析用户的Twitter信 息,可以发现用户的政治倾向、消费习惯以及喜好的球队等。

  当前企业常常认为经过匿名处理后,信息不包含用户的标识符,就可以公开发布了。但事实上,仅通过匿名保护并不能很好地达到隐私保护目标。例 如,AOL公司曾公布了匿名处理后的3个月内部分搜索历史,供人们分析使用。虽然个人相关的标识信息被精心处理过,但其中的某些记录项还是可以被准确地定 位到具体的个人。纽约时报随即公布了其识别出的1位用户。编号为4417 749的用户是1位62岁的寡居妇人,家里养了3条狗,患有某种疾病,等等。另一个相似的例子是,着名的DVD租赁商Netflix曾公布了约50万用户 的租赁信息,悬赏100万美元征集算法,以期提高电影推荐系统的准确度。但是当上述信息与其它数据源结合时,部分用户还是被识别出来了。研究者发 现,Netflix中的用户有很大概率对非topl00、top500、topl000的影片进行过评分,而根据对非top影片的评分结果进行去匿名化 (de-anonymizing)攻击的效果更好。

  目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律。用户无法确定自己隐私信息的用途。而在商业化场景中,用 户应有权决定自己的信息如何被利用,实现用户可控的隐私保护。例如用户可以决定自己的信息何时以何种形式披露,何时被销毁。包括:(1)数据采集时的隐私 保护,如数据精度处理;(2)数据共享、发布时的隐私保护,如数据的匿名处理、人工加扰等;(3)数据分析时的隐私保护;(4)数据生命周期的隐私保护; (5)隐私数据可信销毁等。

  我们时刻都暴露在第三只眼的“监视”之下,不管我们是在用信用卡支付、打电话、还是使用身份证。在政府之外,亚马逊淘宝们监视着我们的购物习惯,谷歌百度监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听了我们心中的TA,还有我们的社交网络。

  进行大数据分析的巨头们可以轻松地看到大数据的价值潜力,这也极大的刺激着他们进一步采集、储存、循环利用我们的个人数据的野心,与此同时,保护我们隐私的法律法规依然有效吗?

 

  2 大数据的可信性

  关于大数据的一个普遍的观点是,数据自己可以说明一切,数据自身就是事实。但实际情况是,如果不仔细甄别,数据也会欺骗,就像人们有时会被自己的双眼欺骗一样。

  大数据可信性的威胁之一是伪造或刻意制造的数据,而错误的数据往往会导致错误的结论。若数据应用场景明确,就可能有人刻意制造数据、营造某种 “假象”,诱导分析者得出对其有利的结论。由于虚假信息往往隐藏于大量信息中,使得人们无法鉴别真伪,从而做出错误判断。例如,一些点评网站上的虚假评 论,混杂在真实评论中使得用户无法分辨,可能误导用户去选择某些劣质商品或服务。由于当前网络社区中虚假信息的产生和传播变得越来越容易,其所产生的影响 不可低估。用信息安全技术手段鉴别所有来源的真实性是不可能的。

  大数据可信性的威胁之二是数据在传播中的逐步失真。原因之一是人工干预的数据采集过程可能引入误差,由于失误导致数据失真与偏差,最终影响数据 分析结果的准确性。此外,数据失真还有数据的版本变更的因素。在传播过程中,现实情况发生了变化,早期采集的数据已经不能反映真实情况。例如,餐馆电话号 码已经变更,但早期的信息已经被其它搜索引擎或应用收录,所以用户可能看到矛盾的信息而影响其判断。

  因此,大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等,了解各项数据可信度,防止分析得出无意义或者错误的结果。

大数据

  密码学中的数字签名、消息鉴别码等技术可以用于验证数据的完整性,但应用于大数据的真实性时面临很大困难,主要根源在于数据粒度的差异。例如, 数据的发源方可以对整个信息签名,但是当信息分解成若干组成部分时,该签名无法验证每个部分的完整性。而数据的发源方无法事先预知哪些部分被利用、如何被 利用,难以事先为其生成验证对象。

  3 如何实现大数据访问控制

  访问控制是实现数据受控共享的有效手段。由于大数据可能被用于多种不同场景,其访问控制需求十分突出。

  大数据访问控制的特点与难点在于:

  (1)难以预设角色,实现角色划分。由于大数据应用范围广泛,它通常要为来自不同组织或部门、不同身份与目的的用户所访问,实施访问控制是基本 需求。然而,在大数据的场景下,有大量的用户需要实施权限管理,且用户具体的权限要求未知。面对未知的大量数据和用户,预先设置角色十分困难。

  (2)难以预知每个角色的实际权限。由于大数据场景中包含海量数据,安全管理员可能缺乏足够的专业知识,无法准确地为用户指定其所可以访问的数 据范围。而且从效率角度讲,定义用户所有授权规则也不是理想的方式。以医疗领域应用为例,医生为了完成其工作可能需要访问大量信息,但对于数据能否访问应 该由医生来决定,不应该需要管理员对每个医生做特别的配置。但同时又应该能够提供对医生访问行为的检测与控制,限制医生对病患数据的过度访问。

转载请注明出处。GIS帝国网站报道中出现的商标及图像版权属于其合法持有人,只供传递信息之用,非商务用途。

1.GIS帝国遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • “伽利略”瘫了 而“北斗”却在加速迈入全球时代!

    “伽利略”瘫了 而“北斗”却在加速迈入全球时代!

    2019-07-26 08:14

  • 2019年春运预测,北上广票难抢,大数据告诉你谁回家最困难!

    2019年春运预测,北上广票难抢,大数据告诉你谁回家最困难!

    2019-01-22 16:04

  • 传统GIS迈入是云时代,你准备好了吗?

    传统GIS迈入是云时代,你准备好了吗?

    2019-01-03 14:25

  • 互联网从“骑士时代”走进“智者时代”

    互联网从“骑士时代”走进“智者时代”

    2019-01-02 16:45

网友点评