数据库脱敏技术
通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:可确切定位某个人的列,称为可识别列,如身份号,地址以及姓名等。单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究称,仅使用邮编号,生日和性别信息
金融数据资产分类分级调试
数据库脱敏技术
通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:可确切定位某个人的列,称为可识别列,如身份号,地址以及姓名等。单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究称,仅使用邮编号,生日和性别信息即可识别87%的美国人。包含用户敏感信息的列,如交易数额,疾病以及收入等。其他不包含用户敏感信息的列。
数据库脱敏的功用
用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面, 完全保留用户隐私数据信息,可较大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,
动态数据库脱敏实现机制
用户的数据请求被代理实时在线拦截并经脱敏后返回,此过程对于用户及应用程序完全透明。这种机制的脱敏判断是在数据容器外实现,因而能够适用于非关系型数据库,如大数据环境。脱敏代理部署在数据容器的出口处以网关方式运行,检测并处理所有用户与服务器间的数据请求及响应。它的好处是,无需对数据存储方式及应用程序代码做出任何更改。代理实现数据脱敏的具体方法是查询语句或响应语句替换。代理能自动识别目标为敏感数据的查询语句,并将语句改写为不包含敏感字段,或对敏感字段进行变换处理的查询语句。查询结果返回代理时,会被重新计算、修改并包装为与原请求一致的格式交付用户,从而完成一次敏感信息的查询过程,
(作者: 来源:)