所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

一个详细的回顾使用距离测量技术在数据挖掘隐私保护

Kuntumalla拉莎* 1和Akkarabani Bharani Pradeep库马尔2
  1. 学生,M。技术(CSE), Anadapuram Al-Ameer工程与技术学院威扎吉,一个。P、印度
  2. Asst.Professor (CSE)、Anadapuram Al-Ameer工程与技术学院威扎吉,一个。P、印度
通讯作者:Kuntumalla拉莎,电子邮件:kuntumallalatha@gmail.com
相关文章Pubmed,谷歌学者

访问更多的相关文章全球研究计算机科学杂志》上

文摘

隐私是主要关于现在天。在本文中,我们集中在距离措施应用于确保个人敏感信息的隐私。保护数据隐私在数据分布是一个重要的问题。距离测量技术通常旨在保护个人隐私,以最小的对公布的数据的质量的影响。最近,一些模型介绍了确保隐私保护和/或减少信息损失尽可能多。也就是说,他们进一步提高匿名策略的灵活性使它更接近现实,然后满足人们的各种需求。各种建议和算法设计在同一时间。在本文中,我们概述的距离测量技术隐私保护。我们讨论测量模型的距离,距离测量的主要实现方法和策略算法,并分析其优缺点。然后给一个简单的回顾一下工作的完成。最后,我们的结论进一步研究方向的距离测量技术通过分析现有的工作。

关键字

隐私,距离测量,亲密,匿名性。

介绍

匿名发表的数据来自社区的研究已经受到了相当大的关注近年来,由于需要防止“链接攻击”[1]在众多数据分发应用程序。考虑,例如,公司希望贡献其付款记录在表,称为微数据,社会学科学家。属性工资是敏感,即出版必须确保没有对手可以准确推断出任何雇员的工资。年龄和Zipcode quasi-identifier(气)[2]属性,因为他们可以利用链接攻击恢复员工的身份。信息技术的进步使得各种组织(例如,人口普查机构、医院)收集大量敏感的个人数据(例如,人口普查数据、医疗记录)。由于这些数据的研究价值,通常是为了公共利益的目的,发布,然而,对个人隐私造成威胁。一个典型的解决这个问题是匿名化数据向公众发布之前。特别是,匿名化应该谨慎的方式进行,这样发布的数据不仅可以防止敌人infer-ring敏感信息,但仍然有用的数据分析。研究人员公布表提供有用的信息;提出了信息披露风险的个人数据表中。 Therefore, our objective is to limit the disclosure risk to an acceptable level while maximizing the benefit. This is achieved by anonymizing the data before release. The first step of anonymization is to remove explicit identifiers. However, this is not enough, as an adversary may already know the quasi-identifier values of some individuals in the table.
这些知识可以从个人知识(例如,亲自了解一个特定的个人),或从其他公开数据库(例如,选民登记名单),包括明确的标识符和quasi-identifiers。常见的匿名化方法是推广,取代quasi-identifier值与值不太特定的但语义一致的。
隐私的轮廓:
隐私与多维敌对的知识:
隐私保护技术处理知识。数据可以分为垃圾箱或者桶一个称为D .我们必须应用技术数据D *。敌人也可能获得一些外部知识。一般来说,我们可以使用一个逻辑表达式,这个外部知识模型可能包含变量。我们说一个表达式是地面如果它不包含变量。地面表达式可以评估可能的原始数据集,然后返回真或假。我们说重建满足表达E iff E是真的在R (D *) [3]。
我们考虑
目标个人知识:一个有趣的类实例级知识[4]包括信息,对手可能知道目标的个体。例如,汤姆没有癌症。
b。知识:同样,对手可能目标以外的个人信息。例如,加里有流感。
c。知识相同的值的家庭:我们认为最直观的一种不同的个体的知识是一组相关的知识(或家庭)的个人敏感值相同。例如,{安,卡里,汤姆}可能是一个相同的值的家庭,这意味着如果其中任何一个有一个敏感的值(例如,流感),其他人往往也有相同的敏感值信息披露和清除数据,提高计算效率最著名的技术好几个数量级。这种技术是高效的知识。另外,图包含个体之间的关系显然是未知的。

大多数隐私PRSERVING

数据挖掘方法应用转换从而降低底层数据的有效性,当它应用于数据挖掘方法或算法。事实上,有一个自然的隐私和准确性之间的权衡;虽然这权衡影响特定algorithmwhich用于隐私保护。一个关键问题是维护数据的最大效用没有compromisingthe潜在隐私约束。一个广泛的概述不同的基于效用的方法保护隐私这。设计基于效用的问题与某些类型的数据挖掘算法有效问题解决。
挖掘关联规则隐私约束:
由于关联规则挖掘是数据挖掘的一个重要问题,我们有一些章节致力于这个问题。有两个方面的privacypreserving关联规则挖掘问题:摄动的输入数据时,它是一个具有挑战性的问题,准确地确定扰动数据的关联规则。另一个问题是,输出关联规则隐私。在这种情况下,我们试图确保所有关联规则的输出导致敏感数据泄漏。这个问题被称为数据库关联规则隐藏[5]的社区,和列联表的统计隐私保护的社区。输出关联规则隐私的问题。关联规则的详细调查隐藏从数据库的角度讨论了社区。
加密信息共享和隐私的方法:
在许多情况下,多个政党可能会希望分享总私人数据,不泄露任何敏感信息在他们结束[6]。例如,differentsuperstores与敏感的销售数据可能希望彼此协调inknowing总趋势不泄漏个人商店的趋势。这需要安全andcryptographic协议共享的信息在不同的政党。数据可能分布在两个方面在不同的网站:privacypreserving领域的数据挖掘是数据流,unlimitedrate数据增长迅速。在这种情况下,privacy-preservationis相当具有挑战性的问题,由于数据正在逐步释放。此外,数据流的快速自然消除的可能性使用过去的历史数据。
我们注意到数据流数据挖掘和保护隐私的话题还比较新,并没有多少工作结合这两个话题。做了一些工作在执行随机的数据流[7],和其他工作处理的问题基于凝结的匿名化[8]的数据流。讨论了这两种方法分别对隐私和随机调查。
T (N)亲密:
这是更灵活的版本的隐私保护。在这些模型,我们使用两个属性之间的距离度量称为计数。这里有各种距离的措施用于识别基于信息增益的属性之间的距离以及这些属性密切相关。这可以更灵活的比较其他匿名化技术,但这仅是不够的测量可以使用多维技术,但是我们需要出具的这种方法可以是非常有用的对个人信息保密。现在,我们将看到这种方法的N T亲密[9],可以全部人口分布的数据。
图像
在应用上述技术表以匿名的形式的版本。在这里我们可以看到匿名化通过使用一对亲密距离措施之间的距离属性少时代可以说他们是彼此接近,因此取代了去年数字‘*’可以隐藏原来的病人的细节。
(N, T)亲密的局限性:
一个。没有计算过程执行(N, T)亲密。
b。有有效的方法直到现在结合归纳和排除或切片。
c。之间失去联系不同的属性:这是因为每个属性分别是广义所以我们失去彼此的依赖。
d。实用的数据损坏如果我们使用非常小的t。(和小t将导致计算时间是必读书。
图像

距离测量

曼哈顿距离函数计算距离,敢打赌词句从一个数据点到另一个如果栅格pathis紧随其后。曼哈顿距离[10]两个ems是软的区别的总和他ircorres水洼组件。点之间的这段距离的公式= (X1, X2,等等)和一个点Y = (Y1, Y2,等等)
图像
两个点p和q之间的欧几里得距离线段的长度连接p和q在笛卡尔坐标,如果p = (p1, p2,……pn)和q = (q1、q2,……,qn) are two points in Euclidean n- space, then the distance from p to q, or from q to p is given by:
图像
的positionofapointinaEuclidean下欧几里得矢量。因此,p和q areEuclidean向量,从空间的起源开始,和theirtips表明两点。欧几里得范数,欧几里得长度或大小的矢量措施看情景:值没有包丢失,估计误差的增加线性增长只有跳数和日益增长的速度远远慢于跳数的值。它只显示不同的随机转发跳数不是有效的提供更好的源位置隐私。
图像
在最后一个方程涉及的点积。一个vectorcanbedescribedasa有向线段的欧几里得空间的起源[11](矢量尾),一个点在空间(向量)。如果我们考虑到它的长度是它stail煤断层的距离,这成为sclear Euclideannormofavectoris欧几里得距离的一个特例:之间的欧几里得距离它stailandit站下车。Thedistance pointspandqmay之间的一个方向(如frompto q),所以它可能由另一个向量,给出了,
图像
在一个三维空间(n = 3),这是一个箭头从p, q,这也可以视为q相对于p的位置。也称为位移矢量可能如果p和q表示两个位置相同的点连续两个瞬间的时间。
p和q之间的欧几里得距离就是欧几里得距离的长度(或位移)向量:
图像
一维:
一维的两个点之间的距离,真正的线是irnumerical差的绝对值。因此,如果x和实线是两个点,然后的mis之间的距离:
图像
在一维,一个均匀,翻译不变量度量(换句话说,一个距离所诱导的规范),一个比例因子的长度,这是欧氏距离。在更高的维度可能有其他的规范。
两个维度:
在欧氏平面上,如果p = (p1, p2) andq = (q1、q2)的距离
图像
这相当于勾股定理[12]。另外,它遵循从极坐标,如果软的削减(r1,θ1)和qare (r2,θ2),然后点之间的距离,
图像
上述措施的距离使用dinthecloseness函数(n, t)实现更好的隐私而发布个人的敏感信息。

结论

介绍各种distancemeasures用于亲密的技术来保护个人的隐私而发布微医院datasenses数据等数据。

引用

  1. 亚当N。,Wortmann J. C.: Security-Control Methods for Statistical Databases: A Comparison Study. ACM Computing Surveys, 21(4), 1989.
  2. Agrawal R。,Srikant R. Privacy-Preserving Data Mining. Proceedings of the ACM SIGMOD Conference, 2000.
  3. Agrawal R。,Srikant R., Thomas D. Privacy-Preserving OLAP. Proceedings of the ACM SIGMOD Conference, 2005.
  4. Agrawal R。,Bayardo R., Faloutsos C., Kiernan J., RantzauR., Srikant R.: Auditing Compliance via a Hippocratic database. VLDBConference, 2004.
  5. Agrawal d Aggarwal林祖嘉设计和量化的隐私保护数据挖掘算法。ACM豆荚会议,2002。
  6. Aggarwal C。,裴J。,Zhang B. A Framework for Privacy Preservation against Adversarial Data Mining.ACM KDD Conference, 2006.
  7. Aggarwal林祖嘉k-anonymity和维度的诅咒。VLDB会议,2005。
  8. Aggarwal C . C。于p S。:一个凝结的隐私保护数据挖掘方法。发债公司会议,2004。
  9. Aggarwal C . C。于p S。隐私:变量约束——保留数据挖掘。暹罗会议,2005。
  10. Aggarwal C . C。:随机化、公共信息和theCurse维度。ICDE会议,2007。
  11. Bawa M。,Bayardo R. J., Agrawal R.: Privacy-Preserving Indexing of Documents on the Network. VLDB Conference, 2003.
  12. Aggarwal。G。,Feder. T., Kenthapadi. K., Motwani. R., Kiran. S Approximation Algorithms for k-anonymity. Journal of Privacy Technology, paper 2005.