在保持数据私密性的同时比较数据

| 2022年8月18日

Tanmay Ghai在实体解析中维护隐私方面的工作已经在南加州大学和其他地方引起了关注。

医院文件

图片来源:Shannon Fagan

Tanmay佳他是南加州大学网络与网络安全部门的研究工程师信息科学研究所(ISI),以及最近的ISI校友,是2022年维特比计算机科学系最佳研究硕士学生奖的获得者。

维特比硕士学生奖承认毕业的硕士学位学生在所有八个系南加州大学维特比工程学院表彰在研究、服务、领导和学术方面的卓越表现。BOB综合体育官方APP地址Ghai因其在隐私保护实体解决方面的工作而获得最佳研究奖。

实体解析中保护隐私的重要性

在他的研究中,Ghai研究了如何在跨数据集解决各种实体并识别它们之间的关系的同时保持数据的私密性。例如,如果你的医院和银行的数据库中都包含你的健康或财务记录,那么理解和链接这些涉及到你的记录的任务是实体解析这是一个非常难的问题,因为事实上那像这样的T数据通常是高度敏感的。

Ghai解释说:“在这个例子中,比较医院和银行之间的数据显然需要他们彼此共享数据,这样他们才能进行比较。这是一个隐私问题,因为现在我们正在从一个实体向另一个实体泄露信息,虽然在某些情况下,它可能只是一个“名字”或“用户名”,但在更复杂的情况下,它可能是一个地址、社会保险号,甚至是一个银行账号。

保持高度敏感数据的私密性增加了实体解析的难度,因为必须对数据进行混淆以保护隐私,这使得相似性比较变得困难且成本高昂。这尤其“模糊”或“近似”匹配的情况-说明命名约定和格式差异的匹配。

一种新的方法:AMPPERE

Tanmay Ghai拿着维特比奖

Tanmay Ghai拿着维特比奖

在他们的, Ghai和他的合著者提出了一种名为AMPPERE的方法:用于隐私保护实体解析评估的通用抽象机器。这是一个使用相似度测量和隐私工具的计算模型。通过在现实数据集上使用两种不同的隐私工具实现AMPPERE,他们表明双方可以在不泄露敏感信息的情况下对其数据执行实体解析。

Ghai对AMPPERE取得的成功水平感到满意。“也许最令人惊讶的结果是,我们的两个实现能够像不保护隐私的实体解析算法一样准确,同时保护敏感信息不被泄露。”

从一开始,对研究团队来说,重要的是使AMPPERE具有普遍性和平台不可知性,这样它就可以用于各种应用程序,并用于进一步的研究。Ghai说:“我们的抽象模型应该能够支持许多可能的和有前途的新方向,随着我们纳入的隐私工具变得更加有效,解决隐私保护实体的解决方案将在计算上变得更加可行。”

Ghai很荣幸因为他的研究而得到认可

“能获得维特比研究生奖的最佳研究,我感到非常谦卑和感激,并深深感谢我的顾问教授Srivatsan Ravi教授,他在我在南加州大学的整个研究之旅中给予了我指导和支持。我是在大流行期间进入南加州大学的,当我回头看时,我在ISI发现的解决前沿问题的社区真正培养了我的新激情——研究。我很高兴能继续为ISI网络和网络安全部门的持续努力做出贡献,继续在分布式和安全系统与机器学习的交叉领域工作。”

这不是盖第一次因为这项研究而获得认可。2021年,AMPPERE论文发表在第30届ACM信息与知识管理国际会议(CIKM)是一个关于信息和知识管理以及数据和知识库最新进展的顶级国际会议。2021年,当盖的论文被接受时,录取率为21.7%。

Ghai和他的合作者正在继续研究隐私保护实体解决方案。他们目前在今年的CIKM上发表了一篇关于这个主题的新论文,并计划在未来的方向上涉及其他隐私工具及其在实体解析领域的应用。

出版于2022年8月18日

最后更新于2022年8月18日

分享这个故事