在R中混淆聚类数据并保护隐私的技术

9

背景

我有一些包含调查受访者地理位置的机密信息的私人调查数据。在任何情况下,这些信息都不能被公开。

如同调查研究中常见的那样,为了让用户正确计算我的调查数据集的方差,这些用户将需要该地理位置(不可接受)或者是一组复制权重。我可以创建这组复制权重;然而,很容易查看这些权重之间的相关性并反向计算出哪些调查受访者共享相同的地理位置。这也是不可接受的。

为了帮助我解决这个问题,您不必熟悉“复制权重”--只需将其视为几列强相关的聚类数据。

我知道如果我想要保持这种聚类,邪恶的数据用户将总是能够半准确地猜测到谁共享地理位置;我只想让这个猜测游戏变得不那么精确。在未混淆的复制权重上,邪恶的数据用户可以找出100%的案例。

请求

我正在寻找一种技术,该技术可以:

  • 防止公共使用文件用户通过我的复制权重变量之间的相关性轻易推断出共享的地理位置
  • 不会破坏我的数据列之间的相关性(复制权重变量)
  • 可以在R data.frame对象上实现,而不需要大量时间投入

我说“共享”,因为邪恶的用户可能不知道位置在哪里,但他们可能知道两个调查受访者来自同一个地方--这是不可接受的。

我尝试过的方法

我真的不想重新发明轮子。我正在寻找R语法、R包或其他任何相对容易实现的东西。我找到了一篇两篇三篇四篇论文描述的技术都适用于我的目的;不幸的是,没有一位作者愿意分享实际的代码来实现它们。

我可以做一些简单的事情,比如根据正态分布添加和减去随机值到我的复制权重列,但我更愿意依靠那些比我更了解隐私问题的人的工作。

谢谢!!!


1
请尝试查看sdcMicro软件包。 - James
1
你不能这样做。多位数据科学家/软件专家已经证明,从所谓的匿名化大数据中提取个人身份信息是很容易的。你的选择要么是像你所说的那样留下一条路径让别人重构地理数据,要么就完全删除地理数据,并根据其他因素进行分析。 - Carl Witthoft
3
美国人口普查局经常执行我所描述的操作,尽管他们有严格的保密规定。让我们降低标准,说:“如果这对于人口普查来说足够好,那对于我也足够好。” 我在此定义一个新术语:WWCD?谢谢。 - Anthony Damico
谢谢@James,我以前从未听说过这个!我花了一些时间用那个工具包来回答我的问题。 :) - Anthony Damico
1个回答

2

链接已失效 :-( - Dan Chaltiel
抱歉,博客文章链接:http://usgsd.blogspot.com/2014/09/how-to-provide-variance-calculation-on.html 和代码链接:https://github.com/ajdamico/asdfree/tree/archive/Confidentiality - Anthony Damico

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接