有趣的NLP/机器学习项目--分析隐私政策

6
我希望对我被分配的一个有趣问题得到一些意见。任务是分析数百甚至数千个隐私政策并确定它们的核心特征。例如,它们会获取用户位置吗?它们与第三方分享/出售吗?
我已经与几个人交谈,阅读了大量关于隐私政策的文章,并自己思考了一些想法。这是我的当前攻击计划:
首先,阅读大量隐私政策并查找主要的“线索”或指示符以满足某个特定特征。例如,如果数百个隐私政策都有同样的行:“我们将获取您的位置。”,那么该行可能是一个具有100%置信度的线索,表明该隐私政策包括获取用户位置。其他线索可能会给出更小程度的关于某个特性的置信度。例如,“位置”一词的存在可能会增加用户位置被存储的可能性25%。
这个想法是继续开发这些线索及其适当的置信区间,直到我能够高度自信地对所有隐私政策进行分类。这里的类比可以用贝叶斯过滤器来识别哪些邮件很可能是商业和未经请求的垃圾邮件。
我想问你们是否认为这是解决这个问题的好方法。你会如何解决这样的问题?此外,您是否推荐使用任何特定的工具或框架?欢迎任何意见。这是我第一次涉足人工智能,并且特别涉及机器学习和自然语言处理。

问题并不是文档分类。您希望将每个文档分成块,然后对每个块进行标记/分类/摘要。一个天真的方法可以将每个段落或语法句子视为一个块,但这可能太粗糙了。 - tripleee
仅有一些段落实际上与典型用户的隐私有关。 我对“热门”问题感兴趣,比如获取位置、向第三方出售等等。 标准废话是无关紧要的。 - Ben G
我试图表达的一点是,如果这样的系统不能区分“我知道这是什么,我可以忽略它”和“我不知道这是什么”,那么这将是一个相当严重的错误。因此,我认为实际上您需要确定您所谓的“标准样板文件”。如果确实是标准的样板文件,那么相对于主要任务来说,这应该很容易。 - tripleee
3个回答

4
“这个想法是继续开发这些线索及其适当的置信区间,直到我能够高度自信地将所有隐私政策归类。这里可以做一个类比,就像使用贝叶斯过滤器识别哪些邮件可能是商业和未经请求的电子垃圾捕获系统一样。”
这是文本分类。考虑到每个文档有多个输出类别,实际上是多标签分类。标准方法是手动标记一组文档与您要预测的类/标签,然后在文档特征上训练分类器;通常是单词或n-gram出现次数或计数,可能加权tf-idf。
文档分类的流行学习算法包括朴素贝叶斯和线性支持向量机,虽然其他分类器也可能适用。任何分类器都可以通过 one-vs.-rest(OvR)构造扩展为多标签分类器。

2
一个非常有趣的问题!
从更高层面上来看,您想要的是摘要-将文档缩减为几个关键短语。这远非一个已经解决的问题。一个简单的方法是搜索关键词而不是关键短语。您可以尝试像LDA这样的主题建模方法来找出每个文档的内容。然后,您可以搜索所有文档中存在的主题-我怀疑会涉及到许可证、位置、版权等方面的内容。MALLET提供了LDA的易于使用的实现。

0

我会将这个问题视为一个机器学习问题,您需要以多种方式对事物进行分类-例如想要位置、想要社保号等。

您需要列举出要使用的特征(位置、社保号),然后针对每个文档说出该文档是否使用了该信息。选择您的特征,训练您的数据,然后进行分类和测试。

我认为像单词和n-gram这样的简单特征可能会让您走得更远,而与社保号或位置相关的单词字典会使其更完美。

使用您选择的机器学习算法-朴素贝叶斯非常容易实现和使用,并且作为解决问题的第一步可以起到不错的作用。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接