机器学习算法会复制它所学习的数据吗?

3
我不是程序员,而是一名法学生。目前我正在为涉及人工智能和版权法的项目进行研究。我正在探讨机器学习算法的学习过程是否可能侵犯版权,如果受保护的作品被算法使用。然而,这取决于算法是否复制了作品或做了其他事情。
请问有人能告诉我,机器学习算法通常是否会复制它们正在分析的数据(图片/文本/视频等),即使只是短暂的复制,还是它们能够通过其他方法获取所需信息,而无需复制(类似于人类看到停车标志并将其识别为停车标志而不一定复制图像)。
对于我的知识匮乏和我可能违反任何已有的机器学习知识的解释,我深表歉意。正如我所说,我只是一个卑微的法学生。
谢谢!
5个回答

4
一些机器学习算法实际上会保留训练集的副本,例如k最近邻算法。请参见https://en.wikipedia.org/wiki/Instance-based_learning。并不是所有算法都这样做;事实上,通常被认为这是一个缺点,因为训练集可能很大。
此外,计算机也围绕着许多不同大小和速度的数据存储构建。它们通常会在处理数据时将其复制到小型快速存储器中,因为较大的存储器需要更长时间才能读写。其中的一个例子已经成为了法律纠纷的主题,我知之甚少-请参见例如https://law.stackexchange.com/questions/2223/why-does-browser-cache-not-count-as-copyright-infringement和其他有关浏览器缓存版权的文章。如果计算机已经加了两个数字,那么它肯定已经把它们存储在内存中了。很可能它已经至少把其中一个存储在所谓的内部寄存器中-这是一种非常小而非常快的存储器,用于存储要处理的数字。
如果计算机(或任何其他电子设备)被用于处理机密数据,则通常会从那时起将其视为机密,假定它可能保留了任何已经处理过的数据的某些副本,即使在实践中从中检索数据需要专业设备和经验丰富的人员。

2
通常情况下,不会。典型的机器学习算法处理输入数据的第一步并不是复制或存储它,而是基于它计算某些内容,然后忘记原始数据。神经网络、回归算法和统计方法都是这样做的。主流机器学习中没有“完美记忆”的概念。我想,如果有这样的功能,它可能会被营销为数据库或全文索引引擎等产品。
但是,如果您想让机器学习算法在机器上运行,如何将数据传输到该机器上呢?

谢谢你的回复,Chris。关于算法如何获取数据,在给定一组定义好的数据的情况下,可以从版权所有者那里获得许可,这不应该带来太多棘手的法律问题。我更感兴趣的是,如果算法无意中使用了未经许可的受保护作品,这是否构成侵犯版权。算法是否可能这样做,还是它们总是基于一组定义好的训练数据运行? - Max Bicknell
扩展“无意间使用”的含义?如果将其提供给算法作为训练数据,则不是无意的。如果在训练后看到它被使用-嗯,那很棘手。当前主流(不是全部)的方法是在训练后不要学习或记忆(尽管我不敢保证它会在未来5-10年内仍然是主流的方法)。 - Chris F Carroll
您IP地址为143.198.54.68,由于运营成本限制,当前对于免费用户的使用频率限制为每个IP每72小时10次对话,如需解除限制,请点击左下角设置图标按钮(手机用户先点击左上角菜单按钮)。 - Max Bicknell
那么我认为你所谓的“无意使用”类别并不存在。计算机只会执行它们明确编程的任务。 是的,你可以编写程序来搜索互联网。Google在训练其面部/猫咪检测器时使用了随机的YouTube视频。但在我看来,这是明确提供的,而不是无意使用:只有在编程后才会进行搜索。 但是,这意味着你正在搜索你没有权利使用的作品。是的,我仍然坚持我的答案:“通常情况下,除非首次复制到计算机上,否则不会被复制”。 - Chris F Carroll
太棒了,非常感谢。我认为我使用“无意的”这个词是不恰当的。我的意思是在搜索互联网数据的过程中,使用了开发人员明确不知道的特定数据。再次感谢您的帮助,这确实是一个有趣的问题,大多数国家在其法律框架中都没有准备好应对。 - Max Bicknell

2
机器学习算法是否会复制它所学习的数据? 有很多不同类型的机器学习算法。如果你在谈论k nearest neighbor (k-NN),那么答案很简单,是的。
然而,k-NN 很少使用。大多数(全部?)其他模型并不那么简单。通常,机器学习开发者希望模型可以对训练数据进行压缩(大幅度,有损)有以下几个原因:(1) 训练数据量很大(有很多 GB),(2) 如果训练数据被压缩,泛化效果可能更好,(3) 如果数据未压缩,推理新的例子可能需要很长时间。(通过“压缩”,我指提取任务相关信息并删除不相关数据。不是通常意义上的压缩。)
对于除k-NN以外的其他模型,答案更为复杂。这要取决于你如何定义“拷贝”。例如,从人工神经网络(尤其是卷积神经网络(Convolutional Neural Networks)这个子类型)中,训练数据可以部分恢复。这些模型在许多(所有?)计算机视觉任务中都是最先进的技术。
我找不到任何论文表明可以从CNN中(部分)恢复/提取训练数据,并关注可能存在的隐私/版权问题,但我大约有70%的把握我曾经读过一篇关于这个问题的摘要。我认为我还听过一个研究人员说,在构建儿童色情检测器时,这是一个问题。然而,我不认为有录制或发表任何有关此事的文章。
以下是两篇论文,表明从CNN中恢复训练数据可能是可能的:

0

这取决于你所说的“复制”是什么意思。如果你运行任何程序,它都会将数据从硬盘复制到RAM进行处理。我假设这不是你的意思。

那么假设你在特定的机器上拥有受版权保护的数据,并在数据上运行机器学习算法,那么算法没有理由将数据复制出机器。

另一方面,如果你使用云ML服务(AWS/IBM Bluemix/Azure),那么你需要在运行ML算法之前将数据上传到云端。这意味着你正在复制数据。

希望这能更好地解释问题!

卑微的机器学习学生


0

一些计算机会复制数据集,例如KNN。不幸的是,由于无法针对大数据集进行扩展,这些算法在实践中并不常用。

大多数机器学习算法使用数据集来识别模式,这就是为什么模式识别是机器学习的另一个名称的原因。该模式几乎总是比原始数据集小得多(以内存和变量等方面而言)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接