机器学习算法会复制它所学习的数据吗？

Question

机器学习算法会复制它所学习的数据吗？

algorithmmachine-learningneural-networkartificial-intelligencedeep-learning

3

我不是程序员，而是一名法学生。目前我正在为涉及人工智能和版权法的项目进行研究。我正在探讨机器学习算法的学习过程是否可能侵犯版权，如果受保护的作品被算法使用。然而，这取决于算法是否复制了作品或做了其他事情。

请问有人能告诉我，机器学习算法通常是否会复制它们正在分析的数据（图片/文本/视频等），即使只是短暂的复制，还是它们能够通过其他方法获取所需信息，而无需复制（类似于人类看到停车标志并将其识别为停车标志而不一定复制图像）。

对于我的知识匮乏和我可能违反任何已有的机器学习知识的解释，我深表歉意。正如我所说，我只是一个卑微的法学生。

谢谢！

- Max Bicknell

5个回答

2

通常情况下，不会。典型的机器学习算法处理输入数据的第一步并不是复制或存储它，而是基于它计算某些内容，然后忘记原始数据。神经网络、回归算法和统计方法都是这样做的。主流机器学习中没有“完美记忆”的概念。我想，如果有这样的功能，它可能会被营销为数据库或全文索引引擎等产品。

但是，如果您想让机器学习算法在机器上运行，如何将数据传输到该机器上呢？

- Chris F Carroll

扩展“无意间使用”的含义？如果将其提供给算法作为训练数据，则不是无意的。如果在训练后看到它被使用-嗯，那很棘手。当前主流（不是全部）的方法是在训练后不要学习或记忆（尽管我不敢保证它会在未来5-10年内仍然是主流的方法）。 - Chris F Carroll

您IP地址为143.198.54.68，由于运营成本限制，当前对于免费用户的使用频率限制为每个IP每72小时10次对话，如需解除限制，请点击左下角设置图标按钮（手机用户先点击左上角菜单按钮）。 - Max Bicknell

那么我认为你所谓的“无意使用”类别并不存在。计算机只会执行它们明确编程的任务。是的，你可以编写程序来搜索互联网。Google在训练其面部/猫咪检测器时使用了随机的YouTube视频。但在我看来，这是明确提供的，而不是无意使用：只有在编程后才会进行搜索。但是，这意味着你正在搜索你没有权利使用的作品。是的，我仍然坚持我的答案：“通常情况下，除非首次复制到计算机上，否则不会被复制”。 - Chris F Carroll

太棒了，非常感谢。我认为我使用“无意的”这个词是不恰当的。我的意思是在搜索互联网数据的过程中，使用了开发人员明确不知道的特定数据。再次感谢您的帮助，这确实是一个有趣的问题，大多数国家在其法律框架中都没有准备好应对。 - Max Bicknell

2

机器学习算法是否会复制它所学习的数据？有很多不同类型的机器学习算法。如果你在谈论k nearest neighbor (k-NN)，那么答案很简单，是的。

然而，k-NN 很少使用。大多数（全部？）其他模型并不那么简单。通常，机器学习开发者希望模型可以对训练数据进行压缩（大幅度，有损）有以下几个原因：(1) 训练数据量很大（有很多 GB），(2) 如果训练数据被压缩，泛化效果可能更好，(3) 如果数据未压缩，推理新的例子可能需要很长时间。(通过“压缩”，我指提取任务相关信息并删除不相关数据。不是通常意义上的压缩。)

对于除k-NN以外的其他模型，答案更为复杂。这要取决于你如何定义“拷贝”。例如，从人工神经网络（尤其是卷积神经网络（Convolutional Neural Networks）这个子类型）中，训练数据可以部分恢复。这些模型在许多（所有？）计算机视觉任务中都是最先进的技术。

我找不到任何论文表明可以从CNN中（部分）恢复/提取训练数据，并关注可能存在的隐私/版权问题，但我大约有70%的把握我曾经读过一篇关于这个问题的摘要。我认为我还听过一个研究人员说，在构建儿童色情检测器时，这是一个问题。然而，我不认为有录制或发表任何有关此事的文章。

以下是两篇论文，表明从CNN中恢复训练数据可能是可能的：

- Martin Thoma

0

这取决于你所说的“复制”是什么意思。如果你运行任何程序，它都会将数据从硬盘复制到RAM进行处理。我假设这不是你的意思。

那么假设你在特定的机器上拥有受版权保护的数据，并在数据上运行机器学习算法，那么算法没有理由将数据复制出机器。

另一方面，如果你使用云ML服务（AWS/IBM Bluemix/Azure），那么你需要在运行ML算法之前将数据上传到云端。这意味着你正在复制数据。

希望这能更好地解释问题！

卑微的机器学习学生

- pmuntima

0

一些计算机会复制数据集，例如KNN。不幸的是，由于无法针对大数据集进行扩展，这些算法在实践中并不常用。

大多数机器学习算法使用数据集来识别模式，这就是为什么模式识别是机器学习的另一个名称的原因。该模式几乎总是比原始数据集小得多（以内存和变量等方面而言）。

- ABCD

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mcdowella · Accepted Answer

一些机器学习算法实际上会保留训练集的副本，例如k最近邻算法。请参见https://en.wikipedia.org/wiki/Instance-based_learning。并不是所有算法都这样做；事实上，通常被认为这是一个缺点，因为训练集可能很大。

此外，计算机也围绕着许多不同大小和速度的数据存储构建。它们通常会在处理数据时将其复制到小型快速存储器中，因为较大的存储器需要更长时间才能读写。其中的一个例子已经成为了法律纠纷的主题，我知之甚少-请参见例如https://law.stackexchange.com/questions/2223/why-does-browser-cache-not-count-as-copyright-infringement和其他有关浏览器缓存版权的文章。如果计算机已经加了两个数字，那么它肯定已经把它们存储在内存中了。很可能它已经至少把其中一个存储在所谓的内部寄存器中-这是一种非常小而非常快的存储器，用于存储要处理的数字。

如果计算机（或任何其他电子设备）被用于处理机密数据，则通常会从那时起将其视为机密，假定它可能保留了任何已经处理过的数据的某些副本，即使在实践中从中检索数据需要专业设备和经验丰富的人员。