在data.table中进行浅复制

Question

5

我在一个SO主题中读到了Matt Dowle的回答，他提到了一个用于在data.table中创建浅拷贝的shallow函数。然而，我无法再次找到这个主题。 data.table没有任何导出名为shallow的函数。虽然有一个内部函数，但没有文档记录。我能安全地使用它吗？它的行为是什么？

我想做的是对一个大表进行内存高效的复制。假设DT是一个具有n列的大表，f是一种内存高效添加列的函数。这种操作是否可行？

DT2 = f(DT)

如果DT2是一个指向原始地址的具有n列的data.table（没有深度复制），并且仅存在于DT2中，则会发生什么？如果我执行DT2 [，col3：= NULL]，则DT1会发生什么变化？

- JRR

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Matt Dowle · Accepted Answer

您不能安全地使用data.table:::shallow，这是故意不导出的并且不适合用户使用。无论从它本身工作的角度，还是从它的名称或参数在将来发生更改的角度来看，都是如此。

话虽如此，只要您确保：= 或 set *不会被您或您的用户（如果您正在创建一个软件包）调用结果，或者如果调用：= 或 set *在结果上，则您可以决定使用它，然后您可以接受通过引用同时更改两个对象。当数据表内部使用shallow时，我们承诺这一点。

更多背景信息请参见此处几天前的答案： https://dev59.com/M1cO5IYBdhLWcg3wZQzX#45891502 在那个问题中，我询问了更大的情况：为什么需要这样做？清楚这一点将有助于提高调查ALTREP或可能进行自己的引用计数的优先级。

在您的问题中，您暗示您的更大情况非常有用。因此，您想创建一个函数，在函数内将工作列添加到大型数据表中，但不更改大型数据表。您能否解释一下为什么要创建这样的函数？为什么不加载大型数据表，直接将临时工作列添加到其中，然后继续进行。您的R会话已经是内存中数据的工作副本，而这些数据是存储在其他地方的。

请注意，我并没有说不行。我并不是说您没有有效的理由。我正在寻找更多有关有效原因的信息，以提高优先级。

如果那不是您所看到的答案，则搜索字符串“ [data.table] shallow”当前返回39个问题或答案。最坏的情况下，您可以查找其中的答案。