我对此进行了一些实验,并发现R在第一次修改时总是会复制对象。
您可以在我的机器上查看结果:http://rpubs.com/wush978/5916
如果我有任何错误,请告诉我,谢谢。
测试对象是否被复制
我使用以下C代码转储内存地址:
#define USE_RINTERNALS
#include <R.h>
#include <Rdefines.h>
SEXP dump_address(SEXP src) {
Rprintf("%16p %16p %d\n", &(src->u), INTEGER(src), INTEGER(src) - (int*)&(src->u));
return R_NilValue;
}
它会打印两个地址:
让我们编译并加载这个C函数。
Rcpp:::SHLIB("dump_address.c")
dyn.load("dump_address.so")
会话信息
这里是测试环境的sessionInfo
。
sessionInfo()
写时复制
首先测试写时复制属性,意味着只有在对象被修改时R才会复制该对象。
a <- 1L
b <- a
invisible(.Call("dump_address", a))
invisible(.Call("dump_address", b))
b <- b + 1
invisible(.Call("dump_address", b))
对象b
在修改时从a
进行复制。R实现了写时复制
属性。
就地修改向量/矩阵
然后我测试了一下,当我们修改向量/矩阵元素时,R是否会复制该对象。
长度为1的向量
a <- 1L
invisible(.Call("dump_address", a))
a <- 1L
invisible(.Call("dump_address", a))
a[1] <- 1L
invisible(.Call("dump_address", a))
a <- 2L
invisible(.Call("dump_address", a))
地址每次都会改变,这意味着 R 不会重复使用内存。
长向量
system.time(a <- rep(1L, 10^7))
invisible(.Call("dump_address", a))
system.time(a[1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
对于长向量,R在第一次修改后会重复使用内存。
此外,上面的例子还表明,“原地修改”会影响对象巨大时的性能。
矩阵
system.time(a <- matrix(0L, 3162, 3162))
invisible(.Call("dump_address", a))
system.time(a[1,1] <- 0L)
invisible(.Call("dump_address", a))
system.time(a[1,1] <- 1L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
system.time(a[1] <- 2L)
invisible(.Call("dump_address", a))
似乎R只在第一次修改时复制对象。
我不知道原因。
更改属性
system.time(a <- vector("integer", 10^2))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2)))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2)))
invisible(.Call("dump_address", a))
system.time(names(a) <- paste(1:(10^2) + 1))
invisible(.Call("dump_address", a))
结果相同。R只在第一次修改时复制对象。