这个问题是之前我问得不够清楚的问题的改编版。我正在检查是否有行中的列V1和V2具有共同的代码。代码由斜杠“/”分隔。下面的函数应该从V1中取一个单元格和V2中的一个单元格,并将它们转换为向量。向量的每个元素都是一个代码。然后,函数应该检查所获得的两个向量是否具有共同元素。这些元素最初是4位代码。如果在两个向量之间有任何匹配的4位代码,则函数应返回4。如果没有共同元素,则函数应减少每个代码的数字位数,然后再次检查。每当函数减少数字位数时,它也会减少最终返回的分数。我希望函数返回的值写入我选择的列中。
这是我的起始条件。
我的功能就是这样的。
这是我的起始条件。
structure(list(ID = c(2630611040, 2696102020, 2696526020), V1 = c("7371/3728",
"2834/2833/2836/5122/8731", "3533/3541/3545/5084"), V2 = c("7379",
"3841", "3533/3532/3531/1389/8711")), .Names = c("ID", "V1",
"V2"), class = "data.frame", row.names = c(NA, 3L))
ID V1 V2
1 2630611040 7371/3728 7379
2 2696102020 2834/2833/2836/5122/8731 3841
3 2696526020 3533/3541/3545/5084 3533/3532/3531/1389/8711
我想要得到这个。
ID V1 V2 V3
1 2630611040 7371/3728 7379 3
2 2696102020 2834/2833/2836/5122/8731 3841 0
3 2696526020 3533/3541/3545/5084 3533/3532/3531/1389/8711 4
我的功能就是这样的。
coderelat<-function(a, b){
a<-unique(as.integer(unlist(str_split(a, "/")))) #Transforming cells into vectors of codes
b<-unique(as.integer(unlist(str_split(b, "/"))))
a<-a[!is.na(a)]
b<-b[!is.na(b)]
if (length(a)==0 | length(b)==0) { # Check that both cells are not empty
ir=NA
return(ir)
} else {
for (i in 3:1){
diff<-intersect(a, b) # See how many products the shops have in common
if (length(diff)!=0) { #As you find a commonality, give ir the corresponding scoring
ir=i+1
break
} else if (i==1 & length(diff)==0) { #If in the last cycle, there is still no commonality put ir=0
ir=0
break
} else { # If there is no commonality and you are not in the last cycle, reduce the nr. of digits and re-check commonality again
a<- unique(as.integer(substr(as.character(a), 1, i)))
b<- unique(as.integer(substr(as.character(b), 1, i)))
}
}
}
return(ir)
}
当我手动提供单个单元格时,该函数可以正常工作。但是当我像这样写东西时它就无法工作:
df$V4<-coderelat(df$V1, df$V2)
我非常感谢任何帮助,因为我不知道如何让这个工作。
非常感谢。 Riccardo
dput(...)
提供您的数据非常有帮助 (+1)。 - jlhoward