在R中删除字符串中的重复元素

Question

在R中删除字符串中的重复元素

3

我需要删除字符串中的重复元素，但是遇到了一些问题。我的数据看起来像这样：

idvisit     path
1           1,16,23,59
2           2,14,14,19
3           5,19,23,19
4           10,10
5           23,23,27,29,23

我有一列包含唯一ID的内容，还有一列用于网页导航路径。右侧的列中包含一些情况，其中页面被重载并且页面被跟踪了两次甚至更多。这些页面用逗号分隔，并保存为因子。我的问题是，我不想在一行中出现多个页面，所以数据应该如下所示。

idvisit     path
1           1,16,23,59
2           2,14,19
3           5,19,23,19
4           10
5           23,27,29,23

需要删除相邻的多个页面。我知道如何使用正则表达式删除特定的多个数字，但我有大约20,000个不同的页面，无法为所有页面执行此操作。是否有人能够提供解决方案或提示，来解决我的问题？

谢谢 Sebastian

- Sebastian Ettner

2个回答

1

使用stringr包中的函数str_replace_all，我认为可以通过以下正则表达式([0-9]+),\\1来得到您想要的内容，然后用\\1替换它（我们需要转义\特殊字符）：

library(stringr)
> str_replace_all("5,19,23,19", "([0-9]+),\\1", "\\1")
[1] "5,19,23,19"
> str_replace_all("10,10", "([0-9]+),\\1", "\\1")
[1] "10"
> str_replace_all("2,14,14,19", "([0-9]+),\\1", "\\1")
[1] "2,14,19"

您可以使用数组形式：x <- c("5,19,23,19", "10,10", "2,14,14,19")，然后：

str_replace_all(x, "([0-9]+),\\1", "\\1")
[1] "5,19,23,19" "10"         "2,14,19"

或者使用 sapply:

result <- sapply(x, function(x) str_replace_all(x, "([0-9]+),\\1", "\\1"))

然后：

> result
  5,19,23,19        10,10   2,14,14,19 
"5,19,23,19"         "10"    "2,14,19"

注意:

第一行是属性信息:

> str(result)
Named chr [1:3] "5,19,23,19" "10" "2,14,19"
- attr(*, "names")= chr [1:3] "5,19,23,19" "10,10" "2,14,14,19"

如果您不想看到它们（这不会影响结果），只需执行以下操作：

attributes(result) <- NULL

然后，

> result
[1] "5,19,23,19" "10"         "2,14,19"

关于使用的正则表达式的解释：([0-9]+),\\1

([0-9]+)：以第一组开始，由()分隔，并查找任何数字（至少一个）
,：然后是一个标点符号：,（我们可以在这里包括空格，但原始示例仅使用此字符作为分隔符）
\\1：接下来是与组1相同的字符串，即重复的数字。如果不是这样，则模式不匹配。

然后，如果模式匹配，则将其替换为变量\\1的值，即模式中第一次出现的数字。

如何处理多个重复数字，例如2,14,14,14,19？：

只需使用这个正则表达式：([0-9]+)(,\\1)+，那么它会在分隔符（右侧）和数字至少重复一次时匹配。您可以尝试使用regex101.com进行其他可能性的匹配（在我看来，它比其他在线正则表达式检查器更加用户友好）。我希望这对您有用，它是一个灵活的解决方案，您只需要根据需要调整模式即可。

- David Leal

1

不错的想法。虽然supply的添加是不必要的。在R中，循环中运行向量化操作没有任何理由-这是非常糟糕的做法。但是，对于重复>2的情况，例如："5,19,19,19,20"，这将失败。 - David Arenburg

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- akrun · Accepted Answer

我们可以使用 tidyverse。使用 separate_rows 函数按分隔符（,）将 'path' 变量拆分为长格式，然后根据 'idvisit' 进行分组，我们使用 paste 函数将值合并。

library(tidyverse)
separate_rows(df1, path) %>%
       group_by(idvisit) %>%
       summarise(path = paste(rle(path)$values, collapse=","))
# A tibble: 5 × 2
#  idvisit        path
#    <int>       <chr>
#1       1  1,16,23,59
#2       2     2,14,19
#3       3  5,19,23,19
#4       4          10
#5       5 23,27,29,23

或者使用基础的 R 选项：

df1$path <- sapply(strsplit(df1$path, ","), function(x) paste(rle(x)$values, collapse=","))

注意：如果“路径（path）”列是“factor”类型，请在传递到“strsplit”函数之前将其转换为“character”，即：strsplit(as.character(df1$path), ",")