如何在R中提取列表的元素？

Question

如何在R中提取列表的元素？

4

我有一个向量列表，长这样：

$`56`
[1] "OTU2998"             "UniRef90_A0A1Z9FS94" "UniRef90_A0A257ESC3"
[4] "UniRef90_A0A293NAV3" "UniRef90_A0A2E1NMU8" "UniRef90_A0A2E1NPX9"
[7] "UniRef90_A0A2E1NQL1" "UniRef90_A0A2E1NRD2" "UniRef90_X0UC66"    

$`57`
[1] "OTU3820"             "UniRef90_A0A1Z9H3N2" "UniRef90_A0A2D5I161"
[4] "UniRef90_A0A2E6PRN5"

$`58`
[1] "OTU4452"                "UniRef90_A0A1Z9KBI8"    "UniRef90_A0A2E1VTI6"   
[4] "UniRef90_A0A2G2KCN6"    "UniRef90_UPI000BFEC744"

$`59`
[1] "OTU0245"             "UniRef90_A0A1Z9MPM9" "UniRef90_A0A2E2ME98"
[4] "UniRef90_A0A2E8X9N7"

有没有办法只提取"OTUXXX"信息？我的意思是，我想得到这样的东西：

$`56`
[1] "OTU2998"       

$`57`
[1] "OTU3820"  

$`58`
[1] "OTU4452"   

$`59`
[1] "OTU0245"

- Paillou

2个回答

2

我喜欢使用purrr::map函数族，因为它们易于传递函数和参数。提取这些元素的两个快速选项是使用grep并使用value = T返回匹配字符串而不仅仅是它们的索引，或者使用stringr::str_subset做同样的事情。

这里的正则表达式匹配以"OTU"开头，后跟一个或多个数字直到结尾的字符串。

这两种方法都可以扩展到同时处理多个匹配项：我在最后一个列表元素中添加了一个"OTU1234"来说明这一点。

dl <- list(
  `56` = c("OTU2998", "UniRef90_A0A1Z9FS94", "UniRef90_A0A257ESC3", "UniRef90_A0A293NAV3", "UniRef90_A0A2E1NMU8", "UniRef90_A0A2E1NPX9", "UniRef90_A0A2E1NQL1", "UniRef90_A0A2E1NRD2", "UniRef90_X0UC66"),
  `57` = c("OTU3820", "UniRef90_A0A1Z9H3N2", "UniRef90_A0A2D5I161", "UniRef90_A0A2E6PRN5"),
  `58` = c("OTU4452", "UniRef90_A0A1Z9KBI8", "UniRef90_A0A2E1VTI6", "UniRef90_A0A2G2KCN6", "UniRef90_UPI000BFEC744"),
  `59` = c("OTU0245", "UniRef90_A0A1Z9MPM9", "UniRef90_A0A2E2ME98", "UniRef90_A0A2E8X9N7", "OTU1234")
)

purrr::map(dl, ~grep("^OTU\\d+$", ., value = T))
#> $`56`
#> [1] "OTU2998"
#> 
#> $`57`
#> [1] "OTU3820"
#> 
#> $`58`
#> [1] "OTU4452"
#> 
#> $`59`
#> [1] "OTU0245" "OTU1234"
purrr::map(dl, stringr::str_subset, "^OTU\\d+$")
# same output as above

- camille

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- akrun · Accepted Answer

我们可以使用grepl函数遍历list并提取以子字符串“OTU”开头（^）后跟着四个数字（\\d{4}）直到字符串结尾（$）的元素。请保留HTML标记。

lapply(lst1, function(x) x[grepl("^OTU\\d{4}$", x)])
#$`56`
#[1] "OTU2998"

#$`57`
#[1] "OTU3820"

#$`58`
#[1] "OTU4452"

#$`59`
#[1] "OTU0245" "OTU1234"

注意：仅使用base R方法

或者如果我们是tidyverse的爱好者，那么可以使用keep

library(tidyverse)
map(lst1, keep, str_detect, '^OTU\\d{4}$')

数据

lst1 <-  list(
  `56` = c("OTU2998", "UniRef90_A0A1Z9FS94", "UniRef90_A0A257ESC3", "UniRef90_A0A293NAV3", "UniRef90_A0A2E1NMU8", "UniRef90_A0A2E1NPX9", "UniRef90_A0A2E1NQL1", "UniRef90_A0A2E1NRD2", "UniRef90_X0UC66"),
  `57` = c("OTU3820", "UniRef90_A0A1Z9H3N2", "UniRef90_A0A2D5I161", "UniRef90_A0A2E6PRN5"),
  `58` = c("OTU4452", "UniRef90_A0A1Z9KBI8", "UniRef90_A0A2E1VTI6", "UniRef90_A0A2G2KCN6", "UniRef90_UPI000BFEC744"),
  `59` = c("OTU0245", "UniRef90_A0A1Z9MPM9", "UniRef90_A0A2E2ME98", "UniRef90_A0A2E8X9N7", "OTU1234")
)