如何使用更快的R脚本从.sam文件生成wig文件？

Question

如何使用更快的R脚本从.sam文件生成wig文件？

3

我有一个R脚本，可以读取.sam文件中的行，这是在映射后的结果。为了更容易地操作它们并创建我需要的wig文件，或者计算我需要的cov3和cov5，我想将sam文件的行解析成字符串。请问如何让我的脚本运行更快？如何更快地将大型.sam文件的行解析成数据框？以下是我的脚本：

gc()
rm(list=ls()) 

exptPath <- "/home/dimitris/INDEX3PerfectUnique31cov5.sam"


lines <- readLines(exptPath)
pos = lines
pos
chrom = lines
chrom
pos = ""
chrom = ""
nn = length(lines)
nn

# parse lines of sam file into strings(this part is very very slow)
rr = strsplit(lines,"\t", fixed = TRUE)
rr
trr = do.call(rbind.data.frame, rr)
pos = as.numeric(as.character(trr[8:nn,4]))
# for cov3
#pos = pos+25
#pos
chrom = trr[8:nn,3]
pos = as.numeric(pos)
pos

tab1 = table(chrom,pos, exclude="")
tab1

ftab1 = as.data.frame(tab1)
ftab1 = subset(ftab1, ftab1[3] != 0)
ftab1 = subset(ftab1, ftab1[1] != "<NA>")
oftab1 = ftab1[ order(ftab1[,1]), ]
final.ftab1 = oftab1[,2:3]
write.table(final.ftab1, "ind3_cov5_wig.txt", row.names=FALSE,
            sep="   ", quote=FALSE)

- user3683485

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Martin Morgan · Accepted Answer

如果没有访问dropbox上数据的样本输入和输出（例如，您的数据子集），很难提供详细的答案。Bioconductor解决方案将把sam文件转换为bam。

library(Rsamtools)
bam <- "/path/to/new.bam")
asBam("/path/to/old.sam", bam)

然后读入数据，可以直接读入（参见?scanBam和?ScanBamParam以仅导入感兴趣的字段/区域）

rr <- scanBam(bam)

或者最后更方便地。

library(GenomicAlignments)
aln <- readGAlignments(bam)
## maybe cvg <- coverage(bam) ?

有几个步骤需要完成您的操作，最终得到一个 GRanges 对象（类似于 data.frame，但其中行具有基因组坐标）或相关对象。

## ...???
## gr <- GRanges(seqnames, IRanges(start, end), strand=..., score=...)

最终目标是使用 wig / bigWig / bed 文件进行导出。

library(rtracklayer)
export(gr, "/path/to.wig")

有广泛的帮助资源，包括软件包文档、手册和Bioconductor 邮件列表