我需要一种方法来创建一个共识序列,该序列由3-1000个长度不同的短(10-20bp)核苷酸("ATCG")读取组成。请参考以下简化示例:
应该得到一个共识序列,其代码为“AGGGGC”。
我在BioPython库中找到了执行多序列比对(MSA)的模块,但仅适用于相同长度的序列。我还熟悉(并实现了)用于任意长度两个序列的Smith-Waterman样式比对。我想象中一定有一个库或实现可以结合这些元素(不等长度的MSA),但是在搜索网络和各种文档数小时后没有找到任何东西。
您有关于现有模块/库(首选Python)或可纳入管道的程序的建议吗?
谢谢!
"AGGGGC"
"AGGGC"
"AGGGGGC"
"AGGAGC"
"AGGGGG"
应该得到一个共识序列,其代码为“AGGGGC”。
我在BioPython库中找到了执行多序列比对(MSA)的模块,但仅适用于相同长度的序列。我还熟悉(并实现了)用于任意长度两个序列的Smith-Waterman样式比对。我想象中一定有一个库或实现可以结合这些元素(不等长度的MSA),但是在搜索网络和各种文档数小时后没有找到任何东西。
您有关于现有模块/库(首选Python)或可纳入管道的程序的建议吗?
谢谢!