R语言中多重序列比对(MultipleAlignment)结果导出到文件(fasta文件和Phylip文件)
这里是使用Biostrings包导入fasta格式的多重比对序列,并导出多重序列比对后的数据为fasta和phylip文件。
导入多重比对序列
1 | readDNAMultipleAlignment(filepath, format) #DNA |
导出多重比对序列
核酸序列
-
导出到fasta文件:
-
如果你需要将你的多重序列比对对象(MultipleAlignment object)导出为fasta文件,你可以将其转换为
DNAStringSet对象,然后像下面这样将其写入fasta文件:
1 | DNAStr <- as(origMAlign, "DNAStringSet") |
-
这里的
as(origMAlign, "DNAStringSet")是将origMAlign(原始的多重序列比对对象)转换为DNAStringSet类型。writeXStringSet(DNAStr, file="myFile.fa")则是将转换后的DNAStringSet对象DNAStr写入名为myFile.fa的fasta文件中。
-
导出到Phylip文件:
-
Phylip格式不仅存储你正在导出的序列,还存储对象的列掩码(column masking)。如果你对序列进行了掩码处理,并且在导出Phylip文件时,这个掩码会被记录到你导出的文件中。
-
与上面的fasta文件示例类似,任何被你掩码掉的行(rows)也会从导出的文件中移除。
-
导出Phylip文件的代码如下:
1 | write.phylip(phylipMAlign, filepath="myFile.txt") |
-
这里的
write.phylip(phylipMAlign, filepath="myFile.txt")是将phylipMAlign(可能是已经进行了某些处理的多重序列比对对象)写入名为myFile.txt的Phylip文件中。
蛋白序列
1 | AA_MA <- as(AAMultipleAlignment, "AAStringSet") |
-
这里的
as(AAMultipleAlignment, "AAStringSet")是将AAMultipleAlignment(原始的多重序列比对对象)转换为AAStringSet类型。writeXStringSet(AA_MA, file="AAMultipleAlignment.fasta")则是将转换后的AAStringSet对象AA_MA写入名为AAMultipleAlignment的fasta文件中。
参考
https://bioconductor.org/packages/devel/bioc/vignettes/Biostrings/inst/doc/MultipleAlignments.html#exporting-to-file