BLAST_out_perl のバックアップ差分(No.1)

バックアップ一覧
現在との差分を表示
ソースを表示
BLAST_out_perl へ行く。
- 1 (22 Jan 2021 (金) 14:52:58)
追加された行はこの色です。
削除された行はこの色です。
#author("2021-01-22T14:52:58+09:00","","")
* perl BLASTの出力結果を 加工する 22 January 2021 [#w1abec6f]

FASTA形式の複数（16,000以上）の塩基配列が
ショウジョウバエゲノム上でどちらの向きか
（プラスかマイナスか）を判定したい

[[NCBI BLAST>https://blast.ncbi.nlm.nih.gov/Blast.cgi]]
とちょっとした perl プログラムを使って、
ざっと判定をしたので、そのメモ

[[FlyBase BLAST>http://flybase.org/blast/]]
では、複数の塩基配列を対象とした BLAST が行えない~
[[DDBJ>http://blast.ddbj.nig.ac.jp/blastn?lang=en]]
では受け入れ可能ファイルサイズが小さい~
との使いづらさがあったので、NCBI BLAST を使った

** fasta ファイルの加工 [#xfa2bd03]

[[NCBI BLAST>https://blast.ncbi.nlm.nih.gov/Blast.cgi]] の
Nucleotide BLAST では、受け入れるファイルサイズが最大 1,000,000 
だったので((DDBJ は最大 100,000 とひと桁小さく作業が面倒なことがわかり、NCBI を使うことにした。DDBJ なら結果をメールで受け取れるのが便利。))、
今回は 16,271 個を 1700 個ずつに分割((FASTA形式は２行で１組))

 $ head -n  3400 sequence.fasta > sequence1.fasta
 $ head -n  6800 sequence.fasta | tail -n 3400 > sequence2.fasta
 $ head -n 10200 sequence.fasta | tail -n 3400 > sequence3.fasta
 $ head -n 13600 sequence.fasta | tail -n 3400 > sequence4.fasta
 $ head -n 17000 sequence.fasta | tail -n 3400 > sequence5.fasta
 $ head -n 20400 sequence.fasta | tail -n 3400 > sequence6.fasta
 $ head -n 23800 sequence.fasta | tail -n 3400 > sequence7.fasta
 $ head -n 27200 sequence.fasta | tail -n 3400 > sequence8.fasta
 $ head -n 30600 sequence.fasta | tail -n 3400 > sequence9.fasta
 $ tail -n  1942 sequence.fasta > sequence10.fasta

区切りが正しいか元データと手動で照合した


** NCBI BLAST を行う [#f7063dc3]

NCBI BLAST に sequence1.fasta, ...,  sequence10.fasta を投げた~
- Organism を Drosophila melanogaster (taxid:7227) に指定

「Show results in a new window」のチェックを入れれば、
次から次へと10回 BLAST検索ができる。順序よく待てばよい。
といっても、大して待たされない。

Download All より、text をダウンロード。~
ファイル名（blastout1.txt, ..., blastout10.txt）を付けて保存。

出力結果ファイルを結合

 $ cat blastout1.txt blastout2.txt blastout3.txt blastout4.txt ［改行せず］
 blastout5.txt blastout6.txt blastout7.txt blastout8.txt  ［改行せず］
 blastout9.txt blastout10.txt > NCBI_BLAST_all.txt


** ゲノムの Sequence ID [#tf19c64d]

NCBI BLAST は検索の対象がゲノム配列だけに絞れないので
（この点が Flybase と大きく違って手間になる）、
ショウジョウバエ（D. melanogaster）ゲノムの Sequence ID を
手掛りにして、結果を絞り込む必要がある

https://www.ncbi.nlm.nih.gov/genome/47?genome_assembly_id=204923
の Replicon Info にゲノム配列に使われている
Sequence ID の情報がある

ショウジョウバエ（D. melanogaster）ゲノムの Sequence ID は以下の通り

|X: |AE014298.5|
|2L: |AE014134.6|
|2R: |AE013599.5|
|3L: |AE014296.5|
|3R: |AE014297.3|
|4: |AE014135.4|
|Y: |CP007106.1|

今回は、核ゲノムのみ扱うのでこれだけでよい


** NCBI BLAST から必要なものを抽出する perl プログラム [#d5e9e5a4]

今回は、query配列がゲノム上でプラス鎖かマイナス鎖のどちらかを
知りたいだけなので、それだけを取り出し、タブ区切りテキストを
標準出力に吐き出すことにした

また、念のために、染色体（腕）とゲノムの Sequence ID
も同じ行に出力させる

なお、print の部分を push などに変えれば、更なる加工ができるはず


*** NCBI BLAST から必要なものを抽出 [#d3e74c0f]

perl プログラムを使って、NCBI BLAST の結果から必要なものを抽出  

 $ perl extractfromblast.pl NCBI_BLAST_all.txt > NCBI_BLAST_exstract.txt  


*** perl プログラム：extractfromblast.pl [#o08fa35e]

 #!/usr/bin/perl  
 use strict;  
 use warnings;  
   
 my $myinput = $ARGV[0];  
 open(BLASTOUT,$myinput);  
   
 my @mydata = <BLASTOUT>;  
 close BLASTOUT;  
   
 # Print Header	  
 print "Query\tChromosome\tGenomeID\tStrand\n";	  
 #	  
   
 my @extractedlines = ();  
 for (my $myi = 0; $myi < scalar(@mydata); $myi++) {  
     my $line = $mydata[$myi];  
     if ($line =~ m/Query #/g ) {  
 #	  
 #	  
 # Example  
 # Query #1: AB*****.1 Query ID: ***|Query_***** Length: 60  
 #	  
 	my @splitline = split(/ +/, $line);  
 	my $queryID = $splitline[2];  
 	print "\n$queryID\t";  
     } elsif ($line =~ m/>/g ) {  
 #	  
 # Example  
 # >Drosophila melanogaster chromosome X  
 # Sequence ID: AE014298.5 Length: 23542271   
 # Range 1: 21318987 to 21319046  
 #   
 # Score:111 bits(60), Expect:6e-24,   
 # Identities:60/60(100%),  Gaps:0/60(0%), Strand: Plus/Minus  
 #	  
 	my $line2 = $mydata[$myi + 1];  
 	my @splitline = split(/ +/, $line2);  
 	my $sequenceID = $splitline[2];  
   
 	my $line3 = $mydata[$myi + 5];  
 	@splitline = split(/ +/, $line3);  
 	my $strand = $splitline[3];  
 #  
 # Sequence IDs of Drosophila melanogster genome:   
 #  
 # X  
 # AE014298.5  
 #   
 # 2L  
 # AE014134.6  
 #   
 # 2R  
 # AE013599.5  
 #   
 # 3L  
 # AE014296.5  
 #   
 # 4  
 # AE014135.4  
 #   
 # 3R  
 # AE014297.3  
 #   
 # Y  
 # CP007106.1  
 #   
 	if ($sequenceID =~ m/AE014298.5/ ) { # X chromosome  
 	    print "X\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/AE014134.6/ ) { # 2L  
 	    print "2L\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/AE013599.5/ ) { # 2R  
 	    print "2R\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/AE014296.5/ ) { # 3L  
 	    print "3L\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/AE014297.3/ ) { # 3R  
 	    print "3R\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/AE014135.4/ ) { # 4  
 	    print "4\t$sequenceID\t";  
 	    print "$strand\n";  
 	} elsif ($sequenceID =~ m/CP007106.1/ ) { # Y  
 	    print "Y\t$sequenceID\t";  
 	    print "$strand\n";  
 	}  
     }  
 }  
   

print の部分を push などに変えるのは、例えば：

 print "X\t$sequenceID\t";  
 print "$strand\n";  

を

 push(@extractedlines, "X\t$sequenceID\t" );
 push(@extractedlines, "$strand");

などとする。そのまま出力するだけならば

 for (my $myj=0; $myj<scalar(@extractedlines); $myj++) {
     print $extractedlines[$myj];
 }

などとすればよい。
更に、加工／解析するのならば $extractedlines[$i]
を上手く利用するようにプログラムを作る、とか。


** BLAST の結果、複数のゲノム染色体がヒットする場合は…… [#u8754d3d]
 
このプログラムは BLAST の結果の出力ファイルの上から処理していくので、  
確率が大きい（余り確からしくない）ものには、Query名が付与されない。  
そこで、そういったデータを後から削る必要がある。~
BLAST の確率が小さい（より確からしい）ものは正しい出力となり、  
それ以外は１列左にずれて出力するので、
Query の列が染色体名（X、2L、2R、3L、3R、4、Y）になる。~
そこで、Query の列が染色体名（X、2L、2R、3L、3R、4、Y）のものを、
ふたつめにヒットしたものとして削除する。

 $ grep -v ^X NCBI_BLAST_exstract.txt | grep -v ^2 | grep -v ^3 | grep -v ^4 | grep -v ^Y > NCBI_BLAST_exstract_fin.txt   

最後に、余分な改行をエディタを使って、手動で削除する。

なお、BLAST の結果が「ない」ものがあるので、それは個別に見る必要あり。  

|Today:&counter(today);|Yesterday:&counter(yesterday);|Total:&counter(); since 22 January 2021|