# 2019 blast練習問題回答例 ## pearl Exoc7の遺伝子予測が間違っていそうな場所を近縁種の配列から推定 まずはファイルの準備 ``` echo ">exoc7_pearl atgactctgaaggatgccctcaacaaaagtcacacaaatacaggaaacatgctcacaata cttcaaagctttgaaaatcgtttaaagaagttagagggaacagttgagcctgtttacaat gagacagaaatgctgcggcgcagacaagaaaatatagagaaaactatgacaacactggac aatgtgctgggttactaccatattgctaaagatgtacaagatttgattaaagaaggtcca gtagtttgtggtctggagaagtacctgtctactatggaccggctgctccaagcactgaac tactttaataaacataacccaaccagtctggaagtgacagatgtcatcaaagtatatgat gatggtaaagatacattgaatgcagagttccgtagtttacttggtcgtcactgtcgtccg gtgccggctgttactatactggatttactaggaccagatgaagagttacaaacaatggaa aatgatgcacccatagaacatctgcctgagaaaattgtgaatgatttaaccctcatcgca aagtggctatacaccaatggtaaagctacagagtatatgaaagattacaccaaagtcagg tcccaaatgctcctctactctctgcaggggaactcaataaagcggaaggctaccacggcc ttgatgcagtccccttttgatccaggtcatagaagacaaggctcttataacgaattgaca aaagaggaaagttttgatgttgaaattgatatctacataacagaactaacagcattgctg aaacttattcagaatgaccctgagagatcttcgatgccccgagacggtacagttcatgaa ctgacaaaccataccattatagtactggagcccctgttagattatgctgagacagctggg gccatgttactcacccatggtgaacatgcagttccatctgatgctgtggatgtcaagaaa agtaaactcaagttggctgactatatcactaaggttttgtcagcattaggattaaactta agtaacaaggcagaaacttacagtgatccaatactcagacatgtgttcatgcttaataac tatcactacatactcaagtctttaaaaaggtctggggtattagaattaattcacacatgg aataaagatgtaggacagttttatgaggaccagatacatgaacaaaaaagactttattcc cagagctggagtaaagttctacattttgtactggaaatgaatgagccaatatcccaacaa agaatccagcaaatggagacatcaaagataaaggacaaagaaaagcagaatataaaagac aagttctctggattcaacaaagagttggaagaaatctcacgtgttcagaaagcatacgcc attcctgatccagaactgagggacaatatcaagaaagacaataaagaatatattgtgccg cgatacaagcttttcttagaaaaatttcaacggctgaacttcacaaagaattcagaaaaa tatatgaaatacactgtaaaggatgtggaagaaacacttgataaatttttcgatacttca gcttaa" > exoc7_pearl.fna ``` ``` echo ">EKC30356.1 Exocyst complex component 7 [Crassostrea gigas] MLTILQSFENRLRKLENTVEPVYNETEMLRRRQENIEKTMVTLDNVLGYYHVGKEVEEFIKEGPHNCGLE KYLSIMDRLVQAHNYFNKHNPTSLELTDVIRVYDDGKEALVIEFRTLLGRHCRPVPPVMVLDMISTDEEL QGSDDIQLEHLPEKILTELSLISTWLFNNTKNTEYMKDYTRSRSSMLIKSLQGHSFKRRAVITLMQSPFD PGNKRQGSHAELPKEENLDVEVDIYITELSALLKLIQSEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKN GELLAVNAKKSIAKHDFINVLSVFPVLKHLRSIKPEFDLTLEGCATPTRAKLTSLLSTLGSTAAKALEEF ALSIKTDPEKASMPKDGTVHELTNRTIIFLEPLQDYADTAGAMLLLHGEQAAPSEAVDPKKSKMRLADYI TKTLSALGLNLTIKAETYSDPTLRPVFMLNNYHYILKSLKRSGLLDLIHTWNKDVGQFYEDRINEQKKLY SESWSRVMHYITEVHEPISQQRIQAMENSKLKDKEKQNIKDKFSGFNKELEDILKIQKGYAIPDPELREQ MKKDNKDFIIPAFRMFLDKFKRLNFTKNPEKYIKYSVQDVAEVVDKLFDMSA" > exoc7_c.gigas.faa ``` 後で使うアコヤガイのゲノムもダウンロードしておく。 ``` wget https://marinegenomics.oist.jp/pearl/download/pfu_genome1.0.fasta.gz gzip -d pfu_genome1.0.fasta.gz ``` 準備ができたら、blastを使う環境を整えるため、dockerを起動する。 ``` docker run -it --rm -v $PWD:$PWD -w $PWD quay.io/biocontainers/blast:2.7.1--boost1.64_1 bash ``` 以上のコマンドを入力すると、blastが利用できる仮想環境に入る。今回は```exoc7_c.gigas```のアミノ酸配列をDBとして、```exoc7_pearl```の塩基配列をクエリーとして使用する。 まずは、```exoc7_c.gigas```のデータベースを作成する。 ``` makeblastdb -in exoc7_c.gigas.faa -dbtype prot ``` 次に```exoc7_c.gigas```のアミノ酸配列をDBとして、```exoc7_pearl```の塩基配列をクエリーとしてblastxを使用する。 ``` blastx -db exoc7_c.gigas.faa -query exoc7_pearl.fna -num_threads 4 ``` その結果、次のような出力が得られる。 ``` Database: exoc7_c.gigas.faa 1 sequences; 612 total letters Query= exoc7_pearl Length=1566 Score E Sequences producing significant alignments: (Bits) Value EKC30356.1 Exocyst complex component 7 [Crassostrea gigas] 426 6e-148 > EKC30356.1 Exocyst complex component 7 [Crassostrea gigas] Length=612 Score = 426 bits (1096), Expect = 6e-148, Method: Compositional matrix adjust. Identities = 196/259 (76%), Positives = 235/259 (91%), Gaps = 0/259 (0%) Frame = +1 Query 787 IQNDPERSSMPRDGTVHELTNHTIIVLEPLLDYAETAGAMLLTHGEHAVPSDAVDVKKSK 966 I+ DPE++SMP+DGTVHELTN TII LEPL DYA+TAGAMLL HGE A PS+AVD KKSK Sbjct 354 IKTDPEKASMPKDGTVHELTNRTIIFLEPLQDYADTAGAMLLLHGEQAAPSEAVDPKKSK 413 Query 967 LKLADYITKVLSALGLNLSNKAETYSDPILRHVFMLNNYHYILKSLKRSGVLELIHTWNK 1146 ++LADYITK LSALGLNL+ KAETYSDP LR VFMLNNYHYILKSLKRSG+L+LIHTWNK Sbjct 414 MRLADYITKTLSALGLNLTIKAETYSDPTLRPVFMLNNYHYILKSLKRSGLLDLIHTWNK 473 Query 1147 DVGQFYEDQIHEQKRLYSQSWSKVLHFVLEMNEPISQQRIQQMETSKIKDKEKQNIKDKF 1326 DVGQFYED+I+EQK+LYS+SWS+V+H++ E++EPISQQRIQ ME SK+KDKEKQNIKDKF Sbjct 474 DVGQFYEDRINEQKKLYSESWSRVMHYITEVHEPISQQRIQAMENSKLKDKEKQNIKDKF 533 Query 1327 SGFNKELEEISRVQKAYAIPDPELRDNIKKDNKEYIVPRYKLFLEKFQRLNFTKNSEKYM 1506 SGFNKELE+I ++QK YAIPDPELR+ +KKDNK++I+P +++FL+KF+RLNFTKN EKY+ Sbjct 534 SGFNKELEDILKIQKGYAIPDPELREQMKKDNKDFIIPAFRMFLDKFKRLNFTKNPEKYI 593 Query 1507 KYTVKDVEETLDKFFDTSA 1563 KY+V+DV E +DK FD SA Sbjct 594 KYSVQDVAEVVDKLFDMSA 612 Score = 389 bits (998), Expect = 2e-133, Method: Compositional matrix adjust. Identities = 203/341 (60%), Positives = 250/341 (73%), Gaps = 33/341 (10%) Frame = +1 Query 49 MLTILQSFENRLKKLEGTVEPVYNETEMLRRRQENIEKTMTTLDNVLGYYHIAKDVQDLI 228 MLTILQSFENRL+KLE TVEPVYNETEMLRRRQENIEKTM TLDNVLGYYH+ K+V++ I Sbjct 1 MLTILQSFENRLRKLENTVEPVYNETEMLRRRQENIEKTMVTLDNVLGYYHVGKEVEEFI 60 Query 229 KEGPVVCGLEKYLSTMDRLLQALNYFNKHNPTSLEVTDVIKVYDDGKDTLNAEFRSLLGR 408 KEGP CGLEKYLS MDRL+QA NYFNKHNPTSLE+TDVI+VYDDGK+ L EFR+LLGR Sbjct 61 KEGPHNCGLEKYLSIMDRLVQAHNYFNKHNPTSLELTDVIRVYDDGKEALVIEFRTLLGR 120 Query 409 HCRPVPAVTILDLLGPDEELQTMENDAPIEHLPEKIVNDLTLIAKWLYTNGKATEYMKDY 588 HCRPVP V +LD++ DEELQ +D +EHLPEKI+ +L+LI+ WL+ N K TEYMKDY Sbjct 121 HCRPVPPVMVLDMISTDEELQG-SDDIQLEHLPEKILTELSLISTWLFNNTKNTEYMKDY 179 Query 589 TKVRSQMLLYSLQGNSIKRKATTALMQSPFDPGHRRQGSYNELTKEESFDVEIDIYITEL 768 T+ RS ML+ SLQG+S KR+A LMQSPFDPG++RQGS+ EL KEE+ DVE+DIYITEL Sbjct 180 TRSRSSMLIKSLQGHSFKRRAVITLMQSPFDPGNKRQGSHAELPKEENLDVEVDIYITEL 239 Query 769 TALLKLIQNDPERSSMPRDGTVHELTNHTII--VLEPLLDYAETAGAMLLTHGEHAVPSD 942 +ALLKLIQ++ + S G + + + ++ +++ LD G +L Sbjct 240 SALLKLIQSEAQLMS----GIIADKHHRSVFDNIIQEGLDSVIKNGELL----------- 284 Query 943 AVDVKKSKLKLADYITKVLSALGLNLSNKAETYSDPILRHV 1065 AV+ KKS K D+I VLS P+L+H+ Sbjct 285 AVNAKKSIAK-HDFIN-VLSVF-------------PVLKHL 310 ``` 結果の見方ですが、アライメントが取れた配列は2箇所あり、2つ目のアライメントを見ると、「Sbjct」というのがDBとして使用した```exoc7_c.gigas```のほうの配列で、248アミノ酸から```exoc7_pearl```と相同性が低くなっています。クエリーの```exoc7_pearl```はDNA配列なので、1文字あたり3bpずつ増えていき、787bp以降が相同性の低い領域に該当する。 そして、1つ目のアライメントを見ると、```exoc7_pearl```は787bpからアライメントが始まるが、```exoc7_c.gigas```は354アミノ酸から始まっている。 そのため、```exoc7_c.gigas```の248~353アミノ酸が```exoc7_pearl```では欠損した部位であるとわかる。 ## 遺伝子予測で欠損した部位はアコヤガイゲノムのどのscaffoldにあるか調べる まずは欠損部位をFASTA形式で保存しておく。 ``` echo ">exoc7_deleted SEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKNGELLAVNAKKSIAKHDFINVLSVFPVLKHLRSIKPEFDLTLEGCATPTRAKLTSLLSTLGSTAAKALEEFALS" > exoc7_deleted.faa ``` 次にアコヤガイゲノムのblastのインデックスを作成する。 ``` makeblastdb -in pfu_genome1.0.fasta -dbtype nucl ``` 欠損部位をクエリーとして、アコヤガイゲノムにtblastnで検索する。 ``` tblastn -db pfu_genome1.0.fasta -query exoc7_deleted.faa -num_threads 4 ``` その結果、 ``` Query= exoc7_deleted Length=106 Score E Sequences producing significant alignments: (Bits) Value scaffold294819.1|size544 118 2e-33 > scaffold294819.1|size544 Length=544 Score = 118 bits (295), Expect = 2e-33, Method: Compositional matrix adjust. Identities = 55/75 (73%), Positives = 67/75 (89%), Gaps = 0/75 (0%) Frame = -3 Query 1 SEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKNGELLAVNAKKSIAKHDFINVLSVFPVL 60 SEAQLMSGII +KHHRSVF++II+ LD V+K GE LA NAKKSI+KHDF++VLSVFPV+ Sbjct 227 SEAQLMSGIIPEKHHRSVFESIIEGSLDMVVKGGETLASNAKKSISKHDFLSVLSVFPVV 48 Query 61 KHLRSIKPEFDLTLE 75 +HLR++KPEFDL LE Sbjct 47 RHLRTVKPEFDLALE 3 ``` が得られ、scaffold294819.1にExoc7のexonが一つ存在することがわかる。 (この欠損部位以外のExoc7のexonは、scaffold1200にあります。)