gtfファイルに登録されたlocus情報からcdnaのfastaを作成

gtfから遺伝子fastaを作成する

gtfファイルは以下のような体裁になっている。

##gff-version 3
GapFilledScaffold_13710 .       contig  1       7092    .       .       .       ID=GapFilledScaffold_13710;Name=GapFilledScaffold_13710
GapFilledScaffold_17710 .       contig  1       2993    .       .       .       ID=GapFilledScaffold_17710;Name=GapFilledScaffold_17710
GapFilledScaffold_10533 .       contig  1       16412   .       .       .       ID=GapFilledScaffold_10533;Name=GapFilledScaffold_10533
GapFilledScaffold_11492 .       contig  1       12891   .       .       .       ID=GapFilledScaffold_11492;Name=GapFilledScaffold_11492
GapFilledScaffold_14711 .       contig  1       5716    .       .       .       ID=GapFilledScaffold_14711;Name=GapFilledScaffold_14711
GapFilledScaffold_17761 .       contig  1       2963    .       .       .       ID=GapFilledScaffold_17761;Name=GapFilledScaffold_17761
GapFilledScaffold_20308 .       contig  1       2072    .       .       .       ID=GapFilledScaffold_20308;Name=GapFilledScaffold_20308
GapFilledScaffold_11884 .       contig  1       20155   .       .       .       ID=GapFilledScaffold_11884;Name=GapFilledScaffold_11884
GapFilledScaffold_8849  .       contig  1       24279   .       .       .       ID=GapFilledScaffold_8849;Name=GapFilledScaffold_8849

4列目が転写開始位置、5列目が終了位置を示しており、ここから転写物のfastaファイルを作成したい。

ここでもseqkitが使える。参考:fastaファイルから欲しい配列を抜き出す

[kijima.yusuke@m48 NotFur1]$ seqkit subseq --gtf NotFur1_protein_coding_gene_models_15-07-2014.gff3 NotFur1_genome_draft.fa > killifish_cDNA_draft.fa
[kijima.yusuke@m48 NotFur1]$ grep -A 2 ">" killifish_cDNA_draft.fa | head
>GapFilledScaffold_16546_1-3808:.
CATAAATAATCTCTTGGTTCAGTATAAATGTATTTTAATTACTGAAATGACTTATTATGC
TTTGGGTATAGTAATGATTATTGTGATAATTGGTTATGTGTGTTCAGTAAACCAGAAGGT
--
>GapFilledScaffold_17041_1-3418:.
ATAAGCCCACAAATGTGTAACTGGACTACTTCTTTAAAGTGACACCAGGCCCGGTGACCT
TTGGGACATGGTTTGACCCCCTATAGGAATGTGTGATTATCATGAAACGTTCAGATCACT
--
>GapFilledScaffold_13586_448-6001:-
ACCCAACACTGTTCTACGGTTACGGTTTAACCACTTTGCCACCGAGTGCAGCTGGGACCA
  • gtfファイルに登録されたlocus情報からcdnaのfastaを作成.1526344087.txt.gz
  • 最終更新: 2018/05/15 00:28
  • by 133.11.222.89