**文書の過去の版を表示しています。**
gtfから遺伝子fastaを作成する
gtfファイルは以下のような体裁になっている。
##gff-version 3 GapFilledScaffold_13710 . contig 1 7092 . . . ID=GapFilledScaffold_13710;Name=GapFilledScaffold_13710 GapFilledScaffold_17710 . contig 1 2993 . . . ID=GapFilledScaffold_17710;Name=GapFilledScaffold_17710 GapFilledScaffold_10533 . contig 1 16412 . . . ID=GapFilledScaffold_10533;Name=GapFilledScaffold_10533 GapFilledScaffold_11492 . contig 1 12891 . . . ID=GapFilledScaffold_11492;Name=GapFilledScaffold_11492 GapFilledScaffold_14711 . contig 1 5716 . . . ID=GapFilledScaffold_14711;Name=GapFilledScaffold_14711 GapFilledScaffold_17761 . contig 1 2963 . . . ID=GapFilledScaffold_17761;Name=GapFilledScaffold_17761 GapFilledScaffold_20308 . contig 1 2072 . . . ID=GapFilledScaffold_20308;Name=GapFilledScaffold_20308 GapFilledScaffold_11884 . contig 1 20155 . . . ID=GapFilledScaffold_11884;Name=GapFilledScaffold_11884 GapFilledScaffold_8849 . contig 1 24279 . . . ID=GapFilledScaffold_8849;Name=GapFilledScaffold_8849
4列目が転写開始位置、5列目が終了位置を示しており、ここから転写物のfastaファイルを作成したい。
ここでもseqkit
が使える。参考:fastaファイルから欲しい配列を抜き出す
[kijima.yusuke@m48 NotFur1]$ seqkit subseq --gtf NotFur1_protein_coding_gene_models_15-07-2014.gff3 NotFur1_genome_draft.fa > killifish_cDNA_draft.fa [kijima.yusuke@m48 NotFur1]$ grep -A 2 ">" killifish_cDNA_draft.fa | head >GapFilledScaffold_16546_1-3808:. CATAAATAATCTCTTGGTTCAGTATAAATGTATTTTAATTACTGAAATGACTTATTATGC TTTGGGTATAGTAATGATTATTGTGATAATTGGTTATGTGTGTTCAGTAAACCAGAAGGT -- >GapFilledScaffold_17041_1-3418:. ATAAGCCCACAAATGTGTAACTGGACTACTTCTTTAAAGTGACACCAGGCCCGGTGACCT TTGGGACATGGTTTGACCCCCTATAGGAATGTGTGATTATCATGAAACGTTCAGATCACT -- >GapFilledScaffold_13586_448-6001:- ACCCAACACTGTTCTACGGTTACGGTTTAACCACTTTGCCACCGAGTGCAGCTGGGACCA