塩基配列解析に使われるファイルの特徴と扱い:
fasta, sra, ab1 など

UB3/informatics/bioinformatics/sequence_files

このページの最終更新日: 2023/02/14

FASTA および FASTQ ファイル
- FASTA ファイルの拡張子
- FASTA ファイルの作り方・入手法
- FASTQ ファイルおよび FASTA と FASTQ の変換
その他の塩基配列、アラインメントファイル
- sra ファイル
- ab1 ファイル

FASTA ファイル

FASTA フォーマットは、塩基配列やアミノ酸配列を解析するためのテキスト形式を基本としたフォーマットである。Python, Ruby, Perl などのスクリプト言語と相性がよい。

以下のように、> で始まる配列の名前、付加情報、改行、配列から構成される。なお、> のあとにスペースなしで打ち込まれた文字列が配列の名前になり、スペースから改行までが付加情報になる。次の > までが配列とみなされる。

>Name1 Additional informations (optional)
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIE
RYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPT
QAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQ
ETFGF

>Name2 Additional informations (optional)
LVNQHSMVSVSTPIADIYEMKMRFFSSPCGKAAVDPADRC KEVQQIRDQHPSKIPVKFLVPDHMSELVKIIRRRLIYEQE
KDEDGFLYMVYASQEAPIADIYEQEKDEDGFLYMVYASQE
TFGF

FASTA は「ファスタ」ではなく「ファストエー」と読み、意味するところは fast-all である。all は塩基、タンパク質両方という意味で、FASTA は FASTP (protein) と FASTN (nucleotide) の両方を含む概念である。しかし、私の知り合いのアメリカ人はみんな「ファスタ」と発音している。

FASTA ファイルの拡張子

FASTA 形式で記述された配列のファイルは、FASTA ファイルと呼ばれる。以下のように、様々な拡張子が使われるため最初は混乱するが、異なる拡張子は付加情報を示すだけで、中身はどれも FASTA 形式の配列なので、同じように扱えばよい。

拡張子	意味
.fasta, .fas, .fa, .fsa, .seq	とくに内容を指定しない (付加情報を示していない) fasta ファイル
.fna	塩基配列の fasta ファイル
.ffn	ゲノムの翻訳領域 coding region を含む fasta ファイル
.faa	アミノ酸配列の fasta ファイル。
.mpna	複数のアミノ酸配列から成る fasta ファイル
.frn	Non-coding RNA の fasta ファイル

FASTA ファイルの作り方・入手法

1. NCBI からダウンロード

GenBank のページから、オプションを選べば FASTA フォーマットでダウンロードできる。

2. テキストファイルの拡張子を .fasta に変える

乱暴な方法であるが、基本的にこれで問題ない。私は Mac でこうしている。

> と名前と配列を使い、FASTA のように表したものをテキストファイルとして保存する。seq.txt のような名前になる。
単に拡張子を .txt から .fasta に変える。CAP3 でのアセンブルのときは、この方法でうまくいく場合と、segmentation error というエラーが出てしまう場合と両方あった。
一行目に空行があったとき、seqkit をかけたら invalid FASTA/Q format というエラーが出たことがあった。空行を削除したら OK だった。

3. MEGA を利用してテキストファイルから fasta ファイルを作る

上の方法をもう少し真面目にやるとこうなる。

MEGA をダウンロード、インストールする。Google 検索で容易に公式ページに辿り着けるはずである。
新しいアラインメントを作る。ここに > と名前と配列をテキストファイルからコピー & ペーストできるはずである。
Export alignment を選べば、.fas の拡張子をもつ fasta file としてアラインメントを保存できる。

4. fastq ファイルから変換する

これは需要が多いと思われるので、次の項目で詳しく解説する。

FASTQ ファイルおよび FASTA と FASTQ の変換

fastq format は、illumina または NCBI Sequence Read Archive で使われる形式で、一つの配列が以下の 4 行にわたって情報を含んでいる。

1 行目は @、配列 ID および配列の説明 (optional)。FASTA の > の行に相当する。
2 行目は配列。折り返しは最近では認められない。
3 行目は +。その後ろに ID がつくこともあるようだ。
4 行目は、2 行目に記した配列のクオリティ値。それぞれの塩基にこの値があるので、2 行目と 4 行目の文字数は同じになる。

@Seq_ID Additional informations (optional)
AAAGGGTTTTTTTTTTTCCCCCCCCCCCGGGGGGGG
+
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

fastq を fasta に変換したいときに最も便利なのは EMBOSS の seqret コマンドであると思っている。

seqret -sequence file.fastq -outseq file.fasta

で OK。詳細は EMBOSS の seqret コマンドのページを参照のこと。ほかに sed コマンドを使う方法、cat および paste コマンドを使う方法などがある (3)。

コマンドラインに不慣れで、web ベースの方法が良いなら Galaxy というサイトが便利。

Tools の右にあるアップロードマークから、変換したい fastq file をアップロードする。
Convert formats から、FASTQ to FASTA converter を選ぶ。通常の fastq ファイルは下の方である。
Execute をクリックすると、右のパネルから結果をダウンロードできるようになる。

その他の塩基配列・アラインメントファイル

sra ファイル

sra は sequence read archive のことで、NCBI から次世代シーケンスデータをダウンロードすると、このフォーマットである場合がある。これを FASTA に変換するには、NCBI から SRA Toolkit というものをインストールする必要がある。

以下のページに関連情報あり。

NGS の概要: SRA Toolkit のインストール、ダウンロードなどを解説。
ブログ: 古い情報。参考まで。

ab1 ファイル

ab1 はサンガーシークエンスの結果を含むファイルで、テキストとクロマトグラムを含む。以下のようなソフトで閲覧、解析することができる (1)。

BioEdit Win	Local Blast も可能になっているらしい。
ApE Win/Mac	A plasmid editor という謙虚な名前のソフト。
MEGA Win/Mac	分子系統樹で有名なソフトだが、クロマトグラムを見ることもできる。

ブラウザベースで ab1 ファイルのクロマトグラムを見る方法があるかどうか探しているのだが、まだ見つからない。

References

ホウレンソウ研究グループウェブサイト. Link: Last access 10/22/2017.
Tools for viewing sequence data. Link: Last access 10/22/2017.
Converting FASTQ format to FASTA. Link: Last access 2020/09/03.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。

塩基配列解析に使われるファイルの特徴と扱い:fasta, sra, ab1 など