塩基配列解析に使われるファイルの特徴と扱い:
fasta, sra, ab1 など
UB3/informatics/bioinformatics/sequence_files
このページの最終更新日: 2024/09/30- FASTA および FASTQ ファイル
- FASTA ファイルの拡張子
- FASTA ファイルの作り方・入手法
- FASTQ ファイルおよび FASTA と FASTQ の変換
- その他の塩基配列、アラインメントファイル
- sra ファイル
- ab1 ファイル
広告
FASTA ファイル
FASTA フォーマットは、塩基配列やアミノ酸配列を解析するためのテキスト形式を基本としたフォーマットである。Python, Ruby, Perl などのスクリプト言語と相性がよい。
以下のように、
|
FASTA は「ファスタ」ではなく「ファストエー」と読み、意味するところは fast-all である。all は塩基、タンパク質両方という意味で、FASTA は FASTP (protein) と FASTN (nucleotide) の両方を含む概念である。しかし、私の知り合いのアメリカ人はみんな「ファスタ」と発音している。
FASTA ファイルの拡張子
FASTA 形式で記述された配列のファイルは、FASTA ファイルと呼ばれる。以下のように、様々な拡張子が使われるため最初は混乱するが、
拡張子 | 意味 |
.fasta, .fas, .fa, .fsa, .seq |
とくに内容を指定しない (付加情報を示していない) fasta ファイル |
.fna | 塩基配列の fasta ファイル |
.ffn | ゲノムの翻訳領域 coding region を含む fasta ファイル |
.faa | アミノ酸配列の fasta ファイル。 |
.mpna | 複数のアミノ酸配列から成る fasta ファイル |
.frn | Non-coding RNA の fasta ファイル |
FASTA ファイルの作り方・入手法
1. NCBI からダウンロード
GenBank のページから、オプションを選べば FASTA フォーマットでダウンロードできる。
2. テキストファイルの拡張子を .fasta に変える
乱暴な方法であるが、基本的にこれで問題ない。私は Mac でこうしている。
- > と名前と配列を使い、FASTA のように表したものを テキストファイル として保存する。seq.txt のような名前になる。
- 単に拡張子を .txt から .fasta に変える。CAP3 でのアセンブル のときは、この方法でうまくいく場合と、segmentation error というエラーが出てしまう場合と両方あった。
- 一行目に空行があったとき、seqkit をかけたら invalid FASTA/Q format というエラーが出たことがあった。空行を削除したら OK だった。
3. MEGA を利用してテキストファイルから fasta ファイルを作る
上の方法をもう少し真面目にやるとこうなる。
- MEGA をダウンロード、インストールする。Google 検索で容易に公式ページに辿り着けるはずである。
- 新しいアラインメントを作る。ここに > と名前と配列をテキストファイルからコピー & ペーストできるはずである。
- Export alignment を選べば、.fas の拡張子をもつ fasta file としてアラインメントを保存できる。
4. fastq ファイルから変換する
これは需要が多いと思われるので、次の項目で詳しく解説する。
FASTQ ファイルおよび FASTA と FASTQ の変換
fastq format は、illumina または NCBI Sequence Read Archive で使われる形式で、一つの配列が以下の 4 行にわたって情報を含んでいる。
- 1 行目は @、配列 ID および配列の説明 (optional)。FASTA の > の行に相当する。
- 2 行目は配列。折り返しは最近では認められない。
- 3 行目は +。その後ろに ID がつくこともあるようだ。
- 4 行目は、2 行目に記した配列のクオリティ値。それぞれの塩基にこの値があるので、2 行目と 4 行目の文字数は同じになる。
@Seq_ID Additional informations (optional) |
fastq を fasta に変換したいときに
で OK。詳細は EMBOSS の seqret コマンド のページを参照のこと。ほかに sed コマンド を使う方法、cat および paste コマンドを使う方法などがある (3)。
コマンドラインに不慣れで、web ベースの方法が良いなら Galaxy というサイトが便利。
- Tools の右にあるアップロードマークから、変換したい fastq file をアップロードする。
- Convert formats から、FASTQ to FASTA converter を選ぶ。通常の fastq ファイルは下の方である。
- Execute をクリックすると、右のパネルから結果をダウンロードできるようになる。
その他の塩基配列・アラインメントファイル
sra ファイル
sra は sequence read archive のことで、NCBI から 次世代シーケンス データをダウンロードすると、このフォーマットである場合がある。これを FASTA に変換するには、NCBI から SRA Toolkit というものをインストールする必要がある。
以下のページに関連情報あり。
ab1 ファイル
ab1 はサンガーシークエンスの結果を含むファイルで、テキストとクロマトグラムを含む。以下のようなソフトで閲覧、解析することができる (1)。
BioEdit |
Local Blast も可能になっているらしい。 |
ApE |
A plasmid editor という謙虚な名前のソフト。 |
MEGA |
分子系統樹 で有名なソフトだが、クロマトグラムを見ることもできる。 |
ブラウザベースで ab1 ファイルのクロマトグラムを見る方法があるかどうか探しているのだが、まだ見つからない。
広告
References
- ホウレンソウ研究グループ ウェブサイト. Link: Last access 10/22/2017.
- Tools for viewing sequence data. Link: Last access 10/22/2017.
- Converting FASTQ format to FASTA. Link: Last access 2020/09/03.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。