塩基配列解析に使われるファイルの特徴と扱い

informatics/bioinformatics/sequence_files
2017/11/20 更新

  1. FASTA ファイル
    • FASTA ファイルの拡張子
    • FASTA ファイルの作り方・入手法
  2. sra ファイル
  3. fastq ファイル
  4. ab1 ファイル

広告

FASTA ファイル

FASTA フォーマットは、塩基配列やアミノ酸配列を解析するためのテキスト形式を基本としたフォーマットである。Python, Ruby, Perl などのスクリプト言語と相性がよい。

以下のように、> で始まる配列の名前、付加情報、改行、配列 から構成される。なお、> のあとにスペースなしで打ち込まれた文字列が配列の名前になり、スペースから改行までが付加情報になる。次の > までが配列とみなされる。


>Name1 Additional informations (optional)
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIE
RYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPT
QAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQ
ETFGF

>Name2 Additional informations (optional)
LVNQHSMVSVSTPIADIYEMKMRFFSSPCGKAAVDPADRC KEVQQIRDQHPSKIPVKFLVPDHMSELVKIIRRRLIYEQE
KDEDGFLYMVYASQEAPIADIYEQEKDEDGFLYMVYASQE
TFGF


FASTA は「ファスタ」ではなく「ファストエー」と読み、意味するところは fast-all である。all は塩基、タンパク質両方という意味で、FASTA は FASTP (protein) と FASTN (nucleotide) の両方を含む概念である。しかし、私の知り合いのアメリカ人はみんな「ファスタ」と発音している。


FASTA ファイルの拡張子

FASTA 形式で記述された配列のファイルは、FASTA ファイルと呼ばれる。以下のように、様々な拡張子が使われるため最初は混乱するが、異なる拡張子は付加情報を示すだけ で、中身はどれも FASTA 形式の配列なので、同じように扱えばよい。

拡張子 意味

.fasta, .fas, .fa, .fsa, .seq

とくに内容を指定しない (付加情報を示していない) fasta ファイル
.fna 塩基配列の fasta ファイル
.ffn ゲノムの翻訳領域 coding region を含む fasta ファイル
.faa アミノ酸配列の fasta ファイル。
.mpna 複数のアミノ酸配列から成る fasta ファイル
.frn Non-coding RNA の fasta ファイル

FASTA ファイルの作り方・入手法

1. NCBI からダウンロード

GenBank のページから、オプションを選べば FASTA フォーマットでダウンロードできる。


2. テキストファイルの拡張子を .fasta に変える

乱暴な方法であるが、うまくいく場合もある。

  • > と名前と配列を使い、FASTA のように表したものを テキストファイル として保存する。Mac なら seq.txt のような名前になる。
  • 単に拡張子を .txt から .fasta に変える。CAP3 でのアセンブル のときは、この方法でうまくいく場合と、segmentation error というエラーが出てしまう場合と両方あった。

3. MEGA を利用してテキストファイルから fasta ファイルを作る

上の方法をもう少し真面目にやるとこうなる。

  • MEGA をダウンロード、インストールする。Google 検索で容易に公式ページに辿り着けるはずである。
  • 新しいアラインメントを作る。ここに > と名前と配列をテキストファイルからコピー & ペーストできるはずである。
  • Export alignment を選べば、.fas の拡張子をもつ fasta file としてアラインメントを保存できる。

4. fastq ファイルから変換する

このページの下の方で説明してあるが、fastq は次世代シークエンサーのデータに使われる形式で、fasta よりも多くの付加情報を含んでいる。これを fasta に変換したいときは、Galaxy という web-base の方法が最も簡単であろう。

  1. Tools の右にあるアップロードマークから、変換したい fastq file をアップロードする。
  2. Convert formats から、FASTQ to FASTA converter を選ぶ。通常の fastq ファイルは下の方である。
  3. Execute をクリックすると、右のパネルから結果をダウンロードできるようになる。

広告

sra ファイル

sra は sequence read archive のことで、NCBI から 次世代シーケンス データをダウンロードすると、このフォーマットである場合がある。これを FASTA に変換するには、NCBI から SRA Toolkit というものをインストールする必要がある。

以下のページに関連情報あり。

  • NGS の概要: SRA Toolkit のインストール、ダウンロードなどを解説。
  • ブログ: 古い情報。参考まで。


fastq ファイル

fastq format は、illumina または NCBI Sequence Read Archive で使われる形式で、一つの配列が以下の 4 行にわたって情報を含んでいる。

  1. 1 行目は @、配列 ID および配列の説明 (optional)。FASTA の > の行に相当する。
  2. 2 行目は配列。折り返しは最近では認められない。
  3. 3 行目は +。その後ろに ID がつくこともあるようだ。
  4. 4 行目は、2 行目に記した配列のクオリティ値。それぞれの塩基にこの値があるので、2 行目と 4 行目の文字数は同じになる。

@Seq_ID Additional informations (optional)
AAAGGGTTTTTTTTTTTCCCCCCCCCCCGGGGGGGG
+
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC



広告

ab1 ファイル

ab1 はサンガーシークエンスの結果を含むファイルで、テキストとクロマトグラムを含む。以下のようなソフトで閲覧、解析することができる (1)。

BioEdit
Win

Local Blast も可能になっているらしい。

ApE
Win/Mac

A plasmid editor という謙虚な名前のソフト。

MEGA
Win/Mac

分子系統樹 で有名なソフトだが、クロマトグラムを見ることもできる。


ブラウザベースで ab1 ファイルのクロマトグラムを見る方法があるかどうか探しているのだが、まだ見つからない。


コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. ホウレンソウ研究グループ ウェブサイト. Link: Last access 10/22/2017.
  2. Tools for viewing sequence data. Link: Last access 10/22/2017.