bowtie2: Mac へのインストール、使い方、オプションなど

UB3/informatics/bioinformatics/bowtie2

このページの最終更新日: 2021/07/08

  1. 概要: bowtie2 とは
  2. Mac への bowtie2 のインストール
  3. bowtie2 の使い方: とりあえず動かすまで
    • インデックスの作成
    • マッピング
    • 各種オプション
  4. bowtie2 の結果の見方
  5. bowtie2 の tips

広告

概要: bowtie2 とは

bowtie2 とは、シークエンスから得られるリードをリファレンスに対してマッピングするためのソフトである。主に、リードが短い次世代シークエンスの結果に対して使われる。

このページに書いてあることがわかりにくい場合は、以下のリンク先をまず読んでみて下さい。

  1. ターミナルの使い方
  2. シェルスクリプト
  3. 次世代シークエンス

Mac OSX High Sierra, 2018 年 2 月に以下の一連の操作を実行した。一部はブログへ移動。

さらに 2019 年 11 月に別の Mac でセットアップ。bowtie2, samtools ともに homebrew を使ってインストール可能だった。OS は Mojave。

Mac への bowtie2 のインストール

最初に bowtie2 のインストールを試みたときはど素人だったので、ややこしい方法を使っていた。このページには便利な方法をまとめ、かつての記事は ブログ へ移動。

まず、homebrew のページを参考にして homebrew をインストールする。

brew install bowtie2 で bowtie2 もインストール可能。確認のため which bowtie2 を実行すると、/usr/local/bin/bowtie2 となり、bin にインストールされていることがわかる。

bowtie2 の結果を解析するためには、Samtools が便利なので、これも同時にインストールしておくと良い。brew install samtools で OK。


広告

bowtie2 の使い方: とりあえず動かすまで

私が使い始めたときの状況。「とりあえずプログラムが動くまで」の話なので、ちゃんと勉強したい人は他のしっかりしたサイトを参照のこと。使えるオプションが無数にある。

インデックスの作成

bowtie2 index (reference, database などと呼ぶ人もいる) は fasta ファイルから bowtie2-build で作成する。たとえば sequence.fasta と使って SEQ という名前のデータベースを作成するには、以下のようにする。

この際、fasta ファイルは一続きの配列でなくても OK のようだ。

bowtie2-build -f sequence.fasta SEQ

拡張子 .bt2 または .bt2l のファイルが 6 個できれば成功。


マッピング

コマンド bowtie2 でマッピングする。-x でインデックスを指定、-U でマップするリードを含むファイル (input) を指定する。-S で結果が保存されるファイル (output) を指定。

bowtie2 -x SEQ -U dataset1.fastq -S dataset1.sam

インプットファイルは原則として .fastq。-f オプションをつけると .fasta も使えるらしいが、変換するよりも fastq ファイルを使ってしまった方が早いだろう。fastq から fasta への変換には、awk または seqret を使うことができる。


  • リピート配列があると、マッピングはかなり影響されてしまう。これをどう取り除くかも大事。
  • "*** has more quality values than read characters." というエラー。fastq ファイルは、塩基 1 個 1 個に quality value というものがついていて、そのまま解釈すると塩基数と quality value の数が一致していないためにマッピングできないというエラーである。まずはデータを再ダウンロードするのが解決への早道。大体はダウンロード中に何かが起こって、ファイルが truncated になっている。

bowtie2 の使い方: 各種オプション

一部のみ、Bowtie2 manual を参照のこと。

-x

インデックスを指定する。

-U

Single read のデータをマップする際に、input file すなわちリードを含むファイルを指定する。通常は .fastq ファイル。

-1

Paired-end read のデータをマップする際に、input file の 1 を指定する。

-2

Paired-end read のデータをマップする際に、input file の 2 を指定する。

-f

fasta ファイルを input にする。

-q

fastq ファイルを input にする。

-S

アウトプットファイルを SAM 形式で保存する。

-N

許容するミスマッチの数を指定するオプション。-N 1 で 1 個。デフォルトは 0 で、0 または 1 しか指定できない。

bowtie2 の結果の見方

マッピングの結果の概要は、ターミナル上に以下のような形で表示される。数字は適当。

35760523 reads; of these:
  35760523 (100.00%) were unpaired; of these:
  435 (3.00%) aligned 0 times
  4212563 (96.5.00%) aligned exactly 1 time
  124532 (0.5.00%) aligned >1 times
97.02% overall alignment rate


アウトプットのフォーマットとして、テキスト形式の .sam およびバイナリ形式の .bam がある。結果を目で見て確認したいなら、.bam よりも .sam が良い。.sam file の見方は このページ など。

しかし、結果を引き続き解析する場合には、.bam の方がメリットが多い。一回、参考までに sam の中身を見てみて、その後は bam を基本とにするのが良いのではないかと思う。

bam でアウトプットするには、bowtie2 の結果を samtools に以下のようにパイプするのが良い。samtools のページ を参照のこと。

bowtie2 -x SEQ -U dataset.fastq | samtools view -h -bS > output.bam


bowtie2 の tips

Alternative splicing を調べるため、exon と intron を含むある遺伝子のゲノム配列に、transcripts をマップしたことがある。そのときの経験をメモしておく。


広告

References

  1. Bioinformatics - bowtie2 (日本語) Link: Last access 2020/12/07.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment