bowtie2: Mac へのインストール、使い方、オプションなど

UB3/informatics/bioinformatics/bowtie2

このページの最終更新日: 2022/07/26

  1. 概要: bowtie2 とは
  2. Mac への bowtie2 のインストール
  3. インデックスの作成
  4. マッピング
  5. bowtie2 の結果の見方
  6. bowtie2 の tips

広告

概要: bowtie2 とは

bowtie2 とは、シークエンスから得られるリードをリファレンスに対してマッピングするためのソフトである。主に、リードが短い次世代シークエンスの結果に対して使われる。

このページに書いてあることがわかりにくい場合は、以下のリンク先をまず読んでみて下さい。

  1. ターミナルの使い方
  2. シェルスクリプト
  3. 次世代シークエンス

Mac OSX High Sierra, 2018 年 2 月に以下の一連の操作を実行した。一部はブログへ移動。

さらに 2019 年 11 月に別の Mac でセットアップ。bowtie2, samtools ともに homebrew を使ってインストール可能だった。OS は Mojave。

Mac への bowtie2 のインストール

最初に bowtie2 のインストールを試みたときはど素人だったので、ややこしい方法を使っていた。このページには便利な方法をまとめ、かつての記事は ブログ へ移動。

まず、homebrew のページを参考にして homebrew をインストールする。

brew install bowtie2 で bowtie2 もインストール可能。確認のため which bowtie2 を実行すると、/usr/local/bin/bowtie2 となり、bin にインストールされていることがわかる。

bowtie2 の結果を解析するためには、Samtools が便利なので、これも同時にインストールしておくと良い。brew install samtools で OK。


広告

インデックスの作成

bowtie2 index (reference, database などと呼ぶ人もいる) は fasta ファイルから bowtie2-build で作成する。たとえば sequence.fasta と使って SEQ という名前のデータベースを作成するには、以下のようにする。

この際、fasta ファイルは一続きの配列でなくても OK のようだ。

bowtie2-build -f sequence.fasta SEQ

拡張子 .bt2 または .bt2l のファイルが 6 個できれば成功。bowtie2-build のオプションの一部を表にしておく。

-f

input file として fasta を指定する。


マッピング

コマンド bowtie2 でマッピングする。-x でインデックスを指定、-U でマップするリードを含むファイル (input) を指定する。

bowtie2 -x SEQ -1 dataset1.fastq -2 dataset2.fastq

インプットファイルは原則として .fastq。-f オプションをつけると .fasta も使えるらしいが、変換するよりも fastq ファイルを使ってしまった方が良い。fastq から fasta への変換には、awk または seqret を使うことができる。

以下のオプションは一部のみなので、詳細は Bowtie2 manual を参照のこと。

-x

インデックスを指定する。

-U

Single read のデータをマップする際に、input file すなわちリードを含むファイルを指定する。通常は .fastq ファイル。

-1

Paired-end read のデータをマップする際に、input file の 1 を指定する。

-2

Paired-end read のデータをマップする際に、input file の 2 を指定する。

-f

fasta ファイルを input にする。

-q

fastq ファイルを input にする。

-S

アウトプットファイルを SAM 形式で保存する。以下のように、拡張子 .sam のファイル名を -S のあとに指定する。

bowtie2 -x SEQ -U dataset1.fastq -S dataset1.sam

-N

許容するミスマッチの数を指定するオプション。-N 1 で 1 個。デフォルトは 0 で、0 または 1 しか指定できない。


  • リピート配列があると、マッピングはかなり影響されてしまう。これをどう取り除くかも大事。
  • "*** has more quality values than read characters." というエラー。fastq ファイルは、塩基 1 個 1 個に quality value というものがついていて、そのまま解釈すると塩基数と quality value の数が一致していないためにマッピングできないというエラーである。まずはデータを再ダウンロードするのが解決への早道。大体はダウンロード中に何かが起こって、ファイルが truncated になっている。

bowtie2 の結果の見方

マッピングの結果の概要は、ターミナル上に以下のような形で表示される。数字は適当。

35760523 reads; of these:
  35760523 (100.00%) were unpaired; of these:
  435 (3.00%) aligned 0 times
  4212563 (96.5.00%) aligned exactly 1 time
  124532 (0.5.00%) aligned >1 times
97.02% overall alignment rate


アウトプットのフォーマットとして、テキスト形式の .sam およびバイナリ形式の .bam がある。結果を目で見て確認したいなら、.bam よりも .sam が良い。.sam file の見方は このページ など。デフォルトのアウトプットは sam になっている気がする。

しかし、結果を引き続き解析する場合には、.bam の方がメリットが多い。一回、参考までに sam の中身を見てみて、その後は bam を基本とにするのが良いのではないかと思う。

bam でアウトプットするには、bowtie2 の結果を samtools に以下のようにパイプするのが良い。samtools のページ を参照のこと。

bowtie2 -x SEQ -U dataset.fastq | samtools view -h -bS > output.bam


bowtie2 の tips

Alternative splicing を調べるため、exon と intron を含むある遺伝子のゲノム配列に、transcripts をマップしたことがある。そのときの経験をメモしておく。

  • 更新予定

広告

References

  1. Bioinformatics - bowtie2 (日本語) Link: Last access 2020/12/07.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment