bowtie2: Mac へのインストール、使い方、オプションなど

UB3/informatics/bioinformatics/bowtie2

このページの最終更新日: 2020/02/14

  1. 概要: bowtie2 とは
  2. Mac への bowtie2 のインストール
  3. bowtie2 の使い方: とりあえず動かすまで
    • インデックスの作成
    • マッピング
    • 各種オプション
  4. bowtie2 の結果の見方

広告

概要: bowtie2 とは

bowtie2 とは、シークエンスから得られるリードをリファレンスに対してマッピングするためのソフトである。主に、リードが短い次世代シークエンスの結果に対して使われる。

このページに書いてあることがわかりにくい場合は、以下のリンク先をまず読んでみて下さい。

  1. ターミナルの使い方
  2. シェルスクリプト
  3. 次世代シークエンス

Mac OSX High Sierra, 2018 年 2 月に以下の一連の操作を実行した。一部はブログへ移動。

さらに 2019 年 11 月に別の Mac でセットアップ。bowtie2, samtools ともに homebrew を使ってインストール可能だった。OS は Mojave。


Mac への bowtie2 のインストール

最初に bowtie2 のインストールを試みたときはど素人だったので、ややこしい方法を使っていた。このページには便利な方法をまとめ、かつての記事は ブログ へ移動。

まず、homebrew のページを参考にして homebrew をインストールする。

brew install bowtie2 で bowtie2 もインストール可能。確認のため which bowtie2 を実行すると、/usr/local/bin/bowtie2 となり、bin にインストールされていることがわかる。

bowtie2 の結果を解析するためには、Samtools が便利なので、これも同時にインストールしておくと良い。brew install samtools で OK。


広告

bowtie2 の使い方: とりあえず動かすまで

私が使い始めたときの状況。「とりあえずプログラムが動くまで」の話なので、ちゃんと勉強したい人は他のしっかりしたサイトを参照のこと。使えるオプションが無数にある。

インデックスの作成

sequence.fasta というファイルからインデックスを作成する。このページの最初に試したコマンド bowtie2-build が、やっと使えるようになったということ。

bowtie2-build -f sequence.fasta SEQ


拡張子 .bt2 または .bt2l のファイルが 6 個できれば成功。


マッピング

コマンド bowtie2 でマッピングする。-x でインデックスを指定、-U でマップするリードを含むファイル (input) を指定、-S で結果が保存されるファイル (output) を指定。

bowtie2 -x SEQ -U dataset1.fastq -S dataset1.sam


インプットファイルは .fastq。-f オプションをつけると .fasta も使えるらしいが、変換するよりも fastq ファイルを使ってしまった方が早いだろう。fastq から fasta への変換には、awk または seqret を使うことができる。


  • リピート配列があると、マッピングはかなり影響されてしまう。これをどう取り除くかも大事。
  • "*** has more quality values than read characters." というエラー。fastq ファイルは、塩基 1 個 1 個に quality value というものがついていて、そのまま解釈すると塩基数と quality value の数が一致していないためにマッピングできないというエラーである。まずはデータを再ダウンロードするのが解決への早道。大体はダウンロード中に何かが起こって、ファイルが truncated になっている。

bowtie2 の使い方: 各種オプション

一部のみ、Bowtie2 manual を参照のこと。

-x

インデックスを指定

-U

リードを含むファイル (input) を指定。通常は .fastq ファイル。

-S

アウトプットファイルを指定。

-N

許容するミスマッチの数を指定するオプション。-N 1 で 1 個。デフォルトは 0 で、0 または 1 しか指定できない。


bowtie2 の結果の見方

マッピングの結果の概要は、ターミナル上に以下のような形で表示される。数字は適当。

35760523 reads; of these:
  35760523 (100.00%) were unpaired; of these:
  435 (3.00%) aligned 0 times
  4212563 (96.5.00%) aligned exactly 1 time
  124532 (0.5.00%) aligned >1 times
97.02% overall alignment rate


アウトプットのフォーマットとして、テキスト形式の .sam およびバイナリ形式の .bam がある。.bam の方が、いろいろとメリットがありそうである。

-S オプションで .bam とすると bam ファイルでのアウトプットができていたような気がするのだが、バージョンによってはできなくなっているかもしれない。bam でアウトプットするには、bowtie2 の結果を samtools に以下のようにパイプするのが良い。

bowtie2 -x SEQ -U dataset.fastq | samtools view -h -bS > output.bam


結果を cat などで見て確認したいなら、.bam よりも .sam が良い。.sam file の見方は このページ など。

しかし、bam の方が容量が小さく、他のプログラムに受け渡して解析を続ける場合に便利なことが多い。一回、参考までに sam の中身を見てみて、その後は bam を基本とにするのが良いのではないかと思う。

sam file および bam file の取り扱いは、samtools を使って行う。samtools のページ を参照のこと。


広告

References


コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment