Mac で local BLAST を走らせる

informatics/bioinformatics/blast_local_mac
2018/11/07 更新

  1. インストール
  2. 実行
    • BLAST database の構築
    • 検索の実行
  3. 解析例 1

広告


インストール

2017 年 9 月にインストールしたときの記録。

  1. NBCI のページ から、LATEST にゲストとして FTP で接続。
  2. ウィンドウが現れるので、ncbi-blast-2.6.0+.dmg をダブルクリックして開く。フォルダ内に .pkg という拡張子の installation package があるので、これを開き指示通りにインストールする。
  3. デフォルトの設定は、blast プログラムは usr/local/ncbi/blast というフォルダにインストールされる。

私の場合は、特に path を通したり しなくても以上のインストールだけで blast を走らせることができた。

ただし、.tar.gz で終わるファイルをダウンロードして解凍した方が、コマンドの場所などがすっきりして良いかもしれない。


実行

とりあえず、普段使っている手順とコマンドをメモしておく。BLAST のバージョンによって微妙に違うので注意。

BLAST database の構築

file.fasta といいうファイルから、塩基配列のデータベースを構築する。アミノ酸配列の場合、dbtype は prot である。


makeblastdb -in file.fasta -parse_seqids -dbtype nucl


うまくいくと、6 つのファイルが作られる。塩基配列の場合、ファイル名は file.fasta.nhr, file.fasta.nin, file.fasta.nog, file.fasta.nsd, file.fasta.nsi, and file.fasta.nsq であり、アミノ酸データベースでは、file.fasta.nhr, file.fasta.nin, file.fasta.nsq, file.fasta.phr, file.fasta.pin, file.fasta.psq になるようである。


検索

まず script コマンドを実行する。これで、ターミナルの内容がログとして記録されることになる (参考: コマンドの一覧)。

query.fasta というファイルを、database.fasta という BLAST database に対して検索する場合は、次のようなコマンド。e value のオプション、output format、output file の名前を指定している。

blastn -query query.fasta -db database.fasta -evalue 1e-3 -outfmt 6 -out result.out


query が多数の配列を含み、結果が膨大な場合は score や bit で検索するとヒットした部分を探せる。



広告

解析例 1

たとえば Notch という遺伝子について、データベースにある類似の遺伝子をまとめてダウンロードしたいときの手順。

Query とデータベースの準備

  1. NCBI から特定のキーワードで遺伝子のリストをダウンロードする。たとえば "Notch" で検索し、数千個の Notch gene の配列を notch.fasta という FASTA 形式のファイルとしてダウンロードしたとする。
  2. 未知の Notch gene の配列を探すため、NCBI に登録されている全ての配列をダウンロードする。このページ の Databases から、ゲノム、トランスクリプトームなど様々なデータをダウンロードできる。既に BLAST database の形式になっているので、makeblastdb をする必要はない。

検索結果から番号を抽出

  1. BLAST を走らせ、結果をファイルに保存する。検索条件にもよるが、結果のファイルは数 GB になり、アプリケーションでは開けない場合も。
  2. デフォルトの output format の場合、> の次に accession 番号があり、その次に alignment が続くという形式になっているはずである。
  3. Windows なら findstr で、Mac なら grep で > を検索し、これを含む行だけを他のファイルに保存する。

>NM_0168731 Mus musculus gene abc, transcript
>NM_0169871 Homo sapiens gene abc, mRNA
>NM_0489412 Mus musculus gene abc, transcript

のように、番号とその他の情報がひたすら並ぶ テキストファイル になっているはずである。

この段階で、さらに特定のキーワードを使って情報を絞ることが可能だと思う。

Accession 番号とその他の情報の間にはスペースがあるので、これを Excel でスペース区切りテキストとして開くと、番号だけが最初のカラムに来る。> を置換で消去すれば、

NM_0168731
NM_0169871
NM_0489412

のように番号のみが並ぶファイルになる。


Batch Entrez で一括 download

  1. このページ にテキストファイルをアップロードすれば、配列を一括でダウンロードすることができる。

広告

コメント欄

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。

アップデート前、このページには以下のようなコメントを頂いていました。ありがとうございました。

2018/04/24 08:26 Linux firefoxだと、リロードするたびに書き込まれるというエラーになる

2018/04/24 08:24 良いページをみつけたのでメモ  http://d.hatena.ne.jp/aaikmyz/20110320/1300605293



References