Mac seqkit コマンド:
オプション、正規表現など

informatics/commands_mac/seqkit_mac
2018/05/24 更新

  1. 概要: seqkit のインストール
  2. seqkit の使い方

広告

概要: seqkit のインストール

seqkit は FASTA ファイル の検索、編集などに適したプログラム (1,2)。たとえば次のようなことができる。

  • FASTA file から、特定の長さの配列を抽出する。短い配列を除くのにも使える。
  • FASTA file から、特定の文字列で始まる配列のみを抽出する。
  • FASTA file を分割したり、名前を置換したり。
  • FASTA file から配列をランダムサンプリングする。

インストールは簡単。公式ページ からダウンロードし、Mac の場合は単に圧縮ファイルを解凍する。これを ターミナル から実行すれば良いだけで、cap3 などと同様の使い方になる。実行環境を整える必要はなく、コンパイルも不要。


広告

seqkit の使い方

Ref. 1 に日本語でわかりやすく書かれている。他にもオプションがあるので、詳細は公式マニュアルを参照。以下、自分が使ったことのあるオプションを中心に簡単なまとめ。

特定の長さの配列を抽出

>> seqkit seq -m 100 -M 1000 input.fasta > output.fasta

-m は minimum、-M は maximum の配列長。


特定の文字から始まる配列を抽出

>> seqkit grep -sirp ^AAC input.fasta

Mac コマンドの grep との組み合わせみたいな感じ。-s はシークエンスを対象にするオプション、-i は大文字と小文字の違いを無視するオプション (1)。^AAC で AAC から始まる配列 を検索する。



コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)



このコメント欄は各ページにあるので、いつ管理人がコメントを見ることになるのか分かりません。内容について質問がある場合は、下のリンク先のフォームから質問頂ければ、早めに返信するようにします。


References

  1. seqkitを用いたFASTAのフィルタリング・ソート. Link: Last access 2018/05/24.
  2. Shen et al. 2016a. SeqKit: A cross-platform and ultrafast toolkit for FASTA/Q file manipulation. PLoS ONE 11: e0163962. 元論文。使えるツールだと思うのだが、なぜか May 2018 で 2 回しか引用されていない。