Mac seqkit コマンド:
オプション、正規表現など

UB3/informatics/commands_mac/seqkit_mac

このページの最終更新日: 2022/01/09

  1. 概要: seqkit のインストール
    • Homebrew からインストール
    • バイナリファイルからインストール
  2. seqkit の使い方
    • 特定の長さの配列を抽出する
    • 特定の文字から始まる配列を抽出する
    • fasta ファイルを分割する

広告

概要: seqkit のインストール

seqkit は FASTA ファイル の検索、編集などに適したプログラム (1,2)。たとえば次のようなことができる。

  • FASTA file から、特定の長さの配列を抽出する。短い配列を除くのにも使える。
  • FASTA file から、特定の文字列で始まる配列のみを抽出する。
  • FASTA file を分割したり、名前を置換したり。
  • FASTA file から配列をランダムサンプリングする。

インストールにはさまざまな方法がある。


Homebrew からインストール

一番簡単なのは、Homebrew を使う方法。まずは Homebrew をインストールし、以下のコマンドで Seqkit をインストールできる (4)。

brew install brewsci/bio/seqkit

Linux Ubuntu でも、homebrew さえ入っていれば同じコマンドが使える。Mac では User/local/bin にインストールされ、パスを通さなくても使える。


バイナリファイルをインストール

また、公式ページ からダウンロードする方法もある。Mac の場合は単に圧縮ファイルを解凍する。これを ターミナル からパスを指定して実行すれば良いだけ。cap3 などと同様の使い方になる。実行環境を整える必要はなく、コンパイルも不要。


広告

seqkit の使い方

Ref. 1 に日本語でわかりやすく書かれている。他にもオプションがあるので、詳細は公式マニュアルを参照。以下、自分が使ったことのあるオプションを中心に簡単なまとめる。Ref. 3 は実例が豊富なよいページ。

基本は "seqkit command option 標準入力" である。コマンドに基づいて簡単に表にしておく。

コマンド

機能

stat

seqkit stat input.fasta のようにしてFASTA のステータスを確認する。

seq

シークエンスの変換。オプションが多数ある。

head

最初のシークエンスだけ出力する。seqkit head -n 10 input.fasta のように、-n で数を指定。

split

fasta ファイルを分割する。

rmpup

重複配列を削除する。


特定の長さの配列を抽出

seqkit seq -m 100 -M 1000 input.fasta > output.fasta

-m は minimum、-M は maximum の配列長。fasta ファイルから、特定の長さの配列のみを抽出し、別の fasta file として保存する。

短い配列を除きたい場合に便利だろう。


配列の改行を設定する

seqkit seq -w 0 input.fasta > output.fasta

-w のあとの数字で、何文字で改行するかを設定できる。


特定の文字から始まる配列を抽出

seqkit grep -sirp ^AAC input.fasta

Mac コマンドの grep との組み合わせみたいな感じ。-s はシークエンスを対象にするオプション、-i は大文字と小文字の違いを無視するオプション (1)。^AAC で AAC から始まる配列 を検索する。


fasta ファイルを分割する

seqkit split -p 2 input.fasta

-p は分割する数を表し、この例では fasta が 2 つに分割される。input.fasta.split というフォルダができ、その中に分割された fasta ファイルが保存される。

Augustus などのウェブ版のサービスを使うときに、アップロードできる配列の数やサイズに制限がある場合がある。その際には fasta ファイルを分割できると便利。

上記の -p は分割により作られるファイルの数を指定するが、-s オプションでは分割後のファイルに含まれる配列の数を指定できる。

seqkit split input.fasta -s 1

で、配列を 1 個ずつ fasta ファイルに分割することができる。


広告

References

  1. seqkitを用いたFASTAのフィルタリング・ソート. Link: Last access 2019/03/24.
  2. Shen et al. 2016a. SeqKit: A cross-platform and ultrafast toolkit for FASTA/Q file manipulation. PLoS ONE 11: e0163962. 元論文。使えるツールだと思うのだが、なぜか May 2018 で 2 回しか引用されていない。
  3. fastq / fastaの操作ツール seqkit. Link: Last access 2020/02/10.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment