fastq-dump: Mac, Linux での使い方、オプションなど

UB3/informatics/commands_linux/fastq-dump

このページの最終更新日: 2021/12/21

  1. fastq-dump のインストール
    • Mac へのインストール
    • Linux へのインストール
    • Windows へのインストール
  2. fastq-dump の実行
    • Mac, Linux での fastq-dump の実行
    • Windows での fastq-dump の実行
    • fastq-dump のオプション一覧
  3. fastq-dump その他
    • 複数のデータをダウンロード
    • SRA file もダウンロードされる
    • prefetch コマンド
  4. エラーログ

広告

fastq-dump のインストール

fastq-dump は、次世代シークエンス のデータを SRA データベース からダウンロードするための関数である。

Mac へのインストール

fastq-dump は、SRA ツールキットの一部である。簡単なのは homebrew を使う方法で、homebrew がインストールされていれば

brew install sratoolkit

でよい。または、以下のようにして圧縮ファイルとしてダウンロード、実行することも可能。

  1. NCBI SRA Toolkit のページ (Last access 2019/10/30) から OS に合う SRA Toolkit をダウンロード。
  2. Mac なら sratoolkit.2.8.2-1-mac64.tar.gz などという名前の圧縮ファイルがダウンロードされるので、普通にこれを解凍。
  3. 同名のフォルダができ、このフォルダ内の bin にコマンドの実行ファイルがある。然るべき場所へ移し パスを通す か、実行ファイルのパスを指定して実行する。

Linux へのインストール

2021 年 12 月、色々と警告が出たが、Mac と同様に以下で大丈夫だった。

brew install sratoolkit

Windows へのインストール

NCBI のページ から Windows 用 SRA Toolkit をダウンロードし、解凍されたファイル群を特定のフォルダに保存する。


広告

fastq-dump の実行

最初に実行するときは、config をしなければならない ようである。Mac, Linux, Windows のいずれでも、Terminal または Command Prompt で

vdb-config --interactive

を実行し、SRA configulation のウィンドウを開く。以下は少し古いバージョンの画面かもしれないが、ここで config を実行し、Save と Exit をする。

ただし、実際はデフォルトの設定で十分なので、以下のコマンドを実行すればコンフィグは終了し、使えるようになるはずである。

vdb-config --restore-defaults

Mac, Linux での fastq-dump の実行

brew を使ってインストールしていれば、パスを指定せずに以下で OK。

fastq-dump --split-files DRR048384

ダウンロードは時間がかかるが、成功すれば「written + 数字」のようなメッセージが出る。ファイルはカレントディレクトリにダウンロードされる。

Windows での fastq-dump の実行

Windows では Command Prompt で実行するが、デフォルトのパスに追加する方法がよくわからないので、実行ファイルのパスを指定して実行している。

Mac と Win のコマンド対応表 などを参照のこと。必要なのは以下の 3 つのみ。

  • cd のみでカレントディレクトリが表示される。Mac/Linux の pwd に相当する。
  • dir でカレントディレクトリのファイル・フォルダ一覧。Mac/Linux の ls。
  • 「cd 移動したいフォルダ名」で移動できる。

fastq-dump のオプション一覧

--split-files

常にこのオプションをつけることを推奨する。

データが paired-end である場合、それぞれを別のファイルとしてダウンロードする。

--split-3

古いオプションなので、非推奨のようである (2)。これをつけると、ファイルが 1, 2, または 3 個に分けてダウンロードされる。

  • 1 個の場合、データが paired-end でないことを意味する。
  • 2 個の場合、データが paired-end であることを意味し、分けてダウンロードされる。
  • 3 個の場合、データが paired-end で、かつ low quality のデータがあることを意味する。low quality データは DRR048384.fastq のように _1 と _2 ないファイル名をもつ。通常、これは無視して _1 と _2 がついたファイルを解析に使えば良い。

--gzip

ダウンロードデータを圧縮する。--bzip2 も同じような圧縮オプションである。

ディスクスペースの節約には役立つが、処理が終わるまでの時間は長くなる。

--fasta

fastq でなく fasta ファイルとしてデータをダウンロードする。



fastq-dump その他

複数のデータをダウンロード

複数データをダウンロードしたい場合は、単に複数の番号をスペース区切りで書けば良い。

fastq-dump --split-files DRR048384 DRR048385 DRR048386

また、NCBI SRA の検索結果画面で Send to - File - Accession list とすると、検索結果にある Run の番号がリストとして得られる。


SRA file もダウンロードされる

fastq-dump は、実は以下のことを同時に行なっている (4)。

  • もとのデータ形式である .sra を ~/ncbi/public/sra というフォルダに保存する。
  • この sra ファイルを変換し、.fastq ファイルとして ~ に保存する。

不要と判断したら、もとの .sra ファイルは消して構わない。


prefetch コマンド

fastq-dump を使う代わりに prefetch を使うと sra ファイルのダウンロードのみが行われる。これも、スペース区切りにすることで複数のファイルをダウンロードすることができる。

sra ファイルは容量を食うので、外付け HDD に直接ダウンロードしたい。以下のように設定する。このページ を参考にした5

  1. vdb-config -i というコマンドで、以下の画面が開く。
  2. Workspace Name という部分のパスを変更。ここに sra ファイルがダウンロードされる。USB 接続の外付け HDD なら、/Volume という部分に来るはず。
  3. 既にデータがあったり、以前の ~/ncbi/public に中身が残っていたりすると flush? と聞かれる。全部空っぽにしてからやった方がいいかもしれない。

エラーログ

fastq-dump.2.9.6 err: item not found while constructing within virtual database module - the path 'ERR046702' cannot be opened as database or table

番号のパスが見つからないエラーのようにも見えるが、SRA toolkit が config されていなくても、このエラーが生じる。

sra toolkit の中にある vdb-config というコマンドを使い、以下を実行することで解決 (1)。

vdb-config --restore-defaults


fastq-dump.2.8.2 sys: error unknown while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )

ネットワークの不調によるエラー。大きいファイルをダウンロードしている途中で、接続が不安定になった場合などに出ることがある。このエラーが出たとしても、その後、Read *** spots for SRR***, Written *** spots for SRR*** という完了メッセージが表示されればダウンロードは成功である。fastq-dump は頑健なプログラムで、成功するまで何度もリトライしてくれるようだ (参考)。


timeout exhausted のようなエラーが出る。→ おそらく、データが大きすぎて接続がタイムアウトになっている。ネット接続の良い環境で試すか、ファイルを分割してダウンロードする。


広告

References

  1. SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~ Link: Last access 2021/12/20.
  2. fastq-dump split-3 output. Link: Last access 2021/12/20.

コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment