fastq-dump: Mac, Linux での使い方、オプションなど
UB3/informatics/commands_linux/fastq-dump
このページの最終更新日: 2024/09/30- fastq-dump のインストール
- Mac へのインストール
- Linux へのインストール
- Windows へのインストール
- fastq-dump の実行
- Mac, Linux での fastq-dump の実行
- Windows での fastq-dump の実行
- fastq-dump のオプション一覧
- fastq-dump その他
- 複数のデータをダウンロード
- SRA file もダウンロードされる
- prefetch コマンド
- エラーログ
広告
fastq-dump のインストール
fastq-dump は、次世代シークエンス のデータを SRA データベース からダウンロードするための関数である。
Mac へのインストール
fastq-dump は、SRA ツールキットの一部である。簡単なのは homebrew を使う方法で、homebrew がインストールされていれば
でよい。または、以下のようにして圧縮ファイルとしてダウンロード、実行することも可能。
- NCBI SRA Toolkit のページ (Last access 2019/10/30) から OS に合う SRA Toolkit をダウンロード。
- Mac なら sratoolkit.2.8.2-1-mac64.tar.gz などという名前の圧縮ファイルがダウンロードされるので、普通にこれを解凍。
- 同名のフォルダができ、このフォルダ内の bin にコマンドの実行ファイルがある。然るべき場所へ移し パスを通す か、実行ファイルのパスを指定して実行する。
Linux へのインストール
2021 年 12 月、色々と警告が出たが、Mac と同様に以下で大丈夫だった。
Windows へのインストール
NCBI のページ から Windows 用 SRA Toolkit をダウンロードし、解凍されたファイル群を特定のフォルダに保存する。
fastq-dump の実行
を実行し、SRA configulation のウィンドウを開く。以下は少し古いバージョンの画面かもしれないが、ここで config を実行し、Save と Exit をする。
ただし、実際はデフォルトの設定で十分なので、以下のコマンドを実行すればコンフィグは終了し、使えるようになるはずである。
Mac, Linux での fastq-dump の実行
brew を使ってインストールしていれば、パスを指定せずに以下で OK。
ダウンロードは時間がかかるが、成功すれば「written + 数字」のようなメッセージが出る。ファイルはカレントディレクトリにダウンロードされる。
Windows での fastq-dump の実行
Windows では Command Prompt で実行するが、デフォルトのパスに追加する方法がよくわからないので、実行ファイルのパスを指定して実行している。
Mac と Win のコマンド対応表 などを参照のこと。必要なのは以下の 3 つのみ。
- cd のみでカレントディレクトリが表示される。Mac/Linux の pwd に相当する。
- dir でカレントディレクトリのファイル・フォルダ一覧。Mac/Linux の ls。
- 「cd 移動したいフォルダ名」で移動できる。
fastq-dump のオプション一覧
--split-files |
データが paired-end である場合、それぞれを別のファイルとしてダウンロードする。 |
--split-3 |
古いオプションなので、非推奨のようである (2)。これをつけると、ファイルが 1, 2, または 3 個に分けてダウンロードされる。
|
--gzip |
ダウンロードデータを圧縮する。--bzip2 も同じような圧縮オプションである。 ディスクスペースの節約には役立つが、処理が終わるまでの時間は長くなる。 |
--fasta |
fastq でなく fasta ファイルとしてデータをダウンロードする。 |
fastq-dump その他
複数のデータをダウンロード
複数データをダウンロードしたい場合は、単に複数の番号をスペース区切りで書けば良い。
また、NCBI SRA の検索結果画面で Send to - File - Accession list とすると、検索結果にある Run の番号がリストとして得られる。
SRA file もダウンロードされる
fastq-dump は、実は以下のことを同時に行なっている (4)。
- もとのデータ形式である .sra を ~/ncbi/public/sra というフォルダに保存する。
- この sra ファイルを変換し、.fastq ファイルとして ~ に保存する。
不要と判断したら、もとの .sra ファイルは消して構わない。
prefetch コマンド
fastq-dump を使う代わりに
sra ファイルは容量を食うので、外付け HDD に直接ダウンロードしたい。以下のように設定する。このページ を参考にした5。
- vdb-config -i というコマンドで、以下の画面が開く。
- Workspace Name という部分のパスを変更。ここに sra ファイルがダウンロードされる。USB 接続の外付け HDD なら、/Volume という部分に来るはず。
- 既にデータがあったり、以前の ~/ncbi/public に中身が残っていたりすると flush? と聞かれる。全部空っぽにしてからやった方がいいかもしれない。
エラーログ
番号のパスが見つからないエラーのようにも見えるが、SRA toolkit が config されていなくても、このエラーが生じる。
sra toolkit の中にある vdb-config というコマンドを使い、以下を実行することで解決 (1)。
ネットワークの不調によるエラー。大きいファイルをダウンロードしている途中で、接続が不安定になった場合などに出ることがある。このエラーが出たとしても、その後、Read *** spots for SRR***, Written *** spots for SRR*** という完了メッセージが表示されればダウンロードは成功である。fastq-dump は頑健なプログラムで、成功するまで何度もリトライしてくれるようだ (参考)。
timeout exhausted のようなエラーが出る。→ おそらく、データが大きすぎて接続がタイムアウトになっている。ネット接続の良い環境で試すか、ファイルを分割してダウンロードする。
Failed to call external services: このエラーは、インターネット接続の問題であることが多いようだ (参考)。
広告
References
- SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~ Link: Last access 2021/12/20.
- fastq-dump split-3 output. Link: Last access 2021/12/20.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。