遺伝子予測プログラム augustus:
使い方、gff ファイルの扱いなど
UB3/informatics/bioinformatics/gene_prediction_augustus
このページの最終更新日: 2024/09/30広告
概要: augustus とは
augustus とは、ゲノム配列から遺伝子領域を予測するためのプログラムである。Mac でも動かせるが、Linux の方が安定して動くので、Linux をお勧めする。メモリの問題かもしれないが、Mac だと大きいゲノムをスキャンしきれずに、途中で予測が終わってしまったことがあった。
Augustus には ウェブ版 も存在するが、このページでは local なコマンドの使い方をまとめる。
augustus のインストール
Mac なら homebrew でインストール可能。
ただし、2022 年に brew でインストールして実行しようとしたときには、/usr/lib/libstdc++.6.dylib というライブラリに関係するエラーが出た。どうも、最新の Xcode がこのライブラリを除いてしまったようだ (参考)。このページ からライブラリをダウンロードできるが、これを /usr/lib に移動しなければならず、これが普通の方法ではできない。sudo 権限でもダメ。
最新の Xcode ではこの問題を fix しているということも上のページに書かれていたので、再インストールして確認。再インストールしても augustus は実行できなかったような気がするが、R でも似たようなエラーが出たので、以下の手順を実行したところ、augustus も動くようになった (→ ブログ)。結局、どちらが重要だったのか不明。
- gcc --version でバージョンを確認したところ 12 が入っていたので、brew install gcc@11 として 11 をインストール。
- インストールされるパスに 11 というフォルダができるので、これを /usr/local/opt/gcc/lib/gcc/11 として移動。
- "cp -R 11 コピー先パス" で OK。-R はフォルダごとコピーするオプション。sudo も必要なかった。
Ubuntu なら apt-get でインストールでき、方法は Github のページに書かれている。
augustus の実行
使用する際は、fasta ファイルに加え、少なくとも遺伝子予測に使う種を指定する必要がある。
ダブルクオーテーションなしで、--species==human でも動きそう。
指定可能な種は、augustus --species=help で見ることができる。どういう生き物かググったものをメモ。
- aedes: Aedes aegypti, ネッタイシマカ、黄熱、デング熱、ジカ熱などを媒介。
- ancylostoma_ceylanicum: 寄生性の回虫。
- Apis dorsata: オオミツバチ。
- aspergillus_fumigatus: 菌類、アスペルギルス症の最も一般的な原因菌。
- Bombus impatiens: ハチの一種。
- Botrytis cinerea: 糸状菌の一種。植物の灰色カビ病の原因。
- Brugia malayi: マレー糸状虫、線虫の一種。
- Burkholderia pseudomallei: グラム陰性菌の一種。
- Fusarium graminearum: 菌類。
gff ファイルから fasta への書き出し
augustus のデフォルトのアウトプットは、gff を拡張子にもつファイルである。これを fasta file に書き出すには、gff ファイルと元のゲノムファイルの両方を指定する必要がある (2)。
gffread は homebrew でなく conda でインストールする。conda が入っていない場合は、まずこの curl を実行して sh ファイルをダウンロードし、sh で実行する。
インストール中に、ライセンスなどに agree する必要がある。Enter と yes で最後まで行くはず。conda がインストールできたら、以下のコマンドで gffread をインストールできる。
広告
References
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。