Python の概要: インストールと基本コマンド
UB3/informatics/python/python_overview
このページの最終更新日: 2024/10/12- 概要: Python とは
- Python のインストールと環境構築 (Mac)
- Python の作業ディレクトリ
- Python の module と import について
- Biopython scripts
- NCBI からのデータダウンロード
- 配列のアラインメント
広告
概要: Python とは
使い始めたばかりなので、とりあえずはこのページをメモ代わりに何でも書き込んでいき、内容が増えたら新しいページを作っていく形で。
Python には、主に使われているバージョンとして Python 2 と Python 3 がある。「主に使われている」といっても、Python 2 は 2020 年でサポートが切れているので、新しい情報は全て 3 についてのものである。このサイトでも、特に断らない限りは Python 3 についてまとめていくことにする。
バイオインフォマティクス用の Biopython というものがある。日本語の資料はあまり多くない印象。以下の入門シリーズがわかりやすい。
その他のページへのリンク。
Python のインストールと環境構築 (Mac)
Mac には Python が既にインストールされている。まず、ターミナルで
とするとバージョンがわかる。また、
とすると /Users/username/Documents/miniconda3/bin/python3 のような結果が表示される。これが実行される Python のパス。
Spyder については Spyder の設定 のページを参照のこと。
Python の module と import について
Python には、
モジュールは、python にデフォルトで含まれているものもあるが、そうでない場合にはインストールする必要がある。モジュールが発見されない場合は、import No module named 'pandas' のようなエラーが出る。モジュールをインストールするのはシェルの pip または pip3 コマンドである。
かつては、pip は使っている Python にモジュールをインストールするコマンドであり、pip3 は Python3 を厳密に指定するコマンドであった。ただし、Python2 は 2020 年 1 月にメンテナンスが終了して事実上使われなくなっているため、多くのシステムでは pip は pip3 の単なるエイリアスになっている。しかし、やはり pip3 を使う方が基本的には安全だろう。
pip3 install pandas
モジュールを呼び出すのは
import pandas as pd
特定のモジュールの関数を使うときは、モジュール名のあとにつけるのが Python の流儀である。つまり、pandas というモジュールにある read_excel という関数で Excel を読み込むときは以下のようになる。
これは、一般に次のように書かれる。つまり pandas を pd を略している。これは単なる慣習であり、コードを短くして可読性を上げるという意味があるだけである。モジュール名をフルで使っても問題ないのだが、多くの example script もこの形で書かれているので、特にこだわりがなければそれに従うのが良いだろう。
NumPy | 多次元配列の数値データを処理する関数が多く含まれる (参考)。Pandas よりも扱えるデータの幅が狭いが、データの処理は速い。 データを Pandas の DataFrame として加工し、NumPy の ndarray にしてから機械学習というのが常套手段のようだ。 |
Pandas |
NumPy を応用して作られた。CSV やエクセルからの入力のほか、文字列などの数値以外のデータ形式に対応した関数が多く含まれている。Index 機能も充実しており、データの前処理に適している。 NumPy のデータフレームは、すべての要素が同じ型でなければいけないが、Pandas は異なる型でも OK である。 |
matplotlib |
描画パッケージ。 |
skimage |
画像認識のパッケージ。OpenCV もよく使われる画像認識パッケージである。 このページ を参考に、以下のテストコードを実行。 元画像をローカルファイルにするには、image = data.coins() を image = data.coins() |
Windows では、モジュールをインストールするのも一苦労である。まず Spyder をインストールして、デフォルトで右下にある Python プロンプトで pip install をすると Note: you may need to restart the kernel to use updated packages. というエラーが。これは、Spyder の Python には pip が入っていないためのエラーらしい。
解決する方法はあるが、簡単に外部のモジュールをインストールできないというのは仕様としてありえないので、Windows では Spyder はお勧めできない。そこで、このページ に従い、まず Python をインストール。ウェブサイト作成などで使っている VSCode を IDE で使ってみることに。VSCode はすでにインストールされているので、Python を入れたあとにセットアップする。
Microsoft の Python という機能拡張を VSCode にインストール。Python のインストール時に「add pip」のような感じで pip を追加できるオプションがあるので、これをチェックする。忘れても、インストーラーを起動して Modify から追加できる。これで、Windows PowerShell で pip が使えるようになる。
pip list でインストールされたモジュールの一覧。
Python の作業ディレクトリ
os.getcwd() という関数を使う。ただし、一発で表示されるわけではなく、import し、実行結果を print するという手順を踏む必要がある (参考)。
path = os.getcwd()
print(path)
これは、変数を使わずに以下のようにしても OK。
print(os.getcwd())
作業ディレクトリを変更したい場合は、
とする。シングルクオーテーションを忘れないこと。Spyder ではタブで候補表示ができる。Mac で home directory を表す ~ は 使えなそう。
関数の定義
独自の関数を定義する場合。
行う処理
return 戻り値
Biopython scripts
NCBI からのデータダウンロード
モジュール Bio から Entrez をインポートする。Entrez は実行にメールアドレスを必要とする。ダウンロードするシークエンスは、データベース db (nucleotide, protein など) と ID で指定。handle という変数に格納し、print で handle の内容を表示している。
- db は nucleotide, protein など。
- rettype で可能なのは fasta, gb (GenBank, データ全体を指す) など。
配列のアラインメント
BioPython の pairwise2 ライブラリーを利用したペアワイズアラインメント が参考になりそう。
BLAST
アセンブリー
このページ では、Velvet や cap3 を使えというコメント。
広告
References
- Biopython documentation. Link: Last access 2020/09/03.
- Issue adding site-packages directory to PYTHONPATH in Spyder. Link: Last access 2022/11/18.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。