R による塩基配列解析: 概要のページ

このページの最終更新日: 2026/04/09

概要: R による塩基配列解析

文献 1 に物凄い量のコンテンツがある。

「あとがき」で当サイトを参考にしたと書いてくれているラノベです。Kindle Unlimited で読めました。ストーリーと文章が良く、面白かったです。

リンク

まず、以下のコマンドを実行してみよう。どれも R の組み込みコマンドで、特殊なパッケージは不要。

len = 100 #塩基配列の長さを設定
nts = c("A","C","G","T") #塩基の種類を設定
comp = c(20,30,30,20) #各塩基の割合を設定
seq1 = rep(nts,comp)

seq1 は ["A" "A" "A"...] のように A が 20 個、C が 30 個、G が 30 個、T が 20 個続く配列になる。続いて、以下のコマンドを実行し、この配列から塩基をサンプリングする。

seq2 = paste(sample(seq1, len, replace=T), collapse = "")

オブジェクト seq2 は "CACAACTTTGCTGAATTTACCAGTCCCGACCTCCCAATATGGACGATATA" のような連続した配列になる。paste は文字列を連結する関数、sample は無作為抽出の関数である。

ただし、seq1 は seqinr パッケージの translate 関数で翻訳できるが、seq2 は翻訳できない。見苦しいが、R で配列を扱う際の基本形は、seq1 のような " " に各塩基が収められた形であることを覚えておこう。

とりあえずは、文字列操作ができる関数の情報をここにまとめておく。

aaa()	アミノ酸の一文字表記を三文字表記に変換する。aaa("A") が Ala を与える。
translate()	塩基配列のオブジェクト A を指定し、translate(A) のように翻訳する。
sub()	sub("置換前の文字列", "置換後の文字列", データフレーム) で、データフレーム内の文字列を置換。条件に合う文字列の最初の 1 個のみを置換する。全てを置換したいときは gsub を用いる。
srtingr	関数でなくパッケージ。文字列置換に便利な関数がいろいろ (参考)。

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。