R による塩基配列解析: 概要のページ

UB3/informatics/r/seq_overview

このページの最終更新日: 2023/02/14

  1. 概要: R による塩基配列解析
  2. ランダムな塩基配列を生成する
  3. 塩基配列操作の関数

広告

概要: R による塩基配列解析

文献 1 に物凄い量のコンテンツがある。

ランダムな塩基配列を生成する

まず、以下のコマンドを実行してみよう。どれも R の組み込みコマンドで、特殊なパッケージは不要。

len = 100 #塩基配列の長さを設定
nts = c("A","C","G","T") #塩基の種類を設定
comp = c(20,30,30,20) #各塩基の割合を設定
seq1 = rep(nts,comp)

seq1 は ["A" "A" "A"...] のように A が 20 個、C が 30 個、G が 30 個、T が 20 個続く配列になる。続いて、以下のコマンドを実行し、この配列から塩基をサンプリングする。

seq2 = paste(sample(seq1, len, replace=T), collapse = "")

オブジェクト seq2 は "CACAACTTTGCTGAATTTACCAGTCCCGACCTCCCAATATGGACGATATA" のような連続した配列になる。paste は文字列を連結する関数、sample は無作為抽出の関数である。

ただし、seq1 は seqinr パッケージの translate 関数で翻訳できるが、seq2 は翻訳できない。見苦しいが、R で配列を扱う際の基本形は、seq1 のような " " に各塩基が収められた形であることを覚えておこう。

塩基配列操作の関数

とりあえずは、文字列操作ができる関数の情報をここにまとめておく。

aaa()

アミノ酸の一文字表記を三文字表記に変換する。aaa("A") が Ala を与える。

translate()

塩基配列のオブジェクト A を指定し、translate(A) のように翻訳する。

sub()

sub("置換前の文字列", "置換後の文字列", データフレーム) で、データフレーム内の文字列を置換。条件に合う文字列の 最初の 1 個のみ を置換する。全てを置換したいときは gsub を用いる。

srtingr

関数でなくパッケージ。文字列置換に便利な関数がいろいろ (参考)。


広告

References

  1. Rで塩基配列解析. Link: Last access 2020/08/18.
  2. 文字列. Link: Last access 2022/05/26.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。