R の概要: インストールと基本コマンド (関数)
UB3/informatics/r/r_overview
このページの最終更新日: 2024/09/30広告
R のインストールと基本的な使い方
Mac へのインストール
2020 年 5 月ごろから R Studio をインストールして使っている。まず R を、次に RStudio をインストールする。
Terminal を使えるなら、R は Homebrew からインストールすることができる。2022 年 5 月現在、brew install r で OK。
以下は以前のメモ。
- 2019 年 8 月現在では、バージョン 3.6 がリリースされている。どのようにアップデートされたかは、このページ によくまとまっている。
- 2018 年 9 月に、新しい Mac で R をセットアップしたとき、Ref. 1の通りに進めたが、brew tap homebrew/science は homebrew/science was deprecated. This tap is now empty as all its formulae were migrated. というエラーが。OS は High Sierra、R のバージョンは 3.5.1。
ビデオでの解説を作りました。
Linux Ubuntu へのインストール
Linux Ubuntu へのインストールはちょっとやっかいだった。
まず apt-get でインストールする方法がある。正式なパッケージ名は r-base のようで、sudo apt-get install r-base でインストールできる。この場合、R で起動可能。
Linux にも brew があり、brew install r でもインストールが可能だった。困ったことに、私の場合は apt-get の場合と
作業ディレクトリの設定
R には Working directory という概念がある。R を起動したときに自分がどの場所に行くのかは、環境設定の Working directory のところで設定することができる。
Working directory を変更したいときは、
setwd()
で括弧内にファイルパスを入れればよい。"" でパスを囲む必要がある。たとえば次のような形である。
RStudio と RScript を使っているなら、以下のようにして「スクリプトがあるパス」を作業ディレクトリにできる。
RStudio のインストール
R はターミナルで使うこともできるが、RStudio が便利なのでインストールをお勧めする。
2023 年 5 月現在、公式サイトは posit というところらしい。これもビデオあり。
R のライブラリ (パッケージ)
パッケージとは、R の機能を拡張できるプログラム群のことで、R の最大の強みの一つと言える。世界中の研究者が日々 R の新しいパッケージを開発しており、誰でも無料で使うことができる。ソースコードも全て公開されている。
R のパッケージは、以下の 4 種類に分けられる。詳細は R のパッケージ のページを参照のこと。
- R とともに自動でインストールされ、読み込みも必要なく使えるもの。
- R とともに自動でインストールされるが、library(パッケージ名) で読み込まないと使えないもの。
- install.packages('パッケージ名") でインストールし、かつlibrary('パッケージ名') で読み込まないと使えないもの。
- install.packages('パッケージ名') ではインストールできないもの。
また、R にはさまざまな組み込みデータセットが用意されている。一覧は、とりあえず このページ にある方法で見ることができる。
R 演算子のメモ
演算子の前には、スペースを入れる習慣をつけておくとよい。スペースがなくても OK な場合もあるが、たとえば < を使って「-1 より小さい」を指定したい場合に、スペースを入れないと <-1 となり、代入になってしまう。
= |
A = B は、R では「A は B に等しい」ではなく、「A に B を代入する」の意味になる。<- も代入を意味する。 |
== |
「等しい」は、等号 2 つで表す。A %in% B でも「A は B に等しい」の意味。 |
!= |
否定等号 ≠ の意味、「A は B に等しくない」。 R では ! は否定を表し、例えば is.na (A) は A が NA の場合 TRUE となるが、!is.na (A) では結果がひっくり返って FALSE となる。NA の取り扱い も参照のこと。 |
& と && |
どちらも論理積、つまり A かつ B を示す。 |
< と > |
大なり、小なりを表す。 |
<= と >= |
指定した値を含む「大なりイコール」は、<=1 のようにイコールをつけて示す。 |
%% |
整数の範囲で除算を行なったときの余り。 |
%>% |
パイプ、つまりある関数の結果を変数に代入せずに、次の関数に渡す (参考)。library(magrittr) に含まれている。次の具体例がわかりやすいだろう。 cars というシンプルな組み込みデータセットの speed という列の の平均値 M を計算し、これを棒グラフにする。
結果を いちいち M という変数に代入するのは面倒なので、これは以下のように書くこともできる。 mean が barplot のカッコ内に入っているくらいならまだ分かりやすいが、この式が複雑になってくると、ステップがわかりにくくなる。 「平均値を計算し」「その結果を使ってなにかをする」というステップをスクリプト中に明示しておきたい場合には、このパイプを使うと便利。
barplot の ( ) 内には何も入っていないが、ここに前の関数の結果が入ることになる。 |
少し高度な設定
Mac R で使用するメモリの設定
vector memory exhausted (limit reached?) というエラーが出たことがあった。解決方法は ここ に。
ホームフォルダに .Renviron という隠しファイルを作り、R_MAX_VSIZE=100Gb 記入する。
- cd ~
- touch .Renviron
- open .Renviron
この open コマンドで、隠しファイルもテキストエディットで開けるようだ。単に R_MAX_VSIZE=100Gb と記入して保存。RStudio を一応再起動すると、エラーは出なくなった。
その他メモ
雑多な内容のメモ。
重要な変数は、script の最初の方で指定しておくと、のちのち script を改変するときに便利である。
- スクリプトの冒頭に rm(list=ls()) と setwd(dirname(rstudioapi::getActiveDocumentContext()$path)) を置いておく。変数を全て消すのと、スクリプトのあるフォルダをカレントディレクトリにする。
- 図を書き出すフォルダは、output <- "./output_A/" のように指定しておき、pdf() 関数などでは pdf(file = paste0(output, "file.pdf")) とする。これで、スクリプトのあるフォルダがごちゃごちゃしないで済む。
- バイオインフォマティクス tips: 常にデータセットにタイポがある可能性を意識する
広告
References
- Mac OSにRをインストールする. Link: Last access 2018/09/20.
- ベクトル、行列、データフレーム、リスト、配列、テーブルの違い. Link: Last access 2018/09/20.
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。