R のパッケージ:
Install, CRAN および Github の使い方など

UB3/informatics/r/dataframe

このページの最終更新日: 2021/02/07

  1. 概要: パッケージとは
  2. install.packages による普通のインストール
  3. CRAN からのインストール
  4. Bioconductor パッケージのインストール
  5. ダウンロードした圧縮ファイルからのインストール
  6. R パッケージの一覧
  7. R 組み込みデータセットの一覧

広告

概要: パッケージとは

R 自体は、さまざまな統計などの関数を走らせるプラットフォームであり、それぞれの関数は パッケージ package として用意されている。パッケージには、以下のタイプがある (1)。

  1. R とともに自動でインストールされ、読み込みも必要なく使えるもの。
  2. R とともに自動でインストールされるが、library('パッケージ名') で読み込まないと使えないもの。
  3. install.packages('パッケージ名') でインストールし、かつlibrary('パッケージ名') で読み込まないと使えないもの。
  4. install.packages('パッケージ名') ではインストールできないもの。

2 番がちょっと馴染みにくい。パッケージは一度インストールすればずっと保存されるが、読み込みは R を立ち上げるたびにやらなければならない。


install.packages による普通のインストール

パッケージをインストールするには、install.packages("パッケージ名") とする。install.packages("パッケージ名", dependensies = TRUE) とすると、依存関係のあるパッケージもまとめてインストールできる (2)。

パッケージ名の指定には " " が必要である。つまり seqinr というパッケージをインストールするには install.packages("seqinr") とする。シングルクオーテーション ' ' でも OK なようである。


CRAN からのインストール

CRAN とは Comprehensive R Archive Network の略で、「クラン」または「シーラン」と呼ばれる。R のパッケージが公開されている場所の一つで、経済、機械学習、画像処理などに関連するパッケージが多い。

CRAN にあるパッケージは、install.packages でインストールできそう。

コマンドラインからパッケージをインストールしたいときは、次の手順になる。

  • CRAN からパッケージを .tar などの形でダウンロードする。
  • それを解凍すると、multcomp などといったパッケージ名のフォルダができる。
  • この状態で、ターミナルで R CMD INSTALL パッケージ名とする。sudo 権限が必要かもしれない。

広告

Bioconductor パッケージのインストール

Bioconductor も CRAN と同じような R のパッケージ公開場所の一つである。生物および医学分野のパッケージが多い (3)。

msa というパッケージをインストールしたときは、次のコマンドを実行した (4)。

以下のように、biocLite を使う方法もあるようである (3)。

source("http://bioconductor.org/biocLite.R")
biocLite("Biostrings")


R パッケージの一覧

R のパッケージは膨大で、網羅的なリストを作るのは難しい。以下は有名なもの、私が使っているものをランダムにセレクトした結果である。


ggplot2

デフォルトの作図コマンドよりも、きれいな図が作れる (5)。公式ページ も参照のこと。

corplot

ggplot でもできるのかもしれないが、こんな感じの複数パラメーターでの相関の図が作れる (6)。

survival

生存時間分析。

回帰分析関係

  • lmtest: 線形回帰の条件をテストする。
  • smatr: II 型の線形回帰のためのパッケージ。
  • caret: 統計または機械学習ベースの回帰分析で役に立つ。

Seurat

Single-cell RNA-seq data 解析のためのパッケージ。インストールには時間がかかった。

seqinr

塩基配列、アミノ酸配列解析のためのパッケージ。このパッケージだけではないが、R による塩基配列解析 のページに概要がある。



R 組み込みデータセットの一覧

data() で一覧が表示される。


chickwts

horsebeanm, linseed などの餌を与えられて育ったニワトリの体重データ。棒グラフ の練習に使った。以下のような形式で、ToothGrowth と似ている。

iris

iris は「アヤメ」の意味。花弁の長さ petal length、がくの長さ sepal length などのデータが入っているが、petal とか sepal とか length とか width とか非常にややこしく、しかも花のサイズとか別に興味ないしどうでもよいので、あまり使いたくないデータセットである。

iris は統計学者フィッシャーによるデータセットらしく、フィッシャーが優生学の信奉者だったこともあり、iris の使用停止を勧める こんなページ もあるようだ。

lh

血中ホルモン量のタイムコース、48 タイムポイント。typeof で double となるので、一次元の vector データだと思うのだが、is.vector では false になる。

Orange

木の年齢と胴回りのデータセット。木は 1 から 5 という名前の 5 つのグループに分かれており、数字をカテゴリー変数をして扱うオプション as.factor を覚えるのにも良い。

swiss

スイスの 47 の地区における出生率と、さまざまな社会的要因のデータ。ピアソンの相関 で例として用いている。

ToothGrowth

ビタミン C またはオレンジジュースをいくつかの dose で投与されたモルモットの歯の長さのデータ。chickwts と似ているが、dose の違いという要素がある。

全体としては 二元配置分散分析 のデータ。平均値などの算出、棒グラフ、t 検定など、さまざまな関数の練習に有用。

BostonHousing

ボストン地区の家の値段と、さまざまな要因のデータ。mlbench というパッケージに含まれるデータセットなので、まずはこのパッケージをインストールする必要がある。正則化回帰 で例として用いている。



広告

References

  1. パッケージの「読み込み」と「追加インストール」. Link: Last access 2019/07/22.
  2. R のパッケージ管理. Link: Last access 2019/07/22.
  3. パッケージ. Link: Last access 2019/07/22.
  4. Bonatesta et al. 2018a. msa An R Package for Multiple Sequence Alignment. Pdf file.
  5. Rのグラフィック作成パッケージ“ggplot2”について. Colorless Green Ideas. Link: Last access 2020/05/28.
  6. Aprile et al. 2020a. In vitro-generated hypertrophic-like adipocytes displaying PPARG isoforms unbalance recapitulate adipocyte dysfunctions in vivo. Cells 9, 1284, 2020.

Aprile et al. (2020a) is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.


コメント欄

各ページのコメント欄を復活させました。スパム対策のため、以下の禁止ワードが含まれるコメントは表示されないように設定しています。レイアウトなどは引き続き改善していきます。「管理人への質問」「フォーラム」へのバナーも引き続きご利用下さい。

禁止ワード: http, the, м (ロシア語のフォントです)


このページにコメント

Name:


Comment:



これまでに投稿されたコメント

Date Name Comment
写真素材無料【写真AC】

新しく写真の提供を始めました。どんどん追加していきますので、こちらから登録後に Ultrabem の写真 をご覧下さい。登録と 1 日 9 枚までのダウンロードは無料です。