R の組み込みデータセット: 一覧と便利な使い方

UB3/informatics/r/built_in_dataset

このページの最終更新日: 2024/09/30

  1. R の組み込みデータセットとは
  2. chickwts
  3. iris
  4. mtcars
  5. lh
  6. orange
  7. swiss
  8. Toothgrowth
  9. BostonHousing
  10. CO2
  11. cars
  12. eurodist
  13. trees

広告

R 組み込みデータセットとは

data() でデフォルトの組み込みデータセット一覧が表示される。

また、R に新しい パッケージ をインストールすると、データセットも一緒にインストールされることがある。特定のパッケージに含まれる組み込みデータセットの一覧をみたいときは、data(package = "パッケージ名") とする。


chickwts

horsebean, linseed, soybean, sunflower meatmeal, casein の 5 種類のエサを与えられて育ったニワトリの体重データ。棒グラフバイオリンプロット のページで使用している。以下のような形式で、ToothGrowth と似ている。

R 組み込みデータセット chickwts

iris

iris は「アヤメ」の意味。花弁の長さ petal length、がくの長さ sepal length などのデータが入っているが、petal とか sepal とか length とか width とか非常にややこしく、しかも花のサイズとかあまり興味がないので、あまり使いたくないデータセットである。

iris は統計学者フィッシャーによるデータセットらしく、フィッシャーが優生学の信奉者だったこともあり、iris の使用停止を勧める こんなページ もあるようだ。

R 組み込みデータセット iris

mtcars

32 obs of 11 variables のデータ。32 種類の車種について、11 の項目が並ぶ。使用しているページには、以下のようなものがある。

Rの組み込みデータセット mtcars
  • 排気量 displacement、マイレージ/ガロン (燃費) mpg の数値が大きい。
  • cyl と gear はシリンダーとギアの数で、整数値をもつ離散変数。
  • vs と am は、エンジン (0 = V-shaped, 1 = straight) と Transmission (0 = automatic, 1 = manual) で、0 または 1 の二値変数である。

lh

血中ホルモン量のタイムコース、48 タイムポイント。typeof で double となるので、一次元の vector データだと思うのだが、is.vector では false になる。

Orange

木の年齢と胴回りのデータセット。木は 1 から 5 という名前の 5 つのグループに分かれており、数字をカテゴリー変数をして扱うオプション as.factor を覚えるのにも良い。

他のデータセットともに、R ggplot: 複数のグラフをまとめて出力する で使用。

Rの組み込みデータセット Orange

swiss

スイスの 47 の地区における出生率と、さまざまな社会的要因のデータ。

Rの組み込みデータセット swiss

ToothGrowth

ビタミン C またはオレンジジュースをいくつかの dose で投与されたモルモットの歯の長さのデータ。chickwts と似ているが、dose の違いという要素がある。60 obs x 3 variables, つまり 60 行 3 列のデータ。

全体としては 二元配置分散分析 のデータ。平均値などの算出、棒グラフ、t 検定など、さまざまな関数の練習に有用。

データの形式、棒グラフはこんな感じ。

ToothGrowthデータセット ToothGrowthデータセット

BostonHousing

ボストン地区の家の値段と、さまざまな要因のデータ。mlbench というパッケージに含まれるデータセットなので、まずはこのパッケージをインストールする必要がある。正則化回帰 で例として用いている。

CO2

植物の二酸化炭素取り込み量データ。

cars

speed, dist の 50 行 2 列データ。shapiro.test によると speed は正規分布に従うが dist は正規分布に従うとは言えない。wilcox.test で例として用いた。

Rの組み込みデータセット cars

eurodist

ヨーロッパの様々な都市間の距離を集めたデータ。主座標分析 PCoA で使用。

Rの組み込みデータセット eurodist

trees

31 本の木について、胴回り Girth、高さ Height、容積 Volume を調べたデータ。

Rの組み込みデータセット trees
広告

References

  1. 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ. Link: Last access 2022/07/09.

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。

このページの目次

1. 概要
2. chickwts
3. iris
4. mtcars
5. lh
6. orange
7. swiss
8. Toothgrowth
9. BostonHousing
10. CO2
11. cars
12. eurodist
13. trees