決定木
UB3/informatics/ai/decision_tree
このページの最終更新日: 2024/09/30広告
概要: 決定木とは
「けっていぎ」と読む。Wikipedia の説明がわかりやすく、画像も Public domain なので、ここに概要をまとめておく。フローチャートを作成するようなものと理解している。
下のようなデータで、どのような日にゴルフをする人が多いのかを予測したい。したがって独立変数は天気、気温・・・など、従属変数はゴルフをするかどうかの二値変数である (参考: 回帰分析の概要)。
まず、表を天気でソートする。この場合、「曇りなら必ずゴルフをする」ということがわかる。雨や晴れでもゴルフをするグループもいるが、この「曇りなら必ずゴルフをする」という情報は、従属変数を予測する上で非常に有用である。
一方、この表を気温でソートすると、はっきりとしたグループが見えない。つまり、気温はあまり従属変数の決定に寄与しない説明変数であるといえる。
このような判断を総合すると、まず天気で場合分けし、そこからさらに細かい条件をみていくというのが、予測精度を高めるのに良さそうである。これが次のような決定木で表される。
並列に学習した複数の決定木に予測を行わせ、その多数決や平均から最終的な出力を決定する方法をランダムフォレストという。決定木は、単独では過学習に陥りやすいが、ランダムフォレストではこれを抑制できるという利点がある。
広告
References
コメント欄
サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。