識別(分類)と回帰 - 一端の何かになれるか

　
分類(識別)と回帰を理解するのにちょっと戸惑ったのでメモ。

決定木分析とロジスティック回帰分析の理解度を深めようと振り返りをしていたところつまづいた。

Webで検索してみると書き手によってこちらの解釈が微妙に変わってしまい、ちょっとニュアンスが掴みづらかった。自分なりに調べて解釈した結果をメモっておく。

この記事では、分類(識別)と識別(分類)を意識的に書き分けています。

■ 識別(分類)と回帰とは

識別(分類)と回帰のどちらも、統計学において要素を複数のクラス（グループ）に分類するために線引きをすることを指す。

　離散値の目的変数をクラス分けするために線引きすることを識別(分類)という。

　連続値の目的変数をクラス分けするために線引きすることを回帰という。
目的変数と説明変数の間にモデルを当てはめて、目的変数をクラスに分類する。

ついでにまとめておく。
連続値とも離散値とも取れる場合があって、ちょっとややこしいけどまあ大丈夫。

測ることができるデータ、連続していて細かく測ることができる
数直線上に書くと、どこにでも存在しうるデータ

例）身長、体重、時間、気温など

数えることができるデータ、それ以上細かくすることができない
数直線上に書くと、目盛の上に存在するデータ

例）人数、回数など

連続値の場合
身長や体重は、cmやkgなどの単位で表されることから離散値とも考えられる。便宜的に近似値に直しているとして、基本的には連続値として扱うことが多い。
離散値の場合
テストの点数をその人の能力を階級値で示すものと考え、75点は74.5〜75.4点を取れる能力とし、連続値として扱う場合がある。