一端の何かになれるか

一生懸命は眩しい

識別(分類)と回帰

 
分類(識別)回帰を理解するのにちょっと戸惑ったのでメモ。

決定木分析とロジスティック回帰分析の理解度を深めようと振り返りをしていたところつまづいた。

Webで検索してみると書き手によってこちらの解釈が微妙に変わってしまい、ちょっとニュアンスが掴みづらかった。自分なりに調べて解釈した結果をメモっておく。

この記事では、分類(識別)と識別(分類)を意識的に書き分けています。

 

■ 識別(分類)と回帰とは

識別(分類)と回帰のどちらも、統計学において要素を複数のクラス(グループ)に分類するために線引きをすることを指す。

 

−私的な解釈のポイント

  • 分類(識別)と回帰と表現されるとめちゃくちゃ混乱する
    (要素をクラスに分類するための方法に、分類回帰があるとかなに言ってだ)

  • 回帰回帰分析を分けて考えないとまあまあ混乱する
    (回帰で分類するのと、回帰で得られたモデルで予測(分析)を行うのは別の話)

 

○ 識別(分類)

 離散値の目的変数をクラス分けするために線引きすることを識別(分類)という。

  • 識別と覚えた方がイメージが湧きやすい
  • 決定木分析では、訓練データから分類器を生成し、その分類器を利用してデータを分類する

○ 回帰

 連続値の目的変数をクラス分けするために線引きすることを回帰という。
目的変数と説明変数の間にモデルを当てはめて、目的変数をクラスに分類する。

  • 回帰分析では、目的変数と説明変数の間に当てはめたモデルを利用して数値を予測する

 

■ 連続値と離散値

ついでにまとめておく。
連続値とも離散値とも取れる場合があって、ちょっとややこしいけどまあ大丈夫。

○ 連続値

測ることができるデータ、連続していて細かく測ることができる
数直線上に書くと、どこにでも存在しうるデータ

例) 身長、体重、時間、気温など

○ 離散値

数えることができるデータ、それ以上細かくすることができない
数直線上に書くと、目盛の上に存在するデータ

例) 人数、回数など

 

○ 連続、離散どちらとも取れるケース

  • 連続値の場合
    身長や体重は、cmやkgなどの単位で表されることから離散値とも考えられる。便宜的に近似値に直しているとして、基本的には連続値として扱うことが多い。

  • 離散値の場合
    テストの点数をその人の能力を階級値で示すものと考え、75点は74.5〜75.4点を取れる能力とし、連続値として扱う場合がある。

 

参考にしたサイト

分類 (統計学) - Wikipedia

回帰分析 - Wikipedia

なるほど統計学園高等部 | データの種類