⇓今回の参考書
https://www.ohmsha.co.jp/book/9784274222443/
最小二乗法の数的解釈…回帰における実測値と回帰値との誤差の二乗、これを最小に収める手法。ここでこの誤差を二乗したものを「二乗誤差」と呼ぶ。この”悪さ”を最小に収めることで学習を行う。
分類(本参考書では、”識別”)…「オッカムのカミソリ」のように、最も簡易な仮説を用いて二者選択の概念を繰り返すことで、決定木分析により、Yes or Noを結論付ける。回帰ではなく、これは識別である。
※アンサンブル学習…識別器を複数組み合わせて識別能力を上げる方法。
1・バギング…異なった学習データを学習し復元させる。
2・ランダムフォレスト…決定木分析では過学習を気にしなければならなかったが、わざとせん定を行わずに、過学習させる。異なった決定木を複数作る。
3・ブースティング…誤りを減らす識別器を次々導入する。
※教師なし学習…クラスタリングや主成分などおなじみの手法。教師あり学習と違うのは”出力すべきもの”があらかじめ決まっていないことである。報酬(リワード)を得て、学習していく強化学習もここに含まれることがある。
※過学習について…学習が特化してしまい、未知データに有効でなくなることだが、学習がオーバーフィットしなくても問題になる。これが、過小学習である。学習において正則化をすることになるだろう。
※F値(相加平均ではなく、調和平均)…分析結果の評価のために参考とする。分析データである、手元のデータを学習用と評価用に分類することは既に述べた。”同じだと当然100%の精度が出るから”だ。これでは分析した意味がない。F値は精度と再現率から得られる最適な”率”である。精度と再現率の平均とは違う、割合の観点から結果を評価するのがF値の特徴である。
他、ニューラルネットワークについては前回勉強したので割愛。