電波系美少女バーチャルインターネッツアイドル文野純がメッタメタ遊んでメッタメタ考えて勉強するゲヲログ姉妹サイト...

メニュー⇒ ソフトウェア 思想評論 数学 書評 歴史 統計 雑感 馬鹿企画

ネットで勉強会「機械学習」とは何か?【その4 機械学習の補講】

ネットで勉強会「機械学習」とは何か?【その4 機械学習の補講】

⇓今回の参考書

最小二乗法の数的解釈…回帰における実測値と回帰値との誤差の二乗、これを最小に収める手法。ここでこの誤差を二乗したものを「二乗誤差」と呼ぶ。この”悪さ”を最小に収めることで学習を行う。

分類(本参考書では、”識別”)…「オッカムのカミソリ」のように、最も簡易な仮説を用いて二者選択の概念を繰り返すことで、決定木分析により、Yes or Noを結論付ける。回帰ではなく、これは識別である。

※アンサンブル学習…識別器を複数組み合わせて識別能力を上げる方法。

1・バギング…異なった学習データを学習し復元させる。

2・ランダムフォレスト…決定木分析では過学習を気にしなければならなかったが、わざとせん定を行わずに、過学習させる。異なった決定木を複数作る。

3・ブースティング…誤りを減らす識別器を次々導入する。

※教師なし学習…クラスタリングや主成分などおなじみの手法。教師あり学習と違うのは”出力すべきもの”があらかじめ決まっていないことである。報酬(リワード)を得て、学習していく強化学習もここに含まれることがある。

※過学習について…学習が特化してしまい、未知データに有効でなくなることだが、学習がオーバーフィットしなくても問題になる。これが、過小学習である。学習において正則化をすることになるだろう。

※F値(相加平均ではなく、調和平均)…分析結果の評価のために参考とする。分析データである、手元のデータを学習用と評価用に分類することは既に述べた。”同じだと当然100%の精度が出るから”だ。これでは分析した意味がない。F値は精度と再現率から得られる最適な”率”である。精度と再現率の平均とは違う、割合の観点から結果を評価するのがF値の特徴である。

他、ニューラルネットワークについては前回勉強したので割愛。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする