電波系美少女バーチャルインターネッツアイドル文野純がメッタメタ遊んでメッタメタ考えて勉強するゲヲログ姉妹サイト...

メニュー⇒ ソフトウェア 思想評論 数学 書評 歴史 統計 雑感 馬鹿企画

ネットで勉強会「機械学習」とは何か?【その2 機械学習の基礎とその問題点】

ネットで勉強会「機械学習」とは何か?【その2 機械学習の基礎とその問題点】

引き続き今回の参考書⇓

機械学習は4つに大きくそのアルゴリズムによって分類することができる。

・教師あり学習…入力データとターゲットアノテーション(annotation)により学習を試みる

・教師なし学習…入力データのみでその変換を試みる(次元削減・クラスタリングが主)

・自己学習…人間の手を介在しない教師あり学習(本書ではあまり触れない領域なので自己学習については他書を当たったほうがいいだろう)

・強化学習…リワード(報酬)を得ることで、学習を遂行する(将棋や囲碁に応用されているのがこの手法である)

過学習(overfitting)については機械学習における最大の注意点である。つまり特化してしまうのだ。本来、機械学習とは、汎用化するものであり、未知データについても判断できる意思決定の理論を構築するものであって、特化してしまい汎用化できなくなることは避けなければならないはずである。与えられた訓練データについては性能は上がったのに、未知データの取り扱いにおいて性能が下落することはあってはならないが、過学習はこれに沿ってしまう。これが機械学習における罠である。

※多重共線性はこの過学習のニュアンスにとても似ている。多重共線性=マルチコリニアリティとは、回帰における変数の導入を進めた結果によって生ずる、有意判断ミスのことである。

こういった事態を避けるにはモデルセットの工夫が必要である。セットするためのデータはランダム化し、汎用化させること。ただし、また、未来予測のためにはこれをシャッフルしてはならないこと(時系列リークの発生源)。さらには、データ重複(初歩的でバカバカしいかもしれないが、訓練と評価においてある程度同じものを扱えば、それは本来の目的⇒未知データへの汎用化を忘れてしまうことになる)にも気を付けるべきだ。

【ニューラルネットワークのためのデータの前処理の四つ】

・テンソル変換…ベクトル化のこと(具体的には、データの分類・判断のために入力データが適切な数値の形になっているか?という意味)

・正規化…過学習を抑えるためのプロセス

・欠損値処理…欠損値を考量するか否か妥当な判断要求

・特徴量抽出…データにエッセンスを加えること

いずれにせよ、取り扱うデータを慎重に吟味して検証しなければならないのである。そのために入力と出力のための妥当な判断基準が求められる。何を予測してようとしているのか?データの大きさは妥当か?解決すべきソリューションは二項分類なのか、多項分類なのか、クラスタリングなのか、生成なのか、あるいはより一般的な回帰系なのか?出力のための入力値を踏まえた予測は妥当か?その仮説は妥当だろうか?

※オッカムのカミソリ…ある定理を説明する仮説証明において、その証明は少なければ少ないほどいい、という論理。神学者が考えた、論理であり、物理数学でよく引用される科学的命題である。ここではデータの大きさは妥当か?という点と解釈の問題につながっていると思われる。

※非定常問題…時系列データにおいて、定常性がなく、ある程度の規則があったとする。例えば、冬服のトレンドデータを夏に適用すると、明らかに間違った解釈が生まれる。ゆえにそれは非定常的だ、といえるので定常性のある期間に限って常識的な思考がこの環境では求められる。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする