【連載:クマでも読めるブックレビュー】「スモールデータ解析と機械学習」藤原幸一 | ゲヲログ2.0

【連載:クマでも読めるブックレビュー】「スモールデータ解析と機械学習」藤原幸一



「スモールデータ解析と機械学習」~藤原幸一 ※書影:Amazonより.

あたしは二変数間の分析を主にしたいと思っているので、本書の冒頭~二章を主に読んだんだけど、(つまりスモールデータと本格的な機械学習との関係性についてはノータッチ!)読んだ部分で書いてあることは、ほぼ『観測値に丁寧になりましょう』ぐらいであって、あとは正規化とか標準化に徹しているような印象がある。正規化っていうか、じゃあなんでその正規化の手順を踏んで解析する必要があるんだ?っては思う。経験科学的に解説はあるけど、数式とそれらがかなり合致して一緒にされているので、ちょっとわかりづらい面は否めない。読みづらい。ただ、その部分(二変数間の分析)より前の部分にスモールデータとは何ぞや?という事例の説明はあって、そこらは非常に面白く読めた。本書の3pにはスモールデータの例として確かにこう紹介されている。

1.装置故障などの異常データ

2.震災や大雨などの大規模災害のデータ(極端事象ともよびます)

3.実験にて収集されるデータ

4.倫理的制約などで収集してよいサンプル数が制限されているデータ

5.味や香りの評価などエキスパートが五感を用いて実施する官能検査データ

確かに参考になるっちゃなるんだけど、明確な定義は本書も呈するようにないんだよね。これは例であって定義ではない。補する論としては面白い。けど、スモールデータの定義は本書にも書かれていない。単に、『小さめのデータだが特異性ある特徴のあるデータ』としか書かれてないんだ。一方で、二章の中盤に(2.3相関関係≠因果関係)、しっかりと懸念すべき点は書いてあって、『サンプル数が少ないので疑似相関に注意しろよ!』とある。つまりサンプル数が少ないと規定して正の相関や負の相関が見受けられちゃう。これは統計の初歩中の初歩である。これ以上を言ってほしかった。例えば、ゲヲログでも多重にデータを取ることで、見せかけの相関(疑似相関)に注意するというPを作ってるんだけど、もうちょい踏み込んでほしかったんだよね。その後にすぐ主成分分析に解説が入ってて、次元削減とか正規化とかに話題が移っちゃってる(多変数間の機械学習のための解析)。もうちょい二変数間にわたって解説してほしかったな、と思う。

あと筆者はカオス系とかアトラクタに関する知識もしっかりあるのかな?とは疑問に思ったのも正直なフィーリングです(最小二乗法がらみで理論的におかしい部分があるとの指摘がやはり尼レビューにあった)。やはりカオス系だとアトラクタの知識が必須になるので。反面、例えば、ホワイトノイズの予測に関して言えば、広範にそれ(ホワイトノイズ)の予測ができうるとして、簡単な加重平均以外は活用できないという論理は広く世界で知られている。統計学とか機械学習の本筋の高度なものを活用しなくてもいいんじゃない?っていう観点からは本書は紐解かれておらず、あくまでAIはブラックボックスである、という指摘に留まっている。もちろん、それは正しいので、いいんだけど、さらに踏み込んだ藤原先生なりの個性ある実験データであるにせよなんにせよ、事例を多く示したり、他分野の解説を多く入れたりしたらさらにいい本になるんじゃあないかなとは思ってしまった。あくまで、『データに気を付けろ』という指摘に留まっているんだよね。ちょっとだけ統計哲学の分野の紹介文もあってここらは好感触なんだけど、さらに踏み込んで解説してほしかったな。

序章から終章までは通して読めなかったです。これについては藤原先生が良いとか悪いとかそういうのではなくて、自分の知識不足・至らない点が十二分あると思う。ただ、序章にスモールデータの勘所はしっかり書かれていた(つまりゲヲログが言っているようなことと重なる部分)。そして終章の部分でもそれは同じ。でももうちょっと踏み込んで書かれた書籍だと思っていたので、さらに続刊があるといいなぁと思う。経験科学であり政策科学でもある統計学としての実例集のようなものが、特に二変数間の解析においてされている書があると汎用性が強くなって、さらに興味深く読める本に仕上がるんじゃあないかな。まぁ二変数間というのはあたしなりのわがままな制約だけど、とにかく事例集という名目でも良いので、藤原先生のご専門(システム化学)でも良いので…その辺りを書いてほしいと思う。いずれにしたって、スモールデータがビッグデータとは違った性質を持っていて、カネでは動かないような性質のデータ集合体である、という点についてはかなり納得(繰り返すようにこれが序章に書かれている)。データが少ないが故の利点も多くあるのは当然のことだがそれを基礎として指摘している点は評価できる。


類似している本がほとんどない(というか皆無である)こともあって貴重な本だと思うよ。
でも買うほどではない…かな。