【連載:クマでも読めるブックレビュー】「スモールデータ解析と機械学習」藤原幸一~SDを本格的に取り扱った初の邦書 | ゲヲログ2.0

【連載:クマでも読めるブックレビュー】「スモールデータ解析と機械学習」藤原幸一~SDを本格的に取り扱った初の邦書



本書はおそらくSDを取り扱った、本邦初めての本格的な書である。Pythonや数式を解析手法として使っているので、中間部の章はあたしにはすべて理解できないが、第一章と第七章はかなり参考になる。ビッグデータによる解析はハヤリに乗っていて、レッドオーシャン状態にある、という時勢が第一章には書かれている。そして、『これからのブルーオーシャンはSDである』と藤原は遠回しに述べる。データ自体が入手困難ではあるものの、”貴重な砂金”でもあるSD(スモールデータ)の活用に活路を見出したらどうか?という常識的発想が本書の根源的な執筆理由らしい。ではそもそもSDとはいかなるデータなのだろうか?

・自然的極値データ

・科学的実験データ

・倫理的問題データ

大まかに分けると大体この三つに分類できる。まず、自然的極値データについて。これは定常な自然現象から逸脱したデータや、装置の自然状態から逸脱した状況データのことを指す。科学的実験データとは、文字通り自然科学の実験における小規模な実験データのことを指す。倫理的問題データとはなんだろうか?これはまさに倫理的制約に置かれるが故の制限下にあるデータのことだ。三つとも普遍的(でかつ異常なデータ)なので、SDとは実は普遍的なエラーデータであるはずだ。だが、その逆にエラーの普遍性に目を付けられない常識外れを本書は指摘する。

ただ、いくら読んでもわからないのは、(おそらくあたしの人生を一生かけてもわからないだろうが)SDの解析手法があたしのアプローチとは全く異なっている、ということだ(故に中間の章にはあたし自身まったく理解が示せない…それどころか示そうとする気すらないのが率直なところ)。例えば、本書は、SDはデータ量が少ないがため、容易に統計処理上の問題が出ることを示唆している。そりゃ、たしかにそうだ。だが、AIに突っ込むデータが少量のホワイトノイズであることを前提とすると、おそらく伝統的な手法が一番効率が良いことを我々は経験則として知っている。それが、単純加重平均を駆使した世界で一番シンプルな予測手法だ。ここにあたしと藤原の分水嶺がある(とあたしは考える)。だからこそ、統計処理の問題点をうまく回避するため、(あたしが推測するには)本書は数理モデルを駆使しているのだろう。

だが、この問題は実は統計学が始まって以来の大問題であり、統計のルートのみで解決することがとても難しい問題でもあるはずだ。実際、松本がいうようにAIは仮説と結論を容易に結びつけることができるが、その中間に挟まれるべき、仮説と結論を結びつかせる文系的な理由は導けない。つまり、AIは仮説を立て、それを統計上の成功事例として称揚することならばできる。だが、その中身、なぜそうなのか?なぜそうだったのか?なぜそうなったのか?という本質的理由までは、AI自体はあまりにも弱すぎる論理でもってしか導けない。ここにAIの弱点が存在する。仮説は仮説のみで成り立つ以上、そこに理由は本来介在しない。仮説は仮説であり、仮説によって結論を維持できても、その中身の本質的・根源的な理由とは全く無関係なはずである。そうだからこそ、あたしは学際的なAIの活用手法が重要だ、と述べてきたんだね。

著者:藤原の論理の欠けている点がここにある。『AIは解くべき問題までををみつけてはくれない』だけではないのだ。AIが解くべき問題は自分で見つける、つまり『人自身が解くべき問題を見つける』のは当たり前なのだが、『なぜ解けたのか?』ということにまでガッツリとした本質的な浸食を人自身、もっというと生身の実験屋がしなければならないのだ。ここに、今、AIのみではできないことゆえのAIの持つ危険性があるのかもしれないとさえ感じる。ターミネーターの世界のように、AIが自我に目覚めなくとも…むしろ自我に目覚めないからこそあるAIゆえの危険性、つまり逆的危険的単純判断があるのかもしれない、という発想のことを、あたしはしがないSD屋として指摘しておきたいと思う。実際、第七章ではそういった問題の提起が本書には部分的にはある。

※恐らくあたしの意見は、統計のあや・その思想的問題を突いているので、
藤原先生には理解が出来ない見識である可能性が高いこともここに付記しておく。