画期的名著だ。
これまでのRテキストマイニング本は数式ベースなものも多かったが、本書にはそういう概念はまったくなく、頻出語を処理ベースとして、まさに”実践的な”テキストマイニングが平易に解説されている。コードもGithubで公開されていて、工夫を凝らすことで様々なマイニングができて、考えるアタマさえしっかり持てばいくらでも展開が考えられる。何を隠そう、次の記事も本書にインスパイアして書かれたものである(ただ、ネットワーク分析の部分は、バラバシモデルなども含め基礎研究に近く、本書だけでは弱いので別書を当たる必要がある)。
テキストマイニングってのはやはり本書のように数式処理では考えられない部分を押さえるべきだとあたしは思う。本質的な知識が数式で得られる分野だとは思えないのだ。例えば、tf-idfによるスコアといってもたしかに概念としてはいかにも論文のひな型で雄弁のように見えるが、実際に文章にするにあたり重要なのは『実践知』であり、数式による概念の説明ではない。
tf-idfは両者の別々のスコアを(対数スコアも含めて)tf * idf と言われているように、掛け合わせたものに違いないだろう。だが、これを論文で説明されても中身のある知識にふれることはできない。やはり知性は、工学論文的に考えられるもので、数式による数理モデルによる証明といった形ではなく、経験則に基づいた法則の見通しをつけることで得られるもの。テキストマイニングの場合、そのバランスが崩れた本が多い(例えばo’reillyの「Rによるテキストマイニング」はこの部分において弱い)。徹底的に実践に徹した本書はそういったミスがなく、”使える”ようにまとまっている。
あと問題なのは、どう使うか?というアタマのほうだろう。例えば、株価との広義の相関をテキストに発見し見ゆるのであれば、データの統合(いわばクレンジング)は重要な課題である。この場合、ワードクラウドやセンチメント分析は基本的に全体期間を設け、調整していけば、諸条件を既に満たしているのでいい解析手法になるのは間違いない。では次、構造的トピックモデルではどうか?
これは期間を全体とすることは無理だ(元データの分離を必須とするため)。この場合、いくつかの頻出語をベースにして、タグ付けした記事枠で分類し、それに処理を行っていけばいいだろう。そこから実践知を発見するわけだ(単語分散表現も同じ)。ただ、予測のための学習という、ふたつの別データを用意する必要がある機械学習の箇所はもうちょい考える必要がある(場合によっては”使わない”という手も十分ある)。”生きた知識”はこれで得ることができる。どの銘柄に注目すべきかが具体的に把握できるからだ。
あとは、時系列分析でどの記事にどれだけ注目が集まっているか?を見る。このように絞り込みをマイニングで行い、解析は時系列分析で見る。知性をもとにプロットを得るのだ。あとは、銘柄の数値推移を調べ比較する⇒リターンを得る。実践あるのみ。