テキストマイニング教本はこれ二冊で決まり! | ゲヲログ2.0

テキストマイニング教本はこれ二冊で決まり!

まず一冊目、これです。これが基礎です。
めっちゃくちゃわかりやすくて言語学初歩にも使えます。意外でしょうけどこれを推します…

教師データの集め方

まず、第一に教師データの集め方から書かれている。クレンジングがらみで学ぶことは多いと思う。ここで先んじて、教師あり学習と教師なし学習の兼ね合いを整理しておこう。

学習の種別 予測するもの 正解あり(教師データあり)かどうか
教師あり分析(回帰) 数値
教師あり学習(分類) カテゴリー
教師なし学習 そもそも予測しない
×

ただ、記述統計だとか記述分析、あるいは推測統計だとか推測分析っいう統計学のカテゴライズにはまったく教科書によって違っていることに注意されたし。というのも、それについてツッこむと統計(学)と機械学習との違いとかセンシティブなところにふれなけりゃならなくなる。ぶっちゃけ書物によって解釈は異なっているのが事実だ。この教師あり学習は機械学習の一種にも分類されるときもあるし、本書では、統計に近しいその中の推測統計学に分類されている現状がある。そもそも教師なし学習がマンマで強化学習と=(イコール)できるかどうかってのは微妙なトコ。つのも、教師ありとはいっても半教師あり学習とか分類がさらに細かい。自分なりにしっかり解釈しておくべきだ。基本的には推測統計学は背後にある大きなスパンを見るために使われて、記述統計学は手持ちのデータについて解釈を加えることで行われる統計である。

※参考URL:
【図解】コレ1枚でわかる統計学と機械学習の関係:
ITソリューション塾:オルタナティブ・ブログ

記述統計学

本書では教師データのあつめかたとクレンジングにふれた後、言葉を数える頻度表を作ることから講義が始まる。まず、形態素解析から、その次User localにふれて記述統計的感情(センチメント分析)から入っていく。ツールにはそのほかにKH Corderについてふれられている。関連して共起ネットワーク図についてもふれられている。次に語と語のつながりを意識するために、n-gramについてふれられている。

さらには、ここから記述的な意味合いが強まっていく。頻度表の上限(最大値)下限(最小値)さらには、四分範囲と中央値について解説が為されている。帯グラフの使用方法も解説されている。ひらがなの割合分析についていえばjReadabilityの活用が為されていて、この辺りはKH Corderという計算機に突っ込めばプロットができるはずだ。記述統計の基礎はKH Corderの”お得意技”なので、任せっきりでいいだろう。可視化についていえば、ワードクラウドや散布図が解説されている。これらは図表にするとき・論文に乗っけるときにかなり役に立つので目を通しておこう。

次に解説されるのが、名詞率とMVR(品詞構成率)についてである。これも表でわかりやすく分類しておこうか…(書籍内では散布図の領域で分類判断している)

名詞率 MVR
要約型(事実確認) ありさま型(質・様子)
描写型(解釈)
動き型(行動・変化)

詳しくは、第四章を参考にされたし。

推測統計学

χ二乗検定についてふれられている。オッズ比についてもふれられているが、あまり詳細にはおってはいない。差異係数・zスコア・TF-IDFや共起度(共起ネットワークそのものについては記述統計学でもふれている)あるいは重回帰の使い方、頻度表からの解釈が解説されている。多重共線性(マルチコリニアリティ)を解決するための、変数選択についても解説が為されている。さらに、クラスタリングやトピックモデルなどの解説があるが、今日はちょっと気が向かないのでここまでにしておく。

※この辺りからは樋口先生のKH Corder本新刊で当たった方がいい気が致します…。

【樋口本】に続く