スモールデータ&テキストマイニングに基づく意思決定は最後に。

スモールデータ&テキストマイニングに基づく意思決定は最後に。

☟こちらもどうぞ(関連記事)
書評「実践 Rによるテキストマイニング:センチメント分析・単語分散表現・機械学習・Pythonラッパー」

ちょっと上述の記事をもとに妄言を…

結局のところゲームのセールスってのはわかりにくいもんで、4gamer(が示すソース)やファミ通が市場に流通しているゲームの数を統計的に分析する時代ってのは終わったのよね。機種ならばなおのこと。DL数の場合なおのこと。つまり、第一の関門としてゲームの統計を取りたいのであれば、業界でも定評のある世界基準のプラットフォームのAPIを叩いているSteamSpy以外の数値はあてにできないってことになる。だから、リサーチしたいんであれば、あくまでSteamを基盤にすべきなんだよな…。ただ、外国語圏の人の流通も多いから、日本語がSteam全体のユーザに及ぼした影響を考えることに必然的になるのよね。

例えば、あるゲームタイトルがスパイクしたタイミングでその兆候を得たとする。実際、スパイクのタイミングで何があったのか?スパイクするまでの過程でどういった状況下になったか?そして、なんといってもスパイクしたサイトのテキストスコアとゲームタイトルのオーナー数の関係性(おそらく相関をとることになると思うが…)をどう紐解くか?がまず基礎になるよね。その後意思決定に及んでいくってルートが一番良い。スパイク&ヒットしたという客観性を持ちながら、意思決定につないだほうがいいんだよね。上の記事では意思決定⇒スパイク&ヒットっていうルートだったけど、実は逆なベクトルなわけなのよ。スパイク&ヒット⇒投機意思決定のほうがいい。

さらに実例を挙げてみよう。今あたしの手元には、あるタイトルにまつわるWEBページ単位のテキストヒット数がある。これがある程度スパイクしたとする。するとそれに合わせて、Steamプラットフォームストアで当該タイトルのヒットが起きる(と思われる)。それに客観的な基礎統計で統計分析し、関係性を紐解く(相関行列や重回帰)。その後の意思決定にテキストマイニングを使い、『こういった前例があるので、次ここがヒットする』という目安をつける。大きなタイトルで、大規模な会社が関係しているヒット作ならば、それは投資・投機に回すことができる…ってわけだ。

これが基礎になると思う。だからオーバーホールしていかないとダメだね。

※気づかされたのは、タイトルにもある通り、テキストマイニングで小規模の解析をしても意味ないんよ。だったらそれは投資の後回しに使わないとダメなんだよな。統計的分析、特に教師ありで小規模データを解析しても機械学習の利点をうまく活かせないようなんだ。だからむしろ、まずは客観的に基礎統計分析して、最後の最後フリーダムな部分でTM使ったほうがいい。トピックモデル使っててそれには気付かされた。逆にしないといけない。TMだけ優先させると、かなり独善的になっちゃうからな~。だから最終的な分析にTMを使うのじゃ!