Steamにおける『職場での閲覧は適さない(Not Safe For Work)ゲーム』の統計量調査 | ゲヲログ2.0

Steamにおける『職場での閲覧は適さない(Not Safe For Work)ゲーム』の統計量調査



あたし自身はSteam上でも18禁もの・とくにそういったゲームにはあまり興味がなく、やる機会もほぼない大昔にカグラだけは買った覚えがあるwのだけれども、統計上の問題は気になった。

というわけで、データセットをKaggleから拝借し、その統計量を確認してみたいと思う。これらのゲームは『職場での閲覧に適さない(Not Safe For Work)』という名目がついているのは日本の皆さんもご存じだろう。遠回しの表現だが、性や残虐表現などが規制気味になっているということを暗示したタグだ。それでは解析に取り掛かろう。

まず、このデータセットにはタイトルや、その他もろもろの統計データが乗っているのだが、そのうちレビューカウント(レビュー数)が多い20傑をリストアップしてみた。その結果がこうだ。下位も見てみたいと思ったが、それは次に出た疑問を見てから(それを回帰分析したうえでのこと)だ。

TitleRelease dateReviews countReviews summaryPositive percentPrice
Helltaker2020/5/1182938Overwhelmingly Positive0.980
Mirror2018/4/1948659Overwhelmingly Positive0.971.99
HuniePop2015/1/1918707Overwhelmingly Positive0.969.99
NEKOPARA Vol. 12014/12/2917843Overwhelmingly Positive0.969.99
Tricolour Lovestory2017/9/2017812Very Positive0.911.99
Crush Crush2016/5/1315140Very Positive0.90
Sakura Clicker2015/7/2914704Very Positive0.840
Monster Girl Island: Prologue2019/6/2012722Overwhelmingly Positive0.960
NEKOPARA Vol. 02015/8/1712201Overwhelmingly Positive0.952.99
NEKOPARA Vol. 32017/5/259257Overwhelmingly Positive0.979.99
NEKOPARA Vol. 22016/2/198988Overwhelmingly Positive0.979.99
I Love You, Colonel Sanders!2019/9/248649Very Positive0.920
Material Girl2017/6/208410Very Positive0.911.99
Paunch2019/12/47561Very Positive0.890
House Party2017/6/307308Very Positive0.8824.99
Hentai Girl2018/8/187242Very Positive0.930.99
DEEP SPACE WAIFU2017/5/307117Overwhelmingly Positive0.962.99
Bad Rats: the Rats’ Revenge2009/7/206703Mostly Positive0.760.99
Amorous2018/4/136152Very Positive0.810
NSFWゲームのレビューカウントトップ20傑

疑問なのは、なぜ、倉庫番ゲームのHelltakerが上位に来たかなんだが…あとはネコパラのシリーズものが上位に並んでいるのが見て取れる。ここで思ったのが、実際問題、”レビュー数が多ければ多いほど、そのレビュースコアもいいのではないか(好レビュー率がたかいのではないか)?”ということだ。これは上の表を見れば誰でも思いつく仮説だ。

ということで調べてみた。

Call:
lm(formula = Positive.percent ~ Reviews.count, data = nsfw)

Residuals:
     Min 1Q Median 3Q Max
-0.77593 -0.07618 0.04127 0.12029 0.22408

Coefficients:
               Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.759e-01 6.614e-03 117.299 < 2e-16 ***
Reviews.count 5.858e-06 1.382e-06 4.239 2.58e-05 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1632 on 639 degrees of freedom
Multiple R-squared: 0.02735, Adjusted R-squared: 0.02583
F-statistic: 17.97 on 1 and 639 DF, p-value: 2.577e-05

ここで注目したいのは、”p値がこの単純な回帰分析モデルで著しく小さい”という点だ。ウルフラムアルファによればこの値は少数表記でp-value=0.00002577であり、変数選択の目安としては有効性のある選択になっている。だが、”決定済数も著しく低い”のは見逃せない。結論を言えば、”目安として説明変数が寄与している可能性はあるが、モデル全体の精度には予測能力がないに等しい”ということがわかった。つまり、”NSFWゲームのレビュー数と好評化率とでは相関はなく、それは二割・三割の採択率もない貧弱なモデルであるに過ぎない…”という、反拠になっている。

では、この統計モデルではわかることは少ないのだろうか?”そうとは思わない”。では次に、レビュー数が少なかった、下位を見てみよう。

TitleRelease dateReviews countReviews summaryPositive percentPrice
Among School Girls2020/10/610Positive11.99
Boyfriend’s Rescue –  Gay Platform Game2020/8/2110Positive19.99
Marble Maid2020/11/410Positive0.911.99
Hentai Harem2020/3/2710Positive0.90.99
Gemini Strategy Origin2020/8/2810Positive0.94.99
Volleyball Heaven2020/7/2210Positive0.917.99
Hentai Fantasy2020/5/2110Positive0.90.99
Nine Hentai Babes2019/1/1310Positive0.81.99
Monster Gals!!2020/4/210Mixed0.50.99
Cumming Hotel – A Gay Furry Slice of Life2020/3/2010Mixed0.55.99
Chill II2019/3/2110Mixed0.40.99
Hentai Most Wanted2020/3/2110Mixed0.41.99
Sex Adventure – The Board Game2019/12/610Mixed0.42.99
Sex City2019/9/610Mostly Negative0.20.99
Waifu Breaker2020/6/511Positive0.810.99
Occupational Hazards: Episode 12020/4/2311Positive0.812.99
DominaTRIX – Hentai Storytelling Puzzle2020/2/2111Positive0.811.99
Lily’s Handmaid2020/4/2411Mostly Positive0.729.99
HentaiTeachers2020/1/1111Mixed0.630.99
NSFWゲームのレビューカウント最下近方20タイトル

このレビューを見ると、またわかることがある。それは”決して、レビュー数が集まっていないからといって、それだけで駄作扱いされていない”ということだ。確かに下位10~20位付近は、いわゆる『賛否両論』がついているが、単純に『好評』がみられる面も、主に下位1~10位付近でままあるということが理解できる。

Steamレビューは有効性あるレビューが一定数集まってから、形容詞付きのレビューが表示されるような感覚があるが(おそらくシステム上もそうなっている)、それがNSFWゲームでは興味深い”挙動”をしているといえる。これはロングテールなどの業界用語を連想させられるシーンでもある。つまり”良作・佳作が埋もれているかもしれない”という仮説もまた新たに立てられるわけだ。

現に、前段階の解析では明確な相関は見受けられず、ヒストグラムを描くと、どちらの変数でも極化している。また、時系列に解析を加えてみたところ、レビューカウントに時系列自己相関はなく、95%信頼区間内(青色線の部分内)にかねがね当てはまっている。つまり、トレンド性がなく、個々のレビューカウントは自己相関的に独立していることを示している。

NSFWゲームの好評価率分布状況
NSFWゲームのレビューカウント分布状況
レビューカウントの自己相関係数推移

つまり、ゲームはNSFWに属するゲームであっても”多様性が基盤”なのだ。重要なのはこれからAIによって、また、AIの知識がこういったゲームを最適化したうえで、優れたゲームを埋蔵金のごとく発掘しユーザに提案することになるかもしれないということだ。単に統計量を見るだけでは本質は見えない。『木を見て森を見ず』とはよくいったものだが、このケースだと、『森を見て木を見ず』という逆の格言が呈されているともいえる。

さて、このような単純なツールの駆使においても、かなり興味深いエントリーになったと思う。工夫次第でいくらでも解釈ができるのは”統計の恩恵と罠”であることがよくわかる事例だとも思う。

次のエントリでは、別の統計量モデルを組んでみようと思う。