あたし自身はSteam上でも18禁もの・とくにそういったゲームにはあまり興味がなく、やる機会もほぼない大昔にカグラだけは買った覚えがあるwのだけれども、統計上の問題は気になった。
というわけで、データセットをKaggleから拝借し、その統計量を確認してみたいと思う。これらのゲームは『職場での閲覧に適さない(Not Safe For Work)』という名目がついているのは日本の皆さんもご存じだろう。遠回しの表現だが、性や残虐表現などが規制気味になっているということを暗示したタグだ。それでは解析に取り掛かろう。
まず、このデータセットにはタイトルや、その他もろもろの統計データが乗っているのだが、そのうちレビューカウント(レビュー数)が多い20傑をリストアップしてみた。その結果がこうだ。下位も見てみたいと思ったが、それは次に出た疑問を見てから(それを回帰分析したうえでのこと)だ。
Title | Release date | Reviews count | Reviews summary | Positive percent | Price |
Helltaker | 2020/5/11 | 82938 | Overwhelmingly Positive | 0.98 | 0 |
Mirror | 2018/4/19 | 48659 | Overwhelmingly Positive | 0.97 | 1.99 |
HuniePop | 2015/1/19 | 18707 | Overwhelmingly Positive | 0.96 | 9.99 |
NEKOPARA Vol. 1 | 2014/12/29 | 17843 | Overwhelmingly Positive | 0.96 | 9.99 |
Tricolour Lovestory | 2017/9/20 | 17812 | Very Positive | 0.91 | 1.99 |
Crush Crush | 2016/5/13 | 15140 | Very Positive | 0.9 | 0 |
Sakura Clicker | 2015/7/29 | 14704 | Very Positive | 0.84 | 0 |
Monster Girl Island: Prologue | 2019/6/20 | 12722 | Overwhelmingly Positive | 0.96 | 0 |
NEKOPARA Vol. 0 | 2015/8/17 | 12201 | Overwhelmingly Positive | 0.95 | 2.99 |
NEKOPARA Vol. 3 | 2017/5/25 | 9257 | Overwhelmingly Positive | 0.97 | 9.99 |
NEKOPARA Vol. 2 | 2016/2/19 | 8988 | Overwhelmingly Positive | 0.97 | 9.99 |
I Love You, Colonel Sanders! | 2019/9/24 | 8649 | Very Positive | 0.92 | 0 |
Material Girl | 2017/6/20 | 8410 | Very Positive | 0.91 | 1.99 |
Paunch | 2019/12/4 | 7561 | Very Positive | 0.89 | 0 |
House Party | 2017/6/30 | 7308 | Very Positive | 0.88 | 24.99 |
Hentai Girl | 2018/8/18 | 7242 | Very Positive | 0.93 | 0.99 |
DEEP SPACE WAIFU | 2017/5/30 | 7117 | Overwhelmingly Positive | 0.96 | 2.99 |
Bad Rats: the Rats’ Revenge | 2009/7/20 | 6703 | Mostly Positive | 0.76 | 0.99 |
Amorous | 2018/4/13 | 6152 | Very Positive | 0.81 | 0 |
疑問なのは、なぜ、倉庫番ゲームのHelltakerが上位に来たかなんだが…あとはネコパラのシリーズものが上位に並んでいるのが見て取れる。ここで思ったのが、実際問題、”レビュー数が多ければ多いほど、そのレビュースコアもいいのではないか(好レビュー率がたかいのではないか)?”ということだ。これは上の表を見れば誰でも思いつく仮説だ。
ということで調べてみた。
Call:
lm(formula = Positive.percent ~ Reviews.count, data = nsfw)Residuals:
Min 1Q Median 3Q Max
-0.77593 -0.07618 0.04127 0.12029 0.22408Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.759e-01 6.614e-03 117.299 < 2e-16 ***
Reviews.count 5.858e-06 1.382e-06 4.239 2.58e-05 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.1632 on 639 degrees of freedom
Multiple R-squared: 0.02735, Adjusted R-squared: 0.02583
F-statistic: 17.97 on 1 and 639 DF, p-value: 2.577e-05
ここで注目したいのは、”p値がこの単純な回帰分析モデルで著しく小さい”という点だ。ウルフラムアルファによればこの値は少数表記でp-value=0.00002577であり、変数選択の目安としては有効性のある選択になっている。だが、”決定済数も著しく低い”のは見逃せない。結論を言えば、”目安として説明変数が寄与している可能性はあるが、モデル全体の精度には予測能力がないに等しい”ということがわかった。つまり、”NSFWゲームのレビュー数と好評化率とでは相関はなく、それは二割・三割の採択率もない貧弱なモデルであるに過ぎない…”という、反拠になっている。
では、この統計モデルではわかることは少ないのだろうか?”そうとは思わない”。では次に、レビュー数が少なかった、下位を見てみよう。
Title | Release date | Reviews count | Reviews summary | Positive percent | Price |
Among School Girls | 2020/10/6 | 10 | Positive | 1 | 1.99 |
Boyfriend’s Rescue – Gay Platform Game | 2020/8/21 | 10 | Positive | 1 | 9.99 |
Marble Maid | 2020/11/4 | 10 | Positive | 0.9 | 11.99 |
Hentai Harem | 2020/3/27 | 10 | Positive | 0.9 | 0.99 |
Gemini Strategy Origin | 2020/8/28 | 10 | Positive | 0.9 | 4.99 |
Volleyball Heaven | 2020/7/22 | 10 | Positive | 0.9 | 17.99 |
Hentai Fantasy | 2020/5/21 | 10 | Positive | 0.9 | 0.99 |
Nine Hentai Babes | 2019/1/13 | 10 | Positive | 0.8 | 1.99 |
Monster Gals!! | 2020/4/2 | 10 | Mixed | 0.5 | 0.99 |
Cumming Hotel – A Gay Furry Slice of Life | 2020/3/20 | 10 | Mixed | 0.5 | 5.99 |
Chill II | 2019/3/21 | 10 | Mixed | 0.4 | 0.99 |
Hentai Most Wanted | 2020/3/21 | 10 | Mixed | 0.4 | 1.99 |
Sex Adventure – The Board Game | 2019/12/6 | 10 | Mixed | 0.4 | 2.99 |
Sex City | 2019/9/6 | 10 | Mostly Negative | 0.2 | 0.99 |
Waifu Breaker | 2020/6/5 | 11 | Positive | 0.81 | 0.99 |
Occupational Hazards: Episode 1 | 2020/4/23 | 11 | Positive | 0.81 | 2.99 |
DominaTRIX – Hentai Storytelling Puzzle | 2020/2/21 | 11 | Positive | 0.81 | 1.99 |
Lily’s Handmaid | 2020/4/24 | 11 | Mostly Positive | 0.72 | 9.99 |
HentaiTeachers | 2020/1/11 | 11 | Mixed | 0.63 | 0.99 |
このレビューを見ると、またわかることがある。それは”決して、レビュー数が集まっていないからといって、それだけで駄作扱いされていない”ということだ。確かに下位10~20位付近は、いわゆる『賛否両論』がついているが、単純に『好評』がみられる面も、主に下位1~10位付近でままあるということが理解できる。
Steamレビューは有効性あるレビューが一定数集まってから、形容詞付きのレビューが表示されるような感覚があるが(おそらくシステム上もそうなっている)、それがNSFWゲームでは興味深い”挙動”をしているといえる。これはロングテールなどの業界用語を連想させられるシーンでもある。つまり”良作・佳作が埋もれているかもしれない”という仮説もまた新たに立てられるわけだ。
現に、前段階の解析では明確な相関は見受けられず、ヒストグラムを描くと、どちらの変数でも極化している。また、時系列に解析を加えてみたところ、レビューカウントに時系列自己相関はなく、95%信頼区間内(青色線の部分内)にかねがね当てはまっている。つまり、トレンド性がなく、個々のレビューカウントは自己相関的に独立していることを示している。
つまり、ゲームはNSFWに属するゲームであっても”多様性が基盤”なのだ。重要なのはこれからAIによって、また、AIの知識がこういったゲームを最適化したうえで、優れたゲームを埋蔵金のごとく発掘しユーザに提案することになるかもしれないということだ。単に統計量を見るだけでは本質は見えない。『木を見て森を見ず』とはよくいったものだが、このケースだと、『森を見て木を見ず』という逆の格言が呈されているともいえる。
さて、このような単純なツールの駆使においても、かなり興味深いエントリーになったと思う。工夫次第でいくらでも解釈ができるのは”統計の恩恵と罠”であることがよくわかる事例だとも思う。
次のエントリでは、別の統計量モデルを組んでみようと思う。