ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

【エロゲ解析】体験版はアテになる?

新作エロゲに手を出したい。けれども地雷は引きたくない。
今回はそんな時の強い味方、体験版のお話です。

体験版を購入判断の材料にする人はかなり多いと思います。
実際に製品版の一部を遊べるわけですから、
合わないテキストやキャラ、不便なシステム等は的確にはじくことができるでしょう。
判断材料としては優秀だと考えられます。

しかし、実際製品版をやってみて
「こんなハズでは」「どうしてこうなった」を経験した方も少なくないはずです。

例えば、その後の展開がイマイチだった。
例えば、シリアスゲーを期待していたらイチャラブゲーだった。
例えば、抜けるシチュが多いと見込んだけどそんなことはなかった。
例えば、製品版が体験版と2KBしか差がなかった。
……まあ最後のは超レアケースですけど、さまざまな理由で体験版は「アテにならない」側面も持っています。

個人的には体験版をプレイすることは、地雷を的確に弾ける代わりに、今後の展開の期待が強まりすぎて一定のラインを越えられない、という側面があるのではないかと考えています。
つまりは体験版プレイ時の期待点に対して、
低得点はほぼ引かないけど、高得点もかなり引けなくなるのではないかと。



そこで、ErogameScapeにおける発売前評価と発売後の評価のずれから、
体験版の感触がどのくらいアテになるのかを調べてみました。



※7/29 23時追記------------------------------------
発売前得点って体験版をプレイしてなくても付ける方いらっしゃいますよね? というコメントを拝見しました。
正直完全に見落としてました。言われてみれば確かにその通りです。
現状、発売前得点をつけた際の体験版プレイの有無を判断する方法もありません。
そこで、タイトル詐欺のようになって申し訳ないのですが、この記事は、
「体験版をやってない人も含んだ、発売前の感覚判断」と製品版とのずれの検証
として読んでいただければ幸いです。
---------------------------------------------------------







-----◆SQL◆-----

SELECT tokuten, before_tokuten FROM userreview WHERE tokuten IS NOT NULL AND before_tokuten IS NOT NULL

各ユーザーに対して、発売前得点、発売後得点の両方を入力しているゲームについて、それぞれの点数を取得しました(67927件が該当)。
『発売前得点、発売後得点の両方が入力されている』以外には、ユーザー、ゲーム等に選抜は加えていません。

ここから、発売後得点を発売前得点で引いたものを「発売前評価からのズレ」として算出しました。
例えば、「発売前の段階では80点だったけど、製品版をやってみたら70点だった」場合には、
70-80=-10 で、「-10点」が発売前評価とのズレとしています。





-----◆結果◆-----

●「発売前評価からのズレ」のヒストグラム
d0279358_23244015.png

得られた「発売前評価からのズレ」を5点間隔でヒストグラムにしました。

見ての通り、おおよそきれいな正規分布になりました。(もしかしたら当然のことなのかもしれませんが……)
「ズレ」の平均値は-0.32点、中央値は0点、最頻値は0点です。


最頻値が0点ということは、体験版の評価と製品版の評価が一致する確率が一番大きいということです。
最頻値に該当した件数を全データで割ると、0.209となり、
20.9%(約5本に1本)は体験版の評価と製品版の評価が一致するということになります。

また、ほぼ左右対称の分布であるということから、体験版より面白くなる/つまらなくなる可能性は均等であると言えます。ざっくり言えば、体験版の印象より面白い確率4割、同じくらいの確率2割、面白くない確率4割ということになります。


では、信頼区間の考え方を用いて、「ズレ」がどのくらいばらつくかを考えてみましょう。
「ズレ」の標準偏差は16.7点でした。
これをもとに信頼区間を求めると、90%信頼区間で -27.78点~27.14点でした。

ある体験版に70点がついたら、その製品版の点数は42.22点~97.14点に納まるということです。
……そりゃそうだろ、って気がしますよね。

もうちょっと信頼度の低い信頼区間を考えてみましょう。
平均±標準偏差 の値に、全データの約68%が納まるらしいので、
3本に2本は、体験版評価の±16.7点の間に分布すると考えられます。

ある体験版に70点がついたら、3回に2回は、その製品版の点数は53.3点~86.7点に分布するということです。

信頼性を落としても、区間はかなり広いことがわかります。
予想では、下も少ないが上も少ない、すなわちもっと分散が少なくて信頼区間の幅が狭くなると考えていただけに、意外な結果ではあります。


特に、エロスケの点数は0~100の間で価値の線形性があるわけではなく、50点~100点間にかなり価値の密度がある(※1)ことを考えると、「体験版が70点のとき製品版は53.3点~86.7点に分布する」というのは、あまり参考になることではないかもしれません。

(※1 参考:【エロゲ解析】ErogameScapeにおける「X点」の価値


ちなみに、点数に線形性がないという点では、基準になっている「発売前点数」の値によって「ズレ」の点差の価値が変わってきます。
そこが少し気になったので、今回対象となったデータについて、発売前点数の分布をとりました。

●発売前点数のヒストグラム
d0279358_2329129.png

ヒストグラムはこんな感じになりました。
一見変な形でガタガタしてるように見えるのですが、
体験版の評価と言うあくまで暫定的な点数であるという意識があるからか、60、70、80と、10の倍数のキリのいい点数をつける傾向があるためにこのようなグラフになったと考えられます。
そのあたりを考慮すると、概ね80点が最頻の正規分布近似がなんとかできそうなグラフになっていることがわかります。

平均値は75.1点、中央値は76点でした。
エロスケ全体の点数では、平均値は73、中央値は75あたりになっている(※2)ので、全体よりやや上の評価になっていると言えます。

このことは、「体験版やったのち製品版をやった人」というデータの選抜性を考慮すると自然なことだと思われます(体験版の点数が低かったらそもそも製品版をやらない人が増える)。
(※2 参考:【エロゲ解析】2012年は本当に不作なの?


この75点前後というのは、点差の価値が非常に大きくなっている領域であるため、少し点差があるだけで、かなり作品の印象が変わると考えられます。
そのため、先ほど述べた信頼区間を考慮すると、「体験版と製品版の印象がズレないかというと少々心もとない」と判断する方が正確なのではないかと考えれます。





--------◆総括◆--------

簡単にまとめると、以下のようになります。

・各個人の製品版の評価は、体験版の評価と比較したとき、面白い4割、同じくらい2割、面白くない4割程度に分布する。
・製品版の点数は、3本に2本は、体験版の点数と比べて±16.7点の区間におさまる。エロスケの点差の価値を考えると、±16.7点もバラつくと参考になるかと言うと心もとない。


こんなところでしょうか。

思ってるほど、体験版の評価と製品版の評価はばらつき、一致しないと考えられます。
しかし一方で、体験版の点数期待を下回る可能性は4割程度(微差のマイナスを許容するなら3割くらい)ですので、体験版がある程度良かった時点で6~7割くらいは勝てる買い物であると考えることもできます。
これをどう考えるかは難しいところですが、体験版の感触がそのまま製品版の点数の代表値になるということは心に留めておいてもいいのかなと思います。



なお、これは、「体験版を使った方が良いゲームと出会える」という話ではありません。
なぜなら、体験版を使わなかった人の場合、事前評価がどのくらいだったのかが確認できないので、
体験版を使った場合/使わなかった場合という比較の話はできませんし、ここではしていません。

あくまで、「体験版の製品版もやった人が、どのくらい違いを感じているのか」
ということを検証しただけだということは改めて明記しておきたいと思います。



体験版から想定できるものが得られるということは、お買いものとしては安心ではありますが、
そこにズレがある方が、ゲームとしてのワクワクドキドキ感は増すのかもしれません。


(でもやっぱり地雷は引きたくないよね……)
[PR]
by tsubame30 | 2013-07-23 21:08 | エロゲ解析 | Comments(2)
Commented by phill at 2013-07-24 11:16 x
非常に興味を惹かれる題材ですが、残念ながら方法に問題があるのではないでしょうか。

たとえば、ゲーム全体の評価が70点を中心とする正規分布になるとすると、発売前評価が60,70,80点のゲームの発売後評価が全て70点を中心とする正規分布になってもこの結果は説明できます。

なので、発売前後で評価が大体同じことを示すためには、前評価60,70,80点のゲームは発売後も60,70,80点を中心とする正規分布になることを示さなければならないと思います。
Commented by tsubame30 at 2013-07-29 23:26
今回の解析は、「ゲームの発売前後の評価変動」と言うよりは、「プレイヤーの発売前評価の精度」を知りたくてやりました。
発売前後で評価が大体同じ、というのは「ゲームごと」というよりはむしろ「ユーザーごと」であるということです。

例えば、前評価も後評価も70点平均の正規分布になるゲームがあったとしても、ある1ユーザーの標本を見れば、前80点→後60点ということはそこそこ発生しますよね。そのあたりの「ユーザーごと」の誤差を知りたくて検証したのが今回の記事です。

phillさんのご指摘の通り、今回の結果が「ゲームごと」の発売前後で評価が大体同じかどうかはまた別の話なので、検証してみる価値はありそうです。
といいますか、実はちょっと検討したのですが、具体的なゲームの選択やサンプル数もろもろで難しい問題になりそうという話があったりします……。