ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

【エロゲ解析】延期するのは地雷ゲー?

エロゲ業界には延期がつきものです。
さまざまな事情があるのでしょうが、いざ延期されると、ユーザーとしてはがっかりしたり予定が乱れたりといろいろ困ります。その辺の「待たされた感」が評価に影響することはもしかしたらあるかもしれません。
そこで、ゲームにおける延期の有無および延期の度合いと、ゲームの評判との関係性について考えてみました。

最初に書きますが、今回はあまり統計的に正しさを担保できる結果を得られませんでした。
このようになってしまった原因は後述するとして、ひとまずそのことを念頭に置いて読んで頂くようお願いします。







-----◆SQL◆-----

gamelist_sellday_updateテーブルには、発売日の変更回数の記録が残されています。
この発売日変更を延期とひとまずみなし、延期経験のあるゲームのデータを取得します。

SELECT gsu.game, g.sellday-gsu.sellday_old, gsu.sellday_old, gsu.sellday_new ,g.sellday , g.gamename  FROM gamelist_sellday_update AS gsu , gamelist AS g ,  brandlist AS b WHERE gsu.game=g.id  AND g.brandname=b.id  AND b.kind='CORPORATION'   AND g.sellday > '2010-01-01'   AND g.sellday < '2014-01-01'   AND g.erogame='t'   AND g.sellday > gsu.sellday_old ORDER BY gsu.game

以上のSQLにより、2010年~2013年に発売された18禁商業作品の、発売予定日と実際の発売日との日数差(つまりは何日待たされたか)と中央値を取得しました。
さらに、取得したデータのうち以下のものを削除し、「延期ゲーム」のデータとしました(248ゲームが該当)。
・複数回発売日変更を経験したゲームの重複。(発売日との日数差が最大のものを採用しました)
・延期日数が1、365、366日のもの(延期ではなく、誤入力により発売日訂正がされたものと判断しました)
・発売日変更前の日付がXXXX年1月1日のもの(XXXX年内発売 のように暫定的な発売日が入力されていたものと判断しました)

また、2010年~2013年に発売された18禁商業作品のうち上記の延期ゲームを除いたものから、
ランダムサンプリングした248ゲームを「非延期ゲーム」とし、比較対照(比較対象に非ず)としました。



-----◆結果◆-----

○延期の有無での回帰分析
d0279358_00401763.png

延期のあったものを1、なかったものを0とした1/0データを用いて、縦軸を中央値とした散布図を描きました。
また、延期の1/0データを説明変数、中央値を結果変数とした回帰分析を行いました。

ただ、散布図をご覧の通り、この2変数は線形近似するにはちょいと無理がある分布になっています。
回帰式の寄与率R^2(図表の青の欄)は0.0192と、当然ながらかなり小さく、回帰式の精度はかなり悪いものです。

ただ、P値(図表の緑の欄)は0.002を下回り、延期の有無は中央値と関連があると考えられます。
回帰式の傾き(図表の赤の欄)は3.17となりました。回帰係数の95%信頼区間(図表の橙の欄)は1.17~5.17です。
延期したゲームは、延期してないものと比べて1.17~5.17点、平均して3.17点中央値が上がる、ということになります。
延期した方が中央値は高く出ています。

d0279358_00412179.png
1/0データの散布図だと、プロットが重なりすぎてデータの外観が掴めないので、延期・非延期について中央値の分布のヒストグラムも描きました。
延期しているゲームの方が点数の分布が上の方に傾いていることがわかると思います。




○延期の日数での回帰分析
d0279358_00414238.png

延期の日数を横軸、中央値を縦軸とした散布図を描き、
延期の日数を説明変数、中央値を結果変数とした回帰分析を行いました。

これまた線形近似するにはちょいと無理がある分布になっています。
回帰式の寄与率R^2(図表の青の欄)は0.008と、回帰式の精度はかなり悪いものです。
回帰式の傾き(図表の赤の欄)は-0.0157であり、1日延期するごとに平均して0.0157点中央値が落ちることを意味します。
ただし、P値(図表の緑の欄)は0.161と、0.05を下回ることはありませんでした。
これだと、この結果自体がたまたま得られたものである可能性が十分残されており、延期日数と中央値の関連についての知見を特に得られません。



-----◆標本についての考察◆-----

今回は、「発売日変更履歴」に記録が残っているものを問答無用で「延期」としており、その全数調査をしています。
これには、「発売日変更履歴」に載っていないものが、延期していないとは限らないという問題点があります。「点数のいいゲームほど延期情報が報告されやすい」という状態になれば、当然取得される「延期ゲーム」の集団の平均点は上がるわけで、正確な比較ができません。そもそもランダムサンプリングした「非延期ゲーム」の中に延期したゲームが含まれている可能性もあります。
サンプリングに問題が多く、今回の結果は参考程度に留めるべきだと考えられます。



-----◆総括◆-----

まとめると、

・延期したかどうかは、中央値に影響するかもしれない。
・延期するとクオリティが上がるかもしれない。
・延期日数と中央値は関連してるかわからない。

今回はサンプリングもろもろの問題で、統計学的にわかることがほとんどありませんでした。
延期の有無の部分がかなり曖昧であったことが痛手でした。実データでの統計の難しさを感じましたね。
あまり、実のある結果ではありませんが、一応書き残しておくことにします。





[PR]
by tsubame30 | 2014-03-24 21:30 | エロゲ解析 | Comments(2)
Commented by rikunora at 2014-03-27 14:56 x
とてもユニークな着眼点だと思います。
2つのグループ間に有意差があるかどうかを調べる方法として、
t検定にかけてみてはいかがでしょうか。
Excel2010ですと、データ -> データ分析、の中にある
 t検定: 等分散を仮定した2標本による検定
 t検定: 分散が等しくないと仮定した2標本による検定
のどちらかで。
Commented by tsubame30 at 2014-03-29 23:08
・rikunoraさん
1/0データを目的変数、数値を結果変数とするときは、t検定を使うのがいいみたいですね。コメントありがとうございます。

というわけで、等分散と仮定してやってみました。
自由度 494
t 3.113597955
P(T<=t) 片側 0.000977722
t 境界値 片側 1.647944008
P(T<=t) 両側 0.001955443
t 境界値 両側 1.964777657

p値は0.002以下になり、この2グループには有意差があるといえそうです。
とはいえ、今回はランダムサンプリングとはみなせない標本同士の比較なので、参考の域を出ないのが残念なところです。