ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

【エロゲ解析】価格? プレイ時間? 中央値に強く影響する要素は何?

エロゲー批評空間民のおおよそ一番の関心ごとは、ゲーム評価の中央値かと思います。
今回は、重回帰分析という手法を用いて、中央値の値への影響度が強い要素を探してみました。

以前、「抜きゲーは点数が低い?」 という旨の記事を書きました。
この記事の中では抜きゲーの方が点数が低いという結論を出してしまいまっています。
しかし、該当記事のコメントで「低価格であることの影響が強いのでは?」という指摘を頂いています。

層別解析(この場合、抜きゲーと非抜きゲーでの比較)では、分けた層以外の要素の影響がフェアでない可能性があります。
中央値に影響するのは抜きかどうかではなく値段であり、抜きの方が値段が低いから、結果として抜きは中央値が低くなってるのではないのか、という反論を避けることができません。
こういう影響があるために、層別解析では中央値に影響している要素はそう簡単にはわかりません。
加えて、過去の抜きゲーの中央値検証の記事では検定作業を省くと言う若気の至りをかましており、統計記事として不十分です。「たまたまそうなっただけなんじゃないの?」という指摘に対する反論ができません。

この「何の要素がどの程度が影響しているか」「今回の結果がどのくらいたまたまであるか」を簡単に調べることができる画期的な手法が重回帰分析です。

そこで、中央値に影響しそうな要素
「発売時期(現在日からの日数差)」
「プレイ時間中央値」
「同人か商業か」
「抜きゲーか非抜きゲーか」
「和姦か陵辱か」
「価格」
について重回帰分析を行い、中央値への影響を調べました。








----◆重回帰分析とは?◆----

重回帰分析とは重回帰式の係数および切片を求める解析です。
重回帰式とは、以下のような式です。
d0279358_02212596.png

今回は、結果変数(数式のy)が中央値、
説明変数(数式のx)に
「発売時期(現在日からの日数差)」「プレイ時間中央値」などの値を用いた重回帰式を求めました。
この重回帰式における説明変数の係数を見れば、どの要素がどの程度中央値に影響しているかがわかります。
また、この式を使えば、それぞれの要素の値を代入することで、ゲームの中央値を予測することができます。

「同人か商業か」「抜きゲーか非抜きゲーか」「和姦か陵辱か」のような数値ではないデータは、
商業は1、同人は0といった、1/0データとして数値化することによって重回帰分析にかけることができます。

係数の値が誤差の範囲内かどうかは、P値という値を見ることで判断することができます。
P値とは、その説明変数が結果変数に対する相関が0であると仮定したときに、たまたま今回の結果が得られる確率のことです。
通例、このP値が0.05(5%)より小さい値になれば、その説明変数と結果変数の相関が0ではない(得られた結果がたまたまでない)と判断します。



----◆SQL◆----

SELECT DISTINCT g.id, g.gamename, g.sellday-'2000-01-01' AS sell , g.median, b.kind, g.okazu, g.total_play_time_median, g.axis_of_soft_or_hard, il.fixedprice  FROM gamelist AS g ,  brandlist AS b,     itemlist AS il, item_game AS ig WHERE g.erogame IS NOT FALSE  AND g.brandname=b.id  AND g.okazu  IS NOT NULL   AND g.total_play_time_median IS NOT NULL  AND g.axis_of_soft_or_hard IS NOT NULL  AND il.id=ig.item  AND ig.game=g.id  AND il.fixedprice > 1000

非18禁でない1000円以上のゲームについて、「中央値」「発売日から現在までの日数」「同人or商業」「抜きor非抜き」「プレイ時間中央値」「和姦or陵辱」「値段」を取得し、エクセルを用いて重回帰分析を行いました
欠損(NULL)が入っていると重回帰分析ができないので、欠損値が出ないように制限を加えました。



----◆結果・考察◆----

●重回帰分析

結果は以下の表のようになりました。
d0279358_02222430.png
まず、その要素が中央値に影響しているかどうかをP値(緑色の部分)で確認します。
※ *:P値0.05以下 **:P値0.01以下 ***:P値0.001以下

P値が0.05より大きい要素は、「抜きゲーかどうか」「和姦か陵辱か」「価格」です。
これらは、それぞれの係数(赤色の部分)にあたるような影響がひとまず出ているのですが、
それがたまたま得られた結果である可能性が高く、有意な関係性があるとは現段階ではいえません。

P値が0.05以下である要素は、「発売時期」「同人か商業か」「プレイ時間中央値」です。
これらは、その値と中央値との関係性があるものと考えられます。

「発売時期」の係数は-0.0013です。これは発売時期(現在からの日数差)1が大きくなると、平均的に見て中央値は-0.0013下がることを意味します。
発売日に770日差あるごとに中央値は1点下がることがこの回帰係数から予測されます。
エロゲの質が上がったか、自分に合わないものを避けられるようになったからか、
原因はともかく、結果として近年の作品になればなるほど中央値は良くなっているようです。

「同人か商業か」の係数は-0.0013です。同人ゲーは商業ゲーにくらべて平均的にみて4.26点ほど中央値が高く出ることが予測されます。
同人に対しては甘く採点する人が多いのか、同人の質が高いのか、マイナーな同人はそもそも登録されないからなのか、
原因はともかく、同人であれば商業に比べて中央値は良くなっているようです。

「プレイ時間中央値」の係数は0.21です。これはプレイ時間中央値が1時間増えると、平均的に見て中央値が0.21点上がるという意味です。
長いゲームは面白いからなのか、面白いゲームだからプレイ時間が長くなるのか、
因果関係の方角はともかく、プレイ時間中央値が大きくなるほど中央値は良くなっているようです。


●P値の低い要素だけの重回帰分析

P値が低い要素だけで再度重回帰分析を行ったのが下図です。
d0279358_02233994.png
どの要素もP値は低く相関は認められるのですが、だからといって「正比例」の関係にあるかと言うとまた話は別です。
決定係数R2は0.232…と小さく、重回帰式の精度は大して高くないといえます。

重回帰式の精度は低いですが、低いなりにこれを使ってゲームの中央値を予測してみます。

例えば、発売1年(365日)前発売のプレイ時間20時間の商業ゲームの中央値は、
-0.0013×365 + (-4.88)×1 + 0.20×20 + 81.4= 80.11点 
と重回帰式から予測できます。

切片および各結果変数の係数の値に95%信頼区間の上限・下限をそれぞれ用いると
-0.0016×365 + (-8.18)×1 + 0.17×20 + 84.9= 72.61点 
-0.0010×365 + (-1.58)×1 + 0.23×20 + 78.0= 87.60点 
となり、72.6点~87.6点の範囲にほぼ収まるということが予測できます。


----◆総括◆----

まとめます。

・「抜きゲーかどうか」「和姦か陵辱か」「価格の大小」は中央値に与える影響があるかわからない。
・「発売時期」は中央値への影響度が高い。最近のものに近いほど上がっており、約770日ごとに中央値が1点良くなる。
・「同人か商業か」は中央値への影響度が高い。同人であれば商業のものより約4点高くなる。
・「プレイ時間中央値」は中央値への影響度が高い。プレイ時間約5時間ごとに1点良くなる。

以前、抜きゲーほど点数が高い、という結論を出していますが、「現段階では不明」とする方が正しいようです。
「価格の大小」についても同様で、中央値への影響は見積もれませんでした。

その一方で、「最近のもの」「同人ゲーム」「長編もの」が高い中央値に影響することがわかりました。
とはいえ、その原因や因果関係はこの解析からわかることではありません。
考察の欄にも色々書いているように、その原因にもいろいろ考えられますし、実際はそれらの複合だと思います。
結果の使い方には十分注意したいところです。

今回の記事によって、以前の記事の結論を否定することになりました。
このように、僕の手法選択ミス等により、既存の記事が間違っていることもありえます。もしかしたら今回もなにか不足があるかもしれません。
指摘がありましたら、ぜひともコメントまでお願いいたします。


重回帰分析を使えば中央値への影響度がわかるので、POVの登録数を説明変数に中央値を予測しても面白いかなとかいろいろ画策してます。
重回帰には、まだまだ遊ぶ余地が残っていそうです。




[PR]
by tsubame30 | 2014-04-30 20:57 | エロゲ解析 | Comments(5)
Commented by a at 2014-05-06 07:27 x
自分はトータルプレー時間も採点に含めてる派
Commented by pacman at 2014-05-06 12:57 x
最近のはインターフェイスが親切なことが中央値上昇に貢献してそう
Commented by tot at 2014-05-06 15:11 x
うーん、いきなり関わりが深いと思われる変数のみを用いて強制投入法で重回帰を行うのはちょっとどうでしょう。
まずは使用可能な独立変数をできる限り多く用意した上でステップワイズ法等を用いるなど、変数の選別過程を経た方が良いのではないでしょうか。
単純に従属変数と各独立変数の相関係数や、さらに多重共線性の問題をみるため、独立変数間の相関係数を算出されるのも良いのではないかと思います。(記事だけ拝見いたしますと、偏回帰係数と相関係数も混同されているように思います)

あと以下は私見としまして、和姦か凌辱かを評価する際、変数として1とー1を用いられていますが、従属変数に対する影響が正反対に働くかどうかは未知なわけですし、一般的にこういったカテゴリーデータをダミー変数とするのであれば0と1のみを使用された方が良いと思います。
もしこれらが別個の影響をもたらす、あるいは中間の状態を評価したいと考えられるのであれば、和姦と凌辱で2つのダミー変数を作成し、いずれかに1、あるいは中間であればどちらも0というものにすると、いわゆる統計的な扱いになるのではないでしょうか。
Commented by A-Z at 2014-05-07 09:55 x
私もtotさんの意見に同意します。プレイ時間が中央値に正の影響をあたえると見るにはプレイ時間に影響を与えるであろう他の独立変数も考慮に入れるべきです。(例えばばシナリオがよいとかゲーム性が高いといった多重共線性のありそうな変数)
そうした上でプレイ時間という変数が他の変数と独立であれば、そのままでよいと思うのですが、もし違う場合はプレイ時間だけの影響を抽出するために影響のある独立変数が高い値で存在する標本を外してできるだけ似通り、プレイ時間だけが異なるような標本でつまりceteris paribus(他の条件が一定になっていること)で比較検討すれば良いと思います。
しかしまだやっかいなのはプレイ時間が他の変数と交互作用(相関とは違うよ)がある可能性も考慮しなければいけないということですね・・・例えば面白いゲームならいつまでも続いていて欲しいと思うでしょうし、その逆なら居眠りゲーと罵倒されてしまい、無駄に長いだけのゲームと評されるでしょうしw
Commented by ManOuterMan at 2014-06-22 18:53 x
専門的な事は分かりませんが面白いですね。このスレではありませんが「銀髪には貧乳が多い」ってのは、思い当たる事が多いです。今後の解析を期待しています。