ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

【エロゲ解析】データ数の少ない中央値はどのくらい信頼できる?

ゲームの感想や点数は、本人の趣向、値段、プレイ時期、
贔屓にしているクリエイターもろもろの影響がもろにでるデータです。
要するに非常にばらつき、ホイっと異常値が出ます。
そのため、異常値の影響を受けやすい「平均値」はあまり信頼されず、
ErogameScapeでは「中央値」がゲームの評価を代表する値として多くの場合使用されています。

そんなわけで中央値を眺めるのですが、あまり知られていないゲームだと、
データ数が非常に少ないということがままあります。
この中央値、ホントに信頼できのかなぁと思った経験ありませんか?。

そんな訳で、今回は「データ数に対して中央値がどのくらい信頼できるか」を、
プログラムを用いたシミュレーションで検証してみました。
※今回は「統計解析」ではなく、「シミュレーション」なのですが、めんどいのでカテゴリはそのままです。

毎回毎回記事が長いので今回から追記を採用してみることにします。






-----◆シミュレーションの条件◆-----

「2012年は本当に不作なの?」の記事で、1999~2012年のゲームについて、得点がどのように分布するかはわかりました。

これを参考に、今回の検証における得点分布を以下のような確率分布に近似します。

10%の確率で0~50点(0~50のどの値になるかは均等にランダム)
10%の確率で51~60点(51~60のどの値になるかは均等にランダム)
20%の確率で61~70点(61~70の以下同上、これ以後省略)
30%の確率で71~80点
20%の確率で81~90点
10%の確率で91~100点


このような確率をもった得点の値を、Rubyのrandを用いた擬似乱数で与え、
その得点の集まりから求められる中央値をデータ数ごとに求めて出力させます。

データ数が500になるまでを1試行とし、1000試行のシミュレーションをしました。


※ここでは、「この方法で得られた中央値は収束するもの」と考えて、
十分なデータ数を与えたときに中央値が収束する値を『収束中央値』、
それに対して十分でないデータ数における中央値を『暫定中央値』として呼称します。
収束中央値はデータ数500の中央値1000個の中央値で近似してます(中央値の中央値ってややこしいですね……)。



-----◆結果◆-----


・データ数ごとの暫定中央値の最大値と最小値
d0279358_20284476.png

1000回シミュレーションにおける暫定中央値の最大値と最小値をプロットしたものです。
最初は広い範囲でバラつきますが、データ数30付近ではかなりバラツキが抑えられています。
そして、データ数を重ねるにつれてゆっくりながらも確実に収束していきますが、
300を越えたあたりからは、データ数を増やすことによる収束の効果がほとんど無くなっています。

d0279358_20291581.png

こちらは、序盤の動きを見るためのデータ数50までのグラフです。
また、収束中央値との上下の差をプロットしました。
今回の条件だと、73と全体から見て上のほうで収束するため、
データ数が少ない段階では最小値との差が非常に大きくなっています。
しかし、データ数が20を越えたあたりからは、下の方向のバラツキは抑えられており、
上下の差がかなり揃ってきています。
十分にデータがあれば、+、-のどちらかに強く傾く、なんてことは起きないようです。

具体的に値を見ますと、このようになっています。
d0279358_20294454.png

例えば、データ数が20の時は、86~56点の間にバラツキが納まり、
収束中央値から+13点~-17点の差が出ました。

これはどのように使えるかというと、
「データ数20でその中央値が80のゲームがあったときに、
そのゲームの本当の中央値は、93~63点のどこかにありますよ」
と考えることが出来ます。

(※点数分布は所詮全体統計からの近似なので、実際にはかなり乱暴な記述です)
17点もの誤差があるこの段階では、中央値というものはあまり信頼できないように感じられます。



しかし、この値は1000試行における最大最小という、いわば異常値を含んだ値です。
統計的に言えば、「100%信頼区間」に相当するものです。
つまり、何があっても間違いなくここの間に納まるよという、相当に大きい幅をもたせた区間であり、
実質的にはこれよりは確実に区間を絞り込めるといえます、

例えると、100%信頼区間というのは、感覚的には、「大阪は地球にあるよ!」といってるようなもので、
実質的には「東京と福岡の間にあるよ」くらいには絞り込めますよ、みたいな話です。
(※却ってわかりにくくなったかもしれない;;)


そこで、代表的なデータ数5、10、20、30、50、70、100、300において、
暫定中央値の分布を調べてみることにしました。


・暫定中央値の分布(データ数20)
d0279358_203073.png

これはデータ数20における暫定中央値のヒストグラムです。

81~65点の±8点の区間に、全体の97%が納まっています。
また、79~67点の±6点の区間に、全体の91.7%が納まっています。


収束中央値から+13点~-17点の差が出た、と先ほど書きましたが、
そこまでズレることがいかにレアケースかがわかると思います。

先ほどの仮定を用いると、
「データ数20でその中央値が80のゲームがあったときに、
そのゲームの本当の中央値は、
約97%の確率で88~72点のどこかに納まり、
約92%の確率で86~74点のどこかに納まりますよ」

ということが出来ることになります。



・データ数に対する中央値の信頼区間
d0279358_2030293.png

データ数の代表点における信頼区間を表にしてみました。
どのくらいの誤差に納まれば信頼できるか、というのは明確な基準を定めるのが難しいものですが、
僕の感覚で言うならば、

データ数が5ではまだバラつくが、
10あればそこそこの範囲には納まる。
20を越えたあたりからはかなりちゃんとした値になり、
50を超えれば相当誤差が抑えられる


と考えることが出来ます。



-----◆総括◆-----

簡単にまとめると、

中央値は、データ数が10、20を超えるだけでそこそこ信頼でき、50を超えれば相当信頼できる。

ということです。

収束がかなり早く、データが集まれば異常値にも強い中央値という指標は、
ErogameScapeにおいて非常に優秀であると考えられます。




-----◆余談◆-----

長ったらしくこんな話をしておいてアレですが、
結局中央値は目安にしかならない、という点は忘れないで欲しいと思います。

例えば、この結果をソースに
ゲームAの収束中央値は80~84で、
ゲームBの収束中央値は70~76だから、
AはBより優れたゲームなんだ! などと言うのは必ずしも正しくありません。

ゲームを「選び」「購入し」「プレイし」かつ「評価している」という結果から生まれたデータですから、
データの母集団自体にかなりの選抜性があります。
選抜性があるということは、データの母集団が異なるということです。
完全完璧に母集団が一致しているならまだしも、
母集団の異なる2データの中央値からシンプルに優劣の比較をすることはできません。
統計数字を見る上では、母集団に注意しましょうというお話でした。
[PR]
by tsubame30 | 2012-12-09 20:35 | エロゲ解析 | Comments(6)
Commented by P-q at 2013-04-04 21:14 x
組織票や単発IDがいなければ50程度でも信頼できますが
実際は100以上ないと当てになりませんね。
Commented by つばめ at 2013-04-07 10:20 x
・P-qさんへ(1/2)

複数IDとなると明確に不誠実だとは思うのですが、
「単発IDは信用できない」という考え方には私としては懐疑的だったりします。

誠実に入力する飽きっぽいプレイヤーであれば十分信用に足りますし、
「こいつは0点/100点つけてるから不誠実だ!」っていうのも
外部が決めつけるにしては恣意的なのではないかなと。
それが工作であるとする根拠や線引きはどこにもありません。

逆に「複数コメントがあれば信頼できる」かというとこれもまたノーかなと。
コメント数が50を超えていながら、最頻値が0点、100点のIDもいらっしゃいます。
ただ、これも同様に、明確に不誠実かどうかはわからないです。

得点入力は、本人の匙加減であり、同時にそうあるべきなので、
外部がこれは不適だ、っていうのは違うんじゃないかなと思ってます。
Commented by つばめ at 2013-04-07 10:20 x
・P-qさんへ(2/2)

ただ、「実際はもっと数が必要」というところは、頷ける部分もあります。
記事では、+か-に強く傾くことはない、と記述しましたが、
初期にプレイするプレイヤーが「評判がわからない段階で面白そうと感じた集団」という選抜集団であることを考えると、
初期に集積する得点がどちらかに傾く可能性は高く、
その収束に、もう少し必要であるということはあるかもしれません。
100も必要ではないのでは、とは思いますけども……。


コメントありがとうございました。
Commented by フェン at 2013-10-27 17:02 x
興味深く読ませていただきました。
些細な点なのですが「100%信頼区間」から外れているデータもあるようです。

中央値板からのデータですが、「ONE 輝く季節へ」は2001年11月時点で中央値90、データ数146となっています。
ですが2013年10月27日現在のデータを見ると中央値が83となっており(データ数は1162)、貴サイト様のデータ数100のゲームの収束中央値との差「-5」ではなくなっているなと。

だからどうした、とかそういうことじゃないんですが、探せば他にも例はありそうなので、実際はどの程度信頼できる数値なのかな?と気になったのでレスさせていただきました。
Commented by tsubame30 at 2013-10-28 22:31
・フェンさんへ(1/2)

コメント&有益な情報ありがとうございます!
正直驚いてます。中央値が-7までずれる実例があるとは……。

理由として、母集団の違いと相対的な作品の経年劣化によるものが考えられます。

今回のシミュレーションにおいては、データ数0→100、100→200、……と増えていく際に、与えられる数字が均一です。
ですので、数字の集積が浅い段階からも真値に収束しやすくなりますし、データが増えることによって、上下に引っ張られることはかなりのレアケースになります。

しかし、実例の場合、発売当時に集積したデータは「そのゲームに事前に興味を持っている人が多い母集団」になっている可能性が高く、中央値が高く出やすくなっているものと考えられます。

加えて、ONEほど年季の入った作品となると、時代が進んだことによる相対的な素材・システムの劣化にさらされてしまいます。
その影響で、現代の人がONEを評価するとき、リアルタイムで遊んだ人ほど高評価ができにくくなると考えられます。
言うならば、真値そのものが下方向にずれているものと思われます。
Commented by tsubame30 at 2013-10-28 22:32
・フェンさんへ(2/2)

「実際はどのくらい信用できるか」というのは、ごもっともな疑問ですが、正直申しまして、このあたりが(少なくとも私クラスの腕前でできる)シミュレーションの限界と言わざるをえません。
母集団の入れ替わりや経年劣化による真値のずれに対応できるような数字ではありません。

ですので、「このシミュレーションは、均一に数字を与えて得られた結果だ」ということをご理解の上、あくまで目安として使って頂くのが一番だと思います。
目安として使う上では、十分に使える数字だと思っています。