ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

カテゴリ:統計・プログラム雑談( 3 )

エロゲヒロインの非処女率


最近友人との会話で話題になったのがこれについてでした。
近年(「同級生2」「下級生2」事件以降?)処女信仰が進行しており、人妻未亡人でもない限り非処女ヒロインはなかなか見なくなりました。
とはいっても、ゼロってわけでも無いのでは? じゃあ何%くらいなんだろね? とそういう話題になりました。

通常なら、統計取るぞ~ってなるとこなんですが、
エロスケのcharacterlistに処女か否かの情報を入力する欄がなかったので断念。

でもちょっと気になったので友人のプレイ済みゲームの記憶を掘り起こしながら探すと、
約70ゲームをサンプルに非処女ヒロインが4人居たようです。
1ゲームあたり平均4人のHシーンがあるものと超大雑把に近似すると、

非処女率 1/70 = 1.43%
エロゲヒロインの98%以上が処女という結果に。


もちろん、近似も適当ですし、そもそも友人のゲーム選択がランダムサンプリングに適するわけもなく、
この数字自体は参考記録以上のものになることはないのですが、それにしても驚くべき処女率です。


※ちなみに、「処女」の定義が難しいのですが、Hシーン時点での処女膜の有無だけで考えています。
過去に主人公と付き合ってたけど疎遠になり、本編でよりを戻したというパターンなど
処女を奪ったのは主人公だったとしてもそれが本編外である場合は非処女と数えています。
いつかある程度ちゃんとした値を出したいものです。


ちなみに2%であたるクジをあたりが出るまで引き続ける(独立試行)ときの試行回数
10000回シミュレーションし、その分布をみたところ、こんなグラフになりました。
d0279358_23283558.png

当然ながらきれいな幾何分布に。
試行回数の中央値は68回でした。68人以上のヒロインと遭遇すれば、非処女ヒロインと出会う確率が50%を超えることになります。


エロゲにおいては非処女はレアケースと言ってもいいくらいですが、
はてさて、リアルではどうなんだろうね、という風に友人との話題は転がっていきます。

ネットに統計データ転がってないかなー、と探すと、こんなページが出てきました。
画像転載するのもアレなので、リンク先のグラフ画像をご覧下さい。


2010年における非処女率は、18~19歳で28.1%、20~24歳で54.9%です。
年齢幅が倍な20~24歳は人口も倍だということにして平均出すと

(28.1%×1/3)+(54.9%×2/3)= 46.0% です。

エロゲとは全然違いますね(そりゃそうだ)。


男性も見ていくと、2010年の20代男性で56.3%、71.7%を重みを同等とみて平均すると64%です。
童貞率36%かー、意外と高いなー、と思って安心しそうになりますが、
よく見ると、グラフタイトルに『未婚者の』という接頭語があるので、
既婚者含めて男性全体で見たとき、実際はこれより低くなるものと思われます……。
既婚者と未婚者の人数が同じだったら、男性全体の童貞率はストレートに半分になって18%になります……。
※既婚者童貞はレアケースとみなす。


でもこういう統計データってやっぱり面白いなぁと思うもので、
リンク先にも解釈がありますが、草食系男子と肉食系女子の構図だとか、結婚率低下の様相とかが垣間見れます。

データ眺めながら、「そりゃーそうだろなー」って部分を確認したり「なんでこうなんだろうなぁなんでだろーなぁ」と要因を推測することこそが統計の醍醐味なのかな、と。



このグラフみてて「そりゃそうだろうなー……」と思ったのが、
25~29歳の経験率と30~34歳の経験率が、男女ともにほとんど差がないという点です。
あー、24歳までに捨てれなかったら、もうずっと捨てれないのかー、と。
こう、真実を突き付けられる暴力的な感じも統計の特徴ですよね。
[PR]
by tsubame30 | 2013-10-12 23:36 | 統計・プログラム雑談 | Comments(5)
チートイツは、待ち枚数が一番少ない単騎待ちでのテンパイが確定している役なだけに、「待ち換えやオリを見据えてダマにすべきか」「リーチかけて押さえつけるべきか」の感覚判断がなかなか難しい役だったりします。

そんなチートイドラドラ。
北HAZさんという方がリーチ判断に関する統計を出してくださっています。
【牌譜解析】チートイドラドラはリーチ? : HAZの研究する人生

これは、鳳凰卓牌譜において「チートイツをテンパイした場面」を抜き出し、「リーチをした場合」「リーチをしなかった場合」のそれぞれについての局収支を出し、それらの平均を比べたものです。

北HAZさんの統計によれば、「チートイドラドラはリーチした方が局収支がよくなる」という結果が得られています。この統計をソースにした、チートイドラドラはリーチした方がいいんだ、という言説が多く見られます。

しかし、一方で、「こういった統計から、正着判断できるかどうかはわからないんじゃないの」という指摘があります。麻雀AIの研究をされているkmo2さんは、ブログにてこのような記事を書かれています。

統計的手法の問題点: マッタリプログラミング日誌

>そもそも、鳳凰民というのは相当にレベルの高い集団であり、
>立直して不利ならば、立直なんてしないわけです。
>実際に立直したデータには、それだけ立直した方が有利である状況のデータばかりが
>そろっているわけです。


「優秀なプレイヤーが、リーチの方が良いだろうと判断した局面」だけ抜粋してるんだから、優秀な結果(局収支が上回ってる)が出ること自体は当然なんじゃないの?というのが、kmo2さんの意見です。



例えば、「どこの会社の車が好きですか?」というアンケートをとり、その統計をとったとして、A社という回答が一番多かった、という結果を得たとします。
これだけ見ると、A社が多くの車のブランドの中で一番人気であるかのように思えます。

しかし、これが「A社の営業所、ディーラーでとったアンケート」だったとしたらどうでしょうか?
そりゃあ、A社が好きな人多いに決まってるじゃん、って思いますよね?
そんな統計であれば、結果からA社が一番人気である、なんてことは当然判断できません。

統計において最も重要なことの1つは、「母集団のランダム化」です。
この場合は、アンケートをとる対象を可能な限りランダムにすることが必要であるということです。
そうすることによって得られた統計は、十分な意味を持つでしょう。

kmo2さんの指摘は、これと同じことで、「リーチをした場合」というサンプリングの段階で、既に「リーチが優秀になる局面」が多く選択されているはずだろう。これで局収支が大きくならないはずがない。ということです。



また、ランダム化がされていないと「因果関係の方向」がわからない、という問題も隠れています。

ただいま僕のTLでは「児ポ法」の話で盛り上がっていますが、
例えば、性犯罪を犯した者とそうでない者という条件で「性処理目的で児童ポルノを所持しているかどうか」
をそれぞれ数えて調べたとして、性犯罪を犯した者の方がポルノ所持率が高かったとします。
これだけ見ると、児童ポルノが性犯罪をほう助してるんだ! 規制だ! 規制! となりそうですが、
じゃあ、児童ポルノ規制したら性犯罪減るのか、っていうとこれだけではなんにもわかりません。


なぜなら、児童ポルノ所持うんぬんとは全く違う「性的暴力性」みたいなものが先にあって、だからこそ性犯罪を犯し、その発散先として児童ポルノを所持していた、という因果関係の方向も考えられるからです。
もし、こっちの因果関係の方が正しかった場合、規制したところで性犯罪は減らないどころか、性犯罪を減らすために行った規制によって発散先を失い、却って性犯罪が増えるなんていう展開になる可能性まで出てきます。

このように、因果関係の方向まではわからない。
これをちゃんと調べようと思ったら、他の条件はまったく同じだけど、「児童ポルノの所持」だけが異なっている
(「性的暴力性」などの他の要因の程度がランダムである)集団同士を比べる必要が出てくる。



先ほどのリーチ判断の例で言えば、もしかしたら
「局収支が高い(低い)ような手だったから鳳凰民がリーチ(ダマに)することが多かった」のかもしれないわけですよ。
因果関係の方向が逆の場合だって成り立ってしまう。
そして、この結論がなにか正着戦術に使えるかというと……難しいですよね。



このkmo2さんのブログ記事に対して、北HAZさんはこんなコメントをなさっています。

>的確にリーチ判断なされているならば、ダマにする時もこっちが有利だという的確な判断がなされていて、
>その結果の優劣というのは収支または和了率、放銃率、ひいては最終着順などに必ず影響が出ると思っています。



「リーチをした場合」というサンプリングの段階で、既に「リーチが優秀になる局面」が多く選択されている
のはそうなんですが、「ダマをした場合」は、既に「ダマが優秀になる局面」が多く選択されているはずなので、
結果的に「リーチ」と「ダマ」の比較はできるのではないか、というのが北HAZさんの意見です。
『鳳凰民がこっちの方が良さそうだと思って選択した』という点ではリーチもダマも同じで、
結果的に母集団は揃っている、ちゃんとランダム化されているのではないか
、ということです。



正直申しまして、母集団のランダム化がされているのかどうかという点は、僕には判断できません。
統計において、ランダムサンプリングされているかっていうのはものすごく重要なことなのに、
リーチ・ダマにした判断以外の部分がどのくらい揃っているかどうかなんてわからない。



もうすでにランダム化されているかもしれませんが、もしそうでなかったときにどうすればいいのか。
どうすればランダムになるのか。麻雀という同じ局面が訪れないゲームにおいて、どのように場面を揃えればいいか。

ここからは、僕の妄想が入ってくるので話半分でお願いします。
どれくらい正しいこと言えているか自信ないです。




その方法の1つは、「局収支に影響しそうな他のデータも同時に追跡する」です。
例えば、「アガリ牌の見た目の残り枚数」「待ち」「ドラの位置」「巡目」など、
局収支に影響しそうな他の要素も追跡してあげて、
少なくとも追跡した要素に関しては揃えて比較を行う、という方法です。
一個一個やると死ぬほどめんどくさそうなので、重回帰分析的にやれないかなぁという妄想はあります。
(結果変数が連続値、離散値のどちらにすべきかすら、僕には判断できないのですが……)


もう1つの驚きの方法。それは「技能戦の牌譜を解析する」です。

技能戦は、すべてが平場です。少なくとも、点数状況という条件は全て完璧に揃っています。
また、打ち手のレベルも二段以上と多様です。誤打になるリーチも増えるでしょう。
(誤打になるダマも、誤打になる脇の放銃も増えるでしょうが)
もしかしたらこういう環境の方が、統計を使って正着戦術を考える上ではいいのかもしれない。

過疎ってて、固定メンツが打っててランダム化されてない、だとか、統計するサンプル数自体が足りないだとか、そういうリアルなツッコミもきそうですし実際その通りです。

ただ、技能戦という過疎卓を無理やり使うことまでしなくても、
「特卓、上卓の牌譜で同じことをやる」っていうのは参考になるんじゃないか、とは思います。
むしろ「3卓全部均等に混ぜる」方がよかったりするのかもしれない。

実力レベルを全部攪拌してしまった方が、統計正着を知る上ではいいのかもしれません。
どのような比で混ぜるくらいが丁度いいのか、とかは難しいのですが、
プレイヤーの実力をランダムにする、という考え方はそこまで的を外していないのでは、と思います。




というわけで、こんな感じの話でした。
ここ最近、ツイッターで@が飛んでいるのが見えたので、触発されて書きました。


誤読しないで頂きたいのは、「チートイドラドラはダマ正着だ」って言ってるわけではないです。
この方法ではどっちが正解かわからない、っていうことです。

こんな背景があるので、麻雀解析に関しても色々やろうと思っていたのですが、
どうアプローチしたものか途方に暮れている状況です。





参考文献:「統計学が最強の学問である」(西内啓)
[PR]
by tsubame30 | 2013-05-29 23:01 | 統計・プログラム雑談 | Comments(0)
統計という考え方に一番最初に出会ったのは、大学での分析化学実験でした。


中学・高校の理科や化学で、『中和滴定』ってやったの覚えてないですか?
濃度がわからない塩酸に、濃度が分かる水酸化ナトリウム加えていって中和させて、
塩酸の濃度調べるっていうあれ。

統計ブログなんか運営してますが、私の本業は化学だったりしまして、
高校でもやった滴定を、大学で改めて授業でやることになりました。
そこで習ったのが、統計の「信頼区間」の考え方。

先ほどの例だと「水酸化ナトリウムを加えた量」が肝なわけですが、
じゃあその測定、本当に正確なんですか? という話。

濃度決定という意図を考えれば、1滴2滴の差は決して小さくない。
そして、適した器具を使うとはいえ、結局は人の仕事。あまつさえ学生。
誤差が出ないわけがありません。

レポートには、ミニマム5回は測定して、その平均、標準偏差を出し、
場合によっては外れ値を棄却して、改めて平均、標準偏差を出し、
その値を用いて、95%信頼区間に相当する濃度を求めて提出することになりました。

その時はちゃんとした考え方は全く分かってませんでした。
計算式は教科書に与えられていたので、
完全にマニュアル化した作業としてデータ処理をこなしてました。


単位が出てからはすっかり頭から抜け落ちていたその分析実験の経験が再び呼び起されたのは、
研究室配属されてひとつのテーマを任されるようになった時でした。

測定結果をボスに持って行ったときにボスから言われたある言葉。
実験系の理系学生にはおそらく頻出であろう、この言葉。

「再現性は取れてるの?」


自身の知識やスキルのなさ、それ以前の拙さもろもろを棚に上げて、
それを言われた時の正直な気持ちを書きますと、
「再現性ってどうやって取るのよ。そんなことできるわけねーじゃん」でした。

あまり詳しくは書けませんが、当時私がやっていた測定に影響する要素なんていくらでもありました。
温度、湿度、物質Aの濃度・純度、物質Bの濃度・純度、その他その他。
それら全てを一致させるなんて、とてもじゃないですができるわけありません。

同期に「再現性ってどうやってとるものなの?」と相談したところ、
「もう1回同じ実験やって、だいたい同じだったらだいたいとれてるでしょ」とのこと。
正直な感想は、「ああ、そんなんでいいんだ」でした。
確かに『再現』性ではありますが、それにしたって恣意的じゃないのかなぁと思うところもあったりなかったり。


ここまできて、あるひとつのことを「正しい」ということがいかに難しいかということを今更ながらに実感しました。
完全に手順化された実験ですら結果はバラつきます。
あるひとつの結果の「正しさ」を担保することは想像以上に難しいことを思い知りました。






そのこととは時を同じくしつつも全く別の話。

僕が統計に興味を持ったきっかけは、麻雀の実況動画でした。
ニコニコ動画で実況動画を山盛りうpしていらっしゃる、ぐっさんという方の実況動画です。
(最近はお忙しいのかめっきり更新がなくなりさびしい限りです。)



大学のサークルの仲間内で頻繁に麻雀を打っていた私が、
ネット麻雀に興味を持ち、天鳳にハマり、雀力向上を志すのは自然の流れでした。
同じく天鳳にハマっていた友人と段位の競争をする日々の中、
その友人に紹介されたのがぐっさんの動画でした。

ぐっさんは数学畑の統計屋さんで、統計的数理的視点をもって麻雀の正着研究しておられる方です。
動画は、打牌意図を解説しながら麻雀を打つという、これ以上に参考になるものもない形式でした。
統計を土台にした打牌解説の「もっともらしさ」に好感を覚え、アーカイブを辿る日々が始まりました。



麻雀の打牌は人によってさまざまです。
しまいには、打牌意図から打牌根拠までがさまざまです。
しかも、語られる打牌根拠は省略されている場合があります。

 「この手は押し。(受け入れが一番多くなる)Aを切る」
 「(放銃しても安いから)この手は押し。Aを切る」
 「この手は押し。(打点がマックスになる)Bを切る」

 「(テンパイだけどこの牌は通らないから)この手はオリ。Xを切る」
 「(放銃が致命的な点数状況だから)この手はオリ。Yを切る」
 「(なんとなく)この手はオリ。Yを切る」

早い話が、誰が正しいことを言ってるのかさっぱりわかりません。


加えて言えば、()内の打牌根拠が本当に正しいかというと簡単にはわかりません。
本当に「放銃しても安い」のか。「この牌は通らない」のか。
何をもってそう判断したのか、そもそもその判断は正しいのかが非常に評価が難しい。

なぜそうなるのかというと、麻雀が不完全情報ゲーム(相手の手牌の情報が完全でない)だからです。
将棋や囲碁のように、自分と相手の状況が完全公開されていないゲームなので、
同状況同打牌でも、8000放銃でトップ転落したり、1000点放銃でトップキープしたり、アガってトップ確定したりと結果がばらつきます。しかも劇的に。


更に言うなら、()内の打牌根拠の判断が正しかったとしても、
その話を聞いて私がその判断が行えるかというと、そう簡単にはいきません。

先ほどの例を挙げれば、「この牌は通らない」ことが本当に正しかったとして、
今後の実戦において、「通らない牌を探っていけるか」というと非常に難しいという話です。





そんな何が正しいかわからない中、統計をベースにした打牌解説は(少なくとも、動画で流れてくる
「そんなわけねぇだろww」的なコメントなんかよりはよっぽど)説得力がありましたし、
加えて、統計を土台にするその戦術は、セオリーレベルまで落とせるものも少なくなく、比較的私にも容易に使えるものでした。





同じことをやっても結果がずれてしまうという意味では、共通項を持ってしまった本業と趣味。
そんな合わせ技で、「わからないなりにもっともらしいものを見つけようとする」統計という考え方が好きになって、今では拙い知識ながらこんなブログを運営しております。


万が一にも勘違いされたくはないので一応但し書きをしますと、
個人が何を言おうが意味などない、統計が全てだ、などとは全く思っておりません。
個人の意見は貴重ですし、「正しい」ことが全てだとも思ってないです。



ただ、「正しい」ことを担保するのは想像以上に難しいから、
あやふやなものに振り回されずに、ちゃんと精査できるようになりたいと思っています。
あと、単純に面白いじゃないですか。数数えて、グラフ作って、いろいろ想像するの。

私が統計を好きな理由は、だいたいこんな感じです。






本当はこんな文章を書いている場合じゃないのですが、
ちょっとした現実逃避に、このブログ設立のきっかけでも書き記してみました。
リアルがしっちゃかめっちゃかでブログも固まってますが、もう少し固まってると思います。
[PR]
by tsubame30 | 2013-01-23 17:51 | 統計・プログラム雑談 | Comments(0)