ブログトップ

今日から始めるゲーム統計学

tsubame30.exblog.jp

かつては麻雀およびエロゲのデータを統計解析して遊んでました。今では日本酒に夢中です。

【統計・プログラム雑談】リーチ判断正着を鳳凰卓統計に求めることの是非 ~「ランダム化」の壁

チートイツは、待ち枚数が一番少ない単騎待ちでのテンパイが確定している役なだけに、「待ち換えやオリを見据えてダマにすべきか」「リーチかけて押さえつけるべきか」の感覚判断がなかなか難しい役だったりします。

そんなチートイドラドラ。
北HAZさんという方がリーチ判断に関する統計を出してくださっています。
【牌譜解析】チートイドラドラはリーチ? : HAZの研究する人生

これは、鳳凰卓牌譜において「チートイツをテンパイした場面」を抜き出し、「リーチをした場合」「リーチをしなかった場合」のそれぞれについての局収支を出し、それらの平均を比べたものです。

北HAZさんの統計によれば、「チートイドラドラはリーチした方が局収支がよくなる」という結果が得られています。この統計をソースにした、チートイドラドラはリーチした方がいいんだ、という言説が多く見られます。

しかし、一方で、「こういった統計から、正着判断できるかどうかはわからないんじゃないの」という指摘があります。麻雀AIの研究をされているkmo2さんは、ブログにてこのような記事を書かれています。

統計的手法の問題点: マッタリプログラミング日誌

>そもそも、鳳凰民というのは相当にレベルの高い集団であり、
>立直して不利ならば、立直なんてしないわけです。
>実際に立直したデータには、それだけ立直した方が有利である状況のデータばかりが
>そろっているわけです。


「優秀なプレイヤーが、リーチの方が良いだろうと判断した局面」だけ抜粋してるんだから、優秀な結果(局収支が上回ってる)が出ること自体は当然なんじゃないの?というのが、kmo2さんの意見です。



例えば、「どこの会社の車が好きですか?」というアンケートをとり、その統計をとったとして、A社という回答が一番多かった、という結果を得たとします。
これだけ見ると、A社が多くの車のブランドの中で一番人気であるかのように思えます。

しかし、これが「A社の営業所、ディーラーでとったアンケート」だったとしたらどうでしょうか?
そりゃあ、A社が好きな人多いに決まってるじゃん、って思いますよね?
そんな統計であれば、結果からA社が一番人気である、なんてことは当然判断できません。

統計において最も重要なことの1つは、「母集団のランダム化」です。
この場合は、アンケートをとる対象を可能な限りランダムにすることが必要であるということです。
そうすることによって得られた統計は、十分な意味を持つでしょう。

kmo2さんの指摘は、これと同じことで、「リーチをした場合」というサンプリングの段階で、既に「リーチが優秀になる局面」が多く選択されているはずだろう。これで局収支が大きくならないはずがない。ということです。



また、ランダム化がされていないと「因果関係の方向」がわからない、という問題も隠れています。

ただいま僕のTLでは「児ポ法」の話で盛り上がっていますが、
例えば、性犯罪を犯した者とそうでない者という条件で「性処理目的で児童ポルノを所持しているかどうか」
をそれぞれ数えて調べたとして、性犯罪を犯した者の方がポルノ所持率が高かったとします。
これだけ見ると、児童ポルノが性犯罪をほう助してるんだ! 規制だ! 規制! となりそうですが、
じゃあ、児童ポルノ規制したら性犯罪減るのか、っていうとこれだけではなんにもわかりません。


なぜなら、児童ポルノ所持うんぬんとは全く違う「性的暴力性」みたいなものが先にあって、だからこそ性犯罪を犯し、その発散先として児童ポルノを所持していた、という因果関係の方向も考えられるからです。
もし、こっちの因果関係の方が正しかった場合、規制したところで性犯罪は減らないどころか、性犯罪を減らすために行った規制によって発散先を失い、却って性犯罪が増えるなんていう展開になる可能性まで出てきます。

このように、因果関係の方向まではわからない。
これをちゃんと調べようと思ったら、他の条件はまったく同じだけど、「児童ポルノの所持」だけが異なっている
(「性的暴力性」などの他の要因の程度がランダムである)集団同士を比べる必要が出てくる。



先ほどのリーチ判断の例で言えば、もしかしたら
「局収支が高い(低い)ような手だったから鳳凰民がリーチ(ダマに)することが多かった」のかもしれないわけですよ。
因果関係の方向が逆の場合だって成り立ってしまう。
そして、この結論がなにか正着戦術に使えるかというと……難しいですよね。



このkmo2さんのブログ記事に対して、北HAZさんはこんなコメントをなさっています。

>的確にリーチ判断なされているならば、ダマにする時もこっちが有利だという的確な判断がなされていて、
>その結果の優劣というのは収支または和了率、放銃率、ひいては最終着順などに必ず影響が出ると思っています。



「リーチをした場合」というサンプリングの段階で、既に「リーチが優秀になる局面」が多く選択されている
のはそうなんですが、「ダマをした場合」は、既に「ダマが優秀になる局面」が多く選択されているはずなので、
結果的に「リーチ」と「ダマ」の比較はできるのではないか、というのが北HAZさんの意見です。
『鳳凰民がこっちの方が良さそうだと思って選択した』という点ではリーチもダマも同じで、
結果的に母集団は揃っている、ちゃんとランダム化されているのではないか
、ということです。



正直申しまして、母集団のランダム化がされているのかどうかという点は、僕には判断できません。
統計において、ランダムサンプリングされているかっていうのはものすごく重要なことなのに、
リーチ・ダマにした判断以外の部分がどのくらい揃っているかどうかなんてわからない。



もうすでにランダム化されているかもしれませんが、もしそうでなかったときにどうすればいいのか。
どうすればランダムになるのか。麻雀という同じ局面が訪れないゲームにおいて、どのように場面を揃えればいいか。

ここからは、僕の妄想が入ってくるので話半分でお願いします。
どれくらい正しいこと言えているか自信ないです。




その方法の1つは、「局収支に影響しそうな他のデータも同時に追跡する」です。
例えば、「アガリ牌の見た目の残り枚数」「待ち」「ドラの位置」「巡目」など、
局収支に影響しそうな他の要素も追跡してあげて、
少なくとも追跡した要素に関しては揃えて比較を行う、という方法です。
一個一個やると死ぬほどめんどくさそうなので、重回帰分析的にやれないかなぁという妄想はあります。
(結果変数が連続値、離散値のどちらにすべきかすら、僕には判断できないのですが……)


もう1つの驚きの方法。それは「技能戦の牌譜を解析する」です。

技能戦は、すべてが平場です。少なくとも、点数状況という条件は全て完璧に揃っています。
また、打ち手のレベルも二段以上と多様です。誤打になるリーチも増えるでしょう。
(誤打になるダマも、誤打になる脇の放銃も増えるでしょうが)
もしかしたらこういう環境の方が、統計を使って正着戦術を考える上ではいいのかもしれない。

過疎ってて、固定メンツが打っててランダム化されてない、だとか、統計するサンプル数自体が足りないだとか、そういうリアルなツッコミもきそうですし実際その通りです。

ただ、技能戦という過疎卓を無理やり使うことまでしなくても、
「特卓、上卓の牌譜で同じことをやる」っていうのは参考になるんじゃないか、とは思います。
むしろ「3卓全部均等に混ぜる」方がよかったりするのかもしれない。

実力レベルを全部攪拌してしまった方が、統計正着を知る上ではいいのかもしれません。
どのような比で混ぜるくらいが丁度いいのか、とかは難しいのですが、
プレイヤーの実力をランダムにする、という考え方はそこまで的を外していないのでは、と思います。




というわけで、こんな感じの話でした。
ここ最近、ツイッターで@が飛んでいるのが見えたので、触発されて書きました。


誤読しないで頂きたいのは、「チートイドラドラはダマ正着だ」って言ってるわけではないです。
この方法ではどっちが正解かわからない、っていうことです。

こんな背景があるので、麻雀解析に関しても色々やろうと思っていたのですが、
どうアプローチしたものか途方に暮れている状況です。





参考文献:「統計学が最強の学問である」(西内啓)
[PR]
by tsubame30 | 2013-05-29 23:01 | 統計・プログラム雑談 | Comments(0)