ゲーム理論まとめ|囚人のジレンマ・ナッシュ均衡・支配戦略 | 中小企業診断士1次試験 経済学・経済政策

U

過去問で「支配戦略」という言葉が出てきたとき、最初は何のことかさっぱりでした。でも利得行列を一度自分で書いてみたら、ゲーム理論の考え方がスッと腑に落ちたんです。一緒に整理してみましょう。

この記事でわかること
ゲーム理論の基本概念(利得行列・支配戦略・ナッシュ均衡)/ 囚人のジレンマの構造と意味 / 繰り返しゲームと協調の可能性 / 身近な場面での応用 / 中小企業診断士1次試験での出題ポイント
目次

ゲーム理論とは何か

ゲーム理論は、「自分の利益が相手の行動にも依存する」状況を分析するための経済学の道具です。通常の需要・供給分析では「自分の行動が市場全体に影響しない(完全競争)」という前提がありますが、現実のビジネスでは「ライバルが値下げしたら自分はどうするか」「協定を守るかどうか」といった、相手の動きを読みながら意思決定する場面が多くあります。

ゲーム理論の適用場面
複占・寡占市場での価格設定競争、カルテルの成立と崩壊、入札戦略、交渉・取引の設計など、少数のプレイヤーが互いの行動を読み合うあらゆる場面に応用できます。
ゲームの構成要素
プレイヤー(意思決定者)/戦略(選択できる行動の集合)/利得(各戦略の組み合わせで得られる結果)の3つで構成されます。

利得行列(ペイオフマトリクス)の読み方

ゲーム理論の分析は、利得行列(ペイオフマトリクス)と呼ばれる表からスタートします。企業Aと企業Bが「値下げ」と「現状維持」のどちらを選ぶかを例に見てみましょう。

表の読み方:(企業Aの利得,企業Bの利得)

企業B:現状維持 企業B:値下げ
企業A:現状維持 (50,50) (10,80)
企業A:値下げ (80,10) (30,30)★
★ ナッシュ均衡とは:★がついた(30,30)のマスは、どちらも「相手の戦略を所与として、自分だけ戦略を変えても利得が改善しない」状態です。企業Aは「Bが値下げするなら自分も値下げの方がマシ(30 > 10)」、企業Bも同様。だから誰も動かない。

支配戦略とナッシュ均衡

支配戦略(Dominant Strategy)
相手がどんな戦略を選んでも、自分にとって常に最善となる戦略のこと。支配戦略が存在すれば、相手の出方を考える必要がなく、それを選ぶのが合理的です。
例:上の表で企業Aは「Bが現状維持なら値下げ(80>50)」「Bが値下げしても値下げ(30>10)」→ 値下げが支配戦略
ナッシュ均衡(Nash Equilibrium)
全プレイヤーが相手の戦略を前提に最善手を選んだ結果、誰も一方的に戦略を変えようとしない状態。支配戦略均衡はナッシュ均衡の特殊ケースです。
1994年ノーベル経済学賞。ジョン・ナッシュが提唱。
概念 定義 相手の行動依存 試験でのポイント
支配戦略 相手がどう動いても最善の戦略 依存しない あればそれを選ぶ
ナッシュ均衡 誰も逸脱する誘因がない状態 依存する 複数存在する場合もある
支配戦略均衡 全員が支配戦略を選んだ結果 依存しない ナッシュ均衡でもある
U

「ナッシュ均衡 = 社会的に最善の結果」ではない、という点が試験でよく問われます。上の例でいえば、両者が協調して「現状維持」を選べば(50,50)なのに、ナッシュ均衡は(30,30)になってしまうんですよね。ここが囚人のジレンマの核心です。

囚人のジレンマ

囚人のジレンマは、ゲーム理論で最も有名な例題です。2人の容疑者が別々の取調室で尋問を受け、それぞれ「黙秘」か「自白」を選ぶ場面を想定します。

刑期の行列(年数。少ない方が得)

容疑者B:黙秘 容疑者B:自白
容疑者A:黙秘 (1年,1年) (10年,0年)
容疑者A:自白 (0年,10年) (5年,5年)★
ジレンマの核心:「自白」はA・B両者にとって支配戦略(相手がどちらを選んでも、自白の方が刑期が短い)。結果、ナッシュ均衡は(5年,5年)。でも両者が黙秘を貫けば(1年,1年)で済むのに、個人の合理的な行動が集団の非最適を招いてしまいます。
個人合理性
自分一人の視点では「自白」が最善手。どんなに相手が黙秘しようと自白しようと、自分は自白した方が刑期が短い。これが支配戦略。
集団合理性
2人合計の刑期は、両者黙秘なら2年(1+1)。両者自白なら10年(5+5)。社会全体・集団として見れば黙秘の協調が最善なのに、個人合理性がそれを妨げます。
場面 協調(黙秘に相当) 裏切り(自白に相当)
価格競争 高値維持(カルテル) 値下げで客を奪う
軍備競争 軍縮で平和・節約 相手が軍縮中に増強
環境問題 排出削減(コスト増) 削減しない(コスト減)
広告費競争 広告費節約で利益確保 広告費増で市場シェア拡大

繰り返しゲームと協調の可能性

1回限りのゲームでは裏切りが支配戦略でも、同じ相手と何度も取引を繰り返す「繰り返しゲーム」では事情が変わります。「今裏切ったら、次回から相手も裏切ってくる」という将来への影響を考慮できるからです。

01
無限繰り返しゲーム
終わりが見えない場合、将来の協調利得の現在価値が裏切りの一時的メリットを上回ると、協調均衡が成立しえます。
02
トリガー戦略(しっぺ返し戦略)
相手が協調している限り自分も協調し、相手が裏切ったら自分もその後ずっと裏切る戦略。裏切りへの「報復の脅し」が協調を促します。
03
有限繰り返しゲームの逆帰納法
終わりの回数が決まっている場合、最終回は「次回がないから裏切る」→「そうわかっているから最終1つ前も裏切る」と逆算が続き、結局初回から裏切りになることが知られています。

コンビニの価格競争で考えてみると

近所にセブンとローソンが並んでいる場面を想像してみてください。どちらも「弁当を定価で売るか、夕方に値引きするか」を毎日決めています。

1日限りなら:どちらも「相手が値引きしたら自分も値引きしないと客を取られる(値引きが支配戦略)」→ 両者値引き=利益が薄い。

毎日続くなら:「今日値引きを我慢すれば、明日も相手は定価を維持してくれる」という暗黙の協調が生まれやすくなります。現実に多くのコンビニが価格競争を避けて品揃えやサービスで差別化するのは、繰り返しゲームの中での均衡とも解釈できます。

試験対策のポイント

ゲーム理論は1次試験の経済学・経済政策で出題されます。利得行列を見て素早く判断する練習をしておきましょう。

01
支配戦略の確認
各プレイヤーについて「相手の各戦略に対して、どちらの戦略が利得が高いか」を比較。すべてのケースで同じ戦略が優れていれば支配戦略。
02
ナッシュ均衡の特定
各セルについて「Aが一方的に変える誘因があるか+Bが一方的に変える誘因があるか」を確認。両者ともに変える誘因がないセルがナッシュ均衡。
03
ジレンマの有無を判断
ナッシュ均衡が「社会的最適(全体利得最大)」でなければ囚人のジレンマの構造。カルテル崩壊・環境問題などへの応用として出題されます。
Uのメモ
  • 利得行列の読み方:(自分の利得,相手の利得)の順に確認する
  • 支配戦略 ⊂ ナッシュ均衡(支配戦略均衡はナッシュ均衡の一種)
  • ナッシュ均衡は必ずしも社会的最適ではない(囚人のジレンマがその例)
  • 繰り返しゲームでは協調均衡が成立しうる(将来の影響を考慮できるため)
  • 有限繰り返しゲームは逆帰納法で崩れる点に注意

まとめ

  • ゲーム理論は相手の行動を考慮した意思決定を分析するモデル
  • 支配戦略:相手がどう動いても常に最善の戦略
  • ナッシュ均衡:誰も一方的に戦略を変える誘因がない状態
  • 囚人のジレンマ:個人合理性の追求が集団最適を損なう構造
  • 繰り返しゲームでは将来への影響を考慮した協調均衡が成立しうる
U

利得行列を前にすると最初は「どこから見ればいいの?」と感じますが、「まず支配戦略があるか確認→次にナッシュ均衡を探す」という手順を覚えると、かなりスムーズに解けるようになりました。過去問の利得行列も、ぜひ手を動かして確認してみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

中小企業診断士試験勉強中のアラフィフシングルマザーです。
大学卒業後から現在まで、数々の失敗をしながらずっと自営業として試行錯誤を重ねてきました。
もっときちんと経営やビジネスの知識を身につけて、将来は他の事業者の方のお役にも立てたらいいな、と思うようになり、中小企業診断士の試験に挑戦中です。

目次