ゲーム理論まとめ｜囚人のジレンマ・ナッシュ均衡・支配戦略 | 中小企業診断士1次試験経済学・経済政策

過去問で「支配戦略」という言葉が出てきたとき、最初は何のことかさっぱりでした。でも利得行列を一度自分で書いてみたら、ゲーム理論の考え方がスッと腑に落ちたんです。一緒に整理してみましょう。

この記事でわかること
ゲーム理論の基本概念（利得行列・支配戦略・ナッシュ均衡）/ 囚人のジレンマの構造と意味 / 繰り返しゲームと協調の可能性 / 身近な場面での応用 / 中小企業診断士1次試験での出題ポイント

ゲーム理論とは何か

ゲーム理論は、「自分の利益が相手の行動にも依存する」状況を分析するための経済学の道具です。通常の需要・供給分析では「自分の行動が市場全体に影響しない（完全競争）」という前提がありますが、現実のビジネスでは「ライバルが値下げしたら自分はどうするか」「協定を守るかどうか」といった、相手の動きを読みながら意思決定する場面が多くあります。

ゲーム理論の適用場面

複占・寡占市場での価格設定競争、カルテルの成立と崩壊、入札戦略、交渉・取引の設計など、少数のプレイヤーが互いの行動を読み合うあらゆる場面に応用できます。

ゲームの構成要素

プレイヤー（意思決定者）／戦略（選択できる行動の集合）／利得（各戦略の組み合わせで得られる結果）の3つで構成されます。

利得行列（ペイオフマトリクス）の読み方

ゲーム理論の分析は、利得行列（ペイオフマトリクス）と呼ばれる表からスタートします。企業Aと企業Bが「値下げ」と「現状維持」のどちらを選ぶかを例に見てみましょう。

表の読み方：（企業Aの利得，企業Bの利得）

	企業B：現状維持	企業B：値下げ
企業A：現状維持	（50，50）	（10，80）
企業A：値下げ	（80，10）	（30，30）★

★ ナッシュ均衡とは：★がついた（30，30）のマスは、どちらも「相手の戦略を所与として、自分だけ戦略を変えても利得が改善しない」状態です。企業Aは「Bが値下げするなら自分も値下げの方がマシ（30 > 10）」、企業Bも同様。だから誰も動かない。

支配戦略とナッシュ均衡

支配戦略（Dominant Strategy）

相手がどんな戦略を選んでも、自分にとって常に最善となる戦略のこと。支配戦略が存在すれば、相手の出方を考える必要がなく、それを選ぶのが合理的です。

例：上の表で企業Aは「Bが現状維持なら値下げ（80>50）」「Bが値下げしても値下げ（30>10）」→ 値下げが支配戦略

ナッシュ均衡（Nash Equilibrium）

全プレイヤーが相手の戦略を前提に最善手を選んだ結果、誰も一方的に戦略を変えようとしない状態。支配戦略均衡はナッシュ均衡の特殊ケースです。

1994年ノーベル経済学賞。ジョン・ナッシュが提唱。

概念	定義	相手の行動依存	試験でのポイント
支配戦略	相手がどう動いても最善の戦略	依存しない	あればそれを選ぶ
ナッシュ均衡	誰も逸脱する誘因がない状態	依存する	複数存在する場合もある
支配戦略均衡	全員が支配戦略を選んだ結果	依存しない	ナッシュ均衡でもある

「ナッシュ均衡＝社会的に最善の結果」ではない、という点が試験でよく問われます。上の例でいえば、両者が協調して「現状維持」を選べば（50，50）なのに、ナッシュ均衡は（30，30）になってしまうんですよね。ここが囚人のジレンマの核心です。

囚人のジレンマ

囚人のジレンマは、ゲーム理論で最も有名な例題です。2人の容疑者が別々の取調室で尋問を受け、それぞれ「黙秘」か「自白」を選ぶ場面を想定します。

刑期の行列（年数。少ない方が得）

	容疑者B：黙秘	容疑者B：自白
容疑者A：黙秘	（1年，1年）	（10年，0年）
容疑者A：自白	（0年，10年）	（5年，5年）★

ジレンマの核心：「自白」はA・B両者にとって支配戦略（相手がどちらを選んでも、自白の方が刑期が短い）。結果、ナッシュ均衡は（5年，5年）。でも両者が黙秘を貫けば（1年，1年）で済むのに、個人の合理的な行動が集団の非最適を招いてしまいます。

個人合理性

自分一人の視点では「自白」が最善手。どんなに相手が黙秘しようと自白しようと、自分は自白した方が刑期が短い。これが支配戦略。

集団合理性

2人合計の刑期は、両者黙秘なら2年（1+1）。両者自白なら10年（5+5）。社会全体・集団として見れば黙秘の協調が最善なのに、個人合理性がそれを妨げます。

場面	協調（黙秘に相当）	裏切り（自白に相当）
価格競争	高値維持（カルテル）	値下げで客を奪う
軍備競争	軍縮で平和・節約	相手が軍縮中に増強
環境問題	排出削減（コスト増）	削減しない（コスト減）
広告費競争	広告費節約で利益確保	広告費増で市場シェア拡大

繰り返しゲームと協調の可能性

1回限りのゲームでは裏切りが支配戦略でも、同じ相手と何度も取引を繰り返す「繰り返しゲーム」では事情が変わります。「今裏切ったら、次回から相手も裏切ってくる」という将来への影響を考慮できるからです。

無限繰り返しゲーム

終わりが見えない場合、将来の協調利得の現在価値が裏切りの一時的メリットを上回ると、協調均衡が成立しえます。

トリガー戦略（しっぺ返し戦略）

相手が協調している限り自分も協調し、相手が裏切ったら自分もその後ずっと裏切る戦略。裏切りへの「報復の脅し」が協調を促します。

有限繰り返しゲームの逆帰納法

終わりの回数が決まっている場合、最終回は「次回がないから裏切る」→「そうわかっているから最終1つ前も裏切る」と逆算が続き、結局初回から裏切りになることが知られています。

コンビニの価格競争で考えてみると

近所にセブンとローソンが並んでいる場面を想像してみてください。どちらも「弁当を定価で売るか、夕方に値引きするか」を毎日決めています。

1日限りなら：どちらも「相手が値引きしたら自分も値引きしないと客を取られる（値引きが支配戦略）」→ 両者値引き＝利益が薄い。

毎日続くなら：「今日値引きを我慢すれば、明日も相手は定価を維持してくれる」という暗黙の協調が生まれやすくなります。現実に多くのコンビニが価格競争を避けて品揃えやサービスで差別化するのは、繰り返しゲームの中での均衡とも解釈できます。