ゲーム理論・ナッシュ均衡・囚人のジレンマ | 中小企業診断士1次試験経済学・経済政策

「囚人のジレンマ」という名前は知っていても、試験でどう問われるかイメージしにくかった論点のひとつです。ゲーム理論は寡占市場や企業戦略の分析に使われる重要ツールです。利得行列の読み方から順番に整理してみます。

ゲーム理論は「複数の意思決定者が互いの行動を予測しながら戦略を選ぶ」状況を分析するフレームワークです。経済学では寡占市場・国際貿易交渉・入札など、相手の出方が自分の利益に直結する場面で活用されます。

中小企業診断士試験では、ナッシュ均衡・支配戦略・囚人のジレンマ・繰り返しゲームが頻出です。

ゲーム理論の基本用語

用語	意味	例
プレイヤー	意思決定を行う主体	企業A・企業B、国X・国Y
戦略	プレイヤーが選択できる行動	「広告する」「しない」「値下げする」
利得（ペイオフ）	各戦略の組み合わせで得られる結果	利益額、満足度
利得行列	全組み合わせの利得を表にまとめたもの	2×2のマトリックスが基本
ナッシュ均衡	どのプレイヤーも一方的に戦略を変えても得をしない状態	互いの最適反応が一致する点
支配戦略	相手の戦略にかかわらず自分が必ず選ぶべき戦略	常に最善の選択肢

利得行列の読み方

利得行列は「企業A（行）× 企業B（列）」の表で表します。各セルの数値は「（企業Aの利得, 企業Bの利得）」です。

利得行列の見方

左の数字 → 行プレイヤー（企業A）の利得
右の数字 → 列プレイヤー（企業B）の利得
セルの強調（枠線太め） → ナッシュ均衡の位置

例：広告出稿ゲーム

	企業B：広告する	企業B：広告しない
企業A：広告する	（4, 4）	（7, 1）
企業A：広告しない	（1, 7）	（5, 5）

（値は億円。太枠がナッシュ均衡）

このゲームでは「広告する・広告する（4,4）」がナッシュ均衡です。企業Aが「広告する」とき、企業Bも「広告する」（4＞1）を選びます。企業Bが「広告する」なら企業Aも「広告する」（4＞1）。お互いに変えるインセンティブがありません。

支配戦略とナッシュ均衡——どう見つけるか

行プレイヤー（A）の支配戦略を探す

相手（B）が「左の列」を選ぶとき、Aはどちらを選ぶ？ → 相手が「右の列」を選ぶとき、Aはどちらを選ぶ？ → 両方で同じ行が選ばれれば、それがAの支配戦略。

列プレイヤー（B）の支配戦略を探す

相手（A）が「上の行」を選ぶとき、Bはどちらを選ぶ？ → 相手が「下の行」を選ぶとき、Bはどちらを選ぶ？ → 両方で同じ列が選ばれれば、それがBの支配戦略。

支配戦略の交点＝ナッシュ均衡

両プレイヤーの支配戦略が重なるセルが、強ナッシュ均衡（支配戦略均衡）です。支配戦略がない場合は「最適反応」で確認します。

囚人のジレンマ——なぜ最悪の結果になるのか

ゲーム理論で最も有名な例題が「囚人のジレンマ」です。

設定

容疑者A・Bが別々の部屋で取調べを受けている。二人は会話できない。
「黙秘」か「自白」かを選ぶ。利得は刑期の短さ（数字が大きいほど有利）。

囚人のジレンマ利得行列

	容疑者B：黙秘	容疑者B：自白
容疑者A：黙秘	（3, 3）← 協力均衡（最善）	（0, 5）
容疑者A：自白	（5, 0）	（1, 1）← ナッシュ均衡

「自白」が支配戦略です。Bが黙秘しても自白しても、Aは自白を選んだほうが得（5＞3、1＞0）。Bも同様。そのため両者が自白（1,1）がナッシュ均衡になります。

しかし「両者黙秘（3,3）」のほうが社会全体（合計6）でより良い結果です。個々の合理的行動が集団にとって最悪の結果を招く——これが囚人のジレンマの本質であり、「市場の失敗」の一形態として重要視されます。

「なぜ協力しないのか」と思いますが、相手を信頼できない状況では裏切りが合理的な選択になってしまうんですね。国際的な軍縮交渉や環境規制の国際協定も、同じ構造を持っています。

日常の場面で考えてみると——カフェ競争のゲーム

駅前に2軒のカフェが隣り合っています。どちらも「値下げする」か「現状維持」かを選べます。

	カフェB：値下げ	カフェB：現状維持
カフェA：値下げ	（2, 2）← ナッシュ均衡	（6, 1）
カフェA：現状維持	（1, 6）	（4, 4）← こちらが社会的に最善

どちらのカフェも「相手が値下げするなら自分も値下げ（2＞1）」「相手が現状維持でも値下げしたほうが得（6＞4）」。値下げが支配戦略になり、両者値下げ（2,2）に落ち着きます。

「両者現状維持（4,4）」のほうが利益合計は大きいのに、競争の論理がそこに到達させない——まさに囚人のジレンマと同じ構造です。

繰り返しゲームと協力の可能性

一度限りのゲームでは裏切りが合理的でも、繰り返しゲーム（同じゲームを何度も行う）では協力が生まれる可能性があります。

有限回繰り返しゲーム

終わりが決まっていると、後ろ向き帰納法で最終回に裏切りが生じ、協力は崩壊する（バックワード・インダクション）

無限回繰り返しゲーム

終わりが不明なら「今回協力すれば将来も相手が協力してくれる」という期待が生まれ、協力均衡が成立しうる（フォーク定理）

応報戦略（Tit for Tat）

繰り返しゲームで協力を維持しやすい戦略。
①最初は必ず協力する → ②相手が協力したら次も協力 → ③相手が裏切ったら次は自分も裏切る（報復） → ④その後相手が協力に戻れば自分も協力に戻る
シンプルで強力なこの戦略は、コンピューター・トーナメントでも高い成績を収めています。

ゲーム理論の主な応用分野

分野	ゲーム理論的状況	結論・含意
寡占市場	クールノー競争・価格競争（ベルトラン）	ナッシュ均衡は完全競争と独占の間（クールノー）
環境規制	各国の排出削減：囚人のジレンマ	国際協定なしでは過少削減になりやすい
入札・オークション	入札者は互いの入札額を知らない	密封入札の最適戦略の分析
企業戦略	参入阻止・先行者優位	シュタッケルベルク均衡（先手が有利）
カルテル	繰り返しゲームとしての価格協定	無限回ゲームなら協力が維持されうる

過去問で確認する

下表は企業Aと企業Bの利得行列（企業A, 企業B）を示している。ナッシュ均衡の組み合わせとして最も適切なものはどれか。

・（戦略H, 戦略H）→（4, 4）
・（戦略H, 戦略L）→（7, 2）
・（戦略L, 戦略H）→（2, 7）
・（戦略L, 戦略L）→（3, 3）

ア　（戦略H, 戦略H）と（戦略L, 戦略L）の2つ
イ　（戦略H, 戦略H）のみ
ウ　（戦略L, 戦略L）のみ
エ　（戦略H, 戦略L）と（戦略L, 戦略H）の2つ

解説

正解はイです。
企業Bが戦略Hを選ぶ場合、企業Aは戦略H（4）vs 戦略L（2）→ 戦略H を選ぶ。
企業Aが戦略Hを選ぶ場合、企業Bは戦略H（4）vs 戦略L（2）→ 戦略H を選ぶ。
→ （H, H）は互いが最適反応 → ナッシュ均衡。
（L, L）を確認：企業Bが戦略Lのとき企業Aは戦略H（7）>戦略L（3）なので離脱する → ナッシュ均衡ではない。結論：（H, H）のみがナッシュ均衡。

囚人のジレンマに関する記述として、最も適切なものはどれか。

ア　囚人のジレンマでは、協力均衡がナッシュ均衡と一致する。
イ　囚人のジレンマでは、支配戦略が存在しない。
ウ　囚人のジレンマのナッシュ均衡は、パレート効率的ではない場合がある。
エ　囚人のジレンマは、繰り返しゲームにおいても協力均衡が実現しない。

解説

正解はウです。
ア：囚人のジレンマの特徴は「ナッシュ均衡（両者裏切り）がパレート非効率」であることです。協力均衡はナッシュ均衡ではありません。
イ：囚人のジレンマには「裏切り（自白）」という支配戦略が存在します。
ウ：正しい記述です。ナッシュ均衡の（裏切り, 裏切り）は（協力, 協力）よりも両者にとって不利なため、パレート改善の余地があります。
エ：無限回繰り返しゲームでは、フォーク定理により協力均衡が実現しうることが示されています。

試験直前チェックリスト

ナッシュ均衡：どのプレイヤーも一方的に戦略を変えて得をしない状態（離脱インセンティブなし）
支配戦略：相手の戦略にかかわらず常に自分の最善。支配戦略の交点＝支配戦略均衡
囚人のジレンマ：支配戦略均衡（裏切り）がパレート非効率 → 市場の失敗の一形態
繰り返しゲーム：有限回→後ろ向き帰納法で協力崩壊 / 無限回→フォーク定理で協力成立の可能性
利得行列：左数字=行プレイヤーの利得、右数字=列プレイヤーの利得
ナッシュ均衡が複数ある場合もある（複数均衡）。支配戦略がない場合は最適反応で確認

Uのメモ

学習のポイント

試験ではほぼ毎回「利得行列を見てナッシュ均衡を答える」形式が出ます。手順を体で覚えるのが近道です。

【ナッシュ均衡の確認手順】
①行プレイヤー：相手の各列で自分の利得が最大になる行に○をつける
②列プレイヤー：相手の各行で自分の利得が最大になる列に○をつける
③両方に○がついているセルがナッシュ均衡

囚人のジレンマのポイントは「支配戦略均衡がパレート非効率」。外部性・公共財などの市場の失敗と関連づけて整理すると理解が深まります。