Uゲーム理論の問題で、「ナッシュ均衡はどれか」という問いに最初は迷っていました。「最善応答法」で各プレイヤーの最善を★で記録して★が重なるマスを探す、という手順を覚えてから解けるようになりました。利得表の読み方も含めて、一緒に整理してみましょう。
ゲーム理論は、複数のプレイヤーが互いの行動を意識しながら意思決定する状況を分析する経済学の手法です。企業の価格競争・広告戦略・国家間の貿易交渉など、「相手がどう動くか」を考慮しなければならない場面で使われます。
試験では「ナッシュ均衡」「支配戦略」「囚人のジレンマ」の3つの概念が頻出です。利得表(ペイオフマトリクス)を使ってこれらを特定する問題が出ます。
支配戦略とナッシュ均衡の定義と特定方法 / 囚人のジレンマの仕組みと社会的最適との乖離 / 利得表の読み方 / 繰り返しゲームとカルテルの安定性
利得表の読み方
ゲーム理論では、2人のプレイヤーの戦略と利得を利得表(ペイオフマトリクス)で表します。行が「プレイヤーA」、列が「プレイヤーB」の戦略、各マスに(A の利得, B の利得)が書かれます。
| プレイヤーB | ||
|---|---|---|
| 協力 | 裏切り | |
| プレイヤーA:協力 | (3, 3) | (0, 5) |
| プレイヤーA:裏切り | (5, 0) | (1, 1)★ |
・行を固定してAの最大を探す / 列を固定してBの最大を探す
・★のついた(1,1)の「裏切り×裏切り」がナッシュ均衡(後述)
・(3,3)の「協力×協力」の方が両者にとって良いが、自力では実現しにくい→囚人のジレンマ
支配戦略とナッシュ均衡の定義
上の利得表では:
Aの立場:Bが「協力」→裏切り(5)>協力(3)、Bが「裏切り」→裏切り(1)>協力(0)
∴ Aの支配戦略は「裏切り」
同様にBの支配戦略も「裏切り」
(裏切り, 裏切り)→ A:Bが裏切りなら裏切りが最善、B:Aが裏切りなら裏切りが最善。どちらも変える動機なし → ナッシュ均衡。
支配戦略均衡はナッシュ均衡の特殊ケース。
② Bが「裏切り」を選んだとき → Aの最善は?(0vs1)→ 裏切り★
③ Aが「協力」を選んだとき → Bの最善は?(3vs5)→ 裏切り★
④ Aが「裏切り」を選んだとき → Bの最善は?(0vs1)→ 裏切り★
すべてのマス目で「★」が付いたマスを探す。①②③④すべての★が重なる(裏切り, 裏切り)がナッシュ均衡。
囚人のジレンマの仕組み
先ほどの利得表が示す構造を囚人のジレンマ(Prisoner’s Dilemma)といいます。この名称は、以下のような状況の比喩に由来します。
・両方が黙秘(協力)→ それぞれ懲役1年
・一方が自白(裏切り)し他方が黙秘 → 自白した方は釈放、黙秘した方は懲役10年
・両方が自白(裏切り) → それぞれ懲役5年
合理的に考えると、相手が黙秘でも自白でも「自白する(裏切る)」方が得。しかし両方が自白すると「両方懲役5年」という最悪に近い結果になる。
囚人のジレンマの核心的な問題は、「個々にとって合理的な選択(裏切り)の積み重ねが、社会全体・両者にとって最悪の結果をもたらす」という点です。
| 状態 | 各自の利得 | 合計利得 | 評価 |
|---|---|---|---|
| (協力, 協力) | (3, 3) | 6 | 社会的最適(パレート最適) |
| (裏切り, 協力) | (5, 0) | 5 | 裏切り側のみ最大 |
| (協力, 裏切り) | (0, 5) | 5 | 裏切り側のみ最大 |
| (裏切り, 裏切り)★ナッシュ均衡 | (1, 1) | 2 | ナッシュ均衡だが社会的に最悪 |
経済政策・企業戦略・国際交渉の多くがこの構造を持っています:
・軍拡競争、関税引き上げ合戦、環境規制を守らない企業
・カルテル参加企業が「抜け駆け」する誘因を持つ
繰り返しゲームとカルテルの安定性
一回限りのゲームでは囚人のジレンマが発生しますが、ゲームが繰り返される(無限回)場合は事情が変わります。
これがカルテル(価格協定)が長続きする理由の一つです。「今抜け駆けして安く売れば短期利益は大きいが、相手も価格を下げてきて長期的には共倒れになる」という認識が互いにあれば、協調(カルテル)が維持されやすくなります。
| ゲームの種類 | 協力の実現可能性 | 理由 |
|---|---|---|
| 一回限りのゲーム | 困難(囚人のジレンマ) | 裏切りが支配戦略。将来の報復がない |
| 有限回の繰り返し | 最終回に崩壊(後ろ向き帰納法) | 最終回は一回限りと同じ→裏切り。逆算で全回崩壊 |
| 無限回の繰り返し | 実現可能(条件付き) | 将来の協力の利益が裏切りの誘惑を上回れば協力が維持 |



「繰り返しゲームで協力が実現する」という話が最初は意外でした。「将来の損失を考えると今裏切る方が不合理になる」という長期視点が、企業間の協調(カルテルや業界慣行)を維持させているんですね。同時に「最終回が来ると一気に崩壊する」後ろ向き帰納法も面白い概念でした。
コンビニの広告競争で考える囚人のジレンマ
近所に2つのコンビニ(Aと B)があるとします。どちらも「チラシ広告を打つかどうか」を同時に決めなければなりません。
もし両方が広告を打たなければ、費用もかからず、お客さんはそれぞれに来て双方利益が出ます(協力=利得3)。でも、自分だけ広告を打って相手が打たなければ、お客さんを一気に奪えます(裏切り=利得5)。ならば「相手が広告を打つかどうかに関わらず、自分は広告を打った方が得」という判断になります。結果、両方が広告を打ち、費用だけかかって利益は小さい(1,1)という状態に落ち着いてしまいます。
これが囚人のジレンマの本質で、カルテルが競争法で規制されても破られやすい理由でもあります。
過去問で確認してみましょう
| B:低価格 | B:高価格 | |
|---|---|---|
| A:低価格 | (2, 2) | (4, 1) |
| A:高価格 | (1, 4) | (3, 3) |
- ア (高価格, 高価格):利得(3, 3)
- イ (低価格, 低価格):利得(2, 2)
- ウ (低価格, 高価格):利得(4, 1)
- エ (高価格, 低価格):利得(1, 4)
最善応答法で確認します:
・Bが「低価格」のとき → Aの最善:低価格(2)>高価格(1) → 低価格★
・Bが「高価格」のとき → Aの最善:低価格(4)>高価格(3) → 低価格★
→ Aの支配戦略:低価格
・Aが「低価格」のとき → Bの最善:低価格(2)>高価格(1) → 低価格★
・Aが「高価格」のとき → Bの最善:低価格(4)>高価格(3) → 低価格★
→ Bの支配戦略:低価格
(低価格, 低価格)の利得(2,2)がナッシュ均衡。(高価格, 高価格)(3,3)は社会的に優れているが、どちらも「相手が高価格なら自分は低価格に変えると4になる」という誘因があるためナッシュ均衡にはなりません。
- ア ナッシュ均衡はパレート最適であるため、社会的に最も効率的な結果が実現する。
- イ 繰り返しゲームにおいても、常に協力は実現されず囚人のジレンマが継続する。
- ウ 個々のプレイヤーにとって合理的な選択(支配戦略)の結果が、全員にとって望ましくない状態(ナッシュ均衡)になる構造を持つ。
- エ ナッシュ均衡は必ず1つだけ存在し、複数のナッシュ均衡が生じることはない。
囚人のジレンマの本質は「個々の合理的選択(支配戦略均衡)が社会的最適(パレート最適)と乖離すること」です。
ア:囚人のジレンマのナッシュ均衡はパレート最適ではない(全員が協力する結果の方が全員の利得が高い)。
イ:無限繰り返しゲームでは「しっぺ返し戦略」などにより協力が実現する場合がある。
エ:ナッシュ均衡は複数存在することがある(調整ゲームなど)。
まとめ
- 支配戦略:相手の戦略に関わらず常に自分の利得が最大となる戦略
- ナッシュ均衡:相手の戦略を所与として、誰も戦略を変えたくない状態(最善応答法で特定)
- 囚人のジレンマ:支配戦略均衡がパレート最適でない構造。個人合理性と集合合理性の乖離
- 繰り返しゲーム(無限):しっぺ返し戦略により協力が実現しうる
- 応用:カルテルの安定性・軍拡競争・関税合戦・広告競争に囚人のジレンマ構造









