ゲーム理論（ナッシュ均衡・囚人のジレンマ・支配戦略） | 中小企業診断士1次試験経済学・経済政策

ゲーム理論の問題で、「ナッシュ均衡はどれか」という問いに最初は迷っていました。「最善応答法」で各プレイヤーの最善を★で記録して★が重なるマスを探す、という手順を覚えてから解けるようになりました。利得表の読み方も含めて、一緒に整理してみましょう。

ゲーム理論とは

ゲーム理論は、複数のプレイヤーが互いの行動を意識しながら意思決定する状況を分析する経済学の手法です。企業の価格競争・広告戦略・国家間の貿易交渉など、「相手がどう動くか」を考慮しなければならない場面で使われます。

試験では「ナッシュ均衡」「支配戦略」「囚人のジレンマ」の3つの概念が頻出です。利得表（ペイオフマトリクス）を使ってこれらを特定する問題が出ます。

この記事で整理すること
支配戦略とナッシュ均衡の定義と特定方法／囚人のジレンマの仕組みと社会的最適との乖離／利得表の読み方／繰り返しゲームとカルテルの安定性

利得表の読み方

ゲーム理論では、2人のプレイヤーの戦略と利得を利得表（ペイオフマトリクス）で表します。行が「プレイヤーA」、列が「プレイヤーB」の戦略、各マスに（A の利得, B の利得）が書かれます。

	プレイヤーB
	協力	裏切り
プレイヤーA：協力	（3, 3）	（0, 5）
プレイヤーA：裏切り	（5, 0）	（1, 1）★

利得表の見方の基本

・各マス：（プレイヤーAの利得, プレイヤーBの利得）の順で書かれています
・行を固定してAの最大を探す / 列を固定してBの最大を探す
・★のついた（1,1）の「裏切り×裏切り」がナッシュ均衡（後述）
・（3,3）の「協力×協力」の方が両者にとって良いが、自力では実現しにくい→囚人のジレンマ

支配戦略とナッシュ均衡の定義

支配戦略とナッシュ均衡

DOMINANT STRATEGY

支配戦略

相手がどの戦略を選んでも、自分にとって常に最善となる戦略。

上の利得表では：
Aの立場：Bが「協力」→裏切り(5)>協力(3)、Bが「裏切り」→裏切り(1)>協力(0)
∴ Aの支配戦略は「裏切り」

同様にBの支配戦略も「裏切り」

常に最善の一手が存在する場合

NASH EQUILIBRIUM

ナッシュ均衡

相手の戦略を所与（固定）として、自分が最善の戦略を選んだ結果、誰も戦略を変えたくなくなる状態。

（裏切り, 裏切り）→ A：Bが裏切りなら裏切りが最善、B：Aが裏切りなら裏切りが最善。どちらも変える動機なし → ナッシュ均衡。

支配戦略均衡はナッシュ均衡の特殊ケース。

誰も「変えたい」と思わない状態

ナッシュ均衡の探し方（最善応答法）

① Bが「協力」を選んだとき → Aの最善は？各行のAの利得を比較（3vs5）→ 裏切り★
② Bが「裏切り」を選んだとき → Aの最善は？（0vs1）→ 裏切り★
③ Aが「協力」を選んだとき → Bの最善は？（3vs5）→ 裏切り★
④ Aが「裏切り」を選んだとき → Bの最善は？（0vs1）→ 裏切り★

すべてのマス目で「★」が付いたマスを探す。①②③④すべての★が重なる（裏切り, 裏切り）がナッシュ均衡。

囚人のジレンマの仕組み

囚人のジレンマ

先ほどの利得表が示す構造を囚人のジレンマ（Prisoner’s Dilemma）といいます。この名称は、以下のような状況の比喩に由来します。

囚人のジレンマの原型

二人の容疑者（A・B）が別々に尋問される。
・両方が黙秘（協力）→ それぞれ懲役1年
・一方が自白（裏切り）し他方が黙秘 → 自白した方は釈放、黙秘した方は懲役10年
・両方が自白（裏切り） → それぞれ懲役5年

合理的に考えると、相手が黙秘でも自白でも「自白する（裏切る）」方が得。しかし両方が自白すると「両方懲役5年」という最悪に近い結果になる。

囚人のジレンマの核心的な問題は、「個々にとって合理的な選択（裏切り）の積み重ねが、社会全体・両者にとって最悪の結果をもたらす」という点です。

状態	各自の利得	合計利得	評価
（協力, 協力）	（3, 3）	6	社会的最適（パレート最適）
（裏切り, 協力）	（5, 0）	5	裏切り側のみ最大
（協力, 裏切り）	（0, 5）	5	裏切り側のみ最大
（裏切り, 裏切り）★ナッシュ均衡	（1, 1）	2	ナッシュ均衡だが社会的に最悪

なぜ囚人のジレンマは社会問題になるのか

「個人の合理性（各自の利得最大化）」と「集団の合理性（社会全体の利得最大化）」が相反するため、市場に任せていても社会的最適（パレート最適）が実現されない点が問題です。

経済政策・企業戦略・国際交渉の多くがこの構造を持っています：
・軍拡競争、関税引き上げ合戦、環境規制を守らない企業
・カルテル参加企業が「抜け駆け」する誘因を持つ

繰り返しゲームとカルテルの安定性

一回限りのゲームでは囚人のジレンマが発生しますが、ゲームが繰り返される（無限回）場合は事情が変わります。

しっぺ返し戦略（Tit for Tat）

「最初は協力し、相手が裏切ったら次回以降は裏切る」という戦略。繰り返しゲームでは、裏切ると次回から報復されるため「長期的には協力し続ける方が得」と計算されます。

これがカルテル（価格協定）が長続きする理由の一つです。「今抜け駆けして安く売れば短期利益は大きいが、相手も価格を下げてきて長期的には共倒れになる」という認識が互いにあれば、協調（カルテル）が維持されやすくなります。

ゲームの種類	協力の実現可能性	理由
一回限りのゲーム	困難（囚人のジレンマ）	裏切りが支配戦略。将来の報復がない
有限回の繰り返し	最終回に崩壊（後ろ向き帰納法）	最終回は一回限りと同じ→裏切り。逆算で全回崩壊
無限回の繰り返し	実現可能（条件付き）	将来の協力の利益が裏切りの誘惑を上回れば協力が維持

「繰り返しゲームで協力が実現する」という話が最初は意外でした。「将来の損失を考えると今裏切る方が不合理になる」という長期視点が、企業間の協調（カルテルや業界慣行）を維持させているんですね。同時に「最終回が来ると一気に崩壊する」後ろ向き帰納法も面白い概念でした。

コンビニの広告競争で考える囚人のジレンマ

コンビニのチラシ広告で考える囚人のジレンマ

近所に2つのコンビニ（Aと B）があるとします。どちらも「チラシ広告を打つかどうか」を同時に決めなければなりません。

もし両方が広告を打たなければ、費用もかからず、お客さんはそれぞれに来て双方利益が出ます（協力=利得3）。でも、自分だけ広告を打って相手が打たなければ、お客さんを一気に奪えます（裏切り=利得5）。ならば「相手が広告を打つかどうかに関わらず、自分は広告を打った方が得」という判断になります。結果、両方が広告を打ち、費用だけかかって利益は小さい（1,1）という状態に落ち着いてしまいます。

「なぜ協力しないのか？」という逆説の問い

「なぜ2店舗とも広告費を節約して協力しないのか？」と感じるかもしれません。でも、2店舗が「お互い広告なし」を約束しても、相手が守らずに広告を出せば自分だけ損します。この「先に裏切った方が得をする」という誘因が、協力を不安定にします。

これが囚人のジレンマの本質で、カルテルが競争法で規制されても破られやすい理由でもあります。

過去問で確認してみましょう

下の利得表において、ナッシュ均衡として最も適切なものはどれか。利得は（企業A, 企業B）の順で示す。

	B：低価格	B：高価格
A：低価格	（2, 2）	（4, 1）
A：高価格	（1, 4）	（3, 3）

ア　（高価格, 高価格）：利得（3, 3）
イ　（低価格, 低価格）：利得（2, 2）
ウ　（低価格, 高価格）：利得（4, 1）
エ　（高価格, 低価格）：利得（1, 4）

解答・解説

正解：イ

最善応答法で確認します：
・Bが「低価格」のとき → Aの最善：低価格(2)>高価格(1) → 低価格★
・Bが「高価格」のとき → Aの最善：低価格(4)>高価格(3) → 低価格★
→ Aの支配戦略：低価格
・Aが「低価格」のとき → Bの最善：低価格(2)>高価格(1) → 低価格★
・Aが「高価格」のとき → Bの最善：低価格(4)>高価格(3) → 低価格★
→ Bの支配戦略：低価格

（低価格, 低価格）の利得（2,2）がナッシュ均衡。（高価格, 高価格）（3,3）は社会的に優れているが、どちらも「相手が高価格なら自分は低価格に変えると4になる」という誘因があるためナッシュ均衡にはなりません。

囚人のジレンマに関する記述として、最も適切なものはどれか。

ア　ナッシュ均衡はパレート最適であるため、社会的に最も効率的な結果が実現する。
イ　繰り返しゲームにおいても、常に協力は実現されず囚人のジレンマが継続する。
ウ　個々のプレイヤーにとって合理的な選択（支配戦略）の結果が、全員にとって望ましくない状態（ナッシュ均衡）になる構造を持つ。
エ　ナッシュ均衡は必ず1つだけ存在し、複数のナッシュ均衡が生じることはない。

解答・解説

正解：ウ

囚人のジレンマの本質は「個々の合理的選択（支配戦略均衡）が社会的最適（パレート最適）と乖離すること」です。

ア：囚人のジレンマのナッシュ均衡はパレート最適ではない（全員が協力する結果の方が全員の利得が高い）。
イ：無限繰り返しゲームでは「しっぺ返し戦略」などにより協力が実現する場合がある。
エ：ナッシュ均衡は複数存在することがある（調整ゲームなど）。