CHƯƠNG 14 CÁC TRÒ CHƠI LẶP LẠI: LƯỠNG ĐỀ NGƯỜI TÙ
14.1 Các ý chính
14.2 Sự ưa thích
14.3 Các trị chơi lặp lại
14.4 Việc lặp lại có hạn Lưỡng đề người tù
14.5 Việc lặp lại vô hạn Lưỡng đề người tù
14.6 Các chiến lược trong Lưỡng đề người tù lặp lại vô hạn
14.7 Một vài cân bằng Nash của Lưỡng đề người tù lặp lại vô hạn
14.8 Hàm thưởng phạt của Lưỡng đề người tù lặp lại vô hạn
14.9 Các cân bằng hồn hảo trị chơi con và đặc tính một độ lệch
14.10 Một vài cân bằng hồn hảo trị chơi con của Lưỡng đề người tù lặp lại vô hạn
14.11 Hàm thưởng phạt cân bằng hồn hảo trị chơi con của Lưỡng đề người tù lặp lại vô
hạn
14.12 Những kết luận chủ yếu
Điều kiện tiên quyết: Chương 5 và 7
Khi một nhóm các người chơi tương tác lặp đi lặp lại, mỗi thành viên có thể quy định hành động
của mình tại mỗi điểm theo thời gian dựa vào hành động trước đó của người chơi khác. Mơ hình
của trị chơi mở rộng (Chương 5-7) cho phép chúng ta nghĩ một cách chính xác về khả năng này.
Trong chương này và chương kế tiếp ta nghiên cứu các trò chơi mở rộng dạng này. Trong những
trò chơi này, một tập các người chơi thực hiện lặp đi lặp lại trong cùng một trò chơi chiến lược.
Trong chương này, trò chơi chiến lược là Lưỡng đề người tù, một ví dụ minh họa nhiều điểm
chính. Chương kế tiếp phân tích mở rộng đến trò chơi chiến lược tùy ý.
14.1 Các ý chính
Các ý chính trong lý thuyết này đó là người chơi có thể bị ngăn cản khỏi việc khai thác những
thuận lợi ngắn hạn bởi các “đe dọa” của “sự trừng phạt” là giảm hàm thưởng phạt dài hạn. Ví dụ,
giả sử rằng hai người lặp đi lặp lại việc trò chơi Lưỡng đề người tù (Phần 2.2), với hàm thưởng
phạt như trên Bảng 420.1. Xem C như là “sự hợp tác” và D như là “sự ly khai”
Như chúng ta đã biết, trị chơi chiến lược này có một cân bằng Nash duy nhất, trong đó mỗi
người chơi chọn D. Bây giờ xem xét chiến lược sau đây trong trị chơi lặp lại, được gọi là chiến
lược bóp cị nhanh:
Chọn C miễn là người chơi khác chọn C
Nếu trong chu kỳ bất kỳ nào mà người chơi khác chọn D, thì sẽ chọn D trong mọi chu kỳ
kế tiếp
419
C
D
C
$1, $1
$1, $1
D
$1, $1
$1, $1
Bảng 420.1 Lưỡng đề người tù
Chiến lược này bắt đầu bằng việc chơi hợp tác và liên tục làm cho đến khi người chơi khác ly
khai; một sự ly khai đơn bởi sự ly khai không ngừng của đối thủ, mà chúng ta có thể xem như là
sự trả đũa “trừng phạt” của đối thủ. Người chơi sẽ đáp ứng như thế nào nếu đối thủ sử dụng
chiến lược này? Nếu người chơi chọn C trong mọi chu kỳ, thì kết quả là (C, C) và hàm thưởng
phạt là 2 trong mọi chu kỳ. Nếu người chơi chuyển sang chọn D trong một vài chu kỳ, thì sẽ đạt
được giá trị là 3 trong chu kỳ đó (lợi ích trong ngắn hạn) và một hàm thưởng phạt là 1 trong mọi
chu kỳ kế tiếp (tổn thất trong dài hạn). Người chơi có thể đánh giá hiện tại cao hơn tương lai – vì
người chơi có thể khơng kiên nhẫn – nhưng miễn là giá trị mà người chơi gán vào hàm thưởng
phạt tương lại không quá nhỏ so sánh với giá trị mà người chơi gán cho hàm thưởng phạt hiện
tại, một chuỗi các hàm thưởng phạt (3, 1, 1, …) sẽ tệ hơn là chuỗi (2, 2, 2, …), vì thế tốt hơn là
người chơi nên chọn C trong mọi chu kỳ, thay v chuyển sang D trong một vài chu kỳ.
Lập luận này chỉ ra rằng nếu người chơi đủ kiên nhẫn, chiến lược chọn C sau mỗi quá khứ là đáp
ứng tốt nhất cho chiến lược bóp cị nhanh. Nếu đối thủ của bạn sử dụng chiến lược bóp cị nhanh,
thì kết quả khi bạn sử dụng chiến lược bóp cị nhanh cũng như kết quả khi bạn sử dụng chiến
lược là chọn C sau mỗi chu kỳ. Trong cả hai trường hợp, kết quả trong mỗi chu kỳ là (C, C)
(người chơi khác khơng ly khai, vì thế chiến lược bóp cị nhanh khơng chuyển thành hình phạt).
Và một sự chệch hướng khỏi chiến lược bóp cị nhanh liên quan đến việc sử dụng D một cách
khơng kích động, có cùng một biểu hiện như sự chệch hướng tương tự ra khỏi chiến lược cố định
C.
Vì thế khi người chơi đủ kiên nhẫn, cặp chiến lược trong đó cả hai người chơi sử dụng chiến
lược bóp cị nhanh là một cân bằng Nash của Trò chơi Lưỡng đề người tù lặp đi lặp lại: khơng có
người chơi nào có thể làm tốt hơn bằng cách chấp nhận chiến lược khác trong trò chơi lặp lại.
Kết quả của cân bằng này là (C, C) trong mọi chu kỳ. Kết luận này phù hợp với trực giác của
chúng ta là trong mối quan hệ dài hạn sẽ có một tầm hạn cho các chiến lược hỗ trợ qua lại mà
không tận dụng những lợi ích ngắn hạn.
Tuy nhiên, cặp chiến lược này khơng chỉ là cân bằng Nash của trị chơi lặp lại. Một cân bằng
Nash khác là cặp chiến lược trong đó mỗi người chơi chọn D sau mỗi quá khứ: nếu một người
chơi chấp nhận chiến lược này, thì người chơi khác khơng thể làm gì tốt hơn là chấp nhận chiến
lược của mình, bất kể là người chơi đó định giá tương lai như thế nào, bởi vì việc chọn D là mối
quan tâm của người chơi trong ngắn hạn và việc chọn C sẽ khơng có ảnh hưởng gì đến hành vi
tương lai của người chơi khác.
Phân tích này dẫn đến nhiều câu hỏi:
420
Người chơi cần phải kiên nhẫn như thế nào đối với trị chơi Lưỡng đề người tù lặp lại, để
có một cân bằng Nash trong đó kết quả là (C, C) trong mọi chu kỳ.
Có kết quả nào khác được tạo ra bởi các cân bằng Nash?
Ta đã thấy trong Chương 5 là các cân bằng Nash của trò chơi mở rộng không phải luôn
luôn hấp dẫn trực giác bởi vì các hành động mà họ phải thực hiện sau mỗi quá khứ mà
kết quả do chệch hướng có thể khơng tối ưu. Kí hiệu của cân bằng hồn hảo trò chơi con,
với yêu cầu các chiến lược phải tối ưu sau mỗi q khứ có thể, khơng chỉ đạt được nếu
các người chơi tuân theo chiến lược của họ, có thể hấp dẫn hơn. Cặp chiến lược nào trong
đó mỗi người chơi sử dụng chiến lược bóp cị nhanh là một cân bằng hồn hảo trị chơi
con? Như thế, mỗi người chơi có phạt tối đa người chơi khác nếu họ chệch hướng khơng?
Nếu khơng, trị chơi có cân bằng hồn hảo trị chơi nào hỗ trợ cho những kết quả mong
muốn này khơng?
Chiến lược bóp cị nhanh quy định sự đáp trả khá chặt chẽ. Có các cân bằng Nash nào
hoặc các cân bằng hồn hảo trị chơi nào mà trong đó chiến lược của các người chơi
trừng phạt sự chệch hướng ít khắc khe hơn khơng?
Lập luận này có thể áp dụng đối với trị chơi nào khác hơn Lưỡng đề người tù?
Chương này sẽ tập trung trả lời những câu hỏi này, nhưng câu cuối cùng sẽ được giải quyết trong
chương kế tiếp. Tôi bắt đầu mơ hình hóa trị chơi lặp lại một cách ngắn gọn, bắt đầu với sự ưa
thích của người chơi.
14.2 Các sự ưa thích
14.2.1 Sự chiết khấu
Kết quả của một trị chơi lặp lại là một chuỗi các kết quả của một trò chơi chiến lược. Người chơi
đánh giá chuỗi này như thế nào? Tôi giả sử rằng người chơi gán một hàm thưởng phạt đối với
mỗi kết quả của trò chơi chiến lược và đánh giá chuỗi các kết quả trong trò chơi chiến lược bằng
tổng chiết khấu của chuỗi tương ứng của các hàm thưởng phạt. Nói một cách ngắn gọn, mỗi
người chơi i có một hàm thưởng phạt ui đối với trị chơi chiến lược đó và có một nhân tố chiết
khấu i là một giá trị giữa 0 và 1 sao cho người chơi đánh giá chuỗi kết quả ( a1 , a 2 ,..., aT ) của
trò chơi chiến lược này bằng tổng sau:
T
ui (a1 ) i ui (a 2 ) i2ui (a 3 ) ... iT 1ui (aT ) it 1 (a t )
t 1
(Chú ý rằng chỉ số trên trong biểu thức này được sử dụng cho hai mục đích: a t là hồ sơ hành
t
động trong chu kỳ t, trong khi i là nhân tố chiết khấu i mũ t).
421
Nếu i gần bằng 0, người chơi quan tâm rất ít đến tương lai đó – người chơi rất thiếu kiên nhẫn,
nếu i gần bằng 1, người chơi rất kiên nhẫn. Tôi giả sử rằng từ đầu đến cuối tất cả người chơi có
cùng một nhân tố chiết khấu i đối với mọi i.
Tại sao một người định giá hàm thưởng phạt tương lai nhỏ hơn giá trị hiện tại. Có lẽ là người
chơi khơng đủ kiên nhẫn. (Có lẽ sự đe dọa của cái chết thiên vị cho những người được tạo ra sớm
hơn, dẫn đến sự tiến hóa của lồi người là sự ưa thích về sự thiếu kiên nhẫn). Hoặc có lẽ mặc dù
sự ưa thích cơ sở của người chơi là khơng thể hiện sự thiếu kiên nhẫn, người chơi tiến hành tính
tốn xác suất dương mà trong đó người chơi có thể chết trong một chu kỳ bất kỳ. Hoặc, nếu kết
quả trong mỗi chu kỳ thể hiện số tiền mà người chơi có thể nhận được, có thể người sẽ cư xử
theo cái cách là người chơi không kiên nhẫn, do số tiền mà người chơi có thể vay và cho vay số
tiền với một mức lãi suất dương. Nếu người chơi có thể vay và cho vay tại một mức lãi suất r, và
sự ưa thích cơ sở của người chơi là một chuỗi các hàm thưởng phạt bằng tiền, thể hiện sự thiếu
kiên nhẫn, thì người chơi sẽ khơng thiên lệch, ví dụ giữa chuỗi (100$, 100$) và chuỗi (100$ +
100$/(1+r), 0), bởi vì khi cho vay số tiền 100$/(1+r) ở chu kỳ đầu tiên, người chơi sẽ nhận được
số tiền 100$ tại chu kỳ thứ hai. Thật ra, với những giả thiết này, sự ưa thích của người chơi được
biểu diễn ngắn gọn bằng cách tổng chiết khấu hàm thưởng phạt của người chơi với nhân tố chiết
khấu 1/(1+r): một chuỗi bất kỳ có thể tính ra từ chuỗi khác bằng cách đưa lãi suất cho vay hoặc
lãi suất đi vay vào.
Giả thiết mà sự ưa thích của mọi người đối với các chuỗi kết quả được biểu diễn bằng tổng chiết
khấu thì khá hạn chế: sự ưa thích của mọi người khơng nhất thiết phải ở dạng này. Tuy niên,
tổng chiết khấu thể hiện một ý tưởng đơn giản là mọi người có thể định giá hiện tại cao hơn
tương lai, và nó thể hiện khơng quá tối nghĩa đối với những đặc tính khác bất kỳ của sự ưa thích
đối với vấn đề mà chúng ta quan tâm.
Giả sử rằng sự ưa thích của người chơi đối với chuỗi ( w1 , w2 ,...) của hàm thưởng phạt được biểu
diễn bằng tổng có chiết khấu của các hàm thưởng phạt
t 1
t 1wt , với 0 1 . Đối với chuỗi
bất kỳ ( w1 , w2 ,...) , có một giá trị c sao cho người chơi khơng có sự thiên lệch giữa chuỗi
( w1 , w2 ,...) và chuỗi hằng số (c, c,...) . Kí hiệu tổng có chiết khấu của chuỗi ( w1 , w2 ,...) là V.
Tổng có chiết khấu của chuỗi (c, c,...) là c /(1 ) (xem thêm Phần 17.5 nếu bạn đọc không biết
tính tổng cấp số nhân), vì thế người chơi khơng có sự thiên lệch giữa hai chuỗi nếu c (1 )V .
Như thế ta có thể gọi (1 )V là trung bình chiết khấu của chuỗi ( w1 , w2 ,...) .
Nói tóm lại, trung bình chiết khấu của chuỗi các hàm thưởng phạt ( w1 , w2 ,...) bất kỳ đối với
t 1 t
nhân tố chiết khấu là (1 ) t 1 w . Nhân tố 1 là một hằng số, vì thế đối với giá trị đã
cho , tổng có chiết khấu và trung bình chiết khấu biểu diễn cùng một sự ưa thích. Chú ý rằng
đố ivới nhân tốt chiết khấu bất kỳ nằm giữa 0 và 1, và số c bất kỳ, trung bình chiết khấu của
một chuỗi hằng số của các hàm thưởng phạt (c, c,...) sẽ bằng c.
422
14.2.2 Hàm thưởng phạt cân bằng
Khi chúng ta xem xét sự ưa thích đối với các kết quả tất định theo thời gian, ta thấy rằng nhiều
hàm thưởng phạt biểu diễn cùng sự ưa thích. Cụ thể, nếu u là hàm thưởng phạt biểu diễn sự ưa
thích của một người đối với kết quả tất định, thì một hàm tăng của u cũng biểu diễn sự ưa thích
của người này (Xem Phần 1.2.2). Khi chúng ta xem xét sự ưa thích ngẫu nhiên theo thời gian, ta
thấy rằng sự tương đương của các hàm thưởng phạt là khá hạn chế: nếu u là hàm thưởng phạt
Bernoulli với giá trị kỳ vọng biểu diễn sự ưa thích của một người với sự ngẫu nhiên, thì hàm
thưởng phạt của người chơi khác với giá trị kỳ vọng biểu diễn hàm thưởng phạt sẽ là một hàm
tuyến tính tăng của u (xem Phần 4.12.2).
Trong phần này, nhiều hàm thưởng phạt biểu diễn cùng một sự ưa thích. Như trong trường hợp
sự ưa thích đối với sự ngẫu nhiên theo thời gian, hàm thưởng phạt tương đương là hàm tuyến
tính của người khác. Cụ thể, nếu sự ưa thích của một người được biểu diễn bằng trung bình chiết
khấu của hàm thưởng phạt với hàm thưởng phạt u và nhân tố chiết khấu , thì nó cũng được
biểu diễn bằng trung bình chiết khấu của hàm thưởng phạt u và nhân tố chiết khấu , với
và là các số với > 0.
? BÀI TẬP 423.1 (Sự tương đương của các hàm thưởng phạt) Minh họa cho câu kết luận trên.
Hơn nữa, chuyển đổi tuyến tính của u chỉ là một hàm bảo tồn sự ưa thích: nếu trung bình chiết
khấu sử dụng hàm thưởng phạt u và v và cùng một nhân tố chiết khấu biểu diễn các sự ưa thích,
thì v u đối với một vài giá trị và 0 .
Ý nghĩa chính của kết quả này là hàm thưởng phạt khác nhau của cùng một trò chơi chiến lược
có thể tạo ra sự ưa thích khác nhau trong trò chơi lặp lại, ngay cả nếu chúng ta chỉ quan tâm đến
các kết quả tất định. Ví dụ, sự ưa thích của người chơi trong trị chơi lặp lại dựa vào Lưỡng đề
người tù với hàm thưởng phạt như trên Bảng 420.1 khác với sự ưa thích của người chơi trong trò
chơi lặp lại dựa vào Lưỡng đề người tù trong đó các cặp hàm thưởng phạt (0, 3) và (3, 0) trên
Bảng 420.1 được thay bằng (0, 5) và (5, 0). Ví dụ, khi nhân tố chiết khấu gần bằng 1, mỗi người
chơi thích chuỗi kết quả ((C, C), (C, C) hơn chuỗi kết quả ((D, C), (C, D)) trong trường hợp đầu,
nhưng không phải như thế trong trường hợp thứ hai. Vì thế, tơi muốn đề cập đến một trị chơi
Lưỡng đề người tù lặp lại nói chung, chứ không phải đề cập đến một Lưỡng đề người tù cụ thể.
Nói một cách tổng quát hơn, trong suốt chương này và chương kế tiếp, tôi định nghĩa trò chơi
chiến lược theo ý nghĩa của hàm thưởng phạt hơn là sự ưa thích: một trị chơi chiến lược bao
gồm một tập hợp các người chơi, và đối với mỗi người chơi có một tập các hành động và các
hàm thưởng phạt. Trò chơi bất kỳ nào mà trong đó các hàm thưởng phạt được xếp hạn như trên
Bảng 420.1 thì được gọi là một trị chơi Lưỡng đề người tù.
14.3 Trò chơi lặp lại
Với trò chơi chiến lược G đã cho, một trò chơi lặp lại G là một trị chơi mở rộng với thơng tin
hồn hảo và di chuyển đồng thời (xem Định nghĩa 206.1) trong đó một quá khứ là một chuỗi các
hồ sơ hành động trong G . Sau mỗi quá khứ không cuối cùng, mỗi người chơi chọn một hành
423
động trong G . Chiều dài của mỗi quá khứ có thể là một số dương xác định T , ta gọi là trò chơi
lặp lại xác định, hoặc số dương khơng xác định, ta gọi là trị chơi lặp lại khơng xác định.
ĐỊNH NGHĨA 424.1 (Trị chơi lặp lại) Gọi G là một trị chơi chiến lược. Kí hiệu tập hợp các
người chơi là N và tập hợp các hành động và hàm thưởng phạt của mỗi người chơi i lần lượt là
Ai và ui . Trò chơi G lặp lại T -chu kỳ, với nhân tố chiết khấu trong trị chơi mở rộng với
thơng tin hồn hảo và di chuyển đồng thời, trong đó
Tập hợp các người chơi là N
Tập các quá khứ cuối cùng là tập của các chuỗi ( a1 , a 2 ,...aT ) của hồ sơ hành động trong
G.
Hàm người chơi gán tập tất cả người chơi đối với mỗi quá khứ ( a1 , a 2 ,...a t ) (đối với mọi
giá trị t)
Tập các hành động có sẵn đối với người chơi i bất kỳ sau mỗi quá khứ là Ai .
Mỗi người chơi i đánh giá mỗi quá khứ cuối cùng ( a1 , a 2 ,...aT ) căn cứ vào trung bình
T
t 1
t
chiết khấu (1 ) t 1 ui (a ) .
Trị chơi lặp lại khơng xác định G đối với nhân tố chiết khấu chỉ khác nhau là trong tập quá
khứ cuối cùng là một chuỗi không xác định ( a1 , a 2 ,...) và hàm thưởng phạt của mỗi người chơi i
t 1
t
đối với quá khứ cuối cùng ( a1 , a 2 ,...) là một trung bình chiết khấu (1 ) t 1 ui (a ) . Trong
cả hai trường hợp, quá khứ cuối cùng cũng được gọi là một đường kết quả.
14.4 Lưỡng đề người tù lặp lại xác định
14.4.1 Cân bằng Nash
Chiến lược của một người chơi trong trò chơi mở rộng chỉ định hành động của người chơi đối
với tất cả quá khứ có thể xảy ra sau mỗi lượt di chuyển của người chơi, bao gồm cả các quá khứ
mâu thuẫn với chiến lược của người chơi (xem Định nghĩa 208.1). Vì thế, chiến lược của người
chơi i trong một trò chơi lặp lại T-chu kỳ của trò chơi chiến lược G chỉ định một hành động của
người chơi i (là một thành phần của Ai ) tại điểm bắt đầu trò chơi (nghĩa là sau quá khứ rỗng )
và đối với mọi chuỗi kết quả ( a1 , a 2 ,...a t ) của G với 1 t T 1 .
Xem xét trò chơi lặp lại T-chu kỳ của Lưỡng đề người tù. Giả sử rằng chiến lược một người chơi
chọn là D trong mọi chu kỳ, đối với mọi quá khứ có thể. Người chơi khác có thể làm gì? Dù
người chơi có làm gì, thì đối thủ cũng vẫn chọn D trong mọi chu kỳ, vì thế người chơi khơng có
cách nào tốt hơn là cũng chọn D trong mọi chu kỳ. Vì thế, cặp chiến lược trong đó chiến lược
của mỗi người chơi là chọn D trong mọi chu kỳ đối với mọi quá khứ có thể là một cân bằng Nash
424
củ trò chơi T-chu kỳ. Cặp chiến lược này tạo ra đường kết quả trong đó kết quả là (D, D) trong
mọi chu kỳ.
Tôi cho rằng mọi cân bằng Nash tạo ra cùng một đường kết quả, vì thế trị chơi không thể hiện
được ý tưởng đã đề cập đến ở phần giới thiệu trong chương này, đó là kết quả hợp tan có thể
được duy trì do sự đe dọa bị trừng phạt do chệch hướng. Lập luận rất đơn giản: sự chệch hướng
thành C thay vì D trong chu kỳ cuối đó là người chơi nào chọn C không thể bị phạt – kết quả
trong mỗi chu kỳ kế tiếp là (D, D) trong mọi trường hợp – vì thế khơng có người chơi nào đạt
được tối ưu nếu chọn C trong chu kỳ bất kỳ. Nói một cách ngắn gọn, giả sử rằng cặp chiến lược
( s1 , s2 ) tạo ra một đường kết quả trong đó ít nhất một hành động của người chơi khác với D
trong ít nhất một chu kỳ. kí hiệu t là chu kỳ cuối mà kết quả không phải là (D, D), và giả sử rằng
hành động của người chơi 1 là C trong chu kỳ đó. Tơi cho rằng người chơi 1 có thể chệch hướng
khỏi s1 và làm tăng hàm thưởng phạt của mình. Giả sử rằng người chơi chọn chiến lược s1 khác
với s1 ở chỗ từ chu kỳ t, người chơi chọn D cho mọi chu kỳ kế tiếp. Đường kết quả được tạo ra
bởi cặp chiến lược ( s1, s2 ) , khác với đường kết quả được tạo ra bởi ( s1 , s2 ) chỉ ở chỗ là hành
động của người chơi 1 trong chu kỳ t, là D chứ không phải là C, và có thể cũng là hành động của
người chơi 2 trong chu kỳ t 1 và sau đó. Trong chu kỳ t, hành động của người chơi 2 trong
( s1, s2 ) cũng như trong ( s1 , s2 ) , bởi vì s1 chỉ khác s1 kể từ chu kỳ t trở đi. Từ chu kỳ t 1 trở đi,
hành động của người chơi 1 trong cả hai trường hợp đều là D. Vì thế, hàm thưởng phạt của người
chơi 1 bằng nhau trong cả hai cặp chiến lược trong chu kỳ t 1 , thì trong chu kỳ t , hàm thưởng
phạt trong ( s1, s2 ) cao hơn trong ( s1 , s2 ) , và trong chu kỳ từ t 1 đến T, hàm thưởng phạt trong
( s1, s2 ) ít nhất là cao bằng ( s1 , s2 ) . Đồ thị 425.1 chỉ ra đường kết quả được tạo ra từ mỗi cặp
chiến lược và mối quan hệ giữa hàm thưởng phạt của người chơi 1 trong mỗi chu kỳ.
Ta kết luận rằng mỗi cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại xác định tạo ra kết
quả (D, D) trong mọi chu kỳ. Chiến lược của người chơi có thể chỉ định một hành động khác với
D đối với các quá khứ mà trong đó kết quả trong một vài chu kỳ không phải là (D, D) – nó có thể
hứa hẹn hợp tác nếu người chơi khác cũng hợp tác – nhưng kết quả được tạo ra bởi cặp chiến
lược cân bằng bất kỳ là (D, D) trong mọi chu kỳ (khơng có người chơi nào chọn C, vì thế khơng
có sự hợp tác nào được tạo ra). Cụ thể, kí hiệu của cân bằng Nash khơng giải thích ý tưởng đã
thảo luận ở phần đầu chương.
14.4.2 Cân bằng hồn hảo trị chơi con
Mọi cân bằng hồn hảo trị chơi con của một trị chơi mở rộng là một cân bằng Nash, vì thế ta
biết rằng mọi cbng hồn hảo trị chơi con của trò chơi Lưỡng đề người tù lặp lại xác định, giống
như mọi cân bằng Nash, tạo ra kết quả (D, D) trong mọi chu kỳ. Nhưng đối với một cân bằng
hồn hảo trị chơi con, ta có thể giới hạn thêm những chiến lược này.
BÀI TẬP 426.1 (Cân bằng hoàn hảo trò chơi con của trò chơi Lưỡng đề người tù lặp lại xác
định) Chỉ ra rằng trò chơi Lưỡng đề người tù lặp lại xác định có một cân bằng hồn hảo trị chơi
con duy nhất trong đó chiến lược của mỗi người chơi là chọn D trong mọi chu kỳ.
425
14.5 Lưỡng đề người tù lặp lại không xác định
Lập luận rằng trong mọi cân bằng Nash của Lưỡng đề người tù lặp lại xác định, mỗi hành động
của người chơi là D trong mọi chu kỳ phụ thuộc vào yếu tố là mọi đường kết quả trong dạng trò
chơi này có một chu kỳ cuối trong đó ít nhất một người chơi chọn C. Trị chơi trong đó có thể
chơi mãi, có đường kết quả mà trong đó mỗi người chơi và mỗi chu kỳ t , có một chu kỳ tương
lai trong đó hành động của người chơi là C, vì thế bằng cách chọn D thay vì chọn C, người chơi
có thể trừng phạt người chơi khác do chệch hướng trong chu kỳ t. Điều nay dẫn đến ý kiến là trị
chơi lặp lại khơng xác định có thể là một mơ hình phù hợp mà giải thích được ý tưởng là sự hợp
tác có thể được duy trì do chiến lược “trừng phạt” khi người chơi tương tác lặp đi lặp lại.
Hầu hết các tương tác không phải là cuối cùng đối với số chu kỳ xác định được xác định trước
(như trong mơ hình của trò chơi lặp lại xác định) cũng như đối với chu kỳ liên tục không xác
định. Giả thiết nào giải thích tốt hơn lý do chiến lược của người chơi? Như chúng ta đã thấy,
trong mơ hình của trị chơi Lưỡng đề người tù lặp lại xác suất, chu kỳ xác định cố định áp dụng
một ảnh hưởng áp đảo trong hành vi của người chơi. Trực giác cho thấy rằng trong nhiều tương
tác kéo dài, ngày kết thúc có thể đóng vai trị rất nhỏ trong việc tính tốn chiến lược của người
chơi cho đến khi nó sắp xảy ra. Trong trường hợp này, mơ hình trong đó trị chơi diễn ra liên tục
khơng xác định có lẽ giải thích sự quan tâm tương ứng với lựa chọn chiến lược của người chơi
tốt hơn là mơ hình trị chơi lặp lại xác định.
Trước khi nghiên cứu các cân bằng của trị chơi Lưỡng đề người tù lặp lại khơng xác suất, tôi
thảo luận về cách thuận lợi để mô tả một chiến lược.
14.6 Các chiến lược trong Lưỡng đề người tù lặp lại không xác định
Một chiến lược của người chơi i trong một trị chơi lặp lại khơng xác định G chỉ định một hành
động của người chơi i (là một thành phần của Ai ) đối với mọi chuỗi kết quả ( a1 , a 2 ,...a t ) của G .
Ví dụ, chiến lược bóp cị nhanh đối với một Lưỡng đề người tù lặp lại không xác định đã đề cập
đến ở Phần 14.1 được định nghĩa như sau: si ( ) C và
C neu (a1j ,..., a tj ) (C ,..., C )
si (a , a ,...a )
D trong truong hop khac
1
2
t
(426.2)
Đối với mọi quá khứ ( a1 ,..., a t ) với j là người chơi khác. Như thế, người chơi i chọn C tại điểm
bắt đầu trò chơi (sau quá khứ rỗng ) và sau quá khứ bất kỳ trong đó mỗi hành động trước đó
của người chơi j là C, và là D sau mỗi quá khứ khác.
Ta có thể nghĩ rằng chiến lược này có hai trạng thái: một gọi là C , trong đó C được chọn, và
trạng thái khác gọi là D, trong đó D được chọn. Đầu tiên trạng thái là C.
Nếu, khi trạng thái đang là C, người chơi khác chọn D, thì trạng thái chuyển sang D, và sẽ ở lại
trạng thái đó mãi. Đồ thị 427.1 trình bày một chiến lược khi ta nghĩ về những dạng này. Trong
hộp bên trái, với đường đậm màu, biểu diễn trạng thái ban đầu C, trong đó người chơi chọn hành
động C. Trạng thái vẫn là C, trừ khi người chơi khác chọn D (được đặt tên là (, D) nằm dưới
426
mũi tên, trong trường hợp đó trạng thái thay đổi thành D, và người chơi khác chọn D. (Tôi sử
dụng quy ước là trạng thái vẫn duy trì như thế trừ khi một sự kiện xảy ra, đó là tên của một trong
các mũi tên bắt nguồn từ trạng thái đó). Khi trạng thái D đạt đến, thì nó khơng bao giờ rời khỏi:
khơng có mũi tên nào bắt đầu từ hộp đó cho trạng thái D.
Một chiến lược bất kỳ nào cũng có thể biểu diễn như trên Đồ thị 427.1. Trong rất nhiều trường
hợp, đồ thị như thế này thì dễ giải thích hợp là kí hiệu của hành động diễn ra sau mỗi quá khứ
như được biểu diễn trong cơng thức (426.2).
Đồ thị 427.1 Chiến lược bóp cò cho trò chơi Lưỡng đề người tù lặp lại khơng xác định.
Đồ thị 427.2 Chiến lược cho trị chơi Lưỡng đề người tù lặp lại không xác định mà có sự trừng phạt sự
chệch hướng trong ba chu kỳ.
Đồ thị 427.3 Chiến lược ăn miếng trả miếng cho trò chơi Lưỡng đề người tù lặp lại không xác định.
Đồ thị 427.2 chỉ ra một chiến lược mà gây ra sự trừng phạt ít khắc nghiệt hơn chiến lược bóp cò
nhanh. Chiến lược này trừng phạt sự chệch hướng chỉ trong ba chu kỳ: nó đáp ứng sự chệch
hướng bằng cách chọn hành động D trong ba chu kỳ, và sau đó chuyển lại C, bất kể người chơi
khác cư xử như thế nào trong suốt quá trình trừng phạt của mình. (Chú ý rằng trong chiến lược
này. Như trong chiến lược bóp cị nhanh, q trình chuyển đổi xảy ra từ trạng thái ban đầu chỉ
nếu người chơi khác chọn D. Ở phần sau (Phần 14.10), ta sẽ gặp các chiến lược mà trong đó việc
chuyển đổi có thể là bị gây ra do hành động của chính người chơi).
Trong chiến lược trả đũa, chiến lược của sự trừng phạt phụ thuộc vào hành động của người bị
phạt. Nếu người đó tiếp tục chọn D, thì sự trả đũa tiếp tục; nếu người đó chuyển thành C, thì sự
trả đũa cũng chuyển thành C. Chiến lược có thể được mô tả ngắn gọn: làm điều mà người chơi
khác đã làm trong chu kỳ trước đó. Xem minh họa ở Đồ thị 427.3
427
? BÀI TẬP 428.1 (Các chiến lược trong trò chơi Lưỡng đề người tù lặp lại không xác định) Biểu
diễn các chiến lược sau cho trò chơi Lưỡng đề người tù lặp lại không xác định như trên Đồ thị
427.1.
a. Chọn C trong chu kỳ 1 và sau quá khứ bất kỳ nào mà trong đó người chơi khác chọn C
trong mọi chu kỳ ngoại trừ chu kỳ vừa rồi; chọn D sau quá khứ bất kỳ nào khác. (Như
thế, sự trừng phạt là nghiêm khắc, nhưng đầu tiên nó bị trì hỗn một chu kỳ).
b. Chọn C trong chu kỳ 1 và sau quá khứ bất kỳ nào mà trong đó người chơi khác chọn D
trong nhiều nhất một chu kỳ; chọn D sau quá khứ bất kỳ nào khác. (Như thế sự trừng phạt
là nghiêm khắc, nhưng một sự sai lệch thì có thể được tha thứ).
c. (Pavlov, hay duy trì chiến thắng, chuyển đổi thất bại) Chọn C trong chu kỳ 1 và sau mỗi
quá khứ trong đó kết quả trong chu kỳ cuối cùng có thể là (C, C) hoặc (D, D); chọn D sau
bất kỳ quá khứ nào khác. (Như thế, chọn cùng một hành động trở lại nếu kết quả khá tốt
đối với bạn, và chuyển hành động nếu nó khơng tốt).
14.7 Một vài cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại không xác định
Nếu một người chơi chọn D sau mọi quá khứ trong một trò chơi Lưỡng đề người tù lặp lại khơng
xác suất, thì người chơi khác tốt hơn là cũng nên chon như thế (bởi vì (D, D) là một cân bằng
Nash của Lưỡng đề người tù). Vì thế, cặp chiến lược trong đó mỗi người chơi chọn D sau mỗi
quá khứ là một cân bằng Nash của trị chơi lặp lại khơng xác định.
Lập luận tại phần đầu của chương đã cho rằng nếu người chơi đủ kiên nhẫn, thì trị chơi Lưỡng
đề người tù lặp lại khơng xác định sẽ có các cân bằng khác, ít ảm đạm hơn – ví dụ, cặp chiến
lược mà trong đó mỗi người chơi sử dụng chiến lược bóp cị nhanh đã được định nghĩa trên Đồ
thị 427.1. Bây giờ tôi lập luận một cách ngắn gọn. Từ đầu đến cuối, tơi xem xét trị chơi Lưỡng
đề người tù lặp lại khơng xác định trong đó nhân tố chiết khấu của mỗi người chơi là và hàm
thưởng phạt một đợt được trình bày trên Bảng 420.1.
14.7.1 Chiến lược bóp cị nhanh
Giả sử rằng người chơi 1 sử dụng chiến lược bóp cị nhanh. Nếu người chơi 2 sử dụng cùng một
chiến lược, thì kết quả là (C, C) trong mọi chu kỳ, vì thế người chơi 2 đạt được chuỗi hàm
thưởng phạt là (2, 2, …) với trung bình chiết khấu là 2.
Nếu người chơi 2 chấp nhận một chiến lược mà tạo ra chuỗi kết quả khác, thì trong ít nhất một
chu kỳ, hành động của người chơi 2 là D. Trong tất cả các chu kỳ tiếp theo, người chơi 1 chọn D
(sự lựa chọn D của người chơi 2 làm gây ra sự trừng phạt nghiêm khắc), vì thế sự chệch hướng
tốt nhất cho người chơi 2 là chọn D trong mọi chu kỳ kế tiếp (bởi vì D là đáp ứng tốt nhất duy
nhất của người chơi đối với D). Lui lại cho đến chu kỳ đầu tiên mà trong đó người chơi 2 chọn
D, người chơi đạt được hàm thưởng phạt bằng 2 trong mỗi chu kỳ, như khi người chơi 2 sử dụgn
chiến lược bóp cị nhanh. Lần lượt như thế, người chơi 2 đạt được chuỗi hàm thưởng phạt là (3,
1, 1,…) (người chơi 2 thu được một đơn vị hàm thưởng phạt trong chu kỳ mà mình chệch hướng,
và mất đi một đơn vị trong mọi chu kỳ kế tiếp), với trung bình chiết khấu là:
(1 )(3 2 3 ...) (1 )(3
)
1
3(1 )
Vì thế, người chơi 2 khơng thể tăng hàm thưởng phạt bằng sự chệch hướng nếu và chỉ nếu
428
3(1 ) 2 ,
1
1
2
2
Hoặc . Ta kết luận rằng nếu , thì cặp chiến lược trong mỗi người chơi sử dụng chiến
lược bóp cị nhanh được định nghĩa trên Đồ thị 427.1 là một cân bằng Nash của Lưỡng đề người
tù lặp lại không xác định với hàm thưởng phạt một lần như trên Bảng 420.1.
BÀI TẬP 429.1 (Chiến lược bóp cị nhanh trong trò chơi Lưỡng đề người tù tổng quát) Tìm điều
kiện của nhân tố chiết khấu để cặp chiến lược trong đó mỗi người chơi sử dụng chiến lược
bóp cị nhanh là một cân bằng Nash của trị chơi Lưỡng đề người tù lặp lại không xác định trên.
C
C
x, x
D
0, y
D
y, 0
1, 1
Bảng 429.1. Trò chơi lưỡng đề người tù trong Bài tập 429.1. Các thông số x, y thỏa 1 x y
14.7.2 Sự trừng phạt bị giới hạn
Xem xét trường hợp tổng quát của chiến lược trừng phạt bị giới hạn như trên Đồ thị 427.2 trong
đó một người chơi mà chọn D bị phạt trong k chu kỳ. (Trong chiến lược ở Đồ thị 427.2, ta có
k 3 ; trong chiến lược bóp cị nhanh, k là một số lớn khơng xác định). Kí hiệu chiến lược là
s P (k ) . Nếu một người chơi chấp nhận chiến lược này, thì người chơi khác có tối ưu nếu cùng
như thế? Giả sử rằng người chơi 1 sử dụng chiến lược đo. Nếu s P (k ) không phải là đáp ứng tốt
nhất đối với người chơi 2, thì đáp ứng tốt nhất của người chơi 2 là chọn D trong một vài chu kỳ
(ngược lại, kết quả là (C, C) trong mọi chu kỳ, như khi người chơi sử dụng chiến lược s P (k ) ). Kí
hiệu t là chu kỳ đầu tiên mà người chơi 2 chọn D. Thì người chơi 1 chọn D từ chu kỳ t 1 đến
t k , bất kể lựa chọn của người chơi 2 là như thế nào, vì thế người chơi 2 cũng nên chọn D
trong những chu kỳ đó. Trong chu kỳ t k 1 , người chơi 1 chuyển sang chọn C (bất kể hành
động của người chơi 2 trong chu kỳ t k như thế nào), và người chơi 2 đối mặt với tình huống y
như tình huống ở đầu trị chơi. Vì thế, nếu đáp ứng tốt nhất của người chơi 2 đối với s P (k ) tạo ra
cho người chơi hàm thưởng phạt tốt hơn trong s P (k ) , thì nó cũng như thế từ chu kỳ t đến chu kỳ
t k 1 , trong đó nó tạo ra cho người chơi 2 hàm thưởng phạt trung bình chiết khấu là:
(1 )(3 2 ... k ) 3(1 ) (1 k )
(Xem thêm (499.1) về công thức tổng cấp số nhân xác định). Chiến lược s P (k ) tạo ra cho người
chơi hàm thưởng phạt bằng 2 trong mỗi chu kỳ đó, và vì thế hàm thưởng phạt trung bình chiết
khấu từ chu kỳ t tới chu kỳ t k 1 là:
(1 )(2 2 2 2 3 ... 2 k ) 2(1 k 1 ) .
Vì thế, chiến lược s P (k ) là đáp ứng tốt nhất đối với chính nó nếu và chỉ nếu
2(1 k 1 ) 3(1 ) (1 k ) ,
Hoặc k 1 2 1 0 . Nếu k 1 , khơng có giá trị nhỏ hơn 1 nào thỏa mãn bất phương trình
trên: một chu kỳ trừng phạt không đủ khắc khe để làm thay đổi sự chệch hướng, tuy nhiên người
429
chơi thì rất kiên nhẫn. Nếu k 2 , thì bất phương trình thỏa khi 0.62 (xấp xỉ), và nếu k 3 ,
thì bất phương trình thỏa khi 0.55 . Khi k tăng, biên độ dưới của sẽ tiếp cận 1/2, biên độ
dưới là áp dụng với chiến lược khắt khe.
Ta kết luận rằng cặp chiến lược trong đó mỗi người chơi trừng phạt người chơi khác k chu kỳ
trong khi xảy ra sự chệch hướng là một cân bằng Nash của trị chơi lặp lại khơng xác định khi
k 2 , và đủ lớn. Vì thế, sự trừng phạt ngắn hạn khá hiệu quả để đạt được kết quả mong đợi
(C , C ) chỉ nếu các người chơi đủ kiên nhẫn.
? BÀI TẬP 430.1 (Chiến lược trừng phạt bị giới hạn trong trò chơi Lưỡng đề người tù lặp lại
khơng xác định) Tìm điều kiện về k , x, y và nhân tố chiết khấu để cặp chiến lược trong đó
mỗi người chơi trừng phạt sự chệch hướng bằng cách chọn D trong k chu kỳ, là một cân bằng
Nash của trò chơi Lưỡng đề người tù lặp lại không xác định trên Bảng 429.1.
14.7.3 Trả đũa
Với điều kiện nào thì cặp chiến lược trong đó mỗi người chơi sử dụng chiến lược trả đũa (Đồ thị
427.3) là một cân bằng Nash? Giả sử rằng người chơi 1 tuân theo chiến lược này. Kí hiệu t là chu
kỳ đầu tiên mà người chơi 2 chọn D. Thì người chơi 1 chọn D trong chu kỳ t 1 , và tiếp tục
chọn D cho đến khi người chơi 2 chuyển sang C. Vì thế, người chơi 2 có hai lựa chọn kể từ chu
kỳ t 1 : có thể chuyển sang C, trong trường hợp đó trong chu kỳ t 2 , người chơi 2 sẽ đối mặt
với cùng một tình huống ở đầu trò chơi, hoặc người chơi 2 tiếp tục chọn D, trong trường hợp đó
người chơi 1 sẽ tiếp tục chọn D. Ta kết luận rằng nếu đáp ứng tốt nhất của người chơi 2 đối với
chiến lược trả đũa là chọn D trong một vài chu kỳ, thì họ cũng có thể lựa chọn lần lượt giữa D và
C, hoặc chọn D trong mọi chu kỳ.
Nếu người chơi 2 chọn lần lượt giữa D và C, thì chuỗi hàm thưởng phạt của người chơi 2 là (3,
0, 3, 0,…) với trung bình chiết khấu là (1 ) 3/(1 2 ) 3 /(1 ) , trong khi nếu người chơi
chọn D trong mọi chu kỳ, chuỗi hàm thưởng phạt sẽ là (3, 1, 1, …) với trung bình chiết khấu là
3(1 ) 3 2 . Trung bình chiết khấu khi sử dụng chiến lược trả đũa (mà tạo ra kết quả là
(C , C ) trong mọi chu kỳ) là 1, vì thế ta kết luận rằng chiến lược trả đũa là đáp ứng tốt nhất đối
với trả đũa nếu và chỉ nếu
3
2
và 2 3 2
1
1
Cả hai điều kiện này đều tương đương với .
2
1
Vì thế nếu , thì cặp chiến lược trong đó mỗi người chơi sử dụng chiến lược trả đũa là một
2
cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại không xác định với hàm thưởng phạt như
trên Bảng 420.1.
? BÀI TẬP 431.1. (Trả đũa trong trị chơi Lưỡng đề người tù lặp lại khơng xác định) Đối với
cặp chiến lược trong ba chiến lược s trong Bài tập 428.1, xác định giá trị , nếu chiến lược bất
kỳ nào mà trong đó cặp chiến lược ( s, s) là một cân bằng Nash của trò chơi Lưỡng đề người tù
430
lặp lại không xác định trên Bảng 420.1 với nhân tố chiết khấu . Đối với mỗi chiến lược s mà
trong đó khơng có giá trị nào sao cho ( s, s) là một cân bằng của trò chơi này, xác định xem có
hàm thưởng phạt nào khác để với một vài giá trị , cặp chiến lược ( s, s) là cân bằng Nash của
trò chơi lặp lại không xác định với nhân tố chiết khấu .
14.8 Hàm thưởng phạt cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại không xác
định
Các cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại khơng xác định mà tơi đã thảo luận có
thể tạo ra kết quả (C , C ) trong mọi chu kỳ hoặc kết quả ( D, D) . Đường kết quả đầu tiên tạo ra
hàm thưởng phạt trung bình chiết khấu bằng 2 cho mỗi người chơi, trong khi đường kết quả thứ
hai tạo ra hàm thưởng phạt trung bình chiết khấu bằng 1 cho mỗi người chơi. Có hàm thưởng
phạt trung bình chiết khấu nào khác được tạo ra bởi các cân bằng Nash hay không? Câu hỏi này
rất khó trả lời đối với một nhân tố chiết khấu bất kỳ, nhưng có thể trả lời khá dễ dàng khi nhân tố
chiết khấu gần bằng 1 (nghĩa là khi các người chơi rất kiên nhẫn). Trước khi đề cập đến nó, ta
cần phải xác định một tập các cặp hàm thưởng phạt trung bình chiết khấu có thể đạt được do một
vài đường kết quả, bất kể là đường kết quả có được tạo ra bởi cân bằng hay khơng?
14.8.1 Hàm thưởng phạt trung bình chiết khấu có thể
Đối với kết quả ( X , Y ) bất kỳ của trò chơi chiến lược, đường kết quả trong đó ( X , Y ) xảy ra
trong mọi chu kỳ sẽ tạo ra cặp hàm thưởng phạt trung bình chiết khấu (u1 ( X , Y ), u2 ( X , Y )) . Vì
thế (2, 2), (3, 0), (0, 3) và (1, 1) là những cặp hàm thưởng phạt trung bình chiết khấu có thể đạt
được trong trị chơi Lưỡng đề người tù lặp lại không xác định với các hàm thưởng phạt như trên
Bảng 420.1.
Bây giờ xem xét đường kết quả trong đó các kết quả lặp lại xem kẻ giữa (C , C ) và (C , D) . Theo
đường thẳng này, hàm thưởng phạt của người chơi 1 là các giá trị xen kẽ giữa 2 và 0, và hàm
thưởng phạt của người chơi 2 là các giá trị xen kẽ giữa 2 và 3. Vì thế hàm thưởng phạt trung bình
của các người chơi theo các đương kết quả lần lượt là 1 và 5/2. Người chơi 1 nhân được hàm
thưởng phạt nhiều hơn trong chu kỳ đầu tiên của vòng tròn hai chu kỳ, so với chu kỳ thứ hai (thật
ra, người chơi 1 khơng đạt được gì trong chu kỳ thứ hai), vì thế hàm thưởng phạt trung bình chiết
khấu lớn hơn 1, bất kể nhân tố chiết khấu bằng bao nhiêu. Nếu nếu nhân tố chiết khấu gần bằng
1, thì hàm thưởng phạt trung bình chiết khấu gần bằng 1: tính chất mà hàm thưởng phạt trong
chu kỳ đầu tiên của vịng lặp hai chu kỳ lớn hơn thì khơng có ý nghĩa gì trong trường hợp này.
Tương tự, do người chơi 2 nhận được hầu hết hàm thưởng phạt trong chu kỳ thứ 2 trong vòng lặp
2 chu kỳ, hàm thưởng phạt trung bình chiết khấu của người chơi 2 nhỏ hơn 5/2, bất kể nhân tố
chiết khấu là như thế nào, nhưng nó gần bằng 5/2 nếu nhân tố chiết khấu gần bằng 1. Vì thế
5
(1, ) có thể là một cặp hàm thưởng phạt trung bình chiết khấu có thể đạt được khi nhân tố chiết
2
khấu gần bằng 1.
Lập luận này có thể mở rộng cho đường kết quả bất kỳ mà trong đó chuỗi kết quả xác định được
lặp lại. Nếu nhân tố chiết khấu gần bằng 1, thì hàm thưởng phạt trung bình chiết khấu của người
chơi theo đường thẳng này gần bằng với hàm thưởng phạt trung bình trong chuỗi. Ví dụ, đường
kết quả mà bao gồm chuỗi lặp lại ((C , C ), ( D, C ), ( D, C )) tạo cho người chơi 1 một hàm thưởng
431
phạt trung bình chiết khấu gần bằng
1
3
8
(2 3 3) , và hàm thưởng phạt trung bình chiết khấu
3
1
2
3
3
của người chơi 2 gần bằng (2 0 0) .
Tóm lại, nếu nhân tố chiết khấu gần bằng 1, thì đối với chuỗi kết quả xác định bất kỳ nào của trò
chơi chiến lược, trò chơi lặp lại khơng xác định có một đường kết quả (bao gồm một chuỗi lặp đi
lặp lại) mà trong đó hàm thưởng phạt trung bình chiết khấu của người chơi gần với trung bình
của hàm thưởng phạt của họ đối với các kết quả trong chuỗi. Tôi phát biểu thêm rằng, ngược lại
nếu nhân tố chiết khấu gần bằng 1, thì đối với đường kết quả bất kỳ của trò chơi lặp lại khơng
xác định, hàm thưởng phạt trung bình chiết khấu của người chơi gần với hàm thưởng phạt trung
bình của họ đối với chuỗi kết quả xác định (có thể là rất dài).
Bây giờ, hàm thưởng phạt trung bình của người chơi đối với chuỗi kết quả xác định là một trung
bình có trọng số của hàm thưởng phạt của người chơi đối với 4 kết quả trong trò chơi, với tỷ
trọng đính kèm trong mỗi kết quả là tỷ lệ số lần kết quả đó xảy ra trong chuỗi. Vì thế, nếu nhân
tố chiết khấu gần bằng 1, tập hợp các cặp hàm thưởng phạt trung bình chiết khấu có thể đạt được
trong trị chơi lặp lại khơng xác định xấp xỉ bằng với tập hợp tất cả các cặp hàm thưởng phạt
trung bình có trọng số trong trị chơi chiến lược thành phần. Kết quả này có thể phát biểu ngắn
gọn dưới một thuật ngữ mới
ĐỊNH NGHĨA 432.1 (Hồ sơ hàm thưởng phạt có thể trong trị chơi chiến lược) Tập hợp hồ sơ
hàm thưởng phạt có thể của trò chơi chiến lược là một tập hợp tất cả hồ sơ hàm thưởng phạt
trung bình có trọng số trong trị chơi đó.
Kết quả này cũng được áp dụng cho trị chơi chiến lược bất kỳ nào (khơng chỉ đối với Lưỡng đề
người tù), có thể được phát biểu như sau:
Nếu nhân tố chiết khấu gần bằng 1, tập hợp hồ sơ hàm thưởng phạt trung bình chiết khấu
được tạo ra bởi các đường kết quả trong trò chơi lặp lại khơng xác định thì xấp xỉ bằng
với tập hợp các hồ sơ hàm thưởng phạt có thể trong trò chơi chiến lược thành phần.
Tập hợp các cặp hàm thưởng phạt có thể trong trị chơi chiến lược hai người chơi có thể được
biểu diễn bằng hình học. Tập hợp trung bình có trọng số của các điểm ( x1 , x2 ) và ( y1 , y2 ) trong
không gian hai chiều bao gồm đoạn đường thẳng kết nối ( x1 , x2 ) và ( y1 , y2 ) . Vì thế, tập hợp các
cặp hàm thưởng phạt có thể trong trị chơi Lưỡng đề người tù với hàm thưởng phạt như trên
Bảng 420.1 là phần bóng mờ trên Đồ thị 433.1 (bao gồm cả các đường biên).
432
Đồ thị 433.1 Tập hợp các cặp hàm thưởng phạt có thể trong trị chơi Lưỡng đề người tù với hàm thưởng
phạt như trong Bảng 420.1. Cặp hàm thưởng phạt bất kỳ nào trong tập này có thể xấp xỉ bằng cặp hàm
thưởng phạt trung bình chiết khấu trong trị chơi lặp lại không xác định với nhân tố chiết khấu gần bằng 1
? BÀI TẬP 433.1 (Các cặp hàm thưởng phạt có thể trong trị chơi Lưỡng đề người tù) Vẽ một
biểu đồ như Đồ thị 433.1 trình bày tập hơp các cặp hàm thưởng phạt có thể cho trò chơi Lưỡng
đề người tù trong Bảng 429.1 khi y 5 và x 2 .
14.8.2 Hàm thưởng phạt trung bình chiết khấu cân bằng Nash
Ta đã thấy rằng cặp hàm thưởng phạt có thể (2, 2) và (1, 1) có thể đạt được như các cặp hàm
thưởng phạt trung bình chiết khấu trong các cân bằng Nash của trò chơi Lưỡng đề người tù lặp
lại không xác định với hàm thưởng phạt như trên Bảng 420.1. Có cặp hàm thưởng phạt nào khác
có thể đạt được trong các cân bằng Nash khi nhân tố chiết khấu gần bằng 1 hay khơng? Cặp hàm
thưởng phạt nào có thể đạt được trong cân bằng Nash của trị chơi lặp lại khơng xác định của một
trò chơi Lưỡng đề người tù tùy ý?
Bằng cách chọn D trong mọi chu kỳ của trò chơi lặp lại khơng xác định, mỗi người chơi i có thể
nhận được một hàm thưởng phạt ít nhất là ui ( D, D) trong mỗi chu kỳ, và vì thế hàm thưởng phạt
trung bình chiết khấu ít nhất là ui ( D, D) . Như thế, trong cân bằng Nash bất kỳ của trò chơi
Lưỡng đề người tù lặp lại khơng xác định, hàm thưởng phạt trung bình chiết khấu của mỗi người
chơi ít nhất là ui ( D, D) .
Tôi cho rằng tập các hàm thưởng phạt cân bằng Nash thì cơ bản khơng bị giới hạn khác hơn: nếu
nhân tố chiết khấu gần bằng 1, thì mọi cặp hàm thưởng phạt có thể trong đó hàm thưởng phạt của
mỗi người chơi lớn hơn ui ( D, D) , thì gần bằng với cặp hàm thưởng phạt trung bình chiết khấu
của một cân bằng Nash.
Để minh họa lập luận này, gọi ( x1 , x2 ) là một cặp hàm thưởng phạt có thể trong Lưỡng đề người
tù với xi ui ( D, D ) , với mọi i 1, 2 . Như thế, do định nghĩa của tính khả thi, ta có thể tìm được
một chuỗi kết quả xác định ( a1 ,..., a k ) của trị chơi mà trong đó hàm thưởng phạt trung bình của
người chơi i xấp xỉ xi , với mọi i 1, 2 , gần bằng như chúng ta đã kỳ vọng. (Nếu cặp kết quả
( x1 , x2 ) của hàm thưởng phạt là trung bình có trọng số của các cặp hàm thưởng phạt đối với các
433
kết quả mà trong đó tỷ trọng là các số vơ tỷ, ta có thể khơng tìm được một chuỗi xác định trong
đó hàm thưởng phạt trung bình của mỗi người chơi i chính xác là xi .
Bây giờ xem xét đường kết quả của trị chơi lặp lại khơng xác định mà bao gồm các chuỗi
( a1 ,..., a k ) lặp lại. Kí hiệu đường kết quả này là (b1 , b 2 ,...) . (Như thế b qk 1 a t , với q 0,1,... và
t 1,..., k ). Với một nhân tố chiết khấu gần bằng 1, hàm thưởng phạt trung bình chiết khấu của
mỗi người chơi i theo đường kết quả này thì gần bằng xi .
Tôi xây dựng một cặp chiến lược mà tạo ra đường kết quả (b1 , b 2 ,...) và đối với một nhân tố
chiết khấu gần bằng 1, thì là một cân bằng Nash của trò chơi lặp lại không xác định. Cấu trúc
chiến lược của mỗi người chơi tương tự với trị chơi bóp cị nhanh: người chơi mà tuân theo
đường kết quả cho đến khi người chơi khác chệch hướng, tại điểm đó, người chơi chuyển sang
trừng phạt “khắt khe”, bằng cách chọn D trong mọi chu kỳ kế tiếp. Khi bắt đầu trừng phạt, hàm
thưởng phạt của người chơi j khác, lớn nhất là u j ( D, D) trong mọi chu kỳ, vì thế khi nhân tố
chiết khấu gần bằng 1, sự đe dọa của kiểu trừng phạt này làm giảm sự chệch hướng, và cặp chiến
lược là một cân bằng Nash.
1
Nói tóm lại, chiến lược si của người chơi i là chọn hành động bi trong chu kỳ đầu tiên và sau
các quá khứ ( h1 ,..., ht 1 ) khác bất kỳ sẽ chọn hành động
bt neu h rj b rj voi moi r 1,..., t 1
si (h1 ,..., ht 1 ) i
D trong nhung truong hop khac
(434.1)
Với j là người chơi khác. Nếu mọi người chơi tuân theo chiến lược này, thì kết quả trong mỗi
chu kỳ t là bt .Tại sao ( s1 , s2 ) là một cân bằng Nash khi nhân tố chiết khấu gần bằng 1? Giả sử
rằng người chơi 1 sử dụng một chiến lược như thế, với s2 đã cho, chệch hướng khỏi đường
(b1 , b 2 ,...) trong một vài chu kỳ t. Thì từ chu kỳ t 1 , hàm thưởng phạt của người chơi 1 nhiều
nhất là u1 ( D, D) . Bây giờ, (b1 , b 2 ,...) sẽ bao gồm các chuỗi ( a1 ,..., a k ) lặp đi lặp lại; giả sử rằng
chu kỳ t đó là chu kỳ thứ của chuỗi này. (Xem thêm Đồ thị 434.1, với w = u1 ( D, D) ). Trong
chu kỳ mà người chơi 1 chệch hướng, và trong các chu kỳ k kế tiếp cho đến cuối chuỗi, hàm
thưởng phạt của người chơi 1 trong chiến lược chệch hướng có thể cao hơn trong hàm thưởng
phạt ở chiến lược s1 . (Kết quả a 1 ,..., a k có thể gây ra hàm thưởng phạt nhỏ hơn u1 ( D, D) cho
người chơi 1). Tuy nhiên, hàm thưởng phạt trung bình trong mọi vòng lặp ( a1 ,..., a k ) kế tiếp rõ
ràng là nhỏ hơn hàm thưởng phạt khi người chơi 1 sử dụng chiến lược s1 : hàm thưởng phạt của
người chơi 1 trong mọi chu kỳ của mọi vòng lặp, lớn nhất là bằng u1 ( D, D) , trong khi hàm
thưởng phạt trung bình theo mỗi vịng lặp của s1 đều lớn hơn u1 ( D, D) . Nếu nhân tố chiết khấu
của người chơi 1 gần bằng 1, thì phần thiệt hại lớn hơn phần lợi thu được trong chu kỳ mà người
chơi 1 chệch hướng và trong k chu kỳ kế tiếp. Lập luận tương tự đối với sự chệch hướng của
người chơi 2.
434
Lập luận này dẫn đến là đối với cặp hàm thưởng phạt có thể bất kỳ ( x1 , x2 ) trong trò chơi Lưỡng
đề người tù, với nhân tố chiết khấu gần bằng một, trị chơi lặp lại khơng xác định có một cân
bằng Nash trong đó cặp hàm thưởng phạt trung bình chiết khấu xấp xỉ ( x1 , x2 ) . Thật ra, với một
số phép tính tốn nữa, ta có thể bỏ qua xấp xỉ, và có thể đạt được kết quả sau đây, là một trong
nhiều kết quả được gọi là “định lý dân gian”, bởi vì cấu trúc cơ bản của nó được hiểu rất lâu
trước khi có cơng trình chứng minh.
ĐỊNH ĐỀ 435.1 (Định lý dân gian Nash cho trò chơi Lưỡng đề người tù lặp lại khơng xác định)
Gọi G là trị chơi Lưỡng đề người tù.
Đối với nhân tố chiết khấu bất kỳ, sao cho 0 1 , hàm thưởng phạt trung bình chiết
khấu của mỗi người chơi i trong cân bằng Nash bất kỳ của trị chơi lặp lại khơng xác định
G nhỏ nhất là ui ( D, D)
Gọi ( x1 , x2 ) là cặp hàm thưởng phạt có thể trong G mà trong đó xi ui ( D, D ) đối với
mỗi người chơi i. Sẽ tồn tại một giá trị 1 sao cho nếu nhân tố chiết khấu lớn hơn ,
thì trị chơi lặp lại khơng xác định G có một cân bằng Nash trong đó hàm thưởng phạt
trung bình chu kỳ của mỗi người chơi i là xi .
Đối với giá trị nhân tố chiết khấu bất kỳ, trị chơi lặp lại khơng xác định G có một cân
bằng Nash trong đó hàm thưởng phạt trung bình chiết khấu của mỗi người chơi i là
ui ( D, D) .
Bạn đọc có thể thắc mắc tại sao phần hai của định đề này không được phát biểu đơn giản hơn: tại
sao tôi không phát biểu rằng đường kết quả bất kỳ nào mà trong đó hàm thưởng phạt trung bình
chiết khấu của mỗi người chơi vượt quá hàm thưởng phạt đố với ( D, D) có thể được tạo ra bởi
cân bằng Nash? Lý do rất đơn giản: tun bố này khơng đúng! Ví dụ, xem xét đường kết quả
((C , C ), ( D, D), ( D, D),...) trong đó kết quả trong mọi chu kỳ ngoại trừ chu kỳ đầu tiên là ( D, D) .
Đối với nhân tố chiết khấu bất kỳ nhỏ hơn 1, hàm thưởng phạt trung bình chiết khấu của mỗi
người chơi vượt quá hàm thưởng phạt đối với ( D, D) trong đường kết quả này. Tuy nhiên,
khơng có cân bằng Nash nào tạo ra đường kết quả: người chơi nào mà chệch hướng thành D
trong chu kỳ đầu tiên sẽ đạt được hàm thưởng phạt cao hơn trong chu kỳ đầu tiên và ít nhất là
cùng hàm thưởng phạt trong mọi chu kỳ kế tiếp, tuy nhiên đối thủ của họ cư xử phải phép. (Lập
luận này cũng tương tự như lập luận về việc không tồn tại một cân bằng Nash mà trong đó một
trong hai người chơi chọn C trong chu kỳ bất kỳ nào trong trò chơi lặp lại xác định (xem thêm
phần 14.4.1)).
Đồ thị 436.1 minh họa tập hợp các hàm thưởng phạt trung bình chiết khấu được tạo ra bởi các
cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại không xác định với hàm thưởng phạt như
trong Bảng 420.1, như đã được đề cập đến ở Định đề 435.1. Đối với mọi điểm ( x1 , x2 ) trong
phần hình mờ, bằng cách chọn nhân tố chiết khấu gần bằng 1 ta có thể đảm bảo rằng có một
điểm gần ( x1 , x2 ) như chúng ta muốn, để cặp hàm thưởng phạt trung bình chiết khấu đối với một
cân bằng Nash của trị chơi lặp lại khơng xác định. Biểu đồ thể hiện rõ ràng rằng tập hợp các
hàm thưởng phạt cân bằng Nash của trò chơi lặp lại là rất lớn.
Lưỡng đề người tù có một cân bằng Nash duy nhất, và vì thế cặp hàm thưởng phạt cân bằng
Nash duy nhất, nhưng cặp hàm thưởng phạt cân bằng Nash trong trị chơi lặp lại khơng xác định
biến đổi từ rất nhỏ tới rất lớn.
435
Đồ thị 436.1 Tập hợp xấp xỉ của hàm thưởng phạt trung bình chiết khấu cân bằng Nash cho trị chơi
Lưỡng đề người tù lặp lại không xác định với hàm thưởng phạt một lần như trong Bảng 420.1 khi nhân tố
chiết khấu gần bằng 1.
Kết quả này không thể hiện gì về các chiến lược cân bằng. Việc chứng minh định đề này chỉ ra
rằng cặp chiến lược trong đó mỗi người chơi trừng phạt sự chệch hwóng bằng cách chuyển sang
chọn D vĩnh viễn là một cân bằng Nash nhưng không phải ngược lại shed light trong những cân
bằng. Trong cân bằng bất kỳ nào mà trong đó người chơi chọn C trong một vài chu kỳ, chiến
lược của người chơi khác phải ngăn cản sự chệch hướng sang D bằng cách chọn D trong một vài
chu kỳ tương lai mà trong đó, khi khơng có sự chệch hướng, họ sẽ chọn C. Với ý này, thì chiến
lược cân bằng bất kỳ nào cũng gây ra “sự trừng phạt”. Nhưng như ta đã thấy ở Phần 14.7, khi các
người chơi đủ kiên nhẫn, kết quả hợp tác có thể đạt được duy trì bằng sự trừng phạt ít khắc khe
hơn.
CÁC BẰNG CHỨNG THÍ NGHIỆM
Trong tháng giêng năm 1950, khi John Nash vẫn còn là nghiên cứu sinh, Melvin Dresher và
Merrill Flood đưa ra một trò chơi bây giờ được gọi là Lưỡng đề người tù và tiến hành một thí
nghiệm trong đó hai người bạn cua rhọ chơi 100 lần liên tiếp (xem cơng trình của Flood 1958/59,
trang 11). Dresher và Flood dự định kiểm tra kí hiệu của cân bằng Nash bằng cách xem 100 vòng
quan sát độc lập kết quả của trò chơi Lưỡng đề người tù và nhìn vào số chu kỳ trong đó kết quả
là một cân bằng ( D, D) duy nhất. Nash chỉ ra rằng thí nghiệm này nên được quan sát khơng phải
như là 100 lần chơi độc lập của trị chơi Lưỡng đề người tù, mà nên xem như 100 đoạn của trò
chơi lặp lại - nhận xét được ghi lại ở trang 16 trong báo cáo của Flood. Nash lưu ý rằng trong
mọi cân bằng Nash của trò chơi lặp lại xác định này, mỗi người chơi chọn D trong mọi chu kỳ
(như ta đã thấy trong Phần 14.4.1). Nhưng ơng lập luận rằng cặp chiến lược trong đó mỗi người
chơi sử dụng chiến lược bóp cị nhanh là “gần như” một cân bằng, và la một cân bằng của trị
chơi biến thể với chu kỳ khơng xác định. Ông tiếp tục lập luận rằng có 100 lần thử làm trò chơi
đủ dài để “một người nên kỳ vọng một xấp xỉ đối với [chiến lược bóp cị nhanh]…., với một ít sự
cơng kích ở cuối, và có lẽ rằng một ít tấn cơng, để kiểm tra lịng can đảm của đối thủ trong suốt
trò chơi”. Hành vi của chủ thể trong thí nghiệm phù hợp với ý tưởng của Nash. 60 trong 89 chu
kỳ cuối, kết quả là (C , C ) . Trong tất cả kết quả, ngoại trừ hai chu kỳ, kết quả phù hợp với việc
người chơi 2 sử dụng chiến lược “sự trừng phạt bị giới hạn” trong đó số chu kỳ của sự trừng phạt
biến đổi từ 0 đến 4, và người chơi 1 sử dụng chiến lược là chọn C trong hầu hết các lần nhưng
436
thỉnh thoảng cố gắng chệch hướng một chu kỳ sang D, nếu bị trừng phạt, thì sẽ tiếp tục chọn D
cho đến khi người chơi 2 ngừng sự trừng phạt.
Trong thí nghiệm này, hai chủ thế chơi trị chơi chỉ một lần. Nếu chủ thể có kinh nghiệm, thì
hành vi có khác hơn khơng? Một thí nghiệm tiến hành với các sinh viên ngành kinh tế và quản trị
kinh doanh tại trường Đại học Bielefeld, tại Đức vào những năm đầu 1980, kiểm tra khía cạnh
này: Khi các chủ thể thu được kinh nghiệm chơi trò chơi Lưỡng đề người tù lặp lại xác định, kết
quả có phải là cân bằng Nash duy nhất, trong đó kết quả là ( D, D) trong mọi chu kỳ? Mỗi người
trong 35 người chơi 25 lần, trò chơi Lưỡng đề người tù lặp lại 10- chu kỳ, với đối thủ là các
người khác (xem Selten và Stoecker 1986). Hầu hết các đường kết quả (96%) trong 5 trò chơi lặp
lại cuối cùng được chơi bởi mỗi người bao gồm ít nhất 4 chu kỳ của cặp hành động (C , C ) được
theo sau bởi sự chệch hướng thành D bởi một hoặc cả hai người chơi, và rồi hành động ( D, D)
trong các chu kỳ cịn lại. Vì thế, dễ dàng tháy rằng hầu hết người chơi hoạch định để chọn C
trong chu kỳ đầu tiên, rồi chọn D khi đối thủ của mình cũng chọn như thế, và rồi trong đầu họ có
một chu kỳ trong đó họ dự định chuyển hướng thành D nếu đối thủ của họ chưa làm như thế. Các
nhà thí nghiệm suy luận chu kỳ chệch hướng đối với mỗi người chơi bằng cách nghiên cứu các
trò chơi được quan sát, và nhận xét được viết bởi các người chơi trong suốt trò chơi. Họ thấy
rằng trong 13 lần chơi cuối của trò chơi lặp lại, trung bình của chu kỳ chệch hướng dự định nằm
trong khoảng từ 9.2 đến 7.4. Như trong thí nghiệm của “trò chơi con rết” đã thảo luận ở trang
234, hành vi của người chơi đầu tiên khá xa với cân bằng Nash duy nhất, nhưng di chuyển chậm
chạp về hướng cân bằng này. Các kết quả đưa ra rằng có 25 lần chơi trong trị chơi lặp lai là
khơng đủ cho hành vi của người chơi được ổn định và khơng máy la fnó khơng đưa ra cho chúng
ta manh mối nào về tính chất của hành vi ổn định. Các thí nghiệm liên quan đến nhiều lượt chơi
hơn của trị chơi này tiến hành khá khó khăn (và tốn kém), và câu hỏi được đưa ra do thí nghiệm
đầu tiên của Dresher và Flood cho đến nay vẫn chưa được trả lời.
14.9 Các cân bằng hồn hảo trị chơi con và đặc điểm một lần chệch hướng
Ta đã biết khi nghiên cứu trò chơi mở rộng (ở Chương 5) rằng một cân bằng Nash có thể đưa đến
sự đe dọa rằng nó khơng đáng tin. Kí hiệu về cân bằng hồn hảo trị chơi con loại trừ những đe
dọa này. Các cân bằng Nash của trò chơi Lưỡng đề người tù lặp lại không xác định đã nghiên
cứu ở Phần 14.7 mà tạo ra kết quả (C , C ) trong mọi chu kỳ dẫn đến sự đe dọa này. Thật vậy,
hiệu lực của nó dựa hồn tồn trên các mối đe dọa là “trừng phạt” người chơi khác nếu chệch
hướng khỏi (C , C ) . Những mối đe dọa này có đáng tin cậy?
Một cặp chiến lược trong trò chơi mở rộng là một cân bằng hồn hảo trị chơi con nếu cặp chiến
lược nó tạo ra trong mọi trò chơi con là một cân bằng của trị chơi đó. Để kiểm tra xem điều kiện
này có thỏa trong một trị chơi với chu kỳ xác định tùy ý hoặc chu kỳ khơng xác suất, thì rất khó
khăn. Trong phần này, tơi mơ tả một kết quả mà được đơn giản hóa. Trong phần kế tiếp, tôi sử
dụng kết quả này để nghiên cứu các cân bằng hồn hảo trị chơi con của trị chơi Lưỡng đề người
tù lặp lại không xác định.
Tôi cho rằng hồ sơ chiến lược trong trò chơi mở rộng với chu kỳ xác định hoặc trong trị chơi lặp
lại khơng xác định với chiết khấu là một cân bằng hoàn hảo trị chơi con nếu và chỉ nếu nó thỏa
mãn điều kiện sau đây:
437
Đồ thị 438.1 Minh họa trò chơi mở rộng một người chơi mà kết quả là hồ sơ chiến lược thỏa mãn đặc tính
một lần chệch hướng là một cân bằng hồn hảo trị chơi con.
Đặc điểm một sự chệch hướng: khơng có người chơi nào có thể làm tăng hàm thưởng phạt
của họ bằng các thay đổi hành động tại điểm bắt đầu trò chơi con bất kỳ mà trong đó người
chơi này là người di chuyển đầu tiên, với chiến lược của người chơi khác và phần còn lại
trong chiến lược của người chơi này đã được cho trước.
Nếu hồ sơ chiến lược là một cân bằng hoàn hảo trị chơi con, thì chắc chắn là nó thỏa mãn đặc
tính một sự chệch hướng, bởi vì khơng có người chơi nào có thể gia tằng hàm thưởng phạt bằng
bất kỳ thay đổi nào trong chiến lược của họ. Để hình thành tun bố này của tơi, tơi cần phải chỉ
ra điều ngược lại: nếu một hồ sơ chiến lược thỏa đặc tính một sự chệch hướng, thì nó phải là cân
bằng hồn hảo trị chơi con.
Ý tưởng chính của lập luận này được minh họa trên Đồ thị 438.1. Giả sử rằng chiến lược CEG
thỏa mãn đặc điểm một sự chệch hướng. Thì người chơi khơng thể tăng hàm thưởng phạt bằng
cách chuyển đổi từ E sang F trong trò chơi con theo sau C (trò chơi con này chỉ có một chu kỳ),
vì thế w x , và tương tự không thể tăng hàm thưởng phạt bằng cách chuyển từ G sang H trong
trò chơi con theo sau D, vì thế y z . Hơn nữa, người chơi khơng thể tăng hàm thưởng phạt
trong tồn bộ trò chơi (trò chơi con theo sau bởi ) bằng cách chuyển từ C sang D tại điểm bắt
đầu trò chơi, trong khi giữ phần chiến lược còn lại của mình cố định (và như thế chọn G sau quá
khứ D). Vì thế w y . Ta kết luận rằng w z , vì thế những thay đổi khả dĩ còn lại trong chiến
lược của người chơi là từ CEG thành DEH hoặc DFH (mà liên quan đến sự chệch hướng ở cả hai
chu kỳ) thì khơng mang lại hiệu quả. Vì thế CEG là một cân bằng hồn hảo trị chơi con. Ta thấy
rằng giả thiết mà người chơi không thể tăng hàm thưởng phạt bằng cách thay đổi hành động của
mình chỉ tại điểm bắt đầu của trò chơi con bất kỳ dẫn đến kết luận rằng người chơi không thể gia
tăng hàm thưởng phạt bằng thay đổi bất kỳ nào trong chiến lược của mình, bởi vì thay đổi bất kỳ
nào trong chiến lược của người chơi đều bị phá vỡ chuỗi thay đổi một-chu kỳ.
Lập luận này không phụ thuộc vào sự có mặt của một người chơi đơn, bởi vì kí hiệu về cân bằng
hồn hảo trị chơi con (giống như kí hiệuc ủa cân bằng Nash) chri liên quan đến sự quan tâm về
sự chệch hướng bởi một người chơi đơn với chiến lược của người chơi khác đã cho trước. Nó
cũng khơng phụ thuộc vào chiều dài của trị chơi là 2, mà có thể áp dụng cho trị chơi bất kỳ với
chu kỳ xác định. Vì thế, ta có kết quả sau đây (Tơi bỏ qua phần chứng minh ngắn).
ĐỊNH ĐỀ 438.1 (Đặc tính một sự chệch hướng trong các cân bằng hồn hảo trị chơi con của các
trị chơi có chu kỳ xác định) Một hồ sơ chiến lược trong trị chơi mở rộng với thơng tin hoàn hảo
và chu kỳ xác định là một cân bằng hồn hảo trị chơi con nếu và chỉ nếu nó thỏa đặc tính một
sự chệch hướng.
438