Tải bản đầy đủ (.docx) (15 trang)

Lý thuyết trò chơi trò chơi 2 người tổng 0 hữu hạn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (451.53 KB, 15 trang )

CHƯƠNG 11
Lý thuyết trò chơi
Trong chương này, chúng ta sẽ nghiên cứu một ứng dụng nếu không phải thiết
thực nhất thì chắc chắn là thanh lịch nhất của đại số tuyến tính. Chủ đề này được gọi là lý
thuyết trị chơi, và chúng ta sẽ tập trung vào dạng trò chơi đơn giản nhất, được gọi là trò
chơi 2 người, tổng 0 hữu hạn hay gọi ngắn gọn là trò chơi ma trận. Mục tiêu chính của
chúng ta là sẽ chứng minh định lý minimax nổi tiếng. Định lý này đã được tìm ra và
chứng minh bởi John von Neumann vào năm 1928. Chứng minh ban đầu của ông về định
lý này khá liên qua đến một định lý hay ho khác từ toán học, định lý điểm bất động
Brouwer. Tuy nhiên, cuối cùng thì lời giải của trị chơi ma trận có thể được tìm thấy
bằng cách giải một bài tốn quy hoạch tuyến tính nhất định và định lý minimax chỉ là một
hệ quả khá đơn giản của lý thuyết đối ngẫu.

1. Trò chơi ma trận
Trò chơi ma trận là trò chơi 2 người được định nghĩa như sau: Đầu tiên, mỗi người
chọn (mà không phụ thuộc vào nhau) một hành động từ một tập hữu hạn các lựa chọn (cả
hai người chơi sẽ đối mặt với các tập hành động khác nhau để lựa chọn). Sau đó, cả hai
tiết lộ cho nhau sự lựa chọn của họ. Nếu chúng ta dùng i để đại diện cho sự lựa chọn của
người chơi thứ nhất và j đại diện cho sự lựa chọn của người chơi thứ hai, thì quy tắc của
trò chơi quy định rằng người chơi thứ nhất sẽ phải trả cho người chơi thứ hai một khoản
là aij. Mảng chứa các thanh tốn có thể được thực hiện là:
A = [aij]
Cả hai người chơi được cho là đã biết về mảng này trước khi trò chơi bắt đầu. Dĩ
nhiên, nếu aij là giá trị âm tại cặp (i,j) thì khoản thanh tốn sẽ đi theo hướng ngược lại từ
người chơi thứ hai đến người chơi thứ nhất. Vì lý do hiển nhiên, chúng ta sẽ gọi người
chơi thứ nhất là người chơi theo hàng và người chơi thứ hai là người chơi theo cột. Vì
chúng ta đã giả định rằng người chơi theo hàng có số hành động là hữu hạn nên chúng ta
có thể liệt kê các hành động đó mà khơng mất tính tổng quát qua i (với i là một số nguyên
trong khoảng từ 1 đến m). Tương tự, ta có thể giả định j đơn giản là một số nguyên trong
khoảng từ 1 đến n (theo cách diễn giải trong thế giới thực, hành động ở hảng thứ 3 sẽ
không liên quan gì đến hành động ở cột thứ 3, số 3 ở đây chỉ đơn giản là hành động thứ 3


trong tập liệt kê các sự lựa chọn).
Chúng ta hãy xem xét một ví dụ quen thuộc. Cụ thể, một trị chơi mà mọi đứa trẻ
đều biết, nó được gọi là kéo – đá – giấy. Để gợi lại kí ức của các độc giả lớn tuổi thì đây
là một trị chơi mà trong đó hai người sẽ cùng đếm đến ba và mỗi người sẽ cùng lúc tuyên
bố giấy, kéo hoặc đá. Nếu cả sự lựa chọn của cả hai người là giống nhau thì đó là một
vịng đấu hịa. Nhưng, giấy sẽ thua kéo (vì kéo có thể cắt giấy), kéo sẽ thua đá (vì đá có


thể làm cùn kéo) và cuối cùng, đá sẽ thua giấy (vì giấy có thể lấp được đá, đây là một lập
luận khơng thực sự đúng nhưng đó lại là cách mà trò chơi này hoạt động). Đối với trò
chơi này, nếu chúng ta liệt kê các thao tác khai báo giấy, kéo hoặc đá lần lượt là (cột và
hàng) 1, 2, 3 thì ma trận được hồn trả là:

[

0
1 −1
−1 0
1
1 −1 0

]

Với ma trận này, không người chơi nào xác định được chiến lược chiến thắng rõ
ràng. Nếu người chơi cột luôn luôn chọn giấy (và hy vọng rằng người chơi hàng sẽ chọn
đá), khi đó người chơi hàng có thể đối phó bằng cách chọn kéo và đảm bảo rằng mình có
thể chiến thắng được khoản hồn trả là 1 mỗi vòng. Trong thực tế, nếu người chơi cột
đưa ra liên tục cùng một lựa chọn, người chơi hàng sẽ khơn ngoan mà bắt lấy điều đó và
đưa ra những lựa chọn hợp lí nhằm đảm bảo rằng mình ln chiến thắng. Dĩ nhiên, điều
này được áp dụng tương tự cho người chơi cột. Vì thế, khơng người chơi nào đưa ra cùng

một sự lựa chọn nhiều lần lặp đi lặp lại. Thay vào đó, họ đưa ra các lựa chọn ngẫu nhiên.
Trong thực tế, do tính đối xứng (trong ma trận) của trò chơi đặc biệt này, cả hai người
chơi nên đưa ra cả 3 sự lựa chọn với tỉ lệ của mỗi sự lựa chọn là bằng nhau.
Vậy còn đối với các trò chơi khác tầm thường hơn thì sao? Ví dụ, giả sử các khoản
hồn trả trong trị chơi giấy – kéo – đá đã được thay đổi để ma trận tiền thưởng trở thành:
0
1 −2
A= −3 0
4
5 −6 0

[

]

Trò chơi mới này vẫn có đặc điểm là các chiến lược nhất định (chỉ chọn một
phương án một cách lặp đi lặp lại) đều có thể bị đánh bại bởi một đối thủ thơng minh. Do
đó, chọn các phương án một cách ngẫu nhiên vẫn phù hợp. Tuy nhiên xác xuất tốt nhất đã
không cịn là 1/3 nữa. Ngồi ra, ai là người có lợi thế trong trị chơi này? Vì tổng số tiền
thưởng chuyển từ người chơi theo hàng cho người chơi theo cột là 10 trong khi tổng số
tiền thưởng từ người chơi theo cột chuyển cho người chơi theo hàng là 11. Chúng ta nghi
ngờ rằng người chơi hàng có thể có lợi thế hơn. Nhưng đây chỉ là phỏng đốn. Liệu nó có
đúng khơng? Nếu đúng, người chơi theo hàng có thể thắng trung bình bao nhiêu trong
mỗi vịng? Nếu người chơi hàng biết chính xác con số này cịn người chơi cột thì khơng,
người chơi hàng có thể đề nghị trả cho người chơi cột một khoản phí nhỏ mỗi vịng. Nếu
khoản phí này nhỏ hơn số tiền thắng cược dự kiến, thì người chơi hàng vẫn có thể tự tin
rằng theo thời gian, người này vẫn sẽ kiếm được một khoản lợi nhuận kha khá. Mục đích
của chương này chính là để trả lời chính xác những câu hỏi này.
Bây giờ chúng ta hãy quay lại phần thiết lập chung. Hãy tập trung vào người chơi
hàng. Bằng chiến lượng ngẫu nhiên, ý của tôi là, ở mỗi lần chơi trị chơi, nó sẽ xuất hiện



(từ góc nhìn của người chơi cột) rằng người chơi hàng đầu ra lựa chọn của cậu ấy một
cách ngẫu nhiên theo một phân phối xác xuất cố định. Gọi y i là xác xuất mà người chơi
theo hàng chọn hành động i. Vectơ y bao gồm các xác xuất này được gọi là vectơ ngẫu
nhiên. Về mặt toán học, một vectơ là một vectơ ngẫu nhiên nếu nó có các thành phần
khơng âm có tổng bằng:
y ≥0 và e T y=1

Trong đó, e biểu thị vectơ bao gồm tất cả các vectơ. Tất nhiên, người chơi cột
cũng phải áp dụng chiến lượng ngẫu nhiên. Đặt xj biểu thị xác xuất mà người chơi cột
chọn hành động j và đặt x biểu thị vectơ ngẫu nhiên bao gồm các xác xuất này.
Phần thưởng dự kiến cho người chơi cột (phần thưởng trung bình mỗi vịng) được
tính bằng cách nhân từng khoản hồn trả có thể xảy ra với xác xuất xảy ra của nó rồi cộng
tất cả lại với nhau. Tập hợp các kết quả có thể xảy ra chỉ đơn giản là tập hợp các cặp (i, j)
với i nằm trong khoảng (1, 2, …, m) và j nằm trong khoảng (1, 2, …, n). Đối với kết quả
là (i, j), phần thưởng là aij và giả sử rằng người chơi ở hàng và ở cột hoạt động độc lập
với nhau, xác xuất của kết quả này chỉ đơn giản là yixj. Do đó, phần thưởng dự kiến cho
người chơi cột là:

∑ yi aij x j= y T Ax
i, j

2. Chiến lược tối ưu
Giả sử rằng người chơi theo cột áp dụng chiến lược x (nghĩa là quyết định chơi
theo với véc tơ ngẫu nhiên x). Sau đó, cách phòng thủ tốt nhất của người chơi theo hàng
là sử dụng chiến lược y ∗ đạt được mức tối thiểu sau:
(11.1)

Tinh min: y T Ax

Với: e T y = 1, y ≥ 0.

Từ định lý cơ bản của quy hoạch tuyến tính, chúng ta biết rằng vấn đề này có một
giải pháp tối ưu cơ bản. Các giải pháp cơ bản này chỉ đơn giản là các vectơ y với tất cả
mọi thành phần đều bằng 0, trừ một thành phần duy nhất bằng 1. Đó là các giải pháp tối
ưu cơ bản tương ứng với các chiến lược xác định. Điều này khá rõ ràng nếu chúng ta nhìn
lại ở ví dụ. Giả sử rằng:


1
3
1
x=
3
1
3

[]
[]

Do đó

−1
3
1
Ax=
3
−1
3


Cho nên lựa chọn tốt nhất của người chơi theo hàng là chọn i = 1 (Giấy) hoặc i = 3 (Đá)
hoặc bất kỳ sự kết hợp nào của chúng. Nghĩa là, một giải pháp tối ưu là y∗ = (1, 0, 0)
(đây khơng phải là duy nhất). Vì với bất kỳ x cho trước nào, người chơi theo hàng sẽ áp
dụng chiến lược đạt được giá trị nhỏ nhất trong (11.1), vì thế người chơi theo cột nên sử
dụng chiến lược x∗¿ sao cho đạt cực đại sau:

trong đó giá trị cực đại và cực tiểu nằm trên tất cả các vectơ ngẫu nhiên (có kích thước
phù hợp). Câu hỏi sau đó trở thành: làm thế nào để chúng ta giải quyết (11.2)? Hóa ra vấn
đề này có thể được định dạng lại như một bài toán quy hoạch tuyến tính. Thật vậy, chúng
ta đã thấy rằng tối ưu hóa bên trong (tối thiểu hóa) chỉ có thể được thực hiện trên tất cả
chiến lược:

trong đó e i là vectơ của tất cả các số 0 ngoại trừ một số ở vị trí i. Do đó, bài tốn max-min
cho trong (11.2) có thể được viết lại thành:

Tính max: ( mini e Ti Ax)


n

Với : ∑ x j=1, với x j ≥ 0 và j = 1,2,…,n.
j=1

Bây giờ, chúng ta giới thiệu một biến mới v, đại diện cho giới hạn dưới của e Ti Ax's, sau
đó chúng ta thấy rằng vấn đề có thể được viết lại dưới dạng một phương trình tuyến tính:
(11.3)

Tính max: v
Với: v ≤ e Ti Ax,


i = 1, 2, …, m.
n

∑ x j=1
j=1

x j ≥ 0,

j = 1, 2, …, n.

Chuyển về ký hiệu vectơ, vấn đề có thể được viết là:
Tính max: v
Với: ve−Ax ≤ 0
eT x = 1
x ≥0

Cuối cùng, viết dưới dạng ma trận, ta được:

[ x]
e x ≤ 0
0 ][ v ] ¿ [ 1 ]

Tính min: ¿] v
(11.3)

Với:

[

−A

eT

x ≥ 0, v tự do

Bây giờ chúng ta hãy xoay nó lại. Bằng cách đối xứng, người chơi theo hàng tìm
kiếm một chiến lược y∗ mà đạt được sự tối ưu trong bài toán min – max sau:

có thể được định dạng lại thành phương trình tuyến tính sau:
Tính min: u
Với: u e – AT y ≥ 0
eT y = 1


y ≥0

Viết bằng dạng ma trận ta được :
(11.4)

[ y]
e y ≥ 0
0] [ u ] ¿ [ 1]

Tính min: ¿] u
−A T
Với:
eT

[

y ≥0


3. Định lý Minimax
Sau khi giảm được chi phí tính tốn của các chiến lược tối ưu x*và y*, ta phải chỉ
ra được chúng phải nhất quán với nhau. Định lý Minimax đã thiết lập tính nhất quán đó.
Định lý Minimax: Tồn tại các vector ngẫu nhiên x* và y* sao cho

Chứng minh: Chứng minh được suy ra từ nhận xét (11.4) là đối ngẫu của (11.3).
Do đó, v* = u*. Hơn nửa, ta có

Và tương tự, ta cũng có

Giá trị tối ưu v* = u* của các phương trình tuyến tính được gọi là “giá trị” của trị
chơi. Từ định lý Minimax, ta có thể thấy được rằng, bằng cách áp dụng chiến lược y*,
người chơi theo hàng sẽ đảm bảo được rằng trung bình mình sẽ khơng thua q v đơn vị
mỗi vịng. Tương tự, người chơi theo cột có thể đảm bảo được rằng trung bình mình sẽ
thắng ít nhất v đơn vị mỗi vòng bằng cách áp dụng chiến lược x*. Một trò chơi có giá trị
bằng 0 hay là vai trị của hai người chơi có thể hốn đổi cho nhau là một trị chơi cơng
bằng. Những trị chơi như vậy được gọi là trò chơi đối xứng. Chúng được đặc trưng bởi
sự hồn trả ma trận có tính chất aij = -aij với mọi i và j (đặc biệt, m phải bằng n và đường
chéo phải biến mất).
Đối với trò chơi Giấy – Kéo – Đá, bài toán quy hoạch tuyến tính mà người chơi
cột cần giải là


Viết dưới dạng phương trình, ta sẽ có:

Bài tốn quy hoạch tuyến tính này có hai vấn đề khơng nằm trong dạng bài tốn
quy hoạch tuyến tính chuẩn. Thứ nhất, nó có rang buộc đẳng thức. Thứ hai, nó chứa biến
tự do.
Có một số cách để ta có thể biến đổi nó về dạng tiêu chuẩn. Một trong số những

cách đó được mơ tả như sau. Đầu tiên từ rang buộc đẳng thức, ta đưa đẳng thức đó về
dạng đẳng thức của một xj, giả sử như ta chọn x3.

Tiếp theo ta loại bỏ biến này khỏi các phương trình cịn lại. Lúc đó ta sẽ có:


Việc loại bỏ x3 đã thay đổi ràng buộc cuối cùng từ một đẳng thức thành một bất
đẳng thức.
Bước tiếp theo là ta sẽ tạo ra một từ điển bắt đầu. Để làm được việc này, ta phải
viết ra những biến mới sao cho những biến mới sẽ có điểm chung với mỗi rang buộc có
sẵn.

Ta có thể thấy, đặt các biến mới là x4, x5, x6 ứng với mỗi ràng buộc.
Biến v không bị ràng buộc là không âm vì thế nó khơng thể là cơ sở. Thay biến v
là biến nhập vào và một trong số những cơ sở sẽ bị loại bỏ. Chọn x4 để bỏ ta sẽ có:

Vì v khơng có ràng buộc về dấu nên nó sẽ khơng bao giờ rời khỏi cơ sở (vì một
biến rời khỏi theo định nghĩa, là một biến chạm tới giới hạn dưới của nó—v khơng có
giới hạn như vậy). Vì thế, ta cũng có thể xóa nó hồn tồn khỏi từ điển; nó ln ln có
thể được tính tốn cuối cùng. Do đó, ta có:


Hay là

Lúc này ta sẽ có từ điển

Cuối cùng, ta áp dụng phương pháp đơn hình. Lặp lại 2 lần mang lại phương án tối
ưu. Vì kết quả ra phân số, ta nhân mỗi phương trình với một số nguyên để ra phương án
tối ưu, ở đây ta nhân với số 102. Lúc đó, ta sẽ có:


Từ đây ta có thể tìm ra được phương án ngun thủy tối ưu

Ngồi ra, vì x4, x5, và x6 là phần bù của y1, y2, y3 trong bài toán kép nên giải pháp
kép tối ưu là:


Cuối cùng ta tìm được giá trị của trị chơi:

Điều này chứng tỏ rằng, người chơi hàng thực sự có lợi thế và có thể mong đợi
kiếm trung bình gần 16 xu mỗi vòng chơi.
4. Poker
Một số trò chơi bài như poker liên quan đến một vịng cược trong đó các người
chơi đôi khi đánh lừa (bluff) bằng cách tăng giá đấu của mình để ép đối thủ từ bỏ, mặc dù
nếu thách thức được chấp nhận thì họ chắc chắn sẽ thua. Tương tự, họ đôi khi sẽ cược
quá thấp để tạo hi vọng sai lệch cho đối thủ. Trong phần này, chúng ta sẽ nghiên cứu một
phiên bản đơn giản của poker (trị chơi thực tế q khó để phân tích) để xem liệu chiến
lược đánh lừa và cược quá thấp có phải là chiến lược cược đáng chấp nhận.
Poker đơn giản bao gồm hai người chơi, A và B, và một bộ bài có ba lá bài, 1, 2 và
3. Ở đầu vòng chơi, mỗi người chơi đặt cược 1 đô la và được chia một lá bài từ bộ bài.
Sau đó là một phiên cược, trong đó mỗi người chơi lần lượt, bắt đầu từ A, hoặc (a) cược
và thêm 1 đô la vào khoản tiền cược bổ sung (gọi là "kitty"), hoặc (b) bỏ lượt. Phiên cược
kết thúc khi:
 Một người cược theo người cược trước đó,
 Một người bỏ lượt sau khi một người khác bỏ lượt,
 Một người bỏ lượt sau khi một người khác cược.
Trong hai trường hợp đầu tiên, người chiến thắng của vòng đấu được quyết định bằng
cách so sánh các lá bài, và tiền cược bổ sung được trao cho người chơi có lá bài cao hơn.
Trong trường hợp thứ ba, một người bỏ lượt sau khi một người khác cược, người chơi
cược sẽ chiến thắng vòng đấu, độc lập với người nào có lá bài cao hơn (trong poker thực
tế, người chơi bỏ lượt được gọi là "fold").

Với những quy tắc cược đơn giản này, chỉ có năm kịch bản cược có thể xảy ra:
A bỏ lượt, B bỏ lượt:
$1 cho người có lá bài cao hơn
A bỏ lượt, B cược,
A bỏ lượt: $1 cho B
A bỏ lượt, B cược,
A cược:
$2 cho người có lá bài cao hơn
A cược,
B bỏ lượt:
$1 cho A
A cược,
B cược:
$2 cho người có lá bài cao hơn
Sau khi được chia một lá bài, người chơi A sẽ quyết định cược theo một trong ba
dòng:
1. Bỏ lượt. Nếu B cược, bỏ lượt tiếp.
2. Bỏ lượt. Nếu B cược, cược theo.
3. Cược.


Tương tự, sau khi được chia một lá bài, người chơi B có thể cược theo một trong bốn
dịng:
1. Bỏ lượt dù cho điều gì xảy ra.
2. Nếu A bỏ lượt, bỏ lượt theo, nhưng nếu A cược, cược theo.
3. Nếu A bỏ lượt, cược, nhưng nếu A cược, bỏ lượt.
4. Cược dù cho điều gì xảy ra.
Để mơ hình hóa tình huống thành một trị chơi ma trận, chúng ta phải xác định các
chiến lược thuần túy của mỗi người chơi. Chiến lược thuần túy là một loạt cách cược mà
một người chơi dự định sẽ theo đối với mỗi lá bài có thể mà người chơi đó được chia. Do

đó, chiến lược thuần túy của người chơi có thể được ký hiệu bằng các bộ ba (y1, y2, y3),
trong đó yi là cách cược mà người chơi sẽ sử dụng khi cầm lá bài i. (Đối với người chơi
A, các giá trị của yi có thể là 1, 2 và 3, trong khi đó đối với người chơi B, chúng có thể là
1, 2, 3 và 4.)
Cho hai chiến lược thuần túy của cả hai người chơi, ta có thể tính tốn khoản tiền
thua trung bình mà người chơi A phải trả cho người chơi B. Ví dụ, giả sử người chơi A
áp dụng chiến lược (3, 1, 2) và người chơi B áp dụng chiến lược (3, 2, 4). Có sáu cách để
chia bài, và ta có thể phân tích từng trường hợp như sau:
Lá bài
A
1
1
2
2
3
3
Vì mỗi giao dịch

Các lượt chơi

Tiền
B
A trả B
2
A cược,
B cược
2
3
A cược,
B cược

2
1
A bỏ lượt,
B cược,
A bỏ lượt 1
3
A bỏ lượt,
B cược,
A bỏ lượt 1
1
A bỏ lượt,
B cược,
A cược
-2
2
A bỏ lượt,
B bỏ lượt
-1
trong số sáu giao dịch đều có khả năng xảy ra như nhau nên khoản

thanh tốn trung bình từ A đến B là: (2  2  1  1  2  1) / 6 0.5 .
Việc tính tốn khoản thanh tốn trung bình phải được thực hiện cho mọi sự kết
hợp của các cặp chiến lược. Có bao nhiêu? Người chơi A có 3 3 3 27 chiến lược
thuần túy và người chơi B có 4 4 4 64 chiến lược thuần túy. Do đó có

27 64 1728

cặp.
Tính tốn khoản thanh tốn trung bình cho tất cả các cặp này là một nhiệm vụ khó khăn.
May mắn thay, chúng tơi có thể giảm số lượng chiến lược thuần túy (và do là số lượng

cặp) cần được xem xét bằng cách thực hiện một vài quan sát đơn giản. Quan sát đầu tiên
là người chơi đang giữ 1 không bao giờ nên trả lời cược bằng cược, vì người chơi sẽ thua
bất kể cược trả lời là gì và sẽ thua ít hơn đi qua. Logic này ngụ ý rằng, khi giữ 1,


người chơi A khơng nên đặt cược dọc theo dịng 2;
người chơi B khơng nên đặt cược dọc theo dịng 2 và 4.
Các chiến lược cải tiến rõ ràng hơn có thể bị loại trừ khi giữ bài cao nhất. Ví dụ:
một người chơi đang cầm qn 3 khơng bao giờ được trả lời cược bằng cách vượt qua,
bởi vì vượt qua người chơi sẽ thua, nhưng đặt cược thì người chơi sẽ thắng. Hơn nữa, khi
giữ 3, người chơi phải luôn trả lời một đường chuyền bằng cách đặt cược, vì trong cả hai
trường hợp, người chơi sẽ thắng, nhưng trả lời bằng cược sẽ mở ra khả năng của đối thủ
đặt cược lại và do đó tăng quy mơ chiến thắng cho người chơi giữ 3. Do đó, khi cầm quân
3,
người chơi A không nên đặt cược dọc theo dịng 1;
người chơi B khơng nên đặt cược dọc theo dòng 1, 2 và 3.
Loại bỏ việc xem xét các dòng cá cược ở trên, chúng ta thấy rằng người chơi A
bây giờ có 2 3 2 12 chiến lược thuần túy và người chơi B có 2 4 1 8 chiến
lược thuần túy. Do đó, số lượng các cặp đã giảm xuống còn 12 8 96 - một mức giảm
đáng kể. Không chỉ chúng ta loại bỏ những chiến lược “xấu” này khỏi mơ hình tốn học
nhưng chúng ta giả định rằng cả hai người chơi đều biết rằng những chiến lược tồi này sẽ
không được sử dụng. Tức là người chơi A có thể cho rằng người chơi B sẽ chơi thơng
minh và người chơi B có thể cho rằng điều tương tự A. Kiến thức này sau đó dẫn đến
giảm hơn nữa. Ví dụ: khi cầm quân 2, người chơi A nên hạn chế đặt cược dọc theo dòng
3. Để đi đến kết luận này, chúng ta phải cẩn thận liệt kê các khả năng. Vì người chơi A
giữ 2, người chơi B giữ một trong hai 1 hoặc 3. Nhưng chúng tôi đã xác định người chơi
B sẽ làm gì trong cả hai các trường hợp. Sử dụng kiến thức này, khơng khó để thấy rằng
người chơi A sẽ không khôn ngoan khi đặt cược dọc theo dịng 3. Một phân tích tương tự
cho thấy rằng, khi giữ quân 2, người chơi B nên ngưng từ dịng 3 và 4. Do đó, người chơi
A hiện chỉ có 2 2 2 8 chiến lược thuần túy và ngươi chơi B chỉ có 2 2 1 4

chiến lược thuần túy.


Hình 11.1
Tại thời điểm này, khơng thể giảm thêm nữa. Tính tốn ma trận, ta có:

Hình 11.1 cho thấy một từ điển ban đầu cho vấn đề cơ bản (col-player) liên quan và hình
11.2 cho thấy một từ điển tối ưu. Từ từ điển tối ưu, chúng ta có thể đọc tắt một giải pháp
cho trò chơi ma trận. chúng ta thấy rằng:
T

1
1
1
1
2
y*  0 0
0 0 0 
x*  0 0 
3
6  và
3
2
3

T

Trên thực tế, từ hình 11.2, có nhiều giải pháp tối ưu cho cả hai hàng và cột. Những gì
được hiển thị ở đây chỉ là một cặp giải pháp. Những vectơ ngẫu nhiên này có thể được



tóm tắt dưới dạng các phát biểu đơn giản của phương pháp ngẫu nhiên hóa tối ưu chiến
lược của hai người chơi. Thật vậy, chiến lược tối ưu của người chơi A như sau:

Hình 11.2 Từ điển tối ưu cho poker đơn giản
khi giữ 1, trộn dòng 1 và dòng 3 theo tỷ lệ 5:1;
khi giữ 2, trộn dòng 1 và 2 theo tỷ lệ 1:1;
khi giữ 3 thì trộn dòng 2 và dòng 3 theo tỉ lệ 1:1.
Tương tự, chiến lược tối ưu của người chơi B có thể được mơ tả là:
khi giữ 1, trộn dịng 1 và 3 theo tỷ lệ 2:1;
khi giữ 2, trộn dòng 1 và 2 theo tỷ lệ 2:1;
khi giữ 3, sử dụng dòng 4.
Lưu ý rằng tốt nhất là người chơi A nên sử dụng dịng 3 khi giữ qn 1 ít nhất một
khoảng thời gian. Vì dịng 3 nói đặt cược, nên đặt cược này là một trò lừa bịp. Người
chơi B đơi khi cũng chọn lừa bịp, vì dịng cá cược 3 đôi khi được sử dụng khi giữ quân 1.
Rõ ràng, các chiến lược tối ưu cũng thể hiện một lượng cược thấp.




×