Tải bản đầy đủ (.pdf) (88 trang)

Báo cáo toán rời rạc (p2)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.47 MB, 88 trang )

Báo cáo Tốn rời rạc (P2)
Lý thuyết trị chơi thực sự là gì?
Lý thuyết trị chơi như chúng ta biết ngày nay ra đời là do sở thích chơi poker của
một người. Nhưng khơng phải một người đàn ơng bình thường mà chúng ta sẽ bắt
gặp hằng ngày trên đường phố đâu. Ơng là một nhà tốn học, vật lý học và khoa học
máy tính có tên là John von Neumann.
Mục tiêu của ông đương nhiên là khác so với những người chơi poker thông thường
muốn chơi giỏi hơn. Qua một bài báo của Forbes, ông ấy quan tâm tới poker vì ơng
coi nó như một con đường để phát triển tốn học vào trong cuộc sống.
Ơng muốn có một lý thuyết chung có thể được áp dụng cho ngoại giao, tình u, sự
tiến hóa của vạn vật hay chiến lược kinh doanh. Lý thuyết này được ông gọi là lý
thuyết trị chơi.
Thơng qua sự hợp tác với nhà kinh tế học Oskar Morgenstern trong cuốn sách có
tên là Lý thuyết về trò chơi và hành vi kinh tế vào năm 1944, ông đã tiến được gần
hơn tới mục tiêu của mình. Trong cuốn sách này, hai người họ đã khẳng định rằng
bất kì tình hình kinh tế có thể được định nghĩa là kết quả của một trò chơi giữa hai
hoặc nhiều người chơi
Trò chơi theo lý thuyết trò chơi là gì?
Giáo sử kinh tế Yale Ben Polak lưu ý rằng một trị chơi có 3 thành phần cơ bản:
người chơi, chiến thuật và phần thưởng có thể có của trị chơi. Tuy nhiên, khơng
phải lúc nào người chơi cũng có kiến thức hồn hảo về những yếu tố này của
một trò chơi
Chiến lược là những hành động mà người chơi thực hiện trong một trò chơi.
Chiến lược là trung tâm của lý thuyết trị chơi
Forbes mơ tả lý thuyết được trình bày trong Lý thuyết về trị chơi và hành vi kinh
tế là "mơ hình tốn học về tương tác chiến lược giữa các đối thủ hợp lý, trong đó
hành động của mỗi bên sẽ phụ thuộc vào những gì bên kia sẽ làm".
Khái niệm về sự phụ thuộc lẫn nhau trong chiến lược- hành động của một
người chơi ảnh hưởng đến hành động của những người chơi khác - là một
khía cạnh quan trọng trong phiên bản lý thuyết trờ chơi của von Neumann vẫn
còn phù hợp cho đến ngày nay




Phần thưởng, được mô tả là "kết quả của chiến lược được người chơi áp dụng".
Phần thưởng có thể là một loạt các thứ tùy thuộc vào trị chơi. Đó có thể là lợi
nhuận, một hiệp ước hịa bình, hoặc mua một chiếc xe hơi.
Một phiên bản lý thuyết trò chơi của Von Neumann là nó tập trung vào việc tìm ra
các chiến lược tối ưu cho một loại trị chơi được gọi là trị chơi có tổng bằng
khơng. Trong trị chơi có tổng bằng khơng, một người chơi thua thì người chơi
khác được lợi. Ở đây có một lưu ý là người chơi không thể tăng hoặc giảm
tài nguyên có sẵn.
Các nhà phê bình đã lưu ý rằng cuộc sống khơng đơn giản như trị chơi có
tổng bằng khơng. Có nhiều kịch bản trị chơi phức tạp hơn trong thế giới
thực.
Lý thuyết trò chơi đã phát triển để phân tích nhiều loại trị chơi hơn như trị
chơi tổ hợp và trị chơi tích phân, tuy nhiên chúng ta chỉ có thời gian để xét
một trị chơi thơi.

Một ví dụ kinh đển về một trò chơi thường được nghiên cứu
trong lý thuyết trò chơi được gọi là "Song đề tù nhân" (The
Prisoner's Dilemma)
Các phiên bản khác nhau của trò chơi này có sẵn trên Internet. Một trong số đó
có giả thiết như sau:"Có hai tù nhân, Đăng và Huy, họ vừa bị bắt vì cướp ngân
hàng, tuy nhiên cảnh sát khơng có đủ bằng chứng để kết tội họ, nhưng biết rằng
họ đã phạm tội. Những cách sát đưa Đăng và Huy vào các phòng thẩm vấn
riêng biệt và đưa ra cho 2 tên này các lựa chọn: Nếu cả hai đều thú nhận thì cả
hai sẽ bị tuyên án 10 năm tù; Nếu một tên thú tội và tên kia không thú tôi, tên thú
nhận sẽ được tự do và tên còn lại sẽ phải ngồi tù 20 năm. Nếu cả hai khơng thú
nhận thì cả hai sẽ phải nhận 5 năm tù cho một tội danh khác mà cả hai bị truy
nã.
Có thể nhận thấy "Song đề tù nhân" chứa đựng những yếu tơ cơ bản của

một trị chơi được đề cập đến trong "Lý thuyết trò chơi":
1. Hai người chơi là Đăng và Huy
2. Chiến lược có sẵn là thú tội hoặc không thú tội
3. Phần thưởng của trị chơi bao gồm từ khơng phải vào tù cho đến thụ án 5,
10 hoặc 20 năm tù.
Và để so sánh các kết quả một cách dễ dàng hơn thì chúng sẽ được đưa vào
một ma trận:


Các chiến lược của Đăng được liệt kê theo hàng hoặc trục x, phần thưởng
của anh ấy được liệt kê trước. Phần thưởng của Huy được liệt kê sau và các
chiến lược sẽ được nằm trong cột hoặc trên trục y.

Ma trận này được gọi là "dạng chuẩn tắc" trong lý thuyết trò chơi. Các
chuyển động diễn ra đồng thời, có nghĩa là khơng người chơi nào biết được
quyết định của người kia và các quyết định được đưa ra cùng một lúc (như
trong ví dụ này thì cả hai tù nhân đều ở trong các phòng riêng biệt và sẽ
khơng được đưa ra ngồi cho đến khi cả hai đã đưa ra quyết định của mình.
Một giải pháp phổ biến cho các trò chơi đồng thời được gọi là "chiến lược
thống trị". Được định nghĩa là "chiến lược mang lại lợi nhuận tốt nhất cho dù
người chơi khác chọn gì. Đăng khơng biết liệu răng Huy có thú nhận hay
khơng. Khi đó hắn sẽ xem xét các lựa chọn của mình.
Với những lựa chọn đã được nêu ở trên thì đương nhiên chiến lược tốt nhất
cho Huy là thú nhận bởi vì nó dẫn đến việc được phần thưởng tốt nhất bất
kể là điều đó sẽ khiến anh ta được tự do hoặc sẽ phải ngồi tù nhưng sẽ ít
hơn so với việc anh ta không thú nhận. Và tất nhiên là Đăng cũng ở trong
hoàn cảnh tương tự và có những lựa chọn giống với Huy. Kết quả là, chiến
lược tốt nhất cho Đăng cũng là thú nhận vì nó dẫn đến mức thưởng tốt nhất
mà Huy sẽ nhận được.
Trạng thái cân bằng chiến lược thống trị đạt được khi mỗi người chơi chọn

chiến lược thống trị của riêng họ.
→ Vậy tại sao chiến lược cả hai đều không thú tội không phải là lựa chọn tốt
nhất? Mặc dù phương án này sẽ giúp cả hai người ít thời gian ngồi tù hơn so với
khi họ thú nhận, nhưng nó chỉ hiệu quả nếu cả hai người họ biết chắc chắn rằng


người kia sẽ không thú nhận. Và chúng ta không biết rằng liệu Đăng và Huy có
thể làm việc cùng nhau với mức độ hợp tác đó hay khơng được
Ngồi ra, cả hai khó có thể chọn chiến lược khơng thú nhận vì nó có hình
phạt lớn hơn nếu họ thú nhận. Việc thú nhận cũng giúp mỗi người trong số
họ có khả năng khơng phải ngồi tù, thậm chí là dưới 5 năm tù.
The Prisoner's Dilemma là một ví dụ điển hình cho thấy lý thuyết trị chơi có
thể trở thành vấn đề của tính hợp lý. Đây cũng là một trong những vấn đề gây
tranh cãi nhất trong lý thuyết trò chơi.
Thật vậy, hầu hết tất cả các lý thuyết đều dựa trên giả định rằng các tác nhân là
những người chơi hợp lý, những người cố gắng tối đa hóa các phần thưởng của
họ, nhưng các nghiên cứu chứng minh rằng người chơi không phải lúc nào cũng
hoạt động theo lý trí và đơi khi kết luận của phân tích hợp lý khơng phù hợp với
thực tế.
Như chúng ta có thể thấy từ trị chơi này, chiến lược hợp lý nhất sẽ mang lại cho
cả hai người chơi ít thời gian tù hơn khơng phải là lựa chọn tốt nhất trong khi mà
lựa chọn khiến hai người chơi phải ở trong tù lâu hơn mới là lựa chọn như vậy.
Song đề tù nhân cũng phản ánh cách các nhà nghiên cứu lý thuyết trị chơi khác
có thể khắc phục một số vấn đề trong phiên bản lý thuyết trò chơi của Von
Neumann.
Một trong số họ là nhà tốn học John Nash. Ơng đã tìm ra cách để xác định
chiến lược tối ưu trong bất kỳ trò chơi hữu hạn nào. Đó chính là "điểm cân
bằng Nash" - một giải pháp cụ thể cho các trò chơi, một giải pháp được đánh
giá bởi thực tế là mỗi người chơi đang tạo ra điều tốt nhất mà họ có thể có, dựa
trên các chiến lược đang được sử dụng bởi tất cả các người chơi khác.

Khi đạt được trạng thái cân bằng Nash trong một trị chơi, khơng ai trong số
người chơi muốn thay đổi chiến lược khác bởi vì làm như vậy sẽ dẫn đến kết
quả tồi tệ hơn chiến lược hiện tại.
Trong Song đề tù nhân, cân bằng Nash là chiến lược cả hai người chơi thú
nhận. Khơng có lựa chọn nào tốt hơn cho một trong hai người chơi để thay
đổi nữa. Cũng từ ví dụ này, chúng ta có thể thấy một khía cạnh thú vị khác
của cân bằng Nash.
→ Nhà toán học Iztok Hozo chỉ ra rằng "bất kì điểm cân bằng chiến lược thống
trị nào cũng là điểm cân bằng Nash". Nguyên nhân là do "cân bằng Nash là sự
mở rộng của các khái niệm về cân bằng chiến lược thống trị. Tuy nhiên ông cũng


lưu ý rằng cân bằng Nash có thể được sử dụng để giải quyết các trị chơi khơng
có chiến lược thống trị".
Cân bằng Nash đã chỉ ra rằng, tối đa hóa lợi ích cho từng cá nhân chưa
chắc đã là tối đa hóa lợi ích cho một đám đơng
Nash nhận được nhiều lời khen ngợi cho cân bằng Nash và các cơng trình
khác của ơng trong Lý thuyết trị chơi - nhưng không phải từ John von
Neumann. Von Neumann đã ghen tị, đã bác bỏ kết quả của Nash thời trẻ,
nói là là "tầm thường" - quá đơn giản về mặt tốn học. Và tất nhiên là nhiều
người khác khơng đồng tình với đánh giá của Von Neumann về cơng việc
của Nash.
Nash sau đó chia sẻ Giải tưởng niệm Nobel về Khoa học Kinh tế vào năm
1994 cho cơng trình nghiên cứu lý thuyết trò chơi của họ.
Và sau sự ra đi của Nash vào năm 2015, một trang web học thuật đã tóm
gọn tất cả thành tựu của Nash như sau:"Đóng góp cơ bản nhất của Nash
cho lý thuyết trò chơi là mở ra lĩnh vực này cho nhiều ứng dụng hơn trong
nghiên cứu [...] Nếu khơng có sự đột phá của ơng ấy, phần lớn những gì tiếp
theo trong lý thuyết trị chơi có thể đã khơng thực hiện được".
Kể từ giờ trở đi chúng ta sẽ gọi bằng cách là Người chơi 1 và Người chơi 2 hoặc là

"anh" với người chơi 1 và "cô" với người chơi 2
Trò chơi hợp tác và trò chơi bất hợp tác
Một trò chơi sẽ được gọi là trò chơi hợp tác khi người chơi được phép xây dựng
một đội/nhóm/liên minh với một lời cam kết ví dụ như hợp đồng. Một trị chơi là
bất hợp tác nếu người chơi khơng thể thành lập đội nhóm và tất cả các yêu cầu
đều là bắt buộc tự thân vận động.
Các trò chơi bất hợp tác thường được phân tích thơng qua khn khổ của lý
thuyết trò chơi bất hợp tác. Lý thuyết trị chơi hợp tác tập trung vào việc dự đốn
các liên minh sẽ hình thành tế nào, hành động của người tham gia trong một
nhóm và kết quả phần thưởng chung của nhóm. Đối lập với lý thuyết trị chơi bất
hợp tác tập trung vào dự đoán hành động của từng các nhân, phần thưởng và
phân tích Cân bằng Nash. Sự tập trung vào các lợi ích các nhân sẽ dẫn tới một
hiện tượng được biết tới là Bi kịch của tài nguyên dùng chung, khi đó những
tài nguyên được sử dụng khai thác ở mức độ triệt để. Việc thiếu hụt một giao
kèo dẫn tới việc tài nguyên dùng chung thường bị hỏng nhanh, hao hụt nhanh
bởi vì bị sử dụng q nhiều và khơng có biện pháp cần thiết để ngăn các cá
nhân sử dụng vì mục đích riêng.


Lý thuyết trò chơi hợp tác cung cấp một phương pháp tiếp cận ở mức độ cao khi
nó mơ tả những cấu trúc, chiến lược và phần thưởng của liên minh, trong khi lý
thuyết trò chơi bất hợp tác cũng nhìn vào cách các thủ tục thương lượng sẽ ảnh
hưởng đến việc phân phối phần thưởng với mỗi liên minh. Vì lý thuyết trị chơi
bất hợp tác phổ biến hơn, lý thuyết trị chơi hợp tác có thể phân tích qua các
cách tiếp cận của lý thuyết trò chơi bất hợp tác (điều ngược lại thì khơng có)
cung cấp đủ các giả định để đưa ra các chiến lược khả thi có sẵn cho người
chơi.
Dù rằng có thể mong muốn chỉ sử dụng một lý thuyết duy nhất, nhưng trong
nhiều trường hợp thì lượng thơng tin khơng đủ để lập mơ hình chính xác các thủ
tục chính thức trong q trình xây dựng chiến lược hoặc là mơ hình kết quả quá

phức tạo để cung cấp một chiến lược thực tế trong thế giới thực. Trong những
trường hợp như vậy thì lý thuyết trị chơi hợp tác cung cấp một cách tiếp cận
đơn giản cho phép phân tích trị chơi nói chung mà khơng phải đưa ra các giả
định nào về việc thương lượng.
Vậy thì sự khác biệt giữa lý thuyết trò chơi hợp tác và lý thuyết trò chơi bất hợp
tác là gì? Cả hai đều là những cách tiếp cận và có những vẫn đề khi lựa chọn
phương pháp tiếp cận. Chúng ta có thể xây dựng các mơ hình tương tác chiến
lược bằng lý thuyết trị chơi hợp tác hoặc lý thuyết trò chơi bất hợp tác, cả hai
đều có lẽ sẽ hoạt động, chúng có những lợi thế cũng như những nhược được
nhưng trong một số trường hợp thì phù hợp với cách tiếp cận bằng lý thuyết trò
chơi hợp tác và những trường hợp khác thì phù hợp với lý thuyết trị chơi bất
hợp tác hoặc là dựa vào câu hỏi đang cần giải quyết, chúng ta sẽ thấy thích thú
với phương pháp này hơn so với phương pháp khác.

Lấy một ví dụ như sau:
Có 3 đứa trẻ và mỗi đứa trẻ có một số tiền như sau: Huy có 6 nghìn đồng, Long
có 4 nghìn đồng và Dương có 3 nghìn đồng. Những đứa trẻ này khơng quan tâm
tới số tiền mà chúng có mà chỉ quan muốn mua kem. Có 3 loại kem là loại 500g
có giá 7 nghìn đồng, loại 750g có giá 9 nghìn đồng và loại 1000g có giá 11 nghìn
đồng.
Chúng ta thấy rằng khơng một đứa trẻ (người chơi) nào có thể mua kem một
mình và do đó chúng phải góp chung tiền (tài nguyên) và giờ chúng sẽ phải
quyết định là sẽ chia ra như thế nào tức là mỗi người sẽ nhận được bao nhiêu?
Phân tích vấn đề này bằng cách tiếp cận của lý thuyết trò chơi hợp tác và cũng
như lý thuyết trò chơi bất hợp tác. Hai lý thuyết này có những điểm khác nhau cơ


bản như sau:

→ Các thỏa thuận có thể khơng được đề cập trong môi trường chiến lược.

Những đứa trẻ này là những người bạn và chúng có thể dễ dàng viết ra một hợp
đồng ràng buộc giữa chúng ví dụ như:"Nếu bạn khơng làm giống thế này tớ sẽ
khơng nói chuyện với bạn nữa" và một số cách khác nữa. Thỏa thuận ràng buộc
là thỏa thuận mà khi có một người vi phạm thì sẽ có hình phạt về tiền tệ. Thỏa
thuận giữa những đứa trẻ có thể khơng có những hình phạt về tiền tệ nhưng sẽ
có những tác động về cảm xúc và tâm lý.
Nếu chúng ta phân tích một mơi trường chiến lược mà những người tham gia trò
chơi đã biết người khác từ trước, những người có quá khứ và có thể có tương
lai với nhau thì lý thuyết trị chơi hợp tác sẽ có nhiều lợi ích, nhưng dĩ nhiên
chúng ta có thể phân tích chiến lược bằng cách tiếp cận của lý thuyết trò chơi
bất hợp tác và có những thỏa thuận tiềm năng được đưa ra với những người
khác.
→ Trong lý thuyết trò chơi hợp tác thì cách tiếp cận đó là một cuộc thi hoặc một
trò chơi giữa các liên minh. Còn trong cách tiếp cận của lý thuyết trò chơi bất
hợp tác thì chúng ta khơng nhìn vào các nhóm người chơi mà nhìn vào từng cá
nhân đơn lẻ, và bởi vì mơi trường chiến lược mà những người chơi này khơng
được phép và cũng khơng có cách nào để tham gia một liên minh (bởi họ không
biết những người chơi khác).
→ Sự khác biệt lớn nhất giữa hai lý thuyết trị chơi này là lý thuyết trị chơi hợp
tác đó là lý thuyết trị chơi hợp tác đưa mơi trường chiến lược hoặc trò chơi vào
một "hộp đen". Tức là những người chơi này tham gia một trò chơi và đây là mơi
trường chiến lược. Bởi vì quyết định của một người không đủ để định đoạt phần
thưởng của riêng anh ta mà những người cịn lại mới có thể có ảnh hưởng. Với
việc xây dựng một mơ hình thì chúng ta khơng đưa ra các dự đốn về chiến
lược, về thời gian,... Bởi vì chúng ta làm sao mà biết được???
Quay lại với ví dụ trên thì hãy trả lời câu hỏi là bạn sẽ thực sự chơi trò chơi này
như thế nào. Có lẽ chúng ta khơng thường phải ở trong tình huống này với bạn
bè của mình, chúng ta khơng có một cách căn chỉnh đúng mực như trong những



trị chơi có thời gian cố định. Gần như chắc chắn tất cả ba đứa trẻ sẽ cùng nhau
góp tiền và hãy quên việc hình thành một liên minh thế nào thay vào đó tất cả
đều muốn cùng nhau góp tiền và như vậy là họ có thể mua cây kem 1000g. Đến
đây chúng ta có câu hỏi là làm thế nào để chia cây kem đó? Chia đều hay là
người góp nhiều tiền hơn sẽ được chia phần nhiều hơn? Phần nhiều nhất nhiều
đến mức nào? Tức là họ sẽ phân xử và đàm phán như thế nào, liệu họ có viết số
lên những tờ giấy rồi bốc chúng ngẫu nhiên,... Vậy thì quy luật của trị chơi mà
họ sẽ chơi là gì? Chúng ta khơng thể biết, nhưng chúng ta có thể mơ hình hóa
nó, phụ thuộc vào câu hỏi mà chúng ta cần giải quyết.
Nếu như chúng ta không quan tâm tới các chi tiết cụ thể của trò chơi và chỉ quan
tâm là kết cục nên là như thế nào. Sau cùng khi họ cùng đi tới của hàng, mua
kem và chia nó ra thì đâu là kết quả tối ưu. Chúng ta không cần quan tâm
chuyện gì xảy ra trong "hộp đen", chỉ cần nhìn vào đầu ra của nó nên lý thuyết
trị chơi hợp tác có nhiều ý nghĩa hơn. Nhưng đơi khi thì lý thuyết trị chơi bất
hợp tác có mục tiêu là mở cái hộp này, khi muốn biết điều gì xảy ra trong cái
hộp, chiến lược, hành động,... và vì lý do đó nên phải mở chiếc hộp và khám phá
điều đang xảy ra bên trong.
Điều này vẫn phụ thuộc vào loại câu hỏi bạn đang giải quyết. Nếu như chúng ta
muốn phân tích cách các cơng ty cạnh tranh với nhau cũng như là các công ty
thay đổi giá cả của họ như thế nào hoặc họ điều chỉnh số lượng của họ thế nào
hoặc số lượng của họ thay đổi thế nào phụ thuộc vào những công ty khác...
Chiến lược, thời gian trò chơi đều là những vấn đề khi đó chúng ta cần giải quyết
những vấn đề cụ thể của môi trường chiến lược, chúng ta không chỉ nhìn vào
đầu ra. Trong trường hợp này thì cách tiếp cận bằng lý thuyết trị chơi bất hợp
tác sẽ có nhiều ý nghĩa hơn.
Lý thuyết trò chơi hợp tác là tương đối và những điều kiện là lỏng lẻo, nên lý
thuyết trị chơi hợp tác có tính quy chuẩn hơn khi so sánh với lý thuyết trò chơi
bất hợp tác. Vì thế, lý thuyết trị chơi bất hợp tác minh bạch hơn như là người
chơi sẽ chơi thế nào, nên chơi thế nào. Tuy vậy lý thuyết trò chơi hợp tác khơng
quan tâm nhiều đến các chi tiết của trị chơi, nó sao cũng được và dù họ chơi

như thế nào thì kết cục vẫn sẽ nên là như thế.
Vậy tóm lại khi nào thì nên dùng lý thuyết trị chơi hợp tác và khi nào thì nên
dùng lý thuyết trị chơi bất hợp tác. Chúng ta có thể mơ hình hóa một khơng gian
chiến lược bằng một trong hai cách tiếp cận. Rõ ràng là nó phụ thuộc vào loại
câu hỏi mà chúng ta đang tìm câu trả lời, và trong những khơng gian thì lý thuyết
trị chơi hợp tác phù hợp; ví dụ như hãy suy nghĩ là bạn biết các tình huống
thương thuyết và bạn nhớ là bạn chưa từng trao đổi với nhiều người bán hoặc là


nhiều người mua. Những sự mô tả chiến lược, hành động hay là thời gian là
những sự cốt yếu và chúng ta có thể nói chúng ta khơng quan tâm điều gì xảy ra
bên trong cái hộp và tơi chỉ muốn biết kết cục. Có những lúc chúng ta muốn trả
lời câu hỏi là đâu là các đề nghị tốt nhất và ai sẽ là người làm các đề nghị đó,
nếu đó là chính bản thân mình thì nó sẽ có tác động tích cực hay tiêu cực hoặc
nếu như chúng ta muốn nhượng bộ thì tần số nhượng bộ nên là bao nhiều thì lý
thuyết trị chơi bất hợp tác sẽ có nhiều tác dụng hơn.
Nó khơng hề rõ ràng trong nhiều trường hợp thì khơng có một sự khác biệt rõ
ràng. Nhưng với những gì đã nêu ở trên thì có lẽ đã đủ những gì cơ bản nhất để
chúng ta phân biệt hai cách tiếp cận này

Strict Dominance
Chiến lược thống trị
Cốt lõi của lý thuyết trò chơi là việc nghiên cứu các chiến thuật phụ thuộc lẫn
nhau - tức là một tình huống mà hành động của một cá nhân sẽ tác động tới
cá nhân còn lại và ngược lại. Chiến lược phụ thuộc lẫn nhau là rất phức tạp,
khi mà người tham gia cần lường trước, hành động và phản ứng. ...
Song đề tù nhân là bài tốn lâu đời và là mơ hình được nghiên cứu nhiều
nhất trong lý thuyết trò chơi, và cách giải quyết bài táon cũng là đơn giản....
Strict Dominance: Thông qua bài toán Song đề tù nhân, chúng ta thấy được
một ví dụ của thống trị nghiêm ngặt. Ta nói chiến lược a thống trị nghiêm

ngặt chiến lược b cho người chơi x nếu như chiến lược x cung cấp một phần
thưởng tốt hơn cho người chơi này so với chiến lược b bất kể là người chơi
cịn lại làm gì. Như trong ví dụ trên thì nếu như người chơi 1 lựa chọn "khai"
thì anh ta sẽ nhận được kết quả tốt hơn so với im lặng bất kể là người chơi 2
có làm gì.
Khơng hề bất ngờ là người chơi thường không bao giờ lựa chọn chiến lược
bị áp đảo - theo như định nghĩa là một lựa chọn tốt hơn luôn luôn xuất hiện
bất kể là người chơi cịn lại làm gì.
Ý nghĩa của con số và vai trị của lý thuyết trị chơi
Mặc dù có một số lượng lớn các nhánh của lý thuyết trò chơi tập trung
nghiên cứu cách dự đốn ích lợi, chúng ta thường coi như phần thưởng của
mỗi người chơi là sự xếp hạng từ đầu ra mà anh/cơ ta thích thú nhất cho tới
ít thích thú nhất.


Trong Song đề tù nhân, ta giả định là người chơi muốn thời gian ở tù
của mình là nhỏ nhất. Lý thuyết trị chơi khơng bắt buộc người chơi phải
có những sự ưu tiên này, tương tự với các nhà phê bình thường u
cầu. Thay vào đó, lý thuyết trị chơi phân tích điều gì nên xảy ra theo xu
hướng mong muốn của người chơi. Vì vậy nếu như người chơi muốn
thời gian tù của mình là nhỏ nhất thì chúng ta có thể sử dụng những số
âm của tháng nếu như phải vào tù như là phần thưởng. Những con số
này tương ứng với các kết quả mà họ sẽ nhận được từ ưu tiên nhất là
kết quả có giá trị 0, kết quả ít mong muốn nhất là kết quả có giá trị là -12,
và những giá trị còn lại sẽ theo một cách hợp lý ở giữa.
Giá trị của con số khơng thích hợp với đầu ra của bài toán Song đề tù
nhân.
Vấn đề của Song đề tù nhân là hai người chơi không tin tưởng nhau.
Tuy vậy trong trường hợp mà bạn và một người bạn đáng tin cậy của
mình bị bắt và thẩm vấn một vấn đề tương tự? Những cơng cụ giải quyết

cịn thơ sơ và chưa đủ để đưa ra câu trả lời...
Lý thuyết trò chơi đưa ra cho chúng ta một cách suy luận chính xác...
Ứng dụng của Song đề tù nhân
Có nhiều ứng dụng sẽ được nêu ở phần bên dưới
Tắc nghẽn (deadlock)
Tắc nghẽn là một trò chơi mà hành động giúp cả hai bên đều nhận được
nhiều lợi ích nhất vẫn chiếm ưu thế. Điều này tạo ra một sự tương phản với
Song đề tù nhân nơi mà hành động sẽ tạo ra lợi ích chung cho cả hai bị chi
phối. Việc này khiến Deadlock mất đi sự thú vị và khiến nó ít được quan tâm
hơn, vì khơng có xung đột giữa lợi ích cá nhân và lợi ích chung. Mặt khác thì
deadlock cũng có thể tác động tới hành vi kinh tế và thay đổi kết quả cân
bằng tron xã hội
Chiến lược thống trị trong trò chơi bất đối xứng
Chúng ta vẫn có thể sử dụng thống trị nghiêm ngặt trong trị chơi dù là
khơng có tính đối xứng như Song đề tù nhân hoặc là Tắc nghẽn.
Lấy ví dụ...
Kết luận
Sau cùng thì chiến lược trội là một cơng cụ rất mạnh trong lý thuyết trị chơi.
Nhưng khi mà khái niệm là đơn giản thì việc áp dụng nó là khó khăn. Mặc dù


là ở dạng ma trận thì một trị chơi vẫn có rất là nhiều thơng tin. Để có thể
thành cơng tìm ra chiến lược bị áp đảo, chúng ta cần tập trung vào một phần
thưởng của một người chơi duy nhất trong mỗi lần xem xét. Bằng cách phân
tách rõ ràng và đánh giá từng cá nhân như ở trên. Khi tự mình tìm kiếm
chiến lược bị áp đảo, hãy ngăn chẵn các phần thưởng khơng thích hợp và
các chiến lược theo cách tương tự.
Các điểm mấu chốt của phần này
1. Lý thuyết trị chơi là một phương pháp tốn học để đảm bảo rằng các
giả thiết vào hàm các kết luận????

2. Phần thưởng trong ma trận trò chơi đại diện cho sự ưu tiên của người
chơi dựa vào giả thiết
3. Chiến thuật x thống trị nghiêm ngặt chiến thuật y nếu như nó cho một
phần thưởng tốt hơn so với y bất kể là những người chơi khác làm gì
4. Chơi một chiến lược thống trị nghiêm ngặt là không hợp lý - Một chiến
lược khác luôn mang lại một kết quả tốt hơn?
Iterated Elimination of Strictly Dominated Strategies
(Sự sàng lọc chiến lược bị áp đảo)
Một trong những điểm mạnh nhất của Lý thuyết trị chơi đó là trong việc
phân tích xem một cơng ty nên hoạt động thế nào trong một thế giới cạnh
tranh không công bằng. Khi mà số lượng công ty trên thế giới đang ngày
càng lớn và khó kiểm sốt được, một cơng ty nhỏ khơng thể điều chỉnh thị
trường theo ý muốn của mình. Nhưng nếu như chỉ có hai cơng ty tồn tại, các
quyết định kinh doanh của mỗi công ty sẽ tác động lớn tới cơng ty cịn lại.
Bài tốn tổ chức lễ hội
Giả sử ở một thành phố nhỏ chỉ có hai câu lạc bộ nhảy, gọi là MỘT và HAI.
Cả hai đều quyết định sẽ đứng ra tổ chức một đêm nhảy disco hoặc là đêm
nhảy salsa vào thứ 6 tới. CLB MỘT nhỉnh hơn về chiến lược so với CLB
HAI: MỘT có vị trí ở trung tâm của thành phố, trong khi HAI cách đó vài mét.
Vì vậy, nếu như HAI tổ chức tương tự cùng đề tài như MỘT, sẽ khơng ai
tham gia HAI cả.
Có 3 loại người tham gia. 60 người hâm mộ cuồng nhiệt của Salso sẽ
chỉ tới club nếu như có Salsa. 20 người là fan hâm mộ cuồng nhiệt của
disco và sẽ chỉ tới clb nếu có disco. Và 20 người cịn lại thích thú với
disco hơn nhưng sẽ tham gia salsa nếu đây là lựa chọn duy nhất.


Nếu một cơng ty muốn tối đa hóa số lượng người tham gia vào thứ Sáu
thì ma trận phần thưởng sẽ như sau:


Lưu ý rằng HAI đang trong một thế lưỡng nan. Nếu họ tổ chức một chủ
đề tương tự như MỘT thì khơng ai tham gia cả. Vậy nên mục tiêu của
Hai phải là dự đoán được chủ đề của MỘT và làm theo hướng khác. Do
vậy nên HAI khơng có chiến lược thống trị nghiêm ngặt.
HAI có nên cam chịu và chỉ có thể đốn xem nên sử dụng chiến thuật
nào hay khơng? Tất nhiên hồn tồn là không. Nếu như HAI làm sáng tỏ
được động cơ của MỘT, HAi sẽ biết chính xác chủ đề mình làm.
Để xem như thế nào, hãy thử cân nhắc các chiến lược mà MỘT nên
chơi. Thứ nhất, giả sử là MỘT biết trước là HAI sẽ chọn Salsa. MỘT sẽ
phản ứng thế nào?
Nếu một cũng chọn Salsa, điều đó đem cho họ 80 người tham gia. Nếu
họ chọn disco thì chỉ mang lại số lượng là 40. Và 80 lớn hơn 40. MỘT
nên chọn Salsa neeus như HAI chọn Salsa.
Giờ thì giả sử MỘT chắc chắn HAi sẽ chuẩn bị một đêm disco: Khi đó thì
Salsa vẫn sẽ là tốt hơn khi mang tới 60 người tham dự, trong khi đó
disco chỉ có 40.
Với hai dự đốn trên thì ta thấy rằng đêm Salsa là thống trị nghiêm ngặt
với MỘT - bất kể là HAI lựa chọn gì đi nữa. MỘT sẽ luôn tốt hơn nếu
chọn Salsa. Bởi vậy, MỘT phải tổ chức đêm Salsa
Với suy nghĩ này, hãy thử cân nhắc Hai nên lựa chọn thế nào. Đặt bản
thân vào vị trí của MỘT, HAi nhận thấy là MỘT sẽ chọn tổ chức một đêm
Salsa. Vì vậy, HAI đang trong tình thế lựa chọn chién lược tiến thối
lưỡng nan, dẫn đến sự lựa chọn như sau:
1. Nếu như HAI tổ chức một đêm Salsa thì mọi người sẽ tham gia MỘT bởi
vì MỘT có một vị trí tốt hơn và HAI sẽ kết thúc với một đêm khơng có ai


tham dự. Mặt khác nếu HAi chọn tổ chức một đêm disco, tất cả 40 người
hâm mộ disco sẽ tới. Dẫn tới HAI một cách tối ưu sẽ tổ chức disco. Vì
vậy, kết cục thường thấy duy nhất của trị chơi là <salsa,disco> (MỘT tổ

chức Salsa và HAI tổ chức disco).
Khi mà logic của trị chơi CLB trên là khơng hề phức tạp, chúng ta có thể mở
rộng nó ra thành một tình huống phức tạp hơn. Như trị chơi dưới đây khi mà
những con số thể hiện lượng tiền thắng (hoặc thua) của mỗi người chơi với
kết cả chi tiết sau:

Nếu như các người chơi chỉ muốn tối đa hóa số lượng dollar mà anh ta
thắng được, trị chơi sẽ đưa ra một thử thách mới. Với Song đề tù nhân thì
chúng ta có thể biết chính xác được rằng mỗi người chơi nên làm gì - thú
nhận ln tốt hơn so với im lặng bất kể là người chơi cịn lại lựa chọn điều
gì. Trong trị chơi CLB, MỘT có một chiến lược thống trị tuyệt đối, và chúng
ta cũng sẽ tìm ra được chiến lược tối ưu của HAI dựa trên những gì đã biết.
Trị chơi này khơng bình thường. Ví dụ nếu như người chơi 1 đang lúng
túng. Giả sử anh ta biết người chơi 2 sẽ rẽ trái, khi đó thì lựa chọn tốt nhất
của anh ta là đi lên. Tuy vậy khi mà người chơi thứ 2 lựa chọn đi đường giữa
thì đi lên khơng phải là cách chọn thích hợp mà là đi đường giữa. Tiếp theo
mọi thứ sẽ trở nên khó khắn hơn nữa nếu như nhìn vào điều sẽ xảy ra khi
mà người chơi 1 biết người chơi 2 sẽ chọn hướng bên phải; lựa chọn đi
xuống mới là lựa chọn giúp anh ta đạt được kết quả mong muốn.
Vậy thị trong cả 3 trường hợp thì người chơi 1 sẽ phải đưa ra 3 lựa chọn
khác nhau. Vậy anh ta sẽ quyết định chọn gì như thế nào?
Sử dụng phép sàng lọc chiến lược bị áp đảo như thế nào?
Với những định nghĩa được nêu ở trênt hì chúng ta đã đưa ra lý do tại sao
người chơi không bao giờ nên chơi chiến lược thống trị nghiêm ngặt. Nếu


như người chơi thơng minh thì họ sẽ suy luận việc những người khác không
hành động và đưa ra chiến lược phù hợp.
Quay lại với bài toán Thế lưỡng nan của người tù. Khi nhìn vào mà trận
payoffs:

Nhắc lại rằng thú tội là chiến lược trội so với giữ im lặng cho người chơi. Tức
là, nếu như người chơi 2 im lặng thì người chơi 1 sẽ muốn thú nhận (nhìn
vào ma trận ta sẽ thấy); và nếu như người chơi 2 lựa chọn thú tội thì người
chơi 1 cũng vẫn sẽ thú nhận. Vì vậy người chơi 1 sẽ khơng im lặng
Chuyển sang góc nhìn của người chơi 2 thì cơ ta biết rằng người chơi 1 đủ
thơng minh để nhìn ra được việc thú nhận sẽ là tốt nhất nếu so với im lặng.
Cho nên cô ta suy ra rằng anh ta không bao giờ im lặng. Cho rằng, với tất cả
ý định và mục đích?, người chơi 2 sẽ không để tâm tới việc im lặng là một
chiến lược của người chơi 1 - bởi anh ta sẽ chẳng bao giờ làm vậy cả. Và
như vậy, từ góc nhìn của cơ ấy, cơ ta giản lược trị chơi thành chỉ còn "hàng
2"

Ở điểm này, người chơi hai nên thú tội và nhận 8 tháng hơn là im lặng và
nhận 12 tháng tù. Lưu ý rằng cô ấy khơng hề có một tầm nhìn như là thú
nhận là một chiến lược áp đảo với im lặng cho cô ấy; khi đó cơ ta có thể giản
ước trị chơi bằng việc loại bỏ một lựa chọn có vẻ khơng hợp lý của người
chơi 1. Và khi mà chỉ còn một chiến lược cịn lại cho người chơi 1 đó là thú
tội, người chơi 2 có thể điều chỉnh phản hồi của mình dễ dàng dựa trên các
thơng tin đó
→ Tiến trình nêu trên được biết tới chính là "sàng lọc chiến lược bị áp đảo"
(tiếng Anh là iterated elimination of strictly dominated strategies - IESDS).
Chúng ta bắt đầu với việc lưu ý rằng thú nhận là chiến lược áp đảo của
người chơi 1, và loại bỏ chiến lược im lặng của anh ta. Chúng ta sau đó sẽ
giải quyết phần cịn lại của trị chơi đó là những gì quan trọng và cần để tâm
nhất và tìm ra được rằng thú nhận là chiến lược áp đảo im lặng cho người
chơi 2.
IESDS áp dụng vào những trò chơi phức tạp hơn và chuyển nó đến một
trị chơi đơn giản hơn. Ta có thể quan sát với trị chơi 3x3 đã nêu ở trên:
1. Cô lập lựa chọn của người chơi hai giữa trung tâm và bên phải
Người chơi hai không nên lựa chọn bên phải bởi trung tâm là trội hơn so

với phải. Để có cái nhìn rõ hơn thì ta thấy rằng nếu như người chơi 1


chọn trên thì trung tâm sẽ hơn bên phải và đúng nếu như giả sử anh ta
chọn ở giữa cũng như dưới. Vậy nên bất kể là người chơi 1 chọn chiến
lược gì thì trung tâm ln tốt hơn bên phải cho người chơi 2.
2. Nhìn vào trị chơi dưới góc nhìn của người chơi 1. Anh ta biết rằng
người chơi 2 sẽ khơng bao giờ chọn phải, vì thể anh ta chỉ cần cân nhắc
trò chơi khi đã được rút gọn; ở phần của người chơi 2 sẽ chỉ còn trái và
trung tâm.
Cân nhắc lựa chọn của người chơi 1 với 2 lựa chọn ở giữa và xuống ta
thấy rằng đi xuống không phải là lựa chọn tốt mà giữa mới là chiến lược
trội. Về bản chất thì đi xuống sẽ là một lựa chọn hữu dụng nếu như tình
cờ mà người chơi 2 lựa chọn phải. Nhưng kể từ khi mà phải không phải
là một lựa chọn hợp lý cho người chơi hai nữa, cô ta sẽ không chọn
chiến lược này. Và từ khi mà người chơi một biết được cô ây sáng suốt
sẽ không chọn phải, anh ta chẳng có lý do nào để chọn dưới nữa.
3. Quay lại với góc nhìn của người chơi 2. Cơ ta biết rằng phải là một lựa
chọn tồi cho cô ta. Cô ta cũng biết được rằng người chơi 1 biết là cơ ấy
biết điều đó. Dẫn tới việc người chơi một sẽ thấy rằng xuống là lựa chọn
tồi với anh ta. Với logic trên, người chơi 2 biết rằng người chơi 1 sẽ
khơng xuống, và từ đó cơ có thể chuyển hóa trị chơi ban đầu thành một
trị chơi nhỏ và đơn giản hơn:
Trung tâm bây giờ là chiến lược áp đảo trái cho cô ta. Ta thấy rằng nếu
như người chơi 1 lựa chọn trên, thì ở giữa là 4 sẽ hơn 3 ở bên trái. Và
tương tự, nếu người chơi 1 chọn ở giữa, trung tâm sẽ lại tốt hơn so với
trái. Vì vậy người chơi 2 không bao giờ chọn trái nữa.
4. Sau một hồi suy nghĩ về việc anh ta-biết-rằng-cô ta-biết rằng- anh tabiết logic, người chơi 1 có thể kết thúc thứ anh ta suy luận với trò chơi
được rút gọn ở mức tối đa.
→ Việc tách những payoffs của người chơi 1 làm cho nó trở nên rõ ràng

rằng anh ta sẽ chọn giữa.
Và vì vậy ta đi tới kết luận là người chơi 1 sẽ chọn giữa và người chơi 2 sẽ
chọn trung tâm.
Duopolistic Competition
Khi mà chỉ có một cơng ty điều khiển tất cả hoạt động sản xuất của một mặt
hàng, chúng ta gọi đó là độc quyền. Khi mà có chính xác hai cơng ty cạnh
tranh điều khiển hoạt động sản xuất của một mặt hàng chung, chúng ta gọi


mơi trường kinh tế đó là duoply-dịch sát nghĩa là tình trạng thị trường do hai
cơng ty độc quyền lũng đoạn. Mỗi sự sản xuất của một công ty tác động tới
lợi nhuận của cơng ty cịn lại. Vì vậy, chúng ta có thể coi hai cơng ty này như
hai người chơi của một trị chơi về tối đa hóa lợi nhuận thu được - một trị
chơi mà IESDS có thể giải quyết.
...Trang 31 - Game Theory 101
Liệu vị trí/sắp xếp? có sự ảnh hưởng?
Giả sử chúng ta có một trò chơi bắt đầu với hai chiến lược trội. Một câu hỏi
rất tự nhiên là chúng ta có thể kết thúc với một câu trả lời khác phụ thuộc
vào thứ mà chúng ta loại bỏ trước không.
Trên thực tế, lựa chọn đầu tiên của chúng ta không quan trọng. Lý do là bởi
nó chỉ là một sự phức tạp nhỏ, giờ hãy cùng nhìn vào cặp đơi trong ví dụ. Ở
phần trước chúng ta đã giải quyết thế lưỡng nan của tù nhân bằng cách loại
bỏ việc người chơi 1 sẽ giữ im lặng trước. Và dựa vào trò chơi còn lại,
chúng ta loiaj bỏ tiếp việc giữ im lặng của người chơi 2. Vì vậy cả hai có
chiến lược tối ưu là thú tội.
Tuy vậy, từ khi chúng ta biết thú tội là chiến lược trội so với im lặng cho
người chơi 2 trong trò chơi gốc, chúng ta có thể bắt đầu bằng việc loại bỏ
chiến lược cơ ấy im lặng trước. Khơng có bất ngờ gì, thú nhận là chiến lược
trội so với im lặng cho người chơi 1 trong trò chơi đã được rút gọn.
Thế lưỡng nan của tù nhân có thể xem như là một ví dụ tầm thường cho

việc người chơi đối mặt với một tình huống có tính đối xứng. Liệu rằng thứ
tự vẫn không liên quan trong trường hợp bất đối xứng? Hãy xét ví dụ sau:


Sử dụng IESDS có thể giải quyết trị chơi này. Thứ nhất, giữa trội hơn so
với dưới cho người chơi 1. Vì vậy người chơi 1 sẽ khơng bao giờ muốn
chơi dưới, và trò chơi được rút gọn thành chỉ còn <trái, phải> cho người
chơi 2 và <trên, giữa> cho người chơi 1
Tiếp theo, ta thấy rằng phải là trội hơn so với trái cho người chơi 2. Vì
vậy chúng ta loại bỏ trái.
Bây giừo trò chơi được rút gọn chỉ còn phải cho người chơi 2 và giữa> cho người chơi 1. Vậy đâu sẽ là tốt nhất cho anh ta. Ta nhận thấy
ngay lời giải là <trên, phải>.
Quay lại với trò chơi ban đầu
Khi mà giữa trội hơn so với dưới, lưu ý rằng phải cũng trội hơn so với
trái. Vì vậy thay vì loại bỏ dưới đầu tiên, chúng ta có thể loại bỏ trái. Khi
đó chúng ta có cho chơi rút gọn chỉ cịn cho người chơi 2.
Từ đây, chỉ còn việc lựa chọn để người chơi một có được phần thưởng
tốt nhất.
Đến đây ta lại kết thúc trò chơi với <trên, phải> là đầu ra bất kể là ta đã
chọn con đường nào. Điều này đúng với tất cả các trò chơi khi mà ta sử
dụng sàng lọc chiến lược bị áp đảo.


→ Kết luận rằng, khi ta giải quyết một trò chơi phức tạp và có thể tìm
được chiến lược bị áp đảo thì hãy loại bỏ nó ngay. Dù là sẽ có những
chiến lược khác bạn có thể loại bỏ ở bước đầu tiên và những chiến lược
đó cũng sẽ là chiến lược bị áp đảo ở bước tiếp theo. Vẫn sẽ rất dễ dàng
để tìm ra chúng, khi càng ngày càng ít lựa chọn phải cân nhắc trong trị
chơi được rút gọn.

Chiến lược thống trị lỏng lẻo
Chúng ta cần cẩn trọng khi sử dụng phép sàng lọc chiến lược bị áp đảo. Để
minh họa cho một trường hợp có bẫy, cùng xem xét một trò chơi.

Trước tiên tập trung vào hai lựa chon <giữa> và <trên> của người chơi
1.
Chúng ta có thể dễ dàng bị đánh lừa để nói rằng giữa là chiến lược
thống trị so với giữa cho người chơi 1. Tuy nhiên điều này không đúng.
Nếu người chơi 2 chọn giữa thì giữa hơn trên nhưng khi người chơi hai
chọn trái thì người chơi 1 khơng có sự khác biệt gì khi chọn giữa và trên;
bất kể là anh ta có chọn gì đi nữa thì kết quả thu được khơng có gì thay
đổi. Chiến lược thống trị yêu cầu rằng <giữa> phải luôn luôn trội hơn so
với trên; bằng nhau là không đúng với yêu cầu đó.


Thay vào đó, chúng ta gọi giữa là chiến lược thống trị lỏng lẻo so với
trên. Thông thường khi chiến lược x là chiến lược thống trị lỏng lẻo của
chiến lược y với một người chơi nếu như x cho ít nhất một payoffs tốt
nhất cho người chơi đó bất kể là những người chơi khác có làm gì và
đây sẽ có ít nhât 1 tập hợp các chiến lược đối lập mà x được phần
thưởng nhiều hơn y.
Loại bỏ chiến lược thống trị lỏng lẻo và phân tích phần còn lại của trò
chơi được gọi là sàng lọc chiến lược thống trị lỏng lẻo (IEWDS). Dựa
trên trò chơi này thì IEWDS đơi khi cho một câu trả lời rõ ràng và đơi khi
thì khơng. Thật khơng may là chúng ta khơng biết nhóm trị chơi nào mà
chúng ta sẽ thấy đơn giản bằng việc loại bỏ chiến lược thống trị lỏng lẻo.
Để có cái nhìn tồn cảnh vào vấn đề này, cho rằng chúng ta có thể sử
dụng IEWDS cùng một cách với IESDS. Khi mà giữa là thống trị lỏng lẻo
của trên, hãy loại bỏ trên và ta có được <trái> là thống trị lỏng lẻo của
người chơi 2. Nếu chúng ta loại bỏ chiến lược yếu hơn là chiến lược

phải thì trị chơi chỉ cịn <trái> cho người chơi 2 và <giữa>, <dưới> cho
người chơi1.
Khi người chơi 1 lấy được 0 từ giữa và -2 từ dưới, tối ưu nhất thì anh ta
sẽ chọn giữa. Vì vậy ta kết luận đầu ra của trò chơi là <giữa, trái>.
→ Liệu nó có đúng khơng?
Chúng ta bắt đầu bước cuối với quan sát rằng giữa là thống trị lỏng lẻo
của trên. Tuy vậy, giữa cũng là thống trị lỏng lẻo của dưới
Lúc đó ta loại bỏ dưới thì sẽ có được người chơi 1 cịn <trên> và
<giữa>; người chơi 2 còn <trái> và .
Giờ ta thấy rằng phải là thống trị lỏng lẻo của trái với người chơi 2. Vì
vậy loại bỏ trái cho chúng ta kết quả là người chơi 1 còn <trên> và
<giữa>; người chơi 2 còn .
Khi này, người chơi 1 chọn chiến lược sẽ cho anh ta lợi nhuận lớn nhât.
Anh ta chọn <giữa>, và lời giải là <giữa, phải>. Ở trên chúng ta nói lời
giải là <giữa, trái>. Dựa trên thứ tự loại bỏ, IEWDS cho chúng ta hai câu
trả lời khác nhau.
Vấn đề là IEWDS khơng có một hướng dẫn rằng đâu mới là con đường
đúng nếu cả hai đều là lời giải. Để giải quyết vấn đề này, ta sẽ cần một
công cụ đưa ra giải pháp rộng hơn.
Điểm mấu chốt


1. Phép sàng lọc chiến lược bị áp đảo là việc làm trị chơi trở nên đơn giản
hơn thơng qua loại bỏ các chiến lược bị áp đảo - chiến lược mà người
chơi sẽ không bao giờ chơi. Điều này cho phép người chơi có những
suy luận dựa vào những gì người chơi khác sẽ khơng chơi.
2. Thứ tự khơng phải là vấn đề khi sử dụng IESDS
3. Chiến lược x là cực đại tối thiểu của chiến lược y với một người chơi
nếu như x cho ít nhất 1 kết quả tốt cho người chơi đó bất kể là người
chơi khác làm gì mà có ít nhất một tập hợp các chiến lược đối lập với x

mà cho phần thưởng tốt hơn y.
4. Phép sàng lọc chiến lược cực đại tối thiểu đôi khi cho ta nhiều câu trả lời
khác nhau.
5. Thứ tự loại bỏ là vấn đề khi sử dụng IEWDS
Pure Strategy Nash Equilibrium, Best Responses
(Chiến lược cân bằng Nash thuần túy, phản hồi tốt nhất)
Bài toán săn nai
Có hai người thợ săn tiến vào khu vực săn đầy những con thỏ rừng và một
con nai đứng một mình. Thỏ rừng khơng thơng minh và dễ dàng để bắt. Con
nai thì khác, nó rất thơng minh và khéo léo - những người thợ sẵn chỉ có thể
bắt nó nếu cùng làm việc chung.
Khơng có bất kỳ liên lạc nào, các thợ săn độc lập chọn xem mình sẽ săn thỏ
rừng hay là săn nai. Nếu cả hai cùng săn thỏ rừng, họ sẽ mỗi người bắt
được một nửa số thỏ rừng trong khu vực. Nếu một người săn thỏ rừng cịn
một người săn nai thì người săn nai sẽ quay trở về tay không trong khi
người săn thỏ bắt được tất cả số thỏ rừng. Cuối cùng nếu cả hai cùng săn
nai thì phần mỗi người họ nhận được của con nai lớn hơn giá trị của tất cả
các con thỏ rừng.
Ta có ma trận sau mơ tả tình huống chiến lược:


Mỗi người chơi sẽ thích kết quả <nai, nai>. Từ đây, ta có thể cho rằng nai> sẽ là kết quả đúng đắn nhất của trò chơi. Tuy vậy, như có thể thấy là
người chơi cũng có thể có một kết thúc hợp lý với một kết quả khác.
Thử giải trị chơi này với IESDS. Bước đầu tiên là tìm chiến lược thống trị ở
đây.
Đầu tiên giả sử người chơi 1 biết rằng người chơi 2 sẽ săn nai. Trong
trường hợp này thì săn nai cũng là lựa chọn tối ưu của người chơi 1.
Bây giờ giả sử người hơi 1 biết là người chơi 2 sẽ săn thỏ rừng. Săn nai
bây giờ khơng cịn là chiến lược tối ưu cho người chơi 1 nữa. Vì vậy

người chơi một bây giờ khơng có chiến lược thống trị. Thực tế thì chiến
lược tối ưu của người chơi 1 hoàn toàn phụ thuộc vào người chơi 2
chọn gì. Nếu cơ ấy săn nai, anh ta cũng vậy nhưng nếu cô ấy săn thỏ
rừng thì anh ta cũng nên làm như vậy tương tự.
Thơng qua sự đối xứng của trị chơi, thì điều tương tự cũng xảy ra với
người chơi 2: cô ta nên chơi bất kì chiến lược nào mà người chơi 1
chọn.
→ Phải giải quyết trò chơi này như thế nào khi mà nó thiếu đi chiến lược
thống trị? Hãy tìm Cân bằng Nash. Trạng thái cân bằng Nash là một trạng
thái khi hai hoặc nhiều người chơi tham gia trò chơi bất hợp tác khơng có
động cơ để đi chệch khỏi chiến lược ban đầu của họ sau khi xem xét chiến
lược của các đối thủ.
Một số ví dụ sẽ làm rõ hơn định nghĩa này. Đầu tiên, xem xet một tập chiến
lược <nai, nai>. Liệu những người chơi khác có động cơ nào để thay đổi


chiến thuật hay khơng?
Dưới góc nhìn của người chơi 1. Đầu tiên ta giữ chiến lược của người
chơi 2 cố đinh; tức là ta giả sử người chơi hai giữ vững chiến thuật của
cô ta là săn nau. Người chơi 1 có nên thay đổi chiến thuật của anh ta
khơng? Câu trả lời là khơng! vì 3 lớn hơn 2
Cịn về phía người chơi 2 cũng tương tư, chúng ta giữ nguyên chiến
lược của người chơi 1 và thử xem người chơi 2 có đi chệch hướng
chiến lược của mình khơng. Và cơ ấy cũng khơng muốn như vậy vì 3 lớn
hơn 2. Do đó <nai, nai> là trạng thái cân bằng Nash. Đặc biệt, ta gọi đây
là chiến lược cân bằng Nash thuần túy bởi vì cả hai người chơi đều
đang chơi một chiến lược mà bản thân họ biêt là họ khơng nắm trong tay
quyền kiểm sốt. Tức là ở trạng thái cân bằng này, người chơi 1 luôn
chọn nai và người chơi hai cũng luôn chọn nai. Ta sẽ chỉ tập trung vào
trạng thái cân bằng Nash ở chi tiết này.

Có một trạng thái cân bằng Nash khác hay khơng? Hãy bắt đầu nhìn vào
nếu như người chơi 1 muốn đổi chiến thuật của mình sang <nai, thỏ>.
Anh ta nên đổi chiến lược của mình. Nếu anh ta giữ nguyên việc săn nai
thì anh ta sẽ kết thúc với kết quả là 0 có gì cả. Nhưng nếu anh ta chuyển
sang chiến lược săn thỏ thì lợi ích mang về sẽ là 1.
Nếu vẫn chỉ có một người chơi muốn thay đổi, một tập hợp các chiến
lược sẽ khơng phải trạng thái cân bằng Nash. Vì vậy không cần kiểm tra
bước đi của người chơi 2 ta cũng có thể bỏ đi <nai, thỏ>. Nhưng dù sao
cũng nên kiểm tra lại:
...
→ Kết quả này ta đã thấy quá nhiều, vì vậy giờ ta nên biết là người chơi 2 sẽ
có lợi nếu cơ ấy chuyển sang săn nai.
Bây giờ xem liệu <thỏ, nai> có một cân bằng Nash hay khơng. Với trị
chơi đối xứng và việc <nai, thỏ> không phải một trạng thái cân bằng
Nash, ta nhận ra ngay là <thỏ, nai> cũng không phải. Nếu muốn kiểm tra
ta có thể lập ma trận. Và rõ ràng anh ta nhận được 2 trong khi nếu
chuyển sang nai thì anh ta nhận được 3. Đây là một sai lệch có lợi vì vậy
<thỏ, nai> khơng phải là cân bằng Nash.
Một cách tối ưu, người chơi 2 nên đổi từ săn nai và về tay trắng thành
săn thỏ và nhận được .


Cuối cùng là xem <thỏ, thỏ> có phải là một cân bằng Nash hay không.
Hãy bắt đầu với lựa chọn của người chơi 1:
Thỏ vẫn tối ưu cho người chơi 1; chuyển sang nai sẽ làm giảm payoffs của
anh ta từ 1 về 0. Vì thế nên cách duy nhất để <thỏ, thỏ> không phải là trạng
thái cân bằng Nash là nếu người chơi 2 muốn giữ nguyên. Hãy thử kiểm tra:
Nếu cơ ấy chuyển thì payoffs sẽ giảm từ 1 về 0. Khi mà cả hai người chơi
đều không có động cơ để thay đổi chiến thuật của mình, <thỏ, thỏ> là một
trạng thái cân bằng Nash. Bởi vậy, bài tốn săn nai có hai cân bằng Nash

thuần túy là <nai, nai> và <thỏ, thỏ>.
Khơng giống như tình thế lưỡng nan của tù nhân, săn nai làm rõ sức
mạnh của lý thuyết trị chơi là để phân tích các chiến lược không phụ
thuộc. Trong thế lưỡng nan của tù nhân, mỗi người chơi có thể loại bỏ
một cách có hiệu quả người chơi khác có ý định làm gì khi mà thú nhận
cho một kết quả trội hơn bất kể là người tù nhân khác chọn gì. Đó khơng
cùng trường hợp với bài toán săn nai. Ở đây, mỗi người chơi muốn,
thậm chí là bắt buộc phải làm theo việc người chơi cịn lại làm. Hay có
thể nói chiến lược tối ưu của mỗi người chơi là một hàm số của lựa chọn
người chơi cịn lại.
Bài tốn săn nai cũng làm nổi bật rằng Cân bằng Nash không cần phải
có hiệu quả. Thực vậy, cả hai người chơi đều tốt hơn với trạng thái cân
bằng <nai, nai> hơn là trạng thái cân bằng <thỏ, thỏ> - và không giống
như thế lưỡng nan của người tù, cả hai kết quả đều có thể xác nhận
được, bởi vì cả hai người chơi đều có động lực để thay đổi chiến thuật
theo việc người cịn lại sẽ làm gì. Như vậy, mặc dù người chơi sẽ muốn
đưa về kết quả <nai, nai>, họ sẽ có thể mắc kẹt với kết quả kém hiệu
quả là <thỏ, thỏ> bất luận thế nào.
Để thấy nó có thể đúng như thế nào, giả sử cả hai người chơi nhìn thấy
một tấm biển "hơm nay là ngày săn thỏ" trên con đường họ tới khu vực
săn. Những người thợ săn sẽ làm gì? Thật khơng may là cấu trúc của trị
chơi khơng cung cấp một câu trả lời rõ ràng. Điều này phụ thuộc vào
việc mỗi người thợ săn sẽ lờ tấm biển đi và săn nai miễn là cả hai đều
làm điều đó. Nhưng nếu tơi nghĩ rằng bạn sẽ làm theo tấm biển và săn
thỏ thì tơi cũng nên làm theo tấm biển, ngay cả khi tôi thực sự muốn săn
nai. Và nếu bạn nghĩ tôi nghĩ rằng bạn sẽ làm theo tấm biển, ngay cả khi
bạn khơng có kế hoạch làm theo, bạn nên tiếp tục săn thỏ bởi vì bạn biết
trước là tơi sẽ làm thế. Một sự phối hợp đơn giản - chiếc điện thoại di
động gọi tới từ một tay thợ săn trung thực tới người kia sẽ giải quyết vấn



đề. Nhưng bỏ qua điều đó, tất cả đầu ra là đúng, cũng là một trong
những động lực phía sau Cân bằng Nash.
Cuối cùng, trạng thái cân bằng Nash chỉ nhìn vào xu hướng thay đổi của
từng cá nhân. Tức là chúng ta cần kiểm tra liệu mỗi các nhân có thể tự
đi theo hướng khác để có được kết quả tốt hơn hay không. Nếu cả hai
người chọn thỏ thì sẽ có sự chênh lệch về lợi nhuận chung cho cả hai
người so với chọn nai. Nhưng về mặt cá nhân, cả hai sẽ tốt hơn nếu giữ
nguyên chiến lược là săn thỏ. Theo nghĩa này, cân bằng Nash có đặc
tính là "khơng hối tiếc". Nếu các người chơi chơi theo trạng thái cân
bằng Nash, họ sẽ không hối tiếc với lựa chọn của họ một khi nhận ra
phần thưởng của họ.
Tùy chọn mới cho bài toán thế lưỡng nan của tù nhân
Sau sự bàn luận về thế lưỡng nan của tù nhân, các tù nhân không chỉ muốn
giảm thiểu thời gian tù, các hành vi tối ưu của họ có thể thay đổi. Thật vậy, lý
thuyết trị chơi không đưa ra một tuyên bố cơ bản rằng thời gian ngồi tù là
điều duy nhất mà người chơi nên quan tâm đến; thay vào đó, chúng ta tìm
kiếm hành vi tối ưu của người tù nếu họ có những lựa chọn mới.
Với ý tưởng này, ta điều chỉnh lại trò chơi như sau: Giả sử cả hai tù nhân
là những người bạn tốt và sẽ giữ im lặng nếu họ biết rằng người cịn lại
cũng vậy. Trong tình thế này, kết quả mong muốn của mỗi người chơi là
<im lặng, im lặng>, sau đó là <thú nhận, im lặng>, tiếp đến là thú nhận, và <im lặng, thú nhận>. Giá trị phần thưởng là 3, 2, 1 và 0 thể
hiện xếp hạng các kết quả.
Ta có ma trận kết quả sau:

Nhận thấy rằng đây chính xác là cùng một phần thưởng mà chúng ta đã thấy
ở bài toán săn nai. Và như vậy nên ở đây có 2 cân bằng Nash thuần túy: lặng, im lặng> và <thú nhận, thú nhận>. Bây giờ thì kế hoạch của người
thẩm vấn có thể sẽ thất bại, nếu như những người chơi có một tình bạn đủ



để họ có lựa chọn hợp tác lẫn nhau. Đó chính là <im lặng, im lặng> và là một
kết quả có thể xác nhận được ở phiên bản này của bài toán thế lưỡng nan
của người tù, khi mà cả hai người chơi đều khơng có động động cơ để đi
chệch khỏi tập hợp chiến lược này.
Phiên bản làm lại này của bài toán thế lưỡng nan của người tù giúp ta
rút ra được hai điều. Đầu tiên, nó cho ta thấy rằng kết quả sẽ trở thành
một hàm số của sự ưu tiên như thế nào và nó khơng chỉ là một không
gian chiến lược. Người thẩm vấn tạo ra những lựa chọn giống nhau ở
trong cả hai phiên bản của trò chơi. Trong phiên bản gốc, anh ta suy ra
cả hai sẽ thú tội. Nhưng khi mà người chơi có tình bạn tốt, kế hoạch của
anh ta gần như là sẽ thất bại, bởi những người tù nhân có thể phối hợp
về trạng thái cân bằng <im lặng, im lặng>.
Thứ hai, một lần nữa làm nổi bật khả năng của lý thuyết trò chơi trong
việc tạo ra những sự tương đồng giữa những tình huống dường như
khơng giống nhau. Riêng trong phần này, ta đã nhìn vào hai kịch bản
hoàn toàn khác nhau. Một với đi săn; và một với việc xử lý của hai người
bạn trong một tình huống pháp lý. Lúc này khi mà chúng ta đã loại bỏ tất
cả những đặc tính khơng thích hợp của tương tác chiến lược, ta sẽ thấy
rằng một trò chơi làm nền tảng cho cả hai trường hợp. Theo cách này thì
lý thuyết trị chơi cho phép chúng ta kết nối những tình huống dường
như khác nhau dưới một khn khổ chung.
Sự an tồn của qn đội và phản ứng tốt nhất
Hai bộ tổng tham mưu mỗi bộ có 3 đơn vị chiến đấu đang chuẩn bị cho cuộc
chiến tranh sắp tới. Mỗi bên có thể chọn bất kì số lượng đơn vị nào tới chiến
trường hoặc là không đơn vị nào cả. Bên có nhiều lính hơn sẽ dành chiến
thắng, và trận đấu sẽ là hòa nếu quân số bằng nhau. Chiến thắng có giá trị
là 1 điểm và bị đánh bại là -1 điểm. Nếu như hòa hoặc ít nhất là từ chối chiến
đấu thì cả hai bên nhận được 0.

Đây là trị chơi "sự an tồn của quân đội", ma trận dưới đây thể hiện tình
trạng chung:


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×