XÂY DỰNG ỨNG DỤNG mô PHỎNG sự PHỐI hợp của hệ đa tác tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.08 MB, 31 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

---------LUẬN VĂN TỐT NGHIỆP

Đề tài:

XÂY DỰNG ỨNG DỤNG MÔ PHỎNG
SỰ PHỐI HỢP CỦA HỆ ĐA TÁC TỬ

GVHD: Th.S NGUYỄN TRẦN MINH KHUÊ
SVTH:
o NGUYỄN DƯƠNG HÀO - 06520145
o BÙI TIẾN DŨNG – 06520093
LỚP : KHMT01
KHÓA : 2006-2010

TP.Hồ Chí Minh, tháng 12 năm 2010

Mục lục
1.Giới thiệu
1.1 Sự phối hợp trong lĩnh vực phản ứng thiên tai…………………………5
1.2 Phối hợp đa tác tử…………………………………………………………6
1.3 Cấu trúc bài báo cáo…………………………………………………........10
2.Nội dung chính
2.1 Tác tử tự chủ (Autonomous Agents)……………………………………..11
2.2 Sự phối hợp trong hệ thống đa tác tử…………………………………….12
2.2.1 Quy ước và vai trò ( Conventions and Roles)…………………16

2.2.2 Truyền thông (Communication)……………………………….18
2.2.3 Học tập (Learning)……………………………………………….19
2.3 Tóm lược…………………………………………………………………….
3. Phối hợp động trong hệ tác tử mô phỏng robot đá bóng
3.1.Giới thiệu về RoboCup Soccer Simulator …………………………….20
3.2 Phối hợp trong hệ thống đa tác tử……………..………………………….22
3.2 Đồ thị phối hợp và xóa bỏ biến……………………………………………22
3.3 Thuật toán max-plus………………………………………………………26
3.4 Hệ đa tác tử cho RCSS ……………………………………………………..27
4. Tài liệu tham khảo

Sự phối hợp trong hệ thống đa tác tử

2010

Chương 1: Giới thiệu
Các Agents tự chủ là các hệ thống tính toán trong môi trường thay đổi phức
tạp, chúng cảm nhận và phản ứng tự động trong môi trường này, và thực thi nhiệm
vụ hay công việc nó đã được kế để hoàn thành.
Hệ đa tác tử (multiagent system) là hệ thống trong đó nhiều tác tử tự chủ
tương tác với nhau để thực hiện một số nhiệm vụ nào đó,trong một số môi trường.
Môi trường này cung cấp sự kích thích cho các cảm nhận của tác tử(Agents),tác
động đến các hành động của tác tử. Đây không phải là cái nhìn tổng thể, hay đúng
hơn là, mỗi các cá thể có thể cảm nhận một phần của hệ thống. Một hệ thống trở
nên quan trọng dần lên khi chúng kéo theo nhau những chiều hướng quan trọng
trong kỹ thuật hiện đại
Ubiquity(Sự có mặt ở khắp mọi nơi):Khi các chíp tính toán(computing
chips) trở nên nhỏ hơn và rẻ hơn,nó có thể làm cho máy tính toán (computational)
mạnh hơn và thông minh hơn đến nhiều thiết bị có mặt hầu như ở khắp mọi nơi.

Decentralization(Sự phân quyền):Với sự ra ra đời của world wide web và
các mạng tính toán, hệ thống sẽ phân phối dữ liệu và công việc giữa một mạng các
máy tính là một sự chia sẽ dần.
Openness and Dynamism(hệ thống mở và biến động): Hệ thống mở là hệ
thống mà các tác tử (Agents) có thể xâm nhập vào và rời khỏi hệ thống ở bất kỳ
thời gian nào, khi hệ thống thay đổi sẽ có một môi trường luôn luôn biến đổi theo.

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 2

Sự phối hợp trong hệ thống đa tác tử

2010

Nhiều hệ thống thế giới thực(real-world systems) được mô hình hóa đang
được đưa ra, trong môi trường biến động.Trường hợp ngoại lệ,có một xu hướng
trong tính toán là di chuyển liên tục những vấn đề được xem là tĩnh và chờ đợi để
đưa ra kết luận, theo hướng hệ thống tương tác(interative systems) cái mà có thể
phản ứng lại với môi trường thay đổi.
Sự không chắc chắn(Uncertainty):Sự không chắc chắn làm cho một phần lớn
trong hệ thống phản ứng tới môi trường hay đầu vào thiết bị cảm biến(sensor
inputs). Ngoài ra, một chiều hướng làm cho hệ thống trở nên lớn và phức tạp nghĩa
là hệ thống không thực sự chắc chắn, chúng là những kỹ thuật xác định.
Sự kết hợp giữa các mô tả đặc trưng của các loại dữ liệu được phân quyền và
các hệ thống thông tin những thứ mà được làm tăng lên sự phụ thuộc vào thương
mại và các tổ chức công nghiệp.Hệ đa tác tử (multi-agents system) có thể được
dùng như là công cụ hay là mô hình hóa hay là một phần của những hệ thống
này.Ví dụ như lĩnh vực ứng dụng đa dạng trong mô hình đấu giá eBay[Rogers et

al., 2006], mô hình cấu trúc xã hội [Sun and Naveh, 2004], hay những cảnh chiến
đấu trong các phim(hệ thống tát tử được sử dụng trong phim chúa tể của những
chiếc nhẫn- the lord of the rings). Vì vậy, nghiên cứu hệ đa tác tử là một lĩnh vực
đang phát triển ,tiềm năng và cũng đòi hỏi nhiều thử thách.

Nói riêng, sự tạo thành các hệ thống ở mức cao(large-scale systems) với
những cách phản ứng dự đoán trước là một nhiệm vụ khó giải quyết. Trong các
hướng nghiên cứu(chẳng hạng như [Xu et al., 2005], [Shen et al., 2004) trọng tâm là
dung các mô hình cục bộ để tạo ra những thuộc tính tổng thể thích hợp. Nếu điều
này được thực hiện một cách chính xác, khi đó các mạng nhỏ (sub-networks) sẽ
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 3

Sự phối hợp trong hệ thống đa tác tử

2010

truyền các đặc tính trong toàn mạng. Tuy nhiên, hệ thống được tạo thành từ nhiều
thành phần nhỏ có khả năng cảm nhận những phản ứng bất ngờ không được mong
đợi ở quy mô lớn. Đây là một tiềm năng bất lợi (potential disadvantage) phụ thuộc
hoàn toàn vào cục bộ, những mô hình quy mô nhỏ (small-scale). Để chống lại điều
này, các nhà nghiên cứu đã xem xét một loạt các cơ chế chia sẻ thông tin giữa các
tác tử khác loại nhau (disparate agents). Điều này có nghĩa là các mô hình giao tiếp
mở và linh hoạt cho các hệ thống năng động, tạo thành các vùng khác nhau cho
hoạt động nhiên cứu. Một lĩnh vực cuối cùng của nghiên cứu đó là các suy luận
linh hoạt hay học cách giải quyết các vấn đề, hoặc là xử lý các vấn đề phức tạp
trong không gian trạng thái lớn, những thứ không thể được lập trình bằng tay,
hoặc để bắt kịp với các hệ thống thay đổi theo thời gian.

Ngược lại với nền tảng này, chúng tôi tìm cách mang lại những lĩnh vực
riêng biệt nhau theo thứ tự, để giải quyết vấn đề phối hợp phức tạp, hệ thống đa tác
tử năng động.
Vì vậy, các mô hình còn tồn tại cùng với các giải pháp của chúng tôi, sẽ đem
đến khả năng làm việc cùng nhau trên việc sử dụng các mô hình cục bộ (locals),
truyền thông linh hoạt, học tập trực tuyến. Để cung cấp một nền tảng cụ thể cho
nghiên cứu này, chúng tôi sẽ xem xét các miền phản ứng thất bại.
1.1 Phối hợp trong miền cứu hộ thiên tai
Hãy xem xét các kịch bản thiên thai như khủng bố tấn công, lũ lụt hay động
đất, trong kịch bản này, nhiều đội khác nhau từ một số tổ chức phải cố gắng
hợp tác để cố gắng khôi phục lại tình hình. Công việc của họ có thể bị gián
đoạn do sự quan tâm của một số người tham gia như là báo hoặc các tổ chức
khủng bố ( trong trường hợp tấn công khủng bố). Một vài tổ chức hợp tác có
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 4

Sự phối hợp trong hệ thống đa tác tử

2010

thể có những mục tiêu mâu thuẫn nhau. Ví dụ, giả sử trong một tai nạn máy
bay một người bị thương, bị mắt kẹt trong đống đổ nát rất gần với các hộp
đen. Cảnh sát muốn giữ lại các hộp đen còn nguyên vẹn cho các mục đích
xác định nguyên nhân gây tai nạn, trong khi các đội cứu thương thỉ quan tâm
di chuyển những người bị thương, có lẽ đòi hỏi phải phá hủy các hộp đen,
trừ khi họ đang rất cẩn thận.
Kịch bản của tự nhiên này cung cấp cơ sở phong phú cho hệ thống tác
tử. Trong những ứng dụng như vậy, có một quy mô xác định mức độ mà hệ

thống chính nó là độc lập, và mức độ mà các tác tử dựa vào năng lực đầu
vào hoặc hướng dẫn. Ở một đầu của quy mô, chúng ta có thể mô hình hóa
mọi khía cạnh của phản ứng thảm họa (disaster response), mô phỏng thiên
tai, con người bị ảnh hưởng, và các tác tử phản ứng. Ở một đầu kia của qyu
mô, hệ thống tác tử có thể được sử dụng cùng với độ phản ứng của con
người, xử lý dữ liệu và tương tác đưa ra cách giải quyết của hành động. ở
giữa quy mô có thể tìm thấy các đội robot-người máy hay các tác tử trì hoãn
con người trong các tình huống mà họ không chắc chắn. Trọng tâm của công
việc này là có thể khái quát được: dùng hệ thống đa tác tử để mô hình hóa
phản ứng thảm họa đầy đủ. Kết quả của mô hình như vậy có thể được sử
dụng trong thực tế trong các hệ điều khiển tương tác, trong đó chức năng của
hệ thống tự động sẽ đưa ra cách giải quyết cho hành động, cái mà có thể
được khám phá bởi người sử dụng. Đi từ phán ứng thảm họa như ví dụ của
chúng tôi để khám phá nhiều hệ thống đa tác tử thúc đẩy một số yêu cầu
quan trọng cho các miền. Đây là những yêu cầu mà thuật toán phối hợp được
quan tâm để xứ lý:
1.2 Sự phối hợp đa tác tử ( Multi-agent Coordination):
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 5

Sự phối hợp trong hệ thống đa tác tử

2010

Sự phối hợp là trung tâm của hệ thống đa tác tử. Theo nghĩa rộng , ”sự ”
phối hợp dùng để chỉ một tác tử được nhận thức bởi một tác tử khác
trong môi trường của chính nó. Đây có thể là trong bối cảnh phân bổ
nguồn lực và tiêu thụ, nhiệm vụ phân bổ (task allocation), truyền thông

(communication), hoặc vận động (movement). Hầu hết các phương pháp
tiếp cận rơi vào một trong ba loại lớn này, hoặc được xây dựng từ các
phương pháp tiếp cận từ các loại sau:
1.Quy ước và vai trò (convention and roles) là những
phương thức đơn giản nhất của sự phối hợp giữa các tác tử, và linh hoạt
nhất. Một quy ước là một nguyên tắc thường được biết đến để các tác tử
tuân thủ theo. Có nhiều từ được ưu tiên theo thứ tự trong sự phối hợp
trong những quy ước (). Ví dụ, điều khiển giao thông thường dựa trên
những quy ước như dừng lại khi đèn đỏ, chạy nhanh hơn trong làn
đường bên phải ở đường cao tốc hơn là làn đường bên trái. Sự phối hợp
như vậy có lợi thế là đơn giản và không phụ thuộc vào thời gian cài đặt.
Tuy nhiên, nó không linh hoạt và dựa trên tất cả những người tham gia
phải biết rõ các quy ước và hợp tác với chúng.
Mở rộng của khái niệm về quy ước cho sự phối hợp là việc sử dụng vai
trò trong cơ cấu tổ chức. Vai trò hiện tại của một tác tử xác định quy ước
là thích hợp, và giao thức có sẵn cho nó. Do đó, cơ cấu tổ chức dựa trên
vai trò của Agent thì linh hoạt hơn những quy ước đơn giản dựa trên kỹ
thuật. Lựa chọn giữa các quy ước dựa trên vai trò hiện tại. Cấu trúc dựa
trên vai trò đã được thực hiện thành công cho các đội như là đội bóng đá
RoboCup. Tuy nhiên, việc này không được ứng dụng đối với lĩnh vực
mở vì nó xem các đội được cố định trong khoảng thời gian liên quan. Nó
có thể thi hành một cách linh hoạt hơn cấu trúc dựa trên vai trò cái mà có
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 6

Sự phối hợp trong hệ thống đa tác tử

2010

thể thích ứng với các tác tử để xâm nhập hay rời khỏi hệ thống bằng cách
dùng những quy ước thích hợp, mặc dù làm như vậy không gây ra rắc rối
phức tạp đòi hỏi phải quan tâm chú ý đến.
2.Truyền thông (communication) là một kỹ thuật phối hợp khác
khá phổ biển của con người. Sự phối hợp thông qua truyền thông có một
gian thiết lập nhỏ và một vài chi phí về băng thông. Nó đòi hỏi có một
ngôn ngữ chung, và sự linh hoạt của ngôn ngữ này quyết định tính linh
hoạt cho kết quả phối hợp. Có tiềm năng cho các mô hình xác xuất của
ngôn ngữ, cho phép thích ứng với môi trường thay đổi. Cùng với một
ngôn ngữ cho phối hợp, các tác tử phải có một số phương tiện lý luận nội
bộ về kết quả. Bản chất của sự phối hợp như vậy sẽ phụ thuộc đáng kể
trên các mô hình phối hợp nội bộ của các tác tử. Trong hệ thống lớn bất
kỳ, như các miền trung tâm, phải có một vài hình thức liên lạc để chia sẽ
thông tin giữa các tác tử, nó sẽ không thể cho bất kỳ các tác tử nào nhận
thức tất cả các thông tin nó cần để hoạt động hiệu quả trong bối cảnh.
Chúng ta hy vọng làm hạn chế sử dụng liên lạc vượt ra ngoài sự chia sẽ
thông tin này, khi sự hạn chế về băng thông sẽ ngăn chặn nó trong hầu
hết các trường hợp này.
3.Học hỏi (learning): learning là loại phức tạp nhất và cũng là phương
tiện linh hoạt nhất của sự phối hợp. Nó có thể kết hợp với các quy ước
và thông tin liên lạc: quy ước có thể được học, ví dụ, thông qua truyền
thông. Có nhiều hình thức khác cho việc áp dụng học để phối hợp, từ
việc học để lựa chọn giữa các giao thức phối hợp, thông qua học để dùng
những kỹ thuật truyền thông đơn giản cho phối hợp. Các kỹ thuật được
học cung cấp tiềm năng cho việc phát triển các đường lối chi tiết với
không gian trạng thái lớn và phức tạp. Tuy nhiên, chúng có chi phí cài
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 7

Sự phối hợp trong hệ thống đa tác tử

2010

đặt cao, như học các chính sách tốt có thể tốn nhiều thời gian và có khả
năng tính toán chuyên sâu.
Trong một kịch bản phức tạp, như phản ứng với thiên tai, các tác tử sẽ
được tham gia trong nhiều hoạt động phối hợp tại bất kỳ thời gian nào.
Có nhiều cấp độ cho hoạt động phối hợp với một tác tử đặc biệt, như một
tác tử lửa phối hợp trên một sự lựa chọn của một trang web lửa (fire
site), sau đó xây dựng chi tiết, và sau đó các vùng xây dựng đặc biệt để
nhắm mục tiêu. Có thể có nhiều loại hoạt động phối hợp với một agent
cụ thể, ví dụ một tác tử có thể đồng thời điều chỉnh nguồn tài nguyên với
một nhóm các tác tử, trong khi phối hợp vị trí của nó với các nhóm tác tử
khác. Cuối cùng các hoạt động phối hợp có thể xảy ra với nhiều tác tử
trong hệ thống cùng một lúc. Hơn nữa có một số phụ thuộc giữa các phối
hợp này. Ví dụ, một tác tử lửa F có thể cần phải tiếp nhiên liệu, nhưng
nó sẽ không quan tâm liệu nó tiếp nhiên liệu từ địa điểm A hay địa điểm
B. Nó sẽ thương lượng đồng thời với tác tử ở A hoặc B để quyết định địa
điểm tiếp nhiên liệu. Tại cùng thời gian này, các tác tử lửa khác sẽ được
thương lượng các địa điểm tiếp nhận nhiên liệu và vì vậy F nên cố gắng
và nhận thức được tiềm năng ách tắc giao thông nếu tất cả các tác tử đều
cho cùng một địa điểm tiếp nhiên liệu. Hơn nữa, F có thể được cố gắng
để giảm thiểu băng thông trong suốt quá trình thương lượng để rời khỏi
băng thông đủ để nhận hướng dẫn từ các trạm lửa trung tâm.
Trong phần hai, chúng ta đã thảo luận về phương pháp tiếp cận để
phối hợp trong ánh sáng của miền ví dụ và các vấn đề về tương tác. Mức
độ mà các mô hình phối hợp hiện tại đưa ra khả năng tương tác vào các

tài khoản khác nhau. Chúng ta thấy rằng có rất ít hoạt động rõ ràng liên
quan đến các tương tác phối hợp và việc sử dụng thông tin này để cải
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 8

Sự phối hợp trong hệ thống đa tác tử

2010

thiện tất cả các phần của phối hợp. Chúng tôi đề nghị một số cách thức
mà công việc tương lai có thể xây dựng trên mô hình hiện tại để sử dụng
các mối quan hệ rõ ràng khi kết hợp.

1.3 Cấu trúc bài báo cáo:
Mục đích của bài báo cáo này là để làm sáng tỏ những vấn đề kết hợp
với sự phối hợp trong những lĩnh vực đầy thách thức như trong định
nghĩa trên, và để giới thiệu việc sử dụng một thử nghiệm phản ứng với
thiên tai. Phần còn lại của bài báo cáo có cấu trúc như sau:
- Trong phần 2, chúng tôi sẽ giới thiệu các loại tác tử mà chúng ta sẽ
làm việc và thảo luận trạng thái nghệ thuật với những thứ liên quan
đến phối hợp, tập trung đến ba mô hình phối hợp đã được mô tả ở
trên.
- Trong phần 3, chúng tôi sẽ mô tả Robocup Soccer Simulator, nền
tảng và ứng dụng của nó đến các vấn đề phối hợp mà chúng tôi đã
giới thiệu.

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 9

Sự phối hợp trong hệ thống đa tác tử

2010

Chương 2: Nội dung chính
Phần này bắt đầu với một tổng quan của các loại tác tử thông minh,
các tát tử thông minh này thực hiện phối hợp trong lĩnh vực như kịch bản ví
dụ của chúng tôi (phần 2.1). Sau đó chúng tôi giới thiệu một số vấn đề liên
quan đến phối hợp. Phần chính của chương mô tả chi tiết hơn ba kỹ thuật
phối hợp chính đã được giới thiệu trong chương 1: quy ước (conventionphần 2.2.1), truyền thông (communication- phần 2.2.2), và học hỏi(learningphần 2.2.3). Một vài vấn đề liên quan để học (learning) trong lĩnh vực lớn
sẽ được thảo luận khi đó (phần 2.2.2). Chúng tôi kết luận trong phần 2.3 với
bản tóm tắt các cơ chế phối hợp và các cách thức mà chúng sẽ được dùng
trong lĩnh vực ví dụ của chúng tôi.

2.1 Tác tử tự chủ (Autonomous Agents):
Một tác tử đơn giản thực hiện chức năng bằng một số phản ứng với
một trường của chính nó. Các loại tác tử mà chúng tôi quan tâm có một khái niệm
về một hay nhiều mục tiêu, và có khả năng đưa ra lý do hợp lý về hoạt động của
chúng. Mâu thuẫn và xung đột trong mục tiêu của tác tử và niềm tin có thể mang
lại và cơ chế lý luận của tác tử phải có khả năng giải quyết những cách thức này.
Chúng tôi tin rằng phương pháp xác suất là thực tế nhất từ một vài kỹ thuật có thể
để làm điều này vì một số lý do. Thứ nhất, các kỹ thuật như vậy có hiệu quả cho
việc mô phỏng con người hình thức (the way humans) có thể lý giải. Thứ hai, xác
xuất đại diện thì đơn giản hơn, hợp lý cho cả hai dữ liệu nhập vào và các mô hình
tác tử.
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 10

Sự phối hợp trong hệ thống đa tác tử

2010

Một tác tử cũng sẽ cần phải có một số cách thức của mô hình hóa môi
trường của nó, bao gồm tác tử xung quanh bất kỳ. Nó có thể làm này một cách rõ
ràng, hoặc nó chỉ có thể duy trì một bản vẽ của hiệu lệnh trạng thái để thi hành, để
lại các mô hình ẩn.Rõ ràng các mô hình có nhiều tiềm năng hơn cho lý luận về
trạng thái và phản ứng như chúng lưu trữ các thông tin rã ràng nhiều hơn. Tuy
nhiên, duy trì mô hình rõ ràng có thể được tính toán và bộ nhớ chuyên sâu. Chúng
tôi hy vọng làm việc với cả hai loại tác tử, mô hình hóa một cách rõ ràng những
nơi thiệt thực, duy trì các ánh xạ ẩn trong tính toán các tình huống bị hạn chế.
Trong thực tế, nếu thế giới lớn và chi tiết, các tác tử sẽ chỉ có thể mô hình các bộ
phận nhỏ của nó chính xác. Xác định các phần được quan tâm đặc biệt đến bất kỳ
thuật toán tác tử , bao gồm công việc phối hợp của chúng tôi, sẽ hình thành một
phần của thuật toán đó.
Trong một hệ thống đa tác tử, các tác tử sẽ tương tác với nhau, cũng như
trong môi trường của chúng. Mô hình của Wooldridge [Wooldridge, 2002] của
tương tác này xác định mỗi tác tử có một số phạm vi ảnh hưởng trong môi trường
của nó. Sự chồng chéo phạm vi ảnh hưởng chỉ ra một số hình thức tương tác giữa
các tác tử. Mô hình của tác tử của những ảnh hưởng này góp phần quyết định sự
phối hợp của nó. Trong phần kế tiếp, chúng ta sẽ thảo luận sự phối hợp cụ thể hơn.

2.2 Sự phối hợp trong hệ thống đa tác tử:
Chúng ta bàn về tầm rộng lớn của sự phối hợp, các tác tử hoạt động trong bối cảnh
của những tác tử khác. Như mô tả ở chương 1, tại bất kỳ một thời gian nào, không
chỉ có thể các tác tử thể hiện một số những hoạt động phối hợp khác nhau với

những tác tử hay nhóm tác tử khác. Các hình thức phối hợp khác có thể được điều
khiển bởi một phần của cùng một thuật toán, hay chúng có thể sử dụng xong các
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 11

Sự phối hợp trong hệ thống đa tác tử

2010

cấu trúc riêng lẻ. Ví dụ, các tác tử có thể sử dụng tri thức về tập hợp các quy tắc
giao thông để quản lý sự di chuyển của chúng, trong khi thương lượng một tập tài
nguyên, và phân chia những tài nguyên khác theo một số cơ cấu tổ chức.
Không quan tâm đến những phương thức phối hợp cụ thể hay mức độ trừu tượng,
có một số vấn đề liên quan đến quá trình phối hợp. Một vấn đề quan trọng là mức
độ mà các tác tử nhằm mục đích thực hiện phối hợp. Chứng minh rằng các tác tử
nhằm mục đích xem xét thực hiện những lợi ích toàn cầu ít hơn là lợi ích của bản
than chúng, nếu sự tin tưởng vào các tác tử khác là sai. Mô hình vì vậy bao gồm
không chỉ mục đích và khả năng của các tác tử khác, nhưng có một sự đánh giá
chắn chắn trong mô hình của chúng. Trong hệ thống nơi mà các tác tử liên lạc với
nhau về điều kiện môi trường hay khả năng của các tác nhân khác, nó cần thiết để
xem xét một cách chính xác của hệ thống truyền thông, có thể có sai xót, hay tác tử
có thể có nguyên nhân chủ quan để cung cấp những thông tin sai. Một điểm khác
của sự tương tác giữa mục tiêu của chính tác tử và tổ chức hợp tác hay mục tiêu
nhóm mô tả trên biểu đồ vai trò tác tử, quy tắc và sự công nhận. Những quy tắc tập
thể riêng biệt kiểm soát mức độ về hành vi hợp tác tác tử, để xây dựng sự phối hợp
từng phần trong hệ tác tử. Biểu đồ phức tạp hơn một mô hình chắc chắn Bayesian.
Tuy nhiên, chúng có thể cung cấp một cách thức ngắn gọn để xác địng ranh giới
trong một tập hợp tác tử có kích thước lớn hay trung bình .

Một vấn đề quan trọng khác là loại phối hợp thực tế, các tác có thể cần phối hợp ở
một số mức độ trừu tượng. Ví dụ, một đội ngũ tác tử đang cố gắng để dập tắc một
đám cháy thì đầu tiên phải hình thành một số các cụm mà mỗi người sẽ giải quyết
một phần của đám cháy.

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 12

Sự phối hợp trong hệ thống đa tác tử

2010

Bên cạnh đó sự phân tích cấp bậc của phối hợp, có một sự tương tác bộ phận giữa
các hoạt động phối hợp. Giả sử, ví dụ, một tác tử, tên là Bertie, đang cố gắng tìm
một con đường từ A đến Z, nơi mà tuyến đường bao gồm vượt qua một con sông.
Bertie có thể di chuyển theo đường hầm, nhưng có một chi phí mà giá của nó thể
thương lượng. Ngoài ra, anh ta có thể dùng cây cầu. Tuy nhiên, có một trọng lượng
giới hạn trên cây cầu, và một chiếc xe tải chưa được sử dụng trên nó. Bertie sẽ khởi
tạo giao thức phối hợp với cả hai buồng thu phí và xe tải. Rõ ràng, không có sự độc
lập, khi sự thương lượng kết thúc thành công, những cái khác có thể được giảm
xuống. Chúng ta có thể xem xét sự phối hợp giữa buồng thu phí và xe tải. Cả hai
cấp độ và tương tác đều rất dễ nhận ra trong các loại kịch bản không đồng nhất quy
mô lớn đang được xem xét, chúng ta sẽ kiểm tra kỹ thuật để xử lý cả hai, dựa trên
cấu trúc đã được định nghĩa.
Cuối cùng, chúng ta phải xem xét các cách thức mà một thuật toán phối hợp có thể
được đánh giá. Sự phối hợp có thể được đánh giá trong một số cách thức, tùy thuộc
vào một phần kịch bản thử nghiệm cụ thể. Các thuật toán có thể được so sánh theo
cách nhanh chóng hay hiệu quả như thế nào cái mà chúng cho phép các tác tử thực

hiện một loạt các nhiệm vụ, những gì mà tác tử tài nguyên tiêu thụ trong một
khoảng thời gian, những gì mà chi phí truyền thông các thuật toán xảy ra, hay
những gì mà chi phí tính toán chúng xảy ra. Việc lựa chọn kỹ thuật đánh giá sẽ tùy
thuộc vào yêu cầu cụ thể mà chúng ta có của một thuật toán hay kịch bản. Ví dụ,
yêu cầu tính toán của một kỹ thuật phối hợp trở nên có liên quan nếu phương thức
được sử dụng trong tác tử có tài nguyên rất hạn chế, chẳng hạn như cảm biến trong
các mạng cảm biến. Trong một số tình huống khác, các nguồn tài nguyên tính toán
có thể không được biết đến trước đó, đòi hỏi phải sử dụng một kỹ thuật bất kỳ. Do
một số tiêu chuẩn đánh giá, các thuật toán phải được đánh giá không chỉ trong sự
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 13

Sự phối hợp trong hệ thống đa tác tử

2010

sáng tỏ của một kịch bản cụ thể hay thiết lập các kịch bản, nhưng trong cách chúng
ứng xử như thiết lập càng trở nên khó khăn hơn. Chúng ta xem xét cách thức mà
quy mô một thuật toán cho trường hợp khó khăn, có một số kích thước có thể được
xem xét:
1.Số các tác tử
2.Tính đa dạng của các tác tử
3.Tác tử phức tạp
4.Mức độ tương tác giữa các tác tử
5.Mức đô năng động
6.Sự phân phối
Chúng có thể phù hợp những thách thức này với những thách thức đã được liệt kê
trong phần 1.1. Đặc biệt chúng ta tìm kiếm các thuật toán phối hợp mà có thể quy

mô số lượng lớn các tác tử, và cho phép các tác tử phối hợp trong sự có mặt của
nhiều tác tử không đồng nhất. Chúng ta cũng nhằm mục đích để đáp ứng thử thách
của việc phối hợp trong một môi trường năng động. Mở rộng quy mô thông qua độ
ngày càng tăng của tương tác hay tác tử phức tạp có ít liên quan đến các miền thiên
tai, nơi mà những đặc điểm này nói chung là phù hợp. Các mức độ tương tác tác tử
được xác định bởi vị trí của các tác tử và cấu trúc của các mạng truyền thông(dựa
trên wed, radio, điện thoại,…), trong khi tác tử phức tạp xem xét các đội có liên
quan đến thiên tai và các tác tử liên quan khác. Mặt khác, một số các thuật toán
được thảo luận dưới đây dựa trên các mô hình mạng thế giới nhỏ cho những thuộc
tính xác định của chúng, một tác tử sẽ được liên quan đến chỉ một vài tác tử khác.

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 14

Sự phối hợp trong hệ thống đa tác tử

2010

Tuy nhiên, các loại miền mà chúng ta xem xét, như những thuộc tính có thể là
không có thật. Điều này đặc biệt là trường hợp chúng ta muốn xem xét tương tác
giữa phối hợp mà có thể đã hoàn thành những cấu trúc mạng khác nhau. Cuối
cùng, những miền thác thức của chúng ta có thể được đánh giá cao, với những
nguồn thông tin và tác tử nằm rải rác khắp khu vực kịch bản.
Một vấn đề cuối cùng khi đánh giá một thuật toán cho khả năng mở rộng là một
khái niệm mạnh mẽ.
Đây là trường hợp đặc biệt trong các lĩnh vực cạnh tranh, nơi má các tác tử có thể
khai thác hiện tượng nổi lên bất kỳ hay các hành vi có thể dự đoán được. Trong
một tình huống cứu hộ thiên tai, chúng tôi dự tính các khả năng của các tác tử nhà

báo….mà chuẩn bị để khai thác các tác tử cứu hộ. Liên quan đến những vấn đề
chính trong nhận thức, chúng tôi xem xét chi tiết hơn 3 cách tiếp cận phối hợp đã
được giới thiệu trong phần 1.2 và tiềm năng sử dụng của chúng trong miền ví dụ
của chúng tôi
2.2.1. Quy ước và vai trò (Convention and Roles):
Các quy ước xã hội hay giao thức là một dạng băng thông thấp, thường được hiểu
hình thức phối hợp. Xã hội loài người dựa vào một số sự tuân thủ để hoạt động
hiệu quả. Ví dụ, giao thông tại nước Anh di chuyển ở làn đường tay trái của con
đường, khi giao thông trên đường ô tô sẽ chạy nhanh hơn trên làn đường gần làn
đường tay phải. Trong hệ thống tác tử, có thể sử dụng chia sẽ các quy ước cho một
số loại phối hợp. Ngay cả khi linh hoạt, hệ thống mở các loại mà chúng tôi điều tra,
chúng tôi giả sử một vài chia sẽ quy ước dựa trên kiến thức nề tảng: trong kịch bản
thiên tai, ví dụ, sẽ có các quy tắc giao thông được biết cho các tác tử thuộc các loại
được mô tả ở trên. Các quy ước có thể bao gồm giải cứu trẻ em đầu tiên hoặc phân
định ranh giới với băng màu đỏ trắng.

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 15

Sự phối hợp trong hệ thống đa tác tử

2010

Tuy nhiên, cả hai tác hợp lý và bất hợp lý trong một vài tình huống có thể tìm thấy
chính mình ở những vị trí mà không tuân theo các quy ước có vẻ là tiến trình hành
động thích hợp. Ví dụ, trong một tình huống thảm hoạt trong đó tất cả các tác tử
đang cố gắng di chuyển về cùng một hướng- theo một dòng, không cần giữ cho
phía bên tay trái (hoặc bên tay phải) của đường bộ. Điều này có thể dẫn đến kết

quả một hệ thống phối hợp chưa tốt. Do đó, các tác tử thông minh được chọn để
tuân thủ các quy ước sẽ có thể thích ứng với các tác tử khác không để ý đến chúng.
Trong các tình huống thực tế, các giao thức đơn giản hoặc tín hiệu có thể sẽ
là không đủ để có được sự phối hợp hiệu quả: tập hợp các quy tắc đơn giản hiếm
khi đủ để xử lý kịch bản phức tạp, nó có thể thỏa thuận trong sự phối hợp với tác tử
xa, những tác tử mà có thể không nhận thức được nhau. Không có một thiết lập
trong các giao thức sẽ có thể bao gồm tất cả các phát triển trong một môi trường
mở, năng động, và không chắc chắn. Do đó, những tình huống lớn và phức tạp, sư
phối hợp tác tử sẽ thường diễn ra với một số cơ cấu tổ chức, hoặc tập hợp các cơ
cấu tổ chức. Vai trò tác tử cá nhân trong cấu trúc này có thể được liên kết với một
số thiết lập các quy ước. Ví dụ, vai trò của thủ môn trong trò chơi bóng đá có một
tập hợp các quy ước xác định nơi thủ môn có thể di chuyển. Như vậy quy ước rõ
ràng là khác nhau cho các thành viên trong nhóm khác nhau. Liên kết các quy ước
với vai trò cho phép một tương tác phức tạp lớn hơn là một tập các quy ước thống
nhất. Trong một thiết lập tùy ý, hay trong hệ thống mở như trong miền ví dụ của
chúng tôi, đó là không thích để chỉ định một cơ cấu tổ chức cố định, nhưng để hệ
thống có khả năng tự động sắp xếp và tổ chức lại khi các hoàn cảnh thay đổi. Các
tác tử có thể di chuyển, các kịch bản có thể yêu cầu các ý kiến khác nhau từ chỉ
huy(leader), và trong hệ thống tác tử mở của chúng tôi viêc xâm nhập vào và rời
khỏi hệ thống và cấu trúc phải thích ứng với điều này. Các tác tử thích ứng có thể
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 16

Sự phối hợp trong hệ thống đa tác tử

2010

sử dụng lý luận về hệ thống, tri thức về quy ước tổ chức đơn giản, hay một số hình

thức học tập trực tuyến để đạt được sự tổ chức này.
Các mô hình riêng rẽ khác về những khía cạnh của phối hợp của một cấu
trúc hay hệ thống phân cấp từ các khía cạnh ứng dụng cụ thể. Rồi từ đó, các tác tử
có thể được cung cấp với vai trò phối hợp hay mục tiêu riêng biệt cái mà có thể
hoặc không thể được liên kết với nhiệm vụ hiện tại của chúng. Điều này có thể
cung cấp một sự trừu tượng hữu ích cho các mô hình phối hợp riêng rẽ với nhiệm
vụ tác tử. Nó có thể áp dụng như một mô hình mở và lĩnh vực năng động hay các
nhiệm vụ đang thay đổi nhưng các cấu trúc phối hợp tổng thể có thể giống nhau.
2.2.2 Truyền thông(Comunication):
Trong hình thức đơn giản của nó, giao tiếp có thể là một dạng của tín hiệu
thông tin, một tác tử hiệu quả công bố “ tôi sẽ làm X, hoặc “ Y đã xảy ra”. Cơ chế
phối hợp chính vẫn có thể dựa trên quy ước xã hội, mục đích của thông báo này để
cho phép người nghe cập nhật xem thế giới của họ. Như tôi chiếc xe đạp ở Anh,
khi tôi chỉ ra ngay trên đường chính, tôi truyền đạt thông điệp: "Tôi có khả năng rẽ
phải". Những chiếc xe phía sau tôi trả lời tin nhắn này bằng cách làm chậm lại
Điều này báo hiệu đơn giản có thể được mở rộng để chia sẻ tất cả các loại
thông tin về hệ thống. Thông tin có thể được chia sẻ về khả năng của các tác nhân
khác, niềm tin về ý định của họ, hoặc các bộ phận khác về môi trường . Khi tôi bị
thu hút với các đèn giao thông, người lái xe bên cạnh tôi những người đã được
nghe đài phát thanh xe hơi của mình cho tôi biết về một vụ tai nạn trên một con
đường gần đó, khuyến khích tôi để thay đổi kế hoạch tuyến đường của tôi. Ông ta
cũng có thể cho tôi biết rằng người lái xe của chiếc xe tải thứ 3trở lại dường như là
hơi say rượu, vì vậy tôi nên đề phòng khi xe tải cố gắng vượt qua. Tôi phải làm cho
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 17

Sự phối hợp trong hệ thống đa tác tử

2010

bản án của riêng tôi về bao nhiêu để tin tưởng thông tin này, nhưng nếu nó là chính
xác, cả các mục cho phép tôi để phối hợp tốt hơn với phần còn lại của giao thông
đường bộ.
Giả sử, tuy nhiên, khi tôi tiến lên bên cạnh người lái xe ở đèn chiếu sáng, họ là
chỉ về thay đổi. Trước khi lái xe đi, ông ta sẽ có thời gian để cho tôi biết chỉ một
trong hai mẩu thông tin trên. Ông phải chọn một trong những có giá trị lớn nhất với
tôi. Trong các hệ thống tác tử, các kỹ thuật Bayes thường được sử dụng để đưa ra
quyết định về việc khi nào và những gì để giao tiếp trong kịch bản mà băng thông
bị hạn chế. Các lái xe có thể quyết định đưa vào bản kê khai cho dù anh ta sẽ có
một cơ hội khác để liên lạc với tôi trong tương lai. Nếu vậy, ông có thể chọn để tiết
kiệm năng lượng của mình vào thời điểm này, hoặc để đề cập đến các trình điều
khiển xe tải hiện nay với ý định mô tả các vụ tai nạn tại các đèn tiếp theo.
2.2.3 Học tập (Learning):
Có một vài nguyên nhân để kết hợp việc học vào các hệ thống đa tác tử. Nói
chung, trong các hệ thống lớn và phức tạp không thể đề xuất chính sách
cho mỗi sự kiện. Thay vào đó, các tác tử có thể được khai báo với một số chính
sách đơn giản để tìm hiểu hành vi thích hợp dựa trên những tình huống mà thực sự
xảy ra. Điều này đặc biệt có liên quan trong các hệ thống năng động, nơi mà tác tử
cần có khả năng thích ứng với thay đổi theo thời gian. Cuối cùng, phối hợp trong
các hệ thống lớn mở dựa vào các tác tử học về các đại lý xung quanh họ, những
người có thể đã nhập hệ thống tại bất kỳ điểm nào. Ví dụ, trong một kịch bản thiên
tai, đại lý con người có thể tình nguyện để giúp tình hình tiến triển, hoặc khả năng
tính toán có thể được hiến tặng để xây dựng các tác tử phần mềm. Vì thế, có một

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 18

Sự phối hợp trong hệ thống đa tác tử

2010

số cách chúng ta có thể sử dụng học tập trong một hệ thống mà là cuối cùng cố
gắng để học cách phối hợp có hiệu quả:
•Học tập quy ước (có thể là từ đầu, hoặc nó có thể là các quy ước đang dần thay
đổi trong quá trình chơi và chúng ta cần phải giữ tiếp tục)
• Học để lựa chọn giữa các quy ước
• Tìm hiểu về các bộ phận của môi trường không nhìn thấy được cho chúng ta.
• Tìm hiểu về các khả năng của các tác tử khác.
• Tìm hiểu về những ý định của các tác tử khác.
• Học ngôn ngữ và bản thể học để liên lạc.
• Học những thông tin nào có thể hữu ích để giao tiếp.
• Học khi giao tiếp.

Sự phối hợp động trong hệ đa tác tử mô phỏng RoBot đá bóng
Các mô phỏng RoboCup Soccer được coi như một ứng dụng tốt của hệ thống đa
tác tử. Bằng cách sử dụng các phương pháp tiếp cận đa tác tử, mỗi đội trong mô
phỏng này là xem như một hệ thống multiagent, đó là phối hợp lẫn nhau và do một
tác tử huấn luyện viên. Các chiến lược khác nhau đã được đề xuất nhằm nâng cao
hiệu quả của tác tử này. Trong ví dụ này, trước tiên sự phối hợp trong một số các
đội hiện đại bằng cách xác định tất cả các nhược điểm của họ. Sau đó ví dụ sẽ trình
bày phương pháp tiếp cận của chúng tôi liên quan đến sự phối hợp năng động để
cải thiện hiệu suất của các thử nghiệm đánh giá các đội.
3.1.Giới thiệu về RoboCup Soccer Simulator:

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 19

Sự phối hợp trong hệ thống đa tác tử

2010

RoboCup Soccer Simulator được xem là một công cụ hiệu quả trong cả hai nghiên
cứu và đào tạo về hệ thống Multi-Agent - MA nói riêng và trong khu vực của Trí
tuệ nhân tạo - AI. Tiến hành từ Robot Soccer World Cup, được tổ chức hàng năm
với sự tham gia của các nhóm nghiên cứu cụ thể là thế giới robot nổi tiếng, một
nhà vô địch của mô phỏng RoboCup Soccer là song song được tổ chức để xây
dựng và phát triển thuật toán hiệu quả, chiến lược quan tâm cũng như phương pháp
học tập hợp lý, vv chỉ đạo đến một mục tiêu tối cao của việc xây dựng một đội
bóng robot và để đánh bại đội bóng tốt nhất thế giới (với những người chơi thực
sự)
Đối với tầm quan trọng của nó để nghiên cứu và phát triển của mô phỏng RoboCup
Soccer, ứng dụng của hệ thống đại lý-Multi và Trí tuệ nhân tạo đóng một nhiều
hơn và nhiều hơn nữa vai trò thiết yếu. Phối hợp giữa các thành viên trong nhóm,
cả hai người chơi và tác tử huấn luyện viên, là của riêng của các yếu tố chủ chốt
đem lại thành công cho đội robot mô phỏng bóng đá. Theo thông tin nhờ vào kinh
nghiệm môi trường (chẳng hạn như vị trí của mỗi người chơi, vị trí của quả bóng,
bối cảnh sân chơi, huấn luyện viên, vv), mỗi cầu thủ (mỗi tác tử) phải thu thập,
phân loại, sau đó phân tích, phù hợp để phối hợp với các tác tử khác để tạo ra một
hành động có hiệu quả (tấn công / dẫn bóng /sút/ ghi bàn / và điểm số)
Trong bài báo cáo này, chúng tôi tập trung trước hết vào sự phối hợp năng
động trong một đội bóng đá như vậy. Khái niệm "năng động phối hợp" ở đây phải
được hiểu là một sự kết hợp của phối hợp các kỹ thuật truyền thống trong hệ thống
đa tác tử và năng động, giải quyết chiến lược đó được áp dụng tùy thuộc vào tình
trạng hiện tại của môi trường.Phần còn lại của bài báo này gồm các khái niệm cơ

bản về phối hợp trong hệ thống đa tác tử như thể hiện trong phần 2. Việc giới thiệu
chuyên sâu vào hệ thống đa tác tử của mô phỏng bóng đá RoboCup trong phần 3.1,
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 20

Sự phối hợp trong hệ thống đa tác tử

2010

chúng tôi quy định cụ thể cách để truy cập năng động phối hợp trong phần 3.2 và
kết quả thử nghiệm trong phần 4 là tốt. Và phần cuối cùng của bài báo cáo này là
đánh giá của bất kỳ kết quả liên quan.
3.2. Phối hợp trong hệ thống đa tác tử
Phối hợp là một trong ba yếu tố quan trọng 1 trong suốt quá trình phản ứng
giữa tác tử trong một hệ thống Multi-agent (MAS). Theo định nghĩa bởi M.
Wooldridge [1], phối hợp giữa các đại lý có quan hệ chặt chẽ với các liên kết phụ
thuộc giữa các hoạt động của tác tử. Có nhiều cách khác nhau truy cập trong việc
thực hiện phối hợp trong một MAS, chẳng hạn như điều phối thông qua kế hoạch
toàn cầu một phần, điều phối thông qua ý định chung, điều phối bởi người mẫu lẫn
nhau, phối hợp của các chỉ tiêu, pháp luật xã hội, vv. Phương pháp điển hình trong
số những người được liệt kê ở trên là cụ thể là dựa trên các điểm thiết yếu
Nashequilibria. Sự của cân bằng-Nash là trong trường hợp số lượng lớn các tác tử,
nó tinh vi và cần có thời gian để tính toán và xác định "cân bằng" hành động cho
mỗi tác tử . Vì lý do đó, phân khu hành động không gian của đại lý để được phân
tích có hiệu lực. Xem xét vấn đề của robot bóng đá phối hợp mô phỏng, giữa các
tác tử có quan hệ mật thiết với thông tin thu thập từ môi trường của robot mô
phỏng. Do đó, biểu đồ phối hợp được đề xuất, để tăng cường khả năng phối hợp
lẫn nhau giữa các tác tử và với huấn luyện viên. Trong phần này, sau 3,1 cho lời

giải thích về phương pháp này, chúng tôi cũng sẽ đề cập đến một phương pháp
khác dựa trên thuật toán tối đa
3.3. Đồ thị phối hợp và xóa bỏ biến.
Trong một hệ thống đa tác tử, mỗi tác tử phải có hành động, trong đó có kết
quả, Tuy nhiên, dưới ảnh hưởng của hành vi của các tác tử khác. Trong một hệ
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 21

Sự phối hợp trong hệ thống đa tác tử

2010

thống đa tác nhân như vậy với sự hợp tác lẫn nhau giữa các tác tử (một robot mô
phỏng Đội tuyển bóng đá chẳng hạn), thiết lập A bao gồm hành vi của mỗi cá nhân
tác tử A và tạo ra một hành động nhằm đạt yêu cầu với điều kiện tối ưu hóa các
chức năng toàn cầu . Trong quá trình thực hiện, mỗi tác tử phải chọn một hành
động cá nhân hợp lý để tối ưu hóa liên kết hành động của toàn bộ hệ thống (ví dụ,
dựa trên Nashequilibria). Tuy nhiên, số lượng cổ động tăng theo hàm số mũ và số
lượng tác tử, và này gây ra việc xác định trạng thái cân bằng trong trường hợp số
lượng lớn các tác tử. Đối với mục đích các giải pháp cho vấn đề này, đồ thị phối
hợp - CG và Xoá bỏ biến - VE được áp dụng đã mang lại kết quả các giải pháp ở
mức độ tinh tế về quy trình Định nghĩa: biểu đồ điều phối (CG) G = (V, E) là một
đồ thị trực tiếp, trong đó mỗi điểm của V là tác tử và một bên nhất định của E phụ
thuộc vào hợp tác của hai tác tử cuối .

GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 22

Sự phối hợp trong hệ thống đa tác tử

2010

Đương nhiên, tại một điểm nhất định của thời gian, tác tử chỉ được kết nối
với những người khác và hiển thị trên CG nên được phối hợp với các đại lý. Ví dụ,
xem Hình 1 dưới đây mà thể hiện một CG với 4 tác tử. Ở ví dụ này, A1 phải phối
hợp với cả hai A2 và A3 trong khi A2 phải phối hợp với cả hai A1, A3 và A4 và
phối hợp với A1, A4 trong khi phối hợp với A3.

Hình. 1. Đồ thị phối hợp của 4 tác tử
Ý tưởng chính của tiếp cận này phụ thuộc vào toàn cầu pay-off chức năng U
(A) để được tan rã vào tổng hợp chức pay-off toàn cầu mà liên quan đến một số tác
tử chỉ. Đối với mục đích xác định hành động tối ưu cho mỗi tác tử, xoá bỏ biến
được sử dụng bởi Guestrin theo cách tương tự với loại bỏ biến trong mạng Bayes
[1,2]. Thuật toán này hoạt động trong hai giai đoạn: loại trừ các biến và xác định
các hành động tối ưu như sau:
Giai đoạn 1: Biến Xoá bỏ
B1: Chọn tác tử, ai, và xác định chức năng trả hết nợ từ tất cả các tác tử hàng xóm
của ai
(Tác tử Hàng xóm - Nai, rõ ràng xác định thông qua điều phối đồ thị).
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 23

Sự phối hợp trong hệ thống đa tác tử

2010

B2: tối ưu hóa quyết định của ai tùy thuộc vào sự kết hợp hành động có sẵn trong
thiết lập Nai và chuyển kết quả đến aj tác tử hàng xóm của nó (thuộc Nai).

B3: Loại bỏ ai trong số Điều phối đồ thị và lặp lại B1 cho đến khi chỉ có một tác tử
Phối hợp còn lại trong đồ thị. Tác tử này sẽ chọn hành động tối ưu từ tập hợp các
hành động sẵn cho mình.
Giai đoạn 2: thực hiện theo thứ tự tác tử theo giai đoạn 1. Mỗi tác tử
xác định hành động tối ưu của nó dựa trên các hành động xác định bởi các tác tử
hàng xóm của mình trước.
Để minh hoạ thêm về quá trình thực hiện loại bỏ biến, chúng ta hãy xem xét
một ví dụ thể hiện trong hình. 1 với bốn tác tử ở trên. Trong ví dụ này, trả cho tắt
chức năng mỗi-hành động chung của bốn đại lý được xác định với chức năng
U (a) = 1 1 2 f (a, a) + 2 1 3 f (a, a) + 3 3 4 f (a, a) (1)
(Ở đây, chúng tôi xem xét ai là hành động của tác tử Ai và một hành động như
doanh của tất cả các tác tử)
Trước hết, hãy loại bỏ tác nhân A1. đại lý này phụ thuộc vào hai chức năng f1 và
F2 và tối đa giá trị của U (A) được xác định thông qua công thức:
Đây là chức năng đó sẽ đem lại giá trị có liên quan với phản ứng của nó, tốt nhất
sự kết hợp của bất kỳ hành động có sẵn của a2 và a3 (signalized như B1 (a2, a3)).
Tại thời điểm đó,
chức năng F4 là hoàn toàn phụ thuộc từ a1 và a1 là loại bỏ từ đồ thị. Áp dụng quy
trình nói trên để loại bỏ a2, bây giờ có chỉ trái với F4 tùy thuộc vào hành động của
đại lý a2 và thay thế bởi chức năng
5 3 f (a) = max (4 2 3 f (a, a)) theo quy định của a2. Tiếp theo, chúng tôi loại bỏ
bởi a3
GVHD: Th.S Nguyễn Trần Minh Khuê

Trang 24

XÂY DỰNG ỨNG DỤNG mô PHỎNG sự PHỐI hợp của hệ đa tác tử

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về