TĨM TẮT
Trong đề tài này, tác giả phát triển mơ hình truyền gói tin cơ hội dựa trên lý thuyết
trị chơi cho mạng vô tuyến hoạt động trong điều kiện nguồn năng lượng thấp. Để
giảm thiểu việc truyền gói tin không thành công do lỗi kênh truyền và xung đột trong
q trình truyền gói tin gây ra sự lãng phí năng lượng, chiến lược truyền gói tin cơ
hội cố gắng truyền gói tin ở điều kiện kênh truyền tốt nhất với ràng buộc về độ trễ
gói tin với mơ hình kênh truyền fading biến thiên theo thời gian. Mơ hình lý thuyết
trò chơi ngẫu nhiên kết hợp chi phí được đề xuất để xác định một ngưỡng tối ưu cho
việc truyền gói tin theo cơ chế truyền thơng cơ hội. Kết quả mô phỏng cho thấy với
chiến lược truyền thông cơ hội, các nút mạng có xu hướng trì hỗn truyền trong điều
kiện kênh truyền xấu nhằm tránh xung đột và giảm tỷ lệ mất gói tin dẫn đến việc tăng
hiệu quả sử dụng năng lượng của mỗi nút và kéo dài thời gian hoạt động của mạng.
ABSTRACT
In this project, the authors have developed a game theory framework for
opportunity communication strategy for wireless networks that operating in a strict
energy-constrained environment. In order to minimize unsuccessful transmission due
to channel errors and packet collisions that causing a waste of energy, the opportunity
communication strategy attempts to transmit at good channel conditions while
meeting the delay constraint under time-varying wireless channel. Thus a constrained
cost-coupled stochastic game algorithm is formulated to obtain an optimal threshold
for successful transmission in the opportunistic transmission manner. The simulation
result shows that with the opportunity transmission strategy, the nodes trend to defer
their transmissions in bad channel conditions to avoid collision and reduce packet
loss rate. This can lead to improve the performance of energy usage at each node as
well as to prolong the network lifetime.
Trang v
MỤC LỤC
Trang
TRANG TỰA
QUYẾT ĐỊNH GIAO ĐỀ TÀI
LÝ LỊCH KHOA HỌC ............................................................................................... i
LỜI CAM ĐOAN ..................................................................................................... iii
LỜI CẢM ƠN ........................................................................................................... iv
TÓM TẮT ...................................................................................................................v
MỤC LỤC ................................................................................................................. vi
DANH MỤC CÁC CHỮ VIẾT TẮT ..................................................................... viii
DANH MỤC HÌNH .................................................................................................. ix
DANH MỤC BẢNG ................................................................................................. xi
DANH MỤC CÁC KÍ HIỆU ................................................................................... xii
Chương 1 TỔNG QUAN ..........................................................................................1
1.1
Đặt vấn đề ......................................................................................................1
1.2
Tình hình nghiên cứu .....................................................................................2
1.3
Mục tiêu nghiên cứu ......................................................................................5
1.4
Nhiệm vụ nghiên cứu và giới hạn đề tài ........................................................5
1.4.1
Nhiệm vụ nghiên cứu ..............................................................................5
1.4.2
Giới hạn của đề tài ..................................................................................6
1.5
Đóng góp của đề tài .......................................................................................6
1.6
Phương pháp nghiên cứu ...............................................................................6
1.7
Bố cục đề tài ..................................................................................................6
Chương 2 CƠ SỞ LÝ THUYẾT ................................................................................8
2.1
Tổng quan mạng tùy biến vô tuyến ad-hoc ...................................................8
Trang vi
2.1.1
Giới thiệu ................................................................................................8
2.1.2
Đặc tính mạng ad-hoc .............................................................................9
2.2
Kênh truyền fading ......................................................................................11
2.3
Quá trình quyết định Markov (MDP) ..........................................................13
2.3.1
Định nghĩa .............................................................................................13
2.3.2
Thuộc tính đệ quy của giá trị - phương trình tối ưu Bellman ...............14
2.3.3
Hàm Q ...................................................................................................15
2.3.4
Tính tốn các hàm giá trị ......................................................................16
2.3.5
Luật lặp lại ............................................................................................17
2.3.6
Học từ kinh nghiệm ..............................................................................17
2.4
Kênh Markov trạng thái hữu hạn .................................................................18
2.5
Chức năng phối hợp phân phối trong giao thức IEEE 802.11 ....................21
2.6
Lý thuyết trị chơi ........................................................................................25
2.7
Quy hoạch tuyến tính ...................................................................................27
2.7.1
Mơ hình và giả thuyết ...........................................................................28
2.7.2
Quy hoạch tuyến tính giải pháp cho MDPs ..........................................30
2.7.3
Quy hoạch tuyến tính cho ràng buộc MDPs .........................................31
Chương 3 TỐI ƯU CƠ HỘI TRUYỀN TẢI CHO MẠNG VƠ TUYẾN AH-HOC
...................................................................................................................................34
3.1
Xây dựng mơ hình hệ thống ........................................................................34
3.2
Trị chơi ngẫu nhiên bị ràng buộc bởi hàm chi phí......................................36
3.3
Quy hoạch tuyến tính ...................................................................................44
Chương 4 KẾT QUẢ MƠ PHỎNG .........................................................................46
4.1
Giới thiệu chương trình mơ phỏng ..............................................................46
4.2
Kết quả mơ phỏng........................................................................................47
4.2.1
Ngưỡng truyền tối ưu của kênh truyền biến thiên theo thời gian trong
điều kiện không phụ thuộc khe thời gian trễ (D) ..............................................47
4.2.2
Ngưỡng truyền tối ưu của kênh truyền biến thiên theo thời gian trong
điều kiện phụ thuộc khe thời gian trễ (D) .........................................................49
Trang vii
Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..............................................51
5.1
Kết luận........................................................................................................51
5.2
Hướng phát triển ..........................................................................................51
Phụ lục A ...................................................................................................................52
TÀI LIỆU THAM KHẢO .........................................................................................53
Trang viii
DANH MỤC CÁC CHỮ VIẾT TẮT
BSC
Binary symmetric channel
Kênh nhị phân đối xứng
CDF
Cumulative distribution fnction
Hàm phân phối tích lũy
CDMA
Code Division Multiple Access
Đa truy cập phân chia theo mã
CSI
Channel state information
Thông tin trạng thái kênh
CTS
Clear-to-Send
Sẵn sàng để truyền
CW
Contention Window
Cửa sổ tranh chấp
DCF
Distributed Coordination
Chức năng phối hợp phân
Function
phối
Finite-State Markov Channel
Kênh truyền Markov trạng
FSMC
thái hữu hạn
MAC
Medium Access Control
Điều khiển truy nhập môi
trường
MDP
Markov Decision Process
Quá trình quyết định Markov
OP
Optimal policy
Chính sách tối ưu
OTS
Opportunistic transmission
Chiến lược truyền thơng cơ
strategy
hội
RTS
Ready-to-Send
Sẵn sàng để gửi
SNR
Signal-to-Noise Ratio
Tỉ số tín hiệu trên nhiễu
WLAN
Wireless local area network
Mạng cục bộ không dây
Trang viii
DANH MỤC HÌNH
Hình
Trang
Hình 2. 1 Mơ hình mạng vơ tuyến ad-hoc ..................................................................9
Hình 2. 2 Mơ phỏng PDF của kênh truyền Rayleigh fading với phương sai bằng 0.5
...................................................................................................................................12
Hình 2. 3 Mơ phỏng PDF của kênh truyền Rayleigh fading với phương sai bằng 1
...................................................................................................................................12
Hình 2. 4 Quá trình quyết định Markov ...................................................................14
Hình 2. 5 Các phép đo kênh truyền và phản hồi thơng qua trao đổi tin nhắn điều khiển
...................................................................................................................................22
Hình 2. 6 Ví dụ về cơ chế truy cập cơ bản ...............................................................24
Hình 2. 7 Cơ chế truy cập RTS/CTS ........................................................................25
Hình 3. 1 Mơ hình kênh truyền Markov trạng thái hữu hạn ....................................34
Hình 3. 2 Sơ đồ trạng thái truyền dẫn với ràng buộc trễ ..........................................37
Hình 3. 3 Sơ đồ trạng thái truyền dẫn với ràng buộc trễ và truyền lại tập tin khi có lỗi
kênh truyền
Pf
...........................................................................................................39
Hình 3. 4 Sơ đồ trạng thái truyền dẫn với ràng buộc trễ, xác suất xung đột d, lỗi kênh
truyền
Pf
....................................................................................................................41
Hình 4. 1 Ngưỡng truyền tối ưu của kênh truyền biến thiên theo thời gian trong điều
kiện không phụ thuộc khe thơi gian trễ. ....................................................................47
Hình 4. 2 Ngưỡng truyền tối ưu của kênh truyền biến thiên theo thời gian trong điều
kiện phụ thuộc khe thơi gian trễ. ...............................................................................49
Trang ix
DANH MỤC BẢNG
Bảng
Trang
Bảng 2. 1 Khe thời gian, giá trị tối thiểu và tối đa của CW cho 3 lớp PHY-specicify
theo tiêu chuẩn IEEE 802.11 [7] ...............................................................................23
Bảng 4. 1 Các tham số mô phỏng .............................................................................46
Trang xi
DANH MỤC CÁC KÍ HIỆU
Kí hiệu
Mơ tả
α
Xác suất nhận được gói tin
f y ( y)
Hàm SNR (y) tức thời nhận được
fm
Tần số Doppler
v
Tốc độ của nút di động
Bước sóng di động
Pg (k , k 1)
Xác suất chuyển đổi trạng thái
Tf
Thời gian truyền của khung tin
k
Xác suất trạng thái ổn định
F ( )
Hàm phân phối tích lũy CDF
Pb ( g k )
Xác suất lỗi ký tự
xi
Trạng thái của hệ thống tại khe thời gian i
gi
Trạng thái của kênh truyền tại khe thời gian i
ni
Trạng thái của nút di động tại khe thời gian i
Ai(xi)
Kí hiệu cho tập hợp tất cả các hành động điều khiển có thể có
cho nút i ở trạng thái xi.
ai
Kí hiệu hành động điều khiển được thực hiện tại khe thời gian
i
Pn (ni , ni 1 , a)
Xác suất chuyển đổi của nút di động từ trạng thái ni đến ni 1
dưới sự điều khiển hành động a
Trang xii
Pg ( gi , gi 1 )
Xác suất chuyển đổi trạng thái kênh từ
g i đến gi 1
Pf (gi )
Xác suất lỗi khung tin cho khung kích thước L
ei ( xt , at )
Chi phí cho mỗi nút di động ở trạng thái hệ thống x t và hành
động điều khiển a t
𝑙𝑡𝑖 (𝑥𝑡𝑖 , 𝑎𝑡𝑖 )
Xác suất tràn bộ nhớ đệm của nút i
ui (ai | xi )
Xác suất nút di động có hành động điều khiển a khi nút ở trạng
thái xi
u (u1 , u2 ,..., uN )
Tập hợp các chiến lược
(1 , 2 ,..., N ) Tập hợp các trạng thái phân phối xác suất ban đầu
Lii , i
Kỳ vọng tràn bộ đệm trung bình
Ei ,u
Chi phí trung bình cho mỗi giai đoạn của mỗi nút di động
r (x)
Hàm Kronecker delta
eij ,u ( xi , ai )
Chi phí tức thời do nút khác i gây ra khi nút i sử dụng hành
động điều khiển ai và những nút khác sử dụng đa quy tắc cố
định u i
Trang xiii
Luận văn
Chương 1
Chương 1
TỔNG QUAN
1.1
Đặt vấn đề
Sự bùng nổ của công nghệ đã dẫn đến sự phát triển đáng kinh ngạc của các
thiết bị điện tử. Hơn nữa, chi phí phần cứng đã được giảm dần. Kết quả là số lượng
ngày càng tăng của các thiết bị đã được trang bị phần cứng giao tiếp vô tuyến và một
số lượng lớn các thiết bị di động có mặt ở khắp nơi trong đời sống của chúng ta. Hầu
hết các thiết bị như điện thoại di động, máy tính xách tay của chúng ta truy cập internet
thông qua mạng WLAN, các viễn cảnh tương lai cho chúng ta thấy sự đa dạng các
ứng dụng cho thông tin vô tuyến. Nhiều ứng dụng như vậy dựa vào các nút cảm biến,
là các thiết bị vơ tuyến có khả năng nhận biết các hiện tượng vật lý. Các ứng dụng dự
kiến bao gồm một loạt các lĩnh vực, chẳng hạn như chăm sóc sức khỏe, vận tải, hậu
cần.
Tuy nhiên, hiệu suất của mạng vô tuyến phụ thuộc vào sự tương tác hiệu quả
của một số thành phần. Chúng ta cần xác định được những đặc tính của các thiết bị
vơ tuyến, là nguồn gốc của hầu hết các vấn đề trong mạng. Trong đó có ba vấn đề
chính sau đây: nhiễu, giới hạn năng lượng và tính ích kỷ của các thành phần tham gia
mạng [1]. Hiệu quả dị tìm thiết bị là một vấn đề cơ bản trong các mạng vô tuyến.
Trước khi một nút thực hiện bất kỳ tác vụ cụ thể nào, nút phải tìm kiếm vùng lân cận
của nó các đối tác truyền thông tiềm năng và các nguồn tài nguyên. Mặc dù các giao
thức hiện có khá nhanh trong các điều kiện bình thường nhưng thời gian trễ khi hai
thiết bị gặp nhau bị ảnh hưởng bởi nhiễu. Bởi vì các tín hiệu được truyền bởi sóng vơ
tuyến, nhiễu có chủ ý và ngẫu nhiên có ảnh hưởng cực kỳ bất lợi trên mạng vô tuyến.
Nhiễu ngẫu nhiên xảy ra thường xuyên, do tính chất chia sẽ chung dải tần số trong
các mạng. Bên cạnh đó các thiết bị vơ tuyến thường có nguồn cung cấp năng lượng
hạn chế vì chúng được cung cấp năng lượng từ pin hoặc pin mặt trời. Do đó, địi hỏi
Trang 1
Luận văn
Chương 1
các thuật toán hiệu quả về năng lượng. Mức tiêu thụ năng lượng của hệ thống truyền
dữ liệu thường lớn hơn năng lượng được sử dụng để xử lý dữ liệu. Vì thế, cách đơn
giản nhất để tiết kiệm năng lượng là giảm số lần truyền dữ liệu hơn là chi phí cho xử
lý dữ liệu. Ngoài ra, nếu người dùng quá tăng cường quyền kiểm soát thiết bị của
mình thì người dùng có thể gây ra điều chỉnh để tối đa hóa lợi ích của họ. Hành vi ích
kỷ này có thể làm giảm đáng kể hiệu suất của mạng hoặc thậm chí làm tê liệt mạng
hồn toàn. Vấn đề tối ưu cơ hội truyền tải cho mạng vô tuyến để giảm số lần truyền
dẫn không thành cơng dựa trên lý thuyết trị chơi cần được nghiên cứu.
Với phân tích tổng quan trên, người thực hiện lựa chọn tên đề tài “Tối ưu cơ
hội truyền tải trong mạng vơ tuyến sử dụng lý thuyết trị chơi”
1.2
Tình hình nghiên cứu
Trong những năm gần đây, lý thuyết trò chơi đã trở thành một công cụ thiết
yếu, hiệu quả để phân tích và thiết kế mạng vơ tuyến. Giao thức đa truy cập cảm nhận
sóng mang (CSMA) dựa trên lý thuyết trị chơi [2] của mạng vơ tuyến gần đây đã nổi
lên như là một giải pháp thay thế CSMA cổ điển dựa trên giao thức MAC. Ưu điểm
của phương pháp dựa trên lý thuyết trò chơi nằm trong phạm vi phân tích tốn học
chính xác và do đó có thể dự đoán hiệu suất so với các phương pháp tiếp cận dựa trên
các tham số và suy nghiệm mạng ad-hoc. Trong bài báo này, các tác giả [2] đưa ra
một thiết kế dựa trên lý thuyết trò chơi của mạng vô tuyến trên cơ sở giao thức MAC
và thực hiện mạng vô tuyến trong nhà với 22 nút lập trình được dựa trên chuẩn IEEE
802.11. Các phép đo của tác giả cho thấy hiệu suất tốt của thiết kế (ở cân bằng Nash
duy nhất) về tổng thông lượng và độ cân bằng ngắn hạn so với thuật toán DCF chuẩn.
Các tác giả [3] đề xuất một phương pháp tiếp cận mới dựa trên lý thuyết trò chơi để
thay đổi tốc độ, điều chế và cơng suất trong thuật tốn trò chơi. Tất cả người dùng
đều hài lòng với việc kết hợp các quy tắc trò chơi. Tính ích kỷ của người sử dụng độc
lập bị hạn chế trong khuôn khổ này. Tính ích kỷ trị chơi đạt đến điểm mong muốn
được gọi là điểm cân bằng Nash. Thông qua các kết quả khác nhau, tác giả thấy rằng
tất cả người dùng đều có một sự cân bằng giữa tối đa hóa lợi ích và tối thiểu năng
Trang 2
Luận văn
Chương 1
lượng truyền, giữa tốc độ và kiểu điều chế trong chiến lược của họ. Trong các mạng
vô tuyến đa chặng (multi-hop) [4], các nút bị hạn chế năng lượng và nguồn tài nguyên
có thể gây ra hiện tượng khơng sẵn sàng chuyển tiếp gói tin cho các nút lân cận để
tiết kiệm nguồn năng lượng. Trạng thái này của các nút có thể làm giảm thơng lượng
mạng và có thể làm giảm hiệu suất mạng. Trong các thiết kế thuật tốn lý thuyết trị
chơi cho việc chuyển tiếp lặp lại gói tin, hầu hết các cơng trình trước đây đã bỏ qua
các yếu tố nhiễu của môi trường vô tuyến đối với hoạt động của các nút. Thuật toán
của các tác giả được so sánh với các thuật tốn lý thuyết trị chơi nổi tiếng khác và
kết quả mô phỏng được thực hiện để chứng minh sự tối ưu của thuật tốn ngay cả
dưới mơi trường nhiễu.
Tác giả Y.Cho và các cộng sự [5] đã trình bày một cách tiếp cận lý thuyết trò
chơi để thiết kế giao thức kiểm sốt truy cập ngẫu nhiên cho mạng vơ tuyến với kênh
truyền fading. Cụ thể, cơ hội truyền tải trong ALOHA phân khe và CSMA theo các
trạng thái thông tin kênh là mơ hình như các trị chơi Bayesian trong đó mỗi ngưỡng
truyền là cân bằng Bayesian Nash của trò chơi. Các tác giả [6] đã xây dựng một trò
chơi truy cập kênh truyền cho chiến lược truyền dẫn với nhận biết nhiễu giữa các cụm
theo phương pháp phân tán và chứng minh sự tồn tại của cân bằng Bayesian Nash.
Các tác giả [7] đã xây dựng bài toán tìm kiếm một cơ chế truyền cho mỗi nút trong
mạng ALOHA phân khe để ánh xạ trạng thái thông tin kênh truyền đến xác suất
truyền tải để tối đa hoá tiện ích riêng của nút như là một trị chơi bất hợp tác. Điều
kiện cho sự tồn tại của chính sách truyền tải cân bằng Nash đã được đưa ra và một
thuật toán dựa trên gradient ngẫu nhiên đã được sử dụng để xử lý các quá trình đáp
ứng động tốt nhất cho các trị chơi truyền tải. Mơ hình lý thuyết trị chơi [8] khai thác
thơng tin trạng thái kênh truyền tại mỗi nút để đưa ra quyết định truyền tải gói tin
trong mạng ALOHA phân khe trong mơi trường fading. Trong mơ hình này, mỗi nút
đưa ra một ngưỡng kênh và chỉ gửi gói tin khi độ lợi kênh là cao hơn ngưỡng để tối
đa hóa hiệu năng mạng.
Bên cạnh các phương pháp tiếp cận liên quan đến chiến lược truyền ở trên,
một số cách tiếp cận khác ( [9], [10], [11], [12], [13]) áp dụng trò chơi lý thuyết để
Trang 3
Luận văn
Chương 1
nghiên cứu kiểm soát tranh chấp cho mạng vơ tuyến. Các tác giả [9] đã trình bày tổng
quan mơ hình lý thuyết trị chơi để nghiên cứu sự tương tác giữa các nút cho các kênh
vô tuyến phổ biến. Ngoài ra, các tác giả đã nghiên cứu sự cân bằng Nash của trò chơi
này và thiết kế một phương pháp để đạt được nó theo phương pháp phân phối. Việc
mở rộng bài toán này đã được thảo luận [10]. Trong bài báo này, các tác giả đã khái
quát hóa kiểm sốt truy cập trị chơi cho trường hợp mỗi nút có thể quan sát nhiều tín
hiệu tranh chấp để hướng dẫn chúng cân bằng Nash và đưa ra các điều kiện cho sự
tồn tại duy nhất của sự cân bằng này. Một khái niệm mới của lý thuyết trị chơi ( [11],
[12], [13]) khơng hồn tồn hợp tác đã được đề xuất để cải thiện hiệu suất của
CSMA/CA trong mạng di động ad-hoc. Trong mơ hình trị chơi này, mỗi nút ước
lượng trạng thái trò chơi và thay đổi trạng thái cân bằng bằng cách thay đổi các tham
số tranh chấp để đạt được hiệu suất tối ưu. Các mở rộng này đã được trình bày trong
[13]. Trong bài báo này, các tác giả đã trình bày một phương pháp ước lượng điều
kiện xác suất va chạm dựa trên kỹ thuật ảo hóa - CSMA và đề xuất một giao thức lý
thuyết trò chơi MAC đơn giản mà có thể được thực hiện trong các mạng vơ tuyến.
Một kỹ thuật đảo ngược của giao thức truy cập ngẫu nhiên MAC dựa trên backoff sử
dụng cách tiếp cận lý thuyết trị chơi đã được trình bày trong [14]. Như trình bày
trong bài báo, giao thức backoff hàm mũ là kỹ thuật đảo ngược thơng qua một trị
chơi khơng hợp tác trong đó mỗi liên kết cố gắng tối đa hố một hàm lợi ích cục bộ.
Ngồi ra, các tác giả đã chứng minh sự tồn tại của cân bằng Nash và đã cung cấp các
điều kiện cho tính đơn trị đó và ổn định cho các trị chơi.
Gần đây bài toán về sự tồn tại của các hành vi ích kỷ trong kiểm sốt truy cập
mơi trường mạng vơ tuyến cũng đã thu hút sự chú ý của một số nhà nghiên cứu ( [15],
[16], [17], [18]). Các tác giả [15] đã nghiên cứu hành vi ích kỷ của các nút trong mạng
CSMA/CA bằng cách sử dụng lý thuyết trò chơi và phát triển một giao thức cục bộ
và phân tán để điều khiển hành vi ích kỷ các nút cho đến khi cân bằng Nash tối ưu
Pareto. Một bài toán tương tự đã được nghiên cứu trong [16], trong đó các cuộc tấn
cơng backoff trong các mạng ad-hoc với các trạm nặc danh đã được phân tích trong
hai mơ hình trị chơi khơng hợp tác khác nhau: duy nhất và lặp lại các trò chơi
Trang 4
Luận văn
Chương 1
CSMA/CA. Hơn nữa, các tác giả đã phát triển một chiến lược cho các trạm, cung cấp
một hiệu suất Pareto và sự cân bằng Nash hoàn hảo của việc tái lập lại trò chơi
CSMA/CA. Trong [17], các tác giả đã nghiên cứu sự ổn định của CSMA/CA trên nền
tảng mạng vơ tuyến với người dùng ích kỷ tham gia vào trị chơi CSMA/CA khơng
hợp tác. Trong trị chơi này, giá trị của mỗi người dùng có thể tự động thay đổi theo
tình trạng nghẽn mạng và tình trạng tiêu thụ năng lượng. Thêm vào đó, một phương
pháp lặp lại có mục đích nhằm đảm bảo sự hội tụ cân bằng Nash đơn trị. Trong [18],
một trò chơi truy cập ngẫu nhiên cho mạng vơ tuyến đã được trình bày để nghiên cứu
hành vi ích kỷ của nút mạng. Hơn nữa, các tác giả đã phân tích kỹ lưỡng thông lượng
kênh ở cân bằng Nash và cung cấp các phân tích tiệm cận của trị chơi vì số lượng
các máy phát ích kỷ đạt đến vơ cùng. Ngồi ra, trị chơi có ràng buộc chi phí ngẫu
nhiên trong đó mỗi người chơi kết hợp với một chuỗi Markov của riêng mình được
kiểm sốt bởi hành động của chính nó đã được nghiên cứu [19]. Tại mỗi thời điểm,
mỗi người chơi sẽ xác định một hành động theo cho một số chiến lược nhằm giảm
thiểu hàm chi phí trong một số ràng buộc các chiến lược của nó. Sự tương tác giữa
một số người chơi khác nhau được kết hợp trong hàm chi phí của họ.
1.3
Mục tiêu nghiên cứu
Mơ hình hóa cơ chế chiến lược truyền thơng (OTS) với điều kiện trễ trong bối
cảnh kênh vô tuyến biến thiên theo thời gian. Trong hệ thống OTS, trước khi gửi một
gói tin, nút đưa ra quyết định có nên gửi gói tin tại khe thời gian hiện tại hay trì hỗn
việc truyền này dựa trên trạng thái kênh để giảm thiểu mức tiêu thụ năng lượng. Các
trạng thái của hệ thống OTS được xây dựng như là trò chơi ngẫu nhiên kết hợp chi
phí dựa trên q trình Markov để có được chính sách truyền tải tối ưu.
1.4
Nhiệm vụ nghiên cứu và giới hạn đề tài
1.4.1 Nhiệm vụ nghiên cứu
Đề tài này đề xuất một mơ hình lý thuyết trị chơi cho chiến lược truyền thông
cơ hội cho các mạng vô tuyến hoạt động trong một môi trường hạn chế năng lượng
nghiêm ngặt. Để giảm số lần truyền không thành công do lỗi kênh và xung đột gói
Trang 5
Luận văn
Chương 1
tin gây ra một sự lãng phí năng lượng, chiến lược truyền thông cơ hội cố gắng truyền
ở điều kiện kênh tốt trong khi gặp ràng buộc trễ của kênh vô tuyến biến thiên theo
thời gian. Đề tài xây dựng trò chơi ngẫu nhiên kết hợp với chi phí để có được ngưỡng
tối ưu cho sự truyền thành công theo phương pháp truyền thông cơ hội.
Thực hiện mô phỏng, phân tích, đánh giá, so sánh mơ hình hiện tại.
1.4.2 Giới hạn của đề tài
Người thực hiện chỉ nghiên cứu tối ưu hóa truyền thơng cơ hội cho mạng tùy
biến vơ tuyến ad-hoc dựa trên mơ hình kênh truyền Markov trạng thái hữu hạn. Về
mơ hình kênh truyền có rất nhiều mơ hình kênh truyền như là fading phẳng, fading
chọn lọc tần số, fading nhanh và fading chậm. Người thực hiện chủ yếu phân tích và
mơ phỏng trên mơ hình kênh truyền fading phẳng.
1.5
Đóng góp của đề tài
Đã có rất nhiều cơng trình nghiên cứu về vấn đề lý thuyết trị chơi, truyền
thơng cơ hội nhưng chưa có cơng trình nào nghiên cứu về tối ưu hóa cơ hội truyền tải
cho mạng vơ tuyến sử dụng lý thuyết trị chơi với cơ chế truyền lại đối với các gói tin
lỗi và các nút mạng có thơng tin về xác suất xung đột gói tin. Trong đề tài này, người
thực hiện nghiên cứu tối ưu hóa cơ hội truyền tải cho mạng vơ tuyến dựa trên mơ
hình kênh truyền Markov trạng thái hữu hạn và sau đó thực hiện mơ phỏng để đánh
giá cơ hội truyền tải trong mạng vô tuyến.
1.6
Phương pháp nghiên cứu
Đề tài được thực hiện dựa trên một số phương pháp nghiên cứu:
1.7
-
Tham khảo từ một số bài báo khoa học.
-
Sử dụng phương pháp phân tích.
-
Phương pháp đánh giá
Bố cục đề tài
Với đề tài “Tối ưu hóa cơ hội truyền tải cho mạng vô tuyến sử dụng lý thuyết
trò chơi” người thực hiện đề nghị 5 chương:
Trang 6
Luận văn
Chương 1
Chương 1: Tổng quan ở chương này người thực hiện trình bày giới thiệu đề
tài, tình hình, mục tiêu, nhiệm vụ nghiên cứu, đóng góp, giới hạn đề tài, nội dung
thực hiện, bố cục đề tài
Chương 2: Cơ sở lý thuyết ở chương này người thực hiện trình bày các lý
thuyết liên quan như tổng quan mạng vô tuyến ad-hoc, kênh truyền fading, quá trình
quyết định Markov, kênh Markov trạng thái hữu hạn, chức năng điều phối phối hợp
trong giao thức IEEE 802.11, lý thuyết trò chơi, quy hoạch tuyến tính.
Chương 3: Tối ưu cơ hội truyền tải cho mạng vô tuyến ad-hoc
Chương 4: Thực hiện mô phỏng và đánh giá các kết quả đạt được
Chương 5: Trình bày kết luận và đề xuất hướng phát triển
Trang 7
Luận văn
Chương 2
Chương 2
CƠ SỞ LÝ THUYẾT
2.1
Tổng quan mạng tùy biến vô tuyến ad-hoc
2.1.1 Giới thiệu
Mạng tùy biến vô tuyến ad-hoc [20] bao gồm tập hợp các nút kết nối bằng các
liên kết vô tuyến tạo thành các topo mạng vô tuyến tùy biến mà không cần sử dụng
bất kỳ điểm truy cập tập trung. Mạng vô tuyến ad-hoc vốn tự sắp xếp và tự quản lý.
Các nút được tự do di chuyển một cách tùy ý và tự tổ chức một cách ngẫu nhiên. Do
đó cấu trúc liên kết của mạng có thể thay đổi nhanh chóng và khơng thể đoán trước.
Thách thức lớn nhất trong các loại mạng này là tìm ra con đường giữa hai điểm kết
cuối truyền tin của các nút di động. Do phạm vi truyền dẫn hạn chế của mạng vô
tuyến, truyền dữ liệu phải được mở rộng qua một số nút trung gian để tạo điều kiện
giao tiếp giữa hai nút. Do đó, các loại mạng này còn được gọi là các mạng đa chặng
(multi-hop) ad-hoc. Mỗi nút hoạt động cả hai vai trò vừa là máy chủ và vừa như một
bộ định tuyến. Một hạn chế khác liên quan đến thiết bị vô tuyến là hạn chế năng lượng
của các nút, tức là mỗi nút có giới hạn năng lượng pin cần được sử dụng một cách
hiệu quả giúp cho nút tồn tại được lâu hơn.
Mạng ad-hoc không yêu cầu bất kỳ cơ sở hạ tầng nào để hoạt động, mỗi nút
có khả năng giao tiếp trực tiếp với các nút khác. Hình 2.1 minh họa mơ hình mạng vơ
tuyến ad-hoc với ba nút mỗi mơ hình. Trong đó, mỗi nút mạng ad-hoc đặc biệt chỉ
có thể giao tiếp, nếu chúng có thể liên kết với nhau về mặt vật lý, tức là, nếu chúng
trong phạm vi sóng vơ tuyến của nhau hoặc nếu các nút khác chuyển tiếp thông báo.
Các nút từ hai mạng ah-hoc thể hiện trong hình 2.1 khơng thể liên lạc với nhau nếu
chúng không nằm trong cùng một dải vô tuyến.
Trang 8
Luận văn
Chương 2
Hình 2. 1 Mơ hình mạng vơ tuyến ad-hoc
2.1.2 Đặc tính mạng ad-hoc
a. Tính di động
Các nút tham gia trong mạng ad-hoc sử dụng sóng vơ tuyến để truyền tin và
không bị ràng buộc vật lý với nhau. Bởi vậy chúng có thể tự do di chuyển và có thể
triển khai ở những địa hình hiểm trở. Nhưng nó cũng có nhược điểm là khiến topo
mạng ln bị thay đổi, các nút phải thường xuyên phải cập nhật lại bảng định tuyến.
b. Tính đa chặn (multi-hop)
Một nút nguồn muốn truyền một gói tin đến nút đích cần phải đi qua một hay
nhiều nút khác. Trong điều kiện sử dụng mạng ad-hoc để truyền tin trong quân sự, số
nút trung gian cần được giảm tối đa để tránh sự phát hiện của kẻ thù.
c. Tự tổ chức
Không cần cơ sở hạ tầng hỗ trợ, mạng ad-hoc phải tự động tính tốn các cấu
hình của nó bao gồm: địa chỉ mạng, định tuyến, xếp nhóm, phát hiện vị trí, điều khiển
năng lượng,…Trong một số trường hợp, một số nút đặc biệt (các nút đường trục) phải
tự động di chuyển đến những vị trí xác định trong vùng địa lý để cung cấp vùng phủ
sóng rộng khắp.
d. Tiết kiệm năng lượng
Trang 9
Luận văn
Chương 2
Hầu hết các nút (ví dụ: máy tính xách tay, PDA, các cảm biến, v.v.) trong
mạng được vận hành bằng các nguồn năng lượng hạn chế như pin, ắc quy và khơng
có khả năng tạo ra năng lượng. Việc nạp lại năng lượng cho các nút trong mạng
thường khó khăn và khơng thể thực hiện thường xun, do đó khả năng tiết kiệm
năng lượng của các giao thức sử dụng trong mạng ad-hoc là yếu tố quan trọng để
đánh giá hiệu quả của giao thức.
e. Khả năng mở rộng
Trong một số ứng dụng (ví dụ: quan sát mơi trường xung quanh như nhiệt độ,
độ ẩm, triển khai chiến trường, hệ thống xe đơ thị, vv) mạng ad-hoc có thể phát triển
lên đến hàng ngàn nút.
f. An ninh
Mạng ad-hoc tiếp xúc với các cuộc tấn công nhiều hơn so với cơ sở hạ tầng
mạng đối tác. Các cuộc tấn cơng chủ động và thụ động đều có thể xảy ra. Cuộc tấn
công chủ động cố gắng làm gián đoạn hoạt động (kiểm sốt các gói dữ liệu, tái xuất
các gói kiểm sốt khơng có thật; làm hỏng các bảng định tuyến; mở các cuộc tấn công
từ chối dịch vụ, vv). Các cuộc tấn cơng thụ động thì khơng phổ biến trong mạng adhoc và có thể nguy hiểm hơn các cuộc tấn công chủ động. Các cuộc tấn công chủ
động dễ bị phát hiện và bị ngăn chặn. Tấn công thụ động trong mạng không bao giờ
được phát hiện. Nó giám sát dữ liệu và kiểm sốt lưu lượng và do đó làm mạng hoạt
động bình thường. Để bảo vệ từ các cuộc tấn cơng thụ động địi hỏi phải có những kỹ
thuật mã hố mới cùng với việc thận trọng thiết kế giao thức mạng.
g. Kết nối với Internet
Có rất nhiều ưu điểm trong việc mở rộng cơ sở hạ tầng mạng vơ tuyến ad-hoc.
Việc tích hợp các giao thức ad-hoc với các tiêu chuẩn về cơ sở hạ tầng trở thành một
vấn đề nóng.
Trang 10
Luận văn
2.2
Chương 2
Kênh truyền fading
Phân bố Rayleigh là mơ hình phổ biến để mơ tả đường bao của tín hiệu nhận
được trong mơi trường fading, nơi có số lượng đường phản xạ lớn và khơng có thành
phần LOS (line of sight), ví dụ như mơi trường đơ thị. Tín hiệu phát tại tần số 𝜔𝑐 tới
bộ thu thông qua một số đường, đường 𝑖𝑡ℎ có biên độ 𝑋𝑖 và pha 𝑍𝑖 . Tính hiệu nhận
𝑋(𝑡) như sau:
N
N
j ( t Z
X (t ) Re X i e c j X i cos(ct Zi )
i 1
i 1
(2.1)
Với N là số lượng đường truyền, Zi là pha của đường truyền. Pha thì được
phân bố đều trong khoảng [0; 2 ] . Xi là phân bố Rayleigh và Zi là phân bố đều. Hiệu
ứng Doppler của dạng sóng thì được cho bởi phương trình:
di
c v
c
cos i
(2.2)
Với v là tốc độ của đối tượng khi di chuyển, c là tốc độ của ánh sáng, i là
phân bố đều trong khoảng [0; 2 ] . Tín hiệu nhận có thể được viết như sau:
N
X (t ) X i cos(ct di Zi )
i 1
(2.3)
Biểu diễn dưới dạng đồng pha và cầu phương.
r (t ) I (t )cos ct Q(t )sin ct
(2.)
(2.4)
N
I (t ) X i cos(dit Z i )
i 1
(2.5)
N
Q(t ) X i sin(dit Zi )
i 1
(2.6)
Hàm phân bố xác suất:
R2
pRay ( R) 2 exp( 2 )
2
R
Trang 11
(2.7)
Luận văn
Chương 2
pRay ( Zi )
1
2
(2.8)
Hình 2. 2 Mơ phỏng PDF của kênh truyền Rayleigh fading với phương sai bằng 0.5
Hình 2. 3 Mơ phỏng PDF của kênh truyền Rayleigh fading với phương sai bằng 1
Trang 12
Luận văn
Chương 2
2.3
Quá trình quyết định Markov (MDP)
2.3.1
Định nghĩa
Một MDP là một quá trình ngẫu nhiên dựa trên các biến ngẫu nhiên của trạng
thái 𝑥𝑡 , hành động 𝑎𝑡 , phần thưởng 𝑟𝑡 , được cho bởi mạng Dynamic Bayesian như
minh họa hình 2.4 [21]. Quá trình được xác định bởi các xác suất có điều kiện.
P xt 1 | at , xt
xác suất chuyển đổi,
(2.9)
P rr | at , xt
xác suất phần thưởng,
(2.10)
P at | xt at | xt
chính sách (quy tắc)
(2.11)
Trong phần tiếp theo chúng ta sẽ giả thiết q trình là ổn định, khơng có một
xác suất điều kiện nào phụ thuộc vào thời gian.
Cho một chính sách 𝜋 và một trạng thái bắt đầu x, chúng ta có thể mơ phỏng
q trình và tính tốn các kỳ vọng phần thưởng trong tương lai. Hàm giá trị V ( x) là
một phép đo, chính xác hơn nó là một phép đo sự kỳ vọng trả lại
V ( x) E{r0 + r1 + 2 r2 +...|x 0 =x; }
(2.12)
E{ t rt |x0 x; }
t 0
Chọn hệ số [0,1] nhỏ hơn 1 để đảm bảo sự hội tụ của tổng. Đối với mỗi
trạng thái bắt đầu x chúng ta có thể khảo sát quy tắc tốt nhất là gì và giá trị của quy
tắc là bao nhiêu. Hàm giá trị tối ưu được định nghĩa như sau:
V * ( x) max V ( x)
(2.13)
Chúng ta có thể nói quy tắc 𝜋 ∗ là tối ưu nếu nó tối đa hóa giá trị cho mỗi trạng
thái bắt đầu.
* tối ưu x : V ( x) V * ( x)
*
Trang 13
(2.14)
Luận văn
Chương 2
Điều này dường như là một thuộc tính của quy tắc nhưng với mỗi MDP luôn
luôn tồn tại ít nhất một quy tắc tối ưu. Có thể có nhiều quy tắc tối ưu, mỗi giá trị này
đều có được giá trị tối ưu cho mỗi trạng thái bắt đầu. Hơn nữa, cũng tồn tại ít nhất
một chính sách tối ưu xác định (có thể cũng có một chính sách tối ưu ngẫu nhiên).
Bài toán điều khiển tối ưu trong một MDP đã cho là tính tốn quy tắc tối ưu
𝜋 ∗ khi mơ hình P x' | a, x , phần thưởng P r | a, x và hệ số 𝛾 ∈ 𝑅 đã biết trước.
Hình 2. 4 Quá trình quyết định Markov
2.3.2 Thuộc tính đệ quy của giá trị - phương trình tối ưu Bellman
Để đơn giản, giả thiết rằng quy tắc 𝜋 là xác định, một ánh xạ từ 𝑥 → 𝑎. Tất cả
theo phép lấy đạo hàm có thể được thực hiện tương tự như một quy tắc ngẫu nhiên
bằng cách xem xét sự kỳ vọng trên a.
Theo định nghĩa hàm giá trị V x là một sự kỳ vọng của một chuỗi các phần
thưởng, thỏa mãn một thuộc tính đệ quy đơn giản
V x E r0 r1 2r2 |x0 x; E{r0 |x0 x; } E r1 r2 |x0 x;
(2.15)
R( ( x), x) P( x | ( x), x) E r1 r2 |x1 x ' ;
x'
R( ( x), x) P( x | ( x), x)V x '
x'
Rõ ràng, thuộc tính chất đệ quy nào cũng giữ cho hàm giá trị tối ưu 𝑉 ∗ . Nhưng
hàm giá trị tối ưu cịn có một thuộc tính bổ sung, phương trình tối ưu Bellman
Trang 14
Luận văn
Chương 2
V * x max R a, x P( x | a , x).V * x '
a
x'
(2.16)
* x argmax a R a, x P( x | a , x).V * x '
x'
(2.17)
Điều này dễ dàng chứng minh qua phép phủ định: Nếu một chính sách π chọn
một hành động mà khơng tối đa hóa số hạng, thì chính sách π’ bằng với π ở mọi nơi
ngoại trừ ở trạng thái x - nơi mà nó chọn hành động tối đa hóa số hạng - sẽ có một
giá trị cao hơn. Như vậy một π không thể tối ưu. Ngược lại, mọi chính sách tối ưu
phải chọn hành động để tối đa hóa số hạng.
Phương trình tối ưu Bellman là phần trung tâm xuyên suốt lý thuyết của MDP
và nó phản ánh các nguyên tắc của sự tối ưu. Nếu một hệ thống được xác định, nguyên
tắc này có thể được xác định như sau: “Tạo một điểm bất kỳ trên quỹ đạo tối ưu, quỹ
đạo còn lại là tối ưu cho bài toán tương ứng bắt đầu tại thời điểm đó”. Đây là một
cách khác để nói rằng một quy tắc tối ưu đạt được giá trị tối ưu cho mỗi trạng thái bắt
đầu, hoặc bất cứ khi nào quy trình đạt đến trạng thái x, chính sách tối ưu sẽ chọn hành
động tương tự như chính sách tối ưu nếu x là trạng thái bắt đầu của quá trình.
2.3.3
Hàm Q
Thay thế cho các giá trị hàm V có thể xác định hàm Q,
Q a, x : E r0 r1 2 r2 |x0 x, a0 a;
(2.18)
Có liên quan tới hàm giá trị như sau:
Q a, x R a, x P( x | a , x).V x ']
(2.19)
x'
V x Q x , x
(2.20)
Hàm Q có một tính chất đệ quy và tương tự như thuật toán tối ưu Bellman
Q a, x R a, x P( x | a , x). Q ( x ' , x ' )
x'
Trang 15
(2.21)
Luận văn
Chương 2
Q* a, x R a, x P( x | a , x). maxQ* a, x ']
(2.22)
* x argmaxQ* a, x
(2.23)
x'
a
2.3.4 Tính tốn các hàm giá trị
a
Giá trị lặp lại
Nhiều thuật tốn tính giá trị tối ưu của luật 𝜋 ∗ dựa trên đầu tiên tính hàm giá
trị 𝑉 ∗ hoặc 𝑄 ∗ cho một luật 𝜋 tối ưu phụ hoặc hàm giá trị tối ưu 𝑉 ∗ hoặc 𝑄∗ . Thuật
tốn lặp để tính các hàm trực tiếp có thể được bắt nguồn từ tính đệ quy của chúng và
các phương trình tối ưu Bellman.
V ( x) R( ( x), x) P x | x , x .V x '
(2.24)
V * x max R a, x P( x | a , x).V x '
a
x'
(2.25)
Q a, x R a, x P( x | a , x). Q ( x ' , x ' )
(2.26)
Q* a, x R a, x P( x | a , x). max
Q* a, x '
'
(2.27)
x'
x'
a
x'
và cho mỗi trong bốn phương trình xem xét các phương trình cập nhật tương ứng:
x : V( k 1) ( x) R( ( x), x) P x | x , x .Vk x '
(2.28)
x : Vk 1 x max R a, x P( x | a , x).Vk x '
a
x'
(2.29)
x'
(2.30)
a, x : Qk 1 a, x R a, x P( x | a , x). max
Qk a ', x '
'
(2.31)
a, x : Qk 1 a, x R a, x P( x | a , x). Qk x ' , x '
x'
x'
a
Cho mỗi phương trình mơ tả thuật tốn lặp nó bắt đầu với một hàm giá trị ban
đầu 𝑉0 (𝑥) và 𝑄0 (𝑥) tương ứng. Chú ý rằng các phương trình từ (2.24-2.27) được sửa
Trang 16