Tải bản đầy đủ (.pdf) (48 trang)

Thiết kế giao thức điều khiển đa truy cập (mac) hiệu quả năng lượng cho các mạng không dây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.37 MB, 48 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

THIẾT KẾ GIAO THỨC ÐIỀU KHIỂN ÐA TRUY CẬP
(MAC) HIỆU QUẢ NĂNG LƯỢNG CHO CÁC MẠNG
KHÔNG DÂY
S

K

C

0

0

3

9

5

9

MÃ SỐ: T2014-25

S KC 0 0 5 5 0 9


Tp. Hồ Chí Minh, 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

THIẾT KẾ GIAO THỨC ĐIỀU KHIỂN ĐA TRUY CẬP
(MAC) HIỆU QUẢ NĂNG LƯỢNG CHO CÁC MẠNG
KHÔNG DÂY
Mã số: T2014-25

Chủ nhiệm đề tài: TS. Phan Văn Ca

TP. HCM, 11/ 2014

1


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐIỆN-ĐIỆN TỬ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG


THIẾT KẾ GIAO THỨC ĐIỀU KHIỂN ĐA TRUY CẬP
(MAC) HIỆU QUẢ NĂNG LƯỢNG CHO CÁC MẠNG
KHÔNG DÂY

Mã số: T2014-25

Chủ nhiệm đề tài:
TS. Phan Văn Ca
Thành viên đề tài:
Ths. Trương Quang Phúc

TP. HCM, 11/ 2014
2


MỤC LỤC
BỘ GIÁO DỤC VÀ ĐÀO TẠO ........................................................................................ 1
Chương 1 ............................................................................................................................ 6
GIỚI THIỆU ...................................................................................................................... 6
Chương 2 .......................................................................................................................... 10
MƠ HÌNH CƠ BẢN ........................................................................................................ 10
Chương 3 .......................................................................................................................... 18
LÝ THUYẾT TRÒ CHƠI ................................................................................................ 33
Chương 5 .......................................................................................................................... 40
KẾT LUẬN ...................................................................................................................... 40
TÀI LIỆU THAM KHẢO ................................................................................................ 42

3



DANH SÁCH HÌNH VẼ

Hình 2. 1: Mơ hình kênh Makov trạng thái hữu hạn........................................................ 11
Hình 2. 2: Đo lường kênh và hồi tiếp thông qua trao đổi các frame điều khiển .............. 13
Hình 2. 3: Kênh đo lường sử dụng các frame RTS/CTS trong IEEE 801.11 .................. 14
Hình 2. 4: Q trình quyết định Markov .......................................................................... 16

Hình 3. 1: Mơ hình kênh Markov K trạng thái ................................................................ 20
Hình 3. 2: Mơ hình truyền với hồi tiếp CSI ..................................................................... 20
Hình 3. 3: Sơ đồ trạn thái của hệ thống BDT................................................................... 21
Hình 3. 4: Các ngưỡng tối ưu của BDT với lưu lượng thay đổi ...................................... 28
Hình 3. 5: Các ngưỡng tối ưu của BDT với kích thước bộ đệm thay đổi ........................ 29
Hình 3. 6: Các ngưỡng tối ưu với tần số Doppler thay đổi .............................................. 30
Hình 3. 7: So sánh hiệu quả năng lượng của BDT và qui hoạch 802.11 với kích thước bộ
đệm thay đổi ..................................................................................................................... 31
Hình 3. 8: .......................................................................................................................... 32

Hình 4. 1: Mơ hình trạng thái của hệ thống truyền với kênh truyền giới hạn.................. 36

4


DANH SÁCH BẢNG
Bảng 3. 1: Các thông số dùng để tính tốn và mơ phỏng ................................................ 27

Bảng 4. 1: Các thơng số được dùng để tính tốn và mơ phỏng ....................................... 38
Bảng 4. 2: Ngưỡng tối ưu trong truyền dẫn với độ trễ giới hạn ...................................... 39
Bảng 4. 3: Ngưỡng tối ưu đối với trạng thái kênh có độ trễ giới hạn .............................. 40


5


Chương 1
GIỚI THIỆU

1.1.

Tổng quan

Trong các mạng ad-hoc không dây (Wahns), hầu hết các nút di động nói chung được hỗ
trợ bởi một nguồn năng lượng có hạn, mà có thể khó khăn và đơi khi khơng khả thi để
nạp tiền hoặc thay thế chúng. Vì vậy, bảo tồn năng lượng là một trong những vấn đề
quan trọng trong kỹ thuật thiết kế mạng và đã được trả tiền nhiều sự chú ý bởi các nhà
nghiên cứu trong gần đây năm [1-5]. Trong bối cảnh thiết kế giao thức MAC cho Wahns
với thời gian khác nhau điều kiện kênh, chúng ta có thể đạt được hiệu quả năng lượng
bằng cách điều chỉnh điện truyền tải, hoặc tương đương, sử dụng đáp ứng tốc độ trongđa tỷ lệ cho phép các mạng sử dụng các sự biến đổi của các điều kiện kênh [6]. Tuy
nhiên, điều này có thể gây ra giảm truyền tải tỷ lệ và do đó dẫn đến sự hy sinh của tăng
sự đa dạng thời gian [7]. Trong một nghĩa khác, một chương trình truyền cơ hội, trong
đó các gói tin được lên kế hoạch để truyền tải tại điều kiện kênh thuận lợi bằng cách khai
thác các biến thể kênh có thể có được năng lượng hiệu quả và cải thiện hiệu suất mạng.
Các nút hoạt động trên các kênh không dây thời gian khác nhau mà chất lượng đáng
kể dao động theo thời gian do fading và nhiễu. Tính chất thời gian khác nhau như
vậy các kênh không dây áp đặt nhiều hạn chế trong việc thiết kế một truyền năng lượnghiệu quả Đề án. Ví dụ, một nỗ lực truyền tải, khi các kênh không dây tạm xấu, rất có khả
năng bị thất bại và có thể dẫn đến một sự lãng phí năng lượng. đến tránh điều này, người
gửi có thể chờ đợi cho đến khi kênh trở nên tốt hơn. Tuy nhiên, hoãn truyền cho đến khi
kênh trở nên tốt hơn có thể làm giảm thông lượng, hoặc tương đương gây ra một độ trễ
dài hơn. Đây là một thương mại-off trong việc thiết kế một năng lượng-hiệu quả chương
trình truyền cho Wahns. Chương trình truyền như vậy phải có khả năng thích ứng sự
biến đổi của các kênh không dây trong khi duy trì một sự cân bằng tốt giữa các hai biện

pháp trái ngược nhau.

6


Trong những năm gần đây, nhiều kỹ thuật khác nhau đã được đề xuất để tăng năng
lượng hiệu quả trong Wahns. Trong [8] một kỹ thuật thích ứng liên kết cho Wahns đã
được điều tra.
Trong bài báo này, các tác giả đã đề xuất một sự điều chỉnh thích nghi của khung kích
thước trong truyền tải và các bộ lọc Kalman mở rộng đã được khai thác để dự đoán kích
thước khung hình tối ưu. Trong [9], một chương trình truyền áp dụng multicast Requestto-Send (RTS) và ưu tiên dựa trên Clear-to-Send (CTS) đã được phát triển để ưu
tiênthiết bị đầu cuối với một kênh tốt trong việc tiếp cận kênh. Trong [10], tốc độ truyền
tải là tự động điều chỉnh dựa trên cường độ tín hiệu nhận được. Bộ thu Dựa Auto Rate
(RBAR) giao thức trong [11] cho phép người nhận để chọn tốc độ dữ liệu dựa trên tỷ lệ
tín hiệu-to-noise (SNR) của gói tin RTS. Các tác giả trong [12] đã đề xuất một khuôn
khổ lớp chéo để thiết kế một chương trình truyền năng lượng-hiệu quả. trong bài báo
này, các vấn đề chung của điều khiển công suất và lập kế hoạch đã được đề cập trong Để
giảm thiểu tổng công suất phát với sự đảm bảo về chất lượng end-to-end lượng dịch vụ
(QoS). Trong [13], các tác giả đã rút ra một công thức chung cho cả cuộc đời mạng về
hai thông số quan trọng bao gồm cả nhà nước và kênh còn lại năng lượng của các nút.
Một giao thức MAC dựa trên công thức này, được gọi là max-min giao thức, đã được đề
xuất để tối đa hóa tuổi thọ mạng bằng cách khai thác các các thông số của mỗi nút. Hơn
nữa, việc thực hiện phân phối của max-min giao thức đã được nghiên cứu trong [14],
trong đó cho phép mỗi nút để xác định xem để truyền tải dựa trên trạng thái kênh riêng
của mình và số lượng năng lượng cịn lại. các tác giả [15] đã đề xuất một mô hình mạng
phai Rayleigh trong đó khơng dây kênh fading được ánh xạ tới các thông số thiết kế cho
lớp trên lớp chéo của mạng lưới năng lượng hiệu quả. Trong [16], các tác giả đã sử dụng
các chương trình năng động kỹ thuật để phát triển các chiến lược truyền tối ưu trong các
kênh fading không dây, cho năng lượng, năng lượng, và hạn chế thời hạn. Cho rằng các
thông thu được mỗi đơn vị năng lượng tiêu thụ có thể được xác định dựa trên các thông

tin nhà nước Kênh (CSI), một mơ hình lập trình động được phát triển để có được một tối
ưu chính sách đối với truyền dẫn lập kế hoạch nhằm tối đa hóa thơng lượng dữ liệu dự
kiến.

7


Liên quan đến việc xây dựng MDP sử dụng để thiết kế truyền năng lượng-hiệu quả chiến
lược cho Wahns, các tác giả trong [17] đã phát sinh việc truyền tải tối ưu điện và sơ đồ
điều chế để có được những thông hệ thống tối đa theo hạn chế của truyền tải điện năng.
Vấn đề tối ưu hóa này được xây dựng như MDP và các kỹ thuật lập trình động được sử
dụng để có được những giải pháp. Trong [18], các tác giả đã giải quyết được vấn đề của
việc tìm kiếm các mức điều chế tối ưu và truyền điện để tối đa hóa thơng lượng trung
bình dài hạn trên tổng tiêu thụ năng lượng. Trong bài báo này, các tác giả cũng đã sử
dụng các MDP xây dựng tối ưu hóa vấn đề và giải pháp tối ưu gần đạt được bằng cách
sử dụng cốt thép thuật toán học. Một tác phẩm khác bằng cách sử dụng MDP để tìm ra
chính sách tối ưu cho chiến lược truyền tải đã được báo cáo trong [19]. Trong bài báo
này, cả hai truyền sức mạnh và khả năng mà người sử dụng bị chặn cố gắng truyền tải
trong một khoảng thời gian được tối ưu hóa để tối đa hóa thơng lượng hệ thống. Trong
[20], các tác giả đã trình bày một khn khổ MDP để chọn sức mạnh và khả năng truyền
tải tại nguồn và nút chuyển tiếp một cách hợp tác để nâng cao thông lượng mạng mỗi
đơn vị anergy tiêu thụ. Các tác giả trong [21] đã coi là chậm trễ nhạy cảm điện và truyền
tải phân phối kiểm soát ngưỡng cho mạng Slotted ALOHA- với kênh fading không dây.
Trong bài báo này, các địa phương CSI, xếp hàng thông tin nhà nước, và phản hồi thông
thường từ các điểm truy cập được sử dụng để thu được một sự chậm trễ tối ưu chính sách
dựa trên các chính sách khơng nhớ K-agent chân trời vơ hạn phân cấp MDP (DECMDP) xây dựng.
Ngoài ra, lý thuyết trị chơi đã trở thành một cơng cụ cần thiết và hiệu quả cho phân
tích và thiết kế mạng khơng dây thế hệ tiếp theo. Đặc biệt, đã có một nền văn học phong
phú sử dụng lý thuyết trò chơi để học kiểm sốt truy cập trung bình. Trong [22], các tác
giả đã trình bày một cách tiếp cận lý thuyết trị chơi để thiết kế mạnh mẽ kiểm sốt truy

cập ngẫu nhiên giao thức cho các mạng không dây với các kênh fading. Cụ thể, các cơ
hội truyền trong rãnh ALOHA CSMA và thích nghi với kênh thơng tin quốc gia là mơ
hình như các trị chơi Bayes trong đó mỗi ngưỡng truyền là một Bayesian Nash trạng
thái cân bằng của trò chơi. Trong [23], các tác giả đã xây dựng một truy cập trò chơi
kênh cho chiến lược truyền với inter-cluster nhận thức can thiệp vào một phân cấp cách
thức và chứng minh sự tồn tại của cân bằng Nash Bayesian của nó. Các tác giả trong
8


[24] đã xây dựng các vấn đề của việc tìm kiếm một chính sách truyền cho mỗi nút trong
rãnh ALOHA mạng mà các bản đồ trạng thái kênh thông tin để xác suất truyền để tối đa
hóa tiện ích cá nhân của mình như một trị chơi khơng hợp tác. Các điều kiện để sự tồn
tại của một chính sách truyền ngưỡng cân bằng Nash đã được đưa ra và một thuật toán
ngẫu nhiên dựa trên độ dốc đã được áp dụng để xử lý các phản ứng tốt nhất q trình
năng động cho các trị chơi truyền. Trong [25] một trị chơi lý thuyết mơ hình khai
thác các thơng tin trạng thái kênh ở mỗi người dùng để đưa ra quyết định về truyền dẫn
gói trong các mạng ALOHA rãnh trong một mơi trường mờ dần. Trong mơ hình này,
mỗi người dùng đặt ngưỡng kênh và gửi một gói duy nhất khi tăng kênh cao hơn ngưỡng
để tối đa hóa lợi ích rịng của một người sử dụng, tiện ích trừ đi năng lượng tiêu thụ.
1.2.

Nội dung đề tài

Trong cơng trình này, chúng tơi cống hiến nỗ lực đáng kể để thiết kế và điều tra
energyefficient đề án truyền cho giao thức MAC cho Wahns hoạt động trong một
nghiêm ngặt năng lượng hạn chế môi trường.
Báo cáo này được bắt đầu bằng cách đưa ra một số mô tả ngắn gọn về các mơ hình cơ
bản trong Chương 2. Một kênh Markov hữu hạn nhà nước (FSMC) mơ hình được sử
dụng để nắm bắt các timevarying hành vi của kênh fading khơng dây được trình bày
trong chương này. chúng tôi cũng giới thiệu giao thức MAC liên quan đến chiến lược

truyền gói đề xuất.
Trong chương 3, chúng tơi cung cấp cho một tài khoản của thiết kế và phân tích các cơ
hội truyền sơ đồ dưới kích thước bộ đệm hạn chế. Các MDP cũng được sử dụng để kiểm
tra ngưỡng tối ưu để truyền thành công. Chúng tôi thực hiện các thí nghiệm để phân
tích hành vi của các chương trình BDT trong điều kiện mạng khác nhau, bao gồm
cả cường độ giao thơng, hạn chế kích thước bộ đệm, và tốc độ kênh.
Các hành vi của chiến lược truyền cơ hội (OTS) với sự chậm trễ hạn chế trong bối cảnh
thời gian khác nhau kênh không dây và các ứng dụng chậm trễ nhạy cảm toán học được
điều tra trong chapter4. Các hành vi của chương trình OTS là Hạn chế xây dựng như chi

9


phí đi đơi ngẫu nhiên trị chơi dựa trên quyết định Markov q trình để có được những
chính sách truyền tối ưu.
Cuối cùng, chúng tơi tóm tắt các cơng việc ban đầu trong Chương 5.

Chương 2
MƠ HÌNH CƠ BẢN

2.1 Mơ hình kênh Makov trạng thái hữu hạn
Chúng tơi mơ hình thời gian khác nhau kênh fading Rayleigh là một kênh Markov K-nhà
nước mơ hình trong đó các giá trị SNR nhận được các kênh được phân chia thành các
quốc gia K. Đối với các kênh fading Rayleigh, SNR tức thời nhận (y) là cấp số
nhân phân phối với hàm mật độ xác suất:

nơi ρ = E [y] [26]. Hãy yk biểu thị sự ngưỡng của nhận SNR trong đó 0 = y0 < y1 · · chuyển đổi trong mơ hình FSMC xảy ra tại ranh giới của khe thời gian trong đó

một khung cố định kích thước được phát đi và quá trình chuyển đổi chỉ xảy ra giữa các
quốc gia lân cận, như hình. 2.1. Hơn nữa, mức tăng kênh là hằng số trong một khe thời
gian của việc truyền tải. Các thông số của kênh Markovian có thể thu được bằng cách sử
dụng các kết quả trong [27]. Chúng tôi biểu N (y) là tỷ lệ vượt mức do:

10


Hình 2. 1: Mơ hình kênh Makov trạng thái hữu hạn
Với fm là tần số Doppler của kênh. Các xác suất chuyển trạng thái được đưa ra bởi

nơi Tf là thời gian truyền khung và πk là các xác suất trạng thái ổn định cho qua

Đối với trường hợp BPSK, xác suất lỗi symbol Pb (gk) cho gk nhà nước được cho bởi

và F (x) biểu thị hàm phân phối tích lũy (CDF) của một tiêu chuẩn bình thường biến
ngẫu nhiên

11


Trong suốt bài này thống kê lỗi theo các trường hợp BPSK như công thức ở trên.
Trong môi trường mô phỏng, chúng tơi thiết lập các mơ hình FSMC trên giao thức IEEE
802.11 MAC (gọi là đại lý MAC) trong ns-2. Các chi tiết thực hiện FSMC được mô
tả như sau. Với các thông số kênh được bao gồm SNR trung bình và tần số Doppler, xác
suất truyền tải nhà nước và các BER trung bình cho mỗi tiểu bang được tính theo
phương trình (2.3), (2.4) và (2.6) và được lưu trữ trong nhà nước Bảng. Mỗi đại lý MAC
duy trì một bảng gọi là Link State Bảng liệt kê lên trạng thái kênh hiện tại của mỗi liên
kết tới các nước láng giềng. Đối với mỗi liên kết, các kênh hiện tại nhà nước trong bảng
được khởi tạo ngẫu nhiên ở các khe thời gian 0 và cập nhật theo các xác suất chuyển

trạng thái được liệt kê trong Bảng Nhà nước tại đầu mỗi khe thời gian. Khi khung được
tiếp nhận bởi đại lý MAC từ một liên kết được chỉ định, BER tương ứng với các trạng
thái hiện tại của liên kết được sử dụng để tính toán các lỗi khung xác suất.
2.2 Giao thức MAC
Chúng ta hãy xem xét một mạng ad-hoc trong đó N nút di động sử dụng một MAC
rãnh giao thức để truy cập vào một kênh chung. Trong một mạng lưới như vậy, trục thời
gian được chia thành các khe thời gian tương đương chiều dài của Tf giây. Bất cứ khi
nào các nút di động có một gói tin cấp phát để gửi, nó sẽ mất một trong hai hành động
sau đây: Truyền Trì hỗn hoặc, tương ứng với truyền gói và trì hỗn việc truyền
tải, tương ứng, dựa trên CSI địa phương của mình. Để đo lường chất lượng kênh không
dây, điện thoại di động các nút giao khung kiểm sốt đặc biệt được gọi là thí điểm và
khung Response (xem hình. 2.2). Khi nhận được khung Pilot từ người gửi, các biện pháp
thu chất lượng kênh trong điều khoản của SNR. Thông tin này được nhúng vào
trong Khung phản hồi và trả lại cho người gửi.

12


Hình 2. 2: Đo lường kênh và hồi tiếp thơng qua trao đổi các frame điều khiển
Chúng ta hãy xem xét một mạng ad-hoc trong đó N nút di động sử dụng một MAC
rãnh giao thức để truy cập vào một kênh chung. Trong một mạng lưới như vậy, trục thời
gian được chia thành các khe thời gian tương đương chiều dài của Tf giây. Bất cứ khi
nào các nút di động có một gói tin cấp phát để gửi, nó sẽ mất một trong hai hành động
sau đây: Truyền Trì hỗn hoặc, tương ứng với truyền gói và trì hoãn việc truyền
tải, tương ứng, dựa trên CSI địa phương của mình. Để đo lường chất lượng kênh khơng
dây, điện thoại di động các nút giao khung kiểm soát đặc biệt được gọi là thí điểm và
khung Response (xem hình. 2.2). Khi nhận được khung Pilot từ người gửi, các biện pháp
thu chất lượng kênh trong điều khoản của SNR. Thông tin này được nhúng vào
trong Khung phản hồi và trả lại cho người gửi.
2.3 Xử lý quyết định Markov

2.3.1 Công thức MDP
MDP là công cụ hiệu quả cho mô hình và giải quyết vấn đề ra quyết định năng động với
đa thời gian dưới ngẫu nhiên cách [28]. Nó lần đầu tiên được giới thiệu vào năm 1960
[29] và đã được quan tâm trong một thời gian dài và đến nay có rất nhiều cơng trình ở
13


cả lý thuyết và ứng dụng đã được thực hiện [30-32]. Có ba loại MDP: rời rạc thời gian
MDP, liên tục thời gian MDP, và bán MDP. Trong phạm vi của cơng việc này, chúng tơi
chỉ tính thời gian rời rạc MDP được quy định như sau,

trong đó S là hệ thống nhà nước và quan sát ở khoảng thời gian rời rạc hoặc khe thời
gian, gọi là kỷ nguyên quyết định n = 0, 1, 2, .... Khi hệ thống ở trạng thái i ∈ S, nó nên
chọn một hành động từ những hành động thiết lập A (i) liên quan đến các tiêu chí quy
định V. Sau khi hành động được lựa chọn, hệ thống sẽ nhận được một phần thưởng r (i,
a) và chuyển giao cho trạng thái j tại các giai đoạn tiếp theo với nhà nước pij xác suất
chuyển (a).

Hình 2. 3: Kênh đo lường sử dụng các frame RTS/CTS trong IEEE 801.11
14


Chúng tôi cũng cho rằng không gian trạng thái S là hữu hạn và tất cả các hành động đặt
A (i) là đếm được. Cho A = i∈SA (i) là sự kết hợp của tất cả các bộ chức năng. Một
nguyên tắc ra quyết định quy định một thủ tục lựa chọn hành động trong mỗi tiểu bang ở
một điểm quyết định chỉ định. Khi quyết định như vậy có thể được xác định bởi một
chức năng quyết định: d: S → A d thỏa mãn (i) ∈A (i) cho nhà nước i ∈ S. Bất cứ khi
nào hệ thống nhà nước chiếm i, các hành động d (i) sẽ được lựa chọn. Cho D biểu thị tập
hợp tất cả các chức năng quyết định.
Một chính sách hoặc chiến lược xác định các quy tắc quyết định sẽ được sử dụng ở tất cả

các thời kỳ quyết định. nó là nguyên tắc để xác định các hành động cần được lựa chọn
dưới bất kỳ trong tương lai có thể hệ thống nhà nước hay lịch sử [33]. Chúng tôi biểu thị
tập hợp các cặp có thể có của nhà nước và hành động ở mỗi thời đại quyết định bởi Γ =
{(i, a) | i ∈ S, a ∈ A (i)}. Hãy hn = (s1, a1, ..., sn-1, an-1, sn) biểu thị lịch sử lên đến n.
Sau đó, hn sau đệ quy hn = (hn-1, an-1, sn). chúng tôi cũng cho Hn biểu thị tập hợp của
tất cả các lịch sử hn. Lưu ý rằng H0 = S và Hn cũng đáp ứng đệ quy Hn = Hn-1 × A × S.
Chúng tơi xác định một chính sách π = (π0, π1, ...) ∈ Π trong đó πn (|. hn) là phân bố xác
suất trên A (in) cho bất kỳ n ≥ 0 và lịch sử hn. nếu πn (|. hn) = πn (|. in) cho mỗi n sau đó
chúng ta gọi là π một chính sách Markov.
Một chính sách π Markov được gọi là chính sách cố định hoặc chính sách tinh khiết nếu
πn (|. In) = π0 (|. In) và có dn ∈ D như vậy mà πn (dn (i) | i) = 1 cho mỗi n và cho tất cả i
∈ S. Do đó một chính sách văn phịng phẩm có dạng π = (d, d, ...). Chúng tơi biểu nó như
d∞. các văn phịng phẩm chính sách này là nền tảng cho lý thuyết về vô hạn chân trời
MDP.
2.3.2 Các qui luật dừng tối ưu
Tại quyết định kỷ nguyên n ≥ 0, hệ thống sẽ mất một hành động theo xn nhà nước dựa
trên π chính sách và nhận được một phần thưởng r (xn, an) như hình. 2.4. Hãy Eπ, i biểu
thị kỳ vọng của các quá trình ngẫu nhiên {xn, một, r (xn, an)} dưới π chính sách và ban
đầu trạng thái i. Để đánh giá chính sách, chúng tơi sử dụng các tiêu chí quyết định hình
thành từ kỳ vọng Eπ, i. Có hai tiêu chí cơ bản bao gồm: tổng dự kiến giảm giá tiêu chí
khen thưởng và trung bình dự kiến tiêu chí thưởng như mơ tả dưới đây.
15


Việc giảm giá dự kiến tổng số tiêu chí khen thưởng những chân trời vơ hạn được định
nghĩa là sau

Hình 2. 4: Quá trình quyết định Markov
nơi β là yếu tố giảm giá và nói chung, β ∈ [0, 1) để đảm bảo sự hội tụ của tổng của loạt
kỳ vọng. Chúng tôi xác định các chức năng tối ưu giá trị như


Chúng ta nói rằng một chính sách π * là tối ưu nếu nó tối đa hóa giá trị cho mỗi trạng
thái ban đầu và có thể được bắt nguồn như sau

Mặt khác, trung bình dự kiến tiêu chí khen thưởng những chân trời vơ hạn là thể hiện
như sau:
16


Tương tự như vậy, các chức năng giá trị tối ưu có thể được xác định bởi

Một chính sách π * cũng được gọi là tối ưu nếu nó tối đa hóa giá trị cho mỗi trạng thái
ban đầu và có thể thu được như sau

Ngồi hai tiêu chí trên, có một số tiêu chí khác cũng đã được nghiên cứu trong các tài
liệu của MDP như Blackwell tiêu [34], sự kết hợp của giảm giá dự kiến tiêu chí khen
thưởng và các tiêu chí thưởng trung bình dự kiến [35]. Chúng tôi làm một số tài liệu
tham khảo để đọc thêm [33, 36]. các tiêu chí sử dụng thơng qua cơng việc này là tiêu chí
khen thưởng bình qn dự kiến.
MDP đã được áp dụng cho nhiều lĩnh vực truyền thông không dây và mạng, bao gồm
điều khiển công suất và phân bổ điện năng, định tuyến mạng, nhiều truy cập và lập kế
hoạch, thiết kế và lớp chéo. Ngoài ra, MDP cũng được sử dụng rộng rãi để xây dựng các
vấn đề khác liên quan đến việc điều khiển tối ưu và ra quyết định trong các ngẫu
nhiên môi trường.

17


Chương 3
TRUYỀN DẪN VỚI KÍCH THƯỚC BỘ ĐỆM GIỚI HẠN


3.1

Giới thiêu

Chiến lược truyền cơ hội cho Wahns thảo luận trong chương trước chỉ xem xét các mơ
hình mạng với đúng kích thước bộ đệm hạn chế của 1 frame. Như một kết quả của sự
hạn chế này, bất kỳ khung đến mới có cản hiện tại một và khung hiện tại đang giảm.
Trong chương này, chúng tôi đang quan tâm đến mạng mơ hình cho các ứng dụng khơng
chậm trễ nhạy cảm. Trong các mạng như vậy, các nút sử dụng một bộ đệm để giữ một số
lượng nhất định của khung hình và chỉ cần thả khung nếu bộ đệm vượt q một số kích
thước. Trong tình huống này, bên cạnh việc điều tra về sự ảnh hưởng của giao thông và
kênh điều kiện, ảnh hưởng của chế đệm tại mỗi nút nên được đưa vào tài khoản trước khi
đưa ra quyết định cho truyền dẫn tối ưu.
Chương này đưa ra một tài khoản của thiết kế và phân tích các cơ hội truyền sơ đồ dưới
đệm kích thước hạn chế cho Wahns hoạt động trong một thời gian-độ khác nhau kênh
khơng dây. Những đóng góp của chúng tơi làm việc này là hai nếp gấp: Thứ nhất, chúng
tôi sử dụng MDP xây dựng mơ hình các chương trình BDT dưới kích thước bộ đệm hạn
chế. Trong mơ hình này, mỗi node sử dụng một bộ đệm có kích thước hạn chế để giữ
cho khung khi việc truyền dữ liệu chậm. Ngưỡng truyền tối ưu cho truyền tải thành công
là xác định dựa trên các thông tin địa phương ở người gửi và chất lượng của liên kết giữa
người gửi và người nhận. Thứ hai, chúng ta thực hiện thí nghiệm để mở rộng phân tích
hành vi của các chương trình BDT trong điều kiện mạng khác nhau, bao gồm cả cường
độ giao thơng, hạn chế kích thước bộ đệm, và tốc độ kênh. Chúng tôi xây dựng các đề án
BDT trên chuẩn IEEE 802.11 DCF để so sánh với các đồng bằng IEEE 802.11 DCF. các
mô phỏng Kết quả cho thấy rằng, kế hoạch BDT cải thiện đáng kể hiệu quả năng lượng
trong so với IEEE 802.11 trong khi đạt được so sánh thơng.
Phần cịn lại của chương này được tổ chức như sau. Trong phần 3.2, chúng tơi mơ tả
chúng tơi mơ hình hệ thống và các giả định sẽ được sử dụng trong các dẫn xuất của tối
18



ưu ngưỡng truyền. Trong phần 3.3, chúng tơi trình bày việc xây dựng MDP cho các cơ
hội chương trình truyền theo kích thước bộ đệm hạn chế. Kết quả số, cùng với các kết
quả mơ phỏng được trình bày trong Phần 3.4. Cuối cùng, chúng tôi cung cấp một thảo
luận về các kết luận trong phần 3.5.
3.2

Mơ hình hệ thống

Chúng ta hãy xem xét một WAHN trong đó mỗi node sử dụng một giao thức MAC rãnh
để truy cập một kênh chung. Chúng tôi giả định rằng các trục thời gian được chia thành
thời gian dài bằng nhau khe của Tf giây. Thời gian của khe thời gian đủ dài để
chứa truyền tải các khung điều khiển và khung dữ liệu. Bất cứ khi nào các node có một
chờ gói để gửi, nó sẽ mất một trong hai hành động sau đây: Truyền hoặc Trì hỗn, tương
ứng để truyền gói hoặc trì hỗn việc truyền tải, tương ứng, dựa trên CSI địa phương của
nó mà là thu được bằng cách sử dụng giao khung kiểm soát (CFE) (tức là Pilot /
Response khung giá).
Chúng tơi mơ hình các kênh fading Rayleigh thời gian khác nhau như một kênh Markov
K-nhà nước mô hình trong đó các giá trị SNR nhận được các kênh được phân chia thành
các quốc gia K. Hãy yk biểu thị sự ngưỡng của SNR nhận được trong đó 0 = y0 <· · · k tiếp giữa các các tiểu bang trong các mơ hình FSMC xảy ra tại ranh giới của khe thời
gian trong đó một fixedsize khung được truyền và quá trình chuyển đổi chỉ xảy ra giữa
các quốc gia lân cận, như thể hiện trong hình. 3.1. Hơn nữa, mức tăng kênh là hằng số
trong một khe thời gian của truyền. Đối với mơ hình này, quá trình chuyển đổi xác suất
giữa các quốc gia và các bit tỷ lệ lỗi tại mỗi tiểu bang của FSMC có thể được bắt nguồn
từ cơng việc trong [27].


19


Hình 3. 1: Mơ hình kênh Markov K trạng thái

Hình 3. 2: Mơ hình truyền với hồi tiếp CSI
Trong cơng trình này, chúng ta chỉ xem xét các đèn giao thơng, trong đó các khung đến
tại mỗi khe thời gian sau một phân phối Bernoulli với tham số α. Chúng tơi giả định
rằng kết quả truyền dẫn có sẵn ngay lập tức vào cuối mỗi truyền. trong mơ hình mạng,
chúng tôi giả định rằng mỗi node sử dụng một bộ đệm được giới hạn kích thước B
trong Để giữ cho các khung hình khi truyền tải của họ bị hỗn lại trong tình trạng
"xấu" của kênh như hình. 3.2.
3.3

MDP

3.3.1 Các trạng thái hệ thống
Chúng tôi chỉ tập tất cả các tiểu bang của hệ thống theo quan sát của S mà là một tập hợp
hữu hạn. Mỗi phần tử trong S được tạo thành từ một trạng thái của nút và một nhà nước
của kênh. Các si hệ thống nhà nước tại khe thời gian tôi được đưa ra như sau:

20


nơi gi là trạng thái kênh tại khe thời gian i, 0 ≤ gi thời gian i. Các trạng thái có thể có của các nút bao gồm các quốc gia đệm Idle và 2B nơi
B tương ứng với kích thước bộ đệm. Các thiết lập của tiểu bang đệm được tách thành hai
tập con tùy thuộc vào tình trạng của CFE. Hãy để tôi, Fj, và Sj (j = 1, 2, · · ·, B) biểu thị
độ Chờ, Buffer nói với CFE khơng thành cơng, và nói với đệm thành cơng CFE, tương
ứng. Các nút được cho là trong tình trạng thứ j Buffer (ký hiệu là Fj hay Sj) khi có vài

khung j trong bộ đệm và trong trạng thái nhàn rỗi khi khơng có khung là hiện nay.

3.3.2 Xác suất thay đổi
Chúng tôi biểu thị tập hợp của tất cả các cặp trạng thái hành động khả thi tại khe thời
gian tơi bởi đó có thể là Θ thể hiện như sau:

Hình 3. 3: Sơ đồ trạn thái của hệ thống BDT
21


Hãy để Pr [si + 1 | si, ai], mà đáp ứng Pr [si + 1 | si, ai] ≥ 0 với mọi (si, ai) ∈ Θ, là xác
suất chuyển đổi của hệ thống khi hệ thống được quan sát thấy trong si nhà nước tại thời
điểm khe i sau đó các hành động kiểm sốt ai được chọn và hệ thống sẽ được ở trạng thái
si + 1 tại tiếp theo khe thời gian i + 1. Pr [si + 1 | si, ai] có thể được viết như sau:

nơi P g (gi, gi + 1) là xác suất của quá trình chuyển đổi từ kênh gi bang để gi + 1 mà độc
lập với hành động kiểm soát lựa chọn, và Pt (ti, ti + 1, ai) là xác suất quá trình chuyển
đổi từ trạng thái nút ti để ti + 1 dưới tác động điều khiển được, ai. Hình 3.3 cho một hình
ảnh của sự chuyển tiếp của các bang nút khi các nút có một trong hai hành động kiểm
sốt: Truyền hoặc trì hỗn.
Các xác suất chuyển đổi của nhà nước node, Pt (ti, ti + 1, a), có thể được bắt nguồn như
sau. Khi nút được quan sát ở trạng thái nhàn rỗi, khi đến một khung mới, nó sẽ được
trong một hai trạng thái: S1 hoặc F1, chỉ tùy thuộc vào kết quả của việc truyền khung
kiểm sốt: thành cơng hay thất bại, tương ứng. P g (gi, gi + 1) có thể được cho bởi:

Đối với các trường hợp trong đó nhà nước được tham gia vào các CFE thất bại, chỉ có
hành động Trì hỗn là khả thi. Như vậy, xác suất chuyển đổi của các quốc gia liên quan
đến nút được ba yếu tố: sự xuất hiện của các khung mới, kết quả của việc truyền tải các
khung điều khiển và trạng thái hiện tại của bộ đệm. Nó có thể thu được bằng cách:


22


Khi nút được quan sát được trong trạng thái Sj (j = 1, 2, · · ·, B) tại khe thời gian tơi, nó
có thể mất một trong hai hành động: Trì hỗn hoặc Transmit dựa trên giá trị hiện tại của
CSI. Do đó, trong trường hợp này, bên cạnh ba yếu tố trên đã đề cập, xác suất chuyển
cũng phụ thuộc vào kết quả của việc truyền khung và có thể được bắt nguồn như sau:

23


nơi Pf (gi) là tỷ lệ lỗi khung khi kênh được quan sát được trong gi bang và q là xác suất
thành công của một khung Pilot / Response trao đổi. giả sử lỗi bit độc lập, tỷ lệ lỗi khung
Pf (gi) cho kích thước khung hình L và kênh gi nhà nước được cho bởi

nơi Pb (gi) là tỷ lệ lỗi bit của kênh trong gi bang.
Xác suất của một thí điểm khơng thành cơng / Response khung trao đổi có thể được bắt
nguồn như sau: Nhìn chung, các khung ứng và khung ACK có một kích thước khá nhỏ
24


×