Tải bản đầy đủ (.pdf) (45 trang)

Mô hình điều khiển markov rời rạc với thời gian hữu hạn và một ứng dụng trong lý thuyết đổi mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (336.31 KB, 45 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
KHOA TOÁN - TIN
————————–o0o————————–

LUẬN VĂN THẠC SĨ TOÁN HỌC

Tên đề tài
MÔ HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC
VỚI THỜI GIAN HỮU HẠN VÀ MỘT ỨNG DỤNG
TRONG LÍ THUYẾT ĐỔI MỚI

Chuyên ngành
Mã số
Học viên
Giảng viên hướng dẫn

:
:
:
:

Lý thuyết Xác suất và Thống kê Toán học
60.46.01.06
Nguyễn Đức Anh
TS.Nguyễn Hồng Hải

HÀ NỘI - 2017


Mục lục
Phần mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . .


Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 KIẾN THỨC CHUẨN BỊ
1.1 Giới thiệu chung về quá trình điều khiển Markov
1.1.1 Giải thích . . . . . . . . . . . . . . . . .
1.2 Các ví dụ . . . . . . . . . . . . . . . . . . . . .
1.2.1 Ví dụ về quản lí nghề cá . . . . . . . . .
1.2.2 Ví dụ danh mục đầu tư lựa chọn . . . . .
1.2.3 Ví dụ về hệ thống tồn kho - sản xuất . .
1.3 Chính xác hóa về quá trình điều khiển Markov .
1.4 Các chiến lược Markov . . . . . . . . . . . . . .
1.5 Tính chất Markov . . . . . . . . . . . . . . . . .
2 BÀI TOÁN VỚI THỜI GIAN HỮU HẠN
2.1 Giới thiệu . . . . . . . . . . . . . . . . . .
2.2 Quy hoạch động . . . . . . . . . . . . . . .
2.3 Điều kiện chọn đo được . . . . . . . . . . .
2.4 Biến thể của phương trình quy hoạch động
2.5 Bài toán giá có dạng giá tuyến tính bậc hai
2.6 Bài toán tiêu thụ - đầu tư . . . . . . . . . .
2.7 Một hệ thống tồn kho - sản xuất . . . . . .

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

6
6
6
8
8
9

10
11
14
15

.
.
.
.
.
.
.

18
18
18
21
23
26
29
31

3 MÔ HÌNH QUÁ TRÌNH ĐIỀU KHIỂN MARKOV BƯỚC
NHẢY VÀ ÁP DỤNG
3.1 Xây dựng mô hình điều khiển . . . . . . . . . . . . . . . . .
3.2 Sự tồn tại chiến lược tối ưu . . . . . . . . . . . . . . . . . .
3.3 Phương pháp xây dựng chiến lược tối ưu và chiến lược ε tối ưu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Chiến lược tối ưu và giá tối ưu trong trường hợp đại lượng
ngẫu nhiên ξ có phân phối mũ . . . . . . . . . . . . . . . .


1

3
5

34
35
36
39
41


Kết luận

43

Tài liệu tham khảo

44

2


Phần mở đầu
I. LÝ DO CHỌN ĐỀ TÀI
Trong những năm gần đây, mô hình xích Markov điều khiển được đang
được nhiều nhà toán học quan tâm nghiên cứu. Các tác giả I.I. Gikhman,
A.B. Skorokhod, Arapostathis A., Kumar R., Tangirala S., Bokar V. S,
Xi-Ren Cao, Liu P. T xét mô hình xích Markov điều khiển được với các
điều kiện mở rộng khác nhau: Mở rộng không gian trạng thái; mở rộng

không gian pha của điều khiển và xét các dạng hàm giá khác nhau. Một
số tác giả khác quan tâm nghiên cứu ứng dụng của mô hình xích Markov
điều khiển được để giải quyết các bài toán trong các lĩnh vực khác nhau
của thực tiễn. Chẳng hạn Brock W. A, Tapiero C. S, Goel., Richter N.,
Hanson F.B,.v.v..
Trong luận văn này, chúng tôi trình bày kết quả nghiên cứu về mô
hình Markov rời rạc điều khiển được với khoảng thời gian hữu hạn và ứng
dụng để giải quyết một lớp bài toán trong lí thuyết đổi mới, cụ thể là: sử
dụng mô hình quá trình Markov điều khiển được, chúng tôi đã xây dựng
mô hình và giải quyết bài toán xác định thời điểm kiểm tra tối ưu theo
quan điểm của lí thuyết các quá trình ngẫu nhiên điều khiển được. Qua
đó chúng tôi đã đưa ra phương pháp để giải quyết bài toán này, đồng thời
đưa ra các kết quả đối với mô hình quá trình Markov điều khiển được đã
được xây dựng tương ứng.

II. MỤC ĐÍCH NGHIÊN CỨU
Giới thiệu các khái niệm về mô hình điều khiển quá trình Markov
rời rạc với thời gian hữu hạn, tập trung chính vào các vấn đề: sự tồn tại
chiến lược tối ưu, xây dựng chiến lược tối ưu và nghiên cứu giá tối ưu.

III. ĐỐI TƯỢNG NGHIÊN CỨU
• Mô hình điều khiển Markov.
• Mô hình điều khiển Markov rời rạc với thời gian hữu hạn.
• Mô hình quá trình Markov bước nhảy bị điều khiển và ứng dụng.

3


IV. PHƯƠNG PHÁP NGHIÊN CỨU
• Phương pháp nghiên cứu lí luận: đọc tài liệu, sách và các bài báo liên

quan đến luận văn, tìm kiếm tài liệu trên mạng.
• Sử dụng phương pháp phân tích để nắm vững vấn đề một cách chi
tiết.
• Sử dụng phương pháp tổng hợp, tổng hợp lại các kiến thức, trình bày
vấn đề theo trình tự logic
V. CẤU TRÚC LUẬN VĂN
Nội dung của luận văn bao gồm ba chương:
Chương 1: Kiến thức chuẩn bị
Nêu ra những khái niệm, tính chất cần thiết cho các chương sau như định
nghĩa quá trình điều khiển Markov, các ví dụ về quá trình điều khiển và
định nghĩa chiến lược Markov.
Chương 2: Bài toán với thời gian hữu hạn
Chương này đưa ra định lí về quy hoạch động và các biến thể của phương
trình quy hoạch động, các điều kiện chọn đo được và bài toán tuyến tính
bậc hai.
Chương 3: Mô hình quá trình Markov bước nhảy bị điều khiển
và áp dụng
Trong chương này chúng tôi trình bày một mô hình Markov bước nhảy
bị điều khiển và ứng dụng trong lí thuyết đổi mới. Để thực hiện điều đó,
chúng tôi trình bày: xây dựng mô hình điều khiển phù hợp với bài toán
trong lí thuyết đổi mới, chứng minh sự tồn tại chiến lược tối ưu và phương
pháp xây dựng chiến lược tối ưu.

4


Lời cảm ơn
Trong quá trình học tập, nghiên cứu và hoàn thành luận văn "Mô
hình điều khiển Markov rời rạc với thời gian hữu hạn và một
ứng dụng trong lí thuyết đổi mới", chúng tôi đã nhận được sự hướng

dẫn, giúp đỡ và động viên của TS.Nguyễn Hồng Hải. Chúng tôi xin bày
tỏ lòng biết ơn chân thành đến sự hướng dẫn nhiệt tình của thầy.
Đồng thời, chúng tôi xin gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong
khoa Toán, đặc biệt là các thầy trong Bộ môn Toán ứng dụng - Trường
đại học Sư phạm Hà Nội đã mang đến cho chúng tôi những kiến thức bổ
ích trong năm học vừa qua và trong những công việc sắp tới.
Cuối cùng, chúng tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè đã
luôn ở bên chúng tôi, động viên và giúp đỡ chúng tôi trong quá trình thực
hiện đề tài nghiên cứu của mình.
Vì thời gian và trình độ có hạn, luận văn chắc chắn không thể tránh
khỏi những thiếu sót. Chúng tôi hi bọng sẽ nhận được sự đóng góp ý kiến
của các thầy cô và các bạn.
Chúng tôi xin chân thành cảm ơn!
Hà Nội, ngày 07 tháng 06 năm 2017
Nguyễn Đức Anh

5


Chương 1

KIẾN THỨC CHUẨN BỊ
1.1

Giới thiệu chung về quá trình điều khiển Markov

Mô hình điều khiển với thời gian rời rạc là bộ năm:

(X, A, {A(x)|x ∈ X}, Q, c)


(1.1)

trong đó X và A được cho trước, được gọi là không gian trạng thái và
tập điều khiển tương ứng. {A(x)|x ∈ X} là một họ các tập con khác rỗng
A(x) của A, với A(x) là tập các điều khiển khả thi ( hoặc các hành động
khả thi ) với trạng thái x ∈ X . Cuối cùng, Q là một luật chuyển đổi, và
c là một hàm chi phí mỗi giai đoạn ( hoặc hàm chi phí). Trong một số
trường hợp có thể xét hàm lãi r thay vì hàm chi phí c để thuận lợi hơn.
1.1.1

Giải thích

Mô hình điều khiển (1.1) là một mô hình ngẫu nhiên của hệ thống điều
khiển được quan sát ở thời điểm t=0, 1, 2...Trạng thái của hệ thống kí
hiệu bởi xt , còn at là điều khiển được áp dụng tại thời điểm t tương ứng,
sự phát triển của hệ thống được mô tả như sau: Nếu hệ thống ở trạng thái
xt = x ∈ X ở thời điểm t và điều khiển tại at = a ∈ A(x) được áp dụng
thì có hai điều xảy ra:
(i) chi phí c(x, a) phát sinh.
(ii) hệ thống di chuyển sang trạng thái tiếp theo xt+1 , đó là một giá trị
biến X - ngẫu nhiên với phân phối Q(·|x, a), tức là.,

Q(B|x, a) := P rob(xt+1 ∈ B|xt = x, at = a), B ⊂ X.

(1.2)

Khi qúa trình chuyển đổi sang trạng thái mới, một điều khiển mới được
chọn và quá trình này được lặp đi lặp lại. (i) và (ii) là một đặc điểm chính
của một quá trình điều khiển Markov, tức là, tại bất kì thời điểm nào, chi
phí (hoặc lãi) và các luật chuyển tiếp chỉ phụ thuộc vào trạng thái hiện

tại của hệ thống và các hành động hiện tại. Đối với thời điểm này, chúng
6


ta hãy giải thích chiến lược điều khiển như một chuỗi π = {at } của các
hành động có tính khả thi với at ∈ A(xt ), t = 0, 1, ... và gọi Π là tập hợp
của tất cả các chiến lược. Một chiến lược π và một trạng thái ban đầu
xo = x quyết định một quá trình ngẫu nhiên " dạng - Markov" được gọi
là quá trình điều khiển Markov ( MCP). Thực tế, do sự lạm dụng thuật
ngữ, toàn bộ họ của MCPs được quyết định bởi Π được gọi là một MCP.
Trong nhiều ứng dụng, sự phát triển của một MCP được xác định bởi
phương trình thời gian rời rạc có dạng:

xt+1 = F (xt , at , ξt ),

t = 0, 1, ...;

(1.3)

x0 cho trước. Trong đó, {ξt } là một chuỗi các biến ngẫu nhiên độc lập
cùng phân phối (i.i.d) với các giá trị trong không gian S và có phân phối
chung µ, độc lập với trạng thái ban đầu x0 . (Các dãy {ξt } được gọi là một
quá trình xáo trộn, nhưng thỉnh thoảng nó được gọi là một quá trình điều
khiển hoặc quá trình môi trường hoặc quá trình ngoại sinh ). Trong trường
hợp này, luật chuyển tiếp Q ở (1.2) được cho bởi:
Q(B|x, a) = µ({s ∈ S|F (x, a, s) ∈ B})
=

IB [F (x, a, s)]µ(ds)


(1.4)

S

= EIB [F (x, a, ξ)]
Trong đó, IB (.) là hàm chỉ tiêu của tập hợp B, E là kì vọng, và ξt là biến
ngẫu nhiên với phân phối chung µ.
Quan sát (1.3), trong trường hợp đặc biệt, hệ thống điều khiển tất định
là xt+1 = F (xt , at ), luật chuyển tiếp (1.4) sẽ trở thành
Q(B|x, a) = IB [F (x, a)]
.
Như đã lưu ý, để xác định một vấn đề điều khiển tối ưu, ngoài một hệ thống
hành dộng và tập hợp những chiến lược, chúng ta cần một hiệu suất tiêu
chuẩn - còn được gọi là chỉ số hiệu suất hoặc hàm chỉ tiêu. Trong trường
hợp của chúng ta, một tiêu chuẩn hiệu suất điển hình là dự kiến tổng chi
phí lên tới thời gian nhất định N , đó là,
N

JN (π, x) :=

Exπ

c(xt , at )

(1.5)

t=0

Trong đó Exπ là kì vọng lấy theo độ đo xác suất cảm sinh của quá trình
{Xk |k = 0, 1, 2...} khi sử dụng chiến lược π = {at }, với trạng thái ban

đầu xo = x. Một chiến lược π ∗ sao cho

JN (π ∗ , x) = inf JN (π, x),
7

∀x ∈ X

(1.6)


được gọi là một chiến lược tối ưu, với chi phí tối thiểu (1.6), tức là:
JN∗ (x) := inf JN (π, x), ∀x ∈ X ,
được gọi là hàm giá của bài toán điều khiển hoặc chi phí tối ưu.
Số N trong (1.5) được gọi là sự kế hoạch hóa ( hoặc tối ưu hóa ) thời
gian. Nó đại diện cho số giai đoạn trong đó hệ thống sẽ được vận hành, và
nó có thể là hữu hạn hoặc vô hạn. Trong trường hợp đầu, bài toán trên
được coi là một bài toán với thời gian hữu hạn, và trong trường hợp sau
nó là bài toán với thời gian vô hạn. Tất nhiên, nếu N = +∞, thì tổng
trong (1.5) có thể không hội tụ - ít nhất đối với một số chiến lược π . Hàm
giá JN (π, x) trong (1.5) được gọi là giá tổng chi phí. Ngoài ra người ta còn
xét giá dạng suy giảm theo thời gian:
N

V (π, x) :=

Exπ

αt c(xt , at ) + CN (xN , aN )

(1.7)


t=0

trong đó α ( 0 < α < 1) được gọi là một tham số suy giảm hay còn gọi là
tỷ lệ chiết khấu.
Cuối cùng, nếu chi phí mỗi giai đoạn c(x, a) được thay thế bằng lãi mỗi
giai đoạn r (x, a), thì kết quả điều khiển tối ưu để tối đa hóa các tiêu
chuẩn chất lượng nhất định.

1.2
1.2.1

Các ví dụ
Ví dụ về quản lí nghề cá

Hãy xem xét một số lượng cá. Ví dụ, cá hồi, trong bất cứ mùa nào cũng
có thể bị bắt và phần còn lại sẽ đẻ trứng cho mùa tới. Như vậy, trong bất
kỳ mùa nào, trạng thái x của hệ thống là quy mô dân số, và hành động a
là dân số được để lại để đẻ trứng. Trong trường hợp này, một giai đoạn "
lãi " là bắt hoặc thu hoạch r(x, a) := x − a, và mô hình tăng trưởng dân
số được giả định là hình thức (gọi là mô hình Ricker)

xt+1 = θ1 at · exp(−θ2 at + ξt ), t = 0, 1, 2, ...

(1.8)

Trong đó θ1 và θ2 là các hằng số, và {ξt } là một chuỗi các biến ngẫu nhiên
i.i.d.
Để xác định một mô hình điều khiển Markov trong (1.8), chúng ta có
thể lấy không gian trạng thái và hành động là X = A = R+ , trong đó

R+ := [0, ∞). Khi dân số còn lại cho sinh sản không vượt quá tổng quy
mô dân số, tập các hành động khả thi là A(x) := [0, x] mỗi khi hệ thống
đang ở trạng thái x. Với sự phân bố xác suất của các biến "môi trường" ξt ,
8


luật của quá trình chuyển đổi Q được xác định bởi (1.8), như trong (1.3)
- (1.4).
1.2.2

Ví dụ danh mục đầu tư lựa chọn

Ví dụ này liên quan đến các vấn đề phải đối mặt của một "nhà đầu tư
nhỏ" (nghĩa là một đại lý kinh tế mà hành động không thể ảnh hưởng đến
giá cả thị trường), người có quyền quyết định chiến lược tiêu thụ đầu tư
tốt nhất, ông ấy / bà ấy muốn phân bổ tổng mức đầu tư các tài sản khác
nhau với mức giá khác nhau. Chúng ta xem xét hai tài sản: một trong số
đó là tài sản phi rủi ro hay an toàn (ví dụ, một trái phiếu) với một lãi suất
cố định i, và một tài sản khác là một tài sản rủi ro (cổ phiếu) với một tỷ
suất lợi nhuận ngẫu nhiên ξt đầu tư tại thời điểm t. Một chiến lược tiêu
thụ đầu tư là một chuỗi π = {(pt , ct ), t = 0, 1, ...} bao gồm một quá trình
danh mục vốn đầu tư {pt } và một quá trình tiêu thụ {ct }. Đó là, tại mỗi
thời điểm t, pt (resp.1 − pt ) là hàm của tài sản đầu tư vào các cổ phiếu,
(resp là các tài sản an toàn.) và ct là số lượng tài sản tiêu thụ; chúng phải
thỏa mãn các hạn chế

0 ≤ pt ≤ 1,

0 ≤ ct ≤ 1


(1.9)

trong đó xt biểu thị tài sản của nhà đầu tư tại thời điểm t. Như vậy, trạng
thái hay tài sản quá trình xt phát triển theo phương trình

xt+1 = [(1 − pt )(1 + i) + pt ξt ](xt − ct ),

t = 0, 1, ...,

(1.10)

với tài sản ban đầu x0 = x > 0.
Trong ví dụ này, chúng ta có thể đưa ra không gian trạng thái X := R+
và điều khiển A := [0, 1] × R+ . Từ (1.9), các tập điều khiển khả thi
a = (p, c) là A(x) := [0, 1] × [0, x] bất cứ khi nào trạng thái hay tài sản
là x. Giả sử {ξt } là một chuỗi các biến ngẫu nhiên i.i.d. với phân phối µ,
luật chuyển đổi Q được xác định từ (1.10), như trong (1.3) - (1.4). Cuối
cùng, để hoàn thành các đặc điểm kỹ thuật của một mô hình điều khiển
trong (1.1), chúng ta giới thiệu một hàm lãi r(x, a) (thay vì một hàm chi
phí c). Một sự lựa chọn tiêu biểu của r trong kinh tế tài chính như một
"lợi ích từ tiêu dùng", tức là, với a = (p, c) ∈ A(x),

r(x, a) := u(c),

(1.11)

trong đó u là một hàm "lợi ích" nhất định. Do đó, ví dụ, hiệu suất chỉ số
trong (1.7) - thay thế c bởi r trong (1.11) - trở thành tổng dự kiến tiện
ích chiết khấu từ sự tiêu thụ, và vấn đề điều khiển tối ưu tương ứng là để
tối đa hóa tiêu chuẩn này trong tập tất cả chiến lược tiêu thụ đầu tư thỏa

mãn (1.9).
9


1.2.3

Ví dụ về hệ thống tồn kho - sản xuất

Hãy xem xét một hệ thống hàng tồn kho - sản xuất trong đó biến trạng
thái xt là mức tồn kho bắt đầu của thời kỳ t (t = 0, 1, ...). Biến điều khiển
hoặc biến hành động at là số lượng đặt hàng (hoặc sản xuất) và ngay lập
tức được cung cấp ngay từ đầu thời kỳ t, và "nhiễu loạn" hay "ngoại sinh"
biến ξt là nhu cầu trong thời gian đó. Chúng ta giả sử ξt là biến ngẫu nhiên
i.i.d. Các dạng của phương trình hệ thống phụ thuộc vào các giả thiết. Ví
dụ, nếu hệ thống có một sức chứa vô hạn và nhu cầu không được hoàn
thành ở cuối mỗi giai đoạn đã mất, thì phương trình hệ thống là

xt+1 = max(0, xt + at − ξt ),

t = 0, 1, ...,

(1.12)

và chúng ta có thể coi không gian trạng thái và không gian hành động là
X = A = A(x) = R+ với mọi x ∈ X . Tuy nhiên, nếu hệ thống có công
suất C hữu hạn, phương trình hệ thống sẽ trở thành (1.12), nhưng X và
A trở thành X = A = [0, C], vì tài sản hiện tại cộng với số tiền đặt hàng
không thể vượt quá năng lực của hệ thống, tập các hành động khả thi là
A(x) = [0, C − x] cho mỗi x ∈ X . Mặt khác, chúng ta có thể cho phép
mức tồn kho "âm" bằng cách giả sử rằng số lượng đơn hàng yêu cầu vượt

quá đơn hàng chưa được xử lí và đơn hàng đã được đáp ứng khi hàng tồn
kho bổ sung sẵn sàng . Trong trường hợp này, thay vì (1.12), chúng ta có

xt+1 = xt + at − ξt ,

t = 0, 1, ...,

(1.13)

và không gian trạng thái là X = R hoặc X = (−∞, C], dù công suất của
hệ thống là vô hạn hay hữu hạn. Tương tự như vậy, các chỉ số hiệu suất có
thể có các dạng khác nhau. Ví dụ, nếu chúng ta muốn tối đa hóa doanh
thu dự kiến cho hoạt động của hệ thống, chúng ta có thể lấy lưới doanh
thu ở giai đoạn t là

r(xt , at , ξt ) := s · min(ξt , xt + at ) − d · at − h · (xt + at )

(1.14)

Doanh thu bán hàng bằng doanh số bán hàng trừ đi chi phí sản xuất và
trừ đi chi phí đang giữ. Trong (1.14), s, d, h là các số dương biểu thị đơn
giá bán, chi phí sản xuất và đơn vị giữ chi phí tương ứng. Mặt khác, chúng
ta có thể giảm thiểu chi phí vận hành dự kiến. Ví dụ, trong (1.13), cho
phép hàng tồn kho âm, điển hình một giai đoạn hàm chi phí là

c(xt , at , ξt ) = d · at + h · max(0, xt+1 ) + p · max(0, −xt+1 )

(1.15)

trong đó d là chi phí các đơn vị sản xuất (hoặc sức mua), h là đơn vị nắm

giữ chi phí cho hàng tồn kho dư thừa, và p là chi phí thiếu hụt (hoặc chi
phí xử phạt) dành cho yêu cầu chưa được hoàn thành. Với bất kì phương
10


trình hệ thống và lãi hoặc hàm chi phí nào chúng ta có, chúng ta cũng có
thể viết các mô hình theo dạng (1.1). Đặc biệt, viết các chi phí (1.15) dưới
dạng c(x, a), mà chỉ phụ thuộc vào trạng thái và điều khiển nhưng không
phải trên các biến xáo trộn, chúng ta có thể định nghĩa

c(x, a) := E[c(xt , at , ξt )|xt = x, at = a]
=

c(x, a, s)µ(ds)

trong đó µ là kí hiệu phân bố của ξ .

1.3

Chính xác hóa về quá trình điều khiển Markov

Trước khi định nghĩa quá trình điều khiển Markov, ta có một số quy
ước và ký hiệu sau:
Không gian Borel: X là một không gian Borel nếu X là tập Borel con
của một không gian metric đầy, khả ly. σ− đại số Borel sinh bởi các tập
con mở của X ký hiệu là B(X).
Hàm đo được: Xét hai không gian đo (X, B(X)) và (E, B(E)). Một hàm
số f : X → E gọi là đo được hay là "Borel đo được" nếu f −1 (A) ∈ B(X)
với mọi A ∈ B(E)
Hạt nhân ngẫu nhiên: Cho X và Y là hai không gian Borel. Một hạt

nhân ngẫu nhiên trên X được cho bởi Y là một hàm số P (.|.) thỏa mãn 2
điều kiện sau:
(i) P (.|y) là một độ đo xác suất trên X với mọi y ∈ Y cố định.
(ii) P (B|.) là hàm số đo được trên Y với mọi B ∈ B(X) cố định.
Lớp tất cả các hạt nhân ngẫu nhiên trên X được cho bởi Y được ký hiệu
là P(X|Y ).

Định nghĩa 1.3.1. Một mô hình điều khiển là bộ gồm 5 tham số
(X, A, {A(x)|x ∈ X}, Q, c).

(1.16)

bao gồm
(a) Một không gian X , X được gọi là không gian trạng thái và mỗi phần
tử thuộc X gọi là một trạng thái.
(b)A là một không gian Borel được gọi là tập điều khiển hoặc tập hành
động.
(c)Họ {A(x)|x ∈ X} khác rỗng các tập đo được A(x) của A, trong đó

11


A(x) kí hiệu là tập hợp điều khiển được hoặc những hành động khi hệ
thống ở trạng thái x ∈ X và với tính chất đó thì tập
K := {(x, a)|x ∈ X, a ∈ A(x)}

(1.17)

là tập các cặp trạng thái và hành động đo được, là tập con đo được của
không gian X × A.

(d) Một hạt nhân ngẫu nhiên Q từ X vào K, được gọi là luật chuyển
tiếp;
(e)Một hàm đo được c : K → R được gọi là hàm giá ( hoặc hàm chi phí
mỗi giai đoạn).
Trong một số trường hợp để thuận tiện thì ta có thể xem một hàm lãi mỗi
giai đoạn là r : K → R thay vì hàm giá c. Hơn nữa, chúng ta đảm bảo
rằng tập hợp các chiến lược điều khiển là không rỗng. Vì vậy, ngoài tập
K ⊂ X × A đo được, chúng ta có giả thiết sau đây.

Giả thiết 1.3.2. K chứa đồ thị của những hàm số đo được từ X vào
A, đó là có một hàm số đo được f : X → A sao cho f (x) ∈ A(x) với
∀x ∈ X .
Chiến lược: Xem xét mô hình điều khiển trong định nghĩa 1.3.1 và với
mỗi t = 0, 1, ... định nghĩa không gian Ht của quá khứ chấp nhận được cho
đến thời điểm t khi H0 := X , và
Ht := Kt × X = K × Ht−1 ,

t = 1, 2, ...

(1.18)

trong đó K là tập trong (1.17). Mỗi phần tử ht của Ht được goi là một t quá khứ chấp nhận được hoặc đơn giản ta gọi là t - quá khứ, là một vectơ
có dạng:
ht = (x0 , a0 , ..., xt−1 , at−1 , xt ),
(1.19)
với (xi , ai ) ∈ K với i = 0, 1, ..., t − 1 và xt ∈ X . Để đảm bảo rằng các điều
kiện phần sau được dùng đến, ta xét không gian compact:

H t := (X × A)t × X = (X × A) × H t−1 ,


t = 1, 2, ...

(1.20)

và H 0 := H0 = X.

Định nghĩa 1.3.3. Một chiến lược điều khiển ngẫu nhiên - hay nói
ngắn gọn là một chiến lược điều khiển hoặc một chiến lược là một dãy
π = {πt , t = 0, 1, 2, ...} với hạt nhân ngẫu nhiên πt trên tập điều khiển A
được cho bởi Ht thỏa mãn điều kiện sau:
πt (A(xt )|ht ) = 1, ∀ht ∈ Ht , t = 0, 1, ...
12

(1.21)


Ký hiệu tập hợp tất cả những chiến lược bằng Π.
Trong phần tiếp theo, chúng ta sẽ giới thiệu một số lớp con quan trọng
của tập các chiến lược
Một chiến lược π = {πt } có thể được xác định rõ ràng khi biết một
dãy con {at } của tập các hành động A, sao cho, với mọi t - quá khứ ht
trong (1.19) và t = 0, 1, ..., phân phối của at là πt (.|ht ), bởi (1.21), được
tập trung trên A(xt ), tập hợp các hành động thực hiện được ở trạng thái
xt . Giải thích này của π được thực hiện trong phương trình (1.22b).
Xây dựng chính tắc. Cho (Ω, F) là không gian đo được bao gồm không
gian mẫu Ω := H ∞ = (X × A)∞ và F là σ - đại số. Những phần tử của
Ω là các dãy con có dạng ω = (x0 , a0 , x1 , a1 , ...) với xt ∈ X và at ∈ A với
mọi t = 0, 1, .... Ta thấy H∞ = K∞ ⊂ Ω.
Cho π = {πt } là một chiến lược điều khiển tùy ý và ν là độ đo xác suất
tùy ý trên X được gọi là "phân phối ban đầu".

Kí hiệu Pνπ là độ đo xác suất trên Ω cảm sinh bởi chiến lược π =
(π1 , π2 , ...) với điều kiện ν . Vì thế, từ định lý Ionescu - Tulcea tồn tại duy
nhất một độ đo xác suất Pνπ trên không gian (Ω, F), thỏa mãn Pνπ (H∞ ) = 1
và hơn thế nữa với mọi B ∈ B(X), C ∈ B(A) và ht ∈ Ht , t = 0, 1, 2, ... :

Pνπ (x0 ∈ B) = ν(B)
Pνπ (at ∈ C|ht ) = πt (C|ht )
Pνπ (xt+1 ∈ B|ht , at ) = Q(B|xt , at )

(1.22a)
(1.22b)
(1.22c)

Định nghĩa 1.3.4. Quá trình ngẫu nhiên (Ω, F, Fνπ , {xt }) được gọi là
một quá trình điều khiển Markov thời gian rời rạc (hoặc quá trình quyết
định Markov ).
Quá trình {xt } trong định nghĩa 1.3.4 phụ thuộc vào chiến lược cụ thể
π và phân phối ban đầu ν . Vì thế, nói theo cách khác, chúng ta nên viết
xπ,ν
thay cho xt . Tuy nhiên,chúng ta sẽ giữ ký hiệu đơn giản xt và ngầm
t
hiểu rằng nó phụ thuộc vào π và ν .
Mặt khác, chúng ta đôi khi coi họ {(Ω, F, Fνπ , {xt })|π ∈ Π} có thể thay
thế cho ν như Quá trình điều khiển Markov (MCP). Họ này cùng với
việc thực hiện các tiêu chuẩn tối ưu được gọi là một Bài toán điều khiển
Markov.
Kỳ vọng của Pνπ được ký hiệu là Eνπ . Đặc biệt, nếu ν chỉ tập trung tại
"trạng thái ban đầu" x ∈ X thì ta viết Pxπ thay cho Pνπ và Exπ thay cho
Fνπ .
Phương trình (1.22c) như là một điều kiện Markov, nhưng tất nhiên,

nói chung quá trình trạng thái {xt } là không có tính Markov theo nghĩa
thông thường. Tuy nhiên, nếu π được hạn chế trên một dãy con thích hợp
13


của chiến lược (gọi là chiến lược Markov) thì {xt } trở thành một quá trình
Markov.

1.4

Các chiến lược Markov

Định nghĩa 1.4.1. Φ là ký hiệu tập hợp tất cả các hạt nhân ngẫu nhiên
ϕ trong P(A|X) sao cho ϕ(A(x)|x) = 1 với mọi x ∈ X , và F là tập hợp
tất cả các hàm số đo được f : X → A thỏa mãn f (x) ∈ A(x) với mọi
x ∈ X , những hàm số trong F được gọi là một bộ chọn từ x → A(x).
Chú ý. Từ giả thiết 1.3.2 đảm bảo rằng F = ∅ và Φ = ∅
Một hàm số f ∈ F có thể được xác định với một hạt nhân ngẫu nhiên
ϕ ∈ Φ, vì thế ϕ(·|x) là đo được Dirac tại f (x) với ∀x ∈ X ,
∀x ∈ X, C ∈ B(A)

ϕ(C|x) = IC [f (x)],

ở đó IC là hàm chỉ tiêu của C . Vì thế, chúng ta có thể thấy rằng F là một
tập con của Φ,
F ⊂ Φ.
(1.23)

Định nghĩa 1.4.2. Một chiến lược π = {πt } ∈ Π được gọi là một:
(a) Một chiến lược Markov ngẫu nhiên nếu tồn tại một dãy {ϕt } các hạt

nhân ngẫu nhiên ϕt ∈ Φ sao cho:
πt (·|ht ) = ϕt (·|xt ),

∀ht ∈ Ht ,

t = 0, 1, ...;

(1.24)

(b)Một chiến lược ngẫu nhiên dừng nếu tồn tại một hàm ϕ ∈ Φ sao cho

πt (·|ht ) = ϕ(·|xt ),

∀ht ∈ Ht ,

t = 0, 1, ...;

Tập tất cả các chiến lược Markov ngẫu nhiên ký hiệu là ΠRM , tập hợp tất
cả các chiến lược ngẫu nhiên dừng ký hiệu là ΠRS . Ghi chú rằng

ΠRS ⊂ ΠRM ⊂ Π
Hơn nữa, π = {πt } ∈ Π được gọi là một
(c)Chiến lược tất định là nếu tồn tại một dãy {gt } mà {gt } là dãy các
hàm số đo được gt : Ht → A sao cho với mọi ht ∈ Ht và với mọi t = 0, 1, ...
thì gt (ht ) ∈ A(xt ) và πt (·|ht ) trùng gt (ht ), tức là

πt (C|ht ) = IC [gt (ht )],

∀C ∈ B(A)


(d)Một chiến lược Markov tất định nếu tồn tại một dãy {ft } ∈ F sao cho
πt (·|ht ) trùng ft (xt ) ∈ A(xt ) với mọi ht ∈ Ht và với mọi t = 0, 1, ...,
(e)Một chiến lược tất định dừng nếu tồn tại một hàm số f ∈ F sao cho
πt (·|ht ) trùng f (xt ) ∈ A(xt ) với mọi ht ∈ Ht và với mọi t = 0, 1, ...,
14


Đặt ΠD , ΠDM , ΠDS lần lượt là tập hợp tất cả các chiến lược xác định,
Markov xác định và xác định dừng, khi đó ta có:

ΠDS ⊂ ΠDM ⊂ ΠD ⊂ Π
Chú ý 1.4.3.
(a) Nếu π ∈ ΠRM là một chiến lược Markov ngẫu nhiên và {ϕt } là một
hạt nhân ngẫu nhiên thỏa mãn định nghĩa πt (·|ht ) = ϕt (.|xt ) thì chúng ta
sẽ viết π = {ϕt } thay vì π = {πt }, ngoài ra nếu π ∈ ΠRS và ϕ ∈ Φ thỏa
mãn πt (·|ht ) = ϕ(·|xt ) thì chúng ta sẽ viết π thành ϕ∞ . Tương tự, những
chiến lược được định nghĩa 1.4.2 (c), (d), (e), chúng ta sẽ viết π như {gt };
{ft } và f ∞ nếu π thuộc ΠD , ΠDM , ΠDS . (Một số tác giả ký hiệu ΠRS với
Φ và ΠDS với F, vì thế họ viết ϕ∞ thay cho ϕ và f ∞ thay cho f ).
(b) Giả sử F và Φ là những tập đã được định nghĩa 1.4.1 và c là một
hàm giá và Q là một luật chuyển tiếp. Chúng ta xác định, với mọi x ∈ X ,
c(x, ϕ) :=

c(x, a)ϕ(da|x)

(1.25)

Q(·|x, a)ϕ(da|x)

(1.26)


A



Q(·|x, ϕ) :=
A

Trên thực tế, cho một hàm số f ∈ F(⊂ Φ) thì công thức (1.22) và (1.26)
trở thành:
c(x, f ) = c(x, f (x))


Q(B|x, f ) = Q(B|x, f (x))
Chú ý rằng mỗi hàm số đều đo được với x ∈ X . Đó là nguyên nhân chỉ
ra rằng tại sao những hạt nhân ngẫu nhiên đều cần thiết phải đo được,
một điều kiện tầm thường thỏa mãn với những không gian đo X và A.
Chúng ta sẽ nhắc lại định nghĩa về quá trình Markov với thời gian rời
rạc và chỉ ra các kết quả khi sử dụng một chiến lược Markov điều khiển
quá trình Markov.

1.5

Tính chất Markov

Giả sử {Rt } là một dãy hạt nhân ngẫu nhiên cho trước thuộc P(X|X),
và giả sử {yt } là một X - giá trị ngẫu nhiên của quá trình. Thì {yt } được
gọi là một quá trình Markov không thuần nhất với hạt nhân chuyển {Rt }
nếu với mọi B ∈ B(X) và t = 0, 1, 2, ... thì


P (yt+1 ∈ B|y0 , ..., yt ) = P (yt+1 ∈ B|yt ) = Rt (B|yt )
15

(1.27)


Phương trình (1.27) được gọi là tính Markov (có thể nói, (1.27) cố định
P - hầu chắc chắn với P là độ đo xác suất trên không gian mà {yt } được
định nghĩa. Tuy nhiên, trừ khi xác định trên một không gian khác, chúng
ta luôn hiểu là "P - hầu chắc chắn" khi quyết định các điều kiện về xác
suất).
Nếu Rt là bất biến đối với hạt nhân ngẫu nhiên cho trước R ∈ P(X|X)
thì dãy {yt } được gọi là một quá trình Markov thuần nhất với hạt nhân
chuyển R.

Mệnh đề
Giả sử ν là một phân phối ban đầu tùy ý. Nếu π = {ϕt } là một chiến
lược Markov ngẫu nhiên (tức là π ∈ ΠRM ) thì {xt } là một quá trình
Markov không thuần nhất với hạt nhân chuyển {Q(·|·, ϕt )}, có nghĩa là
điều kiện (1.27) trở thành, với B ∈ B(X) và t = 0, 1, ... thì

Pνπ (xt+1 ∈ B|x0 , ..., xt ) = Pνπ (xt+1 ∈ B|xt ) = Q(B|xt , ϕt )

(1.28)

Trên thực tế, nếu π = {ft } ∈ ΠDM là một chiến lược Markov xác định,
(1.28) thỏa mãn cho hạt nhân chuyển Q(·|·, ft ). Hơn thế, với chiến lược
dừng ϕ∞ ∈ ΠRS và f ∞ ∈ ΠDS , thì {xt } là quá trình Markov thuần nhất
theo thời gian với hạt nhân chuyển {Q(·|·, ϕ)} và {Q(·|·, f )}.
Chứng minh. Giả sử với chiến lược ban đầu tùy ý π = {ϕt }, ta chứng

minh:
Pνπ (xt+1 ∈ B|ht ) =
Q(B|xt , at )πt (dat |ht )
(1.29)
A

với mọi B ∈ B(X) và t = 0, 1, .... Với các tính chất của kỳ vọng điều kiện
ta có:

Pνπ (xt+1 ∈ B|ht ) = Eνπ [Pνπ (xt+1 ∈ B|ht , at )|ht ]
= Eνπ [Q(B|xt , at )|ht ] [(1.22c)]
Q(B|xt , at )πt (dat |ht ) [(1.22b)]

=
A

Vậy ta chứng minh được (1.29).
Đặc biệt, nếu π = {ϕt } là một chiến lược Markov ngẫu nhiên, π ∈ ΠRM
thì (1.29) trở thành:

Pνπ (xt+1 ∈ B|ht ) =

Q(B|xt , at )ϕt (dat |xt ) = Q(B|xt , ϕt )
A

16

(1.30)



bởi vì công thức (1.26) cách xác định Q(·|x, ϕ). Như vậy, đặt xt0 :=
(x0 , x1 , ..., xt ), khi đó vế trái của (1.28) có thể viết thành:

Pνπ (xt+1 ∈ B|xt0 ) = Eνπ [Pνπ (xt+1 ∈ B|ht )|xt0 ]
= Eνπ [Q(B|xt , ϕt )|xt0 ]
= Q(B|xt , ϕt )
Tương tự, trong trường hợp này (1.28) thỏa mãn:

Pνπ (xt+1 ∈ B|xt ) = Eνπ [Pνπ (xt+1 ∈ B|ht )|xt ]
= Eνπ [Q(B|xt , ϕt )|xt ]
= Q(B|xt , ϕt )
Vậy ta có điều phải chứng minh.

17


Chương 2

BÀI TOÁN VỚI THỜI GIAN
HỮU HẠN
2.1

Giới thiệu

Trong chương này, chúng ta xem xét các mô hình điều khiển Markov

(X, A, {A(x)|x ∈ X} , Q, c)

(2.1)


giới thiệu trong định nghĩa 1.3.1, và vấn đề điều khiển chúng ta quan tâm
ở đây là cực tiểu hóa tiêu chuẩn thực hiện với thời gian hữu hạn
N −1

J(π, x) :=

Exπ

c(xt , at ) + cN (xN )

(2.2)

t=0

với cN là hàm chi phí cuối cùng, một hàm đo được đưa ra trên X. Do đó,
hàm giá trị biểu thị bởi J ∗ , tức là,

J ∗ (x) := inf J(π, x),
vấn đề là phải tìm một chiến lược π ∗ ∈
J(π ∗ , x) = J ∗ (x),

2.2

x∈X

(2.3)


∀x ∈ X


Quy hoạch động

Định lý 2.2.1. Cho Jo , J1 , ..., JN là các hàm được định nghĩa trên X (
hoặc là theo chiều ngược lại, từ t = N tới t = 0) bởi
JN (x) := cN (x),

(2.4)

và cho t = N − 1, N − 2, ..., 0,

Jt (x) := min c(x, a) +
A(x)

Jt+1 (y)Q(dy|x, a)
X

18

(2.5)


Giả sử rằng những hàm đó là đo được và với mỗi t = 0, ..., N − 1, đó là
một hàm chọn ft ∈ F sao cho ft (x) ∈ A(x) đạt được cực tiểu trong (2.5)
với mọi x ∈ X ; đó là, ∀x ∈ X và t = 0, ..., N − 1,

Jt (x) := c(x, ft ) +

Jt+1 (y)Q(dy|x, ft )

(2.6)


Khi đó chiến lược π ∗ = {0, ..., fN −1 } là tối ưu, và hàm giá J ∗ bằng Jo , tức
là,
J ∗ (x) = Jo (x) = J(π ∗ , x), ∀x ∈ X.
(2.7)
Chứng minh. Đặt π = {πt } là một chiến lược bất kì và đặt Ct (π, x) là tổng
chi phí dự kiến tương ứng từ thời điểm t đến thời điểm cuối N, căn cứ vào
trạng thái xt = x tại thời điểm t, tức là nếu t = 0, 1, ...N − 1
N −1

Ct (π, x) := E

π

c(xn , an ) + cN (xN )|xt = x

(2.8)

n=t
π

CN (π, x) := E [cN (xN )|xN = x] = cN (x)

(2.9)

Ct (π, x) được gọi là "chi phí đi" hoặc chi phí từ thời điểm t trở đi khi sử
dụng chiến lược π và xt = x. Đặc biệt, lưu ý rằng từ (2.2)
J(π, x) = C0 (π, x)

(2.10)


Để chứng minh định lý, chúng ta thấy rằng, với mọi x ∈ X và t = 0, ...,
N,
Ct (π, x) ≥ Jt (x)
(2.11)
với π = π ∗ , tức là,

Ct (π ∗ , x) = Jt (x)

(2.12)

Đặc biệt, đối với t = 0
J(π, x) ≥ J0 (x), với J(π ∗ , x) = J0 (x) ∀x
trong đó lợi nhuận mong muốn (2.7), với J(π, ·) ≥ J0 (x) cho tùy ý π sao
cho J ∗ (·) ≥ J0 (·).
Sự chứng minh của (2.11) - (2.12) là phép quy nạp ngược. Chú ý rằng
(2.11) - (2.12) một cách tầm thường giữ cho t = N , từ (2.9) và (2.4),
CN (π, x) = JN (x) = cN (x)
Bây giờ chúng ta giả sử đối với một số t = N − 1, ..., 0,

Ct+1 (π, x) ≥ Jt+1 (x), x ∈ X.

19

(2.13)


Sau đó, từ (2.8) và (1.22b) - (1.22c),
N −1


Ct (π, x) = E

π

c(xt , at ) +

c(xn , an ) + cN (xN )|xt = x
(2.14)

n=t+1

=

c(x, a) +
A

Ct+1 (π, y)Q(dy|x, a) πt (da|x);
X

Do đó,

Ct (π, x) ≥

c(x, a) +

Jt+1 (y)Q(dy|x, a) πt (da|x)

A

X


≥ min c(x, a) +
A(x)

Jt+1 (y)Q(dy|x, a)
X

=: Jt (x)
Điều này chứng minh ở (2.11).
Chú ý 2.2.2. Nhận xét (2.11) và (2.12) đưa ra rằng Jt là hàm giá tối ưu
từ t tới N , tức là:

Jt (x) = inf Ct (π, x) ∀x ∈ X,

t = 0, ..., N,

(2.15)

vì vậy trong (2.4) - (2.5) chúng ta tính toán một cách thực tế, ở mỗi thời
điểm t (t = 0, ..., N ), hàm giá tối ưu ( tức là nhỏ nhất) từ thời điểm t trở
đi. Với sự giải thích này của Jt chúng ta có thể dễ dàng lấy từ (2.4) - ( 2.5).
Thật vậy, đặt π = {πt , ..., πN −1 } là một chiến lược sao cho πt = f ∈ F là
hàm chọn tùy ý và {πt+1 , ..., πN −1 } là một chiến lược tối ưu cho vấn đề từ
t + 1 tới N . Khi đó cho (2.14)

Ct (π, x) = c(x, f ) +

Jt+1 (y)Q(dy|x, f )

≥ min c(x, a) +


Jt+1 (y)Q(dy|x, a)

A(x)

(2.16)

∀x;

Do đó,

Jt (x) ≥ min c(x, a) +
A(x)

Jt+1 (y)Q(dy|x, a)

Để có trường hợp ngược lại, ta lưu ý (2.15) và (2.16)

Jt (x) ≤ c(x, f ) +

Jt+1 (y)Q(dy|x, f )

,

bao gồm

Jt (x) ≤ min c(x, a) +
A(x)

Jt+1 (y)Q(dy|x, a)


với f tùy ý. Điều này chứng minh tại (2.5), và tất nhiên (2.4) là hiển nhiên.
20


2.3

Điều kiện chọn đo được

Giả thiết 2.3.1
Mô hình điều khiển Markov và một hàm đo được u : X → R sao cho:
u∗ (x) := inf c(x, a) +
A(x)

u(y)Q(dy|x, a) ,

x∈X

(2.17)

X

là đo được và tồn tại hàm chọn f ∈ F sao cho hàm đạt cực tiểu tại
f (x) ∈ A(x) với mọi x, tức là

u∗ (x) = c(x, f ) +

u(y)Q(dy|x, f ),

∀x ∈ X.


X

Nếu giả thiết 2.3.1 thỏa mãn, thì trong (2.17) chúng ta sẽ viết "min"
(cho cực tiểu) thay cho "inf".

Điều kiện 2.3.2
(a) Tập hạn chế điều khiển A(x) là compact với mọi x ∈ X .
(b) Hàm một giai đoạn c là c(x, ·) là l.s.c ( nửa liên tục dưới) trên A(x)
với mỗi x ∈ X ;
(c) Hàm v (x, a) :=

v(y)Q(dy|x, a) trên K thỏa mãn một trong hai
X

điều kiện sau:
(c1) v (x, ·) là l.s.c trên A(x) với mỗi x ∈ X và hàm bị chặn liên
tục v trên X.
(c2) v (x, ·) là l.s.c trên A(x) với mỗi x ∈ X và hàm bị chặn đo
được v trên X.

Điều kiện 2.3.3
(a) A(x) là compact với mọi x ∈ X , và hàm tập x → A(x) là u.s.c (nửa
liên tục trên);
(b)Chi phí mỗi giai đoạn c là l.s.c và bị chặn dưới.
(c) Luật chuyển Q hoặc là:
(c1) Liên tục yếu, tức là, v (x, a) :=

v(y)Q(dy|x, a) là liên tục


và bị chặn trên K với mỗi hàm liên tục và bị chặn v trên X, hoặc là
(c2) Liên tục mạnh, tức là, v là liên tục và bị chặn trên K với
mỗi hàm bị chặn đo được v trên X.
Trong điều kiện 2.3.4, chúng ta sử dụng định nghĩa sau đây: Một hàm
v : K → R được gọi là một inf - compact trên K nếu với mỗi x ∈ X và
r ∈ R, tập {a ∈ A(x)|v(x, a) ≤ r} là compact.

21


Điều kiện 2.3.4
(a) Chi phí mỗi giai đoạn c là l.s.c., bị chặn dưới, và inf - compact trên
K;
(b) Giống như 2.3.3 (c), đó là, Q hoặc là:
(b1) Liên tục yếu, hoặc
(b2) Liên tục mạnh.
Tiếp theo chúng ta sẽ đưa ra làm thế nào để có mối quan hệ từ ba điều
kiện cuối cùng tới giả thiết 2.3.1.
Định lí 2.3.5
(i) Mỗi điều kiện 2.3.2 và 2.3.3 áp dụng giả thiết 2.3.1 cho hàm đo được
không âm u : X → R, hơn thế nữa, với 2.3.2(c1) và 2.3.3(c1) thì ta đủ để
đưa ra u không âm và l.s.c. Trong trường hợp 2.3.3(a,b,c1), hàm u∗ trong
2.3.1 là l.s.c.
(ii) Điều kiện 2.3.4 áp dụng vào giả thiết 2.3.1 nếu tại (b1), u là không
âm hoặc l.s.c, hoặc tại (b2), nếu u là một hàm đo được không âm. Nếu với
điều kiện hàm tập
x → A∗ (x) := {a ∈ A(x)|u∗ (x) = c(x, a) +

u(y)Q(dy|x, a)}


là l.s.c, khi đó u∗ là l.s.c.
Chú ý. Trong định lí 2.3.5, chúng ta giả sử rằng u là không âm, nhưng dễ
dàng nhận ra rằng u bị chặn dưới.
Chứng minh.
(i) cho u ≥ 0 là hàm đo được trên X. Đầu tiên ta chứng minh mệnh đề
(i), ta xem xét đầy đủ và rõ ràng những điều kiện 2.3.2(a),(b) và (c2). Nói
một cách khác, tổng của hai hàm l.s.c cũng là l.s.c và hàm

a→

u(y)Q(dy|x, a)

là l.s.c trên A(x) với mỗi x ∈ X .
Từ chứng minh này, {un } là dãy hàm đo được bị chặn trên X sao cho
un ↑ u, và {al } là dãy hội tụ trong A(x) tới a ∈ A(x). Sau đó:

lim inf

l→∞

u(y)Q(dy|x, al ) ≥ lim inf
l



un (y)Q(dy|x, al ),

∀n

un (y)Q(dy|x, a)


Cho n đến vô cùng, chúng ta thu được

lim inf

l→∞

u(y)Q(dy|x, al ) ≥

u(y)Q(dy|x, a),

Chúng ta giả sử những điều kiện 2.3.2(c1) và 2.3.3 đã xảy ra. Phát biểu
thứ hai trong (i) đưa ra giống như argument ở trên, nhưng bây giờ ta dựa
22


trên thực tế là nếu u ≥ 0 là l.s.c, khi đó nó là giới hạn của một dãy tăng
các hàm liên tục bị chặn.
(ii) Giả sử điều kiện 2.3.4 xảy ra cùng với (b2) và tại đó u ≥ 0 là đo
được. Sau đó giống như trong chứng minh của phần (i), ta lấy xấp xỉ u từ
những hàm đo được bị chặn, một trong số đó có thể đưa ra là hàm

u (x, a) := c(x, a) +

u(y)Q(dy|x, a),

(x, a) ∈ K

là l.s.c và bị chặn dưới. Như vậy chúng ta thu được giả thiết 2.3.1, nếu
u là inf - compact trên K, đó là, nếu với mỗi x ∈ X và r ∈ R, tập

{a ∈ A(x)|u (x, a) ≤ r} =: D là compact. Nhưng điều này hiển nhiên
đúng, khi D bị đóng lại và khi u ≥ 0, nó được bao gồm ở trong tập
{a ∈ A(x)|c(x, a) ≤ r}, bởi sự inf - compactness của c [ xem điều kiện
2.3.4(a)], là compact.

2.4

Biến thể của phương trình quy hoạch động

Phương trình quy hoạch động (DP) (2.4) - (2.5) thường được viết lại
một cách thuận tiện với một hình thức khác thích hợp và tương đương.
Trong phần này, chúng ta trình bày một số hình thức xuất hiện thường
xuyên.
Những mô hình phương trình sai phân. Xem xét sự khác nhau của mô
hình phương trình (1.3), tức là,

xt+1 = F (xt , at , ξt ),

t = 0, 1, ...

(2.18)

trong đó {ξt } là một dãy của S - giá trị ( với một số không gian Borel
S ) i.i.d nhiễu loạn ngẫu nhiên, độc lập với trạng thái ban đầu x0 , phân
phối chung µ. Hàm hệ thống F : X × A × S → X là hàm đo được
cho trước. Như đã được ghi trong phương trình (1.11), luật chuyển đổi
Q tương ứng có thể được viết, với mọi B ∈ B(X) và (x, a) ∈ K, như là

Q(B|x, a) =


IB [F (x, a, s)]µ(ds).
S

Trong trường hợp này, bằng cách " đổi biến " công thức tích phân, với
hàm đo được v trên X chúng ta có

E[v(xt+1 )|xt = x, at = a] =

v(y)Q(dy|x, a)
X

=

v[F (x, a, s)]µ(ds),

(2.19)

S

= Ev[F (x, a, ξ0 )]
Với ý nghĩa đó, nếu một trong những tích phân đó tồn tại, thì chúng bằng
nhau.
23


Vì vậy, với hệ thống (2.18), phương trình quy hoạch động (2.4) - (2.5)
có thể được viết lại, sử dụng (2.19), như là

JN (x) = cN (x)
Jt (x) = min c(x, a) +

A(x)

(2.20)

Jt+1 [F (x, a, s)]µ(ds)
(2.21)

S

= min{c(x, a) + EJt+1 [F (x, a, ξt )]}
A(x)

Với mọi x ∈ X và t = N − 1, N − 2, ..., 0. Hơn nữa, nếu c phụ thuộc vào
nhiễu ξt , thì ta có c(xt , at , ξt ), khi đó các hàm trong ngoặc trong (2.21) trở
thành
E{c(x, a, ξt ) + Jt+1 [F (x, a, ξt )]} = [c(x, a, s) + Jt+1 (F (x, a, s))]µ(ds)
S

Trong cả hai trường hợp, phương trình (2.6) đều được thay đổi cho phù
hợp.
Mô hình điều khiển không dừng. Thay vì (2.1), xem xét mô hình
điều khiển không dừng (Xt , At , {At (x)|x ∈ Xt }, Qt , ct ) t = 0,1,... Sau đó
một sự kiểm chứng của chứng minh định lí 2.2.1 cho thấy rằng định lí thỏa
mãn nếu chúng ta thay X, A, Q bởi Xt , At . Ví dụ, (2.5) được thay đổi, với
mọi x ∈ Xt và t = 0, ..., N − 1, bởi

Jt (x) = min ct (x, a) +

Jt+1 (y)Qt (dy|x, a)


At (x)

(2.22)

Xt+1

Chi phí chiết khấu. Giả sử rằng, thay vì (2.2), giá trị kì vọng có dạng
N −1

J(π, x) :=

Exπ

αt c(xt , at ) + αN cN (xN )

(2.23)

t=0

trong đó α > 0 là số được gọi là tỉ lệ chiết khấu. Mô hình điều khiển
tương ứng có thể được xem như là " không dừng " với X, A, và Q cố
định. Nhưng do thời gian thay đổi khác nhau của chi phí mỗi giai đoạn
ct (x, a) := αt c(x, a) nên từ (2.23) và (2.4), chúng ta có được phương trình
quy hoạch động:
JN (x) = αN cN (x)
,
và với t = N − 1, N − 2, ..., 0

Jt (x) = min αt c(x, a) +
A(x)


Jt+1 (y)Q(dy|x, a)

.

X

Chúng ta có thể viết lại phương trình này trong điều kiện của những hàm
Vt (·) := α−t Jt (·), t = 0, ..., N , ta được

VN (x) = cN (x)
24

(2.24)


×