Tải bản đầy đủ (.pdf) (75 trang)

Chuyển về mô hình rời rạc một loại bài toán điều khiển ngẫu nhiên tổng hợp và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (626.38 KB, 75 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN




ĐINH THỊ HỒNG GẤM



CHUYỂN VỀ MÔ HÌNH RỜI RẠC
MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN
NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG


LUẬN VĂN THẠC SĨ KHOA HỌC




HÀ NỘI – 2011




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN







ĐINH THỊ HỒNG GẤM


CHUYỂN VỀ MÔ HÌNH RỜI RẠC
MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN
NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG
Chuyên ngành : Toán học Tính toán
Mã số : 60 46 30

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TS. NGUYỄN QUÝ HỶ



HÀ NỘI – 2011



Mục lục
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1 Một số công cụ ngẫu nhiên và giải tích hàm liên quan 6
1.1 Phép tính vi và tích phân trong B-không gian . . . . . . . . . . . . . . 6
1.1.1 Khái niệm về đạo hàm và tích phân trong B-không gian . . . . 6
1.1.2 Đạo hàm và tích phân của quá trình (hàm) ngẫu nhiên Hilbert 8
1.1.3 Phương trình vi phân với tham số ngẫu nhiên . . . . . . . . . . 11
1.2 Bài toán điều khiển với tham số ngẫu nhiên và tổng quan về một số
phương pháp để giải nó . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.1 Khái niệm về bài toán điều khiển tối ưu với tham số ngẫu nhiên 13
1.2.2 Sơ lược về một vài phương pháp số giải bài toán điều khiển tối ưu 16
1.3 Mô hình dò tìm hỗn hợp giải bài toán quy hoạch ngẫu nhiên . . . . . . 23
2 Tham số hóa hàm điều khiển để giải trực tiếp một loại bài toán điều
khiển ngẫu nhiên tổng hợp 25
2.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Thiết lập bài toán điều khiển tổng quát . . . . . . . . . . . . . . . . . . 28
2.3 Thiết lập điều khiển chấp nhận được . . . . . . . . . . . . . . . . . . . 33
2.4 Tham số hóa biến điều khiển theo chương trình . . . . . . . . . . . . . 37
2.5 Xác định bộ tham số điều khiển ε− tối ưu bằng mô hình dò tìm ngẫu
nhiên hỗn hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3 Ứng dụng vào việc giảm thiểu thiên tai lũ lụt cho Đồng bằng Bắc Bộ 56
3.1 Bài toán giảm thiểu thiên tai lũ lụt bằng hệ thống thủy điện bậc thang 56
3.2 Thiết lập bài toán quy hoạch ngẫu nhiên . . . . . . . . . . . . . . . . . 61
1
3.3 Mô phỏng độ rủi ro lũ lụt của mỗi quy trình điều tiết hợp lý khả thi . . 64
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2
MỞ ĐẦU
Trong số "4 biển" thì Thái Bình Dương là biển lớn nhất. Vì thế nên phía Tây Nam
của biển này, nghĩa là vùng Đông Nam Á (chứa lãnh thổ nước ta) vẫn được mệnh danh
là "rốn bão của thế giới". Đây là lý do làm cho thiên tai lũ lụt và kéo theo nó là hạn
hán ở nước ta nhiều hơn so với các nước khác trên thế giới. Trong tình hình biến đổi
khí hậu và môi trường hiện nay, thiên tai nói trên ngày càng nhiều trầm trọng. Lũ lụt
ở miền Trung (cuối năm 2010) và hạn hán ở đồng bằng Bắc Bộ (đầu năm 2011) là
những dấu hiệu mở đầu thời kỳ này.
Nhằm hạn chế lũ lụt-hạn hán, bài toán thủy điện đa tiêu chí (TĐĐTC) đã ra đời
(trong những năm 1986-1987) từ việc xây dựng quy trình vận hành (QTVH) hợp lý
khả thi (HLKT) ở nhà máy thủy điện (NMTĐ) Hòa Bình [16], trong đó lấy nhiệm vụ

phát điện làm ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về thủy lợi (dung tích
chống hạn, phòng lũ, tưới tiêu cho nông nghiệp, cấp nước sinh hoạt ) và về tham gia
điều phối, cắt lũ cho hạ du. Có thể nói bài toán TĐĐTC trên đây ngay từ khi ra đời
đã mang tính tổng quát và "Việt Nam" hóa lý thuyết về bài toán Thủy điện, vốn xuất
phát từ những nước có khí hậu ôn đới (như LX cũ), ít có thiên tai lũ lụt-hạn hán như
ở nước ta.
Trong những năm 2000-2002, khi lựa chọn quy mô thiết kế cho công trình thuỷ điện
(CTTĐ) Sơn La, bài toán TĐĐTC lại được đưa ra xem xét dưới dạng mô hình toán
học trong việc Giảm thiểu độ rủi ro lũ lụt-động đất cho CTTĐ Sơn La [14], trong đó
lấy việc an toàn (trước những rủi ro lũ lụt và động đất) của CTTĐ làm mục tiêu ưu
tiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, thủy lợi và tham gia điều
phối-cắt lũ.
Bước đầu triển khai ứng dụng mô hình toán học tổng quát trên đây, trong những
năm 2005-2008 bài toán TĐĐTC đã được nghiên cứu dưới dạng Mô hình phân bổ dung
tích phòng lũ và vận hành an toàn hợp lý HTTĐ 3-bậc thang trên sông Đà [15]. Trong
mô hình này, sự an toàn của HTTĐ (trước những rủi ro chỉ về lũ lụt), được chọn là
3
mục tiêu ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, dung tích phòng
lũ, cung cấp nước tưới tiêu cho nông nghiệp - sinh hoạt (chưa có dung tích chống hạn)
và tham gia điều phối-cắt lũ ở hạ du. Gắn với mô hình này, 5 bộ phần mềm ứng dụng
(VSAM 1- VSAM 5) đã được soạn thảo (trong dạng tham số hóa) với sự đảm bảo toán
học của các bài báo khoa học [27], [21], [23], [8], [22].
Việc thử nghiệm số của 5 bộ phần mềm tính toán VSAM 1 - VSAM 5 trên bộ số
liệu của Dự án TĐ Sơn La thấp (đang được triển khai) đã lựa chọn được QTVH "ít
rủi ro lũ lụt nhất", trong đó (xem [15] tr.103) xác suất xuất hiện thảm họa lũ lụt rất
hiếm hoi là p = 10
−6
(tương ứng với thể tích TB của nước lũ là 11 triệu m
3
sẽ theo

sóng vỡ đập về tàn phá vùng đồng bằng Bắc Bộ). Để đổi lại thiệt hại trên, QTVH này
đưa đến một dung tích phòng lũ TB là 14,06 tỷ m
3
(tăng hơn 2 lần khả năng phòng
lũ, so với yêu cầu 7 tỷ m
3
của thiết kế); sản lượng điện TB là 24,09 tỷ Kwh (tăng 1,12
lần phát điện, so với yêu cầu 21,5 tỷ Kwh của thiết kế); dung tích chống hạn TB là
2,036 tỷ m
3
(trong Dự án thiết kế chưa có cơ sở để xác định tiêu chí này).
Thực tiễn tính toán của VSAM 5 còn chỉ ra rằng QTVH ít rủi ro lũ lụt nhất nói
trên cũng là quy trình cho dung tích phòng lũ tương đối cao nhất (trong số 200 QTVH
HLKT khác nhau của HTTĐ 3-bậc thang trên sông Đà được đem ra so sánh một cách
ngẫu nhiên). Về mặt định tính, ta có thể lý giải điều trên như sau: dung tích phòng lũ
trong mỗi hồ chứa càng lớn, thì khả năng vỡ đập do lũ lụt tương ứng càng ít và kéo
theo là khả năng xuất hiện thảm họa lũ lụt (vỡ đập do lũ lụt ở hạ nguồn của HTTĐ
bậc thang) càng ít. Trong trường hợp HTTĐ chỉ có 1 bậc thang, thì hiện tượng vỡ đập
bởi nguyên nhân lũ lụt đồng nghĩa với sự xuất hiện của thảm họa lũ lụt ở hạ nguồn
và do đó QTVH ít rủi ro lũ lụt nhất cũng là quy trình có dung tích phòng lũ TB lớn
nhất (giảm nhiều nhất thiên tai lũ lụt).
Với ý nghĩa trên đây, ta có thể xem bài toán giảm thiểu độ rủi ro lũ lụt cho 1 HTTĐ
n-bậc thang [14] như là bài toán Giảm thiểu thiên tai lũ lụt bằng một HTTĐ bậc thang
cho hạ du của hệ thống này, trong đó mục tiêu cần giảm thiểu tuy vẫn là độ rủi ro lũ
lụt nhưng hàm ý làm cực đai dung tích phòng lũ có thể, theo nghĩa: tạo ra khả năng
tồn tại cao nhất của các đập thủy điện trong hệ thống (ứng với xác suất xuất hiện
thảm họa lũ lụt bé nhất), để cho HTTĐ này vững vàng đảm nhận trọng trách chứa
được (trong dung tích phòng lũ nói trên) 1 lượng nước lũ cao nhất có thể tràn về trong
4
mùa lũ chính vụ. Sẽ là không cần thiết và vô nghĩa, nếu ta chuyển mục tiêu của bài

toán TĐĐTC về dạng cực đại dung tích phòng lũ, vì dung tích này chỉ có nghĩa khi
còn tồn tại HTTĐ (không xảy ra các hiện tượng vỡ đập và thảm họa lũ lụt). Gắn với
mục tiêu cần ưu tiên nói trên, trong bài toán TĐĐTC này còn có các tiêu chí tối thiểu
cần đáp ứng về dung tích chống hạn, cung cấp nước tưới tiêu cho nông nghiệp, nước
cho sinh hoạt, tham gia điều phối và cắt lũ ở hạ du. Đây là những nhân tố liên quan
mật thiết đến phòng chống bão lụt-hạn hán. Cùng với các tiêu chí trên đây còn có các
tiêu chí tối thiểu về phát điện và dung tích phòng lũ, mà nhờ có các tiêu chí này bài
toán Giảm thiểu thiên tai lũ lụt mới đạt được sự cân đối, hài hòa giữa nhiệm vụ phát
điện và thủy lợi đã đề ra trong thiết kế HTTĐ.
Với những ý nghĩa đó, trong luận văn này chúng tôi sẽ nghiên cứu bài toán Giảm
thiểu thiên tai lũ lụt bằng HTTĐ bậc thang. Do bài toán này có dạng tổng quát của
1 loại điều khiển ngẫu nhiên tổng hợp trong mô hình liên tục, nên Chương 1 của luận
văn sẽ giành cho việc giới thiệu tổng quan về những công cụ ngẫu nhiên và giải tích
hàm có liên quan đến bài toán. Trong Chương 2, mô hình toán học của bài toán trên
sẽ được phát biểu trong ngôn ngữ cải biên của bài toán Giảm thiểu độ rủi ro lũ lụt
[14], [15], [21] cho HTTĐ bậc thang. Thông qua việc rời rạc hóa hàm điều khiển, một
loại phương pháp Monte Carlo trực tiếp cũng được đề nghị sử dụng trong chương này
để giải bài toán. Cuối cùng, một ứng dụng vào việc tham gia giảm thiểu thiên tai lũ
lụt cho vùng Đồng bằng Bắc Bộ sẽ được bán tới trong Chương 3 của Luận án.
5
Chương 1
Một số công cụ ngẫu nhiên và giải
tích hàm liên quan
1.1 Phép tính vi và tích phân trong B-không gian
1.1.1 Khái niệm về đạo hàm và tích phân trong B-không gian
Cho đoạn thẳng [t
o
, T ] ⊂ R
1
và B-không gian (không gian Banach) X với chuẩn ký

hiệu là  · 
X
.
Định nghĩa 1.1.1 : Ánh xạ f : [t
o
, T ] → X gọi là liên tục tại t ∈ [t
o
, T ] nếu:
lim
∆t→0
f(t + ∆t) − f(t)
X
= 0 ( với : t + ∆t ∈ [t
o
, T ]). (1.1.1)
Nếu f liên tục tại mọi điểm t ∈ (t
o
, T ) và liên tục trái tại t
o
, liên tục phải tại T thì
ánh xạ f gọi là liên tục trên [t
o
, T ]. Ta ký hiệu B-không gian của những ánh xạ liên
tục trên [t
o
, T ] (xem [30] tr.40-41) là : C([t
o
, T ]; X) = C(t
o
, T ; X), trong đó chuẩn của

mỗi phần tử xác định theo công thức:
f
C
= f
C(t
o
,T ;X)
= max
t
o
≤t≤T

f(t)
X

(∀f ∈ C([t
o
, T ]; X)). (1.1.2)
Định nghĩa 1.1.2: (xem [25] tr.451-453) Ánh xạ f : [t
o
, T ] → X được gọi là khả
vi tại t ∈ [t
o
, T ] nếu tồn tại toán tử tuyến tính
˙
f(t) =
df(t)
dt
: [t
o

, T ] → X, sao cho
∀∆t : t + ∆t ∈ [t
o
, T ] ta có:



f(t + ∆t) − f(t) −
˙
f(t)∆t



X
= o(∆t) =⇒
˙
f(t) = lim
∆t→0
f(t + ∆t) − f(t)
∆t
∈ X. (1.1.3)
6
Khi đó toán tử tuyến tính
˙
f(t) được gọi là đạo hàm mạnh (Frechet) của f tại t.
Trong trường hợp toán tử đạo hàm
˙
f : [t
o
, T ] → X là liên tục tại t ∈ [t

o
, T ] thì ánh xạ
f gọi là khả vi liên tục tại t. Nếu ánh xạ này khả vi liên tục tại mọi điểm t ∈ (t
o
, T )

˙
f liên tục phải tại t
o
, liên tục trái tại T thì f được gọi là khả vi liên tục trên [t
o
, T ].
Không gian Banach của những ánh xạ khả vi liên tục trên [t
o
, T ] (xem [30] tr.44-45)
được ký hiệu là: C
1
([t
o
, T ]; X) = C
1
(t
o
, T ; X), trong đó chuẩn của mỗi phần tử được
xác định như sau:


f



C
1
=


f


C
1
(t
o
,T ;X)
:= max
t
o
≤t≤T

f(t)
X
, 
˙
f(t)
X

(∀f ∈ C
1
([t
o
, T ]; X)). (1.1.4)

Định nghĩa 1.1.3: (xem [25] tr.437-439) Cho ánh xạ f : [t
o
, T ] → X và một dãy điểm

i
}
n
i=0
nào đó gắn với một phân hoạch {t
i
}
n
i=0
bất kỳ của đoạn [t
o
, T ], sao cho:
t
o
< t
1
< < t
n
= T , τ
i
∈ [t
i
, t
i+1
] := ∆
i

, |∆
i
| := t
i+1
− t
i
(∀i = 0 ÷ n − 1).
Ứng với dãy điểm và phân hoạch nói trên, ta lập tổng Rieman σ

{(t
i
, τ
i
)}
n
i=0

:=

n−1
i=0
f(τ
i
).|∆
i
|. Khi max
o≤i≤n−1
{|∆
i
|} → 0, nếu tổng Rieman nói trên có giới hạn

trong X (không phụ thuộc vào {(t
i
, τ
i
)}
n
i=0
) thì ánh xạ f : [t
o
, T ] → X gọi là khả tích
trên [t
o
, T ], với giá trị của tích phân là:

T
t
o
f(t)dt := lim
|∆|→0

n−1

i=0
f(τ
i
).|∆
i
|

∈ X , |∆| := max

o≤i≤n−1
{|∆
i
|}. (1.1.5)
Định lý 1.1.1 : (xem [25] tr.458-459) Nếu ánh xạ f : [t
o
, T ] → X khả vi (Frechet) liên
tục trên [t
1
, t
2
] ⊂ [t
o
, T ], thì nó cũng khả tích trên [t
1
, t
2
] và ta có công thức Neuton -
Leibnitz sau:

t
2
t
1
˙
f(t)dt = f(t
2
) − f(t
1
) ∈ X. (1.1.6)

Chú ý 1.1.1 : Với X = L
p
(U, Σ
U
, µ) (1 ≤ p ≤ ∞) là B-không gian (xem [7] tr.162,
167) những hàm Σ
U
-đo được gắn với không gian độ đo (U, Σ
U
, µ), ta có thể dựa vào
các định nghĩa nói trên để xây dựng khái niệm đạo hàm và tích phân tương ứng của
ánh xạ:
(t, u) → f(t; u) (∀(t, u) ∈ [t
o
, T ] × U), f(t; ·) ∈ X (∀t ∈ [t
o
, T ]), với X là : (1.1.7)
L
p
(U) = L
p
(U, Σ
U
, µ) :=

g : g
L
p
(U)
:=



U
|g(u)|
p
µ(du)

1
p
< +∞

(p ≥ 1),
(1.1.8)
7
L

(U) = L

(U, Σ
U
, µ) :=

g : g
L

(U)
:= inf
{N: µ(N)=0}
sup
u∈U\N

|g(u)| < +∞

.
(1.1.9)
Trong trường hợp p=2, B-không gian X = L
2
(U) trở thành không gian Hilbert với
tích vô hướng:
(g, h) :=

U
g(u).h(u)µ(du) (∀g, h ∈ L
2
(U)). (1.1.10)
Ngoài ra, khi không gian độ đo (U, Σ
U
, µ) là không gian xác suất (kgxs) (Ω, Σ, P ) (P (Ω) =
1), ta có thể diễn đạt ánh xạ (1.1.7) cùng với các khái niệm liên tục, đạo hàm và tích
phân của nó trong những ngôn ngữ ngẫu nhiên sau đây.
1.1.2 Đạo hàm và tích phân của quá trình (hàm) ngẫu nhiên
Hilbert
Định nghĩa 1.1.4: (xem [13] tr.142) Gắn với kgxs (Ω, Σ, P ) đã cho, mỗi ánh xạ
ω → ξ(ω) : Ω → R
1
được gọi là biến (đại lượng) ngẫu nhiên, nếu nó là Σ-đo được trên
Ω. Đại lượng ngẫu nhiên (đlnn) này gọi là có mô men bậc p (1 ≤ p < ∞) hữu hạn nếu
ξ ∈ L
p
(Ω), gọi là giới nội hầu chắc chắn (a.s.) nếu ξ ∈ L


(Ω). Khi ξ ∈ L
1
(Ω), đlnn ξ
gọi là có kỳ vọng hữu hạn với kỳ vọng được ký hiệu là:
E{ξ} = E
w
{ξ(ω)} :=


ξ(ω)P (dω) ⇒ |E{ξ}| ≤ E{|ξ|} := ξ
L
1
(Ω)
. (1.1.11)
Định nghĩa 1.1.5: (xem [13] tr.236-237) Ta gọi:
L
2
(Ω) = L
2
(Ω, Σ, P ) =

ξ : Ω → R
1
| E{ξ
2
} =


ξ
2

(ω)P (dω) < +∞

(1.1.12)
là không gian Hilbert của các đlnn có moment bậc 2 hữu hạn xác định trên kgxs
(Ω, Σ, P ), trong đó tích vô hướng và chuẩn có dạng:
(ξ, η) :=


ξ(ω)η(ω)P (dω) = E{ξ.η} , ξ
L
2
(Ω)
:=

E{ξ
2
}

1
2
(∀ξ, η ∈ L
2
(Ω)).
(1.1.12

)
Khi sử dụng ngôn ngữ tổng trực tiếp các không gian Hilbert (xem [7] tr.277-278), ta
có thể mở rộng định nghĩa trên dưới dạng:
Định nghĩa 1.1.5*: Với n và m là các số tự nhiên, ta gọi:
L

2
n×m
:= L
2
n×m
(Ω) =

ξ = (ξ
ij
)
n×m
: Ω → R
n×m
| ξ
ij
∈ L
2
(Ω) (∀i = 1 ÷ n, j = 1 ÷ m)

(1.1.13)
8
là không gian Hilbert của các biến (ma trận) ngẫu nhiên (n × m)-chiều có moment bậc
2 hữu hạn, trong đó tích vô hướng và chuẩn được xác định dưới dạng:
(ξ, η)
L
2
n×m
:=
n


i=1
m

j=1
E{ξ
ij

ij
} , ξ
L
2
n×m
:=

n

i=1
m

j=1
E

ξ
2
ij


1
2


∀ξ = (ξ
ij
)
n×m
, η = (η
ij
)
n×m
∈ L
2
n×m
(Ω)

. (1.1.13*)
Trường hợp m = 1, ta gọi L
2
n×1
= L
2
n
(Ω) là không gian Hilbert các biến (vec tơ) ngẫu
nhiên n-chiều.
Định nghĩa 1.1.6: (xem [13] tr.237) Ánh xạ (1.1.7) với U = Ω, X = L
2
(Ω) được gọi
là quá trình (hàm) ngẫu nhiên Hilbert (qtnn H) xác định trên không gian xác suất
(Ω, Σ, P ) và được ký hiệu là

ξ(t) = f (t; .), t
o

≤ t ≤ T

, trong đó đlnn ξ(t) = f(t; .) ∈
L
2
(Ω) gọi là trạng thái của qtnn H tại thời điểm t, L
2
(Ω) (và [t
o
, T ]) lần lượt gọi là
không gian trạng thái (và tham số), tập hợp {f(t; ω) : t
o
≤ t ≤ T } ⊂ R
1
gọi là quỹ đạo
gắn với biến cố sơ cấp ω ∈ Ω của qtnn H.
Tương tự như Định nghĩa 1.1.5*, ta có thể mở rộng Định nghĩa 1.1.6 thành:
Định nghĩa 1.1.6*: Ánh xạ (1.1.7) với U = Ω, X = L
2
n×m
(Ω), f(t; ω) =

f
ij
(t; ω)

n×m
được gọi là qtnn H (n × m)-chiều xác định trên không gian xác suất (Ω, Σ, P ) và được
ký hiệu là


ξ(t) =

f
ij
(t; ·)

n×m
, t
o
≤ t ≤ T

, trong đó trạng thái của quá trình tại
thời điểm t là biến (ma trận) ngẫu nhiên ξ(t) =

f
ij
(t; ·)

n×m
∈ L
2
n×m
(Ω), không gian
trạng thái là L
2
n×m
(Ω), không gian các tham số là [t
o
, T ].
Chú ý 1.1.2 : Khi m=1, qtnn nói trong định nghĩa trên trở thành qtnn H n-chiều


ξ(t) =

f
1
(t; ·), , f
n
(t; ·)


, t
o
≤ t ≤ T

1
với không gian trạng thái là L
2
n
(Ω). Không
hạn chế tính tổng quát, dưới đây ta chỉ cần xét các qtnn H loại này, trong đó ánh xạ
(1.1.7) có dạng:
(t, ω) →

f
1
(t; ω), , f
n
(t; ω)



(∀(t, ω) ∈ [t
o
, T ] × Ω),
f
i
(t; ·) ∈ L
2
(Ω) (∀t ∈ [t
o
, T ], i = 1 ÷ n). (1.1.14)
Khi đó ta thu được các mệnh đề dưới đây, như là những trường hợp đặc biệt của các
mệnh đề trong Tiểu mục 1.1.1.
Định nghĩa 1.1.7: (xem [13] tr.237-238) qtnn H n-chiều {ξ(t) =

f
1
(t; ·), , f
n
(t; ·)


, t
o

1
Chuyển vị của vec tơ hàng (f
1
, , f
n
) được ký hiệu là (f

1
, , f
n
)

9
t ≤ T } được gọi là liên tục trung bình phương (TBP) tại t ∈ [t
o
, T ], nếu ánh xạ (1.1.14)
liên tục tại t (theo Định nghĩa 1.1.1):
lim
∆t→0
n

i=1
E



ξ
i
(t + ∆t) − ξ
i
(t)


2

= 0 , ξ
i

(t) := f
i
(t; ·) ∈ L
2
(Ω) (∀i = 1 ÷ n). (1.1.15)
Định nghĩa 1.1.8: (xem [13] tr.239) qtnn H n-chiều {ξ(t) =

f
1
(t; ·), , f
n
(t; ·)


, t
o

t ≤ T } được gọi là khả vi TBP tại t ∈ [t
o
, T ], nếu ánh xạ (1.1.14) khả vi (Frechet) tại
t (theo Định nghĩa 1.1.2):
n

i=1
E
ω



f

i
(t + ∆t; ω) − f
i
(t; ω) −
˙
f
i
(t; ω)∆t


2

= o(∆t) (∀∆t : t + ∆t ∈ [t
o
, T ])
=⇒
˙
f
i
(t; ·) = lim
∆t→0

f
i
(t + ∆t; ·) − f
i
(t; ·)
∆t

∈ L

2
(Ω) (∀i = 1 ÷ n), (1.1.16)
trong đó đạo hàm Frechet
˙
ξ(t) =
˙
f(t; ·) :=

˙
f
1
(t; ·), ,
˙
f
n
(t; ·)


∈ L
2
n
(Ω) gọi là đạo hàm
TBP tại t của qtnn H n-chiều {ξ(t) =

f
1
(t; ·), , f
n
(t; ·)



, t
o
≤ t ≤ T }.
Định nghĩa 1.1.9: (xem [13] tr.243) qtnn H n-chiều {ξ(t) =

f
1
(t; ·), , f
n
(t; ·)


, t
o

t ≤ T } được gọi là khả tích trên [t
o
, T ], nếu ánh xạ (1.1.14) khả tích trên đó (theo Định
nghĩa 1.1.3) với giá trị của tích phân là:

T
t
o
ξ(t)dt :=


T
t
o

f
1
(t; ·)dt, ,

T
t
o
f
n
(t; ·)dt


∈ L
2
n
(Ω). (1.1.17)
Định lý 1.1.2 : (xem [25] tr.244) Nếu qtnn H n-chiều {ξ(t) =

f
1
(t; ·), , f
n
(t; ·)


, t
o

t ≤ T } khả vi liên tục TBP trên [t
1

, t
2
] ⊂ [t
o
, T ], thì nó cũng khả tích trên [t
1
, t
2
] và ta
có công thức Neuton - Leibnitz sau:

t
2
t
1
˙
f
i
(t; ω)dt = f
i
(t
2
; ω) − f(t
1
; ω)

∀i = 1 ÷ n, ω ∈ Ω(a.s.)

. (1.1.18)
Chú ý 1.1.3 : Nếu các hàm trong (1.1.14) có dạng đặc biệt:

f
i
(t; ω) ≡ f
i
(t) ∈ R
1
(∀t ∈ [t
o
, T ], ω ∈ Ω, i = 1 ÷ n)
(không phụ thuộc vào biến cố sơ cấp ω ∈ Ω), thì qtnn H n-chiều trong Chú ý 1.1.2
được tất định hóa và trở thành "quá trình (hàm) tất định" thông thường

ξ(t) =

f
1
(t), , f
n
(t)


, t
o
≤ t ≤ T

với "không gian trạng thái" (miền giá trị) là R
n
. Khi
đó, các khái niệm "liên tục TBP" (Định nghĩa 1.1.7) và "đạo hàm TBP" (Định nghĩa
10

1.1.8) trở thành các khái niệm liên tục và đạo hàm thông thường của hàm vec tơ
ξ := (f
1
, , f
n
)

: [t
o
, T ] → R
n
. Khái niệm tích phân (Định nghĩa 1.1.9) và công thức
Neuton-Leibnitz (Định lý 1.1.2) trở thành khái niệm và công thức quen thuộc tương
ứng đối với vec tơ hàm nói trên, trong đó các tích phân được hiểu theo nghĩa Lebesgue-
Rieman.
1.1.3 Phương trình vi phân với tham số ngẫu nhiên
Xét bài toán Cauchy trong B-không gian X:
˙z(t) = g

t, z(t)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ X (1.1.19)
trong đó ánh xạ z : [t
o

, T ] → X là nghiệm (cần tìm) với đạo hàm Frechet của nó tại
t là ˙z(t) ∈ X; ánh xạ (đã cho) g : [t
o
, T ] × X → X là liên tục và thỏa mãn điều kiện
Liptschitz, với sự tồn tại hằng số C>0 để cho:
g(t, x

) − g(t, x”)
X
≤ Cx

− x”
X
(∀x

, x” ∈ X, t ∈ [t
o
, T ]). (1.1.20)
Định lý 1.1.3 : (xem [30] tr.179-180) Với sự thỏa mãn điều kiện (1.1.20) của ánh xạ
liên tục g, phương trình vi phân (1.1.19) luôn tồn tại duy nhất nghiệm z ∈ C
1

[t
o
, T ]; X

.
Chú ý 1.1.4 : Ta có thể tích phân phương trình vi phân (1.1.19), nghĩa là sử dụng
công thức Neuton-Leibnitz (1.1.6) để biến phương trình này thành phương trình tích
phân tương đương:

z(t) = z
o
+

t
t
o
g

s, z(s)

ds (t
o
≤ t ≤ T ). (1.1.21)
Khi dựa vào Chú ý 1.1.2 và Định nghĩa 1.1.8 ta có thể thiết lập bài toán Cauchy
(1.1.19) với X = L
2
n
(Ω) trong dạng "phương trình vi phân ngẫu nhiên", theo nghĩa
dưới đây:
Định nghĩa 1.1.10 : Phương trình vi phân (1.1.19) trong không gian Hilbert X =
L
2
n
(Ω) được gọi là phương trình vi phân với tham số ngẫu nhiên - differential equation
with random parameters- (gọi tắt là phương trình vi phân ngẫu nhiên - PTVPNN), nếu
nghiệm

z(t) =


z
1
(t; ·), , z
n
(t; ·)


, t
o
≤ t ≤ T

của nó là một qtnn H n-chiều, ˙z(t) là
đạo hàm TBP của quá trình này tại t, ảnh của ánh xạ (đã cho) g : [t
o
, T ] × L
2
n
(Ω) →
11
L
2
n
(Ω) và mỗi thành phần của vec tơ ngẫu nhiên (đã cho) z
o
:= (z
01
, , z
on
)


∈ L
2
n
(Ω)
đều có mô men bậc 2 hữu hạn.
Giả thiết về điều kiện Liptschitz (1.1.20) khi đó có dạng:
g(t, z

) − g(t, z”)
L
2
n
(Ω)
≤ Cz

− z”
L
2
n
(Ω)
(∀z

, z” ∈ L
2
n
(Ω), t ∈ [t
o
, T ]). (1.1.22)
Như là một hệ quả trực tiếp của Định lý 1.1.3, ta có mệnh đề dưới đây:
Định lý 1.1.4 : Nếu g liên tục TBP và thỏa mãn điều kiện (1.1.22), thì PTVPNN

(1.1.19) trong không gian Hilbert X = L
2
n
(Ω) luôn tồn tại duy nhất nghiệm z ∈
C
1

[t
o
, T ]; L
2
n
(Ω)

.
Trường hợp phương trình vi phân (phi tuyến) (1.1.19) trong B-không gian X trở
thành phương trình vi phân tuyến tính:
˙z(t) = A(t).z(t) + g(t) (t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ X, (1.1.23)
ta có thể thay giả thiết (1.1.20) bởi các giả thiết yếu hơn sau đây:
g ∈ C([t
o
, T ]; X) ; lim
∆t→0
|A(t + ∆t) − A(t)| = 0

|A(t)| := sup
x
X
1
A(t)x
X
(∀t ∈ [t
o
, T ]), (1.1.24)
với A(t) (∀t ∈ [t
o
, T ]) là ánh xạ tuyến tính liên tục trong X. Khi đó ta có:
Định lý 1.1.5 : (xem [30] tr.191) Với sự thỏa mãn các điều kiện (1.1.24), phương
trình vi phân tuyến tính (1.1.23) luôn tồn tại duy nhất nghiệm z ∈ C
1

[t
o
, T ]; X

.
Khi xét phương trình vi phân tuyến tính (1.1.23) trong không gian Hilbert X =
L
2
n
(Ω), ta xem rằng qtnn H n-chiều

g(t) =

g

1
(t; ·), , g
n
(t; ·)


, t
o
≤ t ≤ T

là đã cho
cùng với qtnn H (n × n)-chiều

A(t) =

a
ij
(t; ·)

n×n
, t
o
≤ t ≤ T

và giả thiết (1.1.24)
có dạng:
g ∈ C([t
o
, T ]; L
2

n
(Ω)) ; lim
∆t→0
|A(t + ∆t) − A(t)| = 0
|A(t)| := sup
x
L
2
n
(Ω)
1
A(t)x
L
2
n
(Ω)
(∀t ∈ [t
o
, T ]). (1.1.25)
Khi đó, từ Định nghĩa 1.1.10 ta trực tiếp thu được hệ quả dưới đây của Định lý 1.1.5:
Hệ quả 1.1.1 : Với sự thỏa mãn các điều kiện (1.1.25), phương trình vi phân ngẫu
12
nhiên tuyến tính (1.1.23) (với X = L
2
n
(Ω)) luôn tồn tại duy nhất nghiệm z ∈ C
1

[t
o

, T ];
L
2
n
(Ω)

.
Cuối cùng, từ Chú ý 1.1.3 ta nhận thấy rằng: phương trình vi phân ngẫu nhiên
tuyến tính nói trên là sự mở rộng trực tiếp của hệ n phương trình vi phân tuyến tính
(1.1.23) vói X = R
n
(theo nghĩa tất định thông thường). Khi đó với sự thay thế tính
liên tục TBP trong giả thiết (1.2.25) bởi tính liên tục từng khúc trên [t
o
, T ], ta thu
được mệnh đề quen thuộc dưới đây (như là hệ quả của Hệ quả 1.1.1):
Hệ quả 1.1.2 : (xem [12] tr.56) Nếu các hàm A : [t
o
, T ] → R
n×n
, g : [t
o
, T ] → R
n
liên
tục từng khúc trên [t
o
, T ], thì phương trình vi phân (tất định) (1.1.23) (với X = R
n
)

luôn tồn tại duy nhất nghiệm z ∈ C

[t
o
, T ]; R
n

khả vi từng khúc trên [t
o
, T ].
1.2 Bài toán điều khiển với tham số ngẫu nhiên và
tổng quan về một số phương pháp để giải nó
1.2.1 Khái niệm về bài toán điều khiển tối ưu với tham số
ngẫu nhiên
Gắn với kgxs (Ω, Σ, P ) đã cho, ta xét bài toán điều khiển tối ưu với tham số ngẫu
nhiên - optimal control problem with random parameters - (gọi tắt là bài toán điều
khiển (tối ưu) ngẫu nhiên - ĐKNN
2
) trong dạng tổng quát (general form) dưới đây:
J
G
(x) := E

f
o
(z, x)

→ inf, (1.2.1)
˙z(t) = g


t, z(t), x(t)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ L
2
n
(Ω), (1.2.2)
x(t) ∈ X(t) ⊂ L
2
m
(Ω) (t
o
≤ t ≤ T ), (1.2.3)
z(t) ∈ Z(t) ⊂ L
2
n
(Ω) (t
o
≤ t ≤ T ), (1.2.4)

x(t), z(t)

∈ Y (t) ⊂ L
2
m

(Ω) × L
2
n
(Ω) (t
o
≤ t ≤ T ), (1.2.5)
trong đó biến điều khiển là qtnn H m-chiều

x(t) =

x
1
(t; ·), , x
m
(t; ·)


∈ L
2
m
(Ω), t
o

t ≤ T

; biến trạng thái là qtnn H n-chiều

z(t) =

z

1
(t; ·), , z
n
(t; ·)


∈ L
2
n
(Ω), t
o

2
Cần phân biệt lối nói tắt này với bài toán kinh điển về "điều khiển tối ưu ngẫu nhiên " (stochastic
optimal control) [12], [2], trong đó phương trình vi phân ngẫu nhiên hiểu theo nghĩa Ito.
13
t ≤ T

; hệ động lực (với tham số) ngẫu nhiên là PTVPNN (1.2.2) trong không gian
L
2
n
(Ω) với ˙z(t) ∈ L
2
n
(Ω) là đạo hàm TBP của biến trạng thái tại t. Điều kiện (1.2.3) gọi
là ràng buộc về biến điều khiển, điều kiện (1.2.4) gọi là ràng buộc về biến trạng thái,
điều kiện (1.2.5) gọi là ràng buộc hỗn hợp giữa biến điều khiển và trạng thái. Các ánh
xạ (đã cho) g, f
o

trong hệ động lực (1.2.2) và hàm mục tiêu (1.2.1)) được giả thiết là
có dạng:





g : [t
o
, T ] × L
2
n
(Ω) × L
2
m
(Ω) → L
2
n
(Ω), f
o
: L
2
n
(t
o
, T ; Ω) × L
2
m
(t
o

, T ; Ω) → L
1
(Ω),
với : L
p
k
(t
o
, T ; Ω) :=

y : [t
o
, T ] → L
2
k
(Ω)


y
p
L
p
k
:=

T
t
o
y(t)
p

L
2
k
(Ω)
dt < +∞

,
(1.2.6)
trong đó L
p
k
(t
o
, T ; Ω) = L
p

[t
o
, T ]; L
2
k
(Ω)

(1 ≤ p < ∞) là một B-không gian (xem [7]
tr.162) và L
2
m

t
o

, T ; Ω

là không gian Hilbert (xem [13] tr.241-243) của những qtnn H
m-chiều bình phương khả tích trên [t
o
, T ] (theo Định nghĩa 1.1.9)) với tích vô hướng và
chuẩn có dạng:





< x, y >
L
2
m
:=

m
i=1

T
t
o
E
ω
{x
i
(t; ω).y
i

(t; ω)}dt, x
L
2
m
:=


m
i=1

T
t
o
E
ω
{x
2
i
(t; ω)}dt

1
2

∀x = (x
1
, , x
m
)

, y = (y

1
, , y
m
)

∈ L
2
m

t
o
, T ; Ω

:= L
2

[t
o
, T ]; L
2
m
(Ω)

.
(1.2.6*)
Chú ý 1.2.1 : Ta cũng có thể phát biểu bài toán ĐKNN (1.2.1)-(1.2.5) với t
o
, z
o
, T

chưa biết tương tự như trong trường hợp tất định (xem [12] tr.39-40).
Định nghĩa 1.2.1 : Đối với một lớp hàm điều khiển nào đó:
X
o
= X
o
(t
o
, T ; L
2
m
(Ω)) :=

x ∈ L
2
m

t
o
, T ; Ω

: thỏa mãn (1.2.3)

⊂ L
2

[t
o
, T ]; L
2

m
(Ω)

,
(1.2.7)
- Hệ động lực (1.2.2) gọi là điều khiển được bởi lớp hàm này, nếu với mọi điều khiển
x ∈ X
o
PTVPNN (1.2.2) trong L
2
n
(Ω) có nghiệm duy nhất thuộc lớp L
1
n
(t
o
, T ; Ω) =
L
1

[t
o
, T ]; L
2
n
(Ω)

.
- Nếu hệ động lực (1.2.2) là điều khiển được bởi lớp hàm X
o

, thì tập hợp các hàm trong
X
o
thỏa mãn các điều kiện ràng buộc (1.2.4)-(1.2.5):
X = X(t
o
, T ; L
2
m
(Ω)) :=

x ∈ X
o
(t
o
, T ; L
2
m
(Ω)) : thỏa mãn (1.2.4) ÷ (1.2.5)

(1.2.7

)
gọi là tập hợp các điều khiển chấp nhận được. Mỗi điều khiển x ∈ X gọi là chấp nhận
được - CNĐ (admissible).
14
- Điều khiển CNĐ x ∈ X không phụ thuộc vào biến trạng thái z trong hệ động lực
(1.2.2) gọi là điều khiển theo chương trình (programme [11], open-loop control [2]) và
bài toán ĐKNN (1.2.1)-(1.2.5) gọi là bài toán điều khiển theo chương trình.
- Nếu điều khiển x(t) = x


t, z(t)

(phụ thuộc vào trạng thái z(t)) với hệ động lực
(1.2.2) và lớp hàm điều khiển (1.2.7) lần lượt có dạng:





˙z(t) = g

t, z(t), x

t, z(t)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ L
2
n
(Ω),
X
o
(t
o

, T ; L
2
m
(Ω)) :=

x(·, z) ∈ L
2
m

t
o
, T ; Ω

: thỏa mãn (1.2.3) (∀z ∈ L
2
n
(Ω))

,
(1.2.8)
thì mỗi điều khiển CNĐ x = x(z) ∈ X gọi là một điều khiển tổng hợp (synthetic [11],
closed-loop, feedback control [2]) và bài toán ĐKNN (1.2.1)-(1.2.5) gọi là bài toán điều
khiển tổng hợp.
Chú ý 1.2.2 : Nếu chỉ xét bài toán ĐKNN (1.2.1)-(1.2.3) (không có ràng buộc biến
trạng thái (1.2.4) và ràng buộc hỗn hợp (1.2.5)), trong đó hệ động lực được giả thiết
là điều khiển được bởi lớp hàm X
o
= X
o
(t

o
, T ; L
2
m
(Ω)) thì lớp hàm này cũng gọi là tập
hợp các điều khiển CNĐ của bài toán (1.2.1)-(1.2.3): X = X(t
o
, T ; L
2
m
(Ω)) ≡ X
o
(xem
[2] tr.230).
Định nghĩa 1.2.2 : Điều khiển CNĐ x

∈ X(t
o
, T ; L
2
m
(Ω)) gọi là tối ưu, nếu:
J
G
(x

) ≤ J
G
(x) (∀x ∈ X(t
o

, T ; L
2
m
(Ω)). (1.2.9)
Ta có thể xét những trường hợp riêng dưới đây của hàm mục tiêu tổng quát J
G
(x):
Định nghĩa 1.2.3 : Bài toán (1.2.1)-(1.2.5) lần lượt gọi là Bài toán Mayer, Lagrange,
Bolza, nếu:













J
G
(x) = J
M
(x) := E

f
o

1

z(T )

, f
o
1
: L
2
n
(Ω) → L
1
(Ω),
J
G
(x) = J
L
(x) :=

T
t
o
E

f
o
2

t, z(t), x(t)


dt, f
o
2
: [t
o
, T ] × L
2
n
(Ω) × L
2
m
(Ω) → L
1
(Ω),
J
G
(x) = J
B
(x) := E

f
o
1

z(T )

+

T
t

o
E

f
o
2

t, z(t), x(t)

dt.
(1.2.10)
Chú ý 1.2.3 : Tương tự như trong trường hợp tất định (xem [12] tr.40-41), ta có thể
chỉ ra rằng: 3 dạng trên đây của bài toán ĐKNN là tương đương, theo nghĩa: từ dạng
này có thể chuyển sang dạng kia.
15
Chú ý 1.2.4 : Từ Chú ý 1.1.3 ta dễ dàng nhận thấy rằng: Nếu xét trường hợp đặc
biệt của bài toán ĐKNN (1.2.1)-(1.2.5) với các không gian L
2
m
(Ω), L
2
n
(Ω) được lần lượt
thay bởi R
m
, R
n
thì biến điều khiển

x(t) =


x
1
(t), , x
m
(t)


∈ R
m
, t
o
≤ t ≤ T


biến trạng thái

z(t) =

z
1
(t), , z
n
(t)


∈ R
n
, t
o

≤ t ≤ T

trở thành các quá trình tất
định. Khi đó bài toán (1.2.1)-(1.2.5) trở thành bài toán điều khiển tối ưu (tất định):
J
G
(x) := f
o
(z, x) → inf, (1.2.11)
˙z(t) = g

t, z(t), x(t)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ R
n
, (1.2.12)
x(t) ∈ X(t) ⊂ R
m
(t
o
≤ t ≤ T ), (1.2.13)
z(t) ∈ Z(t) ⊂ R
n
(t

o
≤ t ≤ T ), (1.2.14)

x(t), z(t)

∈ Y (t) ⊂ R
m
× R
n
(t
o
≤ t ≤ T ). (1.2.15)
Trong trường hợp này, các công thức (1.2.6) và (1.2.6*) lần lượt trở thành:
g : [t
o
, T ] × R
n
× R
m
→ R
n
, f
o
: L
1

[t
o
, T ]; R
n


×L
2
([t
o
, T ]; R
m
) → R
1
, (1.2.16)













L
2
m
= L
2
([t
o

, T ]; R
m
) :=

(x
1
, , x
m
)

: [t
o
, T ] → R
m



m
i=1

T
t
o
x
2
i
(t)dt < +∞

,
< x, y >

L
2
m
:=

m
i=1

T
t
o
x
i
(t).y
i
(t)dt, x
L
2
m
:=

m
i=1

T
t
o
x
2
i

(t)dt

∀x = (x
1
, , x
m
)

, y = (y
1
, , y
m
)

∈ L
2

[t
o
, T ]; R
m

.
(1.2.16*)
Lớp hàm điều khiển và tập hợp các điều khiển CNĐ của bài toán (1.2.11)-(1.2.15) lần
lượt có dạng:
X
o
= X
o

([t
o
, T ]; R
m
) :=

x ∈ L
2

[t
o
, T ]; R
m

: thỏa mãn (1.2.13)

⊂ L
2
([t
o
, T ]; R
m
),
X = X

[t
o
, T ]; R
m


:=

x ∈ X
o

[t
o
, T ]; R
m
) : thỏa mãn (1.2.14) ÷ (1.2.15)

. (1.2.17)
1.2.2 Sơ lược về một vài phương pháp số giải bài toán điều
khiển tối ưu
Các kết quả phong phú nhất trong việc giải bằng số bài toán điều khiển tối ưu (1.2.1)-
(1.2.5) thuộc vào lãnh vực tất định,
3
nghĩa là các phương pháp giải bài toán (1.2.11)-
(1.2.15). Tuy nhiên, cho đến nay các phương pháp đó mới chỉ giải được từng trường
3
Ngoại trừ các kết quả để giải bài toán ĐKNN với hệ động lực là PTVP Ito (xem, chẳng hạn [2]
tr.281-318).
16
hợp riêng biệt của bài toán này. Ngoài phương pháp sai phân [10], [11] (chuyển về bài
toán điều khiển trong mô hình rời rạc), ta có thể xét các phương pháp chính dưới đây.
1 - Phương pháp gián tiếp : Đối với các bài toán điều khiển theo chương trình,
người ta đã xét (xem, chẳng hạn [2] tr.240) bài toán điều khiển lồi (1.2.11)-(1.2.13)
(không có các ràng buộc (1.2.14)-(1.2.15)), trong đó hàm mục tiêu (1.2.11) có dạng
Bolza, hệ động lực (1.2.12) có dạng tuyến tính, tập hợp X(t) trong (1.2.13) không phụ
thuộc thời gian: X(t) ≡ X ∈ R

m
(∀t ∈ [t
o
, T ]) và là một tập hợp lồi, đóng. Cụ thể là
bài toán:





J
B
(x) := f
o
1

z(T )

+

T
t
o
f
o
2

t, z(t), x(t)

dt → inf, x(t) ∈ X(∀t ∈ [t

o
, T ]),
˙z(t) = F (t)z(t) + G(t)x(t) + f(t) (t
o
< t ≤ T ), z(t
o
) = z
o
∈ R
n
(đã cho),
(1.2.18)
với tập hợp các điều khiển CNĐ X = X(t
o
, T ; R
m
) ⊂ L
2

[t
o
, T ]; R
m

và các giả thiết sau:




















F : [t
o
, T ] → R
n×n
, G : [t
o
, T ] → R
n×m
, F(t) ≤ c, G(t) ≤ c

(∀t ∈ [t
o
, T ]),
f ∈ L
2


[t
o
, T ]; R
m

; f
o
2
(t, ·, ·) ∈ C
1
(R
n
× R
m
; R
1
) (∀t ∈ [t
o
, T ]), f
o
1
∈ C
1
(R
n
; R
1
),




∂f
o
2
(t,z,x)
∂z



≤ c
1

z + x + f
1
(t)

,



∂f
o
2
(t,z,x)
∂x



≤ c
2


z + x + f
2
(t)

(∀t),
f
i
∈ L
1
(t
o
, T ) (i = 1 ÷ 2), các hàm z → f
o
1
(z), (z, x) → f
o
2
(t, z, x) (∀t) là lồi.
(1.2.18*)
Cơ sở của phương pháp gián tiếp dùng để giải bài toán (1.2.18) là nguyên lý cực đại
Pontriagin (1959) sau đây:
Định lý 1.2.1 : ( [2] tr.240-246) Nếu các giả thiết (1.2.18*) được thỏa mãn, thì điều
khiển x

∈ L
2

[t
o

, T ]; R
m

là tối ưu khi và chỉ khi nó thỏa mãn "nguyên lý cực đại"
(một cách hầu khắp nơi - a.e theo thời gian) sau đây:
H

t, z

(t), x

(t), p(t)

= max
u∈X

H

t, z

(t), u, p(t)

∀t ∈ [t
o
, T ](a.e)

, (1.2.19)
trong đó

z


(t), t
o
≤ t ≤ T } là quá trình trạng thái của hệ động lực trong (1.2.18) ứng
với quá trình điều khiển

x

(t), t
o
≤ t ≤ T }, p : [t
o
, T ] → R
n
là nghiệm của "phương
trình liên hợp":





− ˙p(t) = F

(t)p(t) −

∂f
o
2

t,z


(t),x

(t)

∂z
1
, ,
∂f
o
2

t,z

(t),x

(t)

∂z
n


(t
o
≤ t < T ),
p(T ) = −

∂f
o
1


z

(T )

∂z
1
, ,
∂f
o
1

z

(T )

∂z
n


∈ R
n
,
(1.2.20)
17
với F

(t) là chuyển vị của ma trận F(t) và "hàm Hamilton" H(t, z, x, p) xác định dưới
dạng:
H(t, z, x, p) := −f

o
2
(t, z, x) +

p, F (t)z + G(t)x + f(t)

(∀t ∈ [t
o
, T ], z, p ∈ R
n
, x ∈ R
m
).
(1.2.21)
Để thiết lập hàm Hamilton trong nguyên lý cực đại (1.2.19), ta cần giải (đồng thời)
PTVP (1.2.20) (với biên kiện cho tại t=T) và PTVP trong (1.2.18) (với biên kiện
cho tại t = t
o
), nghĩa là việc tìm nghiệm

z(t), p(t)

(t
o
≤ t ≤ T ) của hệ 2 phương
trình nói trên đưa đến 1 bài toán giá trị biên 2 điểm. Các kỹ thuật Newton - Raphson
(Quasilinearization technique [2] tr.188-189) và bắn (Shooting method [2] tr.187-188)
của giải tích số có thể thực hiện điều trên một cách gần đúng. Nhằm hữu hạn hóa
số (không đếm được) các bài toán quy hoạch cần giải trong (1.2.19), ta có thể chọn
X(t

o
, T ; R
m
) là lớp hàm bậc thang (hoặc tuyến tính từng khúc) trên [t
o
, T ] với lưu ý
rằng: Do hàm mục tiêu trong các bài toán quy hoạch của nguyên lý cực đại là hàm
lõm (theo u) trên miền lồi X, nên ta có thể sử dụng công cụ của quy hoạch lồi (xem,
chẳng hạn [28]) để giải bằng số các bài toán đặt ra.
Sau trường hợp trọn vẹn và đẹp đẽ kể trên, nguyên lý cực đại cũng đã được phát
biểu đối với việc bổ sung vào bài toán (1.2.18) ràng buộc trạng thái dạng (1.2.14),
nhưng lại kèm theo những khó khăn không nhỏ cho toán học tính toán. Chẳng hạn,
khi Z(t) :=

z ∈ R
n
: L
j
(z, t) ≤ 0 (j = 1 ÷ k, t ∈ [t
o
, T ])

- gắn với sự bổ sung vào
(1.2.18*) các giả thiết (xem [2] tr.246) về tính lồi của các hàm L
j
(·, t) (∀t) và tính giới
nội địa phương (theo z) của các ma trận đạo hàm cấp 2 đối với các hàm này cùng với sự
tồn tại "điều khiển Sleyter" x ∈ X(t
o
, T ; R

m
) (trạng thái z ∈ L
1
(t
o
, T ; R
n
) tương ứng
thỏa mãn các điều kiện L
j
(z(t), t) < 0 (∀j, t)), ta nhận thấy rằng nguyên lý cực đại ( [2]
tr.255) đưa đến 2 bài toán quy hoạch gắn với sự tồn tại hàm π(t) có biến phân giới nội
và hệ hàm

λ
j
(t)

k
j=1
không giảm, liên tục phải sao cho λ
j
(0) = 0 (j = 1 ÷ k). Trong
trường hợp đơn giản hơn ( [2] tr.255): điều kiện ràng buộc biến trạng thái (1.2.14) chỉ
đặt tại thời điểm cuối T với Z(T) :=

z ∈ R
n
: L
j

(z) ≤ 0 (j = 1 ÷ k)

, tuy nguyên
lý cực đại ( [2] tr.256-257) chỉ đưa về 1 bài toán quy hoạch nhưng lại gắn với các điều
kiện hoành: L
j

z

(T )

≤ 0, λ
j
.L
j

z

(T )

= 0, λ
j
≥ 0 (j = 1 ÷ k). Trường hợp đặc biệt
(xem [2] tr.258) của bài toán (1.2.18) là bài toán điều khiển toàn phương (với các hàm
18
f
o
1
(z), f
o

2
(t, z, x), F (t), G(t), f(t) xác định bởi các ma trận đối xứng), tuy nguyên lý cực
đại có đưa ra biểu thức giải tích (hiển) của điều khiển tối ưu ( [2] tr.260) nhưng lại
liên quan đến việc giải phương trình vi phân ma trận Riccarti. Đây cũng không phải
là những công việc đơn giản về mặt toán học tính toán.
Khi vượt ra ngoài khuôn khổ của những bài toán điều khiển lồi nói trên, nguyên lý
cực đại (trong dạng điều kiện cần của điều khiển "tối ưu") cũng đã được phát biểu
([2] tr.231-232) cho bài toán (1.2.11)-(1.2.13) (không có các ràng buộc (1.2.4)-(1.2.15)),
trong đó hàm mục tiêu có dạng Mayer (J
G
(x) = J
M
(x)) và X(t
o
, T ; R
m
) là lớp những
hàm liên tục từng khúc. Tuy nhiên, do bài toán điều khiển (theo chương trình) này
không có tính lồi và do nguyên lý nói trên chỉ là điều kiện cần nên khái niệm "tối ưu"
nói trên chỉ được hiểu theo nghĩa địa phương (không phải là tối ưu toàn cục). Ngoài
ra, do bài toán quy hoạch trong nguyên lý cực đại nói chung không có dạng của bài
toán quy hoạch lồi nên phải dùng đến phương pháp Monte Carlo ( [20] tr.271-309) để
giải nó.
2 - Phương pháp ẩn : Bây giờ ta xét bài toán điều khiển tổng hợp có dạng (1.2.11)-
(1.2.14) sau:














J
G
(x) = J
M
(x) := f
o
1

z(T )

→ inf,
˙z(t) = g

t, z(t), x

t, z(t)

(t
o
< t ≤ T ) , z(t
o
) = z

o
(đã cho) ∈ R
n
, trong đó :
X
o
(t
o
, T ; R
m
) :=

x : [t
o
, T ] × Z → X ⊂ R
m


liên tục từng khúc trên [t
o
, T ]

,
(1.2.22)
X(t
o
, T ; R
m
) :=


x ∈ X
o
(t
o
, T ; R
m
) : z(t) ∈ Z ⊂ R
n
(t
o
≤ t ≤ T )

. (1.2.22

)
Cơ sở của phương pháp ẩn dùng để giải bài toán trên là nguyên lý quy hoạch động
Bellman (1957), với giả thiết rằng luôn tồn tại duy nhất nghiệm z ∈ L
1
([θ, T ]; R
n
) của
phương trình vi phân:
˙z(t) = g

t, z(t), x

t, z(t)

(θ < t ≤ T) , z(θ) = y


∀θ ∈ [t
o
, T ], y ∈ Z, x ∈ Y(θ, y)

,
(1.2.23)
trong đó: Y(θ, y) :=

x ∈ X
o
(θ, T ; R
m
) : z(t) ∈ Z (θ ≤ t ≤ T )

là tập hợp các điều
khiển CNĐ của hệ động lực (1.2.23) với X
o
(θ, T ; R
m
) là thu hẹp trên [θ, T ] của lớp hàm
X
o
(t
o
, T ; R
m
).
19
Gọi V : [t
o

, T ] × Z → R
1
là hàm Bellman, xác định dưới dạng:
V (θ, y) := inf
x∈Y(θ,y)
f
o
1

z(T ; x)

(∀(θ, y) ∈ [t
o
, T ]×Z) ⇒ V (t
o
, z
o
) = f
o
1

z

(T )

, (1.2.24)
trong đó : z(t; x) (θ ≤ t ≤ T) là trạng thái của hệ động lực (1.2.23) ứng với điều
khiển x ∈ Y(θ, y), z

(t) = z(t; x


) (θ ≤ t ≤ T) là trạng thái ứng với điều khiển tối ưu
x

∈ X(t
o
, T ; R
m
) của bài toán (1.2.22). Khi đó ta có (xem [12] tr.117) phương trình
quy hoạch động sau:
∂V (θ, y)
∂θ
= − min
u∈X

∂V (θ, y)
∂y
, g(θ, y, u)

(∀(θ, y) ∈ [t
o
, T ]×Z), V (T, y) = f
o
1
(y) (∀y ∈ Z).
(1.2.25)
Định lý 1.2.2 : ( [12] tr.115-122) Giả sử X ⊂ R
m
là tập hợp compac và bài toán biên
đối với phương trình đạo hàm riêng (1.2.25) có nghiệm phẳng là hàm Bellman (1.2.24).

Gọi x

∈ X(t
o
, T ; R
m
), trong đó x

(t) = x


t; z

(t)

là lời giải của bài toán cực đại:

∂V (t, z

(t))
∂y
, g(t, z

(t), x

(t))

= max
u∈X


∂V (t, z

(t))
∂y
, g(t, z

(t), u)

(∀t ∈ [t
o
, T ]),
(1.2.26)
với z

(t) (t
o
≤ t ≤ T ) là trạng thái của hệ động lực (1.2.12) ứng với điều khiển
x

(t) (t
o
≤ t ≤ T ). Khi đó x

(t) = x


t; z

(t)


(t
o
≤ t ≤ T ) sẽ là điều khiển tổng hợp
tối ưu của bài toán (1.2.22) và:
V

t, z

(t)

≡ V (t
o
, z
o
)(∀t ∈ [t
o
, T ]) ⇔ z

(t) là quỹ đạo ứng với điều khiển tối ưu x

(1.2.26

)
Khi đã biết biểu thức giải tích của hàm Bellman V (θ, y) (Chẳng hạn, đối với trường
hợp f
o
1
(·) là hàm toàn phương, g(t, ·, ·) là hàm tuyến tính (xem [12] tr.123-124)), ta
có thể dựa vào z


(t
o
) := z
o
để thiết lập bài toán (1.2.26) với t = t
o
và thu được lời
giải u = x

(t
o
). Tiếp theo, bằng việc sai phân hóa hệ (1.2.12) ta thu được z

(t
k
) từ
x

(t
k−1
), z

(t
k−1
) (đã biết trong bước trước ). Trên cơ sở này thiết lập và giải bài toán
cực đại (1.2.26) (với t = t
k
), để thu được lời giải u = x

(t

k
), với chú ý rằng: khi X ⊂ R
m
là miền lồi và g(t, z, x) là hàm lõm theo x, ta có thể sử dụng công cụ của quy hoạch lồi
để làm việc này. Khi không có các giả thiết trên, phải dùng đến công cụ của phương
pháp Monte Carlo (Mục 1.3). Tuy nhiên, nói chung ta chưa biết biểu thức giải tích của
hàm Bellman. Bởi vậy khó khăn đầu tiên để sử dụng Định lý 1.2.2 là việc tìm nghiệm
V (θ, y) của phương trình đạo hàm riêng trong (1.2.25), tiếp theo là việc kiểm tra sự
20
thỏa mãn của điều kiện biên trong đó. Larson (1968) và Lamarechal (1972) đã dùng
phương pháp lưới (xem [2] tr.184-185) để giải quyết vấn đề này nhưng cũng gập nhiều
khó khăn, khi z

(t
k
) trong mô hình tính toán nói trên không rơi vào các điểm đã chia
của lưới (phủ lên miền [t
o
, T ] × Z); thậm chí có khó khăn không khắc phục được như
trường hợp n ≥ 4. Khi dựa vào (1.2.26*), Michailevich và Shor đã tránh được phần
nào khó khăn nói trên bằng cách sử dụng phương pháp chổi Kiev (xem [1] tr.97-104).
Nhưng phương pháp đó cũng có nhược điểm bởi tính địa phương của những điều khiển
"tối ưu" mà nó thu được và cũng bị hạn chế về số chiều n của biến trạng thái (do sử
dụng nhiều bộ nhớ cùng thời gian tính toán).
3 - Phương pháp trực tiếp : Khác với phương pháp gián tiếp (chuyển bài toán điều
khiển về các bài toán của nguyên lý cực đại để giải các bài toán trung gian này), trong
các phương pháp trực tiếp ta có thể dùng cách tiếp cận giải tích hàm hoặc giải tích
(tham số hóa hàm điều khiển - TSHĐK) để giải trực tiếp bài toán điều khiển.
Đối với cách tiếp cận giải tích hàm, người ta thường xét bài toán Mayer (J
G

(x) =
J
M
(x)) trong dạng tất định (1.2.11)-(1.2.12) (xem [2] tr. 193-195) hoặc dạng ngẫu
nhiên (1.2.1)-(1.2.2) (xem [19], [29], [18]), trong đó J
M
(x) = f
o
1

z[T ; x(·)]

và J
M
(x) =
E

f
o
1

z[T ; x(·)]

là những phiếm hàm xác định lần lượt trên X
o
(t
o
, T ; R
m
) và X

o

t
o
, T ;
L
2
m
(Ω)

(thông qua nghiệm z(t) = z

t; x(·)

của các PTVP (1.2.12) và (1.2.2) tại
t=T). Trên cơ sở này, thiết lập bài toán cực tiểu phiếm hàm: min
x∈X
o
(t
o
,T ;R
m
)
J
M
(x)
và min
x∈X
o
(t

o
,T ;L
2
m
(Ω))
J
M
(x). Các công cụ của phép tính biến phân ( [12] tr.10-31) hoặc
của giải tích số như: phương pháp đường dốc nhất ( [24] tr.589-599), gradient ( [2]
tr.192-195) đã được sử dụng để giải các bài toán cực tiểu phiếm hàm đã thiết lập.
Đương nhiên là cách tiếp cận này không có điều kiện xét tới những ràng buộc trạng
thái và ràng buộc hỗn hợp trong bài toán điều khiển và cũng không xét tới bài toán
điều khiển tổng hợp.
Để khắc phục những nhược điểm nói trên, trong phương pháp TSHĐK ta có thể xét
dạng điều khiển tất định theo chương trình (1.2.11)-(1.2.15) hoặc dạng ngẫu nhiên mở
rộng của bài toán (1.2.22)-(1.2.22*) là bài toán ĐKNN tổng hợp sau đây:





J
G
(x) := E

f
o

z, x


→ inf,
˙z(t) = g

t, z(t), x

t, z(t)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ L
2
n
,
(1.2.27)
21
trong đó:
X
o

t
o
, T ; L
2
m
(Ω)


:=

x : [t
o
, T ] × Z → X ⊂ L
2
m


liên tục từng khúc trên [t
o
, T ]

,
X

t
o
, T ; L
2
m
(Ω)

:=

x ∈ X
o

t
o

, T ; L
2
m
(Ω)

: thỏa mãn (1.2.4)-(1.2.5)

, (1.2.27*)
với giả thiết rằng có thể TSHĐK x(·, z) = x(·, z; θ) ∈ X

t
o
, T ; L
2
m
(Ω)

bởi các tham số
θ ∈ R
N
, sao cho số không đếm được những điều kiện ràng buộc (1.2.4)-(1.2.5) trong
(1.2.27*) được thay bằng một số hữu hạn các ràng buộc theo các tham số θ và ta có
thể chuyển bài toán trên về bài toán ĐKNN theo tham số :
J(θ) := E

f
o

z(·; θ), x(·; θ)


→ inf , θ ∈ Θ ⊂ R
N
, (1.2.28)
˙z(t) = g

t, z(t), x(t, z(t); θ)

(t
o
< t ≤ T ) , z(t
o
) = z
o
(đã cho) ∈ L
2
n
(Ω). (1.2.28

)
Khi đó (1.2.28) trở thành một bài toán quy hoạch ngẫu nhiên (QHNN) [10], với z(t; θ) =
z(t) (t
o
≤ t ≤ T ) là nghiệm của PTVP ngẫu nhiên (1.2.28*). Phương pháp Monte Carlo
(Mục 1.3) sẽ được sử dụng để giải bài toán QHNN nói trên.
Thí dụ về phương pháp TSHĐK trên đây có thể tìm thấy trong Chương 2 của bản
luận văn này, trong đó lớp hàm điều khiển X
o
(t
o
, T ; R

n
) và tập hợp các điều khiển
CNĐ X(t
o
, T ; R
n
) có dạng tất định với các tập hợp X(t), Z(t) ⊂ R
n
, Y (t) ⊂ R
2n
.
4 - Phương pháp Monte Carlo : (dùng để giải số cả bài toán tất định lẫn ngẫu
nhiên).
- Trong các bài toán điều khiển tất định, phương pháp Monte Carlo (PPMC) được
xem là một loại phương pháp sai phân trực tiếp dùng để giải các bài toán quy hoạch
đo được (không có tính lồi) [17], [4], [3] hoặc ngẫu nhiên hóa các bài toán này [6] để
sử dụng các mô hình dò tìm ngẫu nhiên (Mục 1.3). Cũng có thể xem PPMC là một
loại phương pháp sai phân gián tiếp, dùng để thiết lập các nguyên lý cực đại rời rạc
mô phỏng [5] và đưa về việc sử dụng các mô hình dò tìm ngẫu nhiên.
- Trong lãnh vực ngẫu nhiên, PPMC (còn gọi là phương pháp mô phỏng - symulation
method) thường làm việc với các bài toán ĐKNN rời rạc (theo chương trình hoặc tổng
hợp), trong đó tham biến ω ∈ Ω là 1 vec tơ ngẫu nhiên (vtnn) có phân bố xác suất đã
cho. Khi không có ràng buộc hỗn hợp, người ta đã dùng các phương pháp sai phân tất
định nói trên (xem [2] tr.195-197) với F
o
(ˆx) ≈ N
−1
o

N

o
j=1
f
o
(ˆz, ˆx ; ω
j
)

(∀ˆx ∈

N
n=1
X
n
),
trong đó {ω
j
}
N
o
j=1
(N
o
 1) là dãy những thể hiện độc lập của vtnn ω (tạo bằng PPCM
22
[20]). Khi bài toán QHNN có tính lồi , phương pháp chiếu tựa gradient ngẫu nhiên
( [10] tr.148-154) đã được dùng để giải bài toán. Ở đây dãy mô phỏng {ω
j
}
N

o
j=1
nói
trên của vtnn ω được sử dụng để tạo ra dãy các tựa gradient ngẫu nhiên (xem [10]
tr.134-138). Không chỉ đối với các bài toán ĐKNN rời rạc nói trên, PPCM còn được
sử dụng trong các phương pháp trực tiếp để giải bài toán ĐKNN (1.2.1)-(1.2.5) bằng
phương pháp gradient [18], phương pháp xấp xỷ ngẫu nhiên [19], [29], phương pháp
bắn ngẫu nhiên Markov [8], phương pháp dò tìm ngẫu nhiên hỗn hợp [21], [23], [22] ,
phương pháp chiếu gradient ngẫu nhiên [9].
1.3 Mô hình dò tìm hỗn hợp giải bài toán quy hoạch
ngẫu nhiên
Các phương pháp số giải bài toán điều khiển thường đưa đến các bài toán quy hoạch
(tất định hoặc ngẫu nhiên). Khi bài toán điều khiển tất định không có tính lồi, bài
toán quy hoạch tương ứng có dạng rất tổng quát (gọi là bài toán quy hoạch đo được
gắn với không gian độ đo (Θ, Σ
Θ
, µ)). Nếu bài toán này có lời giải (tối ưu) là θ

∈ Θ,
thì nó có dạng:
F (θ

) = min
θ∈Θ
F (θ) , θ = (θ
1
, , θ
m
) ∈ Θ ∈ B
m

⊂ R
m
, µ(Θ) > 0, (1.3.1)
trong đó B
m
là σ-đại số các tập hợp Borel trong R
m
, µ là độ đo Lebesgue trong R
m
,
hàm mục tiêu F : Θ → R
1
là đo được trên Θ (tập hợp các lời giải CNĐ). Các phương
pháp dò tìm ngẫu nhiên (đơn giản, tổng quát, hỗn hợp) có thể được sử dụng để giải
bài toán trên (xem [20] tr.281-309).
Khi bài toán điều khiển đưa đến bài toán quy hoạch ngẫu nhiên (QHNN):
F (θ) := E

f(θ; ξ)

→ inf, θ = (θ
1
, , θ
m
) ∈ Θ ⊂ R
m
, với f(θ; ξ) ∈ L
1
(Ω) (∀θ ∈ Θ),
(1.3.2)

gắn với kgxs (Ω, Σ, P ) sinh bởi vtnn ξ có phân phối xác suất đã cho, PPMC được
dùng để mô phỏng (tạo những thể hiện) của ξ (xem [20] tr.106-138), trong đó bài toán
QHNN (1.3.2) nói chung là không có tính lồi và ta có thể xem nó là bài toán quy hoạch
đo được (1.3.1) gắn với không gian độ đo (Θ, Σ
Θ
, µ).
23

×