Tải bản đầy đủ (.pdf) (75 trang)

(Luận văn thạc sĩ) chuyển về mô hình rời rạc một loại bài toán điều khiển ngẫu nhiên tổng hợp và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (626.45 KB, 75 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-----------------------------------

ĐINH THỊ HỒNG GẤM

CHUYỂN VỀ MƠ HÌNH RỜI RẠC
MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN
NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC

HÀ NỘI – 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-----------------------------------

ĐINH THỊ HỒNG GẤM

CHUYỂN VỀ MƠ HÌNH RỜI RẠC
MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN
NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG
Chun ngành : Tốn học Tính tốn
Mã số : 60 46 30

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TS. NGUYỄN QUÝ HỶ

HÀ NỘI – 2011




Mục lục
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 Một số cơng cụ ngẫu nhiên và giải tích hàm liên quan
1.1

1.2

6

Phép tính vi và tích phân trong B-khơng gian . . . . . . . . . . . . . .

6

1.1.1

Khái niệm về đạo hàm và tích phân trong B-không gian . . . .

6

1.1.2

Đạo hàm và tích phân của q trình (hàm) ngẫu nhiên Hilbert

8

1.1.3

Phương trình vi phân với tham số ngẫu nhiên . . . . . . . . . .


11

Bài toán điều khiển với tham số ngẫu nhiên và tổng quan về một số
phương pháp để giải nó . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.2.1

13

1.2.2
1.3

3

Khái niệm về bài toán điều khiển tối ưu với tham số ngẫu nhiên

Sơ lược về một vài phương pháp số giải bài tốn điều khiển tối ưu 16

Mơ hình dị tìm hỗn hợp giải bài tốn quy hoạch ngẫu nhiên . . . . . .

23

2 Tham số hóa hàm điều khiển để giải trực tiếp một loại bài toán điều
khiển ngẫu nhiên tổng hợp

25


2.1

Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.2

Thiết lập bài toán điều khiển tổng quát . . . . . . . . . . . . . . . . . .

28

2.3

Thiết lập điều khiển chấp nhận được . . . . . . . . . . . . . . . . . . .

33

2.4

Tham số hóa biến điều khiển theo chương trình . . . . . . . . . . . . .

37

2.5

Xác định bộ tham số điều khiển ε− tối ưu bằng mơ hình dị tìm ngẫu
nhiên hỗn hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51


3 Ứng dụng vào việc giảm thiểu thiên tai lũ lụt cho Đồng bằng Bắc Bộ 56
3.1

Bài toán giảm thiểu thiên tai lũ lụt bằng hệ thống thủy điện bậc thang

56

3.2

Thiết lập bài toán quy hoạch ngẫu nhiên . . . . . . . . . . . . . . . . .

61

1


3.3

Mô phỏng độ rủi ro lũ lụt của mỗi quy trình điều tiết hợp lý khả thi . .

64

KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70


2


MỞ ĐẦU
Trong số "4 biển" thì Thái Bình Dương là biển lớn nhất. Vì thế nên phía Tây Nam
của biển này, nghĩa là vùng Đông Nam Á (chứa lãnh thổ nước ta) vẫn được mệnh danh
là "rốn bão của thế giới". Đây là lý do làm cho thiên tai lũ lụt và kéo theo nó là hạn
hán ở nước ta nhiều hơn so với các nước khác trên thế giới. Trong tình hình biến đổi
khí hậu và mơi trường hiện nay, thiên tai nói trên ngày càng nhiều trầm trọng. Lũ lụt
ở miền Trung (cuối năm 2010) và hạn hán ở đồng bằng Bắc Bộ (đầu năm 2011) là
những dấu hiệu mở đầu thời kỳ này.
Nhằm hạn chế lũ lụt-hạn hán, bài tốn thủy điện đa tiêu chí (TĐĐTC) đã ra đời
(trong những năm 1986-1987) từ việc xây dựng quy trình vận hành (QTVH) hợp lý
khả thi (HLKT) ở nhà máy thủy điện (NMTĐ) Hịa Bình [16], trong đó lấy nhiệm vụ
phát điện làm ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về thủy lợi (dung tích
chống hạn, phịng lũ, tưới tiêu cho nơng nghiệp, cấp nước sinh hoạt...) và về tham gia
điều phối, cắt lũ cho hạ du. Có thể nói bài tốn TĐĐTC trên đây ngay từ khi ra đời
đã mang tính tổng quát và "Việt Nam" hóa lý thuyết về bài tốn Thủy điện, vốn xuất
phát từ những nước có khí hậu ơn đới (như LX cũ), ít có thiên tai lũ lụt-hạn hán như
ở nước ta.
Trong những năm 2000-2002, khi lựa chọn quy mơ thiết kế cho cơng trình thuỷ điện
(CTTĐ) Sơn La, bài toán TĐĐTC lại được đưa ra xem xét dưới dạng mơ hình tốn
học trong việc Giảm thiểu độ rủi ro lũ lụt-động đất cho CTTĐ Sơn La [14], trong đó
lấy việc an tồn (trước những rủi ro lũ lụt và động đất) của CTTĐ làm mục tiêu ưu
tiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, thủy lợi và tham gia điều
phối-cắt lũ.
Bước đầu triển khai ứng dụng mơ hình tốn học tổng quát trên đây, trong những
năm 2005-2008 bài toán TĐĐTC đã được nghiên cứu dưới dạng Mơ hình phân bổ dung
tích phịng lũ và vận hành an tồn hợp lý HTTĐ 3-bậc thang trên sơng Đà [15]. Trong

mơ hình này, sự an toàn của HTTĐ (trước những rủi ro chỉ về lũ lụt), được chọn là
3


mục tiêu ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, dung tích phịng
lũ, cung cấp nước tưới tiêu cho nông nghiệp - sinh hoạt (chưa có dung tích chống hạn)
và tham gia điều phối-cắt lũ ở hạ du. Gắn với mơ hình này, 5 bộ phần mềm ứng dụng
(VSAM 1- VSAM 5) đã được soạn thảo (trong dạng tham số hóa) với sự đảm bảo toán
học của các bài báo khoa học [27], [21], [23], [8], [22].
Việc thử nghiệm số của 5 bộ phần mềm tính tốn VSAM 1 - VSAM 5 trên bộ số
liệu của Dự án TĐ Sơn La thấp (đang được triển khai) đã lựa chọn được QTVH "ít
rủi ro lũ lụt nhất", trong đó (xem [15] tr.103) xác suất xuất hiện thảm họa lũ lụt rất
hiếm hoi là p = 10−6 (tương ứng với thể tích TB của nước lũ là 11 triệu m3 sẽ theo
sóng vỡ đập về tàn phá vùng đồng bằng Bắc Bộ). Để đổi lại thiệt hại trên, QTVH này
đưa đến một dung tích phịng lũ TB là 14,06 tỷ m3 (tăng hơn 2 lần khả năng phòng
lũ, so với yêu cầu 7 tỷ m3 của thiết kế); sản lượng điện TB là 24,09 tỷ Kwh (tăng 1,12
lần phát điện, so với yêu cầu 21,5 tỷ Kwh của thiết kế); dung tích chống hạn TB là
2,036 tỷ m3 (trong Dự án thiết kế chưa có cơ sở để xác định tiêu chí này).
Thực tiễn tính tốn của VSAM 5 cịn chỉ ra rằng QTVH ít rủi ro lũ lụt nhất nói
trên cũng là quy trình cho dung tích phịng lũ tương đối cao nhất (trong số 200 QTVH
HLKT khác nhau của HTTĐ 3-bậc thang trên sông Đà được đem ra so sánh một cách
ngẫu nhiên). Về mặt định tính, ta có thể lý giải điều trên như sau: dung tích phịng lũ
trong mỗi hồ chứa càng lớn, thì khả năng vỡ đập do lũ lụt tương ứng càng ít và kéo
theo là khả năng xuất hiện thảm họa lũ lụt (vỡ đập do lũ lụt ở hạ nguồn của HTTĐ
bậc thang) càng ít. Trong trường hợp HTTĐ chỉ có 1 bậc thang, thì hiện tượng vỡ đập
bởi nguyên nhân lũ lụt đồng nghĩa với sự xuất hiện của thảm họa lũ lụt ở hạ nguồn
và do đó QTVH ít rủi ro lũ lụt nhất cũng là quy trình có dung tích phịng lũ TB lớn
nhất (giảm nhiều nhất thiên tai lũ lụt).
Với ý nghĩa trên đây, ta có thể xem bài tốn giảm thiểu độ rủi ro lũ lụt cho 1 HTTĐ
n-bậc thang [14] như là bài toán Giảm thiểu thiên tai lũ lụt bằng một HTTĐ bậc thang

cho hạ du của hệ thống này, trong đó mục tiêu cần giảm thiểu tuy vẫn là độ rủi ro lũ
lụt nhưng hàm ý làm cực đai dung tích phịng lũ có thể, theo nghĩa: tạo ra khả năng
tồn tại cao nhất của các đập thủy điện trong hệ thống (ứng với xác suất xuất hiện
thảm họa lũ lụt bé nhất), để cho HTTĐ này vững vàng đảm nhận trọng trách chứa
được (trong dung tích phịng lũ nói trên) 1 lượng nước lũ cao nhất có thể tràn về trong
4


mùa lũ chính vụ. Sẽ là khơng cần thiết và vơ nghĩa, nếu ta chuyển mục tiêu của bài
tốn TĐĐTC về dạng cực đại dung tích phịng lũ, vì dung tích này chỉ có nghĩa khi
cịn tồn tại HTTĐ (khơng xảy ra các hiện tượng vỡ đập và thảm họa lũ lụt). Gắn với
mục tiêu cần ưu tiên nói trên, trong bài tốn TĐĐTC này cịn có các tiêu chí tối thiểu
cần đáp ứng về dung tích chống hạn, cung cấp nước tưới tiêu cho nông nghiệp, nước
cho sinh hoạt, tham gia điều phối và cắt lũ ở hạ du. Đây là những nhân tố liên quan
mật thiết đến phòng chống bão lụt-hạn hán. Cùng với các tiêu chí trên đây cịn có các
tiêu chí tối thiểu về phát điện và dung tích phịng lũ, mà nhờ có các tiêu chí này bài
tốn Giảm thiểu thiên tai lũ lụt mới đạt được sự cân đối, hài hòa giữa nhiệm vụ phát
điện và thủy lợi đã đề ra trong thiết kế HTTĐ.
Với những ý nghĩa đó, trong luận văn này chúng tơi sẽ nghiên cứu bài tốn Giảm
thiểu thiên tai lũ lụt bằng HTTĐ bậc thang. Do bài tốn này có dạng tổng quát của
1 loại điều khiển ngẫu nhiên tổng hợp trong mơ hình liên tục, nên Chương 1 của luận
văn sẽ giành cho việc giới thiệu tổng quan về những cơng cụ ngẫu nhiên và giải tích
hàm có liên quan đến bài tốn. Trong Chương 2, mơ hình tốn học của bài tốn trên
sẽ được phát biểu trong ngơn ngữ cải biên của bài toán Giảm thiểu độ rủi ro lũ lụt
[14], [15], [21] cho HTTĐ bậc thang. Thông qua việc rời rạc hóa hàm điều khiển, một
loại phương pháp Monte Carlo trực tiếp cũng được đề nghị sử dụng trong chương này
để giải bài toán. Cuối cùng, một ứng dụng vào việc tham gia giảm thiểu thiên tai lũ
lụt cho vùng Đồng bằng Bắc Bộ sẽ được bán tới trong Chương 3 của Luận án.

5



Chương 1
Một số cơng cụ ngẫu nhiên và giải
tích hàm liên quan
1.1
1.1.1

Phép tính vi và tích phân trong B-khơng gian
Khái niệm về đạo hàm và tích phân trong B-khơng gian

Cho đoạn thẳng [to , T ] ⊂ R1 và B-không gian (không gian Banach) X với chuẩn ký
hiệu là

·

X.

Định nghĩa 1.1.1 : Ánh xạ f : [to , T ] → X gọi là liên tục tại t ∈ [to , T ] nếu:
lim f (t + ∆t) − f (t)

∆t→0

X

= 0 ( với : t + ∆t ∈ [to , T ]).

(1.1.1)

Nếu f liên tục tại mọi điểm t ∈ (to , T ) và liên tục trái tại to , liên tục phải tại T thì

ánh xạ f gọi là liên tục trên [to , T ]. Ta ký hiệu B-không gian của những ánh xạ liên
tục trên [to , T ] (xem [30] tr.40-41) là : C([to , T ]; X) = C(to , T ; X), trong đó chuẩn của
mỗi phần tử xác định theo cơng thức:
f

C

= f

C(to ,T ;X)

= max

to ≤t≤T

f (t)

X

(∀f ∈ C([to , T ]; X)).

(1.1.2)

Định nghĩa 1.1.2: (xem [25] tr.451-453) Ánh xạ f : [to , T ] → X được gọi là khả
df (t)
vi tại t ∈ [to , T ] nếu tồn tại tốn tử tuyến tính f˙(t) =
: [to , T ] → X, sao cho
dt
∀∆t : t + ∆t ∈ [to , T ] ta có:
f (t + ∆t) − f (t) − f˙(t)∆t


= o(∆t) =⇒ f˙(t) = lim

∆t→0

X

6

f (t + ∆t) − f (t)
∆t

∈ X. (1.1.3)


Khi đó tốn tử tuyến tính f˙(t) được gọi là đạo hàm mạnh (Frechet) của f tại t.
Trong trường hợp toán tử đạo hàm f˙ : [to , T ] → X là liên tục tại t ∈ [to , T ] thì ánh xạ
f gọi là khả vi liên tục tại t. Nếu ánh xạ này khả vi liên tục tại mọi điểm t ∈ (to , T )
và f˙ liên tục phải tại to , liên tục trái tại T thì f được gọi là khả vi liên tục trên [to , T ].
Không gian Banach của những ánh xạ khả vi liên tục trên [to , T ] (xem [30] tr.44-45)
được ký hiệu là: C 1 ([to , T ]; X) = C 1 (to , T ; X), trong đó chuẩn của mỗi phần tử được
xác định như sau:
f

C1

= f

C 1 (to ,T ;X)


:= max

to ≤t≤T

f (t)

X,

f˙(t)

X

(∀f ∈ C 1 ([to , T ]; X)).

(1.1.4)

Định nghĩa 1.1.3: (xem [25] tr.437-439) Cho ánh xạ f : [to , T ] → X và một dãy điểm
{τi }ni=0 nào đó gắn với một phân hoạch {ti }ni=0 bất kỳ của đoạn [to , T ], sao cho:
to < t1 < ... < tn = T , τi ∈ [ti , ti+1 ] := ∆i , |∆i | := ti+1 − ti (∀i = 0 ÷ n − 1).
Ứng với dãy điểm và phân hoạch nói trên, ta lập tổng Rieman σ {(ti , τi )}ni=0 :=
n−1
i=0

f (τi ).|∆i |. Khi maxo≤i≤n−1 {|∆i |} → 0, nếu tổng Rieman nói trên có giới hạn

trong X (khơng phụ thuộc vào {(ti , τi )}ni=0 ) thì ánh xạ f : [to , T ] → X gọi là khả tích
trên [to , T ], với giá trị của tích phân là:
n−1

T


f (τi ).|∆i | ∈ X , |∆| := max {|∆i |}.

f (t)dt := lim
to

|∆|→0

o≤i≤n−1

i=0

(1.1.5)

Định lý 1.1.1 : (xem [25] tr.458-459) Nếu ánh xạ f : [to , T ] → X khả vi (Frechet) liên
tục trên [t1 , t2 ] ⊂ [to , T ], thì nó cũng khả tích trên [t1 , t2 ] và ta có cơng thức Neuton Leibnitz sau:
t2

f˙(t)dt = f (t2 ) − f (t1 ) ∈ X.

(1.1.6)

t1

Chú ý 1.1.1 : Với X = Lp (U, ΣU , µ) (1 ≤ p ≤ ∞) là B-không gian (xem [7] tr.162,
167) những hàm ΣU -đo được gắn với không gian độ đo (U, ΣU , µ), ta có thể dựa vào
các định nghĩa nói trên để xây dựng khái niệm đạo hàm và tích phân tương ứng của
ánh xạ:
(t, u) → f (t; u) (∀(t, u) ∈ [to , T ] × U ), f (t; ·) ∈ X (∀t ∈ [to , T ]),
Lp (U ) = Lp (U, ΣU , µ) := g :


g

Lp (U )

|g(u)|p µ(du)

:=

1
p

với X là : (1.1.7)
< +∞ (p ≥ 1),

U

(1.1.8)
7


L∞ (U ) = L∞ (U, ΣU , µ) := g :

g

L∞ (U )

:=

inf


{N : µ(N )=0}

sup |g(u)| < +∞ .
u∈U \N

(1.1.9)
Trong trường hợp p=2, B-không gian X = L2 (U ) trở thành khơng gian Hilbert với
tích vơ hướng:
g(u).h(u)µ(du) (∀g, h ∈ L2 (U )).

(g, h) :=

(1.1.10)

U

Ngoài ra, khi khơng gian độ đo (U, ΣU , µ) là khơng gian xác suất (kgxs) (Ω, Σ, P ) (P (Ω) =
1), ta có thể diễn đạt ánh xạ (1.1.7) cùng với các khái niệm liên tục, đạo hàm và tích
phân của nó trong những ngơn ngữ ngẫu nhiên sau đây.

1.1.2

Đạo hàm và tích phân của q trình (hàm) ngẫu nhiên
Hilbert

Định nghĩa 1.1.4: (xem [13] tr.142) Gắn với kgxs (Ω, Σ, P ) đã cho, mỗi ánh xạ
ω → ξ(ω) : Ω → R1 được gọi là biến (đại lượng) ngẫu nhiên, nếu nó là Σ-đo được trên
Ω. Đại lượng ngẫu nhiên (đlnn) này gọi là có mơ men bậc p (1 ≤ p < ∞) hữu hạn nếu
ξ ∈ Lp (Ω), gọi là giới nội hầu chắc chắn (a.s.) nếu ξ ∈ L∞ (Ω). Khi ξ ∈ L1 (Ω), đlnn ξ

gọi là có kỳ vọng hữu hạn với kỳ vọng được ký hiệu là:
ξ(ω)P (dω) ⇒ |E{ξ}| ≤ E{|ξ|} := ξ

E{ξ} = Ew {ξ(ω)} :=

L1 (Ω) .

(1.1.11)

ξ 2 (ω)P (dω) < +∞

(1.1.12)



Định nghĩa 1.1.5: (xem [13] tr.236-237) Ta gọi:
L2 (Ω) = L2 (Ω, Σ, P ) = ξ : Ω → R1 | E{ξ 2 } =


là không gian Hilbert của các đlnn có moment bậc 2 hữu hạn xác định trên kgxs
(Ω, Σ, P ), trong đó tích vơ hướng và chuẩn có dạng:
(ξ, η) :=

ξ(ω)η(ω)P (dω) = E{ξ.η} , ξ

L2 (Ω)

2

:= E{ξ }




1
2

(∀ξ, η ∈ L2 (Ω)).
(1.1.12∗ )

Khi sử dụng ngôn ngữ tổng trực tiếp các không gian Hilbert (xem [7] tr.277-278), ta
có thể mở rộng định nghĩa trên dưới dạng:
Định nghĩa 1.1.5*: Với n và m là các số tự nhiên, ta gọi:
L2n×m := L2n×m (Ω) = ξ = (ξij )n×m : Ω → Rn×m | ξij ∈ L2 (Ω) (∀i = 1 ÷ n, j = 1 ÷ m)
(1.1.13)
8


là không gian Hilbert của các biến (ma trận) ngẫu nhiên (n × m)-chiều có moment bậc
2 hữu hạn, trong đó tích vơ hướng và chuẩn được xác định dưới dạng:
n

m

n

E{ξij .ηij } , ξ

(ξ, η)L2n×m :=

L2n×m


m

E ξij2

:=

i=1 j=1

1
2

i=1 j=1

∀ξ = (ξij )n×m , η = (ηij )n×m ∈ L2n×m (Ω) .

(1.1.13*)

Trường hợp m = 1, ta gọi L2n×1 = L2n (Ω) là không gian Hilbert các biến (vec tơ) ngẫu
nhiên n-chiều.
Định nghĩa 1.1.6: (xem [13] tr.237) Ánh xạ (1.1.7) với U = Ω, X = L2 (Ω) được gọi
là quá trình (hàm) ngẫu nhiên Hilbert (qtnn H) xác định trên không gian xác suất
(Ω, Σ, P ) và được ký hiệu là ξ(t) = f (t; .), to ≤ t ≤ T , trong đó đlnn ξ(t) = f (t; .) ∈
L2 (Ω) gọi là trạng thái của qtnn H tại thời điểm t, L2 (Ω) (và [to , T ]) lần lượt gọi là
không gian trạng thái (và tham số), tập hợp {f (t; ω) : to ≤ t ≤ T } ⊂ R1 gọi là quỹ đạo
gắn với biến cố sơ cấp ω ∈ Ω của qtnn H.
Tương tự như Định nghĩa 1.1.5*, ta có thể mở rộng Định nghĩa 1.1.6 thành:
Định nghĩa 1.1.6*: Ánh xạ (1.1.7) với U = Ω, X = L2n×m (Ω), f (t; ω) = fij (t; ω)

n×m


được gọi là qtnn H (n × m)-chiều xác định trên không gian xác suất (Ω, Σ, P ) và được
ký hiệu là ξ(t) = fij (t; ·)

n×m

, to ≤ t ≤ T , trong đó trạng thái của quá trình tại

thời điểm t là biến (ma trận) ngẫu nhiên ξ(t) = fij (t; ·)

n×m

∈ L2n×m (Ω), khơng gian

trạng thái là L2n×m (Ω), khơng gian các tham số là [to , T ].
Chú ý 1.1.2 : Khi m=1, qtnn nói trong định nghĩa trên trở thành qtnn H n-chiều
ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤ t ≤ T

1

với không gian trạng thái là L2n (Ω). Khơng

hạn chế tính tổng qt, dưới đây ta chỉ cần xét các qtnn H loại này, trong đó ánh xạ
(1.1.7) có dạng:
(t, ω) → f1 (t; ω), ..., fn (t; ω)

(∀(t, ω) ∈ [to , T ] × Ω),

fi (t; ·) ∈ L2 (Ω) (∀t ∈ [to , T ], i = 1 ÷ n).


(1.1.14)

Khi đó ta thu được các mệnh đề dưới đây, như là những trường hợp đặc biệt của các
mệnh đề trong Tiểu mục 1.1.1.
Định nghĩa 1.1.7: (xem [13] tr.237-238) qtnn H n-chiều {ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤
1

Chuyển vị của vec tơ hàng (f1 , ..., fn ) được ký hiệu là (f1 , ..., fn )

9


t ≤ T } được gọi là liên tục trung bình phương (TBP) tại t ∈ [to , T ], nếu ánh xạ (1.1.14)
liên tục tại t (theo Định nghĩa 1.1.1):
n
∆t→0

ξi (t + ∆t) − ξi (t)

E

lim

2

= 0 , ξi (t) := fi (t; ·) ∈ L2 (Ω) (∀i = 1 ÷ n). (1.1.15)

i=1

Định nghĩa 1.1.8: (xem [13] tr.239) qtnn H n-chiều {ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤

t ≤ T } được gọi là khả vi TBP tại t ∈ [to , T ], nếu ánh xạ (1.1.14) khả vi (Frechet) tại
t (theo Định nghĩa 1.1.2):
n



fi (t + ∆t; ω) − fi (t; ω) − f˙i (t; ω)∆t

2

= o(∆t) (∀∆t : t + ∆t ∈ [to , T ])

i=1

=⇒ f˙i (t; ·) = lim

fi (t + ∆t; ·) − fi (t; ·)
∆t

∆t→0

∈ L2 (Ω) (∀i = 1 ÷ n),

(1.1.16)

˙ = f˙(t; ·) := f˙1 (t; ·), ..., f˙n (t; ·) ∈ L2 (Ω) gọi là đạo hàm
trong đó đạo hàm Frechet ξ(t)
n
TBP tại t của qtnn H n-chiều {ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤ t ≤ T }.
Định nghĩa 1.1.9: (xem [13] tr.243) qtnn H n-chiều {ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤

t ≤ T } được gọi là khả tích trên [to , T ], nếu ánh xạ (1.1.14) khả tích trên đó (theo Định
nghĩa 1.1.3) với giá trị của tích phân là:
T

T

T
to

fn (t; ·)dt ∈ L2n (Ω).

f1 (t; ·)dt, ...,

ξ(t)dt :=

(1.1.17)

to

to

Định lý 1.1.2 : (xem [25] tr.244) Nếu qtnn H n-chiều {ξ(t) = f1 (t; ·), ..., fn (t; ·) , to ≤
t ≤ T } khả vi liên tục TBP trên [t1 , t2 ] ⊂ [to , T ], thì nó cũng khả tích trên [t1 , t2 ] và ta
có cơng thức Neuton - Leibnitz sau:
t2

f˙i (t; ω)dt = fi (t2 ; ω) − f (t1 ; ω) ∀i = 1 ÷ n, ω ∈ Ω(a.s.) .

(1.1.18)


t1

Chú ý 1.1.3 : Nếu các hàm trong (1.1.14) có dạng đặc biệt:
fi (t; ω) ≡ fi (t) ∈ R1 (∀t ∈ [to , T ], ω ∈ Ω, i = 1 ÷ n)
(không phụ thuộc vào biến cố sơ cấp ω ∈ Ω), thì qtnn H n-chiều trong Chú ý 1.1.2
được tất định hóa và trở thành "q trình (hàm) tất định" thông thường
f1 (t), ..., fn (t) , to ≤ t ≤ T

ξ(t) =

với "không gian trạng thái" (miền giá trị) là Rn . Khi

đó, các khái niệm "liên tục TBP" (Định nghĩa 1.1.7) và "đạo hàm TBP" (Định nghĩa
10


1.1.8) trở thành các khái niệm liên tục và đạo hàm thông thường của hàm vec tơ
ξ := (f1 , ..., fn ) : [to , T ] → Rn . Khái niệm tích phân (Định nghĩa 1.1.9) và cơng thức
Neuton-Leibnitz (Định lý 1.1.2) trở thành khái niệm và công thức quen thuộc tương
ứng đối với vec tơ hàm nói trên, trong đó các tích phân được hiểu theo nghĩa LebesgueRieman.

1.1.3

Phương trình vi phân với tham số ngẫu nhiên

Xét bài tốn Cauchy trong B-khơng gian X:
z(t)
˙ = g t, z(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ X

(1.1.19)


trong đó ánh xạ z : [to , T ] → X là nghiệm (cần tìm) với đạo hàm Frechet của nó tại
t là z(t)
˙ ∈ X; ánh xạ (đã cho) g : [to , T ] × X → X là liên tục và thỏa mãn điều kiện
Liptschitz, với sự tồn tại hằng số C>0 để cho:
g(t, x ) − g(t, x”)

X

≤ C x − x”

X

(∀x , x” ∈ X, t ∈ [to , T ]).

(1.1.20)

Định lý 1.1.3 : (xem [30] tr.179-180) Với sự thỏa mãn điều kiện (1.1.20) của ánh xạ
liên tục g, phương trình vi phân (1.1.19) ln tồn tại duy nhất nghiệm z ∈ C 1 [to , T ]; X .
Chú ý 1.1.4 : Ta có thể tích phân phương trình vi phân (1.1.19), nghĩa là sử dụng
công thức Neuton-Leibnitz (1.1.6) để biến phương trình này thành phương trình tích
phân tương đương:
t

g s, z(s) ds (to ≤ t ≤ T ).

z(t) = zo +

(1.1.21)


to

Khi dựa vào Chú ý 1.1.2 và Định nghĩa 1.1.8 ta có thể thiết lập bài tốn Cauchy
(1.1.19) với X = L2n (Ω) trong dạng "phương trình vi phân ngẫu nhiên", theo nghĩa
dưới đây:
Định nghĩa 1.1.10 : Phương trình vi phân (1.1.19) trong khơng gian Hilbert X =
L2n (Ω) được gọi là phương trình vi phân với tham số ngẫu nhiên - differential equation
with random parameters- (gọi tắt là phương trình vi phân ngẫu nhiên - PTVPNN), nếu
nghiệm z(t) = z1 (t; ·), ..., zn (t; ·) , to ≤ t ≤ T

của nó là một qtnn H n-chiều, z(t)
˙ là

đạo hàm TBP của quá trình này tại t, ảnh của ánh xạ (đã cho) g : [to , T ] × L2n (Ω) →
11


L2n (Ω) và mỗi thành phần của vec tơ ngẫu nhiên (đã cho) zo := (z01 , ..., zon ) ∈ L2n (Ω)
đều có mơ men bậc 2 hữu hạn.
Giả thiết về điều kiện Liptschitz (1.1.20) khi đó có dạng:
g(t, z ) − g(t, z”)

L2n (Ω)

≤ C z − z”

L2n (Ω)

(∀z , z” ∈ L2n (Ω), t ∈ [to , T ]).


(1.1.22)

Như là một hệ quả trực tiếp của Định lý 1.1.3, ta có mệnh đề dưới đây:
Định lý 1.1.4 : Nếu g liên tục TBP và thỏa mãn điều kiện (1.1.22), thì PTVPNN
(1.1.19) trong khơng gian Hilbert X = L2n (Ω) luôn tồn tại duy nhất nghiệm z ∈
C 1 [to , T ]; L2n (Ω) .
Trường hợp phương trình vi phân (phi tuyến) (1.1.19) trong B-khơng gian X trở
thành phương trình vi phân tuyến tính:
z(t)
˙ = A(t).z(t) + g(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ X,

(1.1.23)

ta có thể thay giả thiết (1.1.20) bởi các giả thiết yếu hơn sau đây:
g ∈ C([to , T ]; X) ; lim |A(t + ∆t) − A(t) | = 0
∆t→0

|A(t) | := sup
x

X

A(t)x

X

(∀t ∈ [to , T ]),

(1.1.24)


1

với A(t) (∀t ∈ [to , T ]) là ánh xạ tuyến tính liên tục trong X. Khi đó ta có:
Định lý 1.1.5 : (xem [30] tr.191) Với sự thỏa mãn các điều kiện (1.1.24), phương
trình vi phân tuyến tính (1.1.23) ln tồn tại duy nhất nghiệm z ∈ C 1 [to , T ]; X .
Khi xét phương trình vi phân tuyến tính (1.1.23) trong khơng gian Hilbert X =
L2n (Ω), ta xem rằng qtnn H n-chiều g(t) = g1 (t; ·), ..., gn (t; ·) , to ≤ t ≤ T
cùng với qtnn H (n × n)-chiều A(t) = aij (t; ·)

n×n

, to ≤ t ≤ T

là đã cho

và giả thiết (1.1.24)

có dạng:
g ∈ C([to , T ]; L2n (Ω)) ; lim |A(t + ∆t) − A(t) | = 0
∆t→0

|A(t) | :=

sup
x

L2
n (Ω)

A(t)x

1

L2n (Ω)

(∀t ∈ [to , T ]).

(1.1.25)

Khi đó, từ Định nghĩa 1.1.10 ta trực tiếp thu được hệ quả dưới đây của Định lý 1.1.5:
Hệ quả 1.1.1 : Với sự thỏa mãn các điều kiện (1.1.25), phương trình vi phân ngẫu

12


nhiên tuyến tính (1.1.23) (với X = L2n (Ω)) ln tồn tại duy nhất nghiệm z ∈ C 1 [to , T ];
L2n (Ω) .
Cuối cùng, từ Chú ý 1.1.3 ta nhận thấy rằng: phương trình vi phân ngẫu nhiên
tuyến tính nói trên là sự mở rộng trực tiếp của hệ n phương trình vi phân tuyến tính
(1.1.23) vói X = Rn (theo nghĩa tất định thơng thường). Khi đó với sự thay thế tính
liên tục TBP trong giả thiết (1.2.25) bởi tính liên tục từng khúc trên [to , T ], ta thu
được mệnh đề quen thuộc dưới đây (như là hệ quả của Hệ quả 1.1.1):
Hệ quả 1.1.2 : (xem [12] tr.56) Nếu các hàm A : [to , T ] → Rn×n , g : [to , T ] → Rn liên
tục từng khúc trên [to , T ], thì phương trình vi phân (tất định) (1.1.23) (với X = Rn )
luôn tồn tại duy nhất nghiệm z ∈ C [to , T ]; Rn khả vi từng khúc trên [to , T ].

1.2

Bài toán điều khiển với tham số ngẫu nhiên và
tổng quan về một số phương pháp để giải nó


1.2.1

Khái niệm về bài tốn điều khiển tối ưu với tham số
ngẫu nhiên

Gắn với kgxs (Ω, Σ, P ) đã cho, ta xét bài toán điều khiển tối ưu với tham số ngẫu
nhiên - optimal control problem with random parameters - (gọi tắt là bài toán điều
khiển (tối ưu) ngẫu nhiên - ĐKNN2 ) trong dạng tổng quát (general form) dưới đây:
JG (x) := E f o (z, x) → inf,
z(t)
˙ = g t, z(t), x(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ L2n (Ω),

(1.2.1)
(1.2.2)

x(t) ∈ X(t) ⊂ L2m (Ω) (to ≤ t ≤ T ),

(1.2.3)

z(t) ∈ Z(t) ⊂ L2n (Ω) (to ≤ t ≤ T ),

(1.2.4)

x(t), z(t) ∈ Y (t) ⊂ L2m (Ω) × L2n (Ω) (to ≤ t ≤ T ),

(1.2.5)

trong đó biến điều khiển là qtnn H m-chiều x(t) = x1 (t; ·), ..., xm (t; ·) ∈ L2m (Ω), to ≤
t ≤ T ; biến trạng thái là qtnn H n-chiều z(t) = z1 (t; ·), ..., zn (t; ·) ∈ L2n (Ω), to ≤
2


Cần phân biệt lối nói tắt này với bài tốn kinh điển về "điều khiển tối ưu ngẫu nhiên " (stochastic

optimal control) [12], [2], trong đó phương trình vi phân ngẫu nhiên hiểu theo nghĩa Ito.

13


t ≤ T ; hệ động lực (với tham số) ngẫu nhiên là PTVPNN (1.2.2) trong không gian
L2n (Ω) với z(t)
˙ ∈ L2n (Ω) là đạo hàm TBP của biến trạng thái tại t. Điều kiện (1.2.3) gọi
là ràng buộc về biến điều khiển, điều kiện (1.2.4) gọi là ràng buộc về biến trạng thái,
điều kiện (1.2.5) gọi là ràng buộc hỗn hợp giữa biến điều khiển và trạng thái. Các ánh
xạ (đã cho) g, f o trong hệ động lực (1.2.2) và hàm mục tiêu (1.2.1)) được giả thiết là
có dạng:


g : [to , T ] × L2n (Ω) × L2m (Ω) → L2n (Ω), f o : L2n (to , T ; Ω) × L2m (to , T ; Ω) → L1 (Ω),

với : Lp (to , T ; Ω) := y : [to , T ] → L2 (Ω)
k
k

y

p
Lpk

:=


T
to

y(t)

p
dt
L2k (Ω)

< +∞ ,
(1.2.6)

trong đó Lpk (to , T ; Ω) = Lp [to , T ]; L2k (Ω) (1 ≤ p < ∞) là một B-không gian (xem [7]
tr.162) và L2m to , T ; Ω là không gian Hilbert (xem [13] tr.241-243) của những qtnn H
m-chiều bình phương khả tích trên [to , T ] (theo Định nghĩa 1.1.9)) với tích vơ hướng và
chuẩn có dạng:


< x, y >L2 :=
m



m
i=1

T
to

Eω {xi (t; ω).yi (t; ω)}dt, x


L2m

:=

m
i=1

T
to

Eω {x2i (t; ω)}dt

1
2

∀x = (x1 , ..., xm ) , y = (y1 , ..., ym ) ∈ L2m to , T ; Ω := L2 [to , T ]; L2m (Ω) .
(1.2.6*)

Chú ý 1.2.1 : Ta cũng có thể phát biểu bài toán ĐKNN (1.2.1)-(1.2.5) với to , zo , T
chưa biết tương tự như trong trường hợp tất định (xem [12] tr.39-40).
Định nghĩa 1.2.1 : Đối với một lớp hàm điều khiển nào đó:
Xo = Xo (to , T ; L2m (Ω)) := x ∈ L2m to , T ; Ω : thỏa mãn (1.2.3) ⊂ L2 [to , T ]; L2m (Ω) ,
(1.2.7)
- Hệ động lực (1.2.2) gọi là điều khiển được bởi lớp hàm này, nếu với mọi điều khiển
x ∈ Xo PTVPNN (1.2.2) trong L2n (Ω) có nghiệm duy nhất thuộc lớp L1n (to , T ; Ω) =
L1 [to , T ]; L2n (Ω) .
- Nếu hệ động lực (1.2.2) là điều khiển được bởi lớp hàm Xo , thì tập hợp các hàm trong
Xo thỏa mãn các điều kiện ràng buộc (1.2.4)-(1.2.5):
X = X(to , T ; L2m (Ω)) := x ∈ Xo (to , T ; L2m (Ω)) : thỏa mãn (1.2.4) ÷ (1.2.5)


(1.2.7∗ )

gọi là tập hợp các điều khiển chấp nhận được. Mỗi điều khiển x ∈ X gọi là chấp nhận
được - CNĐ (admissible).
14


- Điều khiển CNĐ x ∈ X không phụ thuộc vào biến trạng thái z trong hệ động lực
(1.2.2) gọi là điều khiển theo chương trình (programme [11], open-loop control [2]) và
bài toán ĐKNN (1.2.1)-(1.2.5) gọi là bài toán điều khiển theo chương trình.
- Nếu điều khiển x(t) = x t, z(t) (phụ thuộc vào trạng thái z(t)) với hệ động lực
(1.2.2) và lớp hàm điều khiển (1.2.7) lần lượt có dạng:


 z(t)
˙ = g t, z(t), x t, z(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ L2n (Ω),

Xo (to , T ; L2 (Ω)) := x(·, z) ∈ L2 to , T ; Ω : thỏa mãn (1.2.3) (∀z ∈ L2 (Ω)) ,
n
m
m
(1.2.8)
thì mỗi điều khiển CNĐ x = x(z) ∈ X gọi là một điều khiển tổng hợp (synthetic [11],
closed-loop, feedback control [2]) và bài toán ĐKNN (1.2.1)-(1.2.5) gọi là bài toán điều
khiển tổng hợp.
Chú ý 1.2.2 : Nếu chỉ xét bài tốn ĐKNN (1.2.1)-(1.2.3) (khơng có ràng buộc biến
trạng thái (1.2.4) và ràng buộc hỗn hợp (1.2.5)), trong đó hệ động lực được giả thiết
là điều khiển được bởi lớp hàm Xo = Xo (to , T ; L2m (Ω)) thì lớp hàm này cũng gọi là tập
hợp các điều khiển CNĐ của bài toán (1.2.1)-(1.2.3): X = X(to , T ; L2m (Ω)) ≡ Xo (xem

[2] tr.230).
Định nghĩa 1.2.2 : Điều khiển CNĐ x∗ ∈ X(to , T ; L2m (Ω)) gọi là tối ưu, nếu:
JG (x∗ ) ≤ JG (x) (∀x ∈ X(to , T ; L2m (Ω)).

(1.2.9)

Ta có thể xét những trường hợp riêng dưới đây của hàm mục tiêu tổng quát JG (x):
Định nghĩa 1.2.3 : Bài toán (1.2.1)-(1.2.5) lần lượt gọi là Bài toán Mayer, Lagrange,
Bolza, nếu:








JG (x) = JM (x) := E f1o z(T )

, f1o : L2n (Ω) → L1 (Ω),

T

JG (x) = JL (x) := to E f2o t, z(t), x(t) dt, f2o : [to , T ] × L2n (Ω) × L2m (Ω) → L1 (Ω),




T



JG (x) = JB (x) := E f1o z(T ) + to E f2o t, z(t), x(t) dt.
(1.2.10)
Chú ý 1.2.3 : Tương tự như trong trường hợp tất định (xem [12] tr.40-41), ta có thể
chỉ ra rằng: 3 dạng trên đây của bài toán ĐKNN là tương đương, theo nghĩa: từ dạng
này có thể chuyển sang dạng kia.
15


Chú ý 1.2.4 : Từ Chú ý 1.1.3 ta dễ dàng nhận thấy rằng: Nếu xét trường hợp đặc
biệt của bài tốn ĐKNN (1.2.1)-(1.2.5) với các khơng gian L2m (Ω), L2n (Ω) được lần lượt
thay bởi Rm , Rn thì biến điều khiển

x(t) = x1 (t), ..., xm (t) ∈ Rm , to ≤ t ≤ T

biến trạng thái z(t) = z1 (t), ..., zn (t) ∈ Rn , to ≤ t ≤ T



trở thành các quá trình tất

định. Khi đó bài tốn (1.2.1)-(1.2.5) trở thành bài tốn điều khiển tối ưu (tất định):
JG (x) := f o (z, x) → inf,
z(t)
˙ = g t, z(t), x(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ Rn ,

(1.2.11)
(1.2.12)

x(t) ∈ X(t) ⊂ Rm (to ≤ t ≤ T ),


(1.2.13)

z(t) ∈ Z(t) ⊂ Rn (to ≤ t ≤ T ),

(1.2.14)

x(t), z(t) ∈ Y (t) ⊂ Rm × Rn (to ≤ t ≤ T ).

(1.2.15)

Trong trường hợp này, các công thức (1.2.6) và (1.2.6*) lần lượt trở thành:
g : [to , T ] × Rn × Rm → Rn , f o : L1 [to , T ]; Rn ×L2 ([to , T ]; Rm ) → R1 ,

(1.2.16)


T 2
m


L2m = L2 ([to , T ]; Rm ) := (x1 , ..., xm ) : [to , T ] → Rm

i=1 to xi (t)dt < +∞ ,


T
T 2
m
< x, y >L2m := m

i=1 to xi (t).yi (t)dt, x L2m :=
i=1 to xi (t)dt






∀x = (x1 , ..., xm ) , y = (y1 , ..., ym ) ∈ L2 [to , T ]; Rm .
(1.2.16*)
Lớp hàm điều khiển và tập hợp các điều khiển CNĐ của bài toán (1.2.11)-(1.2.15) lần
lượt có dạng:
Xo = Xo ([to , T ]; Rm ) := x ∈ L2 [to , T ]; Rm : thỏa mãn (1.2.13) ⊂ L2 ([to , T ]; Rm ),
X = X [to , T ]; Rm := x ∈ Xo [to , T ]; Rm ) : thỏa mãn (1.2.14) ÷ (1.2.15) . (1.2.17)

1.2.2

Sơ lược về một vài phương pháp số giải bài toán điều
khiển tối ưu

Các kết quả phong phú nhất trong việc giải bằng số bài toán điều khiển tối ưu (1.2.1)(1.2.5) thuộc vào lãnh vực tất định,3 nghĩa là các phương pháp giải bài toán (1.2.11)(1.2.15). Tuy nhiên, cho đến nay các phương pháp đó mới chỉ giải được từng trường
3

Ngoại trừ các kết quả để giải bài toán ĐKNN với hệ động lực là PTVP Ito (xem, chẳng hạn [2]

tr.281-318).

16



hợp riêng biệt của bài tốn này. Ngồi phương pháp sai phân [10], [11] (chuyển về bài
toán điều khiển trong mơ hình rời rạc), ta có thể xét các phương pháp chính dưới đây.
1 - Phương pháp gián tiếp : Đối với các bài tốn điều khiển theo chương trình,
người ta đã xét (xem, chẳng hạn [2] tr.240) bài toán điều khiển lồi (1.2.11)-(1.2.13)
(khơng có các ràng buộc (1.2.14)-(1.2.15)), trong đó hàm mục tiêu (1.2.11) có dạng
Bolza, hệ động lực (1.2.12) có dạng tuyến tính, tập hợp X(t) trong (1.2.13) không phụ
thuộc thời gian: X(t) ≡ X ∈ Rm (∀t ∈ [to , T ]) và là một tập hợp lồi, đóng. Cụ thể là
bài tốn:


JB (x) := f1o z(T ) +

T
to

f2o t, z(t), x(t) dt → inf, x(t) ∈ X(∀t ∈ [to , T ]),

(1.2.18)


z(t)
˙ = F (t)z(t) + G(t)x(t) + f (t) (to < t ≤ T ), z(to ) = zo ∈ Rn (đã cho),
với tập hợp các điều khiển CNĐ X = X(to , T ; Rm ) ⊂ L2 [to , T ]; Rm và các giả thiết sau:



F : [to , T ] → Rn×n , G : [to , T ] → Rn×m , F (t) ≤ c, G(t) ≤ c (∀t ∈ [to , T ]),







f ∈ L2 [to , T ]; Rm ; f2o (t, ·, ·) ∈ C 1 (Rn × Rm ; R1 ) (∀t ∈ [to , T ]), f1o ∈ C 1 (Rn ; R1 ),

∂f2o (t,z,x)
∂f2o (t,z,x)



c
≤ c2 z + x + f2 (t) (∀t),
z
+
x
+
f
(t)
,
1
1

∂z
∂x




f ∈ L1 (t , T ) (i = 1 ÷ 2), các hàm z → f o (z), (z, x) → f o (t, z, x) (∀t) là lồi.
i

o
1
2
(1.2.18*)
Cơ sở của phương pháp gián tiếp dùng để giải bài toán (1.2.18) là nguyên lý cực đại
Pontriagin (1959) sau đây:

Định lý 1.2.1 : ( [2] tr.240-246) Nếu các giả thiết (1.2.18*) được thỏa mãn, thì điều
khiển x∗ ∈ L2 [to , T ]; Rm là tối ưu khi và chỉ khi nó thỏa mãn "nguyên lý cực đại"
(một cách hầu khắp nơi - a.e theo thời gian) sau đây:
H t, z ∗ (t), x∗ (t), p(t) = max H t, z ∗ (t), u, p(t)

∀t ∈ [to , T ](a.e) ,

u∈X

(1.2.19)

trong đó z ∗ (t), to ≤ t ≤ T } là quá trình trạng thái của hệ động lực trong (1.2.18) ứng
với quá trình điều khiển x∗ (t), to ≤ t ≤ T }, p : [to , T ] → Rn là nghiệm của "phương
trình liên hợp":


 −p(t)
˙ = F (t)p(t) −



p(T ) = −


∂f2o t,z ∗ (t),x∗ (t)
∂z1
∂f1o z ∗ (T )
∂z1

, ...,

, ...,

∂f2o t,z ∗ (t),x∗ (t)

∂f1o z ∗ (T )
∂zn

17

∂zn
n

∈R ,

(to ≤ t < T ),

(1.2.20)


với F (t) là chuyển vị của ma trận F (t) và "hàm Hamilton" H(t, z, x, p) xác định dưới
dạng:
H(t, z, x, p) := −f2o (t, z, x) + p, F (t)z + G(t)x + f (t) (∀t ∈ [to , T ], z, p ∈ Rn , x ∈ Rm ).
(1.2.21)

Để thiết lập hàm Hamilton trong nguyên lý cực đại (1.2.19), ta cần giải (đồng thời)
PTVP (1.2.20) (với biên kiện cho tại t=T) và PTVP trong (1.2.18) (với biên kiện
cho tại t = to ), nghĩa là việc tìm nghiệm z(t), p(t) (to ≤ t ≤ T ) của hệ 2 phương
trình nói trên đưa đến 1 bài toán giá trị biên 2 điểm. Các kỹ thuật Newton - Raphson
(Quasilinearization technique [2] tr.188-189) và bắn (Shooting method [2] tr.187-188)
của giải tích số có thể thực hiện điều trên một cách gần đúng. Nhằm hữu hạn hóa
số (khơng đếm được) các bài toán quy hoạch cần giải trong (1.2.19), ta có thể chọn
X(to , T ; Rm ) là lớp hàm bậc thang (hoặc tuyến tính từng khúc) trên [to , T ] với lưu ý
rằng: Do hàm mục tiêu trong các bài toán quy hoạch của nguyên lý cực đại là hàm
lõm (theo u) trên miền lồi X, nên ta có thể sử dụng cơng cụ của quy hoạch lồi (xem,
chẳng hạn [28]) để giải bằng số các bài toán đặt ra.
Sau trường hợp trọn vẹn và đẹp đẽ kể trên, nguyên lý cực đại cũng đã được phát
biểu đối với việc bổ sung vào bài toán (1.2.18) ràng buộc trạng thái dạng (1.2.14),
nhưng lại kèm theo những khó khăn khơng nhỏ cho tốn học tính tốn. Chẳng hạn,
khi Z(t) := z ∈ Rn : Lj (z, t) ≤ 0 (j = 1 ÷ k, t ∈ [to , T ]) - gắn với sự bổ sung vào
(1.2.18*) các giả thiết (xem [2] tr.246) về tính lồi của các hàm Lj (·, t) (∀t) và tính giới
nội địa phương (theo z) của các ma trận đạo hàm cấp 2 đối với các hàm này cùng với sự
tồn tại "điều khiển Sleyter" x ∈ X(to , T ; Rm ) (trạng thái z ∈ L1 (to , T ; Rn ) tương ứng
thỏa mãn các điều kiện Lj (z(t), t) < 0 (∀j, t)), ta nhận thấy rằng nguyên lý cực đại ( [2]
tr.255) đưa đến 2 bài toán quy hoạch gắn với sự tồn tại hàm π(t) có biến phân giới nội
và hệ hàm λj (t)

k
j=1

không giảm, liên tục phải sao cho λj (0) = 0 (j = 1 ÷ k). Trong

trường hợp đơn giản hơn ( [2] tr.255): điều kiện ràng buộc biến trạng thái (1.2.14) chỉ
đặt tại thời điểm cuối T với Z(T ) := z ∈ Rn : Lj (z) ≤ 0 (j = 1 ÷ k) , tuy nguyên
lý cực đại ( [2] tr.256-257) chỉ đưa về 1 bài toán quy hoạch nhưng lại gắn với các điều

kiện hoành: Lj z ∗ (T ) ≤ 0, λj .Lj z ∗ (T ) = 0, λj ≥ 0 (j = 1 ÷ k). Trường hợp đặc biệt
(xem [2] tr.258) của bài toán (1.2.18) là bài tốn điều khiển tồn phương (với các hàm

18


f1o (z), f2o (t, z, x), F (t), G(t), f (t) xác định bởi các ma trận đối xứng), tuy ngun lý cực
đại có đưa ra biểu thức giải tích (hiển) của điều khiển tối ưu ( [2] tr.260) nhưng lại
liên quan đến việc giải phương trình vi phân ma trận Riccarti. Đây cũng không phải
là những công việc đơn giản về mặt tốn học tính tốn.
Khi vượt ra ngồi khn khổ của những bài tốn điều khiển lồi nói trên, nguyên lý
cực đại (trong dạng điều kiện cần của điều khiển "tối ưu") cũng đã được phát biểu
([2] tr.231-232) cho bài tốn (1.2.11)-(1.2.13) (khơng có các ràng buộc (1.2.4)-(1.2.15)),
trong đó hàm mục tiêu có dạng Mayer (JG (x) = JM (x)) và X(to , T ; Rm ) là lớp những
hàm liên tục từng khúc. Tuy nhiên, do bài tốn điều khiển (theo chương trình) này
khơng có tính lồi và do nguyên lý nói trên chỉ là điều kiện cần nên khái niệm "tối ưu"
nói trên chỉ được hiểu theo nghĩa địa phương (khơng phải là tối ưu tồn cục). Ngồi
ra, do bài tốn quy hoạch trong ngun lý cực đại nói chung khơng có dạng của bài
tốn quy hoạch lồi nên phải dùng đến phương pháp Monte Carlo ( [20] tr.271-309) để
giải nó.
2 - Phương pháp ẩn : Bây giờ ta xét bài toán điều khiển tổng hợp có dạng (1.2.11)(1.2.14) sau:




JG (x) = JM (x) := f1o z(T ) → inf,



z(t)

˙ = g t, z(t), x t, z(t) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ Rn , trong đó :





Xo (to , T ; Rm ) := x : [to , T ] × Z → X ⊂ Rm liên tục từng khúc trên [to , T ] ,
(1.2.22)
X(to , T ; Rm ) := x ∈ Xo (to , T ; Rm ) : z(t) ∈ Z ⊂ Rn (to ≤ t ≤ T ) .

(1.2.22∗ )

Cơ sở của phương pháp ẩn dùng để giải bài toán trên là nguyên lý quy hoạch động
Bellman (1957), với giả thiết rằng luôn tồn tại duy nhất nghiệm z ∈ L1 ([θ, T ]; Rn ) của
phương trình vi phân:
z(t)
˙ = g t, z(t), x t, z(t)

(θ < t ≤ T ) , z(θ) = y ∀θ ∈ [to , T ], y ∈ Z, x ∈ Y(θ, y) ,
(1.2.23)

trong đó: Y(θ, y) := x ∈ Xo (θ, T ; Rm ) : z(t) ∈ Z (θ ≤ t ≤ T ) là tập hợp các điều
khiển CNĐ của hệ động lực (1.2.23) với Xo (θ, T ; Rm ) là thu hẹp trên [θ, T ] của lớp hàm
Xo (to , T ; Rm ).
19


Gọi V : [to , T ] × Z → R1 là hàm Bellman, xác định dưới dạng:
V (θ, y) :=


inf
x∈Y(θ,y)

f1o z(T ; x) (∀(θ, y) ∈ [to , T ]×Z) ⇒ V (to , zo ) = f1o z ∗ (T ) , (1.2.24)

trong đó : z(t; x) (θ ≤ t ≤ T ) là trạng thái của hệ động lực (1.2.23) ứng với điều
khiển x ∈ Y(θ, y), z ∗ (t) = z(t; x∗ ) (θ ≤ t ≤ T ) là trạng thái ứng với điều khiển tối ưu
x∗ ∈ X(to , T ; Rm ) của bài tốn (1.2.22). Khi đó ta có (xem [12] tr.117) phương trình
quy hoạch động sau:
∂V (θ, y)
∂V (θ, y)
= − min
, g(θ, y, u) (∀(θ, y) ∈ [to , T ]×Z), V (T, y) = f1o (y) (∀y ∈ Z).
u∈X
∂θ
∂y
(1.2.25)
Định lý 1.2.2 : ( [12] tr.115-122) Giả sử X ⊂ Rm là tập hợp compac và bài toán biên
đối với phương trình đạo hàm riêng (1.2.25) có nghiệm phẳng là hàm Bellman (1.2.24).
Gọi x∗ ∈ X(to , T ; Rm ), trong đó x∗ (t) = x∗ t; z ∗ (t) là lời giải của bài toán cực đại:
∂V (t, z ∗ (t))
∂V (t, z ∗ (t))
, g(t, z ∗ (t), x∗ (t)) = max
, g(t, z ∗ (t), u) (∀t ∈ [to , T ]),
u∈X
∂y
∂y
(1.2.26)
với z ∗ (t) (to ≤ t ≤ T ) là trạng thái của hệ động lực (1.2.12) ứng với điều khiển
x∗ (t) (to ≤ t ≤ T ). Khi đó x∗ (t) = x∗ t; z ∗ (t) (to ≤ t ≤ T ) sẽ là điều khiển tổng hợp

tối ưu của bài toán (1.2.22) và:
V t, z ∗ (t) ≡ V (to , zo )(∀t ∈ [to , T ]) ⇔ z ∗ (t) là quỹ đạo ứng với điều khiển tối ưu x∗
(1.2.26∗ )
Khi đã biết biểu thức giải tích của hàm Bellman V (θ, y) (Chẳng hạn, đối với trường
hợp f1o (·) là hàm toàn phương, g(t, ·, ·) là hàm tuyến tính (xem [12] tr.123-124)), ta
có thể dựa vào z ∗ (to ) := zo để thiết lập bài toán (1.2.26) với t = to và thu được lời
giải u = x∗ (to ). Tiếp theo, bằng việc sai phân hóa hệ (1.2.12) ta thu được z ∗ (tk ) từ
x∗ (tk−1 ), z ∗ (tk−1 ) (đã biết trong bước trước ). Trên cơ sở này thiết lập và giải bài toán
cực đại (1.2.26) (với t = tk ), để thu được lời giải u = x∗ (tk ), với chú ý rằng: khi X ⊂ Rm
là miền lồi và g(t, z, x) là hàm lõm theo x, ta có thể sử dụng cơng cụ của quy hoạch lồi
để làm việc này. Khi khơng có các giả thiết trên, phải dùng đến công cụ của phương
pháp Monte Carlo (Mục 1.3). Tuy nhiên, nói chung ta chưa biết biểu thức giải tích của
hàm Bellman. Bởi vậy khó khăn đầu tiên để sử dụng Định lý 1.2.2 là việc tìm nghiệm
V (θ, y) của phương trình đạo hàm riêng trong (1.2.25), tiếp theo là việc kiểm tra sự
20


thỏa mãn của điều kiện biên trong đó. Larson (1968) và Lamarechal (1972) đã dùng
phương pháp lưới (xem [2] tr.184-185) để giải quyết vấn đề này nhưng cũng gập nhiều
khó khăn, khi z ∗ (tk ) trong mơ hình tính tốn nói trên khơng rơi vào các điểm đã chia
của lưới (phủ lên miền [to , T ] × Z); thậm chí có khó khăn khơng khắc phục được như
trường hợp n ≥ 4. Khi dựa vào (1.2.26*), Michailevich và Shor đã tránh được phần
nào khó khăn nói trên bằng cách sử dụng phương pháp chổi Kiev (xem [1] tr.97-104).
Nhưng phương pháp đó cũng có nhược điểm bởi tính địa phương của những điều khiển
"tối ưu" mà nó thu được và cũng bị hạn chế về số chiều n của biến trạng thái (do sử
dụng nhiều bộ nhớ cùng thời gian tính tốn).
3 - Phương pháp trực tiếp : Khác với phương pháp gián tiếp (chuyển bài toán điều
khiển về các bài toán của nguyên lý cực đại để giải các bài toán trung gian này), trong
các phương pháp trực tiếp ta có thể dùng cách tiếp cận giải tích hàm hoặc giải tích
(tham số hóa hàm điều khiển - TSHĐK) để giải trực tiếp bài toán điều khiển.

Đối với cách tiếp cận giải tích hàm, người ta thường xét bài toán Mayer (JG (x) =
JM (x)) trong dạng tất định (1.2.11)-(1.2.12) (xem [2] tr. 193-195) hoặc dạng ngẫu
nhiên (1.2.1)-(1.2.2) (xem [19], [29], [18]), trong đó JM (x) = f1o z[T ; x(·)] và JM (x) =
E f1o z[T ; x(·)]

là những phiếm hàm xác định lần lượt trên Xo (to , T ; Rm ) và Xo to , T ;

L2m (Ω) (thông qua nghiệm z(t) = z t; x(·) của các PTVP (1.2.12) và (1.2.2) tại
t=T). Trên cơ sở này, thiết lập bài toán cực tiểu phiếm hàm: minx∈Xo (to ,T ;Rm ) JM (x)
và minx∈Xo (to ,T ;L2m (Ω)) JM (x). Các cơng cụ của phép tính biến phân ( [12] tr.10-31) hoặc
của giải tích số như: phương pháp đường dốc nhất ( [24] tr.589-599), gradient ( [2]
tr.192-195) đã được sử dụng để giải các bài toán cực tiểu phiếm hàm đã thiết lập.
Đương nhiên là cách tiếp cận này khơng có điều kiện xét tới những ràng buộc trạng
thái và ràng buộc hỗn hợp trong bài tốn điều khiển và cũng khơng xét tới bài tốn
điều khiển tổng hợp.
Để khắc phục những nhược điểm nói trên, trong phương pháp TSHĐK ta có thể xét
dạng điều khiển tất định theo chương trình (1.2.11)-(1.2.15) hoặc dạng ngẫu nhiên mở
rộng của bài toán (1.2.22)-(1.2.22*) là bài toán ĐKNN tổng hợp sau đây:



JG (x) := E f o z, x → inf,

z(t)
˙ = g t, z(t), x t, z(t)

(to < t ≤ T ) , z(to ) = zo (đã cho) ∈
21

L2n ,


(1.2.27)


trong đó:
Xo to , T ; L2m (Ω) := x : [to , T ] × Z → X ⊂ L2m liên tục từng khúc trên [to , T ] ,
X to , T ; L2m (Ω) := x ∈ Xo to , T ; L2m (Ω) : thỏa mãn (1.2.4)-(1.2.5) , (1.2.27*)
với giả thiết rằng có thể TSHĐK x(·, z) = x(·, z; θ) ∈ X to , T ; L2m (Ω) bởi các tham số
θ ∈ RN , sao cho số không đếm được những điều kiện ràng buộc (1.2.4)-(1.2.5) trong
(1.2.27*) được thay bằng một số hữu hạn các ràng buộc theo các tham số θ và ta có
thể chuyển bài tốn trên về bài tốn ĐKNN theo tham số :
J(θ) := E f o z(·; θ), x(·; θ)

→ inf , θ ∈ Θ ⊂ RN ,

z(t)
˙ = g t, z(t), x(t, z(t); θ) (to < t ≤ T ) , z(to ) = zo (đã cho) ∈ L2n (Ω).

(1.2.28)
(1.2.28∗ )

Khi đó (1.2.28) trở thành một bài tốn quy hoạch ngẫu nhiên (QHNN) [10], với z(t; θ) =
z(t) (to ≤ t ≤ T ) là nghiệm của PTVP ngẫu nhiên (1.2.28*). Phương pháp Monte Carlo
(Mục 1.3) sẽ được sử dụng để giải bài tốn QHNN nói trên.
Thí dụ về phương pháp TSHĐK trên đây có thể tìm thấy trong Chương 2 của bản
luận văn này, trong đó lớp hàm điều khiển Xo (to , T ; Rn ) và tập hợp các điều khiển
CNĐ X(to , T ; Rn ) có dạng tất định với các tập hợp X(t), Z(t) ⊂ Rn , Y (t) ⊂ R2n .
4 - Phương pháp Monte Carlo : (dùng để giải số cả bài toán tất định lẫn ngẫu
nhiên).
- Trong các bài toán điều khiển tất định, phương pháp Monte Carlo (PPMC) được

xem là một loại phương pháp sai phân trực tiếp dùng để giải các bài tốn quy hoạch
đo được (khơng có tính lồi) [17], [4], [3] hoặc ngẫu nhiên hóa các bài tốn này [6] để
sử dụng các mơ hình dị tìm ngẫu nhiên (Mục 1.3). Cũng có thể xem PPMC là một
loại phương pháp sai phân gián tiếp, dùng để thiết lập các nguyên lý cực đại rời rạc
mô phỏng [5] và đưa về việc sử dụng các mô hình dị tìm ngẫu nhiên.
- Trong lãnh vực ngẫu nhiên, PPMC (cịn gọi là phương pháp mơ phỏng - symulation
method) thường làm việc với các bài toán ĐKNN rời rạc (theo chương trình hoặc tổng
hợp), trong đó tham biến ω ∈ Ω là 1 vec tơ ngẫu nhiên (vtnn) có phân bố xác suất đã
cho. Khi khơng có ràng buộc hỗn hợp, người ta đã dùng các phương pháp sai phân tất
định nói trên (xem [2] tr.195-197) với Fo (ˆ
x) ≈ No−1
o
trong đó {ω j }N
j=1 (No

No
j=1

fo (ˆ
z , xˆ ; ω j ) (∀ˆ
x∈

N
n=1

Xn ),

1) là dãy những thể hiện độc lập của vtnn ω (tạo bằng PPCM
22



[20]). Khi bài tốn QHNN có tính lồi , phương pháp chiếu tựa gradient ngẫu nhiên
No
( [10] tr.148-154) đã được dùng để giải bài tốn. Ở đây dãy mơ phỏng {ω j }j=1
nói

trên của vtnn ω được sử dụng để tạo ra dãy các tựa gradient ngẫu nhiên (xem [10]
tr.134-138). Khơng chỉ đối với các bài tốn ĐKNN rời rạc nói trên, PPCM cịn được
sử dụng trong các phương pháp trực tiếp để giải bài toán ĐKNN (1.2.1)-(1.2.5) bằng
phương pháp gradient [18], phương pháp xấp xỷ ngẫu nhiên [19], [29], phương pháp
bắn ngẫu nhiên Markov [8], phương pháp dị tìm ngẫu nhiên hỗn hợp [21], [23], [22] ,
phương pháp chiếu gradient ngẫu nhiên [9].

1.3

Mơ hình dị tìm hỗn hợp giải bài toán quy hoạch
ngẫu nhiên

Các phương pháp số giải bài toán điều khiển thường đưa đến các bài toán quy hoạch
(tất định hoặc ngẫu nhiên). Khi bài toán điều khiển tất định khơng có tính lồi, bài
tốn quy hoạch tương ứng có dạng rất tổng qt (gọi là bài tốn quy hoạch đo được
gắn với không gian độ đo (Θ, ΣΘ , µ)). Nếu bài tốn này có lời giải (tối ưu) là θ∗ ∈ Θ,
thì nó có dạng:
F (θ∗ ) = min F (θ) , θ = (θ1 , ..., θm ) ∈ Θ ∈ Bm ⊂ Rm , µ(Θ) > 0,
θ∈Θ

(1.3.1)

trong đó Bm là σ-đại số các tập hợp Borel trong Rm , µ là độ đo Lebesgue trong Rm ,
hàm mục tiêu F : Θ → R1 là đo được trên Θ (tập hợp các lời giải CNĐ). Các phương

pháp dị tìm ngẫu nhiên (đơn giản, tổng quát, hỗn hợp) có thể được sử dụng để giải
bài toán trên (xem [20] tr.281-309).
Khi bài toán điều khiển đưa đến bài toán quy hoạch ngẫu nhiên (QHNN):
F (θ) := E f (θ; ξ) → inf, θ = (θ1 , ..., θm ) ∈ Θ ⊂ Rm , với f (θ; ξ) ∈ L1 (Ω) (∀θ ∈ Θ),
(1.3.2)
gắn với kgxs (Ω, Σ, P ) sinh bởi vtnn ξ có phân phối xác suất đã cho, PPMC được
dùng để mô phỏng (tạo những thể hiện) của ξ (xem [20] tr.106-138), trong đó bài tốn
QHNN (1.3.2) nói chung là khơng có tính lồi và ta có thể xem nó là bài tốn quy hoạch
đo được (1.3.1) gắn với không gian độ đo (Θ, ΣΘ , µ).
23


×