Tải bản đầy đủ (.pdf) (68 trang)

Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (372.65 KB, 68 trang )

LỜI CẢM ƠN
Luận văn được hoàn thành tại Trường Đại học Sư phạm Hà Nội 2
dưới sự hướng dẫn của TS. Trần Văn Bằng.
Tác giả xin được gửi lời cảm ơn chân thành tới TS. Trần Văn Bằng.
Sự tận tình song rất nghiêm túc của thầy trong suốt quá trình học tập
và làm luận văn đã giúp tác giả trưởng thành hơn rất nhiều về cách tiếp
cận một vấn đề mới. Cảm ơn các thầy cô giáo giảng dạy chuyên ngành
Toán Giải tích đã nhiệt tình cung cấp các tri thức khoa học giúp tác giả
nâng cao trình độ tư duy, hoàn thành tốt quá trình học tập và làm luận
văn. Tác giả cũng xin được cảm ơn tới trường THPT Việt Trì đã quan
tâm giúp đỡ và tạo mọi điều kiện thuận lợi để tác giả yên tâm học tập
trong suốt hai năm vừa qua.
Cuối cùng, tác giả xin được cảm ơn tới gia đình, bạn bè đã giúp
đỡ, động viên kịp thời để tác giả hoàn thành bản luận văn này.
Hà Nội, tháng 5 năm 2011
Tác giả
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tôi.
Trong khi nghiên cứu luận văn, tôi đã kế thừa thành quả khoa học
của các nhà khoa học và đồng nghiệp với sự trân trọng và biết ơn.
Hà Nội, tháng 5 năm 2011
Tác giả
Mục lục
Mở đầu 5
Chương 1. Một số kiến thức chuẩn bị 7
1.1 Về lý thuyết điều khiển tối ưu . . . . . . . . . . . . . . . 7
1.1.1 Hệ điều khiển . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Bài toán điều khiển tối ưu . . . . . . . . . . . . . 11
1.1.3 Nguyên lý quy hoạch động . . . . . . . . . . . . . 13
1.1.4 Phương trình Hamilton-Jacobi-Bellman . . . . . . 17
1.1.5 Phương pháp quy hoạch động . . . . . . . . . . . 20


1.2 Lý thuyết trò chơi vi phân . . . . . . . . . . . . . . . . . 24
1.3 Nghiệm nhớt của phương trình Hamilton-Jacobi . . . . . 30
1.3.1 Khái niệm và tính chất . . . . . . . . . . . . . . . 30
1.3.2 Nguyên lý cực trị và nguyên lý so sánh . . . . . . 32
1.3.3 Tính liên tục Lipschitz của nghiệm nhớt . . . . . 35
1.4 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . 37
Chương 2. Ứng dụng của nghiệm nhớt 38
2.1 Ứng dụng đối với lý thuyết điều khiển tối ưu . . . . . . . 38
2.1.1 Nghiệm nhớt của phương trình quy hoạch động . 38
2.1.2 Điều kiện cần và đủ của điều khiển tối ưu . . . . 43
2.2 Ứng dụng đối với lý thuyết trò chơi vi phân . . . . . . . 51
2.2.1 Nghiệm nhớt của phương trình quy hoạch động . 51
2.2.2 Ứng dụng của nghiệm nhớt để xây dựng phản hồi
tối ưu. . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2.3 Sự hội tụ của lược đồ xấp xỉ bán rời rạc. . . . . . 61
4
2.3 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . 66
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . 68
MỞ ĐẦU
1. Lí do chọn đề tài
Lý thuyết nghiệm nhớt của phương trình Hamilton- Jacobi cấp một
đã được đề xuất bởi M.Crandall và P.L. Lions từ những năm đầu của
thập kỷ 80 (xem [7], [3]), mà một trong những động lực chính của nó là
để nghiên cứu phương trình Hamilton - Jacobi - Bellman. Nó xuất hiện
trong cách tiếp cận quy hoạch động đối với các bài toán điều khiển tối
ưu tất định. Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cho
lớp các phương trình elliptic - parabolic suy biến cấp hai (xem [6]) và
đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệt là trong
lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân (xem [4],[5]).
Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đã

chọn đề tài ”Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối
ưu và lý thuyết trò chơi vi phân".
2. Mục đích nghiên cứu
Nghiên cứu khái niệm nghiệm nhớt của phương trình đạo hàm riêng,
các tính chất và các ứng dụng có thể của chúng trong lý thuyết điều
khiển tối ưu đặc biệt là trong lý thuyết trò chơi vi phân.
3. Nhiệm vụ nghiên cứu
• Tìm hiểu về nghiệm nhớt của phương trình đạo hàm riêng cấp một.
• Tìm hiểu về lý thuyết điều khiển tối ưu tất định, đặc biệt là cách
tiếp cận quy hoạch động.
• Tìm hiểu về lý thuyết trò chơi vi phân.
• Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu
và lý thuyết trò chơi vi phân.
6
4. Đối tượng và phạm vi nghiên cứu
• Nghiên cứu nghiệm nhớt của lớp phương trình Hamilton - Jacobi -
Bellman bao gồm các khái niệm, các tính chất; cách tiếp cận quy
hoạch động đối với bài toán điều khiển tối ưu tất định.
• Lý thuyết trò chơi vi phân và mối quan hệ giữa các đối tượng đó.
5. Phương pháp nghiên cứu
• Nghiên cứu tài liệu tham khảo.
• Tổng hợp, phân tích, hệ thống lại các khái niệm, tính chất.
• Hỏi ý kiến chuyên gia.
6. Những đóng góp của đề tài
Đề tài trình bày một cách tổng quan về ứng dụng của nghiệm nhớt
đối với lý thuyết điều khiển tối ưu tất định và lý thuyết trò chơi vi phân.
Chương 1
Một số kiến thức chuẩn bị
1.1 Về lý thuyết điều khiển tối ưu
1.1.1 Hệ điều khiển

Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệ
phương trình vi phân phi tuyến mà chúng ta muốn điều khiển. Ta giả
thiết rằng: hàm f(x, a) với x ∈ R
N
, a ∈ A (tương ứng được gọi là biến
trạng thái và biến điều khiển), thỏa mãn các giả thiết sau:

A là một không gian tô pô,
f : R
N
× A → R
N
là một hàm liên tục;
(A0)
f bị chặn trên B(0, R) × A, với mọi R > 0; (A1)
(tính bị chặn địa phương của f đều theo biến điều khiển a)





tồn tại một mô đun địa phương ω
f
sao cho
|f(y, a) − f(x, a)| ≤ ω
f
(|x − y|, R),
với mọi x, y ∈ B(0, R) và R > 0,
(A2)
(tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong

đó mô đun địa phương là một hàm ω : R
+
× R
+
→ R
+
sao cho với mọi
R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0.
Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ R
M
là tập compac. Khi
đó (A1) và (A2) là các hệ quả của (A0).
Ta cũng giả thiết
(f(x, a) − f(y, a)).(x − y) ≤ L|x − y|
2
, ∀x, y ∈ R
N
, a ∈ A; (A3)
tức là, tồn tại một số L ∈ R sao cho f(x, a) − LI, với I là toán tử đồng
nhất, là một ánh xạ đơn điệu (không tăng) với mọi a.
8
Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàn
cục theo biến trạng thái, tức là
|f(x, a) − f(y, a)| ≤ L |x − y| , ∀x, y ∈ R
N
, a ∈ A.
Khi đó, tự nhiên f thỏa mãn (A3) và (A2).
Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến

y


(t) = f(y(t), a(t)), t > 0,
y(0) = x
(1.1)
với các hàm điều khiển a(.) (gọi là điều khiển lặp mở (open loop), vì
không phụ thuộc vào biến trạng thái) thuộc tập tất cả các điều khiển:
A := {α : [0; +∞) → A đo được}
(về hàm đo được và các tính chất liên quan có thể xem [2]).
Kí hiệu y
x
(., a) = y
x
(.) là nghiệm của (1.1) ứng với điều khiển a, theo
nghĩa y
x
(., a) là nghiệm của phương trình tích phân
y(t) = x +

t
0
f(y(s), a(s))ds, t > 0.
Như vậy y
x
(., a) là một hàm liên tục tuyệt đối trên các tập con compac
của [0, +∞) và thỏa mãn (1.1) hầu khắp nơi. Các định lý sau đây chỉ
ra sự tồn tại nghiệm cũng như tính chất nghiệm của phương trình tích
phân:
y(t) = x +

t

t
0
f(y(s), a(s))ds. (1.2)
Định lý 1.1.1. [Sự tồn tại quỹ đạo địa phương, [4], Định lý 5.4] Giả sử
ta có các giả thiết (A0), (A1), x ∈ R
N
cố định và đặt
K = K
x
:= sup{|f(z, a)| : |z − x| ≤ 1, a ∈ A}.
Khi đó với mỗi t
0
∈ R, a ∈ A tồn tại một nghiệm liên tục Lipschitz y
của (1.2) trên [t
0
, t
0
+ 1/K]. Hơn nữa
|y(t) − x| ≤ K(t − t
0
), ∀t.
9
Định lý 1.1.2. [Sự tồn tại quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta
có các giả thiết (A0), (A1) và (A3). Khi đó với mỗi t
0
∈ R, x ∈ R
N
, a ∈ A
tồn tại một nghiệm duy nhất y
x

: [0, +∞) → R
N
của (1.2) và thỏa mãn
|y
x
(t)| ≤ (|x| +

2K(t − t
0
))e
K(t−t
0
)
, ∀t > t
0
,
trong đó K := L + sup
α∈A
|f(0, α)|. Nếu y
z
là nghiệm thỏa mãn điều
kiện ban đầu y
z
(t
0
) = z thì
|y
x
(t) − y
z

(t)| ≤ e
L(t−t
0
)
|x − z|, ∀t ≥ t
0
.
Hơn nữa, ta có
|y
x
(t) − x| ≤
1
L
sup
α∈A
|f(x, α)|(e
Lt
− 1).
Để xét tính khả vi của nghiệm của (1.1) theo điều kiện ban đầu x,
ta nhớ lại rằng: ma trận nghiệm cơ bản M(s, t) của hệ phương trình vi
phân tuyến tính
ξ

(t) = A(t)ξ(t), t ∈ [t
0
, t
1
] (1.3)
là nghiệm duy nhất của phương trình tích phân
M(s, t) = I +


s
t
A(τ)M(τ, t)dτ, s, t ∈ [t
0
, t
1
],
trong đó t → A(t) là một ánh xạ đo được, bị chặn từ [t
0
, t
1
] vào tập các
ma trận vuông cấp N, I là ma trận đơn vị cấp N. Hơn nữa, cột thứ i, m
i
của M(., t
0
), tức là m
i
(s) = M(s, t
0
)e
i
là nghiệm của (1.3) với dữ kiện
ban đầu là ξ(t
0
) = e
i
, tức là nó thỏa mãn
m

i
(s) = e
i
+

s
t
0
A(τ)m
i
(τ)dτ, s ∈ [t
0
, t
1
].
Xét hệ phương trình vi phân thường

y

(t) = F (y(t), t), t ∈ (t
0
, t
1
),
y(t
0
) = x.
(1.4)
với hàm F : R
N

× [t
0
, t
1
] → R
N
bị chặn trên các tập compac và
10
• với mỗi x, hàm t → F (x, t) đo được;
• với mỗi t, hàm x → F (x, t) khả vi liên tục, hơn nữa ma trận Jacobi
của nó D
x
F bị chặn trên K × [t
0
, t
1
] với mọi tập compac K ⊂ R
N
.
Nghiệm của (1.4) được hiểu theo nghĩa tích phân thông thường và ký
hiệu là S(t, t
0
, x) = y(t). Khi đó ta có
Định lý 1.1.3. [[4], Định lý 5.8] Với các giả thiết đã nêu trên, gọi
ˆy(.) = S(., t
0
, x
0
) là nghiệm của (1.4) với điểm ban đầu x = x
0

. Khi đó
với mọi t ∈ [t
0
, t
1
], ánh xạ x → S(t, t
0
, x) khả vi liên tục trong một lân
cận của x
0
. Hơn nữa, ma trận Jacobi của nó tại x
0

D
x
S(t, t
0
, x
0
) = M(t, t
0
),
trong đó M(., .) là ma trận cơ bản của hệ phương trình tuyến tính
ξ

(t) = D
x
F (ˆy(t), t)ξ(t).
Kết quả này cho ta tính khả vi của quỹ đạo của hệ (1.1), tức là nghiệm
của (1.3) theo vị trí ban đầu với mỗi điều khiển a ∈ A cố định, tức là

tính khả vi của ánh xạ x → y
x
(t, a) dưới các giả thiết (A0)-(A3) và thêm
điều kiện x → f(x, a) khả vi liên tục với mọi a ∈ A và có ma trận Jacobi
bị chặn trên các tập compac (tức là, ω
f
(r, R) = L
R
r trong (A2)).
11
1.1.2 Bài toán điều khiển tối ưu
Gắn với hệ (1.1), lý thuyết điều khiển tối ưu thường xét một trong
bốn phiếm hàm chi phí (cost functional) sau đây:
• TH1: Bài toán với thời gian vô hạn (Infinite Horizon):
J

(x, a) :=


0
l(y
x
(t), a(t))e
−t
dt
trong đó l : R
N
× A → R là hàm đã cho, có tính chất liên tục, bị
chặn và thỏa mãn
|l(x, a) − l(y, a)| ≤ w

l
(|x − y|), ∀x, y ∈ R
N
, a ∈ A,
trong đó, w
l
là một mô đun (Mô đun là một hàm liên tục, không
giảm w : R
+
→ R
+
và w(0) = 0);
• TH2: Bài toán với thời gian hữu hạn hay Bài toán Mayer (Finite
Horizon):
J(x, t, a) := g(y
x
(t, a));
trong đó g ∈ C(R
N
) và t > 0 đã cho.
• TH3: Bài toán tìm thời gian tối thiểu (Minimum Time): Cho T ⊆
R
N
là tập đóng và gọi là tập đích
t
x
(a) :=

min {s : y
x

(s, a) ∈ T } nếu {s : y
x
(s, a) ∈ T } = ∅
+∞, nếu trái lại;
• TH4: Bài toán chiết khấu thời gian tối thiểu (Discounted Minimum
Time):
J(x, a) :=


t
x
(a)
0
e
−s
ds, nếu t
x
(a) < +∞
1, nếu trái lại.
Chúng ta muốn cực tiểu hóa các phiếm hàm chi phí nêu trên với
a(.) ∈ A (trong tình huống chỉ có ràng buộc đối với điều khiển a), hoặc
với
a(.) ∈ A
x
:= {a ∈ A : y
x
(a, t) ∈ Ω, ∀t > 0},
12
trong đó Ω ⊆ R
N

là một tập mở đã cho (trong tình huống có ràng buộc
trạng thái).
Định nghĩa 1.1.4. Nếu phiếm hàm chi phí đạt cực tiểu tại điều khiển
a

(.) thì a

(.) được gọi là một điều khiển tối ưu ứng với vị trí ban đầu x
(và ứng với thời điểm t trong bài toán với thời gian hữu hạn).
Việc cực tiểu hóa các phiếm hàm chi phí đề cập ở trên lần lượt dẫn
tới các hàm giá trị (value function) sau đây:
• TH1: Bài toán với thời gian vô hạn:
V

(x) := inf
a(.)∈A
J

(x, a);
• TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:
V
c
(x) := inf
a(.)∈A
x
J

(x, a);
• TH3: Bài toán với thời gian hữu hạn:
v(x, t) := inf

a(.)∈A
J(x, t, a);
• TH4: Bài toán tìm thời gian tối thiểu:
T (x) := inf
a(.)∈A
t
x
(a);
• TH5: Bài toán chiết khấu thời gian tối thiểu:
V (x) := inf
a(.)∈A
J(x, a) = 1 − e
−T (x)
.
13
1.1.3 Nguyên lý quy hoạch động
Tiếp theo ta đưa ra phương trình hàm, tương ứng thỏa mãn bởi các
hàm giá trị trên đây, phương trình đó diễn tả một cách trực quan rằng:
để đạt được chi phí cực tiểu ta cần thực hiện các bước sau:
• Cho hệ vận hành đến một thời gian nhỏ s với một điều khiển a(.)
tùy ý trên đoạn [0, s];
• Thanh toán chi phí tương ứng đến thời điểm s;
• Thanh toán chi phí còn lại (cho thời gian sau s) với một điều khiển
tốt nhất có thể;
• Cực tiểu hóa tổng hai khoản đã thanh toán trên tất cả các điều
khiển có thể trên đoạn [0, s].
Định nghĩa 1.1.5. Phương trình hàm đối với hàm giá trị đó được gọi
là nguyên lý quy hoạch động.
Các nguyên lý quy hoạch động tương ứng với các hàm giá trị (trừ
V

c
(x)) được chỉ ra trong mệnh đề sau:
Mệnh đề 1.1.6. Với mọi s > 0
• TH1: Bài toán với thời gian vô hạn:
V

(x) := inf
a(.)∈A


s
0
l(y
x
(t), a(t))e
−t
dt + V

(y
x
(s, a))e
−s

;
• TH2: Bài toán với thời gian hữu hạn:
v(x, t) = inf
a(.)∈A
v(y
x
(s, a), t − s) nếu s ≤ t;

• TH3: Bài toán tìm thời gian tối thiểu:
T (x) = inf
a(.)∈A
{s + T (y
x
(s, a))}, nếu s ≤ T (x) < +∞;
14
• TH4: Bài toán chiết khấu thời gian tối thiểu:
V (x) = inf
a(.)∈A


s
0
e
−t
dt + V (y
x
(s, a))e
−s

, nếu s ≤ T (x)).
Chứng minh. Để chứng minh các nguyên lý quy hoạch động ta dựa vào
tính chất nửa nhóm của các nghiệm của (1.1):
y
x
(s + t, a) = y
y
x
(s,a)

(t, a(. + s)),
và hai tính chất sau của các điều khiển chấp nhận được:
1. Nếu a(.) ∈ A và t > 0 thì a(. + t) ∈ A;
2. Nếu a
1
(.); a
2
(.) ∈ A và
a(s) :=

a
1
(s), nếu s ≤ t
a
2
(s), nếu s > t
thì a(.) ∈ A.
Sau đây chúng tôi chỉ trình bày chứng minh nguyên lý quy hoạch
động cho bài toán tìm thời gian tối thiểu. Thật vậy, với mọi a(.) ∈ A ta

t
x
(a) = s + t
y
x
(s,a)
(a(. + s)) ≥ s + T (y
x
(s, a)),
vì vậy

T (x) = inf
a(.)∈A
t
x
(a) ≥ inf
a(.)∈A
{s + T (y
x
(s, a))}.
Để chứng minh bất đẳng thức ngược lại ta cố định một điều khiển
a(.) ∈ A, đặt z := y
x
(s, a)) và để đơn giản ta giả sử tồn tại a
1
(.) ∈ A
sao cho T (z) = t
z
(a
1
). Khi đó
a(t) :=

a(t) nếu t ≤ s
a
1
(t − s) nếu t > s
thì ta có
T (x) ≤ t
x
(a) = s + t

z
(a
1
) = s + T (y
x
(s, a)).
Do a(.) là tùy ý nên
T (x) ≤ inf
a(.)∈A
{s + T (y
x
(s, a))}.
15
Vậy
T (x) = inf
a(.)∈A
{s + T (y
x
(s, a))}
Mệnh đề sau đây cho ta một dạng hữu dụng của nguyên lý quy hoạch
động. Dạng này gần với nguyên lý tối ưu của Bellman hơn:
Mệnh đề 1.1.7. Với mọi a(.) ∈ A các hàm sau không giảm:
• TH1: Bài toán với thời gian vô hạn:
s →

s
0
l(y
x
(t), a(t))e

−t
dt + V

(y
x
(s, a))e
−s
, s ∈ [0, +∞);
• TH2: Bài toán với thời gian hữu hạn:
s → v(y
x
(s, a), t − s), s ∈ [0, t];
• TH3: Bài toán tìm thời gian tối thiểu:
s → s + T (y
x
(s, a)), s ∈ [0, t
x
(a)], nếu T (x) < +∞;
• TH4: Bài toán chiết khấu thời gian tối thiểu:
s →

s
0
e
−t
dt + V (y
x
(s, a))e
−s
, s ∈ [0, t

x
(a)].
Hơn nữa các hàm này là hằng khi và chỉ khi điều khiển a(.) là điều khiển
tối ưu ứng với vị trí ban đầu x (và ứng với thời điểm t trong bài toán
với thời gian hữu hạn).
Chứng minh. (cho bài toán tìm thời gian tối thiểu)
1. Với mọi a(.) ∈ A, từ nguyên lý quy hoạch động với vị trí ban đầu
y
x
(s, a), ta có
T (y
x
(s, a)) ≤ ε + T (y
x
(s + ε, a))
với ε > 0 đủ nhỏ, suy ra:
s + T (y
x
(s, a)) ≤ s + ε + T (y
x
(s + ε, a)).
16
Vậy ta có khẳng định thứ nhất.
2. Nếu h(s) := s + T(y
x
(s, a)) là hàm hằng thì h(s) ≡ h(0) = T (x).
Vì thế từ 0 ≤ T (x) < +∞ ta suy ra t
x
(a) < +∞ và h(t
x

(a)) = t
x
(a) bởi
vì T ≡ 0 trên tập đích T . Vậy T (x) = t
x
(a). Hay a(.) là điều khiển tối
ưu ứng với vị trí ban đầu x.
Ngược lại, nếu a(.) ∈ A là điều khiển tối ưu ứng với x thì
h(0) = T (x) = t
x
(a).
Mà trong chứng minh của nguyên lý quy hoạch động chúng ta có kết
quả:
t
x
(a) ≥ h(s).
Vậy h(0) = h(s), do h là hàm không giảm.
17
1.1.4 Phương trình Hamilton-Jacobi-Bellman
Tiếp theo chúng ta sẽ đưa ra các phương trình Hamilton-Jacobi-
Bellman là dạng vi phân của các Nguyên lý quy hoạch động.
Mệnh đề 1.1.8. Giả sử hàm giá trị là C
1
trong một lân cận của x (của
(x, t) đối với bài toán với thời gian hữu hạn). Khi đó
• TH1: Bài toán với thời gian vô hạn:
V

(x) + max
a∈A

{−f(x, a).DV

(x) − l(x, a)} = 0;
• TH2: Bài toán với thời gian hữu hạn:
∂v
∂t
(x, t) + H(x, D
x
v(x, t)) = 0, t > 0,
• TH3: Bài toán tìm thời gian tối thiểu:
H(x, DT (x)) = 1, x /∈ T , T(x) < +∞,
• TH4: Bài toán chiết khấu thời gian tối thiểu:
V (x) + H(x, DV (x)) = 1, x /∈ T ,
trong đó
H(x, p) := max
a∈A
{−f(x, a).p}.
Chứng minh. (cho bài toán tìm thời gian tối thiểu).
1. Ta chứng minh H(x, DT (x)) ≤ 1. Cố định một điều khiển hằng
a(t) ≡ a
0
và đặt y(t) = y
x
(t, a). Từ nguyên lý quy hoạch động ta có
T (x) − T (y(s)) ≤ s với 0 ≤ s < T (x).
chia hai vế cho s > 0 ta được:
T (x) − T (y(s))
s
≤ 1
⇔ −

T (x) − T (y(s))
y(0) − y(s)
·
y(s) − y(0)
s
≤ 1.
18
Cho s → 0 ta nhận được
−DT (x).y

(0) ≤ 1.
Do y

(0) = f(x, a
0
) và a
0
∈ A là tùy ý nên ta thu được
max
a∈A
{−f(x, a).DT (x)} ≤ 1.
2. Ta chứng minh H(x, DT (x)) ≥ 1. Với mọi ε, s > 0 nhỏ, theo nguyên
lý quy hoạch động ta có một a ∈ A sao cho
T (x) ≥ s + T (y(s)) − εs,
trong đó y(s) := y
x
(s, a). Do vậy
1 − ε ≤
T (x) − T (y(s))
s

= −
1
s

s
0
d
ds
T (y(s))ds
= −
1
s

s
0
DT (y(s)).y

(s)ds
= −
1
s

s
0
DT (x).f(x, a(s))ds + o(1), s → 0
≤ max
a∈A
{−DT (x).f(x, a)} + o(1).
Bằng cách cho s và ε tiến đến 0 ta nhận được 1 ≤ H(x, DT (x)).
Mỗi phương trình đạo hàm riêng trên đều được gắn một cách tự nhiên

với một điều kiện biên. Khi đó chúng ta có các bài toán biên hoặc bài
toán ban đầu mà ứng cử viên nghiệm của nó là hàm giá trị:
• TH1: Bài toán với thời gian vô hạn:
u + max
a∈A
{−f(x, a).Du(x) − l(x, a)} = 0 trong R
N
; (1.5)
• TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:



u + max
a∈A
x
{−f(x, a).Du(x) − l(x, a)} = 0 trong Ω,
u + max
a∈A
x
{−f(x, a).Du(x) − l(x, a)} ≥ 0 trên ∂Ω;
(1.6)
19
• TH3: Bài toán với thời gian hữu hạn:

∂u
∂t
+ H(x, D
x
(u) = 0 trong R
N

× (0, +∞),
u(x, 0) = g(x) trên R
N
× 0;
(1.7)
• TH4: Bài toán tìm thời gian tối thiểu:





H(x, Du) = 1 trong Ω \ T ,
u = 0 trên ∂T ,
u(x) → +∞ khi x → ∂Ω,
(1.8)
trong đó Ω ⊇ T là một tập mở.
• TH5: Bài toán chiết khấu thời gian tối thiểu:

u + H(x, Du) = 1 trong R
N
\ T ,
u = 0 trên ∂T ,
(1.9)
Để ý rằng các bài toán biên ứng với bài toán với thời gian hữu hạn
(1.7) ứng với bài toán chiết khấu thời gian tối thiểu (1.9) tương ứng được
gọi là bài toán Cauchy và bài toán Dirichlet (nhưng các tập mở R
N
\T có
thể không bị chặn, chẳng hạn khi tập đích T là compact). Phương trình
đạo hàm riêng ứng với bài toán với thời gian vô hạn (1.5) được đặt trong

toàn bộ không gian. Lúc này, tính bị chặn của V

có thể được xem như
là điều kiện biên ”ở vô cực” của phương trình đó. Điều kiện biên của bài
toán có ràng buộc trạng thái (1.6) là mới và lần đầu tiên nó được đặt ra
bởi Soner. Bài toán biên ứng với bài toán tìm thời gian tối thiểu (1.8) là
bài toán biên tự do; chúng ta muốn rằng: Ω = R := {x : T (x) < +∞},
(dễ thấy R là tập mở và T(x) → +∞ khi x → ∂R nếu hệ điều khiển
được ở gần T ).
20
1.1.5 Phương pháp quy hoạch động
Lý thuyết cổ điển của phương pháp quy hoạch động thực hiện với
giả thiết phương trình Hamilton-Jacobi-Bellman có một nghiệm (đôi khi
chỉ cần một nghiệm dưới) và dùng nghiệm đó để chỉ ra các điều kiện đủ
để tồn tại điều khiển tối ưu. Kết quả khi đó thường được gọi là định lý
kiểm chứng. Sau đây là một ví dụ về kết quả như vậy đối với bài toán
chiết khấu thời gian tối thiểu. Trước hết ta đưa ra định nghĩa hàm kiểm
chứng cổ điển:
Định nghĩa 1.1.9. Hàm kiểm chứng cổ điển là một hàm bị chặn u ∈
C(R
N
) ∩ C
1
(R
N
\ T ) sao cho

u + H(x, Du) ≤ 1 trong R
N
\ T ,

u ≤ 0 trên ∂T .
(1.10)
Định lý 1.1.10. Giả sử u là một hàm kiểm chứng cổ điển của bài toán
chiết khấu thời gian tối thiểu, x /∈ T , a

(.) ∈ A.
(i) Nếu u(x) ≥ J(x, a

) thì a

(.) là một điều khiển tối ưu ứng với x
(ii) Nếu

u(y

(t)) − f(y

(t), a

(t)).Du(y

(t)) = 1 với hầu hết t ≤ t
x
(a

),
u = 0 trên ∂T ,
(1.11)
trong đó y


(.) := y
x
(., a

), thì a

(.) là điều khiển tối ưu ứng với x.
Chứng minh.
(i) Chúng ta sẽ chứng minh u(x) ≤ V (x), với V là hàm giá trị. Nếu
có điều đó thì ta sẽ có V (x) = J(x, a

), chứng tỏ a

(.) là điều khiển tối
ưu ứng với x. Thật vậy, lấy bất kỳ a(.) ∈ A; y(.) = y
x
(., a), từ (1.10) ta

d
dt
[−e
−t
u(y(t))] = e
−t
[u(y(t)) − Du(y(t)).f(y(t), a(t))] ≤ e
−t
21
với hầu hết t ≤ t
x
(a). Tích phân hai vế ta nhận được


t
0
d
dt
[−e
−t
u(y(t))]dt ≤

t
0
e
−t
dt
⇔ u(x) − e
−t
u(y(t)) ≤ 1 − e
−t
.
Cho t → t
x
(a), có các tình huống sau xảy ra:
a. Nếu t
x
(a) = +∞ thì do u bị chặn nên u(x) ≤ 1 = J(x, a).
b. Nếu t
x
(a) < +∞ thì ta có
u(x) − e
−t

x
(a)
u(y(t
x
(a))) ≤ 1 − e
−t
x
(a)
.
Khi đó y(t
x
(a)) ∈ ∂T , mà u là hàm kiểm chứng cổ điển nên u(y(t
x
(a))) ≤
0, do đó
u(x) ≤ u(x) − e
−t
x
(a)
u(y(t
x
(a))) ≤ 1 − e
−t
x
(a)
= J(x, a).
Vậy ta luôn có
J(x, a) = 1 − e
−t
x

(a)
≥ u(x).
Do a là tùy ý nên ta có V (x) ≥ u(x). Chứng tỏ ta có điều phải chứng
minh.
(ii) Đặt
h(s) :=

t
0
e
−t
dt + u(y

(s))e
−s
. (1.12)
Ta có
h(s) = 1 − e
−s
+ u(y

(s))e
−s
= 1 + [u(y

(s)) − 1]e
−s
.

h


(s) = e
−s
[1 − u(y

(s)) + Du(y

(s)).f(y

(s), a(s))] = 0 (do(1.11)).
Chứng tỏ h(s) là hàm không đổi, nói riêng h(s) là hàm không tăng. Mà
u = 0 trên ∂T , nên
u(x) = h(0) ≥ h(t
x
(a

)) = 1 − e
−t
x
(a

)
= J(x, a

).
Theo phần (i) ta có a

(s) là một điều khiển tối ưu ứng với x.
22
Nhận xét 1.1.11. Nếu hàm kiểm chứng u là một nghiệm của phương

trình HJB :
u + H(x, Du) = 1 trong R
N
\ T ,
thì điều kiện đủ để một điều khiển là tối ưu (1.11) tương đương với
−f(y

(s), a

(s)).Du(y

(s)) = max
a∈A
{−f(y

(s), a).Du(y

(s))}
= H(y

(s), Du(y

(s)))
với hầu hết 0 < s < t
x
(a).
Nhận xét 1.1.12. Nếu chúng ta lấy chính hàm giá trị V làm một hàm
kiểm chứng (nhưng điều này chỉ được thực hiện nếu V trơn), thì điều
kiện đủ để một điều khiển là tối ưu (1.11) cũng là điều kiện cần. Thật
vậy, theo nguyên lý quy hoạch động (Mệnh đề 1.1.7), nếu a


là điều
khiển tối ưu ứng với x thì hàm h xác định bởi (1.12) với u = V là hàm
hằng. Khi đó
0 = h

(s) = e
−s
[1 − V (y

(s)) + DV (y

(s)).f(y

(s), a

(s))],
hay (1.11) thỏa mãn với u = V.
Bước cuối cùng của phương pháp quy hoạch động là chúng ta cố gắng
xây dựng một điều khiển tối ưu dưới dạng phản hồi từ những hiểu biết
về hàm giá trị. Chúng tôi sẽ minh họa bước này đối với bài toán chiết
khấu thời gian tối thiểu dưới một vài giả thiết khá chặt. Giả sử hàm giá
trị V là trơn và xét tập con sau của A
S(z) : = arg min
a∈A
f(z, a).DV (z)
= {a ∈ A : H(z, DV (z)) = −f(z, a).DV (z)}.
Đây là tập các điều khiển a mà ứng với chúng hàm giá trị V giảm
nhanh nhất theo hướng f(z, a) tương ứng.
Định nghĩa 1.1.13. Mỗi ánh xạ Φ : R

N
→ A sao cho với mọi x ∈ R
N
bài toán

y

= f(y, Φ(y)), t > 0,
y(0) = x,
23
có nghiệm duy nhất được gọi là một phản hồi chấp nhận được. Phản hồi
chấp nhận được Φ được gọi là phản hồi tối ưu ứng với x nếu Φ(y(.)) ∈ A
là một điều khiển tối ưu ứng với x.
Theo Định lý 1.1.10 và Nhận xét 1.1.11, một điều khiển a

(t) ∈ A là
tối ưu ứng với x khi và chỉ khi
a

(t) ∈ S(y
x
(t, a

)) với hầu hết t > 0.
Vì vậy nếu phản hồi chấp nhận được Φ thỏa mãn
Φ(z) ∈ S(z), ∀z ∈ R
N
,
thì Φ là tối ưu ứng với mọi điểm ban đầu x ∈ R
N

.
Phương pháp này thực hiện được đối với các bài toán liên quan đến
hệ tuyến tính và các hàm chi phí bậc hai. Trong trường hợp này hàm
giá trị là hàm bậc hai và nó có thể tính được bằng cách giải một phương
trình đơn giản hơn nhiều so với phương trình Hamilton-Jacobi-Bellman
(đó là phương trình Riccati), S(z) là tập một điểm với mọi z và phần
tử Φ(z) của nó là một hàm trơn của z, nên Φ(z) là một phản hồi chấp
nhận được tối ưu. Tuy nhiên trong hầu hết các bài toán ta thường gặp
những khó khăn sau:
(a) Hàm giá trị V không trơn;
(b) Thậm chí trong tập con mà ở đó V trơn thì S(z) cũng không là
tập một điểm;
(c) Không có phản hồi chấp nhận được Φ nào thỏa mãn:
Φ(z) ∈ S(z), với mọi z.
24
1.2 Lý thuyết trò chơi vi phân
Cho một hệ động lực được điều khiển bởi hai người chơi:

y

(t) = f(y(t), a(t), b(t)), t > 0
y(0) = x
(1.13)
trong đó a(.) ∈ A, b(.) ∈ B := {b : [0, +∞) → B đo được}, B là một
không gian metric compact, x ∈ R
N
,
f : R
N
× A × B → R

N
là liên tục
và thỏa mãn
|f(x, a, b) − f(y, a, b)| ≤ L |x − y| , ∀x, y ∈ R
N
, a ∈ A, b ∈ B.
Chúng ta kí hiệu y
x
(., a, b) là nghiệm của (1.13). Ta cũng cho một phiếm
hàm J mà ở đó người chơi thứ nhất sẽ lựa chọn a(.) sao cho J nhỏ nhất,
còn người chơi thứ hai sẽ chọn b(.) sao cho J lớn nhất. Nói cách khác
−J là chi phí mà người chơi thứ hai phải trả, nên bài toán này còn được
gọi là trò chơi vi phân hai người chơi với tổng chi phí bằng không. Để cụ
thể chúng ta xét bài toán chiết khấu thời gian tối thiểu, trong đó
J(x, a, b) =

t
x
(a,b)
0
e
−s
ds
với x ∈ R
N
, a(.) ∈ A, b(.) ∈ B, t
x
là thời điểm đầu tiên quỹ đạo đạt đến
tập đích đóng T ⊆ R
N

, tức là
t
x
(a, b) =

min{t : y
x
(t, a, b) ∈ T } nếu {t : y
x
(t, a, b) ∈ T } = ∅
+∞ nếu trái lại
Sau đây là hai bài toán được mô hình hóa theo cách này.
Trò chơi chốn- tìm: Trong trò chơi này mỗi người chơi điều khiển một
đối tượng, người chơi thứ nhất muốn tiếp cận người chơi thứ hai ngay khi
có thể, còn người chơi thứ hai thì muốn lẩn tránh càng lâu càng tốt. Ở
đây biến trạng thái được chia ra làm hai phần y = (y
A
, y
B
) ∈ R
M
× R
M
.
Phương trình vi phân trong (1.13) được tách đôi
y

A
= f
A

(y
A
, a), y

B
= f
B
(y
B
, b),
25
và chi phí J là thời điểm bắt được, tức là thời điểm đầu tiên các tọa độ
mô tả người chơi thứ nhất đủ gần với các tọa độ mô tả người chơi thứ
hai. Trong tình huống này, tập đích là:
T := {(y
A
, y
B
) : |y
A,i
− y
B,i
| ≤ ε, ∀1 ≤ i ≤ k}
với ε ≥ 0 và k ≤ M (ở đây y
A,i
là thành phần thứ i của y
A
).
Trò chơi điều khiển trong hoàn cảnh thiếu thông tin: Giả sử chúng ta
chỉ có một người điều khiển a(.) của hệ điều khiển, nhưng hệ bị ảnh

hưởng bởi nhiễu b(.). Tình huống này thường được mô tả bởi lý thuyết
điều khiển ngẫu nhiên. Tuy nhiên trong một vài trường hợp, lý thuyết
điều khiển ngẫu nhiên cũng không thích hợp. Chẳng hạn khi chúng ta
không biết bất kỳ thông tin nào của b(.) hoặc khi ta không chắc chắn cực
tiểu hóa được giá trị mong đợi của hàm chi phí. Trong các tình huống
đó, chúng ta đặt vấn đề cực tiểu hóa phiếm hàm chi phí khi độ nhiễu
tồi nhất có thể. Vì vậy rất thích hợp khi coi b(.) là người chơi thứ hai,
người muốn cực đại hóa phiếm hàm chi phí.
Để định nghĩa hàm giá trị của trò chơi chúng ta phải đưa ra một vài
luật chơi.
Luật chơi tĩnh: Là mô hình trong đó tại thời điểm ban đầu t = 0
người chơi thứ nhất chọn phương án toàn cục của mình dựa trên dáng
điệu toàn cục trong tương lai của người chơi thứ hai, còn người chơi thứ
hai đưa ra phương án của mình dựa trên lựa chọn của người chơi thứ
nhất. Trong mô hình này chúng ta có hàm giá trị dưới và hàm giá trị
trên của trò chơi tương ứng là
v
s
(x) := sup
b(.)∈B
inf
a(.)∈A
J(x, a, b),
u
s
(x) := inf
a(.)∈A
sup
b(.)∈B
J(x, a, b).

Theo luật chơi này thì việc ra quyết định không có tính chất động (chỉ
thực hiện duy nhất một lần tại thời điểm ban đầu) nên không thực tế
lắm. Sau đây là một số luật chơi khác phù hợp hơn.

×