Tải bản đầy đủ (.pdf) (167 trang)

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.54 MB, 167 trang )

MỤC LỤC
DANH MỤC CÁC HÌNH VẼ

x

DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU

xii

DANH MỤC CÁC TỪ VIẾT TẮT

xiii

DANH MỤC CÁC KÝ HIỆU

xv

CHƢƠNG 1 GIỚI THIỆU
1.1

1

Tổng quan về đề tài ............................................................................................1
1.1.1 Khái niệm về học củng cố .......................................................................1
1.1.2 Lịch sử phát triển của RL trong điều khiển .............................................2

1.2

Động cơ, mục tiêu và nhiệm vụ nghiên cứu .......................................................5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển ....................5
1.2.2 Tính cấp thiết của đề tài...........................................................................7


1.2.3 Mục tiêu nghiên cứu ................................................................................8
1.2.4 Nhiệm vụ nghiên cứu ..............................................................................8

1.3

Đối tượng, phạm vi và phương pháp nghiên cứu ...............................................9
1.3.1 Đối tượng và phạm vi nghiên cứu ...........................................................9
1.3.2 Phương pháp nghiên cứu .......................................................................11

1.4

Những đóng góp mới của luận án về mặt khoa học .........................................11
1.4.1 Về mặt lý thuyết ....................................................................................11
1.4.2 Về mặt thực tiễn ....................................................................................12

1.5

Bố cục luận án ..................................................................................................13

CHƢƠNG 2 CƠ SỞ LÝ THUYẾT

14

2.1

Các định nghĩa ..................................................................................................14

2.2

Lý thuyết học củng cố ......................................................................................14


2.3

Các giải thuật học củng cố kinh điển ...............................................................16
2.3.1 Giải thuật VI (Value Iteration) ..............................................................16
2.3.2 Giải thuật PI (Policy Iteration) ..............................................................17
2.3.3 Giải thuật Q-Learning............................................................................18

2.4

Xấp xỉ hàm trong RL ........................................................................................19
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL ....................................19
2.4.2 Yêu cầu về xấp xỉ hàm trong RL ...........................................................20

2.5

Các loại xấp xỉ hàm trong RL, so sánh và đánh giá .........................................21
vii


2.6

Thuộc tính của NN truyền thẳng một lớp .........................................................21

2.7

Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm ...............................22

2.8


Tóm tắt..............................................................................................................25

CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27
3.1

Học củng cố trong điều khiển tối ưu ................................................................28
3.1.1 Mô tả bài toán ........................................................................................28
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman).....................................28

3.2

Phân tích và thiết kế giải thuật học củng cố OADP .........................................31
3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online .............................31
3.2.2 Giải thuật OADP ...................................................................................34
3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP .................................35

3.3

Mô phỏng, so sánh và đánh giá ........................................................................36

3.4

Tóm tắt..............................................................................................................41

CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH
NGHI BỀN VỮNG
42
4.1

Học củng cố trong điều khiển thích nghi bền vững .........................................43

4.1.1 Mô tả bài toán ........................................................................................43
4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) ..........................................44
4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI ................................46

4.2

Giải thuật ORADP............................................................................................48
4.2.1 Cấu trúc điều khiển và luật cập nhật tham số ........................................48
4.2.2 Giải thuật ORADP .................................................................................52

4.3

Phân tích ổn định và hội tụ của giải thuật ORADP ..........................................54

4.4

Mô phỏng, so sánh và đánh giá ........................................................................55

4.5

Tóm tắt..............................................................................................................59

CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG

61

5.1

Mô hình phi tuyến của WMR ...........................................................................63


5.2

Mô hình WMR thực nghiệm ............................................................................67

5.3

Giải thuật ORADP áp dụng cho WMR ............................................................72

5.4

Mô phỏng..........................................................................................................74
5.4.1 Quỹ đạo tham chiếu ...............................................................................75
5.4.2 Thiết lập tham số học ............................................................................76
viii


5.4.3 Kết quả mô phỏng .................................................................................76
5.5

Thực nghiệm .....................................................................................................80

5.6

Tóm tắt..............................................................................................................86

CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN
VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO
88
6.1


Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO .....................89
6.1.1 Đồ thị truyền thông phân tán .................................................................89
6.1.2 Động học nút .........................................................................................90
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến ......................................................91

6.2

Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP ...........................95
6.2.1 Học củng cố trong điều khiển hợp tác ...................................................95
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng ...............95
6.2.3 Giải thuật ORADP mở rộng ................................................................100
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng ..............101

6.3

Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng ..........101
6.3.1 Mô hình hệ thống robot bầy đàn .........................................................102
6.3.2 Áp dụng giải thuật và kết quả mô phỏng.............................................105

6.4

Tóm tắt............................................................................................................109

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

111

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

114


TÀI LIỆU THAM KHẢO

114

PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL

126

PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1

134

PHỤ LỤC C CHỨNG MINH ĐỊNH LÝ 3.2

136

PHỤ LỤC D CHỨNG MINH CÁC ĐỊNH LÝ VÀ BỔ ĐỀ

140

PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3

145

PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4

146

PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT


151

PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2

154

ix


DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa về học củng cố .................................................................................2
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu.......................4
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ ................4
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu.........................16
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN ................................................34
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38
Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN.................................38
Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ ...........................................39
Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý
thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết .......................39
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không ...40
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị
khởi tạo của trọng số bằng không ..................................................................................40
Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN..............................................52
Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN.....56
Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá
tối ưu xấp xỉ và tối ưu lý thuyết.....................................................................................57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý
thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết ................................57

Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với
giá trị khởi tạo bằng không ............................................................................................58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi
tạo bằng không...............................................................................................................59
Hình 5.1 Mô hình robot di động dạng xe (WMR).........................................................63
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước ..................................68
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot ...............................................69
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều ....................................70
Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy ..........................................70
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR ...............................................73
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển ...................75
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển .......76
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển ............................77
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ ...........................79
Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦..............................79
x


Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài ....................................80
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ...................81
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ ....................81
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ ............81
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ .............82
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu..85
Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài ................................85
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển.......................................85
Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến ..............................................89
Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến .............100
Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng ...............105
Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 ..............107

Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y ........107
Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ ....................108
Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ .................108
Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay ...........109
Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ ...........109
Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ ........110
Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110
Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút ...126
Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. ..................................127
Hình A.3 Cấu trúc mạng RBF ....................................................................................129
Hình A.4 Cấu trúc mạng RARBF ...............................................................................130
Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
hai mạng MLP có số đơn vị ẩn khác nhau. .................................................................133
Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng CMAC. ....................................................................................................133
Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng RBF. .........................................................................................................133
Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh ................................................151
Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực ..............................151
Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn.....................................152
Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .......152

xi


DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
Giải thuật 2.1 VI ...........................................................................................................16
Giải thuật 2.2 PI ............................................................................................................17
Giải thuật 2.3 Q-Learning.............................................................................................18
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự ..................................................23

Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ ................................................23
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự ...................................................24
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ .................................................25
Giải thuật 3.1 OADP ....................................................................................................34
Giải thuật 4.1 ORADP ..................................................................................................53
Giải thuật 5.1 ORADP áp dụng cho WMR ..................................................................74
Giải thuật 6.1 ORADP mở rộng .................................................................................100
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN.....................................38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không .....40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN ..................................57

xii


DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt
(A)NN
ANRBF

Thuật ngữ tiếng anh
(Artificial) Neural Network

Giải thích
Mạng thần kinh (nhân tạo), được viết tắt là
NN trong luận án

Adaptive Normalized Radial NN có hàm cơ sở xuyên tâm được chuẩn
Basis Function


hóa thích nghi
Cấu trúc điều khiển Actor-Critic trong học

AC

Actor-Critic

củng cố gồm hai NN: Mạng critic xấp xỉ
hàm đánh giá tối ưu, mạng actor xấp xỉ luật
điều khiển tối ưu

ADP

Adaptive Dynamic
Programming

Qui hoạch động thích nghi, một phương
pháp học củng cố để xấp xỉ luật điều khiển
tối ưu online

ADP2NN ADP with two NNs

Cấu trúc điều khiển ADP với hai NN

ADP3NN ADP with three NNs

Cấu trúc điều khiển ADP với ba NN
NN actor đóng vai trò bộ điều khiển trong

ANN


Actor Neural Network

ARE

Algebraic Riccati Equation

Phương trình đại số Riccati

Cerebellar Model

NN dựa theo mô hình tiểu não

CMAC

cấu trúc AC

Articulation Controller
NN critic đóng vai trò xấp xỉ hàm đánh giá

CNN

Critic Neural Network

COD

Curse of Dimensionality

Sự bùng nổ tổ hợp không gian trạng thái


DP

Dynamic Programming

Qui hoạch động

HJB

Hamilton-Jacobi-Bellman

HJI

Hamilton-Jacobi-Isaacs

IDP

Incremental Dynamic
Programming

LS

Least Square

LQR

Linear Quadratic Regulation

MIMO

Multi Input-Multi Output


trong cấu trúc AC

Qui hoạch động tăng cường: phương pháp
xấp xỉ nghiệm ARE online cho hệ tuyến
tính không biết trước các ma trận trạng thái
Phương pháp bình phương tối thiểu
Điều khiển tối ưu tuyến tính dạng toàn
phương
Hệ thống nhiều đầu vào nhiều đầu ra
xiii


ML

Machine Learning

Học máy

MLP

Multi-Layer Perceptron

NN truyền thẳng nhiều lớp

Normalized Radial Basis

NN có hàm cơ sở xuyên tâm được chuẩn

Function


hóa

NRBF

OADP

Online Adaptive Dynamic
Programming

Qui hoạch động thích nghi online: một giải
thuật học củng cố được đề xuất trong luận
án để tìm luật điều khiển tối ưu online
Qui hoạch động thích nghi bền vững

ORADP

Online Robust Adaptive

online: một giải thuật học củng cố được đề

Dynamic Programming

xuất trong luận án để tìm luật điều khiển tối
ưu thích nghi bền vững online
Kích thích hệ thống bằng cách thêm nhiễu

PE

Persistence of Excitation


vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
Giải thuật học củng cố sử dụng một số

PI

Policy Iteration

RL

Reinforcement Learning

Học củng cố

RBF

Radial Basis Function

NN có hàm cơ sở xuyên tâm

Resource Allocating Radial

NN có hàm cơ sở xuyên tâm được cấp phát

Basis Function

động


Single Input-Single Output

Hệ thống một ngõ vào một ngõ ra

RARBF
SISO

bước lặp để xấp xỉ luật điều khiển tối ưu

Sai phân tạm thời: giải thuật cập nhật tham
TD

Temporal Difference

số của bộ dự báo liên quan đến sai phân tín
hiệu theo thời gian sử dụng trong học củng
cố

UUB

Uniform Ultimate Boun-ded Bị chặn tới hạn đều

VI

Value Iteration

WMR

Wheeled Mobile Robot


ZDGT

Zero-sum Differential Game
Theory

Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ hàm đánh giá tối ưu
Robot di động dạng xe
Lý thuyết trò chơi sai phân tổng bằng
không ứng dụng trong lý thuyết điều khiển
tối ưu 𝐻∞

xiv


DANH MỤC CÁC KÝ HIỆU


Tập các số thực

ℝ𝑛

Không gian các tọa độ thực (không gian Euclide) 𝑛 chiều

ℝ𝑛×𝑚

Tập các ma trận có kích thước 𝑛 × 𝑚 chứa các phần tử số thực

Ω𝑥


Tập đóng (Ω𝑥 ⊆ ℝ ) bao quanh gốc: nếu 𝑥 ∈ Ω𝑥 thì 𝑥 là lân cận quanh
điểm cân bằng 𝑥0 .

𝑛

Chuẩn của véc tơ 𝑥

𝑥
𝑥



𝐴
𝐴

Chuẩn vô cùng của véc tơ 𝑥
Chuẩn của ma trận 𝐴



Chuẩn vô cùng của ma trận 𝐴
𝜕𝑉(𝑥)
𝜕𝑥

𝑉𝑥 𝑥

Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =




Tích Kronecker,  X  Y   X T  Y T ,   X  Y     X   Y  X    Y  ,
T

trong đó X và Y là các ma trận còn 𝛽 là đại lượng vô hướng

𝐼𝑛

Ma trận đơn vị có chiều 𝑛 × 𝑛

𝟏

𝟏 = 1, … ,1

𝑇

∈ ℝ𝑛

Diag(αi ) Ma trận đường chéo chứa các phần tử αi
𝐿2 0,∞

Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0,∞ thì


0

𝑑

2

𝑑𝑡 < ∞


sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)
inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)
𝑊

Ma trận trọng số của NN

𝑤𝑖

Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)

𝑤𝑖𝑗

Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗

𝑛𝑖 , 𝑛𝑕

Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN

𝜙(𝑥)

Véc tơ hàm tác động của NN

𝑉 𝑥

Hàm đánh giá

𝑉 ∗ (𝑥)

Hàm đánh giá tối ưu


𝑢, 𝑢∗

Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu

𝑑

Véc tơ nhiễu của hệ thống

𝑥

Véc tơ tín hiệu trạng thái của hệ thống

𝑥0

Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0
xv


𝑦

Véc tơ ngõ ra của hệ thống

𝐽

Hàm chỉ tiêu chất lượng của hệ thống

𝜆𝑚𝑖𝑛 𝐴

Trị riêng nhỏ nhất của ma trận 𝐴 (𝐴 ∈ ℝ


𝜆𝑚𝑎𝑥 𝐴

Trị riêng lớn nhất ma trận 𝐴 (𝐴 ∈ ℝ

𝑄 𝑥

Hàm xác định dương, sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0 và 𝑄 𝑥 = 0 ⟺ 𝑥 = 0

𝑄

Ma trận trọng số xác định dương

𝑅

Ma trận trọng số đối xứng, xác định dương

𝑏1 , 𝑟1 , 𝑙

Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của
robot di động

𝜏, 𝜏𝑚

Véc tơ mô men điều khiển và mô men nhiễu của robot di động

𝑛×𝑛

𝑛×𝑛


xvi

)

)


CHƢƠNG 1

GIỚI THIỆU

1.1 Tổng quan về đề tài
1.1.1

Khái niệm về học củng cố
Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy

(Machine Learning) [63], [96] dùng để giải bài toán tối ưu bằng cách liên tục điều
chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và
nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích
nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động
vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực
tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều
chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó
theo thời gian (Hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết
định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có
đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh
giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn
được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71],

[96], [100], [112].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào
thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được
chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63]
[72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113].
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi
(Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate
Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84],
[92], [98], [109], [113], [114], [120], [128]-[130]. ADP đã khắc phục được các hạn chế
của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác.
Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của

1


Môi trường
Hành động

Thông tin
Tác tử (Agent)

Bộ nhớ

Hình 1.1 Minh họa về học củng cố
DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng
nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88],
đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output).
Theo thời gian, các giải thuật RL đã liên tục phát triển. Trong [119], dựa vào lý
thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration). Từ đó đến nay rất

nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56],
[71], [73], [98], [100], [113]-[114], [120], [129]. Gần đây, các giải thuật lặp PI kết hợp
xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi
tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận
dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129].
1.1.2 Lịch sử phát triển của RL trong điều khiển
RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ
những thập niên 1980 [96]. Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự
bắt đầu phát triển từ những năm đầu của thế kỷ 21. Lịch sử phát triển của RL trong
lĩnh vực điều khiển tạm chia thành ba giai đoạn. Trong giai đoạn đầu tiên (trước năm
2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực
điều khiển. Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa
không gian trạng thái [96]. Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI
(Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối
ưu. Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định
trước. Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào
mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95]. Nếu tín hiệu
2


điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning
[116] được đề nghị. Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô
hình hệ thống. Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều
khiển off-line.
Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang
online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental
Dynamic Programming (IDP)) [20], [42]. IDP được thiết kế để điều khiển tối ưu
thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR
(Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước. Bên
cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ

hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái
rời rạc cho hệ đa biến [88].
Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27],
[96], [99], [123]. Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng
minh tính ổn định hệ thống trong quá trình học và điều khiển. Ngoài ra, luật cập nhật
online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ. Một điểm quan trọng khác
đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc. Lý do này
xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các
tài liệu tham khảo trong đó).
Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào
việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho
hệ thống phi tuyến [71]. Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho
hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng. Giải thuật điều khiển tối ưu
thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước
được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm
giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái). Trong
nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ. Song song với
đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc
và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước
[19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130].
3


Xấp xỉ hàm (Actor)
Hành động
(Tín hiệu điều khiển)
Môi trường
(Đối tượng)

Trạng

thái/Ngõ ra

Xấp xỉ hàm (Critic)
(Hàm chi phí)

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu

Xấp xỉ hàm (Actor 1)
Hành động
(Tín hiệu điều khiển)

Chặn trên
của nhiễu

Môi trường
(Đối tượng)

Xấp xỉ hàm
(Actor 2)

Trạng thái
/Ngõ ra
Xấp xỉ hàm (Critic)
(Hàm chi phí)

Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞
Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn
(xem (H. 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (ActorCritic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ
hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu
[56], [57]. Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn

nhau. Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao
gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất
chặt chẽ.
4


Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan
đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần
động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80][81], [85], [105]-[106], [120]-[121], [128]-[129]. Song song với các nghiên cứu vừa
nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến
tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần
động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103]. Đa số
các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84],
[123]. Một xấp xỉ hàm (Actor 2 trong H. 1.3) được thêm vào cấu trúc ADP nhằm xấp
xỉ chặn trên của nhiễu (nhiễu xấu nhất).
Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL
về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này.
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển
Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc
chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền
vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên
cứu quan tâm. Các phương pháp để giải quyết bài toán này là điều khiển thích nghi
[62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều
khiển. Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong
hệ thống sử dụng các bộ xấp xỉ hàm. Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn
các tham số nên sai số xấp xỉ là không thể tránh khỏi. Sai số này cùng với nhiễu có thể
làm cho hệ kín mất ổn định. Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào
luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69]. Tuy
nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải

quyết triệt để bài toán tối ưu [125].
Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có
tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh”
chất lượng điều khiển. Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện
tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược
5


lại. Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng
biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại. Nói
cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự
thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống.
Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết
điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục
nghiên cứu trong nhiều thập kỷ qua. Luật điều khiển tối ưu được thiết kế không chỉ ổn
định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong
muốn. Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình
Hamilton-Jacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành
phương trình ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành
phương trình vi phân phi tuyến. Với hệ tuyến tính thiếu thông tin về ma trận trạng thái,
nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích
HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ
thống. Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.
Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng
trong phân tích và thiết kế hệ thống [131]. Bộ điều khiển tối ưu bền vững 𝐻∞ được
thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và
HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107]. Mặc dù lý thuyết điều khiển
hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều
ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là
phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122].

Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển
các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm
khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66],
[71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129]. Tuy nhiên, trong hầu hết
các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải
xác định trước và nhiễu tác động bị bỏ qua [100], [106]. Vì vậy, kết hợp đặc tính thích
nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến
chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết.
6


1.2.2 Tính cấp thiết của đề tài
Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu
𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất
định, chịu tác động bởi nhiễu [10], [53], [103], [112]. Các nghiên cứu này sử dụng giải
thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H. 1.3). Tuy nhiên, với cấu trúc ba
xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên,
chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100],
[103]-[106]. Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển
ổn định cho trước. Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số
ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức.
Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp
tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để
nghiên cứu các giải thuật điều khiển [122], [125]. Nếu mỗi xấp xỉ hàm là một mạng
thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở
lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong
ma trận trọng số sẽ tăng lên tương ứng. Với cấu trúc ADP sử dụng ba NN, đặc biệt khi
áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên
đáng kể. Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó
chi phí tính toán là vấn đề thách thức. Khi sử dụng giải thuật PI để xấp xỉ nghiệm

online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào
cấu trúc chọn trước. Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất
phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi.
Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm
thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật
trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi
một loạt các phương trình HJB. Thủ tục như vậy sẽ dẫn đến nghiệm của các phương
trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122]. Ngoài ra, do các
xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến
hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác,
tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc.
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số
7


lượng xấp xỉ hàm trong cấu trúc điều khiển. [31], [125] đã đề xuất giải thuật SOLA
(Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc
phục hiện tượng nhiều xấp xỉ hàm. Ngoài ra, với SOLA, luật điều khiển ổn định để
khởi động cho giải thuật là không cần thiết. Tuy nhiên, giải thuật này yêu cầu phải xác
định trước thành phần động học nội trong mô hình hệ thống. Để kết hợp yếu tố thích
nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc
phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm
HJI sử dụng duy nhất một NN. Giải thuật này không cần biết trước và không cần sử
dụng thông tin về động học nội trong hệ thống. Quá trình cập nhật tham số luật điều
khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn
[103]. Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các
tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện
cho lần cập nhật trọng số tiếp theo. Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều
khiển khởi tạo ổn định.
1.2.3 Mục tiêu nghiên cứu

Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu
nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới
trong điều khiển thích nghi bền vững cho hệ phi tuyến. Giải thuật đáp ứng các yêu cầu:
1. Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp).
2. Bảo đảm được hệ kín ổn định bền vững.
3. Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật
điều khiển về giá trị cận tối ưu.
4. Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ.
5. Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải
thuật.
6. Giải thuật càng đơn giản càng tốt
Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội
tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây.
1.2.4 Nhiệm vụ nghiên cứu
Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp
8


thiết được đặt ra như sau:
a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa
trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H. 1.2) [56], [100],
[101]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư
thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển. Thiết kế được luật cập
nhật tham số online cho xấp xỉ hàm. Loại bỏ được yêu cầu phải chọn trước luật điều
khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng
minh được sự hội tụ và ổn định cho toàn hệ thống.
b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi
tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ
hàm (H. 1.3) [56], [100], [103]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm,
khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại. Thiết kế được luật cập nhật

tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục
nhận dạng hệ thống. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để
khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội
tụ và ổn định cho toàn hệ thống.
c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô
phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến.
(𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe.
d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán
điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa
đội hình robot bầy đàn.
1.3 Đối tƣợng, phạm vi và phƣơng pháp nghiên cứu
1.3.1 Đối tượng và phạm vi nghiên cứu
Đối tượng điều khiển được xét trong luận án có ba loại. Đối tượng thứ nhất cần
nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:
𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢

(1.1)

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈
ℝ𝑛 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước. Ngoài ra,
𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125]. Giả sử này chỉ sử dụng để chứng
minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập
9


nhật tham số.
Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học
củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động
thích nghi sử dụng xấp xỉ hàm.
Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:

𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢+𝑘 𝑥 𝑑
𝑦 = 𝑕(𝑥)

(1.2)

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈
𝐿2 0, ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0, ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi
tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],
𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc
tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31]. Giả
sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật
điều khiển cũng như luật cập nhật tham số.
Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học
củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý
thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm.
Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học
củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2). Đó là robot di động dạng
xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô
hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn.
Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong
điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác. Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁
có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:
𝑥𝑖𝑕 = 𝑓𝑖𝑕 𝑥𝑖𝑕 + 𝑔𝑖𝑕 𝑥𝑖𝑕 𝑥𝑖
𝑥𝑖𝑚 = 𝑓𝑖𝑚 𝑥𝑖𝑚 + 𝑔𝑖𝑚 𝑥𝑖𝑚

+ 𝑘𝑖𝑕 𝑥𝑖𝑕 𝑑𝑖 𝑕+1 , 1 ≤ 𝑕 ≤ 𝑚 − 1

𝑢𝑖𝑚 + 𝑘𝑖𝑚 𝑥𝑖𝑚 𝑑𝑖𝑚

𝑕+1


(1.3)

𝑇
𝑇
𝑇 𝑇
trong đó với mọi 1 ≤ 𝑕 ≤ 𝑚, 𝑥𝑖𝑕 = [𝑥𝑖1
, 𝑥𝑖2
, … , 𝑥𝑖𝑕
] ∈ ℝ𝑛 1 +⋯+𝑛 𝑕 với 𝑥𝑖𝑕 ∈ ℝ𝑛 𝑕 là

véc tơ trạng thái, 𝑢𝑖𝑚 ∈ ℝ𝑛 𝑚 là véc tơ ngõ vào điều khiển, và 𝑑𝑖𝑕 ∈ ℝ𝑛 𝑕 là véc tơ
nhiễu sao cho 𝑑𝑖𝑕 ∈ 𝐿2 [0, ∞), 𝑓𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 , 𝑘𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 ×𝑛 𝑕 và 𝑔𝑖𝑕 (𝑥𝑖𝑕 ) ∈
10


ℝ𝑛 𝑕 ×𝑛 𝑕 +1 lần lượt là các véc tơ và ma trận hàm phi tuyến khả vi liên tục. Giả sử rằng
toàn bộ trạng thái có sẵn để hồi tiếp và 𝑓𝑖𝑕 (𝑥𝑖𝑕 ) là động học nội không biết trước.
Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghiên cứu là giải
thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên
nền tảng giải thuật điều khiển hệ phi tuyến (1.2).
1.3.2 Phương pháp nghiên cứu
Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về
RL, luận án phân tích ưu nhược điểm của từng giải thuật, tiếp tục nghiên cứu và phát
triển nhằm khắc phục các hạn chế còn tồn tại. Phương pháp nghiên trong luận án là:
-

Nghiên cứu tài liệu tham khảo có liên quan, phân tích và thiết kế hệ thống,

tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, kết hợp giữa mô phỏng

và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của lý thuyết.
-

Mô phỏng bằng phần mềm MATLAB.

-

So sánh kết quả đạt được với kết quả của các nghiên cứu khác trong cùng

lĩnh vực, cùng đối tượng.
-

Xây dựng mô hình phần cứng cho robot di động, cài đặt giải thuật cho bộ

điều khiển nhúng thời gian thực bằng ngôn ngữ lập trình C, thiết kế giao diện đồ họa
bằng ngôn ngữ lập trình VC++.
1.4 Những đóng góp mới của luận án về mặt khoa học
So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, luận
án này đóng góp thêm các điểm mới về mặt lý thuyết cũng như thực tiễn như sau:
1.4.1 Về mặt lý thuyết
a) Trên cơ sở lý thuyết tổng quan về học củng cố và xấp xỉ hàm [1], [3], [99],
luận án nghiên cứu và phát triển giải thuật học củng cố OADP (Online Adaptive
Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1). Các điểm mới trong giải
thuật OADP được thể hiện như sau:
-

Cấu trúc điều khiển được đề xuất với duy nhất một xấp xỉ hàm đã khắc phục

được hiện tượng dư thừa một xấp xỉ hàm còn lại so với các nghiên cứu khác [18], [80],
[101]. Cấu trúc này tránh độ phức tính toán nhằm tăng nhanh tốc độ hội tụ.

-

Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế
11


không chỉ bảo đảm hệ kín ổn định mà còn tham số hệ thống hội tụ đến giá trị cận tối
ưu. Ngoài ra, yêu cầu về luật điều khiển ổn định để khởi động giải thuật được loại bỏ.
-

Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một

bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [73], [111].
-

Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 3.2).

b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố
ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền
vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết. Các điểm
mới trong giải thuật ORADP được thể hiện như sau:
-

Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ

hàm được sử dụng, khắc phục được hiện tượng dư thừa hai xấp xỉ hàm so còn lại với
các nghiên cứu khác [103], [109]. Ưu điểm này dẫn đến độ phức tính toán và tài
nguyên mà giải thuật sử dụng sẽ giảm nhiều lần, từ đó tốc độ hội tụ tăng lên.
-


Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế đạt

được các mục tiêu chính: bỏ qua thủ tục nhận dạng hệ thống (khác với [18]), không
đòi hỏi phải khởi động giải thuật bằng luật điều khiển ổn định (khác với [103], [109]),
bảo đảm hệ kín ổn định bền vững và tham số hệ thống hội tụ đến giá trị cận tối ưu.
-

Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một

bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [103], [109].
-

Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 4.4).

1.4.2 Về mặt thực tiễn
a) Áp dụng giải thuật ORADP để điều khiển robot di động bằng mô phỏng và
thực nghiệm với các điểm mới như sau:
-

Không chia tách luật điều khiển động học (Kinematic) và động lực học

(Dynamic) như phương pháp điều khiển thích nghi dựa vào kỹ thuật cuốn chiếu, tránh
phụ thuộc vào kinh nghiệm của người thiết kế trong việc chọn tham số điều khiển
động học [32], [47].
-

Không cần nhận dạng (trực tiếp hoặc gián tiếp) thành phần động học chưa

xác định trong mô hình robot.
-


Tối thiểu được hàm chỉ tiêu chất lượng liên quan đến sai số bám động học,

động lực học và năng lượng điều khiển.
12


b) Mở rộng giải thuật ORADP cho bài toán điều khiển hợp tác thích nghi bền
vững nhiều hệ phi tuyến MIMO (1.3):
-

Thành lập đồ thị truyền thông phân tán với mỗi nút đặc trưng cho động học

phi tuyến MIMO (1.3).
Mở rộng giải thuật ORADP điều khiển hợp tác thích nghi bền vững nhiều hệ

phi tuyến.
-

Ứng dụng giải thuật điều khiển để đồng bộ hóa đội hình robot bầy đàn.

1.5 Bố cục luận án
Chương 1 giới thiệu tổng quan về học củng cố, động cơ, mục tiêu và nhiệm vụ
nghiên cứu cũng như phương pháp, đối tượng và phạm vi nghiên cứu. Nội dung tiếp
theo của luận án được bố cục như sau:
1. Chương 2: Trình bày cơ sở lý thuyết về học củng cố bao gồm các giải thuật học
củng cố kinh điển, các loại xấp xỉ hàm và so sánh giữa các xấp xỉ hàm, các giải
thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm, chọn xấp xỉ hàm hợp lý phục
vụ cho bài toán thiết kế ở các chương tiếp theo.
2. Chương 3: Phân tích và thiết kế giải thuật học củng cố trong điều khiển tối ưu cho

hệ phi tuyến với nội dung chính như sau:
- Phân tích, thiết kế cấu trúc điều khiển
- Phân tích, thiết kế luật cập nhật tham số xấp xỉ hàm
- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín
3. Chương 4: Phân tích và thiết kế giải thuật học củng cố điều khiển thích nghi bền
vững cho hệ phi tuyến với nội dung chính như sau:
- Phân tích và thiết kế cấu trúc điều khiển
- Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm
- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín
4. Chương 5: Mô phỏng và thực nghiệm robot di động dạng xe sử dụng giải thuật
học củng cố thích nghi bền vững.
5. Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững để điều khiển thích
nghi bền vững hợp tác nhiều hệ phi tuyến MIMO, kiểm chứng giải thuật qua ứng
dụng mô phỏng điều khiển robot bầy đàn hợp tác.
Cuối cùng là phần kết luận và hướng phát triển.
13


CHƢƠNG 2

CƠ SỞ LÝ THUYẾT

Chương này trình bày tóm lược lý thuyết học củng cố, giới thiệu các giải thuật
kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm
thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố. Sau
đó, các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải
thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo.
2.1 Các định nghĩa
Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [74]): Xét hệ thống phi tuyến:
𝑥 = 𝑓(𝑥, 𝑡)


(2.1)

với trạng thái 𝑥(𝑡) ∈ ℝ𝑛 . Điểm cân bằng 𝑥𝑐 được gọi là UUB nếu tồn tại một tập đóng
Ω𝑥 ⊂ ℝ𝑛 , sao cho với mọi 𝑥 ⊂ Ω𝑥 , luôn tồn tại chặn trên 𝐵 và thời gian 𝑇𝐵 (𝐵, 𝑥𝑐 ) để
điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 luôn thỏa với mọi 𝑡 ≥ 𝑡0 + 𝑇𝐵 .
Định nghĩa 2.2 (Zero-State Observability [55]): Hệ thống (2.1) với ngõ ra đo
được 𝑦 = 𝑕(𝑥) gọi là quan sát được trạng thái không, nếu 𝑦 𝑡 ≡ 0, ∀𝑡 ≥ 0, kéo theo
𝑥 𝑡 ≡ 0.
Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [55]): Một véc tơ tín hiệu
bị chặn 𝜎 𝑡 được gọi là thỏa điều PE trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0 nếu
tồn tại 𝛽1 > 0 và 𝛽2 > 0 sao cho với mọi 𝑡:
𝑡+𝑇𝑃

𝛽1 𝐼 ≤

𝜎 𝑡 𝜎 𝑇 𝑡 𝑑𝑡 ≤ 𝛽2 𝐼

(2.2)

𝑡

trong đó 𝐼 là ma trận đơn vị có chiều phù hợp.
2.2 Lý thuyết học củng cố
Hệ thống học củng cố kinh điển trong điều khiển được mô tả bởi:
 Tập hữu hạn trạng thái Ω𝑥 = 𝑥1 , 𝑥2 , … , 𝑥𝑁 ∈ ℝ𝑁
 Ở mỗi trạng thái 𝑥 ∈ Ω𝑥 , có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥
 Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘 , 𝑢(𝑥𝑘 )) với 𝑢(𝑥𝑘 ) ∈ 𝑈 𝑥𝑘 là tín
hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1
 Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, 𝑟 𝑥𝑘 , 𝑢(𝑥𝑘 ) ∈ ℝ, đặc trưng

14


cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘 ) ở trạng thái 𝑥𝑘
 Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0
sẽ phát sinh ra quỹ đạo trạng thái 𝑥0 , 𝑥1 , 𝑥2 , …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 −
1, 𝑥𝑘+1 = 𝑓(𝑥𝑘 , 𝑢(𝑥𝑘 ))
 Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển
𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm
chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘 ):
𝑁

𝐽 𝑥0 =

𝑘=0

𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 ))

(2.3)

Để ý rằng hàm chi phí 𝐽 𝑥0 chỉ phụ thuộc vào luật điều khiển 𝑢(𝑥) và trạng thái khởi
tạo 𝑥0 .
𝐽 𝑥0 có thể phân kỳ, chỉ hội tụ khi hàm chi phí 𝑟 𝑥𝑘 , 𝑢(𝑥𝑘 ) đạt đến giá trị bằng
không trong thời gian hữu hạn. Trong trường hợp tổng quát, nhằm đảm bảo 𝐽 𝑥0 hội
tụ theo tiêu chuẩn chuỗi giảm dần, hệ số hàm mũ 𝛾 𝑘 được sử dụng [96], [99]:
𝑁

𝛾 𝑘 𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 ))

𝐽 𝑥0 =


(2.4)

𝑘=0

trong đó 𝛾 ∈ 0, 1 . Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘 , ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa
dưới dạng hồi qui như sau [96]:
𝑉 𝑥𝑘 = 𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 )) + 𝛾𝑉 𝑓 𝑥𝑘 , 𝑢(𝑥𝑘 )

(2.5)

Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉 ∗ (𝑥0 ) tương ứng với
luật điều khiển tối ưu 𝑢∗ (𝑥), ∀𝑥0 ∈ Ω𝑥 :
𝑉 ∗ 𝑥0 = min 𝐽 𝑥0
𝑢

(2.6)

Luật điều khiển tối ưu 𝑢∗ (𝑥), tồn tại nhưng không duy nhất [96]. Tuy nhiên, cùng xuất
phát tại 𝑥0 , hai luật điều khiển tối ưu khác nhau có thể cho tổng chi phí như nhau, vậy
𝑉 ∗ 𝑥0 không phụ thuộc vào 𝑢∗ (𝑥). Giả sử tồn tại 𝑉 ∗ 𝑥0 , theo nguyên lý qui hoạch
động (DP) tối ưu Bellman [16], hàm đánh giá tối ưu của trạng thái 𝑥𝑘 được định nghĩa:
𝑉 ∗ 𝑥𝑘 = 𝑚𝑖𝑛 𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 )) + 𝛾𝑉 ∗ 𝑓 𝑥𝑘 , 𝑢(𝑥𝑘
𝑢∈𝑈(𝑥 𝑘 )

(2.7)

Hình 2.1 minh họa hàm đánh giá tối ưu (2.7) theo nguyên lý DP [27], trong đó
𝑈 𝑥𝑘 = 𝑢1 , 𝑢2 , … , 𝑢𝑚


là tập tín hiệu điều khiển ở trạng thái 𝑥𝑘 và 𝑥𝑘+1 =
15


×