Tải bản đầy đủ (.pdf) (175 trang)

LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.65 MB, 175 trang )



ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC BÁCH KHOA




NGUYỄN TẤN LŨY
NGUYỄN TẤN LŨY








NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU
KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN








LUẬN ÁN TIẾN SĨ KỸ THUẬT










TP. HỒ CHÍ MINH NĂM 2015


ĐẠI HỌC QUỐC GIA TP. HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA





NGUYỄN NGUYỄN TẤN LŨY TẤN LŨY





NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU
KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN








Chuyên ngành: Tự động hóa
Mã số chuyên ngành: 62.52.60.01



Phản biện độc lập 1: GS.TS Phan Xuân Minh
Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn


Phản biện 1: GS.TSKH Hồ Đắc Lộc
Phản biện 2: PGS.TS Nguyễn Ngọc Lâm
Phản biện 3: PGS.TS Lê Minh Phương

HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
2. TS. HOÀNG MINH TRÍ 2. TS. HOÀNG MINH TRÍ

i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án



Nguyễn Tấn Lũy
yễn Tấn Lũy

ii

TÓM TẮT LUẬN ÁN
Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bởi nghiệm của
phương trình Hamilton-Jacobi-Bellman (HJB) và bài toán điều khiển tối ưu bền vững
bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Isaacs (HJI). Đây
là các phương trình vi phân phi tuyến không có nghiệm giải tích. Từ đó, bài toán xấp
xỉ nghiệm HJB và HJI off-line hoặc online được đặt ra. Học củng cố (Reinforcement
Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển
thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành
một trong những phương pháp hữu hiệu dùng để xấp xỉ các nghiệm HJB và HJI. Dựa
vào cấu trúc điều khiển chuẩn của ADP bao gồm hai hoặc ba xấp xỉ hàm, các giải
thuật RL không ngừng được nghiên cứu và phát triển. Ngày nay, các giải thuật điều
khiển RL là online, không off-line như những nghiên cứu đã công bố trong những năm
đầu của thế kỷ 21. Ví dụ, các giải thuật RL đã được thiết kế để xấp xỉ nghiệm ARE
(Algebraic Riccati Equation) cho hệ tuyến tính với các ma trận trạng thái không biết và
sau này, xấp xỉ nghiệm HJB và HJI cho hệ phi tuyến với các thành phần động học
trong mô hình hệ thống biết hoặc không biết, có nhiễu hoặc bỏ qua nhiễu.
Luận án này nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ
phi tuyến, trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic
Programming (OADP)) và qui hoạch động thích nghi bền vững online (Online Robust
Adaptive Dynamic Programming (ORADP)) là hai giải thuật chính được phân tích và
thiết kế. Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mô
hình xác định, sau đó được phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI
cho hệ phi tuyến hoàn toàn không có thông tin về động học nội (internal dynamics).

Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi
thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán
và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ. Sau đó, luật cập nhật mới cho
tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế. Trong giải
thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc
độ hội tụ. Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là
không cần thiết. Từ đó, thủ tục thiết kế trở nên linh hoạt hơn. Giải thuật đảm bảo rằng
hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận

iii

tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn
UUB (Uniform Ultimate Bounded). Kết quả mô phỏng có so sánh với các phương
pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP
và ORADP.
Để kiểm tra khả năng ứng dụng của giải thuật ORADP, mô phỏng số và thực
nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) được tiến hành.
So sánh với các giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển
WMR có một số ưu điểm mới. Thứ nhất, việc chia tách bộ điều khiển động học
(kinematic) và động lực học (dynamic) sử dụng phổ biến trong điều khiển thích nghi
cho WMR là không cần thiết. Từ đó, tránh phụ thuộc vào kinh nghiệm của người thiết
kế trong việc lựa chọn các tham số cho bộ điều khiển động học. Thứ hai, không đòi
hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không
cấu trúc trong mô hình robot. Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất
lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều
khiển được tối thiểu.
Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều
khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ
thống. Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân
tán cho nhiều hệ phi tuyến hợp tác. Sau đó, giải thuật ORADP được thiết kế mở rộng

thành giải thuật điều khiển hợp tác thích nghi bền vững. Kết quả điều khiển đồng bộ
hóa hệ thống robot bầy đàn từ mô phỏng cho thấy tính hiệu quả của giải thuật ORADP
mở rộng.

iv

ABSTRACT
The optimal control problem for nonlinear systems is constrained directly by the
solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control
problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI)
equation. These are nonlinear partial differential equations that have been proven to be
impossible to solve analytically. Since then, the problems for approximating off-line or
online HJB and HJI solutions are devoted. The reinforcement learning (RL) method, at
first, derived from the dynamic programming (DP) theory, and then, developed into
adaptive dynamic programming (ADP) method, becomes one of the most effective
online methods to approximate HJB and HJI solutions. Based on the standard control
structure of ADP, including two or three approximators, RL algorithms are studied and
developed continuously. Nowadays, these algorithms are online and no longer off-line
as the researches that are published in the early years of the 21st century. For example,
RL algorithms have been developing to approximate the ARE (Algebraic Riccati
Equation) solutions for linear systems with unknown state matrices, and after that,
HJB and HJI solutions for nonlinear systems contained known and unknown system
dynamics with or without impacted by disturbance.
This thesis propose reinforcement learning-based robust adaptive control
algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming
(OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main
analyzed and designed algorithms. OADP algorithm is used to approximate a HJB
solution for the nonlinear system with known dynamics, and then extended to ORADP
algorithm to approximate HJI solution for the nonlinear system without absolutely
knowing knowledge of internal dynamics. Firstly, the standard ADP structures with

two or three approximators are used to transform into control structures with only
single approximator to avoid the complex computation and waste of resources in order
to accelerate the speed of update processes. Then, novel update laws for the
approximator’s parameters and the novel algorithms are designed. In the algorithm,
parameter update laws are synchronized in one iterative step to increase the speed of
convergence. Besides, any stability control law to initialize algorithm is not needed;
Therefore, design procudures become more flexible. The algorithms guarantee that

v

cost functions are minimized, parameters of approximators and control laws converge
to suboptimal values while all closed-system states and the approximate errors are
bounded by UUB (Uniform Ultimate Bounded) standard. The results of numerical
simulation compared with other methods using two or three approximators
demonstrate the effectiveness of the OADP and ORADP algorithms.
To verify the application ability of ORADP algorithm, simulation and
experiment for WMR (Wheeled Mobile Robot) are conducted. It is shown that when
ORADP algorithm is applied to control WMR, some novel advantages compared with
other adaptive control algorithms have been gained. Firstly, the separation of
kinematic and dynamic controllers that commonly used in adaptive control for WMR
is unnecessary. By doing that, we can avoid depending on the designer's experience in
choosing the parameters for the kinematic controller. Secondly, identifying directly or
indirectly uncertainty, unstructured and unmodeled dynamics in the robot models is
not required. Lastly, using ORADP algorithm, the performance index function related
to both kinematic, dynamic tracking errors and control energy is minimized.
The ORADP algorithm is continuously designed extendedly for the cooperative
control problem of multiple MIMO nonlinear systems without using the knowledge of
system internal dynamics. Initially, graph theory is used to establish distributed
communication configures for multiple cooperative nonlinear systems. Then, ORADP
algorithm is expanded to become the robust adaptive cooperative control algorithm.

Simulation results of synchronous control for the swarm robot system show the
effectiveness of the extended ORADP algorithm.

vi


LỜI CÁM ƠN
Luận án này được hoàn thành dưới sự hướng dẫn của TS. Nguyễn Thiện Thành
và TS. Hoàng Minh Trí. Tôi xin gửi tới các Thầy lời biết ơn vô hạn về sự quan tâm
giúp đỡ, tạo điều kiện tối đa để tôi hoàn thành cuốn luận án này. Đặc biệt, tôi xin trân
trọng bày tỏ lòng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người đã giới
thiệu và truyền cho tôi nguồn cảm hứng về lĩnh vực học củng cố.
Luận án này không thể hoàn thành nếu không có sự hướng dẫn khoa học của
PGS.TS. Nguyễn Thị Phương Hà. Cô đã cho tôi định hướng và truyền đạt cho tôi rất
nhiều kiến thức quan trọng về lĩnh vực điều khiển thích nghi bền vững. Vì vậy, cho tôi
được bày tỏ đến Cô lòng biết ơn sâu sắc.
Tôi xin chân thành cảm ơn tập thể các nhà khoa học trong Bộ môn Điều khiển
tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh đã có những đóng góp rất quí
báu về mặt học thuật để luận án này được hoàn thành.
Tôi cũng xin dành riêng lời cảm ơn đến các đồng nghiệp ở Khoa Công nghệ
Điện tử Đại học Công nghiệp Thành phố Hồ Chí Minh, đã tạo điều kiện về thời gian
để tôi hoàn thành luận án, cảm ơn các bạn ở Phòng Thí nghiệm Trọng điểm Quốc Gia
Điều khiển số và Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa đã tạo môi
trường vui vẻ và chia sẻ những khó khăn trong thời gian tôi công tác tại đây.
Cuối cùng nhưng không kém phần quan trọng, tôi xin cảm ơn gia đình của tôi,
vợ và hai con, đã hết lòng ủng hộ tôi về thời gian, tinh thần, tình cảm, giúp tôi vượt
qua mọi khó khăn thử thách trên con đường nghiên cứu đầy chông gai nhiều lúc tưởng
chừng như bế tắt để hoàn thành luận án này.

vii


MỤC LỤC
DANH MỤC CÁC HÌNH VẼ x
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii
DANH MỤC CÁC TỪ VIẾT TẮT xiii
DANH MỤC CÁC KÝ HIỆU xv
CHƢƠNG 1 GIỚI THIỆU 1
1.1 Tổng quan về đề tài 1
1.1.1 Khái niệm về học củng cố 1
1.1.2 Lịch sử phát triển của RL trong điều khiển 2
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5
1.2.2 Tính cấp thiết của đề tài 7
1.2.3 Mục tiêu nghiên cứu 8
1.2.4 Nhiệm vụ nghiên cứu 8
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9
1.3.1 Đối tượng và phạm vi nghiên cứu 9
1.3.2 Phương pháp nghiên cứu 11
1.4 Những đóng góp mới của luận án về mặt khoa học 11
1.4.1 Về mặt lý thuyết 11
1.4.2 Về mặt thực tiễn 12
1.5 Bố cục luận án 13
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 14
2.1 Các định nghĩa 14
2.2 Lý thuyết học củng cố 14
2.3 Các giải thuật học củng cố kinh điển 16
2.3.1 Giải thuật VI (Value Iteration) 16
2.3.2 Giải thuật PI (Policy Iteration) 17
2.3.3 Giải thuật Q-Learning 18
2.4 Xấp xỉ hàm trong RL 19

2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL 19
2.4.2 Yêu cầu về xấp xỉ hàm trong RL 20
2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá 21

viii

2.6 Thuộc tính của NN truyền thẳng một lớp 21
2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm 22
2.8 Tóm tắt 25
CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27
3.1 Học củng cố trong điều khiển tối ưu 28
3.1.1 Mô tả bài toán 28
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28
3.2 Phân tích và thiết kế giải thuật học củng cố OADP 31
3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online 31
3.2.2 Giải thuật OADP 34
3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP 35
3.3 Mô phỏng, so sánh và đánh giá 36
3.4 Tóm tắt 41
CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH
NGHI BỀN VỮNG 42
4.1 Học củng cố trong điều khiển thích nghi bền vững 43
4.1.1 Mô tả bài toán 43
4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44
4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46
4.2 Giải thuật ORADP 48
4.2.1 Cấu trúc điều khiển và luật cập nhật tham số 48
4.2.2 Giải thuật ORADP 52
4.3 Phân tích ổn định và hội tụ của giải thuật ORADP 54
4.4 Mô phỏng, so sánh và đánh giá 55

4.5 Tóm tắt 59
CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61
5.1 Mô hình phi tuyến của WMR 63
5.2 Mô hình WMR thực nghiệm 67
5.3 Giải thuật ORADP áp dụng cho WMR 72
5.4 Mô phỏng 74
5.4.1 Quỹ đạo tham chiếu 75
5.4.2 Thiết lập tham số học 76

ix

5.4.3 Kết quả mô phỏng 76
5.5 Thực nghiệm 80
5.6 Tóm tắt 86
CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN
VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88
6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO 89
6.1.1 Đồ thị truyền thông phân tán 89
6.1.2 Động học nút 90
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91
6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95
6.2.1 Học củng cố trong điều khiển hợp tác 95
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng 95
6.2.3 Giải thuật ORADP mở rộng 100
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng 101
6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng 101
6.3.1 Mô hình hệ thống robot bầy đàn 102
6.3.2 Áp dụng giải thuật và kết quả mô phỏng 105
6.4 Tóm tắt 109
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 111

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 114
TÀI LIỆU THAM KHẢO 114
PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL 126
PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1 134
PHỤ LỤC C CHỨNG MINH ĐỊNH LÝ 3.2 136
PHỤ LỤC D CHỨNG MINH CÁC ĐỊNH LÝ VÀ BỔ ĐỀ 140
PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3 145
PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4 146
PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT 151
PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2 154

x

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa về học củng cố 2
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu 4
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu   4
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 16
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN 34
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38
Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN 38
Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ 39
Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý
thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết 39
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không 40
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị
khởi tạo của trọng số bằng không 40
Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN 52
Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN 56
Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá

tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý
thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với
giá trị khởi tạo bằng không 58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi
tạo bằng không 59
Hình 5.1 Mô hình robot di động dạng xe (WMR) 63
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot 69
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70
Hình 5.5 Xác định tâm robot so với hệ trục cố định 70
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR 73
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 75
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 76
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển 77
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ 79
Hình 5.12 Quỹ đạo ,  trong quá trình học điều khiển: a) ; b)  79
Oxy

xi

Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ 82
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo  của robot so với tham chiếu 85
Hình 5.24 a) Sai số bám vị trí , ,  ; b) Sai số bám vận tốc dài 85
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển 85

Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến 89
Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến 100
Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng 105
Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 107
Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y 107
Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ 108
Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ 108
Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay 109
Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ 109
Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ 110
Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110
Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút 126
Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. 127
Hình A.3 Cấu trúc mạng RBF 129
Hình A.4 Cấu trúc mạng RARBF 130
Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
hai mạng MLP có số đơn vị ẩn khác nhau. 133
Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng CMAC. 133
Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng RBF. 133
Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh 151
Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực 151
Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn 152
Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) 152

xii

DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
Giải thuật 2.1 VI 16

Giải thuật 2.2 PI 17
Giải thuật 2.3 Q-Learning 18
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự 23
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ 23
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự 24
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ 25
Giải thuật 3.1 OADP 34
Giải thuật 4.1 ORADP 53
Giải thuật 5.1 ORADP áp dụng cho WMR 74
Giải thuật 6.1 ORADP mở rộng 100

Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN 38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không 40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN 57

xiii

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt
Thuật ngữ tiếng anh
Giải thích
(A)NN
(Artificial) Neural Network
Mạng thần kinh (nhân tạo), được viết tắt là
NN trong luận án
ANRBF
Adaptive Normalized Radial
Basis Function
NN có hàm cơ sở xuyên tâm được chuẩn

hóa thích nghi
AC
Actor-Critic
Cấu trúc điều khiển Actor-Critic trong học
củng cố gồm hai NN: Mạng critic xấp xỉ
hàm đánh giá tối ưu, mạng actor xấp xỉ luật
điều khiển tối ưu
ADP
Adaptive Dynamic
Programming
Qui hoạch động thích nghi, một phương
pháp học củng cố để xấp xỉ luật điều khiển
tối ưu online
ADP2NN
ADP with two NNs
Cấu trúc điều khiển ADP với hai NN
ADP3NN
ADP with three NNs
Cấu trúc điều khiển ADP với ba NN
ANN
Actor Neural Network
NN actor đóng vai trò bộ điều khiển trong
cấu trúc AC
ARE
Algebraic Riccati Equation
Phương trình đại số Riccati
CMAC
Cerebellar Model
Articulation Controller
NN dựa theo mô hình tiểu não

CNN
Critic Neural Network
NN critic đóng vai trò xấp xỉ hàm đánh giá
trong cấu trúc AC
COD
Curse of Dimensionality
Sự bùng nổ tổ hợp không gian trạng thái
DP
Dynamic Programming
Qui hoạch động
HJB
Hamilton-Jacobi-Bellman

HJI
Hamilton-Jacobi-Isaacs

IDP
Incremental Dynamic
Programming
Qui hoạch động tăng cường: phương pháp
xấp xỉ nghiệm ARE online cho hệ tuyến
tính không biết trước các ma trận trạng thái
LS
Least Square
Phương pháp bình phương tối thiểu
LQR
Linear Quadratic Regulation
Điều khiển tối ưu tuyến tính dạng toàn
phương
MIMO

Multi Input-Multi Output
Hệ thống nhiều đầu vào nhiều đầu ra

xiv

ML
Machine Learning
Học máy
MLP
Multi-Layer Perceptron
NN truyền thẳng nhiều lớp
NRBF
Normalized Radial Basis
Function
NN có hàm cơ sở xuyên tâm được chuẩn
hóa
OADP
Online Adaptive Dynamic
Programming
Qui hoạch động thích nghi online: một giải
thuật học củng cố được đề xuất trong luận
án để tìm luật điều khiển tối ưu online
ORADP
Online Robust Adaptive
Dynamic Programming
Qui hoạch động thích nghi bền vững
online: một giải thuật học củng cố được đề
xuất trong luận án để tìm luật điều khiển tối
ưu thích nghi bền vững online
PE

Persistence of Excitation
Kích thích hệ thống bằng cách thêm nhiễu
vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
PI
Policy Iteration
Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ luật điều khiển tối ưu
RL
Reinforcement Learning
Học củng cố
RBF
Radial Basis Function
NN có hàm cơ sở xuyên tâm
RARBF
Resource Allocating Radial
Basis Function
NN có hàm cơ sở xuyên tâm được cấp phát
động
SISO
Single Input-Single Output
Hệ thống một ngõ vào một ngõ ra
TD
Temporal Difference
Sai phân tạm thời: giải thuật cập nhật tham
số của bộ dự báo liên quan đến sai phân tín
hiệu theo thời gian sử dụng trong học củng
cố
UUB

Uniform Ultimate Boun-ded
Bị chặn tới hạn đều
VI
Value Iteration
Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ hàm đánh giá tối ưu
WMR
Wheeled Mobile Robot
Robot di động dạng xe
ZDGT
Zero-sum Differential Game
Theory
Lý thuyết trò chơi sai phân tổng bằng
không ứng dụng trong lý thuyết điều khiển
tối ưu 



xv

DANH MỤC CÁC KÝ HIỆU
 Tập các số thực


Không gian các tọa độ thực (không gian Euclide)  chiều

×
Tập các ma trận có kích thước ×  chứa các phần tử số thực



Tập đóng (



) bao quanh gốc: nếu 

thì  là lân cận quanh
điểm cân bằng 
0
.



Chuẩn của véc tơ 




Chuẩn vô cùng của véc tơ 



Chuẩn của ma trận 




Chuẩn vô cùng của ma trận 






Gradient của hàm () theo : 




=
()


 Tích Kronecker,
 
,
T
TT
X Y X Y  

     
X Y X Y X Y    
  
,
trong đó X và Y là các ma trận còn  là đại lượng vô hướng


Ma trận đơn vị có chiều × 





=

1, ,1





Diag(
i
) Ma trận đường chéo chứa các phần tử 
i


2

0,



Không gian Banach, nếu 
2

0,



thì





2


0
< 
sub () Cận trên nhỏ nhất (cận trên đúng) của ()
inf () Cận dưới lớn nhất (cận dưới đúng) của ()
 Ma trận trọng số của NN


Trọng số NN giữa đơn vị ẩn thứ  và đơn vị ra (một ngõ ra)


Trọng số NN kết nối giữa ngõ ra của đơn vị  và ngõ vào đơn vị 


, 

Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN
() Véc tơ hàm tác động của NN




Hàm đánh giá



() Hàm đánh giá tối ưu
, 

Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
 Véc tơ nhiễu của hệ thống
 Véc tơ tín hiệu trạng thái của hệ thống

0
Véc tơ trạng thái của hệ thống tại thời điểm = 0

xvi

 Véc tơ ngõ ra của hệ thống
 Hàm chỉ tiêu chất lượng của hệ thống





Trị riêng nhỏ nhất của ma trận  (
×
)





Trị riêng lớn nhất ma trận  (
×
)





Hàm xác định dương, sao cho 0, 



> 0 và 



= 0 = 0
 Ma trận trọng số xác định dương
 Ma trận trọng số đối xứng, xác định dương

1
, 
1
,  Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của
robot di động
, 

Véc tơ mô men điều khiển và mô men nhiễu của robot di động







1

CHƢƠNG 1 GIỚI THIỆU
1.1 Tổng quan về đề tài
1.1.1 Khái niệm về học củng cố
Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy
(Machine Learning) [63], [96] dùng để giải bài toán tối ưu bằng cách liên tục điều
chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và
nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích
nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động
vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực
tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều
chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó
theo thời gian (Hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết
định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có
đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh
giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn
được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71],
[96], [100], [112].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào
thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được
chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63]
[72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113].
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi
(Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate
Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84],
[92], [98], [109], [113], [114], [120], [128]-[130]. ADP đã khắc phục được các hạn chế
của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác.

Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của

2

Hình 1.1 Minh họa về học củng cố
DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng
nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88],
đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output).
Theo thời gian, các giải thuật RL đã liên tục phát triển. Trong [119], dựa vào lý
thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration). Từ đó đến nay rất
nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56],
[71], [73], [98], [100], [113]-[114], [120], [129]. Gần đây, các giải thuật lặp PI kết hợp
xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi
tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận
dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129].
1.1.2 Lịch sử phát triển của RL trong điều khiển
RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ
những thập niên 1980 [96]. Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự
bắt đầu phát triển từ những năm đầu của thế kỷ 21. Lịch sử phát triển của RL trong
lĩnh vực điều khiển tạm chia thành ba giai đoạn. Trong giai đoạn đầu tiên (trước năm
2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực
điều khiển. Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa
không gian trạng thái [96]. Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI
(Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối
ưu. Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định
trước. Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào
mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95]. Nếu tín hiệu
Tác tử (Agent)
Môi trường
Thông tin

Hành động
Bộ nhớ

3

điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning
[116] được đề nghị. Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô
hình hệ thống. Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều
khiển off-line.
Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang
online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental
Dynamic Programming (IDP)) [20], [42]. IDP được thiết kế để điều khiển tối ưu
thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR
(Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước. Bên
cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ
hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái
rời rạc cho hệ đa biến [88].
Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27],
[96], [99], [123]. Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng
minh tính ổn định hệ thống trong quá trình học và điều khiển. Ngoài ra, luật cập nhật
online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ. Một điểm quan trọng khác
đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc. Lý do này
xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các
tài liệu tham khảo trong đó).
Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào
việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho
hệ thống phi tuyến [71]. Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho
hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng. Giải thuật điều khiển tối ưu
thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước
được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm

giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái). Trong
nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ. Song song với
đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc
và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước
[19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130].

4

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 


Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn
(xem (H. 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (Actor-
Critic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ
hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu
[56], [57]. Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn
nhau. Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao
gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất
chặt chẽ.
Trạng
thái/Ngõ ra
Hành động
(Tín hiệu điều khiển)
Xấp xỉ hàm (Critic)
(Hàm chi phí)
Môi trường
(Đối tượng)
Xấp xỉ hàm (Actor)
Xấp xỉ hàm

(Actor 2)
Chặn trên
của nhiễu

Trạng thái
/Ngõ ra
Xấp xỉ hàm (Critic)
(Hàm chi phí)
Xấp xỉ hàm (Actor 1)
Môi trường
(Đối tượng)
Hành động
(Tín hiệu điều khiển)


5

Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan
đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần
động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80]-
[81], [85], [105]-[106], [120]-[121], [128]-[129]. Song song với các nghiên cứu vừa
nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 

với hệ tuyến
tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần
động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103]. Đa số
các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84],
[123]. Một xấp xỉ hàm (Actor 2 trong H. 1.3) được thêm vào cấu trúc ADP nhằm xấp
xỉ chặn trên của nhiễu (nhiễu xấu nhất).
Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL

về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này.
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển
Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc
chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền
vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên
cứu quan tâm. Các phương pháp để giải quyết bài toán này là điều khiển thích nghi
[62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều
khiển. Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong
hệ thống sử dụng các bộ xấp xỉ hàm. Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn
các tham số nên sai số xấp xỉ là không thể tránh khỏi. Sai số này cùng với nhiễu có thể
làm cho hệ kín mất ổn định. Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào
luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69]. Tuy
nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải
quyết triệt để bài toán tối ưu [125].
Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có
tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh”
chất lượng điều khiển. Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện
tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược

6

lại. Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng
biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại. Nói
cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự
thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống.
Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết
điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục
nghiên cứu trong nhiều thập kỷ qua. Luật điều khiển tối ưu được thiết kế không chỉ ổn
định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong

muốn. Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình
Hamilton-Jacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành
phương trình ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành
phương trình vi phân phi tuyến. Với hệ tuyến tính thiếu thông tin về ma trận trạng thái,
nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích
HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ
thống. Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.
Lý thuyết điều khiển bền vững sử dụng chuẩn 

đóng vai trò rất quan trọng
trong phân tích và thiết kế hệ thống [131]. Bộ điều khiển tối ưu bền vững 

được
thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và
HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107]. Mặc dù lý thuyết điều khiển
hiện đại liên quan đến bài toán điều khiển 

cho hệ phi tuyến [15] nhưng trong nhiều
ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là
phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122].
Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển
các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm
khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66],
[71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129]. Tuy nhiên, trong hầu hết
các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải
xác định trước và nhiễu tác động bị bỏ qua [100], [106]. Vì vậy, kết hợp đặc tính thích
nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến
chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết.

7


1.2.2 Tính cấp thiết của đề tài
Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu


vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất
định, chịu tác động bởi nhiễu [10], [53], [103], [112]. Các nghiên cứu này sử dụng giải
thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H. 1.3). Tuy nhiên, với cấu trúc ba
xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên,
chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100],
[103]-[106]. Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển
ổn định cho trước. Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số
ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức.
Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp
tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để
nghiên cứu các giải thuật điều khiển [122], [125]. Nếu mỗi xấp xỉ hàm là một mạng
thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở
lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong
ma trận trọng số sẽ tăng lên tương ứng. Với cấu trúc ADP sử dụng ba NN, đặc biệt khi
áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên
đáng kể. Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó
chi phí tính toán là vấn đề thách thức. Khi sử dụng giải thuật PI để xấp xỉ nghiệm
online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào
cấu trúc chọn trước. Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất
phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi.
Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm
thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật
trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi
một loạt các phương trình HJB. Thủ tục như vậy sẽ dẫn đến nghiệm của các phương
trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122]. Ngoài ra, do các

xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến
hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác,
tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc.
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số

×