Tải bản đầy đủ (.doc) (119 trang)

Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 119 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Cao Thành Trung

NÂNG CAO CHẤT LƯỢNG ĐIỀU KHIỂN DỰA TRÊN
MÔ HÌNH BẰNG PHƯƠNG PHÁP HỌC LẶP

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

Hà Nội - 2023


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Cao Thành Trung

NÂNG CAO CHẤT LƯỢNG ĐIỀU KHIỂN DỰA TRÊN
MÔ HÌNH BẰNG PHƯƠNG PHÁP HỌC LẶP

Ngành:

Kỹ thuật điều khiển và tự động

hóa
Mã số:

9520216

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA



NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. Nguyễn Thu Hà
2. GS.TS. Nguyễn Doãn Phước

Hà Nội, 2023


Lời cam đoan

Tơi xin cam đoan đây là cơng trình nghiên cứu của cá nhân tôi dưới sự hướng
dẫn của tập thể giáo viên hướng dẫn và các nhà khoa học. Các tài liệu tham khảo đã
được trích dẫn đầy đủ. Kết quả nghiên cứu là trung thực và chưa từng được ai cơng
bố trên bất cứ một cơng trình nào khác.
Hà Nội, ngày 4 tháng 12 năm 2023

Tập thể hướng dẫn khoa học

TS. Nguyễn Thu Hà

Nghiên cứu sinh

GS.TS. Nguyễn Doãn Phước

i

Cao Thành Trung


Lời cảm ơn


Trong quá trình làm luận án với đề tài “Nâng cao chất lượng điều khiển dựa
trên mơ hình bằng phương pháp học lặp” tôi đã nhận được rất nhiều sự ủng hộ về
công tác tổ chức và chuyên mơn của Nhóm Cơ sở Điều khiển Tự động, của Khoa
Tự động hóa, Trường Điện-Điện tử, Đại học Bách khoa Hà Nội. Tôi xin trân trọng
gửi lời cảm ơn tới cơ sở đào tạo này, nơi đã luôn tạo điều kiện giúp đỡ tơi trong suốt
q trình học tập, nghiên cứu và hồn thành luận án.
Với lịng kính trọng và biết ơn sâu sắc, tôi cũng xin chân thành cảm ơn tập thể
hướng dẫn là TS. Nguyễn Thu Hà và GS.TS. Nguyễn Dỗn Phước, những Thầy/Cơ
đã dành nhiều thời gian hướng dẫn, tận tình chỉ bảo và định hướng chuyên mơn cho
tơi trong suốt q trình nghiên cứu để hồn thành luận án.
Cuối cùng, tôi xin chân thành cảm ơn gia đình, đồng nghiệp, những người bạn
thân thiết đã ln giúp đỡ, động viên, khích lệ, chia sẻ khó khăn trong thời gian tơi
học tập để hồn thành khóa học.
Tác giả

Cao Thành Trung

ii


Mục lục
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ

vi
vi
vii


MỞ ĐẦU

1.
2.
3.
4.
5.

Ý nghĩa thực tiễn và tính cấp thiết của đề tài
Mục đích và nhiệm vụ của luận án
Đối tượng và phạm vi nghiên cứu của luận án
Phương pháp nghiên cứu
Bố cục của luận án

CHƯƠNG 1:

TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ TÍNH HỘI TỤ
CỦA QUÁ TRÌNH HỌC

1.1 Điều khiển học lặp và lý do nên kết hợp với truyền thống

1
1
2
2
3
4

4


1.1.1 Về nguyên lý điều khiển học lặp
1.1.2 Về hàm Q-learning và hàm học
1.1.3 Về khả năng hội tụ của luật chỉnh định
1.1.4 Về việc nên kết hợp với phương pháp điều khiển truyền thống
1.2 Tổng quan về tình hình nghiên cứu và các vấn đề cịn tồn tại
1.3 Một số bài tốn đặt ra cho luận án

6
7
8
11
12
15

1.3.1 Nghiên cứu lý thuyết
1.3.2 Nghiên cứu thực nghiệm: Hai q trình cơng nghiệp được sử dụng để
kiểm chứng kết quả lý thuyết
1.3.2.1 Robot công nghiệp
1.3.2.2 Hệ phản ứng khuấy trộn liên tục
1.4 Tổng kết chương 1

15

CHƯƠNG 2:

NHỮNG ĐỀ XUẤT LÝ THUYẾT BỔ SUNG CHO ĐIỀU
KHIỂN HỌC LẶP

2.1 Xác định tham số hàm học dựa trên mơ hình trong miền phức
2.1.1 Điều kiện đủ cho hàm học kiểu P khi sử dụng hàm truyền hệ thống (quá

trình SISO)
2.1.1.1 Khi quá trình là liên tục
2.1.1.2 Khi quá trình là rời rạc
2.1.2 Điều kiện đủ cho hàm học kiểu P khi sử dụng ma trận hàm truyền (quá
trình MIMO)
2.1.3 Kiểm chứng chất lượng hội tụ nhờ mô phỏng
2.2 Xác định online tham số hàm học theo tiêu chuẩn tối ưu bằng cách
cực tiểu hóa tổng bình phương sai lệch bám
iii

16
16
18
19

21

22
23
23
24
24
25
27


2.2.1 Chứng minh tính cần và đủ cho điều kiện
2.2.2 Xác định online tham số hàm học tối ưu theo tổng bình phương sai lệch
bám ở đầu ra
2.2.3 Kiểm chứng chất lượng hội tụ của tham số hàm học tối ưu online bằng

mô phỏng
2.3 Xác định online tham số hàm học khơng dựa vào mơ hình (giải pháp
thơng minh)

32

2.3.1 Ngun tắc xác định online tham số hàm học
2.3.1.1 Trường hợp hệ là SISO
2.3.1.2 Trường hợp hệ là MIMO
2.3.2 Khảo sát tính hội tụ
2.3.3 Kiểm chứng chất lượng hội tụ thơng qua mơ phỏng
2.4 Ổn định hóa và tuyến tính hóa khơng cần sử dụng mơ hình

32
33
34
35
35
39

2.4.1 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được nhờ phép
phân tích Taylor
2.4.2 Ứng dụng vào tuyến tính hóa ổn định hệ phi tuyến mà không cần sử dụng
mô hình tốn
2.4.3 Ví dụ minh họa
2.5 Tổng kết chương 2
CHƯƠNG 3:

ỨNG DỤNG ĐIỀU KHIỂN HỌC LẶP VÀO ĐIỀU KHIỂN
CÁC HỆ ROBOT CÔNG NGHIỆP


3.1 Tổng quan về các phương pháp điều khiển đã có
3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
3.1.6
3.1.7

Phương pháp điều khiển rõ
Phương pháp điều khiển thích nghi sử dụng nghịch đảo mơ hình
Phương pháp điều khiển thích nghi Li-Slotine
Phương pháp điều khiển trượt
Bù bất định bằng mạng neural
Điều khiển học lặp
Xác nhận qua mô phỏng khả năng không đảm bảo được chất lượng của
điều khiển truyền thống khi trong hệ xuất hiện lỗi
3.2 Đề xuất cấu trúc điều khiển hai mạch vịng khơng sử dụng mơ hình
tốn của robots (điều khiển thơng minh)
3.2.1 Nhiệm vụ của bộ điều khiển vòng trong
3.2.2 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được
3.3 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học tối
ưu online đã đề xuất
3.3.1 Điều khiển vịng trong bằng bộ điều khiển tuyến tính hóa thơng minh nhờ
phản hồi trạng thái
3.3.2 Điều khiển vịng ngồi bằng bộ điều khiển học lặp
3.3.3 Thuật toán điều khiển

iv


27
29
30

39
39
41
43

45

46
46
46
47
48
48
49
50
53
53
54
55
56
58
59


3.4 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học

online thông minh đã đề xuất

60

3.4.1 Thiết kế bộ điều khiển
3.4.1.1 Nội dung của hai mạch vòng điều khiển
3.4.1.2 Thuật toán điều khiển
3.4.2 Kiểm chứng chất lượng bằng mô phỏng
3.5 Tổng kết chương 3

60
60
61
62
66

CHƯƠNG 4:

ỨNG DỤNG ĐIỀU KHIỂN HỌC LẶP VÀO ĐIỀU KHIỂN HỆ
PHẢN ỨNG HÓA HỌC KHUẤY TRỘN LIÊN TỤC

4.1 Sơ lược về bài toán điều khiển hệ CSTR và các phương pháp điều
khiển hiện có
4.2 Đề xuất hai giải pháp điều khiển
4.3 Triển khai cấu trúc điều khiển theo đề xuất thứ nhất
Thiết kế bộ điều khiển vòng trong
Thiết kế bộ ước lượng thành phần bất định hàm
Thiết kế bộ điều khiển học lặp
Thuật toán điều khiển
Kiểm chứng chất lượng bằng mô phỏng

4.3.5.1 Khi đầu ra là nhiệt độ
4.3.5.2 Khi đầu ra là nồng độ
4.4 Triển khai cấu trúc điều khiển theo đề xuất thứ hai

67

67
69
71

4.3.1
4.3.2
4.3.3
4.3.4
4.3.5

71
73
75
76
76
77
80
82

4.4.1
4.4.2
4.4.3
4.4.4


Thiết kế bộ ước lượng thành phần bất định hàm
Thiết kế bộ điều khiển học lặp
Thuật toán điều khiển
Kiểm chứng chất lượng bằng mô phỏng
4.4.4.1 Kết quả mô phỏng khi đầu ra là nhiệt độ
4.4.4.2 Kết quả mô phỏng khi đầu ra là nồng độ
4.5 Tổng kết chương 4

84
85
85
86
87
89
92

KẾT LUẬN VÀ KIẾN NGHỊ

94

Các đóng góp mới của luận án
Những vấn đề còn tồn tại và hướng giải quyết

94
94

Danh mục các cơng trình đã cơng bố của ḷn án

96


Tài liệu tham khảo

97

Phụ lục chương trình

102

v


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt
SISO
MIMO
CSTR
ILC
ILCer
NCS
LA
UB
UUB
đ.p.c.m
BIBO
ISS
CNC
ĐHBK

Dạng đầy đủ bằng tiếng
Anh

Single Input Single Output
Multiple Input Multiple
Output
Continuous stirred tank
reactor
Iterative learning control

Ý nghĩa
Hệ một vào một ra
Hệ nhiều vào nhiều ra
Hệ phản ứng hóa học
khuấy trộn liên tục
Điều khiển học lặp
Bộ điều khiển học lặp
Nghiên cứu sinh
Luận án

Ultimate bounded
Uniformly ultimately
bounded
điều phải chứng minh
bounded input – bounded
output
Input to state stable
Computer Numerical Control
Đại học Bách Khoa

DANH MỤC CÁC BẢNG

vi



DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Ngun lý làm việc của điều khiển học lặp với hệ truyền thống
Hình 1.2: Mơ tả q trình huấn luyện bộ điều khiển học lặp
Hình 1.3: Nguyên lý điều khiển học lặp truyền thẳng
Hình 1.4: Một số dạng robots cơng nghiệp
Hình 1.5: Cấu trúc vật lý cơ bản của một hệ CSTR
Hình 2.1: Đề xuất cấu trúc điều khiển truyền thẳng thơng minh
Hình 2.2: Kết quả mơ phỏng sau 2 lần thử
Hình 2.3: Kết quả mơ phỏng sau 5 lần thử.
Hình 2.4: Kết quả điều khiển bám sau 2 lần thử.
Hình 2.5: Kết quả điều khiển bám sau 4 lần thử.
Hình 2.6: Kết quả điều khiển bám sau 2 lần thử khi sử dụng
Hình 2.7: Kết quả điều khiển bám sau 5 lần thử khi sử dụng
Hình 2.8: Tham số học và sai lệch bám thay đổi theo số lần thử với
Hình 2.9: Tham số học và sai lệch bám thay đổi theo số lần thử với
Hình 2.10: Kết quả điều khiển bám khi sử dụng
Hình 2.11: Kết quả tuyến tính hóa phản hồi cho 2 trường hợp có sử dụng
và khơng sử dụng mơ hình tốn của đối tượng
Hình 3.1: Robot planar hai bậc tự do
Hình 3.2: Điều khiển truyền thống bằng bộ điều khiển rõ
Hình 3.3: Điều khiển truyền thống với nghịch đảo mơ hình
Hình 3.4: Điều khiển truyền thống với thích nghi Li-Slotine
Hình 3.5: Đề xuất cấu trúc 2 vịng điều khiển
Hình 3.6: Các thời điểm ước lượng thơng minh giá trị đạo hàm trạng thái
Hình 3.7: Đáp ứng vị trí của khớp thứ nhất khi sử dụng
Hình 3.8: Đáp ứng vị trí của khớp thứ hai khi sử dụng
Hình 3.9: Sự thay đổi tham số hàm học thứ nhất khi sử dụng
Hình 3.10: Sự thay đổi tham số hàm học thứ hai khi sử dụng

Hình 3.11: Sự thay đổi tham số hàm học thứ nhất khi sử dụng
Hình 3.12: Sự thay đổi tham số hàm học thứ hai khi sử dụng
Hình 4.1: Hệ CSTR
Hình 4.2: Đề xuất giải pháp điều khiển thứ nhất
Hình 4.3: Đề xuất giải pháp điều khiển thứ hai
Hình 4.4: Đáp ứng của kênh nhiệt độ sau 20 lần thử
Hình 4.5: Đáp ứng của kênh nhiệt độ sau 150 lần thử
Hình 4.6: Sự thay đổi tương ứng của kênh nồng độ sau 150 lần thử
Hình 4.7: Kết quả ước lượng nhiễu d cho điều khiển bù
Hình 4.8: Đáp ứng của kênh nồng độ sau 30 lần thử
Hình 4.9: Đáp ứng của kênh nồng độ sau 200 lần thử
Hình 4.10: Sự thay đổi tương ứng của kênh nhiệt độ sau 200 lần thử
Hình 4.11: Kết quả ước lượng nhiễu d cho điều khiển bù
Hình 4.12: Đáp ứng của kênh nhiệt độ sau 10 lần thử
Hình 4.13: Đáp ứng của kênh nhiệt độ sau 100 lần thử
Hình 4.14: Sự thay đổi tương ứng của kênh nồng độ sau 100 lần thử
Hình 4.15: Kết quả ước lượng nhiễu cho điều khiển bù (1s đầu tiên)
vii

6
9
12
17
19
22
26
26
31
31
36

36
37
37
38
43
51
52
52
52
53
56
63
63
64
64
65
65
67
70
70
78
78
79
79
80
81
81
82
87
88

88
89


Hình 4.16: Đáp ứng của kênh nồng độ sau 15 lần thử
Hình 4.17: Đáp ứng của kênh nồng độ sau 150 lần thử
Hình 4.18: Sự thay đổi tương ứng của kênh nhiệt độ sau 150 lần thử
Hình 4.19: Nhiễu tổng  và kết quả ước lượng sau 1s
Hình 4.20: Kết quả ước lượng nhiễu tổng  sau 5s

viii

90
90
91
91
92


MỞ ĐẦU
1.

Ý nghĩa thực tiễn và tính cấp thiết của đề tài

Rất nhiều hệ thống sản xuất trong công nghiệp hiện đang hoạt động bởi bộ
điều khiển được thiết kế dựa trên mơ hình tốn của q trình, của đối tượng điều
khiển (gọi là hệ điều khiển truyền thống). Ở những hệ điều khiển truyền thống này
thì sau một khoảng thời gian làm việc đủ lâu, chắc chắn trong các vật liệu chế tạo
thiết bị điều khiển, đối tượng sẽ sinh ra thay đổi về cơ cấu vật lý, dẫn đến chất
lượng điều khiển khơng cịn được đảm bảo như thủa ban đầu.

Giải pháp đơn giản để hỗ trợ cho hệ truyền thống mà ở đó xuất hiện những lỗi
tương tự như trên, là phương pháp điều khiển học lặp. Với điều khiển học lặp,
người ta không cần phải chỉnh định lại bộ điều khiển truyền thống, không cần can
thiệp sâu vào hệ thống đã có. Bởi vậy đề tài là có ý nghĩa thực tiễn.
Tuy nhiên, điều khiển học lặp không áp dụng thành công cho mọi lớp hệ, nhất
là những hệ mất ổn định. Chất lượng mà bộ điều khiển học lặp mang lại phụ thuộc
rất nhiều vào tính chất động học và vào việc chọn hợp lý luật chỉnh định. Vì vậy
việc nghiên cứu, tìm ra giải pháp thông minh để can thiệp sơ bộ trước vào hệ, tạo
khả năng áp dụng được điều khiển học lặp cho nó, cũng như xác định được luật
chỉnh định áp dụng được cho nhiều lớp hệ.

2.

Mục đích và nhiệm vụ của luận án

Mục đích của luận án là sử dụng bộ điều khiển học lặp có hàm học tuyến tính
để điều khiển các quá trình phi tuyến. Để thực hiện được mục đích đề ra này, luận
án đặt ra ba nhiệm vụ chính sau:
 Xác định được nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm
quá khứ cho bộ điều khiển học lặp. Sẽ là tốt nhất nếu nguyên tắc hiệu chỉnh này
áp dụng được cho một lớp rộng các đối tượng khác nhau (có cấu trúc vật lý khác
nhau, mơ tả bởi các mơ hình tốn khác nhau). Nói cách khác, sẽ là tốt nhất nếu
việc hiệu chỉnh lại tín hiệu điều khiển, kể cả việc chọn tham số hội tụ cho hàm
học, không phụ thuộc vào mơ hình tốn của q trình.
 Nếu xem sai lệch mơ hình tốn của q trình và sai lệch của cơ cấu chấp hành
như nhiễu tổng (lumped disturbances) thì luận án cần phải ước lượng thơng
minh được thành phần nhiễu tổng này, kể cả các thành phần bất định hàm, mà
khơng sử dụng đến mơ hình tốn của hệ. Điều này, thông qua việc điều khiển bù
nhiễu tổng, sẽ mở rộng được phạm vi ứng dụng của phương pháp điều khiển kết
hợp giữa ILC và các phương pháp truyền thống.

 Thiết kế thuật toán điều khiển dựa trên hai mục tiêu trước để điều khiển hai đối
tượng làm việc theo mẻ trong công nghiệp là robots và hệ phản ứng hóa học
khuấy trộn liên tục.

1


3.

Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu của luận án là các quá trình cơng nghiệp có tính phi
tuyến. Luận án sẽ tập trung vào 2 đối tượng điển hình với hai đặc tính động học
hồn tồn khác nhau là robot cơng nghiệp và hệ phản ứng hóa học khuấy trộn liên
tục.
Phạm vi nghiên cứu của luận án là sử dụng các hàm học tuyến tính để điều
khiển các q trình phi tuyến. Điều này là không thể nếu chỉ áp dụng trực tiếp các
hàm học tuyến tính. Bởi vậy phạm vi nghiên cứu đề ra của luận án gồm: Dựa trên
những kết quả nghiên cứu đã có về điều khiển học lặp, về các cơng thức hiệu chỉnh
tín hiệu điều khiển để đánh giá ưu nhược điểm của chúng, những vấn đề còn tồn tại
và nhất là phân tích, đánh giá khả năng có thể khắc phục được các vấn đề cịn tồn tại
đó.
 Dựa vào kết quả phân tích trên, luận án cần xây dựng được phương pháp cụ thể
để triển khai việc khắc phục các vấn đề còn tồn tại. Trong phần này luận án sẽ
đề cao những phương pháp giải quyết thơng minh. Luận án xây dựng thuật tốn
chỉnh định thích nghi tham số hàm học tuyến tính để điều khiển các q trình
phi tuyến
 Khơng dừng lại ở việc chỉ sử dụng học lặp để nâng cao chất lượng cho các hệ
điều khiển truyền thống hiện có, luận án (LA) cịn hướng tới bài tốn xây dựng
bộ điều khiển học lặp cho những hệ chưa có bộ điều khiển truyền thống. Do

điều khiển học lặp không áp dụng được cho mọi lớp hệ, nên để giải quyết bài
toán đặt ra này, LA sẽ nghiên cứu can thiệp sơ bộ trước vào các quá trình phi
tuyến bằng bộ điều khiển bù thơng minh sao cho nó thích hợp với hàm học
tuyến tính có tham số thay đổi thích nghi, sao cho sau đó bộ điều khiển học lặp
lại là áp dụng được (học lặp gián tiếp), đặc biệt là với học lặp tuyến tính.

4.

Phương pháp nghiên cứu

Để đạt được mục tiêu đặt ra của đề tài, luận án sử dụng hai phương pháp
nghiên cứu chính sau:
 Nghiên cứu lý thuyết:
1) Xác định điều kiện hội tụ cho cho các quá trình học tuyến tính, từ đó chọn
được tham số học tối ưu cho hàm học của điều khiển học lặp.
2) Xây dựng phương pháp nhận dạng nhiễu nói riêng và các thành phần bất
định hàm nói chung có trong đối tượng điều khiển mà khơng cần sử dụng
đến mơ hình toán của đối tượng điều khiển, phục vụ điều khiển bù sai lệch
mơ hình, tiến tới mở rộng được được phạm vi ứng dụng của bộ điều khiển
học lặp cho nhiều lớp đối tượng khác nhau, bao gồm cả những đối tượng, các
q trình khơng ứng dụng trực tiếp được điều khiển học lặp.
 Kiểm chứng kết quả lý thuyết bằng mơ phỏng với những đối tượng cơng nghiệp
có tính chất động học khác xa nhau, bản chất vật lý cũng khác nhau.

2


5.

Bố cục của luận án


Nội dung của luận án được trình bày trong 4 chương và một chương kết luận,
được phân chia theo chủ đề phải nghiên cứu như sau:
 Chương 1 nêu tổng quan các kết quả đã có liên quan đến điều khiển học lặp,
đánh giá tính hội tụ của q trình học. Từ đó phân tích, đưa ra các nhận xét về
những vấn đề còn tồn tại, chưa được xử lý.
 Chương 2 trình bày một số kết quả bổ sung về việc xác định tham số cho hàm
học tuyến tính, đảm bảo tính hội tụ cho quá trình học. Cũng ở chương này, các
phương pháp được trình bày gồm có cả phương pháp sử dụng mơ hình, kể cả
phương pháp tối ưu nhằm tăng tốc độ hội tụ cho q trình học và phương pháp
khơng sử dụng mơ hình.
 Chương 3 trình bày một ứng dụng các kết quả lý thuyết nêu lên ở chương 2 cho
đối tượng robots cơng nghiệp và phân tích kết quả đạt được.
 Chương 4 trình bày ứng dụng kết quả lý thuyết của luận án, đã được trình bày ở
chương 2, cho đối tượng lị phản ứng hóa học liên tục (CSTR). Khác với đối
tượng robots công nghiệp được sử dụng ở chương 3, hệ CSTR là một quá trình
chậm và khơng thể đảo ngược được, nên việc chọn nó làm đối tượng kiểm tra,
đánh giá tính hiệu quả của các kết quả lý thuyết của luận án, đã được nêu ở
chương 2 là có ý nghĩa.
 Cuối cùng, ở phần Kết luận, luận án tổng kết lại các đóng góp mới, cũng như
những định hướng cho nghiên cứu tiếp theo.

3


CHƯƠNG 1: TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ
TÍNH HỘI TỤ CỦA QUÁ TRÌNH HỌC

1.1


Điều khiển học lặp và lý do nên kết hợp với truyền thống

Nhiệm vụ cốt lõi của Điều khiển-Tự động hóa ln là phải làm cho đầu ra của
hệ thống bám theo được tín hiệu đặt mong muốn. Điều đó có nghĩa rằng, khi ký
hiệu các đầu ra của hệ và tín hiệu đặt, gồm các vector
T

y(t )  y1 (t ),  , yn (t)  , r (t)  r1 (t),  , rn (t) 

T

thì nhiệm vụ của Điều khiển-Tự động hóa là tạo ra được y  r hoặc ít nhất thì
cũng làm cho y càng gần tới r càng tốt, mà ở đó khái niệm gần được đánh giá theo
một chuẩn nào đó thích hợp của vector sai lệch bám e(t)   , t  Te có Te là
hằng số dương hữu hạn đủ lớn cho trước, trong đó e(t ) r (t)  y(t ) là sai lệch bám
và   0 là hằng số dương rất nhỏ cũng cho trước.
Đã có vơ vàn các phương pháp giúp thực hiện nhiệm vụ trên của bài toán Điều
khiển-Tự động hóa ở trên và chủ yếu chúng được xây dựng trên nền tảng lý thuyết
Lyapunov, như Lyapunov II, backstepping, backstepping thích nghi, trượt, trượt
thích nghi, tuyến tính hóa chính xác, tuyến tính hóa chính xác thích nghi, dynamic
surface control. Phần lớn các phương pháp này là dựa vào mơ hình tốn mơ tả hệ
thống, tức là dựa vào mơ hình tốn mơ tả ánh xạ vào ra f p  u(t )  của hệ
u(t )  y(t) f p  u(t )  .
trong đó
u(t )  u1 (t ),  , um (t) 

T

là ký hiệu của vector gồm tất cả các tín hiệu đầu vào. Các phương pháp dựa vào mơ
hình của hệ được gọi là phương pháp điều khiển truyền thống.

Tuy nhiên, cho dù đã có vô vàn các phương pháp như vậy, song không phải
lúc nào cũng có được chất lượng bám e r  y  0 hoặc e(t)   , t  Te , như
yêu cầu, đặc biệt là cho mọi bài toán. Nguyên nhân cơ bản, theo tài liệu [5], là do độ
chính xác của mơ hình khơng đủ chính xác hoặc do nhiều tác động không thể mô tả
được tác động vào hệ thống. Chúng xuất phát có thể là do sự thiếu hụt về mặt lý
luận, hiểu biết của con người, phục vụ mơ hình hóa, để có được mơ hình chính xác
[1] (hiểu biết của con người là rất nhiều, song vẫn chưa đủ để mô tả được mọi hiện

4


tượng tự nhiên), hoặc dạng mơ hình tốn có được lại khơng thích hợp với phương
pháp điều khiển truyền thống đã có, và thậm chí cũng có thể cịn do những tác động
không ngờ xảy ra với hệ thống sau khi đã có mơ hình tốn.
Mặt khác, kể cả trong trường hợp mơ hình tốn là đủ chính xác, giúp cho ta
thiết kế được bộ điều khiển truyền thống đạt được chất lượng mong muốn, thì sau
một khoảng thời gian làm việc lâu dài, sẽ sinh ra thay đổi về cơ cấu vật lý trong các
vật liệu chế tạo thiết bị điều khiển, trong cơ cấu chấp hành. Điều này dẫn tới mơ
hình tốn có ban đầu để mơ tả đối tượng sẽ khơng cịn đủ chính xác, làm cho chất
lượng điều khiển của bộ điều khiển truyền thống đã được thiết kế cũng khơng cịn
được đảm bảo.
Để khơi phục lại chất lượng điều khiển, tất nhiên theo phương pháp truyền
thống, người ta phải xây dựng lại mơ hình tốn mới cho đối tượng điều khiển (bao
gồm cả cơ cấu chấp hành), rồi dựa vào đó mà hiệu chỉnh lại tham số cho bộ điều
khiển, nếu như không muốn thay thế thiết bị mới.
Đối với các quá trình làm việc theo chu kỳ tuần hồn (robots, bình phản ứng
hóa học) thì rõ ràng việc làm trên, tức là việc thay thế thiết bị hay thiết kế lại bộ
điều khiển truyền thống, là một sự lãng phí thơng tin có từ đối tượng mà trong đó
chứa đựng sự mệt mỏi của vật liệu, về lỗi của thiết bị. Những thông tin này đều
có thể thu thập, phục vụ chẩn đốn lỗi hệ thống, vì những dữ liệu đo được đó cũng

mang tính chu kỳ. Sự lãng phí thơng tin này sẽ dẫn đến việc đội thêm chi phí sửa
chữa, bảo hành hệ thống. Do đó vấn đề đặt ra là làm thế nào sử dụng được thơng tin
chẩn đốn lỗi thiết bị để hiệu chỉnh lại tín hiệu điều khiển mà không cần phải thiết
kế mới bộ điều khiển hay thay thế mới thiết bị. Rõ ràng đây là bài toán mang ý
nghĩa thực tiễn, cả về mặt rút ngắn thời gian bảo trì thiết bị và cả về hiệu quả hoạt
động lâu dài của quá trình sản xuất. Câu trả lời cụ thể sẽ nằm ở việc cần phải nghiên
cứu kết hợp như thế nào cho hiệu quả phương pháp điều khiển thông minh (xử lý
thông tin thu thập trong quá khứ để hiệu chỉnh lại tín hiệu điều khiển cho tương lai)
với bộ điều khiển truyền thống đã có.
Nguyên gốc thì có ba phương pháp điều khiển thơng minh thích hợp cho các
q trình làm việc tuần hồn nêu trên, gồm điều khiển qua các phép thử (control
peer trials), repetitive (tạm dịch là lặp đi lặp lại) và run to run (R2R). Chúng hình
thành từ yêu cầu thực tiễn của nhiều lĩnh vực tự động hóa khác nhau, được đề xuất
bởi nhiều nhóm tác giả khác nhau, có những định hướng ứng dụng khác nhau, song
đều thích hợp cho giải pháp điều khiển kết hợp đặt ra. Tất cả ba phương pháp điều
khiển thơng minh này có chung một đặc điểm là sử dụng những kết quả đo được từ
q trình trong các chu kỳ làm việc trước đó để hiệu chỉnh lại tín hiệu điều khiển
cho chu kỳ làm việc tiếp theo. Nguyên tắc điều khiển như vậy được gọi là học trên
cơ sở kinh nghiệm của quá khứ nhằm nâng cao chất lượng điều khiển hiện tại và
tương lai, hay cịn gọi là điều khiển thơng qua quá trình học hỏi tự động. Từ đặc
điểm chung này mà phương pháp tổng quát, có tên là điều khiển học lặp, được hình
thành (gọi tắt là ILC - Iterative learning control). Đây cũng là phương pháp điều
khiển thông minh thường được lựa chọn đầu tiên để khắc phục lỗi thiết bị và lỗi hệ
thống làm việc theo chu kỳ, đảm bảo được chất lượng điều khiển là vẫn bám tín

5


hiệu đầu ra như mong muốn (output regulations). Hình 1.1 dưới đây mơ tả ngun
tắc điều khiển kết hợp này.


Hình 1.1: Nguyên lý làm việc của điều khiển học lặp với hệ truyền thống
Tất nhiên chất lượng điều khiển bởi ILC phụ thuộc chủ yếu vào việc xác định
được nguyên tắc hiệu chỉnh lại tín hiệu điều khiển từ kinh nghiệm trong quá khứ
một cách hợp lý, theo nghĩa sử dụng được tốt nhất kinh nghiệm có từ những chu kỳ
q khứ của q trình.
Do đó, bài tốn nghiên cứu kết hợp một cách hợp lý giữa điều khiển học lặp
trên cơ sở xác định nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm
quá khứ, với hệ điều khiển truyền thống, nhằm cải thiện chất lượng điều khiển mà
không cần phải thay thế mới thiết bị cũng như rút ngắn thời gian bảo dưỡng hệ
thống, là cần thiết.
1.1.1

Về nguyên lý điều khiển học lặp

Điều khiển học lặp là một hướng của điều khiển thơng minh, vì chúng khơng
sử dụng mơ hình tốn, áp dụng cho các hệ làm việc theo chu trình tuần hồn nói
chung và theo mẻ nói riêng, tức là cho hệ làm việc theo chu kỳ T cho trước. Ở
những hệ như vậy thì tín hiệu đặt r (t ) cũng phải là tín hiệu đặt dạng tuần hồn với
cùng chu kỳ T .
Điều khiển học lặp làm việc theo nguyên tắc là dựa vào tín hiệu điều khiển
u(t ) và sai lệch bám e(t ) r (t)  y(t ) trong quá khứ để chỉnh định lại tín hiệu điều
khiển u(t) ở chu kỳ làm việc hiện tại, gọi là chu kỳ thứ k , mà khơng cần đến mơ
hình tốn, sao cho sai lệch bám ở chu kỳ k hiện tại nhỏ hơn ở các chu kỳ trước và
tiến tới e  0 hoặc e(t)   sau một vài chu kỳ làm việc nào đó. Các dữ liệu quá
khứ cũng sẽ được thu thập trong toàn bộ một chu kỳ làm việc. Vậy, nếu ký hiệu
u(t ) và e(t ) ở chu kỳ hiện tại, ký hiệu là chu kỳ thứ k , bởi uk ( ), ek ( ) , trong đó
t kT   và 0   T thì bản chất của điều khiển học lặp là hiệu chỉnh lại uk ( )
từ các giá trị uj1 ( ), ej 2 ( ) trong quá khứ, tức là phải có k  j1 và k  j 2 , được thể
hiện tổng quát qua công thức [5]

uk ( ) f Q  uj1 (1 )   f L  ej 2 ( 2 ) 

6


với 0 1 , 2  T . Hàm f Q [] có tên gọi là Q-learning và f L [] có tên gọi là hàm
học. Hai hàm này đều phải được chọn trước một cách phù hợp. Công thức ở trên
thường được gọi là luật chỉnh định hay công thức chỉnh định. Hình 1.1, lấy từ tài
liệu [1], minh họa nguyên tắc cập nhật, thay đổi tín hiệu điều khiển từ chu kỳ k  1
sang chu kỳ thứ k của điều khiển học lặp. Trong quá trình hiệu chỉnh tín hiệu điều
khiển từ chu kỳ này sang chu kỳ khác như vậy, và mỗi chu kỳ như vậy sẽ được gọi
là lần thử. Quá trình học sẽ chỉ kết thúc sau một số lần thử hữu hạn M , nếu đã đạt
được sai lệch bám đủ nhỏ theo yêu cầu ek ( )   ,   [0,T ) .
Tuy nhiên, việc thu thập uj1 ( ), ej 2 ( ) trong quá khứ có 1 , 2 là toàn bộ số
thực thuộc khoảng [0,T ) là khơng thể, vì sẽ có vơ số các giá trị cần lưu giữ, nên ở
điều khiển học lặp người ta đã thay công thức chỉnh định liên tục bằng công thức
chỉnh định rời rạc như sau
uk (i ) f Q  uj1 (i1 )   f L  ej 2 (i 2 ) 
với  iTs , 1 i1Ts và  2 i 2Ts , trong đó 0  Ts 1 là hằng số dương chia hết
bởi T và phải rất nhỏ được chọn trước, gọi là tần số thu thập dữ liệu. Như vậy, nếu
ký hiệu N T Ts thì cũng sẽ phải có i , i1 , i 2 0,1,  , N  1 mẫu tín hiệu cần thu
thập cho mỗi chu kỳ, hay lần thử.
1.1.2

Về hàm Q-learning và hàm học

Mặc dù được nghiên cứu nhiều, song cho đến nay thực sự vẫn chưa có một
cơng trình nào đưa ra được cấu trúc chung của f Q [] mang ưu điểm vượt trội và
trong tương lai chắc cũng sẽ khơng có câu trả lời cho mọi lớp hệ. Kiểu hàm Qlearning f Q [] được nghiên cứu và áp dụng vào thực tế nhiều nhất vẫn là kiểu hàm
tuyến tính

f Q  uj1 (i1 )   0 uj1 (i1  1)  1u j1 (i1 )   2 u j1 (i1  1)
Các tài liệu [7]-[12] cho thấy, thơng qua những ví dụ ứng dụng thực tế khác nhau,
rằng khi thỏa mãn  0  1   2 1 thì tính bền vững của hệ học lặp ứng với thành
phần bất định tần số cao sẽ được cải thiện, song không phải lúc nào cũng có được
tính tiệm cận ek  0 của sai lệch bám. Phổ cập, và cũng đủ mang lại được ek  0
cho một lớp hệ nhất định, chẳng hạn như tuyến tính, là kiểu hàm có
 0 1 0,  2 1 . Thống kê trong các công trình ứng dụng của điều khiển học lặp
vào các quá trình làm việc theo mẻ ở [5]-[15] thì hàm Q-learning chủ đạo, đơn giản
song vẫn hiệu quả, là hàm đồng nhất với j1 k  1 và i1 i , tức là
f Q  uj1 (i1 )  uk 1 (i ) .

7


Tính hiệu quả của hàm Q-learning đồng nhất khi kết hợp với hàm học f L [] cũng ở
dạng tuyến tính đã được chứng minh thơng qua mơ phỏng hoặc các ứng dụng thực
tế nêu trong các tài liệu [CT1],[CT4],[CT5],[1],[5]-[15].
Tương tự như vậy là các nghiên cứu về cấu trúc hàm học f L [] . Nhiều nghiên
cứu về cấu trúc phi tuyến của f L [] và ảnh hưởng của nó tới chất lượng hội tụ, song
cũng khơng có được một khẳng định nào, trong số các cơng trình đã được công bố ở
[1],[5]-[15] chỉ được rõ ràng rằng hàm học f L [] phi tuyến sẽ tốt hơn tuyến tính.
Cấu trúc hàm học phổ cập nhất vẫn là cấu trúc tuyến tính với
f L  ej 2 (i 2 )  K 1ej 2 (i 2  1)  K 2ej 2 (i 2 )  K 3ej 2 (i 2  1)
có các tham số K 1 , K 2 , K 3 cần phải được chọn thích hợp.
1.1.3

Về khả năng hội tụ của luật chỉnh định

Mặc dù điều khiển học lặp, là một hình thức của điều khiển thơng minh, hồn
tồn khơng sử dụng tới mơ hình tốn của đối tượng cho việc thiết kế bộ điều khiển

(model free control approach), song để phân tích được tính hội tụ của q trình học
theo nghĩa có đạt được chất lượng bám ek (i )  0, i 0,1,  , N  1 hay không,
hoặc ek ( )   ,   [0,T ) và k M với M là một giá trị hữu hạn, thì cho tới
ngày nay, người ta vẫn phải sử dụng tới mơ hình tốn của hệ.
Chẳng hạn, khi cả hai ánh xạ vào-ra của hệ và hàm học f L [] là tuyến tính,
hàm Q-learning có dạng đồng nhất , tức là khi cơng thức chỉnh định có dạng
uk1 (i ) uk (i )  f L  ek (i ) 
thì các tài liệu [1],[68] đã chỉ ra rằng sẽ có được ek (i )  0, i 0,1,  , N  1 nếu
điều kiện sau được thỏa mãn:
1e  ffp 

L

1

trong đó 1e là ký hiệu của ánh xạ đồng nhất và  là ký hiệu của hàm hợp. Rõ ràng,
để chọn được hàm học tuyến tính f L [] thỏa mãn nhằm đảm bảo tính hội tụ cho
q trình học người ta cần phải biết mơ hình f p[] của hệ. Điều này làm cho tính
thơng minh của phương pháp chưa thực sự trọn vẹn, vì vẫn cần phải có mơ hình
tốn để chọn được cơng thức chỉnh định phù hợp (mặc dù mơ hình tốn là không
cần cho việc thiết kế bộ điều khiển sau khi đã có cơng thức chỉnh định, như được
thể hiện ở hình 1.2 dưới đây).

8


Hình 1.2: Mơ tả q trình huấn luyện bộ điều khiển học lặp
Để thuận tiện cho việc chọn được hàm học thỏa mãn điều kiện hội tụ
ek (i )  0, i 0,1,  , N  1
hoặc

ek ( )   ,   [0,T ) khi k M
người ta thường chỉ tập trung triển khai cho ba dạng tuyến tính cơ bản sau
 Hàm học kiểu P:
f  ek ( j )  K ek (i )
Khi đó luật học và chỉnh định với hàm Q-learning đồng nhất , tức là công thức
chỉnh định trở thành
uk1 (i ) uk (i )  K ek (i ) .
 Hàm học kiểu D:
f  ek ( j )  K ek (i  1)
Tương ứng, công thức chỉnh định với hàm Q-learning đồng nhất trở thành
uk1 (i ) uk (i )  K ek (i  1), i 0,1,  , N  1 .
Với hàm học kiểu D này, ở thời điểm cuối của chu trình làm việc i N  1 nó
trở thành kiểu P, tức là
uk1 (N  1) uk (N  1)  K ek (N  1)
do tại đó khơng tồn tại ek (N ) .
 Hàm học kiểu PD:
f  ek ( j )  K 1ek (i )  K 2ek (i  1)

9


Vậy, công thức chỉnh định với hàm Q-learning đồng nhất trở thành
uk1 (i ) uk (i )  K 1ek (i )  K 2ek (i  1), i 0,1,  , N  1 .
Tương ứng, ở thời điểm cuối của chu trình làm việc i N  1 nó trở thành
uk1 (N  1) uk (N  1)   K 1  K 2  ek (N  1)
 Hàm học kiểu PID:
f  ek ( j )  K 1ek (i  1)  K 2ek (i )  K 3ek (i  1) .
Khi đó công thức chỉnh định với hàm Q-learning đồng nhất trở thành
uk1 (i ) uk (i )  K 1ek (i  1)  K 2ek (i )  K 3ek (i  1) .
Ở thời điểm đầu i 0 và cuối i N  1 của chu trình làm việc, nó có dạng

uk1 (0) uk (0)   K 1  K 2  ek (0)  K 3ek (1)
uk1 (N  1) uk (N  1)  K 1ek (N  2)   K 2  K 3  ek (N  1)
do tại những thời điểm đó không tồn tại ek ( 1) và ek (N ) .
Bên cạnh ba dạng hàm học tuyến tính ở trên thì các tài liệu [8]-[15] cịn đưa ra
nhiều dạng khác nhau nữa, gồm cả cả các hàm học phi tuyến, song chất lượng điều
khiển mà những hàm học này mang lại cho hệ là chưa rõ ràng, nhất là sự cải tiến về
tính hội tụ cho q trình học và lớp các hệ sử dụng được chúng cũng không được
phân tích chi tiết.
Với những dạng hàm học tuyến tính cơ bản này, các tài liệu [1],[5]-[15] đã chỉ
ra được điều kiện đủ để chọn tham số K 1 , K 2 , K 3 đảm bảo tính hội tụ cho trường
hợp hệ ban đầu là tuyến tính mơ tả bởi ánh xạ vào-ra có dạng cụ thể trong khơng
gian trạng thái là
x Ax  Bu
y C x

trong đó:
 A  Rnn , B  Rnm, C  Rmn lần lượt là các ma trận hệ thống, ma trận điều
khiển và ma trận đầu ra,
 x(t )  Rn , u(t)  Rm, y(t)  Rm là vector các tín hiệu trạng thái, đầu vào và
đầu ra.
 Nếu sử dụng công thức chỉnh định kiểu D thì điều kiện đủ để đảm bảo tính hội
tụ cho q trình học, tham số học K cần thỏa mãn
ˆ ˆ  1,
I  CBK
m

trong đó I m là ký hiệu của ma trận đơn vị kiểu mm và
Ts

Aˆ eATs , Bˆ  eAtBdt, Cˆ C .

0

10



×