Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 101
Mã bài: 28
Phân cụm trừ mờ và giải thuật di truyền ứng dụng cho bài toán thiết
kế hệ điều khiển tự động từ dữ liệu
An Application of Fuzzy substructive clustering
for designing automatic s ystem from data
Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng*
Đại học Thái Nguyên
*Viện Công Nghệ Thông tin
e-Mail: ;
Tóm tắt
Các hệ thống mờ có ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực mô phỏng quá trình
và điều khiển. Thông thường việc thiết kế các hệ thống mờ có thể được thiết kế từ tri thức chuyên gia
hoặc từ dữ liệu. Tiếp cận mỗi một phương pháp thiết kế đều có những thuận lợi và hạn chế riêng của nó.
Bài báo được trình bày theo hướng xây dựng hệ luật mờ cho điều khiển từ dữ liệu. Có nhiều cách tiếp cận
khác nhau nhưng bài báo tập trung vào phân tích phương pháp phân cụm trừ dữ liệu để tạo ra các luật mờ
kết hợp sử dụng giải thuật di truyền để tối ưu hóa các thông số của hệ luật.
Từ khóa: phân cụm trừ mờ, giải thuật di truyền, hệ điều khiển mờ.
Abstract
Fuzzy system is applied in various fields, in which fuzzy control is widely focussed. Usually, fuzzy
control designed from knowledge of experts in the certain application fields or from data. Each approach
has some advantages and some limitations. This paper is described a method for substractive clustering of
application data to create fuzzy rules and then, parameters of fuzzy rules are optimised by genetic
algorithm.
Ký hiệu
Ký hiệu Đơn vị Ý nghĩa
i
A
1
,
i
A
2
Các giá trị ngôn ngữ
y hàm tuyến tính đầu ra
i
j
p
Các thông số hàm tuyến
tính đầu ra
r
a
Bán kính cụm
x
1,
x
2…
Tập các điểm dữ liệu
e
Hằng số chấp nhận
e
Hằng số từ chối
ab
rr 5.1
Thông số chọn theo r
a
* giá trị đặt, giá trị cần
Chữ viết tắt
GA Genetic algorithm
in1,in2 Input1, input2
SC Substractive clustering
1. Phần mở đầu
Sự phát triển nhanh chóng của các hệ thống điều
khiển, các hệ thống thông tin như hiện nay, thì hệ
mờ được áp dụng thành công trong nhiều lĩnh vực
như điều khiển tự động, phân lớp dữ liệu, phân
tích việc ra quyết định, các hệ chuyên gia. Hệ luật
mờ xây dựng từ tri thức nói chung hay hệ suy luận
mờ nói riêng được xây dựng theo suy diễn của con
người, là một phần quan trọng trong ứng dụng
logic mờ cũng như trong lý thuyết tập mờ vào thực
tế. Trong nhiều ứng dụng cho thiết kế các hệ thống
điều khiển thông minh cũng như trong xây dựng
các hệ trợ giúp quyết định, hệ mờ được xây dựng
theo phân lớp dữ liệu, phân cụm dữ liệu, xây dựng
cây quyết định [2,3,4,5]. Hệ điều khiển mờ được
thực hiện từ các luật mờ, các luật mờ được xây
dựng từ các tri thức của các chuyên gia trong một
lĩnh vực cụ thể.
102 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng
VCM2012
Phân cụm dữ liệu đang là một vấn đề quan tâm
nghiên cứu của các tác giả trong và ngoài nước
[2,3,4,5] và có nhiều thuật toán phân cụm được đề
xuất. Trong đó, không ít thuật toán phân cụm kết
hợp với việc sử dụng giải thuật di truyền trong quá
trình thực hiện. Tuy nhiên các thuật toán được đưa
ra mới chỉ xét đến khía cạnh phân chia dữ liệu
thành các cụm với độ chính xác cao mà chưa để
tâm đến sự tối ưu các luật sử dụng, ví dụ giải thuật
GA K-means được sử dụng trong bài toán thị
trường mua sắm trực tuyến do Kyoung-jae Kim và
Hyunchul Ahn đưa ra là thuật toán sử dụng K-
means kết hợp với giải thuật di truyền và được
chứng tỏ có sự cải thiện đáng kể trong việc thực
hiện phân nhóm so với các thuật toán phân cụm
điển hình khác. Hoặc phương pháp phân cụm bán
giám sát (Semi- Supervisor Clustering) dùng giải
thuật di truyền do Ayhan Demiriz; Kristin P.
Bennett và Mark J. Embrechts thuộc Rensselaer
Polytechnic Institute - Troy, NY 12180 đề xuất
năm 1999 là sự kết hợp các ưu điểm của các
phương pháp học có giám sát và học không giám
sát; giải thuật di truyền được sử dụng để tối ưu hóa
hàm mục tiêu cho thủ tục phân cụm. Bằng các kết
quả thực nghiệm, phương pháp này chỉ ra lợi thế
trong trường hợp có ít mẫu huấn luyện.
Trong các yêu cầu đặt ra cho quá trình phân cụm
thì yêu cầu về độ chính xác luôn được đặt lên hàng
đầu, ngoài ra với sự kết hợp các thuật toán phân
cụm và giải thuật di truyền còn thỏa mãn được tính
chất tối
ưu của các luật được sử dụng. Vì vậy một cách
tiếp cận khác mà bài báo nêu ra đó là xây dựng hệ
luật mờ cho hệ điều khiển mờ từ dữ liệu sử dụng
giải thuật di truyền và là một vấn đề thực tế. Trong
hệ điều khiển mờ có rất nhiều thông số, các thông
số của hàm thuộc, các điều kiện cũng như kết luận
của luật…cần phải tinh chỉnh và cần phải tối ưu
hóa. Để thực hiện mục tiêu trên, bài báo trình bày
theo các phần:
i) Mở đầu, ii)Tiếp cận hệ thống: đưa ra cái nhìn
khái quát của bài toán trong quá trình xây dựng
luật từ tri thức. Đề xuất một phương pháp tiếp cận
là phân cụm trừ mờ, sử dụng giải thuật di truyền
để tối ưu hóa các luật được hình thành sau quá
trình phân cụm. iii) Kết quả thực nghiệm và iv)
Kết luận.
Trong quá trình thực hiện, độ tin cậy của các luật
trong giải thuật di truyền được hiệu chỉnh cho phù
hợp thể hiện tính linh hoạt của thuật giải đưa ra.
2. Tiếp cận hệ thống
2.1. Hệ điều khiển mờ
Giả sử chúng ta có tập dữ liệu với cỡ p đầu vào và
q đầu ra trong hệ điều khiển mờ có hệ luật mờ như
sau. Theo Sugeno ở luật thứ i trong hệ luật được
viết theo: R
i
: If x
1
is
i
A
1
and x
2
is
i
A
2
and and x
p
is
i
p
A then y
i
is p
0
i
+p
1
i
x
1
+ +p
p
i
x
p
(1)
Trong đó:
x
i
là các biến vào
i
j
A là giá trị ngữ nghĩa của biến đầu vào
y
i
là hàm tuyến tính
i
j
p là các thông số của hàm tuyến tính đầu ra
Các biến đầu vào x
1
, x
2
là các biến thể hiện các
đại lượng vật lý của hệ thống, cũng có thể là thời
gian xử lý và độ ưu tiên (hoặc trọng số) trong khi
biến đầu ra y
k
(với k = 1, 2, …, K) là đại lượng vật
lý của đầu ra, có thể là chỉ số khả năng lựa chọn
(hoặc chỉ số tuần tự) của luật k.
k
A
1
và
k
A
2
(với k =
1, 2, …, K) là các giá trị ngữ nghĩa của phần điều
kiện của luật k nhận được bằng cách chiếu các
cụm vào các miền của các đại lượng vật lý đầu vào
hoặc là thời gian xử lý và độ ưu tiên tương ứng và
k
i
p (với i = 1, 2; k = 1, 2, …, K) là các hằng của
hàm tuyến tính đầu ra theo Sugeno.
2.2. Phân cụm trừ
Phân cụm trừ (subtractive clustering) xác định các
tâm cụm dựa trên mật độ các điểm lân cận. Xét
một tập hợp dữ liệu gồm n điểm:
1 2 n
, , ,
X x x x
(2)
Hàm tính mật độ cho một điểm dữ liệu là:
n
j
xx
r
i
ji
a
eP
1
4
2
2
(3)
Trong đó:
P
i
: Mật độ các điểm bao quanh điểm dữ liệu thứ i.
r
a
: là một hằng số dương hay còn gọi là bán kính
cụm.
.
: Khoảng cách Euclid giữa điểm dữ liệu thứ i
với các điểm bao quanh.
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 103
Mã bài: 28
Khi mật độ của tất cả các điểm dữ liệu đã được
tính, lựa chọn điểm có mật độ lớn nhất làm tâm
cụm thứ nhất. Gọi
*
1
x
là vị trí tâm cụm đầu tiên, có
mật độ là
*
1
P
thì
*
1
1
ax
n
i
i
P m P
.
Tính lại mật độ cho các điểm dữ liệu theo công
thức:
2
*
1
2
4
*
1
; 1, ,
i
b
x x
r
i i
P P P e i n
(4)
Và r
b
thường được chọn là
ab
rr 5.1
, tiếp tục
chọn điểm có mật độ lớn nhất làm tâm cụm thứ 2.
Trong trường hợp tổng quát khi đã có k tâm cụm
thì mật độ của các điểm dữ liệu còn lại được tính
theo công thức:
2
*
2
4
*
; 1, ,
i k
b
x x
r
i i k
P P P e i n
(5)
Sử dụng 2 điểm cận là cận dưới
ef
*
r
P
e
và cận
trên
ef
*
r
P
e
, với P
ref
là mật độ của tâm cụm thứ
k, trong đó
e
và
e
lần lượt được gọi là hằng số
chấp nhận và hằng số từ chối, thường được chọn
lần lượt là 0.5 và 0.15. Một tâm cụm mới được
chọn nếu điểm đó có mật độ lớn hơn cận trên. Nếu
điểm có mật độ lớn nhất nhỏ hơn cận dưới thì
thuật toán dừng. Phân cụm trừ bao gồm các thông
số chủ yếu sau
e
,
e
,
h
,
a
r
. Các thông số đó
thường được chọn như sau: 0.3≥
a
r
≥0.15;
1.5≥
h
≥1.25.
Biểu diễn thuật toán: Các bước của thuật toán như
sau
Bước 1: Khởi tạo
a
r
,
h
với
b
a
r
r
h
,
e
và
e
.
Bước 2: Tính mật độ cho các điểm dữ liệu theo
công thức (3). Chọn điểm có mật độ lớn nhất làm
tâm cụm thứ nhất
i
n
i
PP
1
*
1
max
và
*
1
x
là tâm cụm
thứ nhất .
Bước 3: Tính toán lại mật độ cho các điểm dữ liệu
còn lại theo công thức (4).
Bước 4: Gọi x
*
là điểm có mật độ lớn nhất là P
*
.
- Nếu
* e f
r
P P
e
:
*
x
là một tâm cụm mới và
tiếp tục bước 3.
- Ngược lại nếu
* ef
r
P P
e
: chuyển sang bước 5
- Ngược lại:
+
min
d khoảng cách nhỏ nhất giữa
*
x và các
tâm cụm trước đó.
+ Nếu
1
*
min
ref
a
P
P
r
d
:
*
x là một tâm cụm mới
và tiếp tục bước 3.
+ Ngược lại:
Thiết lập
0)(
*
xP
.
Chọn x* có mật độ P* lớn nhất và tiếp tục bước 4.
Bước 5: Đưa ra các cụm kết quả. Khi đó, độ thuộc
của điểm x
i
đối với một tâm cụm thứ k được xác
định theo công thức (6):
2
2
4
i k
a
x x
r
ik
e
(6)
2.3 Tối ưu các thông số cho luật điều khiển mờ
Các tham số tối ưu từ (1) được xác định bằng cách
sử dụng bộ dữ liệu (x
1t
, x
2t
, y
t
) với t = 1, 2, …, m.
dữ liệu ra có thể được viết:
K
k
k
t
k
t
K
k
k
t
K
k
k
t
k
t
t
y
w
yw
y
1
1
1
(7)
Trong đó:
t
kk
t
xAw
11
(
t
k
xA
22
) và
K
k
k
t
k
t
k
t
ww
1
/
Dưới dạng ma trận, đầu ra hệ thống là [2]:
PXY (8)
Ma trận đầu vào X được xác định ở từng luật là:
m
K
mmmm
K
mmm
K
mm
KKK
xxxx
xxxx
X
22
1
11
11
21121
1
111111
1
11
1
1
, ,,, ,,, ,
, ,,, ,,, ,
(9)
Với ma trận đầu ra được biết là:
T
m
yyY , ,
1
Khi đó ma trận P xác định theo bình phương cực
tiểu là:
YXXXP
TT
(10)
104 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng
VCM2012
Các thông số của (1) cũng có thể xác định tối ưu
theo phương pháp sử dụng giải thuật di truyền (H
3.)
3. Quá trình tực nghiệm
3.1 Áp dụng cho điều khiển con lắc ngược
Quá trình thực nghiệm được thực hiện trên tập dữ
liệu đặc trưng của các bộ điều khiển được thu thập
qua dữ liệu thu nhận được từ sai lệch điều khiển và
tác động điều khiển H1.
Phương trình con lắc ngược có dạng (11):
1
2
22
21
11
22
2
212
21
cos
cos
sincossin x
mM
Lm
mLIu
mM
xmL
xx
nM
Lm
xxmgLx
xx
(11)
và được biểu diễn theo các thành phần sau: :
B =
1
2
22
2
cos x
mM
Lm
mLI
f(x) = [mgLsin x
1
-x
2
2
m
2
L
2
cos x1sin
x1/M+m]/B
b = [mLcosx1/(M + m)]/B.
Với L = 0.5 m, m = 50 g, M = 1 kg, xd = 0;
0
d
x
; g = 9.8 m/s
0 5 10 15 20 25
-0.2
-0.1
0
0.1
0.2
0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
H. 1 Tập dữ liệu cho phân cụm
H. 2 Các luật được hình thanh qua phân cụm
H. 3 Sơ dồ thuật tóan cho tìm kiếm tối ưu thông
số
Khởi tạo ngẫu nhiên quần thể
Ch
ấ
p
nh
ậ
n
Đạt
Ch
ọn
l
ọc
Lai
t
ạo
D
ột
b
i
ến
Kết thúc
Bắt đầu
Yes
No
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 105
Mã bài: 28
-0.1
-0.05
0
0.05
0.1
0.15
0
0.05
0.1
0.15
-0.5
0
0.5
in1
in2
out1
-0.1 0 0.1
0
0.2
0.4
0.6
0.8
1
in1
Degree of membership
in1cluster1in1cluster2in1cluster3
Ham thuoc dau vao 1 cho phan cum tru
0 0.05 0.1 0.15
0
0.2
0.4
0.6
0.8
1
in2
Degree of membership
in2cluster1in2cluster2in2cluster3
Ham thuoc dau vao 2 cho phan cum tru
H. 4 a) Ma trận suy diễn và b) Các hàm thuộc đầu vào in1,
in2 theo cụm
b)
H. 5 a) Tín hiệu ra tiệm cận với tín hiệu yêu cầu
b) Tác động điều khiển và sai lệch điều khiển
Trên các hình 1 là tập dữ liệu đầu vào, Các dữ liệu
đó đwojc phân cụm trừ mờ theo các luật ở hình 2a.
Hàm thuộc của các luật và mặt suy diễn thể hiện
trên hình 4a,b. Hình 5a là kết quả mô phỏng đáp
ứng ra bám tín hiệu yêu cầu. điều khiển
3.2 Áp dụng cho điều khiển một hệ thống nhiệt
Phương trình hệ thống nhiệt có dạng như sau (12):
y(k+1)=ay(k)+b/(1+exp(0.5y(k)-r))u(k)+(1-a)y
0
(12)
với a=exp(-pTs) ; b=(q/p)(1-exp(pTs))
Ts=25;r=40;y
0
=25;p=1.00151*10
(-4)
;q=8.6797*10
(-3)
a)
0 10 20 30 40 50 60 70 80 90 100
20
30
40
50
60
0 10 20 30 40 50 60 70 80 90 100
0
1
2
3
4
5
30
35
40
45
50
55
30
40
50
-200
0
200
in1
in2
out1
30 40 50
0
0.2
0.4
0.6
0.8
1
in1
Degree of membership
in1cluster1 in1cluster2in1cluster3in1cluster4in1cluster5in1cluster6in1cluster7 in1cluster8in1cluster9in1cluster10in1cluster11in1cluster12in1cluster13 in1cluster14in1cluster15in1cluster16in1cluster17in1cluster18in1cluster19 in1cluster20in1cluster21
Ham thuoc dau vao 1 cho phan cum tru
30 40 50
0
0.2
0.4
0.6
0.8
1
in2
Degree of membership
in2cluster1 in2cluster2in2cluster3in2cluster4in2cluster5in2cluster6in2cluster7 in2cluster8in2cluster9in2cluster10in2cluster11in2cluster12in2cluster13 in2cluster14in2cluster15in2cluster16in2cluster17in2cluster18in2cluster19 in2cluster20in2cluster21
Ham thuoc dau vao 2 cho phan cum tru
H. 6 a) Tập dữ liệu đầu vào
b) Ma trận suy diễn, Các hàm thuộc đầu vào
in1, in2 theo cụm
0 20 40 60 80 100 120 140 160 180
0
10
20
30
40
50
60
70
80
H. 7 a) Tín hiệu ra tiệm cận với tín hiệu yêu cầu
b) Tác động điều khiển
Trên các hình 6a là các dữ liệu đầu vào, 6b là các
hàm thuộc được phân theo cụm. Trên hình 7a
(trên) là tín hiệu điều khiển bám quỹ đạo và 7b
(dưới) là tín hiệu điều khiển.
4. Kết luận
Bài báo trình bầy một phương pháp thiết kết hệ
điều khiển theo phân cụm trừ mờ và giải thuật di
truyền từ dữ liệu. Các kết quả của thuật toán được
mô phỏng cho hai đối tượng điều khiển là con lắc
ngược và lò nhiệt. Các kết quả mô phỏng cho thấy
thuật toán điều khiển đề xuất đáp ứng được các chỉ
tiêu của quá trình điều khiển. Việc thiết kế các hệ
điều khiển từ dữ liệu là một trong những quan tâm
rộng lớn trong thời gian gần đây và rất phù hợp
với thực tế và đây cũang là một hướng nghiên cứu
mới cần được quan tâm.
Tài liệu tham khảo
[1] Trần Mạnh Tuấn, Lê Bá Dũng, Markov model
in proving the convergence of fuzzy genetic
algorithm, accepted for presentation at the
2012 International Conference on Systems and
Informatics (ICSAI2012) to be held from 19 to
20 May 2012, Yantai, China và Báo cáo tại Hội
nghị CNTT và truyền thông, Cần thơ 10/2011
[2] S. L. Chiu, Fuzzy Model Identification Based
on Cluster Estimation,Journal on Intelligent
Fuzzy Systems, vol. 2, pp.267_278, 1994.
[3] S. L. Chiu, Extracting Fuzzy Rules from Data
for Function Approximation and Pattern
Classification, Fuzzy Information Engineering:
a Guide Tour of Applications, pp.149_162
(Chapter 9). D.Dubois, H. Prade, R.R. Yager
(Eds.), Wiley, New York, 1997.
[4] Demirli, K., S. X. Cheng, and P.
Muthukumaran, Subtractive Clustering Based
Modeling of Job Sequencing with Parametric
Search, Fuzzy Sets and Systems. 137: 235-270,
2003.
[5] JunYing Chen, Zheng Qin and Ji Jia,A
Weighted Mean Subtractive Clustering
106 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng
VCM2012
Algorithm, Information Technology Journal 7
(2): 356-360, ISSN 1812-5638, 2008.
[6] Mohammad GhasemiGol, Hadi Saoghi Yazdi,
Reza Monsefi, A New Hierarchical Clustering
Algorithm on Fuzzy Data (FHCA),
International Journal of coputer and electrical
engineering, Vol.2, No.1, February, 2010.
[7] Agus Priyono, Muhammad Ridwad Jais Alias,
Riza AtiQ O.K.Rahmat, Azmi Hassan,
Mohd.Alauddin Mohd.Ali, Generation of fuzzy
rules with subtractive clusterring, Universiti
Teknologi Malaysia, Jurnal Teknologi, 43(D)
Dis.2005:143-153
[8] Siamak Tafazoli, Mathieu Leduc and Xuehong
Sun, Hysteresis Modeling using Fuzzy
Subtractive Clutering, International Journal of
Computational Cognition, Vol.4, No.3,
September 2006
[9] C.D.Doan, S.Y.Liong and Dulakshi
S.K.Karunasinghe, Derivation of effective and
effcient data set with subtractive clustering
method and genetic algorithm, Journal of
Hydroinfomatics, 07.4.2005
[10] Lothar M.Schmitt, Fundamental Study Theory
of genetic algorithms, Theoretical Computer
Science 59 (2001) 1-61
[11] Gunter Rudolph, Convergence Analysis of
Canonical Genetic Algorithms, IEEE
transaction on neural networks, vol.5, No.1,
January 1994
[12] Mohanad Alata, Mohammad Molhim, and
Abdullah Ramini, Optimizing of Fuzzy C-
Means Clustering Algorithm Using GA, World
Academy of Science, Engineering and
Technology, pages 224-229, 39 2008,