Tải bản đầy đủ (.pdf) (38 trang)

Khóa luận tốt nghiệp toán học: Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 38 trang )



1

LỜI CẢM ƠN

Sau một thời gian học tập, nghiên cứu và triển khai đề tài: “Tính toán mờ trong
mạng Kohonen và ứng dụng phân cụm dữ liệu”, đến nay tôi đã hoàn thành đề tài
nghiên cứu của mình.
Tôi xin bày tỏ tấm lòng biết ơn sâu sắc nhất tới thầy giáo - Thạc sỹ Nguyễn Duy
Hiếu người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình tôi thực hiện đề tài
nghiên cứu khoa học này.
Tôi cũng chân thành cảm ơn tới lãnh đạo Nhà trường, Ban chủ nhiệm Khoa cùng
các thầy cô giáo đã giúp đỡ, tạo điều kiện để tôi có cơ hội nghiên cứu, học tập và hoàn
thành đề tài nghiên cứu này.
Do hạn chế về trình độ chuyên môn và thời gian thực hiện nên đề tài không tránh
khỏi những thiếu sót, rất mong nhận được sự góp ý của thầy cô để tôi có thể hoàn
thành tốt nhất đề tài nghiên cứu này.
Tôi xin chân thành cảm ơn!


Sơn la, tháng 5 năm 2014
Sinh viên

Hoàng Khánh Linh





2



MỤC LỤC
PHN M U 7
1. Lý do ch tài 7
2. M nhim v nghiên cu 7
ng nghiên cu 7
4. Phm vi nghiên cu 7
u 7
6. Cu trúc c tài 7
TNG QUAN V MÔ HÌNH M-RON 8
1.1. M-ron nhân to 8
1.1.1. M-ron nhân to là gì? 8
1.1.2 Cu trúc và mô hình ca m-ron nhân to 8
1.1.3 Cu tc làm vic ca m-ron 10
1.1.4. Các kiu m-ron 12
c 16
1.2.1. Khái Nim 16
1.2.2. Hc có giám sát 16
1.2.3. Hc không giám sát 17
1.2.4. Hc na giám sát 18
1.2.5. Hng 18
LÝ THUYT TP M 19
2.1. Tp m 19
2.1.1. Khái nim tp rõ 19
2.1.2. Khái nim tp m 19
2.2. S m 21
2.2.1. nh  m 21
2.2.2. S m  21
2.2.3. S m tam giác 21
2.2.4. S m hình thang 22



3

2.2.5. S m hình chuông(Gauss) 22
2.3. Bin ngôn ng 22
2.4. B gii m 24
2.4.1. y max 24
2.4.2. y trng tâm 24
2.4.3. y trung bình tâm 24
 THUT SOM VÀ BÀI TOÁN PHÂN CM D LIU 25
c v SOM 25
3.2.  25
3.3. Thut toán phân cm s dng SOM 26
3.4. Ví d minh ha thut toán 27
NG DNG MINH HA 32
4.1. Mô t d liu 32
4.2. La chn ngôn ng lp trình và h qun tr  d liu 32
4t thut toán 32
t thut toán 32
4.3.2. ng dng 36
KT LUN 37
1. Kt lun 37
ng nghiên cu phát tri tài 37
TÀI LIU THAM KHO 38



4


DANH SÁCH HÌNH VẼ
-ron nhân to 8
 th các dng hàm truyn 10
Hình 3: M-ron ba lp 11
Hình 4: Mt s dng m-ron 13
Hình 5 Cu trúc ca mng Hopfield 14
Hình 6: Cu trúc ca BAM 15
Hình 7:  th hàm thuc µ
A(x)
20
Hinh 8: S m tam giác 22
Hinh 9: S m hình thang 22
Hình 10: S m hình chuông 22
Hình 1 th biu din mi quan h gia nhi c thuc 23
Hình 12: Kin trúc ca SOM 26
Hình 13: Kin 26
 mng Kohonen cho ví d trên 29
Hình 15: Giao din chính c 33
Hình 16: Sau khi phân cm hoàn tt 34
Hinh 17: D liu 34
Hinh 18: Kt qu phân cm - Cm 1 35
Hình 19: Kt qu phân cm - Cum 2 35
Hinh 20: Kt qu phân cm - Cum 3 36




5

DANH MỤC BẢN BIỂU


Bng 1: S m ng buying 28
Bng 2: S m ng maint 28
Bng 3: S m ng lug_boot 28
Bng 4: S m ng safety 28
Bng 5: D liu vào ca ví d 28
Bng thông tin trong CSDL 32




6

DANH MỤC TỪ VIẾT TẮT
SOM
Self Organizing Maps
ANN
Artificial Neural Network
PE
Processing Element
MDP
Markov Decision Process
PCDL
Phân cm d liu
CSDL
 d liu





7

PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ph      (SOM: Self-   
-ron-ron vào và
-ron -ron 
-ron -ron 
-ron 
 ,  , 
 . 


 







 , 























 

(Control Engineering), 




(Kohonen, 1989), robotics (Ritter et al., 1989),  (Oja, 1992), 




(Fort, 1988), 

(Kohonen, 1984), - 


(Biomedical Sciences and
Chemistry), 





 (Financial Analysis) 
(Natural Language Processing).
2. Mục đích, nhiệm vụ nghiên cứu
- Tìm hiu m-ron và k thut SOM.
- Trin khai ng dng s dng k thut SOM vào phân cm d liu.
3. Đối tƣợng nghiên cứu
- Mng -ron và k thut Self Organizing Map (SOM).
4. Phạm vi nghiên cứu
- Nghiên cu k thut SOM và s d phân cm d liu.
- ng dng th nghim.
5. Phƣơng pháp nghiên cứu
- Nghiên cu lý thuyt và xây dng mô hình ng dng cho bài toán thc t
- Thu thp s liu thc t  th nghim trên mô hình
- Xây d nghim
6. Cấu trúc của đề tài
 tài gm ba phn:
- Phn 1: Phn m u
- Phn 2: Phn ni dung c tài gm 4 
Tng quan v mô hình mng -ron
t tp m
3: K thut SOM và bài toán phân cm d liu
4ha
- Phn 3: Kt lung nghiên cu phát tri tài



8

CHƢƠNG 1
TỔNG QUAN VỀ MÔ HÌNH MẠNG NƠ-RON
1.1. Mạng nơ-ron nhân tạo
1.1.1. Mạng nơ-ron nhân tạo là gì?
Định nghĩa: Mng -ron nhân to (Artificial Neural Network - ANN) gi tt là
mng -ron là mt mô hình x lý thông tin phng theo cách thc x lý thông tin ca
các h -ron sinh hc to lên t mt s ng ln các phn t (gi là phn
t x lý hay -ron) kt ni vi nhau thông qua các liên kt (gi là trng s liên kt)
làm vic nt th thng nh gii quyt mt v c th 
Mt mng -ron nhân tc cu hình cho mt ng dng c th (nhn dng
mu, phân loi d liu ) thông qua mt quá trình hc t tp các mu hun luyn. V
bn cht hc chính là quá trình hiu chnh trng s liên kt gia các -ron.
1.1.2 Cấu trúc và mô hình của một nơ-ron nhân tạo
Mô hình toán hc ca mng -ron sinh h xut bi McCulloch và
c gi là -ron M-c gi là phn t x lý và
c ký hiu là PE (Processing Element).
Mô hình -ron u vào x
1
, x
2
, , x
m
và mu ra y
i



Hình 1. Mô hình -ron nhân to

Gii thích các thành phn:
Tu vào: Là các tín hiu vào ca -ron, các tín hic
i dng mt vector m chiu.
Tp các liên kt (các trng s): Mi liên k c th hin bi mt trng s
c gi là trng s liên kt). Trng s liên kt gia tín hiu vào th j cho n-
ron i c ký hiu là w
ij
ng các trng s c khi to ngu
nhiên  thm khi to mc cp nht liên tc trong quá trình hc mng.


9

B tng (Hàm t tính tng cu vào vi trng s
liên kt ca nó.
t thành phn ca hàm truyn.
Hàm truy gii hn phu ra ca mi -ron. Nó nhn
u vào là kt qu ca hàm tng, phu ra ca
mi -ron c gii hn [0,1] hoc [-1,1]. Các hàm truyn rng, có
th là các hàm tuyn tính hoc phi tuyn. Vic la chn hàm truyn tùy thuc vào tng
bài toán và kinh nghim ci thit k mng.
u ra: Là tín hiu ra ca mt -ron, vi mi -ron s có tu
ra.
V mt toán hc, cu trúc ca mt -ron c mô t bng cp biu thc sau:

)(
iii
netfy




j
n
j
iji
xwnet



1

T
1
, x
2

m
là các tín hiu vào, còn w
i1
, w
i2

im
là các trng s
kt ni ca -ron th i, net
i
là hàm tng, f là hàm truyn,
i


là mng, y
i
là tín
hiu ra ca -ron.
 -ron sinh hc, -ron nhân tn các tín hiu
u vào, x lý (nhân các tín hiu này vi trng s liên kt, tính tc
ri gi kt qu n hàm truyn), và cho mt tín hi u ra (là kt qu ca hàm
truyn).
* Hàm truyn có th có các dng sau:
c






00
01
xkhi
xkhi
y
(1.1)
Hàm gii hn cht







01
01
)sgn(
xkhi
xkhi
xy
(1.2)
Hàm bc thang









00
10
11
)sgn(
xkhi
xkhix
xkhi
xy
(1.3)
c
x





e
y
1
1
v (1.4)
ng hai cc


10

1
1
2



 x

e
y
v (1.5)






*  th các dng hàm truyn c biu di


Hình 2:  th các dng hàm truyn
1.1.3 Cấu tạo và phƣơng thức làm việc của mạng nơ-ron
Da trên nhng -ron  mc trên, ta có th
hình dung mng -ron t h truyt và x lý tín hic tính truyt
ca -ron phn lc tính truy
Khi liên ku vào/ra ca nhiu -ron vc mt mng -
ron, vic ghép ni các -ron trong mng vi nhau có th là theo mt nguyên tc bt
k. Vì mng -ron là mt h truyt và x lý tín hiu, nên có th phân bit các loi
-ron khác nhau, các -ron u vào nhn thông tin t ng bên ngoài khác
vi các -ron c ni vi các -ron khác trong mc phân
bit vi nhau qua vector hàm trng s  u vào w.
Nguyên lý cu to ca mng -ron bao gm nhiu lp, mi lp bao gm nhiu
-ron có cùng chng. Hình 3 là mô hình hong ca mt mng -
ron 3 lp vi 8 phn t -ron. Mu vào là x
1
, x
2
, x
3
u ra y
1
, y
2
.
Các tín hin 3 -ron u vào, 3 -ron này làm thành lu
vào ca mng. Các -ron trong lc gi là -ron u ra ca các


11


-ron u vào ca 3 -ron tip theo, 3 -ron này không trc tip
tip xúc vng bên ngoài mà làm thành lp n, hay còn gi là lp trung gian.
Các -ron trong lp này có tên là -ron ni hay -ron u ra ca các -ron
n 2 -ron ng bên ngoài. Các -ron trong lp
u ra c gi là -ron u ra.

Hình 3: Mng -ron ba lp
Mng -ron c xây dng gm 3 lp mc ni ti
 u ra. Trong mng không tn ti bt k mt mch hi tip nào. Mt
mng -ron có cy gi là mng mng hay mng truyn thng mt
ng (Feed forward network), và có cu trúc mng ghép ni hoàn toàn (vì bt c mt
-ron nào trong mc ni vi mt hoc vài -ron khác). Mng -ron
bao gm mt hay nhiu l   c gi là mng Multilayer Perceptrons
(MLP-Network).
Mng -ron khi mc, tri thc ca mng s
c hình thành dn dn sau mt quá trình hc. Mng -ron c hc b
vào nhng kích thích, và mng hình thành nhng, nhng
ng phù hp vi tng loi kích thích s c gi là
n hc ca mc mng, mng có th gii quyt các
v mh là v ng dng rc gii quyt
ch yu da trên s t chc hp nht giu vào ca m
u ra.
Mng -ron có nhim v là hoàn chnh hoc hiu chc
 hoc b ng ca nhiu, c ng dc hoàn thin
mt ng dng c th là nhn dng ch vit.
Nhim v tng quát ca mt mng -ron  ng các thông tin. Dng
 này chính là quan h giu
 khi có mt kích thích bt k ng vào mng, mng có kh 
suy ding phù h chn dng theo mu



12

ca mng -ron thc hin chng -ron t b
phn t chng vi mi nhóm là mng
u ra phù hy, mt nhóm bao gm mt lou vào và m
 u ra. Các nhóm có th c hình thành trong quá trình h    
không hình thành trong quá trình hc.
1.1.4. Các kiểu mạng nơ-ron
1.1.4.1. Mạng nơ-ron một lớp
Mi mt -ron có th phi hp vi các -ron khác to thành mt lp các
trng s. Mng mt lp truyn th4a. Mt lp -ron là mt nhóm các
-ron u có cùng trng s, nhn cùng mt tín hing thi.
Trong ma trn trng s, các hàng là th hin -ron, hàng th j có th t nhãn
nt vector w
j
ca -ron th j gm m trng s w
ji
. Các trng s trong cùng mt
ct th ng thi cùng nhn mt tín hiu vào x
j
.
w
j
= [w
j1
, w
j2
, , w

jm
]
Ti cùng mt thu vào x = [x
1
, x
2
, , x
n
] có th là mt ngun bên
ngoài là cm bin hoc thit b i mng.

(a) Mng truyn thng mt lp (b) Mng hi tip mt lp

(c) Mng truyn thng nhiu lp



13


(d) Mng -ron hi quy

Hình 4: Mt s dng mng -ron
1.1.4.2. Mạng nơ-ron truyền thẳng nhiều lớp
Mng -ron nhiu lp (Hình 4c) có các lc phân chia thành 3 lo
Lp vào là lp -ron u tiên nhn tín hiu vào x
i
(i = 1, 2, , n). Mi tín hiu x
i


n tt c các -ron ca lng, các -ron u vào
không làm bii các tín hiu vào x
i
, tc là chúng không có các trng s hoc không
có các loi hàm chuyi nào, chúng ch i các tín hiu.
Lp n là lp -ron sau lp vào, chúng không trc tip liên h vi th gii bên
p -ron vào/ra.
Lp ra là lp -ron to ra các tín hiu ra cui cùng.
1.1.4.3 Mạng nơ-ron hồi tiếp
Mng -ron hi tip là mu ra ca mi -ron c quay tr li ni
vu vào ca các -ron cùng lc gi là m4b.
1.1.4.4 Mạng nơ-ron hồi quy
Mng -ron phn hi có th thc hic gi là mng -ron hi
   4d. Mng -ron hi quy có trng s liên k i x  ng
Hopfield, mng luôn hi t v trng thái nh (Hình 4b). Mng BAM thuc nhóm
mng -ron hi quy, gm 2 lp liên kt 2 chic gn vi tín hiu vào/ra.
Nghiên cu mng -ron hi quy mà có trng s liên ki xng, thì s gp
phi v phc tp nhii mng truyn thng và mng hi quy có trng s
liên ki xng.
1.1.4.5 Mạng Hopfield
Mng Hopfield là mng phn hi mt lc ch ra trong hình 4b. Cu trúc chi
tit cc th hin trong hình 5. Khi hong vi tín hiu ri rc gi
là mng Hopfield ri rc, và cu trúc cc gi là mng hi quy.


14


Hình 5 Cu trúc ca mng Hopfield


  trên, ta thy nút có mu vào bên ngoài x
j
và mt
giá tr ng
j

(j = 1,2, n). Mu quan trng cn nói  là mi nút không có
ng phn hi v u ra th c ni ti mu vào ca nút khác
qua trng s w
ij
, vi i

j, (i = 1,2, ,n), hay nói cách khác w
ii
= 0, (vi i = 1,2, ,n).
Mu quan trng na là trng s ca mi xng, tc là w
ij
=
w
ji
, (vt cp nht cho mi nút m
,sgn
1
)()1(
















n
ij
j
i
k
jij
k
i
xywy


i = 1,2, ,n (1.6)
Lut cp nhc tính toán trong cách thng bu này có
a là, vi mt thc, ch có mt nút mng cp nhu ra ca
nó. S cp nht tip theo trên mt nút s s dng chính nhc cp nht.
i hình thc hong b ca mng, mc
cp nht c lp.
Có s khác bit gia lut cp nhng b và lut cp nhng b. Vi
lut cp nhng b thì s ch có mt trng thái cân bng ca h (vi giá tr
i lut cp nhng b thì có th làm
mng hi t  mm c nh hoc mt vòng gii hn.

1.1.4.6 Mạng BAM
Mng BAM bao gm hai lng hp m rng ca mng
Hopfield.   xét mng ri rn và d hiu.


15


Hình 6: Cu trúc ca BAM

Khi mng -ron c tích cc vi giá tr u vào ca vector tu vào ca mt
lp, mng s có hai mu trng thái nh, vi mi mu tu ra ca nó là mt lp.
ng hc ca mng th hii dng qua li gia hai lp. C th 
gi s mt vectoc cung cu vào ca lp -ron u vào
c x lý và truyn tu ra ca l











jiji
xway
'
; vi i = 1,2, ,n (1.7)

 truyn li nuôi tr li lp -ron X và to nên


T










n
i
iijj
ywax
1
; vi j = 1,2, ,m (1.8)
    lu vào ca lp y và t    
(1.7). Quá trình này c tip tc, bao g
y
(1)
= a(wx
(0)
)
x
(2)
= a(w

(T)
y
(1)
)
y
(3)
= a(wx
(2)
)
x
(4)
= a(w
(T)
y
(3)
)


y
(k-1)
= a(wx
(k-2)
)
x
(k)
= a(w
(T)
y
(k-1)
)

(truyn thng ln th nht)
(truyc ln th nht)
(truyn thng ln th hai)
(truyc ln th hai)

(truyn thng ln th k/2)
(truyc ln th k/2)

(1.9)

Chú ý rng trng thái cp nh9ng b 
trình (1.7) và (1.8). Trng thái cp nh ng b 
(1.7) và (1.8) vc chn t i  ra rng, h thng n
nh cho c hai ch  ng b ng b. Tuy nhiên, ch  ng b s làm
cho h thng hi t .


16

1.2.Các phƣơng pháp học
1.2.1. Khái Niệm
Khái niệm: Hi hành vi ca các vt theo mt cách 
làm cho chúng có th thc hin t
Mt mng -ron c hun luyn sao cho vi mt tu vào X,
mng có kh o ra tu ra mong mun Y ca nó. Tc s
dng cho hun luyn mc gi là tp hun luyn (training set). Các phn t x
thuc gi là các mu hun luyn (training example). Quá trình hun luyn bn
cht là s i các trng s liên kt ca mng. Trong quá trình này, các trng s
ca mng s hi t dn ti các giá tr sao cho vi mu vào x t tp hun
luyn, mng s n

Các   c ph bin là hc có giám sát (supervised learning), hc
không giám sát (unsupervised learning), hc na giám sát và h  ng
(Reinforcement learning).
1.2.2. Học có giám sát
Hc có giám sát (supervised learning) là mt ca ngành hc máy  xây
dng mt hàm t d liu hun luyn. D liu hun luyn bao gm mi cp ng
ng dng vec- u ra mong muu ra ca mt hàm có th là
mt giá tr liên tc (gi là hi quy), hay có th là d t nhãn phân loi cho mt
u vào (gi là phân loi). Nhim v cc có giám sát là d
giá tr ca hàm cho mng bu vào hp l
mt s ví d hun luy các c c
c phi tng quát hóa t các d liu s d c
nhng tình hup phi theo mt cách "hp lí".
Hc có giám sát có th to ra 2 loi mô hình. Ph bin nht, hc có giám sát to
ra mt mô hình toàn cc (global model ánh x u ra mong
mun. Tuy nhiên, trong mt s ng hp, vic ánh x c thc hii dng mt
tp các mô hình cc b    lp lun theo tình hung hay gii
thut láng ging gn nht).
 có th gii quyt ma hc có giám sát (ví d: h nhn
dng ch vit tayi ta phi xem xét nhic khác nhau:
1. nh loi ca các ví d hun luyc khi làm bt c 
nh loi d liu nào s c s dng làm ví d. Chng h là
mt kí t vi, toàn b mt t vit tay, hay toàn b mt dòng ch vit tay.


17

2. Thu thp tp hun luyn. Tp hun luyn cc t s dng
ca hàm ch, mt tc thu thu ra
c thu thp, hoc t các chuyên gia hoc t vic tính toán.

nh vic biu diu vào cho hàm chn tìm. S
chính xác ca hàm ch thuc lc biu
dic chuyi thành mt vec-
cha mt s    m mô t      
không nên quá ln, do s bùng n t hp (curse of dimensionality ln
 d u ra.
nh cu trúc ca hàm chn tìm và gii thut hng. Ví
d      la chn vic s dng m -ron nhân to hay cây quyt
nh.
5. Hoàn thin thit k chy gii thut hc t tp hun luyn thu
thc. Các tham s ca gii thut hc có th u chnh bng cách t
hit tp con (gi là tp kim chng -validation set) ca tp hun luyn,
hay thông qua kim chng chéo (cross-validation). Sau khi hu chnh tham s,
hia gii thut có th c trên mt tp kic lp vi tp hun
luyn.
1.2.3. Học không giám sát
Hc không có giám sát (unsupervised learning) là m   a
ngành học máy nhm tìm ra mt mô hình mà phù hp vi các quan sát. Nó khác bit
vi hc có giám sát  ch ng cho mu vào là không bit
c. Trong hc không có giám sát, mt tp d li   c thu thp. Hc
i x vt tp các bin
ngt mô hình m kt hp s c xây dng cho tp d li
Hc không có giám sát có th c dùng kt hp vi suy din Bayes  cho ra
xác suu kic có giám sát) cho bt kì bin ngu nhiên nào khi bit
c các bin khác.
Hc không có giám sáu ích cho vic nén d liu: v n, mi gii
thut nén d liu hoc là da vào mt phân b xác sut trên mt tu vào mt cách
ng minh.
Mt dng khác ca hc không có giám sát là phân mnh 
khi không mang tính xác sut. Xem thêm phân tích khái nim hình thc (formal

concept analysis).


18

1.2.4. Học nửa giám sát
Trong khoa hc máy tính, hc na giám sát là mt lp ca k thut hc máy, s
dng c d li hun luyn - n hình là mng
nh d liu có gán nhãn cùng vng ln d lic na giám sát
ng gia hc không giám sát (không có bt kì d liu có nhãn nào) và có giám sát
(toàn b d lic gán nhãn). Nhiu nhà nghiên cu nhn thy d liu không
c s dng kt hp vi mt chút d liu có gán nhãn, có th ci thin
   gán nhãn d liu cho mt bài toán hi hi
m phân loi bng tay các ví d hun luyn. Chi phí cho
quy trình này khin tp d lic gán nhãn hoàn toàn tr nên không kh thi, trong
khi d lii r tin. Trong tình huc na
giám sát có giá tr thc tin ln lao.
Mt ví d cho k thut hc máy nng hun luyn (co-training),
u b hc hun luyn cùng mt tp ví d i b s
dng mt tng nhc lp vi nhau.
Mt cách tip cn khác là mô hình hoá phân phi xác sung thi cc
i d li coi nhãn là "d liu còn thiu". Các
k thut x lý d liu còn thiy mu Gibbs và t vng có th c s
d ng tham s.
1.2.5. Học tăng cƣờng
Hng (reinforcement learning) nghiên cu cách thc mt agent trong
mt  ng nên chn thc hin các  ng   c i hóa mt
khon ng (reward lâu dài. Các thut toán hng c gng tìm
mt chic ánh x các trng thái ca th gii tng mà agent nên chn
trong các tr

   c biu di i dng mt quá trình quy nh
Markov trng thái hu hn (Markov decision process - MDP), và các thut toán hc
ng cho ng cnh này có liên quan nhin các k thut quy hong. Các
xác sut chuyn trng thái và các xác sut thu lng là ngu nhiên
g quá trình ca bài toán.
Khác vi hc có giám sát, trong hng không có các cp d liu vào/kt
qu    ng gn t      t cách
a,  ng trc tuyn (on-line performancec quan
c tìm kim mt s cân bng gia khám phá (lãnh th p bn
) và khai thác (tri thc hin có). Trong hng, s c và mt gia khám
ng nghiên cu ch yu qua bài toán multi-armed bandit.


19

Mt cách hình thc, mô hình hng bao gm:
S: tp các trng thái cng ;
A: tng; và
: tp các khong" vi giá tr ng.
Ti mi thm t, agent thc trng thái ca nó là s
t
S và tp các hành
ng có th A(s
t
). Nó chn mng a A(s
t
) và nhc t ng trng
thái mi s
t+1
và mt kho ng r

t+1
. D        
ng phi phát trin mt chi  S A có tác dng c i hóa
ng R=r
0
+r
1
+ +r
n
vi các MDP có mt trng thái kt thúc, hong R
t

t
r
t
vi
các MDP không có trng thái kt h s gim khong
i giá tr trong khong 0.0 và 1.0).
c bit thích hp cho các bài toán có s c mt gia
các khong ngn hn và dài hn. Hc áp dng thành công
cho nhi u khin robotu vn thang máy, vin thông, các
 backgammon và c vua.
CHƢƠNG 2
LÝ THUYẾT TẬP MỜ
2.1. Tập mờ
2.1.1. Khái niệm tập rõ
Mt tp  A là mt t lit kê tt c các phn t ca A,
chng hn A = {3, 5, 6, 9}. Trong tng hp không th lit kê ra hc các phn t
ca tp A, chúng ta có th ch ra các tính cht chính xác mà các phn t ca tp A tho
mãn, chng hn A = {x | x là số nguyên tố}. Mt tp rõ có th nh bi hàm

i là hàm thuc (membership function) ca nó. Hàm thuc ca tp
rõ Ac ký hiu là λ
A
 (1/0), nó nhn giá tr ng x
thuc tp A và giá tr ng x không thuc A. Gia phn t bt k và tp
A ch tn ti mt trong hai quan h thuc hoc không thuc.
2.1.2. Khái niệm tập mờ
Xung quanh chúng ta, luôn tn ti các khái nim m, nó hin hu trong các bài
toán ng dng, ngay c a mi chúng ta. Ví d xét v tui ca con
i chúng ta có các khái nim tr, rt trChúng ta cúng xét ví d sau:
Ta xét tp hp nhi tr. Ta thy ri 25 tui thì rõ ràng là tr
i trên 60 tui thì rõ ràng là không tr nhi có tui t n 59
thì có thuc tp hp nhi tr hay không? Nu áp dng khái nim tp hp c
n thì ta phnh ra mt ranh gii rõ ràng và mang tính cht chng hn là 45


20

 nh tp hp nhi tr. h chc chi 45 tui là
tr i 46 tui là không tr. Và trong thc t thì có mt ranh gii m  
cách nhi tr và nhi không tr 
vy, nhi trung niên là nhi có m tr tr
ci 25 tuc là có giá tr  tri
trên 60 tui là hoàn toàn sai tc là có giá tr  tri trung niên s
có giá tr  0 < p < 1.
y, qua ví d trên ta thy khái nin v tp hp c ng ht
c các yêu cu ca thc t và nó cc m rng. L.A.Zadeh  xut hình thc
hóa toán hc ca khái nim m vào  t nhng khái nim trng
v ng a thông tin m, không chc ch-già, nhanh-chm, cao-th
tìm cách biu din chúng bng mt khái nim toán hc gi là tp m. T n

nay, lý thuyt tp m c phát trin mnh m.
Định nghĩa 2.1: Cho mt t U vi các phn t ký hiu bi x, U={x}. Mt
tp m A trên U là ti mt hàm µ
A(x)
mà nó liên kt mi phn t
xU vi mt s thn [0,1]. Giá tr hàm µ
A(x)
biu din m thuc ca x
trong A. µ
A(x)
là mt ánh x t c gi là hàm thuc ca tp m A.
Giá tr hàm µA(x) càng gn ti 1 thì m  thuc ca x trong A càng cao,
c li µ
A(x)
càng gn t thuc ca x trong A càng thp. Tp m là s m
rng ca khái nim tp hn(tp rõ). Tht vy, khi A là mt tp rõ, hàm thuc
µ
A(x)
ch nhn 2 giá tr 1 hong vi x có nm trong A hay không.

 th hàm thuc µ
A(x)

* Mt s khái nim:
Gi s p m.
 thuc ca phn t x vào tp m c ký hiu là A(x). A(x) ly giá tr trong
n [0, 1] vi mi x.
Định nghĩa 2.2 (Tp m li): Cho tp m A ca t U. A là tp m li nu



 +

1 



 



, 



, ,   ,  

0,1




21

Định nghĩa 2.3 (Tp m chun): Cho tp m A ca t U. A là tp m
chun nu   , 



= 1
Định nghĩa 2.4 (S m): S m là tp m va li, va chun

Định nghĩa 2.5 (Tp ct): Tp ct  ca tp m A, ký hiu là A

là tp thông
: A
α
= { x|A(x) ≥ α }
Định nghĩa 2.6 (Giá (support) ca tp m ): Giá ca tp m A, ký hiu là A
0
, là
tA
0
= { x|A(x) ≥ 0 }
2.2. Số mờ
2.2.1. Định nghĩa số mờ
Mt s m là mt tp m li c chun hóa    hàm liên thuc ca hàm
này có tính cht liên tc ít nht ti tn, và hàm có giá tr 
()
= 1 tt
phn t. S m 
* Định nghĩa: Tp m A ng thc R là tp s m nu:
A là chun hoá, tm x sao cho 
()
= 1.
ng vi mi A


R, tp mc {x: A(x)




.
ng dùng các s m , tam giác, hình thang và dng Gauss
(hình chuông).
2.2.2. Số mờ đơn trị
Mm d lit tp m  tc là tp m A có hàm
thu





= 
1    
0    


S m  là mng hc bit ca s m, hàm thuc ch nhn giá tr 0
hong vi u có thuc tp A hay không. Nói cách khác, tp A là mt tp hp
m.
2.2.3. Số mờ tam giác
Trong mt tp v tr U, các phn t ký hiu bi x. Tp m A có hàn thuc
i 3 tham s nh ca tam giác(v mt hình hc biu
di





= max(min 



,
 
 
, 0)
1



a
b
c
x


()


22

Hinh 8: S m tam giác
2.2.4. Số mờ hình thang
S m   m tam giác, khác   m
i 4 tham s c biu din qua hàm thu
sau:






= max(min 
 

,
 
 
, 1, 0)
Hinh 9: S m hình thang
2.2.5. Số mờ hình chuông(Gauss)
S m hình i hàm thuc sau:





= 

()
2
2
2


Hình 10: S m hình chuông
2.3. Biến ngôn ngữ
Ta xét mt bin nhn giá tr trong mt min giá tr ng h
có th nhn giá tr s là 1

C, 2


 i mt giá tr c
th gán vào bin s c tính cht, quy mô ca bin. Ngoài ra
chúng ta còn bic nhn bi chúng ta
hiu là không nên chm tay trn vào v

C tr 



1
a
b
c
x


()
d


23

thc t m vào vt có nhi  ít khi
m vào vt có nhi là 80

C tr c t là lu
i vì nu nhc li khuyên sau thì ta d b ng nhn là có th chm
tay vào vt có nhi là 79

t có nhi 80


C tr lên thì không.
 t ra là nu nghe theo lu thì ta có th nh rõ là nhit
 bng bao nhiêu thì có th chm tay vào? Câu tr li là tu vào ý kin ca tng
i. Vi nhi là 60

i khác thì không.
Tuy các ý kiu chc chn là khi giá tr ca bin nhit
  c chp nhy nu xét hàm
cao


nhn bin nhi và tr v t l ý ki
cao

s là hàm thuc ca
tp m   

Hình 11 th biu din mi quan h gia nhi c thuc
Bin nhi có th nhn giá tr t giá tr ca ngôn ng t nhiên nên
c gi là mt bin ngôn ng (linguistic variable)
Khái niệm biến ngôn ngữ 
Mt bin ngôn ng nh bi b (x, T, U, M)
T
- x là tên bin. Ví d  
- T là tp các t là các giá tr ngôn ng t nhiên mà x có th nhn. Ví d c
 T có th 
- U là min các giá tr vt lý mà x có th nhn Ví d  là

- M là lut ng ng mi t trong T vi mt tp m At trong U

T  nói rng bin ngôn ng là bin có th nhn giá
tr là các tp m trên m 
1
0.9
100
50
80
Nhi
cao


120


24

2.4. Bộ giải mờ
Gii m (hay còn gi là kh mnh mm y t mt tp m
B trên V. (B u ra ca b suy din m ). Gii m phi tho các tiêu chun sau:
- i din tt nht cho B. Tr thuc cao nht vào
B và  trung tâm t ca B.
- Hiu qu tính toán nhanh
- Tính liên ti ít
t s i m thông dng:
2.4.1. Phƣơng pháp lấy max
 thuc cao nht vào B
nh tp rõ H=









)()(|
''
sup
vyVy
B
Vv
B


 ch
- y bt k
- m cc biên (ln nht hoc nh nht)
- m ca H
2.4.2. Phƣơng pháp lấy trọng tâm
m trng tâm ca tp B
y =


V
B
V
B
dvv
dvvv
)(

)(
'
'




2.4.3. Phƣơng pháp lấy trung bình tâm
Vì B ng là hp hoc giao ca m tp m thành phn do vy ta có th tính gn
 y là bình quân có trng s ca tâm m tp m thành phn. Gi s x
i
và h
i

 cao ca tp m thành phn B
i
ta có:
y =




m
i
i
m
i
ii
h
hx

1
1
.

c ng dng nhiu nht vì kt qu n nh
ng ca tt c các lu  phc tp tính




25

CHƢƠNG 3
KỸ THUẬT SOM VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU
3.1. Sơ lƣợc về SOM
Self Organizing Map (SOM) là mt m-ron nhân to c hun luyn s
dng k thut hc không giám sát (Unsupervised learning)  biu din d liu vi s
chiu thng là 2 chiu) so vi d liu vào nhiu ching s
chiu ln). Kt qu ca SOM gi là b (Map). SOM là mt mng -ron nhân to,
tuy nhiên SOM khác vi các mng -ron nhân to là không s dng các lp n
(hidden layers) ch s dng input và output layer. SOM s dng khái nim láng ging
 gi la các d liu vào trên b 
 t gn nhau trên b). m chính
ca SOM là biu din trc quan d liu nhiu chiu vào không gian ít chi 
ng là 2 chia d lic gi li trên b.
ng v SOM lc gii thiu bi C. von der Malsburg 
c phát trin bi T. Kohonen (Phn Lan c gi là Kohonen
Network.
K thu


 c áp dng thành công trong mt s  n
dng, phân cm d liu, d i và khai phá d liu, Mc nhn dng có
th là nh, âm thanh hon,
SOM s dng cnh tranh m gom cm d li, ngoài vic
cp nht ng tâm c-ron chin thng, ng tâm các -ron lân cn
(láng ging) ca -ron chin thc cp nht. S -ron láng gic
cp nht ph thuc vào bán kinh hun luyn, là tham s u vào và có th i
trong mi ln lp. Trong cnh tranh cng (hard) ch duy nhng tâm c-
ron chin thc cp nht.
3.2. Kiến trúc của SOM
SOM gồm các thành phần sau:
- Output Layer: G-ronc b trí trên mi (b) kích
c X xY. Mi neuron có v i, ti m mt vector
trng s (weight vector) có s chiu bng vi s chiu ca input vector.
- Input vector: c n
Ma trn trng s (weight matrix) w
ij
kt ni gia input vector và các neurons

×