ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Minh Hoàng
Tìm hiểu một số lớp mạng nơron nhân tạo và ứng dụng
vào bài toán phân cụm mờ
LUẬN VĂN THẠC SĨ
Hà Nội - 2006
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Minh Hoàng
Tìm hiểu một số lớp mạng nơron nhân tạo và ứng dụng
vào bài toán phân cụm mờ
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TSKH Bùi Công Cường
Hà Nội - 2006
1
MỤC LỤC
MỤC LỤC 1
DANH SÁCH CÁC HÌNH 3
BẢNG TỪ VIẾT TẮT 4
TỪ KHOÁ 4
PHẦN MỞ ĐẦU 5
LỜI CẢM ƠN 7
CHƢƠNG 1 : GIỚI THIỆU NHANH VỀ MẠNG NƠRON VÀ BÀI
TOÁN PHÂN CỤM DỮ LIỆU 8
1. Mạng nơron 8
8
8
9
11
11
ng 15
17
17
18
18
18
2. Phân cụm dữ liệu 19
19
21
22
22
23
24
27
29
29
29
30
CHƢƠNG 2. MỘT SỐ LỚP MẠNG NƠRON 32
1. Mạng truyền thẳng và thuật toán lan truyền ngƣợc (BP) 32
32
33
2. Mạng có nối ngƣợc Hopfield 39
39
40
40
3. Mạng kiểu bộ nhớ kết hợp hai chiều (BAM) 41
42
43
2
CHƢƠNG 3. ỨNG DỤNG MẠNG NƠRON ĐA KHỚP NỐI VÀO
BÀI TOÁN PHÂN CỤM DỮ LIỆU MỜ 45
1. Giới thiệu 45
2. Phân cụm mờ 45
45
46
3. Xây dựng mạng nơron phân cụm kết hợp hai hƣớng mờ
(FBACN) bằng việc sử dụng mạng đa khớp nối 50
51
56
4. Sự hội tụ của FBACN 62
62
64
66
5. Giải thuật của FBACN 67
CHƢƠNG 4. THỰC NGHIỆM 69
1. Giới thiệu phần mềm 69
2. Thực nghiệm 70
m1 70
72
KẾT LUẬN 80
TÀI LIỆU DẪN 81
3
DANH SÁCH CÁC HÌNH
Hình 1.1 : Cấu trúc cơ bản của nơron sinh học 8
Hình 1.2 : Nơron nhân tạo 10
Hình 1.3: Mô hình toán học mạng nơron nhân tạo 11
Hình 1.4: Nơron 1 đầu vào với hàm kích hoạt là hàm hardlimit 13
Hình 1.5 : Liên kết bên trên lớp cạnh tranh 17
Hình 1.6 : Các tham số 26
Hình 1.7 : Hình dáng của các loại cụm 28
Hình 2.1 : Mạng nơron một lớp truyền thẳng 32
Hình 2.2 : Perceptron 3 lớp nơron 33
Hình 2.3 : Các mẫu và biên quyết định của mạng XOR 34
Hình 2.4 : Mạng XOR hai lớp 34
Hình 2.5 : Ví dụ mạng xấp xỉ hàm 37
Hình 2.6 : Cấu trúc mạng Hopfield 39
Hình 2.7 : Mô hình của BAM 41
Hình 3.1: Thuật toán FCM 47
Hình 3.2: Mô phỏng về tập dữ liệu đơn chiều 48
Hình 3.3: Hàm thuộc với trọng tâm của cụm A trong k-means 48
Hình 3.4: Hàm thuộc với trọng tâm của cụm A trong FCM 49
Hình 3.5: Các cụm khám phá đƣợc bởi thuật toán phân cụm mờ 49
Hình 3.6 : Mô hình FBACN 50
Hình 3.7 : Layer1 của FBACN 51
Hình 3.8 : Mạng nơron đa khớp nối cơ bản 58
Hình 3.9 : Layer 2 của FBACN: Một mạng nơron đa khớp nối 61
Hình 3.10 : Hàm kích hoạt liên tục với δ
j
=0.5 và v
j
=1 65
Hình 4.1 : Giao diện FBACN 69
Hình 4.2 : Giao diện FCM 70
Hình 4.3 : Dữ liệu đầu vào Butterfly 70
Hình 4.4 : Kết quả thực nghiệm với tập dữ liệu Butterfly 72
Hình 4.5 : Hình dáng loài hoa Iris 73
Hình 4.6 : Dữ liệu đầu vào Iris 74
Hình 4.7 : Kết quả thực nghiệm với tập dữ liệu Iris 79
4
BẢNG TỪ VIẾT TẮT
Cụm từ tiếng Việt
Từ viết tắt
Cụm từ tiếnh Anh
CSDL
Database
PCDL
Data clusterring
p hai
FBACN
Fuzzy bidirectional associative
clustering network
-
FCM
Fuzzy c-means
NN
Neural network
HF
Hopfield network
BAM
Bidirectional Associative Memory
BP
Backpropagation
MLP
Multilayer perceptron
TỪ KHOÁ
c-.
5
PHẦN MỞ ĐẦU
“Tìm hiểu một số lớp mạng nơron nhân
tạo ứng dụng vào bài toán phân cụm mờ ”
-
-
-
M
Chương 1,
Chương 2,
- BAM)
6
Chương 3,
Chương 4,
7
LỜI CẢM ƠN
c -
-
y
TS.
Duy,
8
CHƢƠNG 1 : GIỚI THIỆU NHANH VỀ MẠNG NƠRON VÀ BÀI
TOÁN PHÂN CỤM DỮ LIỆU
1. Mạng nơron
1.1. Các khái niệm chung về mạng nơron
1.1.1. Mạng nơron sinh học
11
Hình 1.1 : Cấu trúc cơ bản của nơron sinh học
2
).
(Synapse)
(axon)
(body)
(dendrites)
9
v
1.1.2. Mạng nơron nhân tạo
1.1.2.1. Nơron nhân tạo
10
i
i
i
i
Hình 1.2 : Nơron nhân tạo
1.1.2.2. Mạng nơron nhân tạo
bias
W
m
x
1
x
2
x
m
w
1
w
2
Out
11
- training).
1.2. Mô hình toán học và kiến trúc mạng nơron
1.2.1. Mô hình toán học của mạng nơron
1.2.1.1. Mô hình toán học của một nơron nhân tạo
Hình 1.3: Mô hình toán học mạng nơron nhân tạo
w
S,2
w
S,R
b (bias)
n
net
a
p
R
p
2
p
1
f
w
S,1
12
i
s,i
net
bpwpwpwn
RRsssnet
,22,11,
(2.1)
net
n WP b
(2.2)
functi
net
a=f(n
net
)=f(WP+b) (2.3)
k hot
1.2.1.2. Cấu trúc mạng nhân tạo
ron
-
13
-
1.2.1.3. Hàm truyền (Hàm kích hoạt)
Hình 1.4: Nơron 1 đầu vào với hàm kích hoạt là hàm hardlimit
Một số dạng hàm hoạt hóa trong mạng nơron nhân tạo
Hàm ngƣng: (hardlim)
o a= hardlim(n)=
00
01
n
n
o :
Hàm ngƣng đối xứng: (Hardlims)
n
n
net
w
b (bias)
a
p
f
a=hardlimit(wp+b)
-b/ w
p
+1
a
14
o a= hardlims(n)=
01
01
n
n
o :
Hàm tuyến tính: (purelin)
o a= purelin(n)= n
o :
Hàm tuyến tính trên đoạn: (satlin)
o a= satlin(n)=
00
10
11
n
nn
n
o :
Hàm tuyến tính bo hoà đối xứng: (satlins)
o a= satlins(n)=
1
11
11
nn
n
o :
Hàm log_sig : (log-sigmoid)
o a= logsig(n)=
e
n
1
1
o :
Hàm tanghyperbolic : (tansig)
15
o a= tansig(n)=
ee
ee
nn
nn
o :
Hàm tuyến tính dƣơng: (poslin)
o a= poslin(n)=
00
0
n
nn
o :
Hàm cạnh tranh: (compet)
o a= compet(n)=
max0
max1
n
n
o : (Compet)
1.2.2. Kiến trúc mạng
-Organizing Neural Network).
C
16
(feedforward Neural Network)
(Directed Acrylic Graph)
(Recurrent Neural Network)
(lateral connection)
(competitive layer).
excitatory
inhibitory
17
Hình 1.5 : Liên kết bên trên lớp cạnh tranh
(competition),
” (winning neural)
“winner-takes-all”.
(evolution).
1.3. Một số ứng dụng của mạng nơron
1.3.1. Mạng nơron trong phân lớp
-
-
-
-
-
-
-
-
-
+
N
18
1.3.2. Mạng nơron trong nhận dạng
1.3.3. Mạng nơron trong dự báo
chi
1.3.4. Mạng nơron và bài toán tối ƣu
-
-
- -
-
-
19
2. Phân cụm dữ liệu
2.1. Giới thiệu
[10][11]:
"PCDL là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các
cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung
cấp thông tin, tri thức hữu ích cho ra quyết định"
Concept Clustering
tương tự
20
khác thường
CSDL -
-
-
h
-
21
2.2. Các ứng dụng của phân cụm dữ liệu
* Giảm dữ liệu
* Rút ra các giả thuyết
22
* Kiểm định giả thuyết
* Dự đoán dựa trên các cụm
2.3. Một số kiểu dữ liệu và độ đo tƣơng tự
con người,
cái nhà, tiền lương, các thực thể phần mềm,…
[12]
(Measurement Scale).
D
D : x=(x
1
,x
2
, ,x
k
); y=(y
1
,y
2
, ,y
k
); z=(z
1
,z
2
, ,z
k
i
, y
i
,
z
i
ki ,1
2.3.1. Phân loại các kiểu dữ liệu dựa trên kích thƣớc miền
Thuộc tính liên tục (Continuous Attribute)
23
Thuộc tính rời rạc (DiscretteAttribute)
Yes / No Nam/Nữ,
False/true
2.3.2. Phân loại các kiểu dữ liệu dựa trên hệ đo
i
, y
i
Thuộc tính định danh (nominal Scale)
-
nơi sinh các
đội bóng chơi cho giải vô địch quốc gia Việt Nam.
Thuộc tính có thứ tự (Ordinal Scale)
thứ tự,
Huy
chương
Thuộc tính khoảng (Interval Scale)
i
>y
i
i
y
i
số Serial
số kênh
Thuộc tính tỉ lệ (Ratio Scale) :
thí dụ như thuộc tính chiều cao
hoặc cân nặng lấy điểm 0 làm mốc.
dữ liệu không gian (Spatial Data).