Tải bản đầy đủ (.pdf) (124 trang)

Phát Triển Một Số Thuật Toán Phân Cụm Mờ Viễn Cảnh Và Ứng Dụng Trong Dự Báo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.38 MB, 124 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM HUY THÔNG

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN
PHÂN CỤM MỜ VIỄN CẢNH VÀ ỨNG DỤNG
TRONG DỰ BÁO

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội, 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM HUY THÔNG

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN
PHÂN CỤM MỜ VIỄN CẢNH VÀ ỨNG DỤNG
TRONG DỰ BÁO

Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 9460117.02

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. Lê Hoàng Sơn
2. PGS. TS. Nguyễn Thị Hồng Minh



Hà Nội, 2020


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi được hoàn thành
dưới sự hướng dẫn khoa học của PGS. TS. Lê Hoàng Sơn và PGS. TS. Nguyễn Thị
Hồng Minh. Các kết quả nghiên cứu của tôi được viết chung với các tác giả khác đã
được sự nhất trí của đồng tác giả khi đưa vào luận án. Tôi xin cam đoan các kết quả
nêu trong luận án là trung thực và chưa được công bố trong bất cứ công trình nào
trước thời gian công bố.

Tác giả luận án

Phạm Huy Thông

i


LỜI CẢM ƠN
Trước hết, tác giả xin được gửi lời cảm ơn chân thành và sâu sắc nhất
tới tập thể giáo viên hướng dẫn, PGS. TS. Lê Hoàng Sơn và PGS. TS. Nguyễn
Thị Hồng Minh. Thầy, Cô đã trực tiếp hướng dẫn, định hướng chuyên môn,
giúp đỡ tận tình, ân cần chỉ dạy giúp cho tác giả có thể hoàn thành luận án
này.
Tôi xin chân thành gửi lời cảm ơn đến quý thầy cô, các anh chị em
đồng nghiệp của Trung tâm Tính toán Hiệu Năng Cao và khoa Toán – Cơ –
Tin học, Trường Ðại học Khoa học Tự nhiên đã quan tâm giúp đỡ, tạo điều
kiện về nhiều mặt, chỉ bảo tận tình trong quá trình tác giả thực hiện luận án
này. Nhờ đó tác giả đã tiếp thu được nhiều ý kiến đóng góp và nhận xét quí

báu thông qua các buổi thảo luận seminar để hoàn chỉnh luận án.
Xin chân thành cảm ơn Viện Công nghệ Thông tin, Đại học Quốc gia Hà
Nội đã hết sức tạo điều kiện về thời gian và công việc để tác giả có thể tập
trung hoàn thành quá trình học tập, nghiên cứu và hoàn thiện luận án.
Cuối cùng xin cảm ơn gia đình, bạn bè đã cổ vũ và động viên tác giả
trong công việc và học tập cũng như trong quá trình thực hiện luận án này.
Xin chúc mọi người luôn mạnh khoẻ, đạt được nhiều thành tích cao trong
công tác, học tập và nghiên cứu khoa học!
Hà Nội, ngày … tháng … năm 2020
Tác giả luận án

Phạm Huy Thông

ii


MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT ......................................................3
DANH MỤC BẢNG BIỂU ........................................................................................5
DANH MỤC HÌNH VẼ ..............................................................................................7
MỞ ĐẦU .....................................................................................................................9
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ........................................................................20
Tập mờ ..............................................................................................................20
Độ đo tương tự và đánh giá chất lượng cụm ....................................................21
Thuật toán phân cụm mờ ..................................................................................24
Một số thuật toán khác .....................................................................................27
1.4.1.


Thuật toán tối ưu bầy đàn ........................................................................27

1.4.2.

Thuật toán DifFuzzy ................................................................................28

1.4.3.

Thuật toán Dissimilarity ..........................................................................30

1.4.4.

Phương pháp FCM-STAR .......................................................................32

Bộ dữ liệu thực nghiệm ....................................................................................33
Kết luận chương ...............................................................................................34
CHƯƠNG 2. THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH.............................35
2.1. Ý tưởng thuật toán ............................................................................................35
2.2. Thuật toán phân cụm mờ viễn cảnh .................................................................35
2.2.1.

Hàm mục tiêu ...........................................................................................35

2.2.2.

Chi tiết thuật toán.....................................................................................39

2.3. Khảo sát tính chất hội tụ của thuật toán ...........................................................39
2.4. Kết quả thực nghiệm ........................................................................................42
2.4.1.


Ví dụ minh họa cho FC-PFS....................................................................43
1


2.4.2.

So sánh chất lượng phân cụm ..................................................................46

2.4.3.

Đánh giá thuật toán qua các tham số .......................................................50

2.5. Kết luận chương ...............................................................................................52
CHƯƠNG 3. MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN
CẢNH ……….. ........................................................................................................53
3.1. Thuật toán phân cụm mờ tự động xác định số cụm .........................................53
3.1.1.

Ý tưởng thuật toán ...................................................................................53

3.1.2.

Chi tiết thuật toán.....................................................................................54

3.1.3.

Kết quả thực nghiệm ................................................................................62

3.2. Thuật toán phân cụm mờ với dữ liệu phức tạp.................................................72

3.2.1.

Độ đo cho thuộc tính kiểu loại.................................................................73

3.2.2.

Thuật toán phân cụm với dữ liệu phức tạp (PFCA-CD) .........................73

3.2.3.

Kết quả thực nghiệm ................................................................................77

3.3. Kết luận chương ...............................................................................................84
CHƯƠNG 4. ỨNG DỤNG CỦA THUẬT TOÁN PHÂN CỤM MỜ VIỄN CẢNH....86
4.1. Phương pháp PFC-STAR .................................................................................87
4.2. Phương pháp PFC-PFR ....................................................................................89
4.2.1.

Số mờ viễn cảnh tam giác ........................................................................90

4.2.2.

Số mờ viễn cảnh hình thang ....................................................................91

4.2.3.

Chi tiết thuật toán.....................................................................................92

4.3. Kết quả thực nghiệm ........................................................................................99
4.4. Kết luận chương .............................................................................................107

KẾT LUẬN .............................................................................................................108
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ĐÃ CÔNG BỐ ......110
TÀI LIỆU THAM KHẢO .......................................................................................111

2


DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT

Từ viết tắt

Từ tiếng anh
Automatic

1

AFC-PFS

Clustering

Ý nghĩa
Fuzzy Thuật toán phân cụm mờ tự

on

Picture động xác định số cụm trên tập

Fuzzy Set


mờ viễn cảnh
Chỉ số Silhouette thay thế

2

ASWC

Alternative Silhouette

3

CCE

Cluster Count Extraction

4

DB

Davies–Bouldin index

5

FCM

Fuzzy C-means

6

FC-PFS


7

Fuzzy

Phương pháp ước lượng số
cụm bằng tiền xử lý dữ liệu
Chỉ số chất lượng cụm Davies–
Bouldin
Thuật toán phân cụm mờ

Clustering

on Thuật toán phân cụm mờ viễn

Picture Fuzzy Set

cảnh

GA

Genetic algorithm

Thuật toán di truyền

8

IFS

Intuitionistics Fuzzy Set


Tập mờ trực cảm

9

KFCM

Kernel Fuzzy C-means

Phân cụm mờ với hàm nhân

10

KIFCM

11

Kernel

Intuitionistic Phân cụm mờ trực cảm với

Fuzzy C-means

hàm nhân

MA

Mean Accuracy

Độ chính xác trung bình


12

NPM

Non-Parametric Method

Phương pháp phi tham số

13

PCC

Picture

Composite

Cardinality
Picture Fuzzy Clustering

14

PFCA-CD

Algorithm for Complex
Data

15

PFC-PFR


Chỉ số viễn cảnh tổng hợp

Thuật toán phân cụm mờ viễn
cảnh cho dữ liệu phức tạp

Picture Fuzzy Clustering Phân cụm mờ viễn cảnh kết
with Picture Fuzzy Rule

3

hợp luật mờ viễn cảnh


Picture Fuzzy Clustering
16

PFC-STAR

with

Spatio-temporal

Autoregressive
17

PFS

18


PSO

19

T2FS

20

TPFN

21

TpPFN

22

WGLI

Picture Fuzzy Set
Particle

Phân cụm mờ viễn cảnh kết
hợp hồi quy không-thời gian
Tập mờ viễn cảnh

Swarm

Optimization
Type 2 Fuzzy Set


Thuật toán tối ưu bầy đàn
Tập mờ loại 2

Triangular Picture Fuzzy
Number
Trapezoidal Picture Fuzzy
Number

Số mờ viễn cảnh tam giác

Số mờ viễn cảnh hình thang

Weighted Global – Local Chỉ số dựa trên giá trị trọng số
validity-based index

4

toàn cục – địa phương


DANH MỤC BẢNG BIỂU
Bảng 1.1. Mô tả tập dữ liệu thử nghiệm ...................................................................33
Bảng 2.1. Thuật toán phân cụm mờ viễn cảnh ..........................................................39
Bảng 2.2. So sánh chất lượng cụm và thời gian chạy của các thuật toán ( = 0.6).46
Bảng 2.3. Các miền phân lớp của thuật toán.............................................................49
Bảng 2.4. Thống kê các kết quả tốt nhất của các thuật toán với hệ số

khác nhau. 50

Bảng 3.1. Mô tả chi tiết thuật toán AFC-PFS ...........................................................57

Bảng 3.2. Giá trị của các phần tử trong ví dụ ...........................................................60
Bảng 3.3. Giá trị của các phần tử sau khi loại bỏ cụm 3 trong ví dụ ........................61
Bảng 3.4. Số cụm trung bình của thuật toán với các chỉ số đánh giá khác nhau (giá trị
in đậm có nghĩa là một trong những giá trị gần nhất với số các lớp được định sẵn
trong cột) ...................................................................................................................63
Bảng 3.5. Giá trị STD của thuật toán nhận được bằng cách sử dụng chỉ số đánh giá
khác nhau như giá trị fitness. ....................................................................................63
Bảng 3.6. Các giá trị đầu ra trung bình PBM, WGLI và ASWC của các thuật toán
bằng cách sử dụng ASWC như giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất
trong một hàng) .........................................................................................................67
Bảng 3.7. Các giá trị đầu ra độ lệch chuẩn (STD) của PBM, WGLI và ASWC của các
thuật toán sử dụng ASWC như giá trị fitness ...........................................................67
Bảng 3.8. Các giá trị trung bình PBM, WGLI và ASWC của các thuật toán sử dụng WGLI
như các giá trị fitness (các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng) .............67
Bảng 3.9. Các giá trị đầu ra độ lệch chuẩn PBM, WGLI và ASWC của các thuật toán
sử dụng WGLI như các giá trị fitness .......................................................................68
Bảng 3.10. Các giá trị đầu ra trung bình PBM, WGLI và ASWC của của các thuật
toán bằng cách sử dụng PBM như giá trị fitness (các giá trị bôi đậm có nghĩa là tốt
nhất trong một hàng) .................................................................................................68
Bảng 3.11. Các giá trị đầu ra chuẩn PBM, WGLI và ASWC của của các thuật toán sử
dụng PBM như giá trị fitness các giá trị bôi đậm có nghĩa là tốt nhất trong một hàng)...69
Bảng 3.12. Thời gian tính toán của các thuật toán (giây) .........................................72
5


Bảng 3.13. Cách chọn tâm cụm ................................................................................74
Bảng 3.14. Thuật toán phân cụm mờ viễn cảnh cho dữ liệu phức tạp ......................76
Bảng 3.15. Các giá trị chỉ số đánh giá trung bình của các thuật toán (Giá trị đậm có
nghĩa là tốt nhất trong mỗi tập dữ liệu và chỉ số đánh giá) .......................................80
Bảng 3.16. Thời gian để đạt được giá trị tốt nhất của các thuật toán (Giá trị đậm có

nghĩa là tốt nhất)........................................................................................................82
Bảng 3.17. Giá trị STD cho các chỉ số đánh giá của các thuật toán .........................83
Bảng 3.18. Thời gian tính toán (với giá trị STD) của các thuật toán theo giây ........84
Bảng 4.1. Thuật toán huấn luyện tham số dựa trên PSO ..........................................98
Bảng 4.2. So sánh giá trị RMSE của các thuật toán................................................100
Bảng 4.3. So sánh giá trị RMSE của các thuật toán................................................103
Bảng 4.4. STD của giá trị RMSE của các thuật toán ..............................................104

6


DANH MỤC HÌNH VẼ
Hình 1.1. Thuật toán phân cụm FCM .......................................................................25
Hình 1.2. Sơ đồ thuật toán tối ưu PSO ......................................................................27
Hình 1.3. Ảnh mây vệ tinh của bộ dữ liệu 1 .............................................................34
Hình 1.4. Ảnh mây vệ tinh của bộ dữ liệu 2 .............................................................34
Hình 1.5. Ảnh mây vệ tinh của bộ dữ liệu 3 .............................................................34
Hình 2.1. Các cụm tại bước khởi tạo ........................................................................44
Hình 2.2. Các cụm sau bước lặp đầu tiên..................................................................45
Hình 2.3. Kết quả phân cụm cuối cùng .....................................................................45
Hình 2.4. Độ chính xác trung bình của các thuật toán ..............................................48
Hình 2.5. Thời gian tính toán của các thuật toán ......................................................49
Hình 2.6. Giá trị MA của các thuật toán theo hệ số mũ ............................................51
Hình 2.7. Thời gian tính toán của các thuật toán theo hệ số mũ (s)..........................51
Hình 3.1. Lược đồ của thuật toán AFC-PFS .............................................................56
Hình 3.2. Số cụm trung bình của các thuật toán .......................................................64
Hình 3.3. Sự tương quan giữa các thành phần với các cụm của dữ liệu GLASS .....64
Hình 3.4. Sự tương quan giữa các thành phần đầu tiên và thứ hai với các cụm thực
trên tập dữ liệu GLASS .............................................................................................66
Hình 3.5. Giá trị ASWC trung bình của các thuật toán với giá trị sai số ..................70

Hình 3.6. Giá trị WGLI trung bình của đầu ra các thuật toán với sai số ..................70
Hình 3.7. Các giá trị trung bình PBM của đầu ra các thuật toán với sai số của tập dữ
liệu IRIS, GLASS, IONOSPHERE, HABERMAN và HEART. .............................71
Hình 3.8. Giá trị PBM trung bình của các đầu ra của các thuật toán với sai số của các
tập dữ liệu WINE và WDBC ....................................................................................71
Hình 3.9. Sơ đồ thuật toán PFCA-CD.......................................................................75
Hình 3.10. Sự phân bố dữ liệu của bộ dữ liệu STATLOG với hai thuộc tính ..........78
Hình 3.11. Sự phân bố dữ liệu của bộ dữ liệu ABALONE với hai thuộc tính .........78
7


Hình 3.12. Sự phân bố dữ liệu của bộ dữ liệu AUTOMOBILE với hai thuộc tính ..79
Hình 3.13. Sự phân bố dữ liệu của bộ dữ liệu SERVO với hai thuộc tính ...............79
Hình 3.14. Biểu đồ biểu diễn các giá trị MA và RI của tất cả các thuật toán với các
tập dữ liệu khác nhau ................................................................................................81
Hình 3.15. Biểu đồ biểu diễn các giá trị của ASWC và DB của tất cả các thuật toán
với các tập dữ liệu khác nhau ....................................................................................81
Hình 4.1. Thuật toán PFC-STAR ..............................................................................87
Hình 4.2. Ví dụ về tính toán và huấn luyện trọng số của thuật toán STAR..............88
Hình 4.3. Sơ đồ PFC-PFR .........................................................................................90
Hình 4.4. Số mờ viễn cảnh tam giác của tập mờ viễn cảnh A ..................................90
Hình 4.5. Số mờ viễn cảnh hình thang của tập mờ viễn cảnh A ...............................91
Hình 4.6. Các bước trong thuật toán PFC-PFR ........................................................92
Hình 4.7. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 1 ............102
Hình 4.8. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 2 ............102
Hình 4.9. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 3 ............102
Hình 4.10. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 1 ....105
Hình 4.11. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 2 ....105
Hình 4.12. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của dữ liệu 3 ....106
Hình 4.13. Kết quả dự báo của dữ liệu 1 bởi PFC-PFR (A) và PFC-STAR(B) .....106

Hình 4.14. Kết quả dự báo của dữ liệu 2 bởi PFC-PFR (A) và PFC-STAR(B) .....106
Hình 4.15. Kết quả dự báo của dữ liệu 3 bởi PFC-PFR (A) và PFC-STAR(B) .....106

8


MỞ ĐẦU
1. Nhu cầu và ý nghĩa của phân cụm và phân cụm mờ
Ngày nay, với sự phát triển về mọi mặt của đời sống từ kinh tế, văn hóa, giáo
dục cho đến công nghệ và đặc biệt, lĩnh vực công nghệ thông tin đã có những bước
phát triển chóng mặt. Công nghệ thông tin ngày càng khẳng định vai trò quan trọng,
làm trung tâm chi phối mọi hoạt động, là cầu nối trao đổi thông tin giữa các thành
phần của xã hội toàn cầu, của mọi vấn đề. Như một hệ quả tất nhiên, lượng thông tin,
dữ liệu được được thu thập, lưu trữ cũng ngày một lớn hơn và đang phát triển một
cách bùng nổ trong những năm gần đây. Chính vì vậy, câu hỏi làm thế nào để trích
xuất ra các thông tin, các tri thức từ lượng dữ liệu khổng lồ đó đang là thách thức
cũng như mang lại cơ hội nghiên cứu, khám phá cho các nhà khoa học.
Khai phá dữ liệu là quá trình xử lý dữ liệu và nhận biết các mẫu và các xu hướng
trong thông tin để có thể giúp người dùng đưa ra quyết định hoặc đánh giá. Có nhiều
bài toán khai phá dữ liệu như phân lớp, phân cụm, hồi quy, v.v., trong đó bài toán
phân cụm dữ liệu là bài toán tương đối phổ biến và có nhiều ứng dụng. Phân cụm dữ
liệu là việc sắp xếp các đối tượng dữ liệu vào từng cụm sao cho các phần tử trong
cùng một cụm có mức độ tương tự là cao nhất và hai phần tử bất kỳ ở hai cụm khác
nhau có mức độ tương tự là thấp nhất. Việc phân cụm như vậy giúp cho việc khai phá
dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các dữ liệu được phân
thành các nhóm với các tính chất đặc trưng. Việc phân cụm này đặc biệt hiệu quả khi
dữ liệu có phân bố các cụm tách rời nhau và không chứa nhiễu. Tuy nhiên, với các
bộ dữ liệu có sự phân bố các cụm xen kẽ, dữ liệu không chắc chắn, dữ liệu chứa nhiễu
hoặc thiếu một số thuộc tính thì cách phân cụm như vậy không hiệu quả. Trên thực
tế, mỗi một phần tử trong bộ dữ liệu có thể thuộc về nhiều cụm dữ liệu với các mức

độ khác nhau.
Để giải quyết vấn đề này, dựa trên lý thuyết về tập mờ của Zadeh [98], Bezdek
[12] đã đưa ra thuật toán phân cụm mờ - Fuzzy C-means (FCM) nhằm giải quyết các
nhược điểm trên. Thuật toán này được xem như một trong những phương pháp trích
rút các quy tắc và luật mờ trong khai phá dữ liệu, trong đó các yếu tố mờ thực sự phổ
biến [26, 73, 106]. Phân cụm mờ có nhiều ứng dụng trong thực tế cuộc sống ở nhiều
lĩnh vực khác nhau như:
9


-

Trong kinh tế: dự báo tỉ giá, dự báo chứng khoán, dự báo tài chính [91-92]

-

Trong y khoa: Hỗ trợ chuẩn đoán hình ảnh, hỗ trợ tư vấn khám bệnh
[1,7,15,16,19,47,51,71,74,95]

-

Trong thủy văn: dự báo thời tiết ngắn hạn [76]

-

Trong xử lý ảnh: Phân đoạn ảnh [50,102]

-

Trong hệ tư vấn: hỗ trợ ra quyết định [44,52]


-

Trong an ninh: phát hiện lỗi, xâm nhập [46,104]

-

Trong mạng không dây: đặt các cảm biến, phương pháp truyền tin [2,61]
Trong các ứng dụng của phân cụm mờ, bài toán dự báo thời tiết ngắn hạn nổi

bật bởi việc kết hợp các kết quả của phân chuật toán lai FCM-FR và ba thuật toán tương tự (FCM-STAR, FIR và
ANN) là (8.226, 8.41), (9.474, 9.494, 9.661), và (11.12 11.03 13.769), theo thứ tự.
PFC-PFR là phương pháp tốt nhất trong trường hợp này. Tương tự, trong hình ảnh
dự đoán 3, các giá trị trung bình của các phương pháp được đề xuất (PFC-PFR và
PFC- STAR), các biến thể mà không cần huấn luyện (PFC-PFR* và PFC-STAR*),
thuật toán lai FCM-FR và ba thuật toán tương tự (FCM-STAR, FIR và ANN) là
(9.285, 9,266, 10.98) và (12.04, 19.38, 13.769). PFC- STAR là phương pháp có kết
quả tốt nhất trong trường hợp này. Nó đã cho thấy rằng các phương pháp đề xuất có

101


khả năng duy trì độ chính xác cao của hình ảnh dự đoán trong khoảng thời gian dự
báo. Điều này là quan trọng bởi vì khoảng thời gian dự báo lớn hơn có thể cho hiệu
suất và độ chính xác không như mong muốn. Những thay đổi của giá trị RMSE giữa
một số hình ảnh dự đoán của các phương pháp được đề xuất là không lớn so với

Giá trị RMSE

những thuật toán khác.

35
30
25
20
15
10
5
0

Data 3
Data 2
Data 1

Giá trị RMSE

Hình 4.7. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 1
90
80
70
60
50
40
30
20
10
0

Data 3
Data 2
Data 1


Hình 4.8. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 2
70

Giá trị RMSE

60
50
40

Data 3

30
20

Data 2

10

Data 1

0

Hình 4.9. RMSE của các thuật toán với dữ liệu trong hình ảnh dự đoán 3
102


Bảng 4.3. So sánh giá trị RMSE của các thuật toán
Data


PFC-PFR*

FCM-FR

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự

báo 1

báo 2

báo 3

báo 1

báo 2

báo 3

Data 1


1.041

1.359

1.503

1.058

1.448

1.628

Data 2

1.333

1.189

1.300

1.392

1.080

1.083

Data 3

1.374


1.146

1.143

1.520

1.277

1.313

PFC-STAR*

FCM-STAR

Data 1

1.669

1.452

1.769

2.097

1.663

1.802

Data 2


1.864

1.084

1.122

2.390

1.240

1.133

Data 3

1.922

1.211

1.230

2.608

1535.752

1.498

FIR

ANN


Data 1

1.160

4.951

3.544

1.211

1.773

2.107

Data 2

1.000

2.766

1.753

1.669

1.188

1.296

Data 3


1.000

3.043

2.113

1.790

1.278

1.683

PFC-PFR

PFC-STAR

Data 1

1.000

1.230

1.288

1.072

1.000

1.000


Data 2

1.104

1.000

1.051

1.161

1.038

1.000

Data 3

1.226

1.000

1.000

1.205

1.165

1.226

PFC-PFR+
Data 1


1.003

1.266

1.764

Data 2

1.355

1.199

1.127

Data 3

1.271

1.162

1.139

Thứ tư, hình 4.7 – 4.9 minh họa tổng giá trị RMSE của các thuật toán bằng tất
cả dữ liệu trong hình ảnh được dự đoán 1, 2 và 3, tương ứng. Tổng giá trị được tính
bằng tổng các giá trị RMSE của tất cả dữ liệu cho một hình ảnh dự đoán. Các con số
cũng khẳng định rằng các phương pháp được đề xuất là tốt hơn so với những phương
pháp khác có liên quan (FCM-STAR, FIR à ANN). Hơn nữa, các phương pháp huấn
luyện trong PFC-PFR và PFC-STAR là khá quan trọng vì chúng làm giảm đáng kể
103



các giá trị RMSE khi so sánh giữa các phương pháp được đề xuất (PFC-PFR và PFCSTAR), các biến thể mà không cần huấn luyên (PFC-PFR* và PFC-STAR*). Sự kết
hợp giữa các phương pháp được đề xuất cũng tốt hơn so với sự kết hợp của một thuật
toán cụm mờ FCM và phương pháp luật mờ (PFR). Điều này cho thấy vai trò của
thuật toán phân cụm mờ viễn cảnh (PFC) nhằm nâng cao tính chính xác của dự báo.
Bảng 4.4. STD của giá trị RMSE của các thuật toán
Data

PFC-PFR*

FCM-FR

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự

Ảnh dự báo

báo 1

báo 2

báo 3


báo 1

báo 2

3

Data 1

0.104

0.627

1.347

0.143

0.721

1.471

Data 2

0.425

0.805

2.441

0.479


0.799

2.345

Data 3

0.413

0.752

2.311

0.451

0.785

2.67

PFC-STAR*

FCM-STAR

Data 1

0.103

0.634

1.241


0.11

0.651

1.113

Data 2

0.612

0.731

2.451

0.662

0.701

2.703

Data 3

0.426

0.702

2.234

0.568


0.893

2.523

FIR

ANN

Data 1

0.000

0.000

0.000

0.036

0.176

0.569

Data 2

0.000

0.000

0.000


0.167

0.361

0.685

Data 3

0.000

0.000

0.000

0.017

0.248

0.305

PFC-PFR

PFC-STAR

Data 1

0.04

0.467


0.716

0.101

0.599

1.428

Data 2

0.083

0.425

0.757

0.741

0.831

2.551

Data 3

0.168

0.699

0.724


0.532

0.702

2.234

PFC-PFR+
Data 1

0.076

0.424

0.479

Data 2

0.505

0.458

0.468

Data 3

1.013

3.463


1.911

104


Bảng 4.3 là minh chứng so sánh các giá trị RMSE giữa các thuật toán bằng cách
đánh dấu các giá trị đậm trong bảng 4.2 là 1 và tính toán bao nhiêu lần giá trị khác
trong cùng một dữ liệu và hình ảnh dự đoán lớn hơn các giá trị in đậm này. Các lần
được viết xuống trong bảng 4.3 để hiển thị rõ ràng tỷ lệ giữa các thuật toán. Bảng 4.4
biểu thị giá trị tiêu chuẩn (STD) cho giá trị RMSE của các thuật toán trong bảng 4.2.
9
8

RMSE values

7
6
5

Predicted Image 1

4

Predicted Image 2

3

Predicted Image 3

2

1
0
2

3

4

5

6

7

8

9 10 11 12 13 14 15 16

Số cụm

Hình 4.10. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của
dữ liệu 1
16
14

RMSE values

12
10
8


Predicted Image 1

6

Predicted Image 2
Predicted Image 3

4
2
0
2

3

4

5

6

7

8

9 10 11 12 13 14 15 16

Số cụm

Hình 4.11. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau của

dữ liệu 2
105


12

RMSE values

10
8
Predicted Image 1

6

Predicted Image 2
4

Predicted Image 3

2
0
2

3

4

5

6


7

8

9

10 11 12 13 14 15 16

Number of clusters

Hình 4.12. Giá trị RMSE của thuật toán PFC-PFR với các cụm khác nhau
của dữ liệu 3

11.30

12.30

13.30

11.30

A

12.30

13.30

B


Hình 4.13. Kết quả dự báo của dữ liệu 1 bởi PFC-PFR (A) và PFC-STAR(B)

11.30

12.30

13.30

11.30

A

12.30

13.30

B

Hình 4.14. Kết quả dự báo của dữ liệu 2 bởi PFC-PFR (A) và PFC-STAR(B)

11.30

12.30

13.30

11.30

A


12.30

13.30

B

Hình 4.15. Kết quả dự báo của dữ liệu 3 bởi PFC-PFR (A) và PFC-STAR(B)
106


Trong hình 4.10 – 4.12, các giá trị RMSE được minh họa với thanh sai số của
thuật toán PFC-PFR bằng các số khác nhau của cụm dữ liệu 1, 2 và 3, tương ứng.
Điều này cho thấy sự ổn định của thuật toán trong các trường hợp khác nhau của các
tham số. Cuối cùng, hình 4.13 – 4.15 hiển thị các kết quả minh họa của ba hình ảnh
dự báo cuối cùng (11h30, 12h30 và 13h30).
4.4. Kết luận chương
Trong chương này, hai phương pháp dự báo lai mới dựa trên ảnh mây vệ tinh
cho bài toán dự báo thời tiết ngắn hạn được đề xuất. Phương pháp đầu tiên được đặt
tên là PFC-STAR là sự kết hợp của phân cụm mờ viễn cảnh và mô hình hồi quy
không thời gian STAR. Phương pháp thứ hai là PFC-PFR tích hợp phân cụm mờ viễn
cảnh và quy tắc sinh luật mờ với hai biến thể là luật mờ viễn cảnh tam giác và luật
mờ viễn cảnh hình thang. Cả hai thuật toán này đều sử dụng thêm thuật toán huấn
luyện để nâng cao độ chính xác dự báo. Đánh giá thử nghiệm trên các chuỗi hình ảnh
vệ tinh cho thấy các phương pháp đề xuất cho chất lượng tốt hơn so với những người
có liên quan.
Nội dung của chương này đã được công bố trong công trình CT5:
[CT5]. Le Hoang Son, Pham Huy Thong (2017), “Some novel hybrid forecast
methods based on picture fuzzy clustering for weather nowcasting from satellite
image sequences”, Applied Intelligence 46(1), pp. 1-15. (SCIE, 2018, IF= 2.882,
Springer).


107


KẾT LUẬN
Với mục tiêu nghiên cứu một số phương pháp phân cụm mờ mới trên tập mờ
viễn cảnh, luận án đã đạt được một số kết quả như sau:

- Đề xuất thuật toán FC-PFS là một thuật toán phân cụm mờ viễn cảnh mới.
Tính chất hội tụ của thuật toán được khảo sát và chứng minh về lý thuyết.
Đồng thời, thực nghiệm kiểm chứng trên bộ dữ liệu chuẩn UCI, thuật toán
cũng đạt hiệu quả hơn so với các thuật toán liên quan. Những nghiên cứu chi
tiết về thuật toán mới này đã được công bố trên hai công trình [CT1, CT2].

- Đề xuất thuật toán AFC-PFS, trên cơ sở cải tiến thuật toán phân cụm trên
tập mờ viễn cảnh cho bài toán phân cụm mờ tự động xác định số cụm. Đây
là một thuật toán mới lai ghép giữa thuật toán phân cụm mờ viễn cảnh và
thuật toán tối ưu bầy đàn PSO. Thực nghiệm kiểm chứng cho thây thuật toán
cho kết quả tốt hơn các thuật toán khác liên quan. Kết quả nghiên cứu này
được công bố trong [CT3].

- Đề xuất thuật toán PFCA-CD, trên cơ sở cải tiến thuật toán phân cụm trên
tập mờ viễn cảnh nhằm xử lý các dữ liệu phức tạp. Đây là một thuật toán
mới được đề xuất để phân cụm mờ dữ liệu gồm cả dữ liệu kiểu loại và dữ
liệu số. Đồng thời thuật toán cũng có thể xử lý với các dữ liệu có cấu trúc
phức tạp mà các thuật toán phân cụm mờ thông thường tỏ ra không hiệu quả.
Các kết quả thực nghiệm đã chỉ ra những ưu điểm của thuật toán này so với
các thuật toán liên quan. Nghiên cứu này được công bố trong [CT4].

- Ứng dụng thuật toán phân cụm mờ viễn cảnh FC-PFS cho bài toán dự báo

thời tiết ngắn hạn dựa trên ảnh mây vệ tinh. Ở đây luận án đã đưa ra hai
phương pháp kết hợp thuật toán phân cụm mờ viễn cảnh với thuật toán hồi
quy không thời gian STAR và kết hợp với luật mờ viễn cảnh. Luật mờ viễn
cảnh là một luật mờ mới được trình bày trong luận án được sinh ra bằng các
kết quả của phân cụm mờ viễn cảnh, dựa trên các số mờ tam giác và hình
thang để tính toán suy luận ra kết quả đầu ra dự báo. Các thực nghiệm trên
các ảnh mây vệ tinh cho thấy tính hiệu quả của phương pháp này. Kết quả
nghiên cứu được công bố tại [CT5].

108


Bên cạnh các kết quả nghiên cứu đã đạt được, các nghiên cứu trong luận án vẫn
còn tồn tại một số hạn chế như:

- Thuật toán phân cụm mờ viễn cảnh có nhiều tham số trong quá trình tính
toán, do đó cần tài nguyên bộ nhớ rất lớn, đặc biệt là khi tính toán với bộ dữ
liệu lớn.

- Thuật toán phân cụm mờ viễn cảnh là thuật toán lặp nên cần khá nhiều thời
gian để tính toán. Do các giá trị đầu vào ban đầu được khởi tạo bởi các giá
trị ngẫu nhiên nên số vòng lặp của thuật toán sẽ phụ thuộc nhiều vào độ tốt
của dữ liệu ban đầu. Hơn nữa, các cải tiến của thuật toán này đều có sự kết
hợp với thuật toán tối ưu bầy đàn PSO dẫn đến thuật toán sẽ cần rất nhiều
tài nguyên tính toán.

- Trong bài toán dự báo thời tiết ngắn hạn, luận án mới chỉ đưa ra cách tiếp
cận dựa trên ảnh mây về tinh mà chưa xem xét đến các yếu tố khác của thời
tiết như nhiệt độ, áp suất, tốc độ gió, độ ẩm, v.v. dẫn đến các kết quả dự báo
chưa thực sự mang tính thực tiễn.

Hướng phát triển tiếp theo của các nghiên cứu trong luận án này sẽ tập trung
vào một số điểm sau:

- Cải tiến các thuật toán đã có để giảm thiểu tài nguyên bộ nhớ sử dụng, đồng
thời tăng tốc độ tính toán như áp dụng tính toán trên các mô hình song song,
các mô hình tính toán phân tán để đạt được hiệu quả cao nhất.

- Kết hợp thêm các yếu tố về thời tiết như nhiệt độ, độ ẩm, hướng gió, v.v.
cho bài toán dự báo thời tiết ngắn hạn để có được dự báo chính xác, gần với
thực tiễn hơn.

109


DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
ĐÃ CÔNG BỐ
[CT1]. Pham Huy Thong, Le Hoang Son (2016), “Picture fuzzy clustering: a
new computational intelligence method”, Soft Computing 20(9), pp. 35493562. (SCIE, 2018 IF= 2.784, Springer).
[CT2]. Pham Thi Minh Phuong, Pham Huy Thong, Le Hoang Son (2018),
“Theoretical analysis of picture fuzzy clustering: Convergence and property”,
Journal of Computer Science and Cybernetics 34(1), pp. 17-32.
[CT3]. Pham Huy Thong, Le Hoang Son (2016), “A novel automatic picture
fuzzy clustering method based on particle swarm optimization and picture
composite cardinality”, Knowledge-Based Systems 109, pp. 48-60. (SCI, 2018
IF=5.101, Elsevier).
[CT4]. Pham Huy Thong, Le Hoang Son (2016), “Picture fuzzy clustering for
complex data”, Engineering Applications of Artificial Intelligence 56, pp. 121130. (SCIE, 2018 IF=3.526, Elsevier).
[CT5]. Le Hoang Son, Pham Huy Thong (2017), “Some novel hybrid forecast
methods based on picture fuzzy clustering for weather nowcasting from
satellite image sequences”, Applied Intelligence 46(1), pp. 1-15. (SCIE, 2018

IF= 2.882, Springer).

110


TÀI LIỆU THAM KHẢO
[1].

Abdullah, M., Al-Anzi, F., & Al-Sharhan, S. (2018, March), “Hybrid
Multistage Fuzzy Clustering System for Medical Data Classification”, In 2018
International Conference on Computing Sciences and Engineering (ICCSE),
1-6.

[2].

Agrawal, D., & Pandey, S. (2018), “FUCA: Fuzzy‐based unequal clustering
algorithm to prolong the lifetime of wireless sensor networks”, International
Journal of Communication Systems 31(2), e3448.

[3].

Al-amri, S. S., Kalyankar, N. V., & Khamitkar, S. D. (2010), “A comparative
study of removal noise from remote sensing image”, arXiv preprint
arXiv:1002.1148.

[4].

Aliahmadipour, L. T. (2017), “On hesitant fuzzy clustering and clustering of
hesitant fuzzy data”, Fuzzy sets, rough sets, multisets and clustering, 157-168.


[5].

Alp Erilli, N., Yolcu, U., Eğrioğlu, E., Hakan Aladağ, Ç., & Öner, Y. (2011),
“Determining the most proper number of cluster in fuzzy clustering by using
artificial neural networks”, Expert Systems with Applications 38(3), 2248-2252.

[6].

Amiri, E., & Dehkordi, M. N. (2018), “Dynamic data clustering by combining
improved discrete artificial bee colony algorithm with fuzzy logic”,
International Journal of Bio-Inspired Computation 12(3), 164-172.

[7].

Amirkhani, A., Mosavi, M. R., Mohammadi, K., & Papageorgiou, E. I. (2018),
“A novel hybrid method based on fuzzy cognitive maps and fuzzy clustering
algorithms for grading celiac disease”, Neural Computing and Applications
30(5), 1573-1588.

[8].

Arima, C., Hakamada, K., Okamoto, M., & Hanai, T. (2008), “Modified Fuzzy
Gap statistic for estimating preferable number of clusters in Fuzzy k-means
clustering”, Journal of bioscience and bioengineering 105(3), 273-281.

[9].

Arora, J., Khatter, K., & Tushir, M. (2019), “Fuzzy c-means clustering
strategies: A review of distance measures”, In Software Engineering, 153-162.


[10]. Atanassov, K. (1986), “Intuitionistic fuzzy sets”, Fuzzy Sets and Systems 20,
87–96.

111


[11]. Bai, L., Liang, J., & Dang, C. (2011), “An initialization method to
simultaneously find initial cluster centers and the number of clusters for
clustering categorical data”, Knowledge-Based Systems 24(6), 785-795.
[12]. Bezdek, J. E. (1984), “FCM: The fuzzy c-means clustering algorithm”,
Computers & Geosciences 10(2), 191-203.
[13]. Burillo, P., Bustince, H. (1996), “Entropy on intuitionistic fuzzy set and on
interval-valued fuzzy set”, Fuzzy Sets and Systems 78, 305–316.
[14]. Butkiewicz, B.S. (2012), "Fuzzy clustering of intuitionistic fuzzy data", In
International Conference on Artificial Intelligence and Soft Computing, 213-220.
[15]. Chaira, T. (2011), “A novel intuitionistic fuzzy C means clustering algorithm and
its application to medical images”, Applied Soft Computing 11(2), 1711-1717.
[16]. Chaira, T. P. (2013), “An Atanassov's intuitionistic Fuzzy Kernel Clustering
for Medical Image segmentation”, International Journal of Computational
Intelligence Systems, 1-11.
[17]. Chen, L., Wang, S., Wang, K., & Zhu, J. (2016), “Soft subspace clustering of
categorical data with probabilistic distance”, Pattern Recognition 51, 322-332.
[18]. Cheung, Y. M., & Jia, H. (2013), “Categorical-and-numerical-attribute data
clustering based on a unified similarity metric without knowing cluster
number”, Pattern Recognition 46(8), 2228-2238.
[19]. Chowdhary, C. L., & Acharjya, D. P. (2018), “Segmentation of mammograms
using a novel intuitionistic possibilistic fuzzy c-mean clustering algorithm”, In
Nature Inspired Computing, 75-82.
[20]. Cominetti, O., Matzavinos, A., Samarasinghe, S., Kulasiri, D., Liu, S., Maini,
P., & Erban, R. (2010), “DifFUZZY: a fuzzy clustering algorithm for complex

datasets”,

International

Journal

of

Computational

Intelligence

in

Bioinformatics and Systems Biology 1(4), 402-417.
[21]. Cuong, B.C. (2014), “Picture fuzzy sets”, Journal of Computer Science and
Cybernetics 30(4), 409-420.

112


×