Tải bản đầy đủ (.pdf) (27 trang)

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (538.57 KB, 27 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM HUY THƠNG

PHÁT TRIỂN MỘT SỐ THUẬT TỐN
PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH VÀ
ỨNG DỤNG TRONG DỰ BÁO

Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 9460117.02

DỰ THẢO TĨM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC

Hà Nội, 2019


Cơng trình đƣợc hồn thành tại:
Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội.

Người hướng dẫn khoa học: 1. PGS. TS. Lê Hoàng Sơn
2. PGS. TS. Nguyễn Thị Hồng Minh

Phản biện 1: .............................................
Phản biện 2: .............................................
Phản biện 3: .............................................

Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp Đại học Quốc
gia họp tại: Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia
Hà Nội
vào hồi......giờ......., ngày.......tháng.......năm 20...



Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam,
- Trung tâm thông tin - Thư viện, Đại học Quốc gia Hà Nội.


MỞ ĐẦU
Phân cụm dữ liệu là việc sắp xếp các đối tượng dữ liệu vào
từng cụm sao cho các phần tử trong cùng một cụm có mức độ tương
tự là cao nhất và hai phần tử bất kỳ ở hai cụm khác nhau có mức độ
tương tự là thấp nhất. Việc phân cụm như vậy giúp cho việc khai phá
dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các
dữ liệu được phân thành các nhóm với các tính chất đặc trưng. Tuy
nhiên, việc các phân cụm này cũng có một số nhược điểm là mỗi một
phần tử chỉ thuộc về một cụm dữ liệu hay một số dữ liệu có thể bị
thiếu thơng tin hoặc thông tin không chắc chắn. Để giải quyết vấn đề
này, dựa trên lý thuyết về tập mờ của Zadeh, Bezdek đã đưa ra thuật
toán phân cụm mờ Fuzzy C-mean (FCM) nhằm giải quyết các nhược
điểm trên. Thuật toán này được biết đến như một phương thức chính
trong phân cụm mờ.
Tuy nhiên, chất lượng phân cụm của FCM thường khơng cao
do thuật tốn này được cài đặt trên cơ cở của các tập mờ truyền
thống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ hồ
của các tham số mẫu. Chính vì vậy việc nghiên cứu các thuật toán
phân cụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các
nhược điểm này. Đến nay đã có rất nhiều các thuật tốn phân cụm
trên các tập mờ nâng cao như thuật toán phân cụm trên tập mờ loại 2
(T2FS), tập mờ trực cảm, … mang lại chất lượng phân cụm tốt hơn.
Tuy nhiên các thuật toán này khi phân cụm cho kết quả vẫn chưa đưa
ra được các thông tin đầy đủ, đặc biệt là sự phù hợp của mơ hình.

Vào năm 2014, tác giả Bùi Công Cường giới thiệu tập mờ viễn
cảnh (PFS), là một sự khái quát hóa của tập mờ truyền thống và tập
mờ trực cảm. Các mơ hình dựa trên PFS có thể được áp dụng cho
nhiều tình huống cần ý kiến của con người liên quan nhiều đến các
câu trả lời kiểu: đồng ý, do dự, không đồng ý và từ chối trả lời. Các
tình huống này có thể cho kết quả rõ ràng hơn trên các thuật tốn
phân cụm dựa trên PFS. Chính vì vậy việc phát triển thuật toán phân

1


cụm mờ trên PFS sẽ nâng cao độ chính xác phân cụm. Hiện nay các
thuật toán phân cụm mờ trên tập mờ viễn cảnh mới chỉ dừng lại ở
việc đưa ra một số độ đo kết hợp sử dụng phân cụm phân cấp để thực
hiện mà chưa xem xét đến việc phân cụm theo cách tiếp cận phân
hoạch.
Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và
các thuật tốn phân cụm trên các tập mờ nâng cao cịn có một số
nhược điểm khác như xác định số cụm hay xử lý với dữ liệu phức
tạp. Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các
tập mờ nâng cao phải xác định trước số cụm trước khi thực hiện phân
cụm. Việc xác định số cụm ban đầu không tốt dẫn đến chất lượng
cụm không tốt, chứa nhiễu hoặc các điểm ngoại biên. Có ba cách tiếp
cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất.
Các nghiên cứu đã chứng minh được phương pháp cắt tỉa là cách tiếp
cận hiệu quả nhất. Thứ hai, xử lý với dữ liệu phức tạp là khơng dễ
với FCM và các thuật tốn phân cụm trẻn tập mờ nâng cao. Các
phương pháp phân cụm trên tập dữ liệu phức tạp được chia thành hai
nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại, dữ liệu số và
cấu trúc đặc biệt của dữ liệu.

Phân cụm mờ có rất nhiều ứng dụng trong thực tế cuộc sống ở
rất nhiều lĩnh vực khác nhau như: trong kinh tế với dự báo tỉ giá, dự
báo chứng khốn, dự báo tài chính, …; trong y khoa: Hỗ trợ chuẩn
đốn hình ảnh, hỗ trợ tư vấn khám bệnh, …; trong thủy văn: dự báo
thời tiết ngắn hạn, …; trong xử lý ảnh: Phân đoạn ảnh, …; trong hệ
tư vấn: hỗ trợ ra quyết định, …
Đề tài nghiên cứu tập trung vào ứng dụng của phân cụm mờ
trong bài toán dự báo thời tiết ngắn hạn. Dự báo thời tiết ngắn hạn
kết hợp mô tả về trạng thái hiện tại của khí quyển và dự báo ngắn hạn
về khí quyển sẽ xẩy ra trong vài giờ tiếp theo. Điều này cho phép nó
có thể dự báo các tính chất thời tiết trong ngắn hạn như mưa, mây và
các cơn bão với các nguyên nhân rõ ràng khoảng thời gian này. Các

2


dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quan sát
được sử dụng để phân tích các biến đổi trong phạm vi hẹp như một
thành phố và thực hiện một dự báo chính xác cho khoảng thời gian
vài giờ sau. Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho
các khu vực trong vùng phủ sóng của nó.
Mục tiêu nghiên cứu
Mục tiêu 1: Nghiên cứu, tổng hợp, phân tích và đề xuất thuật
toán phân cụm mờ trên tập mờ viễn cảnh. Kiểm chứng bằng
lý thuyết sự hội tụ của thuật toán và thực nghiệm, so sách với
các thuật toán phân cụm mờ khác.
Mục tiêu 2: Nghiên cứu, phát triển các thuật toán phân cụm
mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số
cụm tự động, phân cụm với dữ liệu phức tạp. Kiểm chứng, so
sách với các thuật toán liên quan khác.

Mục tiêu 3: Nghiên cứu, phát triển ứng dụng của thuật toán
phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết
dựa trên ảnh mây vệ tinh.
Nội dung nghiên cứu
Nội dung 1: Nghiên cứu phát triển thuật toán phân cụm mờ
mới trên tập mờ viễn cảnh (FC-PFS).
Nội dung 2: Khảo sát tính chất hội tụ của thuật toán FC-PFS
về mặt lý thuyết và kiểm chứng về mặt thực nghiệm trên bộ
dữ liệu chuẩn UCI.
Nội dung 3: Đề xuất mở rộng của FC-PFS cho việc phân
cụm mờ tự động xác định số cụm.
Nội dung 4: Đề xuất mở rộng của FC-PFS trong xử lý các dữ
liệu phức tạp.
Nội dung 5: Xây dựng luật mờ viễn cảnh từ FC-PFS.
Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự
báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh.

3


-

-

-

-

Phƣơng pháp nghiên cứu
Khảo cứu: Khảo sát các phương pháp liên quan về phân cụm

mờ, xử lý dữ liệu không chắc chắn.
Nghiên cứu gia tăng: Cải tiến, mở rộng thuật toán phân cụm
mờ (FCM) trên tập mờ viễn cảnh.
Nghiên cứu lý thuyết: Phân tích và chứng minh một số tính
chất về hội tụ của mơ hình đề xuất.
Nghiên cứu mở rộng: Mở rộng FC-PFS trong một số trường
hợp đặc biệt.
Nghiên cứu ứng dụng: Ứng dụng mơ hình đề xuất cho bài
toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh.
Phạm vi và giới hạn của đề tài nghiên cứu
Phát triển thuật toán phân cụm mờ trên tập mờ viễn cảnh với
phân cụm phân hoạch.
Ứng dụng: Áp dụng cho bài toán dự báo thời tiết ngắn hạn dựa
trên ảnh mây vệ tinh với việc sử dụng phương pháp hồi quy
không thời gian, suy luận mờ và sử dụng luật mờ viễn cảnh.
Bố cục của luận án
Chương mở đầu: trình bày bối cảnh nghiên cứu; tổng quan
nhanh và các hạn chế về bài toán phân cụm mờ; các vấn đề
nghiên cứu; mục tiêu nghiên cứu; hướng tiếp cận và phương
pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn
nghiên cứu; các đóng góp chính và bố cục của luận án.
Chương 1: Giới thiệu một số kiến thức cơ sở chuẩn bị về đề
tài nghiên cứu. Chương này trình bày giới thiệu sơ lược về
tập mờ, các thuật toán phân cụm mờ, các thuật toán phân
cụm mờ mở rộng cho việc tự động xác định số cụm, xử lý
với dữ liệu phức tạp và ứng dụng trong dự báo thời tiết ngắn
hạn. Một số độ đo tiêu chí đánh giá và bộ dữ liệu cũng được
trình bày.

4



-

-

-

Chương 2: Giới thiệu về thuật toán phân cụm trên tập mờ viễn
cảnh từ ý tưởng thuật toán, cách thức triển khai thuật toán, đánh
giá lý thuyết về sự hội tụ và thực nghiệm tính tốn.
Chương 3: Đề xuất cải tiến của thuật toán phân cụm trên tập
mờ viễn cảnh với việc tự động xác định số cụm và xử lý dữ
liệu phức tạp, có các thực nghiệm kiểm chứng kèm theo.
Chương 4: Áp dụng thuật toán phân cụm mờ trên tập mờ viễn
cảnh cho bài toán dự báo ảnh mây về tinh.
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT

1.1. Tập mờ
Trong phần này tác giả trình bày các khái niệm về tập mờ các
các tập mờ nâng cao, đặc biệt là tập mờ viễn cảnh. Tập mờ viễn cảnh
là tập mờ tổng quát của tập mờ trực cảm và tập mờ thường với thể
hiện được các hành vi ra quyết định giống con người như khẳng đinh,
phủ định, trung lập và từ chối
1.2. Độ đo tƣơng tự và đánh giá chất lƣợng cụm
Các độ đo tương tự đánh giá chất lượng cụm gồm có chỉ số
Mean Accuracy (MA), chỉ số Davies-Bouldin (DB), chỉ số Rand, chỉ
số Alternative Silhouette (
), chỉ số WGLI [64] và PBM [72].
1.3. Thuật toán phân cụm mờ

Trong phần này, các thuật toán phấn cụm mờ trên tập mờ
thường, tập mờ loại 2 và tập mờ trực cảm được trình bày.
1.4. Một số thuật tốn khác
1.4.1. Thuật tốn tối ưu bầy đàn (PSO)
Thuật tốn tối ưu hóa bầy đàn (PSO) là một chiến lược tiến
hóa nhằm tối ưu hóa một vấn đề bằng phương pháp lặp cố gắng cải
thiện một giải pháp ứng viên tới một chất lượng cho trước. Thuật
toán PSO gồm các bước sau: khởi tạo bầy, tính tốn các giá trị fitness
và cập nhật các phương án.

5


1.4.2. Thuật toán DifFuzzy
Thuật toán phân cụm DifFuzzy dựa trên FCM và các biểu đồ
khuếch tán để phân dữ liệu vào các cụm có cấu trúc hình học phi
tuyến phức tạp.
1.4.3. Thuật toán Dissimilarity
Thuật toán Dissimilarity là dựa trên thuật toán phân cụm mờ
K-Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao
gồm 5 bước: khởi tạo, tính tốn giá trị tốt nhất, tính tốn trọng số liên quan
tốt nhất, định nghĩa phân hoạch mờ tốt nhất, và điều kiện dừng.
1.4.4. Phương pháp FCM-STAR
Pfeifer và Deutsch đã đề xuất mơ hình khơng thời gian tuyến
tính, là một phiên bản 3D của mơ hình hồi quy thơng thường (AR) và
nó cho phép người dùng dự báo một chuỗi không thời gian dựa trên
thông tin trong quá khứ của nó theo khơng gian và thời gian. Mật độ
) trong một miền hình ảnh có thể được mơ
của mỗi điểm ảnh (
phỏng như một hàm " " của mật độ các pixel lân cận theo không

gian và thời gian, với giả định của quan hệ nhân quả.
1.5. Bộ dữ liệu thực nghiệm
Tập dữ liệu thử nghiệm cho FC-PFS và các thuật toán cải tiến
được lấy trên kho dữ liệu học máy chuẩn UCI với những bộ dữ liệu
hoàn toàn là số như IRIS, WINE, WDBC, GLASS, IONOSPHERE,
HABERMAN, HEART and CMC. Các dữ liệu đầu vào cho bài toán
dự báo thời tiết ngắn hạn là các ảnh vệ tinh được lấy ở cùng một vị trí
và cùng khoảng thời gian. Bộ sưu tập hình ảnh bao gồm ba bộ hình
ảnh: Malaysia (dữ liệu 1), Luzon – Philippines (dữ liệu 2) và Jakarta
– Indonesia (Dữ liệu 3). Mỗi tập dữ liệu chứa 7 ảnh liên tiếp từ 7.30
sáng đến 13.30 chiều ngày 28/11/2014. Các hình ảnh có cùng kích
thước (100x100 pixel).
1.6. Kết luận chƣơng
Trong chương này, các kiến thức cơ sở về tập mờ, các độ đo
đánh giá chất lượng cụm, các thuật toán phân cụm và các thuật toán
liên quan khác đã được trình bày. Các kiến thức cơ sở này sẽ là nền
tảng cho việc giải quyết các bài toán ở các chương sau.
6


CHƢƠNG 2. THUẬT TOÁN PHÂN CỤM TRÊN TẬP MỜ
VIỄN CẢNH
2.1. Ý tƣởng thuật toán
Ý tưởng của thuật toán là thiết kế hàm mục tiêu gồm hai thành
phần như của thuật toán phân cụm trên tập mờ trực cảm. Với thành
phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm
mờ thường nhưng thành phần độ thuộc được thay thế bằng đại lượng
)). Đại lượng này thể hiện cho việc một điểm dữ liệu nếu
( (
thuộc về một cụm thì giá trị phải lớn và phải càng nhỏ. Thành

phần thứ hai trong hàm mục tiêu chính là đại lượng entropy
(
). Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu
sẽ có giá trị và nhỏ, giúp giảm đi các giá trị trung lập và từ chối
của mơ hình, giúp mơ hình phân cụm cải tiến được độ chính xác hơn.
2.2. Thuật tốn phân cụm trên tập mờ viễn cảnh
2.2.1. Hàm mục tiêu
Giả sử có một tập X chứa N điểm trong không gian đa chiều.
Hãy chia tập dữ liệu thành C nhóm thỏa mãn hàm mục tiêu sau.




.

(

)/ ‖







(

)

,


(1)

Các ràng buộc được định nghĩa như sau:
,

;


.


(
.

)/
/

,
,

-

(2)
(3)
(4)

Mơ hình đề xuất trong cơng thức (1-4) dựa trên nguyên lý của
tập PFS và được tóm tắt như sau:
 Mơ hình đề xuất là khái qt hóa của mơ hình phân cụm

mờ trên tập mờ viễn cảnh trong cơng thức (1-4) khi
và điều kiện (4) không tồn tại, mô hình đề xuất là mơ hình
phân cụm mờ trực cảm.
7


 Khi

, điều kiện (4) không tồn tại, các
điều kiện khác thỏa mãn, mơ hình đề xuất là mơ hình phân
cụm mờ.
 Công thức (3) chỉ ra độ thuộc của điểm
tới tâm cụm

(
) thỏa mãn các ràng buộc trong mô hình
phân cụm mờ truyền thống.
 Cơng thức (4) đảm bảo trên tập PFS vì ít nhất một trong hai
nhân tố không chắc chắn là độ trung lập và độ từ chối ln
tồn tại trong mơ hình.
 Một ràng buộc khác trong (2) phản ảnh định nghĩa của các
tập PFS.
Định lý 1. Các giải pháp tối ưu của hàm mục tiêu trong (1-4)
là:
(

.

)


(

(

,








)(

(

;

(

(6)

/,

(7)

.

),


(
.

)/
(

(

)



;


,

),

.





(5)

),


(



) / ,

)/

,

(8)

).

2.2.2. Chi tiết thuật toán
Thuật toán FC-PFS có cấu trúc lắp giống với thuật tốn FCM
với việc khởi tạo ngẫu nhiên tham số
, . Quá trình lặp bắt đầu
bằng việc tính , sau đó tính lại các giá trị mới của
, và dừng
khi các giá trị
, gần như không đổi.
8


2.3. Khảo sát tính chất hội tụ của thuật tốn
Trong phần này, một số mệnh đề dẫn đến sự hội tụ của FCPFS được trình bày với ý tưởng sử dụng định lý Zangwill để chứng
minh hàm mục tiêu của thuật toán sẽ hội tụ với các nghiệm là các giá
trị được tính theo cơng thức (1-4).
2.4. Thực nghiệm số

Mơi trường thử nghiệm thuật tốn được mơ tả như sau: thuật
toán đề xuất FC-PFS, thuật toán FCM [7], IFCM [10], KFCM [25] và
KIFCM [38] sử dụng ngơn ngữ lập trình. Kết quả thử nghiệm là kết
quả trung bình sau 50 lần chạy.
2.4.1. Ví dụ minh họa cho FC-PFS
Phần này sẽ minh họa chi tiết các bước thực hiện với ví dụ số
của thuật toán FC-PFS với tập dữ liệu IRIS.
2.4.2. So sánh chất lượng phân cụm
Qua kết quả nhận được, rõ ràng nhận thấy FC-PFS cho kết quả
phân cụm tốt hơn các thuật toán phân cụm khác trong nhiều trường hợp.
2.4.3. Đánh giá thuật toán qua các tham số
FC-PFS được thử nghiệm với hệ số mũ nhằm xác định sự
ảnh hưởng của hệ số này với hiệu năng của hệ thống. Kết quả cho
thấy khi giá trị hệ số mũ nhỏ, số lần thuật toán FC-PFS đạt giá trị
Mean Accuracy (MA) tốt nhất ít hơn so với một số thuật toán khác.
Tuy nhiên, khi tăng giá trị , FC-PFS cho kết quả phân cụm tốt hơn.
Giá trị
cho chất lượng cụm tốt nhất ở chỉ số MA, RI và DB.
2.5. Kết luận chƣơng
Trong chương này, thuật toán phân cụm mờ trên tập mờ viễn
cảnh được đề xuất. Bằng cách kết hợp các thành phần của PFS và mơ
hình phân cụm, FC-PFS cho kết quả phân cụm tốt hơn một số thuật
toán phân cụm khác như FCM, IFCM, KFCM và KIFCM. Kết quả
này là cơ sở để cho các nghiên cứu, cải tiến tiếp theo của thuật toán
trên các bài toán mở rộng như tự động xác định số cụm, xử lý dữ liệu
phức tạp và áp dụng cho một số ứng dụng dự báo trong tương lai.

9



CHƢƠNG 3. MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN
PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH
3.1. Thuật toán phân cụm mờ tự động xác định số cụm
3.1.1. Ý Tưởng thuật toán
Trong phần này, luận án đã đề xuất thiết kế một phương thức
lai giữa thuật tốn tối ưu hóa bầy đàn PSO và FC-PFS, được đặt tên
là AFC-PFS. Ở đó các giá trị ngưỡng, số cụm, tâm cụm tương ứng và
ma trận độ thuộc được đóng gói và tối ưu bởi chiến lược của thuật
toán PSO. Thuật toán mới AFC-PFS sử dụng lược đồ tối ưu PSO,
mỗi cá thể hay mỗi phương án trong PSO khởi tạo ngẫu nhiên giá trị
các tham số và sau đó lặp giảm số lượng cụm cho đến khi chỉ số chất
lượng cụm Picture Composite Cardinality (
) liên quan đến số
lượng các cụm trong phạm vi chấp nhận được theo một ngưỡng .
Số lượng các cụm đã đạt được bây giờ được coi là một giá trị tối ưu
trong sự kết hợp với các giá trị hiện tại của các tham số của
( ( ) , ( ) , ( ) và ). Để đánh giá độ tốt của mỗi phương án, giá trị
fitness của PSO được tính bằng giá trị Alternative Silhouette
(
).
3.1.2. Chi tiết thuật toán
Khởi tạo ban đầu số lượng phương án của PSO là
{
}, ở đó mỗi phương án gồm các thành phần sau:
( ( ) , ( ) , ( ) ): là ma trận độ thuộc, trung lập và từ chối của
phương án .
()

: Các tâm cụm tương ứng với ( , , ).


: một ngưỡng để xác định số lượng các cụm của phương án

: vận tốc dich chuyển ngưỡng của phương án

: số lượng các cụm của phương án
Một phương án bắt đầu từ một số cụm nhất định được biểu thị
bằng
, là căn bậc hai của số phần tử trong tập dữ liệu, và cố
gắng để thay đổi nó theo các giá trị hiện tại của ( ( ) , ( ) , ( ) ) và .


10


Để làm được điều này, giá trị
nhỏ thì chất lượng cụm càng tốt.

(

được đề xuất và giá trị này càng
), (

),

(13)

ở đó c là số cụm cho trước. Tiêu chí cho việc lựa chọn số lượng cụm
phụ thuộc vào ngưỡng của phương án. Khi tìm thấy số cụm tối ưu
cho phương án này, áp dụng FC-PFS để có được các giải pháp mới
( ( ) , ( ) , ( ) , ( ) ). Một trong những chỉ số đánh giá ổn định nhất

cho việc phân cụm,
được sử dụng để đo chất lượng cụm. Nếu
giải pháp đạt được các kết quả là tốt hơn so với những giải pháp
trước đó, các giải pháp ngày được ghi nhận là giải pháp tối ưu cục bộ
()

()

()

()

địa phương Pbest-(
,
,
,
) của phương án. Sau
đó, phương án được cập nhật bằng cách thay đổi ngưỡng như sau.
)
(14)
() (
()
(
),
(15)
,
(
),
ở đây


là các tham số PSO để cập nhật
(một cách tổng quát
). Định nghĩa một giá trị
mới, khi đó các giải pháp
() () ()
khác nhau (
, , , ) có thể nhận được kết quả tốt hơn so với
các giải pháp tối ưu cục bộ địa phương Pbest
()

,

()

()

()

(
,
,
,
). Sự cập nhật của tất cả các phương án
được tiếp tục lặp lại cho đến khi tất cả các bước lặp được thực hiện.
Các giải pháp cuối cùng cho kết quả số lượng các cụm là phù hợp
nhất, các tâm cụm và ma trận thuộc của nó được xác định từ tất cả
các phương án thông qua các giá trị tốt nhất của các giá trị cục bộ
từng phương án (
) và tổng thể tất cả các phương án (
).

Thuật tốn AFC-PFS có những lợi thế như sau:
- Tổng kết hợp chiến lược PSO và các hoạt động chính của
FC-PFS nâng cao hiệu năng của thuật toán..

11


AFC-PFS linh hoạt hơn trong việc áp dụng cho các phương
pháp phân cụm mờ khác bằng cách thay FC-PFS bằng các
thuật tốn phân cụm mờ khác.
Tuy nhiên, mơ hình đề xuất vẫn tồn tại một số hạn chế là thời
gian tính tốn là khá lớn. Ngồi ra, số cụm trong mỗi phương án
được giảm từ một số cụm nhất định và khơng thể tăng lại được. Nói
cách khác, trường hợp này hiếm khi xảy ra vì số lượng các cụm thực
tế thường nhỏ hơn rất nhiều số phần tử của tập dữ liệu.
3.1.3. Thực nghiệm số
Ở phần này, thuật toán đề xuất AFC-PFS được cài đặt bên
cạnh thuật toán GA của phương pháp cắt tỉa, phương pháp không
tham số (NPM) của phương pháp quét và thuật toán CCE của phương
pháp tiền xử lý. Để kiểm tra sự tác động của việc sử dụng ASWC
trong việc đo chất lượng phân cụm, AFC-PFS được cài đặt với hai
biến thể sử dụng các chỉ số đánh giá khác nhau là WGLI và PBM. Các
kết quả thực nghiệm cho thấy thuật toán đề xuất cho số lượng cụm gần
với số lượng cụm mặc định của bộ dữ liệu. Đồng thời, thời gian chạy
của AFC-PFS thậm chí cịn nhanh hơn một số thuật tốn khác.
3.2. Thuật toán phân cụm mờ với dữ liệu phức tạp
3.2.1. Độ đo cho thuộc tính kiểu loại
Giả sử

trên

(
) là khoảng cách của phẩn tử
-

thuộc tính

(

,

,

). Nếu thuộc tính

là dữ liệu số,
(
) được tính dựa theo cơng thức tính khoảng
cách Euclid. Nếu dữ liệu là kiểu loại thì khoảng cách được tính bằng
phương trình (16).
(

)

{

(16)

Dữ liệu đầu vào phải được chuẩn hoá trên đoạn [0, 1] với 0 là
khoảng cách tối thiểu giữa hai phần tử và 1 là khoảng cách lớn nhất
giữa 2 phần tử.


12


3.2.2. Thuật toán phân cụm với dữ liệu phức tạp (PFCA-CD)
Để phân vùng dữ liệu với kiểu kết hợp và cấu trúc khác biệt,
thuật toán FC-PFS được kết hợp với thuật toán PSO và được đặt tên
là PFCA-CD như sau: Giả sử, cho tập dữ liệu chứa dữ liệu kết hợp
số và kiểu loại có cấu trúc phức tạp và số các cụm . Thay vì sử dụng
thao tác lặp của FC-PFS, ta sử dụng bước lặp của PSO. Tập ban đầu
của PSO là
{
} mà ở đó mỗi phương án bao
gồm các thành phần sau:
 ( ,
,
): độ thuộc, độ trung lập và từ chối của các
phần tử.
 (
,
,
): độ thuộc, độ trung lập và từ chối


của các phần tử trong có chất lượng cụm tốt nhất theo thứ tự.
and
: tập các tâm cụm tương ứng với ( , , ) và
(

,


) theo thứ tự.

,



: giá trị chất lượng tốt nhất mà một phương án đạt được.
Một phương án bắt đầu từ một giá trị cho trước của
( , , ) và cố gắng thay đổi chúng để sao cho đạt được giá trị
tối ưu. Giá trị tối ưu được tính như sau:








.

(

)/ ‖

(

),




(17)

Q trình này có thể được coi là sự kết hợp tốt nhất giữa giá trị
fitness và trạng thái hiện hành của các phương án. Nếu các thuật toán
cho kết quả là tốt hơn so với những thuật toán liên quan khác, các
giải
pháp
tối
ưu
địa
phương
Pbest(
,
,
,
) của các phương án được ghi lại.
Sau đó, các phương án được cập nhật giá trị. Trong việc cập nhật,
( , ) được tính theo phương trình (6-7) và (18-19) như dưới đây.
(
)
(
), (18)
(

,

),
13



(

)

(

),

(19)

(
,
),
ở đó (
,
,

) là những giá trị tốt nhất tồn
cục. Tâm của cụm được chọn là những phần tử có độ thuộc tốt nhất
vào cụm j.
Việc cập nhật tất cả các phương án được tiếp tục đến khi đạt
được một số lần lặp nhất định hay giá trị tối ưu tồn cục khơng đổi.
Chi tiết thuật tốn như sau:
I:
O:
1:
2:
3:
4:

5:
6:

Tập dữ liệu có số phần tử ( ) trong khơng gian
cụm ( ); ngưỡng , số mờ và số bước lặp
Ma trận , , và các tâm cụm ;
t=0
( )

Chọn tâm
Tính tốn

8:

Tính tốn

10:
11:
12:
13:
14:
15:

;

( )

(
,
) thỏa mãn (2)

Repeat
t=t+1
For each phương án

7:
9:

( )

;

chiều; Số

( )

(

( )
( )

)
(

;

) bằng công thức (18)

(

;


) bằng công thức (19)

( )

Tính tốn
(
;
) bằng cơng thức (5)
Tính tốn giá trị fitness bằng công thức (17)
Cập nhật giá trị Pbest
Cập nhật giá trị Gbest
End
Until giá trị Gbest không đổi hoặc số lần lặp vượt quá
maxSteps
Output ( , , , ) = (
,
,
,
)

Phương pháp đề xuất có một số ưu điểm là sử dụng nhiều tâm
cụm cho mỗi cụm do đó mỗi cụm với các phần tử dữ liệu phân tán
14


trong cấu trúc khơng phải hình cầu và khác biệt có thể sẽ dễ dàng
biểu diễn qua các tâm cụm này. Hơn nữa, PFCA-CD với chiến lược
PSO có thể làm nhanh quá trình hội tụ, đồng thời sử dụng một phép
đo mới cho các giá trị thuộc tính phân loại phù hợp trong việc tính

tốn khoảng cách giữa hai đối tượng.
Tuy nhiên, phương pháp này vẫn có nhược điểm là PFCA-CD
có thể cho kết quả tốt, nhưng khơng chắc là tốt nhất và thời gian tính
tốn vẫn khá cao.
3.2.3. Thực nghiệm số
Thuật toán đề xuất PFCA-CD được cài đặt cùng các thuật toán
khác như DifFuzzy [13] và Dissimilarity [16]. Thực nghiệm cho thấy
thuật tốn PFCA-CD có chất lượng phân cụm tốt hơn với trên chỉ số
đánh giá so sánh với những thuật toán khác. Trong hầu hết trường
hợp, thuật toán được đề xuất có ít nhất một chỉ số đánh giá có giá trị
tốt nhất.
3.3. Kết luận chƣơng
Chương này trình bày hai cải tiến của FC-PFS là thuật toán tự
động xác định số cụm AFC-PFS và phân cụm mờ cho dữ liệu phức
tạp PFCA-CD. Các cải tiến này góp phần giải quyết các hạn chế của
FC-PFS và các thuật toán phân cụm mờ khác trong việc tự động xác
định số cụm và xử lý với dữ liệu phức tạp cả về kiểu loại lẫn cấu trúc.

15


CHƢƠNG 4. ỨNG DỤNG CỦA THUẬT TOÁN PHÂN CỤM
TRÊN TẬP MỜ VIỄN CẢNH
4.1. Phƣơng pháp PFC-STAR
Các chuỗi hình ảnh đầu vào của thuật toán PFC-STAR trước
tiên được xử lý bằng thuật toán PFC và biến đổi rời rạc Fourier
(DFT). FC-PFS được sử dụng để chia tất cả các điểm ảnh trong
những hình ảnh này thành các cụm và đánh dấu chúng bằng các màu
khác nhau. DFT-Filter được sử dụng để loại bỏ các vùng khơng dự
đốn được trong các hình ảnh và thay thế chúng thành miền Fourier.

Tiếp theo, kỹ thuật STAR được sử dụng để dự đoán kết quả hình ảnh
từ tất cả ảnh trong miền Fourier và trong các cụm điểm ảnh. Điều này
nhằm mục đích tìm ra trọng số cho mỗi cụm điểm ảnh trong mỗi ảnh
để xác định hình ảnh dự đốn. Cuối cùng, phương pháp lọc Adaptive
Median Filtering sử dụng để lọc nhiễu ảnh đầu ra. Để nâng cao độ
chính xác trong hình ảnh dự đoán, kỹ thuật STAR được sử dụng hai
lần để xác định và huấn luyện trọng số.
ảnh đầu tiên được sử
dụng như đầu vào của STAR để tính tốn trọng số.
PFC-STAR vẫn có một số hạn chế. Đầu tiên, việc sử dụng kỹ
thuật STAR có thể dẫn đến kết quả đầu ra tốt với dữ liệu này nhưng
không tốt cho tập dữ liệu khác. Thứ hai, PFC-STAR sử dụng biến đổi
DFT cho việc tiền xử lý dữ liệu và biến đổi ngược DFT để tạo đầu ra.
Thời gian thực thi các thủ tục này thường lớn.
4.2. Phƣơng pháp PFC-PFR
4.2.1. Số mờ viễn cảnh tam giác
Các luật mờ viễn cảnh được phát triển dựa trên luật mờ IFTHEN được đề xuất bởi Zadeh [70]. Số mờ hình tam giác (TPFN)
)
cho các luật mờ viễn cảnh được mô tả bởi năm số thực (
thỏa mãn (
) và hai hàm tam giác như trong
phương trình (20-21) và hình 4 như sau.

16


{

(20)


,

(21)

.

{
Tích hợp (20-21) với (5) và biểu thị
, các giá trị độ
trung lập và độ từ chối được tính trong phương trình (22-23).
(

(
(

) )
)

(

(

( ) là giá trị giải mờ của TPFN
trình (24).
( )

(22)

,
) ) .


(23)

và được tính trong phương
,



(24)

ở đó

,
, là trọng số giải mờ của TPFN.
4.2.2. Số mờ viễn cảnh hình thang
Ngồi số mờ tam viễn cảnh giác được trình bày ở trên, luận án
cũng trình bày số mờ viễn cảnh hình thang (TpPFN) cho luật mờ viễn
) với
cảnh. TpPFN được biểu diễn bởi sáu số thực (
(
) và hai hàm hình thang được thể hiện
trong các phương trình (25-26) như sau:

,
{

17

(25)



(26)

.

{
Đặt
kết hợp với phương trình (5), giá trị độ trung
lập và độ từ chối được tính như trong cơng thức (23-24).
DEF(A) là giá trị giải mờ của TpPFN A được tính như cơng
thức 27
( )

.



(27)

ở đó

,
, là trọng số giải mờ của TpPFN.
4.2.3. Chi ti t thuật toán
Thuật toán PFC-PFR gồm có bảy bước là: tiền xử lý, phân cụm
dữ liệu, sinh luật mờ, nội suy đầu ra, huấn luyện tham số giải mờ và
dự đoán ảnh đầu ra. Chi tiết các bước được mô tả như sau:
Bƣớc 1: mỗi phần tử trong ma trận sai khác được tính theo
cơng thức (28) dựa trên tỷ lệ khác nhau ( ),
của chuỗi

thời gian thứ của chuỗi đầu vào ( ) tại thời điểm , ở đó
()

()

(
(

)

.

)

(28)

( )+ của chuỗi thời gian
Các tỷ lệ khác * ( ) ( )
( )+,
vào * ( ) ( )
tại thời điểm được xác
*
+, ở đó được
định dựa trên (130). N mẫu huấn luyện
( ) ( )+,
biểu diễn bởi * ( ) ( )
được xây
dựng lại. Biểu diễn
{


( )

( )

( )

}

*

()

( )

()

()

( )+, ở đó

( ) là đầu vào (đầu ra) thứ của ,
.
Bƣớc 2: Thuật toán FC-PFS được sử dụng để phân vùng mẫu
+. Tâm của
huấn luyên vào một cụm tương ứng ( ) *

18


cụm


, độ thuộc

, độ trung lập

và độ từ chối

của

,

,
.
Bƣớc 3: Các luật mờ viễn cảnh sử dụng TPFN (TpPFN) được
+, ở đó, luật tương ứng ,
tạo ra dựa trên các cụm*
được trình bày như sau.
Luật j: nếu

và ... và
thì
Ở đó luật là luật mờ tương ứng với cụm
thứ ,
là tập mờ tiền đề thứ
tập mờ hệ quả thứ của luật ,
) của TPFN
thực (
với

(


của luật ,
,
hay (

là biến tiền đề

,

là biến hệ quả,

, và một bộ số
) của TpPFN

, bên cạnh độ thuộc, thì độ trung lập và độ từ

)

chối cũng đóng một vai trị quan trọng trong việc xác định các điểm
ranh giới phù hợp đại diện cho các luật. Do đó, FC-PFS cho ta thêm
thơng tin và định hướng PFR để chọn các điểm thích hợp hơn nhằm
tạo ra các luật tốt hơn so với các thuật toán phân cụm khác như FCM.
Ở bước này, có hai tùy chọn với số mờ viễn cảnh tam giác và số mờ
viễn cảnh hình thang như sau:
a. Sử dụng số mờ viễn cảnh tam giác:
) của TPFN
Các giá trị (

được tính như
sau:

( )
( )
( )

,

,
(

, với

( )



( )

( )

, với
(31)
( )



19

),
),




,

(30)

,

(


(29)

,

( )

,

(32)





ở đó

( )

( )




( )



( )

.

( )

(33)

( )

là đầu vào thứ của mẫu huấn luyện
,
,
.
là đầu ra mong muốn của và
. Dựa trên
các phương trình (29-33), TPFN của các luật mờ được xây dựng.
b. Sử dụng số mờ viễn cảnh hình thang:
Các số thực (

) của TpPFN

trong cơng thức (34-39) với


(
( )
( )

.
.
(

( )

( )
( )

),

( )
( )



được tính

.

)

,

,


(34)

,

,

(35)

/,

(36)

/

( )

.

/,

.

là tâm của cụm

( )

( )
( )


/, với

với thành phần thứ

(37)

.


( )

( )




,

( )

(38)

( )



( )




( )




,
( )

,

( )

(39)

( )



( )

20

.


( )

ở đó

là đầu vào thứ


của mẫu huấn luyện

,

,

. là đầu ra mong muốn của và
. Dựa theo
các công thức (33–39), TpPFN của các luật mờ viễn cảnh được tạo ra.
Bƣớc 4: Nếu một số luật mờ viễn cảnh được kích hoạt bởi các
đầu vào thứ của mẫu

( )

.

có nghĩa là

/

, thì

tính đầu ra
theo cơng thức (40) và di chuyển đến bước 6. Nếu
khơng thì đi đến bước 5.


.


( )



.

( )

/
.

(
( )

)

(40)

,

/

/ biểu thị là giá trị độ thuộc của đầu vào

tam giác viễn cảnh
,

toán dựa trên hàm mờ viễn cảnh tam giác với

( )


thuộc tập mờ

. Nó được tính
biểu diễn số lượng

( ) là giá trị giải mờ

các luật mờ viễn cảnh được kích hoạt và

của tập mờ viễn cảnh kết quả
của luật mờ viễn cảnh ,
,
.
Bƣớc 5: Nếu không tồn tại bất kỳ luật mờ viễn cảnh đang hoạt
động nào, tính trọng số của
của luật với các quan sát đầu vào
,

theo phương trình (41) và tính tốn đầu ra

,...,

theo phương trình (42).
vector
{

của
(


)

các

giá
(

Euclide giữa các vectơ
,

là vector đầu vào{

trị

giải

)

mờ

(

của

)}. ‖

( )

tập


( )

luật

( )

}, là

mờ

-

‖ là khoảng cách

và . Ràng buộc của các trọng số là:

và ∑

( ) là giá trị giải mờ của

.

.
(41)



(








)

( ),

21

(42)


Bƣớc 6: Để có được dự đốn hình ảnh tốt, thuật toán PSO
được sử dụng để xác định các tham số thích hợp cho hàm giải mờ.
Theo cơng thức (24) cho TPFN hoặc (27) cho TpPFN, thuật toán sẽ
huấn luyện các tham số trong cơng thức này. Q trình huấn luyện
) và (
)
tham số giải mờ sử dụng hai ma trận sai khác (
với vai trò kiểm tra mẫu thử và mẫu đầu vào ( ). Thuật toán PSO
được sử dụng để tối ưu hóa các tham số này.
( )tại thời gian
Bƣớc 7: Cuối cùng, giá trị dự báo
) là giá trị
được tính tốn dựa trên tỷ lệ biến đổi , trong đó (
thực tế tại thời điểm
trong phương trình (146).
()


(

)

(

).

(43)

Phương pháp PFC-PFR có một số lợi thế như sử dụng FC-PFS
để phân vùng các pixel khác nhau trong hình ảnh giúp quy trình làm
việc chính xác hơn, sử dụng các luật mờ viễn cảnh nội suy có thể
giúp các thuật tốn tăng độ chính xác. Việc sử dụng huấn luyện tham
số giải mờ với thuật toán PSO đã cải thiện độ chính xác dự đốn của
các hình ảnh đầu ra. Phương pháp cho kết quả dự đốn hình ảnh
chính xác hơn so STAR tuy nhiên thời gian tính tốn vấn khá cao.
4.3. Kết quả thực nghiệm
Các thuật toán đã được cài đặt trong thực nghiệm sau:
 Các phương pháp PFC- STAR, PFC-PFR áp dụng luật mờ
viễn cảnh tam giác và PFC-PFR áp dụng luật mờ viễn cảnh
hình thang.
 PFC-STAR* và PFC-PFR*: các phương pháp PFC-STAR và
PFC-PFR mà không cần huấn luyện.
 FCM-STAR là phương pháp Shukla, kishtawal & Pal (2014).
 FCM-FR: kết hợp fuzzy C-Means (FCM) và luật mờ thường
(FR).
 Phương pháp suy diễn mờ (FIR).
 ANN sử dụng mạng nơ ron nhân tạo.


22


Hai phương pháp đề xuất (PFC-PFR và PFC- STAR) có những
lợi thế đáng kể so với những thuật toán khác. Các phương pháp đề
xuất không cho kết quả tốt nhất ở ảnh dự đoán đầu tiên nhưng lại
hiệu quả cho các ảnh dự đoán tiếp theo.
4.4. Kết luận chƣơng
Trong chương này, hai phương pháp dự báo lai mới dựa trên
ảnh mây vệ tinh cho bài toán dự báo thời tiết ngắn hạn được đề xuất
là PFC-STAR và PFC-PFR. Phương pháp PFC-PFR là phương pháp
mới tích hợp FC-PFS và quy tắc sinh luật mờ với hai biến thể là luật
mờ viễn cảnh tam giác và hình thang. Cả hai thuật tốn đề xuất sử
dụng thuật toán huấn luyện để nâng cao độ chính xác dự báo. Đánh
giá thử nghiệm trên các chuỗi hình ảnh vệ tinh cho thấy các phương
pháp đề xuất cho chất lượng tốt hơn so với những người có liên quan.

KẾT LUẬN
Luận án đã đạt được một số kết quả đóng góp như sau:
- Đề xuất một thuật toán phân cụm mờ mới trên tập mờ viễn
cảnh là FC-PFS. Đồng thời, khảo sát tính chất hội tụ và
thực nghiệm kiểm chứng trên bộ dữ liệu chuẩn UCI cho
thấy tính hiệu quả của thuật tốn. Đề xuất về thuật tốn
mới này đã được cơng bố [CT1-CT2].
- Cải tiến thuật toán FC-PFS cho bài toán phân cụm mờ tự
động xác định số cụm và bài toán xử lý dữ liệu phức tạp.
Đây là một thuật toán mới lai ghép giữa FC-PFS và thuật
toán tối ưu bầy đàn PSO. Thực nghiệm kiểm chứng cho
thây thuật toán cho kết quả tốt hơn các thuật toán khác liên

quan. Kết quả nghiên cứu này được công bố trong [CT3CT4].
- Ứng dụng FC-PFS vào bài toán dự báo thời tiết ngắn hạn
dựa trên ảnh mây vệ tinh. Luận án đã đưa ra hai phương
pháp kết hợp FC-PFS với STAR và kết hợp với luật mờ
23


×