Tải bản đầy đủ (.pdf) (153 trang)

Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.39 MB, 153 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM ĐÌNH PHONG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ
HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ
VÀ ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Đình Phong

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ
HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ
VÀ ĐẠI SỐ GIA TỬ

Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS. TS. Nguyễn Thanh Thủy
2. PGS. TSKH. Nguyễn Cát Hồ



Hà Nội – 2017


LỜI CAM ĐOAN
Tôi xin cam đoan rằng, ngoại trừ các nội dung được trích từ tài liệu tham khảo
hoặc các công trình khác như đã được ghi rõ trong luận án, các kết quả được trình
bày trong luận án này là công trình nghiên cứu của tôi và được hoàn thành dưới sự
hướng dẫn của GS. TS. Nguyễn Thanh Thủy và PGS. TSKH. Nguyễn Cát Hồ.
Các kết quả nghiên cứu là trung thực, chưa từng được công bố trước đó. Các kết
quả được viết chung với các tác giả khác đã được sự đồng ý của các đồng tác giả
trước khi đưa vào luận án.
Tác giả luận án
Phạm Đình Phong

ii


LỜI CẢM ƠN
Với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn các thầy GS. TS. Nguyễn
Thanh Thủy và PGS. TSKH. Nguyễn Cát Hồ đã trực tiếp chỉ bảo và tận tình hướng
dẫn tôi hoàn thành luận án này. Tôi chân thành cảm ơn thầy TS. Trần Thái Sơn đã
có nhiều hỗ trợ trong quá trình nghiên cứu và có những nhận xét, đánh giá trong quá
trình hoàn thiện luận án.
Tôi xin được bày tỏ lòng biết ơn đối với các thầy giáo, cô giáo Bộ môn Khoa
học máy tính, Khoa Công nghệ thông tin, Phòng đào tạo, Ban giám hiệu Trường
Đại học Công nghệ đã tận tình chỉ bảo, giảng dạy và tạo điều kiện thuận lợi trong
suốt thời gian học tập, nghiên cứu và hoàn thành luận án.
Tôi xin được cảm ơn tất cả những người thân, bạn bè và các đồng nghiệp đã tạo
điều kiện, động viên và hỗ trợ tôi về mọi mặt.

Cuối cùng, tôi xin được được bày tỏ tình cảm và lòng biết ơn vô hạn tới bố mẹ
và những người thân trong gia đình, đặc biệt là vợ tôi – Phan Thị Quế Anh, người
đã luôn động viên, khích lệ, chia sẻ và gánh vác công việc để tôi có thời gian học
tập, nghiên cứu và hoàn thành luận án.

iii


MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... iii
MỤC LỤC ................................................................................................................. iv
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................. vii
DANH MỤC CÁC BẢNG........................................................................................ ix
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ .............................................................. xiii
MỞ ĐẦU .....................................................................................................................1
CHƯƠNG 1 TỔNG QUAN VỀ HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ ............9
1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN .................................................................. 9
1.1.1. Tập mờ...................................................................................................9
1.1.2. Biến ngôn ngữ .......................................................................................9
1.1.3. Phân hoạch mờ ....................................................................................10
1.1.4. Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ ........................................11
1.1.5. Bài toán phân lớp dữ liệu ....................................................................12
1.2. HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ ................................................. 12
1.2.1. Cấu trúc của hệ dựa trên luật ngôn ngữ mờ ........................................13
1.2.2. Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ ...................14
1.2.3. Những vấn đề tồn tại ...........................................................................19
1.3. ĐẠI SỐ GIA TỬ .......................................................................................... 19
1.3.1. Đại số gia tử của biến ngôn ngữ ..........................................................20
1.3.2. Lượng hóa đại số gia tử .......................................................................22

1.3.3. Ý nghĩa ứng dụng của đại số gia tử .....................................................25
1.3.4. Những vấn đề còn tồn tại ....................................................................28
1.4. KẾT LUẬN CHƯƠNG 1 ............................................................................ 29
CHƯƠNG 2 LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG CỦA KHUNG
NHẬN THỨC NGÔN NGỮ VÀ ỨNG DỤNG GIẢI BÀI TOÁN PHÂN LỚP .....30
2.1. MỞ RỘNG ĐẠI SỐ GIA TỬ CHO VIỆC MÔ HÌNH HÓA LÕI NGỮ
NGHĨA CỦA CÁC TỪ NGÔN NGỮ................................................................ 30
iv


2.2. MỞ RỘNG KHÁI NIỆM ĐỘ ĐO TÍNH MỜ ............................................. 37
2.3. HỆ KHOẢNG TÍNH MỜ LIÊN KẾT VỚI ĐỘ ĐO TÍNH MỜ CỦA CÁC
TỪ NGÔN NGỮ ................................................................................................ 40
2.4. ÁNH XẠ ĐỊNH LƯỢNG NGỮ NGHĨA KHOẢNG .................................. 44
2.5. MỞ RỘNG ĐỘ ĐO TÍNH MỜ CỦA CÁC PHẦN TỬ 0 VÀ 1 ................. 46
2.6. ỨNG DỤNG LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG
TRONG THIẾT KẾ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ.. 49
2.6.1. Thiết kế ngữ nghĩa tính toán dựa trên tập mờ của các từ ngôn ngữ ....50
2.6.2. Sinh tập luật khởi đầu từ dữ liệu dựa trên ngữ nghĩa ĐSGT mở rộng 56
2.6.3. Tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu ...................59
2.6.4. Đánh giá kết quả ứng dụng lõi ngữ nghĩa và ngữ nghĩa hình thang
trong thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ ...................................61
2.6.4.1. Dữ liệu và phương pháp thực nghiệm ......................................61
2.6.4.2. So sánh đánh giá hai cấu trúc phân hoạch mờ đơn và đa thể hạt .
..................................................................................................63
2.6.4.3. So sánh đánh giá hai phương pháp lập luận single winner rule
và weigted vote ........................................................................................69
2.6.4.4. So sánh đánh giá các phương pháp thiết kế hệ phân lớp theo
tiếp cận đại số gia tử ................................................................................71
2.6.4.5. So sánh đánh giá với một số phương pháp theo tiếp cận lý

thuyết tập mờ ...........................................................................................73
2.6.4.6. So sánh đánh giá với một số tiếp cận khác...............................77
2.6.5. Biểu diễn ngữ nghĩa tính toán dựa trên tập mờ hình thang đảm bảo
tính giải nghĩa được của khung nhận thức ngôn ngữ .....................................79
2.7. KẾT LUẬN CHƯƠNG 2 ............................................................................ 84
CHƯƠNG 3 THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN
NGỮ MỜ SỬ DỤNG KỸ THUẬT TÍNH TOÁN MỀM .........................................85
3.1. THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ
MỜ SỬ DỤNG CÁC THUẬT TOÁN TỐI ƯU ................................................ 85
3.1.1. Đánh giá tính hiệu quả của thuật toán MOPSO so với thuật toán GSA .
.............................................................................................................88

v


3.1.1.1. Thuật toán tối ưu bầy đàn đa mục tiêu .....................................88
3.1.1.2. Ứng dụng thuật toán MOPSO tối ưu các tham số ngữ nghĩa và
tìm kiếm hệ luật tối ưu .............................................................................92
3.1.1.3. Thực nghiệm so sánh thuật toán MOPSO so với thuật toán
GSA
..................................................................................................94
3.1.2. Đánh giá tính hiệu quả của thuật toán MOPSO-SA so với thuật toán
MOPSO ..........................................................................................................96
3.1.2.1. Thuật toán tối ưu đa mục tiêu lai MOPSO-SA ........................96
3.1.2.2. Ứng dụng thuật toán MOPSO-SA tối ưu các tham số ngữ nghĩa
và tìm kiếm hệ luật tối ưu ........................................................................99
3.1.2.3. Thực nghiệm so sánh thuật toán MOPSO-SA so với thuật toán
MOPSO ................................................................................................101
3.2. NÂNG CAO HIỆU QUẢ SINH LUẬT MỜ VỚI NGỮ NGHĨA DỰA
TRÊN ĐẠI SỐ GIA TỬ SỬ DỤNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG103

3.2.1. Một số khái niệm cơ bản về lý thuyết thông tin ................................104
3.2.2. Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động .........................105
3.2.3. Ứng dụng thuật DWFS trong thiết kế FLRBC trên cơ sở ĐSGT .....107
3.2.4. Kết quả thực nghiệm và thảo luận .....................................................109
3.3. KẾT LUẬN CHƯƠNG 3 .......................................................................... 113
KẾT LUẬN CỦA LUẬN ÁN.................................................................................115
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN ...............................................................................................................117
TÀI LIỆU THAM KHẢO .......................................................................................119
PHỤ LỤC ................................................................................................................... A

vi


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Các ký hiệu
AX

Đại số gia tử tuyến tính

AXmp

Đại số gia tử mở rộng

AXmrtp

Đại số gia tử mở rộng toàn phần

μ(h)


Độ đo tính mờ của gia tử h

fm(x)

Độ đo tính mờ của từ ngôn ngữ x

f(x)

Hàm định lượng khoảng của từ ngôn ngữ x

μA(x)

Hàm xác định độ thuộc của giá trị x vào tập mờ A

|x|

Độ dài của từ ngôn ngữ x

Xk

Tập các các từ có độ dài đúng bằng k

X(k)

Tập các các từ có độ dài nhỏ hơn hoặc bằng k

X

Biến ngôn ngữ


H

Tập các gia tử

|H|

Số lượng gia tử trong H.

Hmr

Tập các gia tử mở rộng (bổ sung thêm gia tử h0)

H+

Tập các gia tử dương

H-

Tập các gia tử âm

H(x)

Tập các từ được cảm sinh từ x bởi tác động của các gia tử

k(x)

Khoảng tính mờ mức k của x

RMSR


Root mean squared residual

Các từ viết tắt
ĐSGT

Đại số gia tử

DB

Database (Cơ sở dữ liệu)

FLRBC

Fuzzy linguistic rule-based classifier (Hệ phân lớp dựa trên luật
ngôn ngữ mờ)
vii


FLRBS

fuzzy linguistic rule-based system (Hệ dựa trên luật ngôn ngữ
mờ)

FURIA

Fuzzy unordered rules induction algorithm (Giải thuật cảm
sinh các luật mờ không có thứ tự)

GSA


Genetic simulated annealing (Tôi luyện mô phỏng di truyền)

KB

Knowledge base (Cơ sở tri thức)

LFoC

Linguistic frames of cognition (Khung nhận thức ngôn ngữ)

MOO

Multi-objective optimization (Tối ưu đa mục tiêu)

MOPSO

Multi-objective particle swarm optimization (Giải thuật tối ưu
bầy đàn đa mục tiêu)

PAES

Pareto archived evolution strategy (Chiến lược tiến hóa lưu trữ
Pareto)

PI

Power set of intervals (Tập các khoảng con có thể)

PSO


Particle swarm optimization (Tối ưu bầy đàn)

RCS

Rule and condition selection (Lựa chọn luật và điều kiện luật)

RIPPER

Repeated incremental pruning to produce error reduction
(Giảm lỗi bằng lặp lại cắt tỉa gia tăng)

SVM

Support vector machine (Máy véc-tơ hỗ trợ)

SWR

Single winner rule (Luật thắng đơn)

WV

Weighted vote (Bầu cử có trọng số)

viii


DANH MỤC CÁC BẢNG TRONG NỘI DUNG CHÍNH
Bảng 2.3. So sánh độ chính xác giữa các hệ phân lớp sử dụng cấu trúc đa thể hạt và
đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 …………... 68
Bảng 2.4. So sánh độ phức tạp của các hệ phân lớp sử dụng cấu trúc đa thể hạt và

đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 …………... 68
Bảng 2.6. So sánh độ chính xác của các hệ phân lớp được thiết kế trên cơ sở ĐSGT
AXmr và AXmrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương pháp
kiểm định Wilcoxon Signed Rank với α = 0,05 …………………………...…….. 70
Bảng 2.7. So sánh độ phức tạp của các hệ phân lớp được thiết kế trên cơ sở ĐSGT
AXmr và AXmrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương pháp
kiểm định Wilcoxon Signed Rank với α = 0,05 …………………………………. 70
Bảng 2.9. So sánh độ chính xác của FRBC_AXmrtp, FRBC_AXmr và FRBC_AX sử
dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……………... 72
Bảng 2.10. So sánh độ phức tạp của FRBC_AXmrtp, FRBC_AXmr và FRBC_AX sử
dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……………... 72
Bảng 2.11. So sánh độ chính xác của FRBC_AXmrtp và FRBC_AXmr so với All
Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank
với α = 0,05 ……...………………………………………………………………. 74
Bảng 2.12. So sánh độ phức tạp của FRBC_AXmrtp và FRBC_AXmr so với All
Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank
với α = 0,05 ………………………………………………………………………. 75
Bảng 2.14. So sánh độ chính xác của FRBC_AXmrtp và FRBC_AXmr so với hệ phân
lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ……..... 77
Bảng 2.15. So sánh độ phức tạp của FRBC_AXmrtp và FRBC_AXmr so với hệ phân
lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 .……… 77
Bảng 2.16. So sánh độ chính xác của FRBC_AXmrtp và FRBC_AXmr so với FURIA
và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 …………………. 79
Bảng 2.17. So sánh độ phức tạp của FRBC_AXmrtp và FRBC_AXmr so với FURIA
và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 ………………..... 79
Bảng 2.18. So sánh các kết quả thực nghiệm giữa hai hệ phân lớp FRBC_AXmrtp_k0
và FRBC_AXmrtp…………………………………………………………………... 82

ix



Bảng 2.19. So sánh độ chính xác giữa hai hệ phân lớp FRBC_AXmrtp_k0 và
FRBC_AXmrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ………………. 83
Bảng 2.20. So sánh độ phức tạp của hai hệ phân lớp FRBC_AXmrtp_k0 và
FRBC_AXmrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ………………. 83
Bảng 3.1. Các kết quả thực nghiệm của hệ phân lớp dựa trên ĐSGT truyền thống AX
sử dụng thuật toán MOPSO so với sử dụng GSA đối với 17 tập dữ liệu mẫu ...…. 95
Bảng 3.2. So sánh độ chính xác của hệ phân lớp dựa trên ĐSGT truyền thống AX sử
dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon
Signed Rank với mức α = 0,05 …………………………………………………… 96
Bảng 3.3. So sánh độ phức tạp của hệ phân lớp dựa trên ĐSGT truyền thống AX sử
dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon
Signed Rank với mức α = 0,05……………………………………………………. 96
Bảng 3.5. So sánh độ chính xác giữa MOPSO-SAAX và MOPSOAX, giữa MOPSOSAAXmrtp và MOPSOAXmrtp sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05
…………………………………………………………..………….…………..... 102
Bảng 3.6. So sánh độ phức tạp của hệ phân lớp giữa MOPSO-SAAX và MOPSOAX,
giữa MOPSO-SAAXmrtp và MOPSOAXmrtp sử dụng kiểm định Wilcoxon Signed
Rank với α = 0,05 …………………………………………..………...…………. 102
Bảng 3.7. Các tập dữ liệu có số chiều lớn được sử dụng trong thực nghiệm …... 110
Bảng 3.8. Số thuộc tính được lựa chọn sau tiến trình lựa chọn đặc trưng …..….. 110
Bảng 3.9. So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX có áp dụng
và không áp dụng kỹ thuật lựa chọn đặc trưng …………………………………. 111
Bảng 3.10. So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AXmrtp có áp
dụng và không áp dụng kỹ thuật lựa chọn đặc trưng …………………………… 111
Bảng 3.11. So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AX đối với tập dữ
liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng Sn và S2n ... 112
Bảng 3.12. So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AXmrtp đối với tập
dữ liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng Sn và S2n112
Bảng 3.13. So sánh độ phức tạp của các hệ phân lớp dựa trên ĐSGT AX và AXmrtp
giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng kiểm định

Wilcoxon Signed Rank với mức α = 0,05 ……………………………………… 113

x


Bảng 3.14. So sánh độ chính xác của các hệ phân lớp dựa trên ĐSGT AX và AXmrtp
giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng kiểm định
Wilcoxon Signed Rank với mức α = 0,05 …………………….…………........... 113

xi


DANH MỤC CÁC BẢNG TRONG PHỤ LỤC
Bảng 2.1. Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm …………….. C
Bảng 2.2. Các kết quả thực nghiệm và so sánh giữa hai cấu trúc đa thể hạt và đơn
thể hạt được thiết kế trên cơ sở ĐSGT ..………...................................................... F
Bảng 2.5. Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp được thiết kế
trên cơ sở ĐSGT AXmr và AXmrtp sử dụng phương pháp lập luận SWR và WV ....... G
Bảng 2.8. Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AXmrtp,
FRBC_AXmr, FRBC_AX, All Granularities và Product-1-ALL TUN …………. H
Bảng 2.13. Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AXmrtp,
FRBC_AXmr, PAES-RCS, FURIA và C4.5 ………………………………………. I
Bảng 3.4. Các kết quả thực nghiệm và so sánh giữa hai hệ phân lớp MOPSO-SAAX
và MOPSOAX, giữa MOPSO-SAAXmrtp và MOPSOAXmrtp ……………………….. J

xii


DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ
Hình 1.1. Biến ngôn ngữ, các giá trị ngôn ngữ và các tập mờ tương ứng ……….. 10

Hình 1.2. Hai phân hoạch mờ đơn thể hạt và đa thể hạt …………………………. 11
Hình 1.3. Cấu trúc cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani ……. 13
Hình 1.4. Phân hoạch lưới trên miền của hai thuộc tính …………......................... 16
Hình 1.5. Phân hoạch rời rạc trên miền của hai thuộc tính ………......................... 16
Hình 1.6. Các tập mờ được thiết kế cho thuộc tính thứ 3 của tập dữ liệu mẫu
Mammographic …………………………………………………………………... 27
Hình 2.1. Mối quan hệ giữa từ “nhanh” và “rất nhanh” của biến ngôn ngữ TOCDO
và các giá trị của tập nền U được biểu diễn dưới dạng các tập mờ …...………….. 31
Hình 2.2. Hệ khoảng độ đo tính mờ của các từ ngôn ngữ của Xmr(3) được sinh từ c+,
trong đó Hmr = {h0, L, V}, (W) = (h0W) và (1) = 0 ………………………….. 42
Hình 2.3. Hệ khoảng tính mờ của các từ ngôn ngữ của AXmr với kj = 2 ………….. 51
Hình 2.4. Ngữ nghĩa dựa trên tập mờ hình thang của các từ ngôn ngữ ………….. 53
Hình 2.5. Các tập mờ hình thang của các hạng từ mức kj = 2 được thiết kế theo cấu
trúc đơn thể hạt được sinh bởi ĐSGT AXmr ...………………………….…………. 54
Hình 2.6. Các tập mờ hình thang của các hạng từ mức kj = 2 được thiết kế theo cấu
trúc đơn thể hạt được sinh bởi ĐSGT AXmrtp ...…………………………………… 54
Hình 2.7. Các tập mờ được thiết kế theo cấu trúc đa thể hạt được sinh bởi ĐSGT
AXmr …………………………………………………………………………. ….. 55
Hình 2.8. Cấu trúc phân hoạch mờ đơn thể hạt được thiết kế cho thuộc tính thứ 3
của tập dữ liệu Haberman ………………………………………………………... 64
Hình 2.9. Cấu trúc phân hoạch mờ đa thể hạt được thiết kế cho thuộc tính thứ 2 của
tập dữ liệu Haberman ……………………………………………………………. 66
Hình 2.10. Biểu đồ so sánh độ chính xác giữa các hệ phân lớp FRBC_AXmrtp,
FRBC_AXmr và FRBC_AX ………………………………………………………. 71
Hình 2.11. Biểu đồ so sánh độ chính xác giữa các hệ phân lớp FRBC_AXmrtp,
FRBC_AXmr, All Granularities, Product/1-ALL TUN và PAES-RCS ………. 76

xiii



Hình 2.12. Biểu đồ so sánh độ chính xác giữa các hệ phân lớp FRBC_AXmrtp,
FRBC_AXmr, FURIA và C4.5 …………………………………………………… 78
Hình 2.13. Thiết kế đa thể hạt với mức k = 1 được tách thành hai mức 0 và 1 ….. 81
Hình 3.1. Mối liên hệ giữa độ phức tạp và tỷ lệ phân lớp sai .…………………… 86
Hình 3.2. Sơ đồ mô phỏng thuật toán MOPSO trong [77] …………………......... 90
Hình 3.3. Sơ đồ kỹ thuật phân cụm mờ c-means với hàm PBMF ……………... 108

xiv


MỞ ĐẦU
Phân lớp là một công việc ra quyết định phổ biến nhất của con người. Bài toán
phân lớp các đối tượng nhằm gán các đối tượng vào các lớp được xác định trước
dựa trên một số thuộc tính quan sát được của các đối tượng đó. Bài toán này đòi hỏi
tiêu chuẩn quyết định một đối tượng cần phân lớp thuộc vào lớp đang xét hay
không. Bài toán phân lớp thường gặp trong các lĩnh vực khác nhau của đời sống
kinh tế xã hội, như y tế [73, 111, 115], kinh tế [17, 125], nhận dạng lỗi [49], xử lý
ảnh [95, 118], năng lượng hạt nhân [101], xử lý dữ liệu văn bản, lọc dữ liệu Web,
loại bỏ thư rác [126], … Trong kỷ nguyên thông tin số hiện nay, các kho dữ liệu
khổng lồ ẩn chứa rất nhiều thông tin hữu ích mà con người cần khai phá và trích rút
thông tin, phục vụ cho quá trình ra quyết định. Phân lớp là quá trình phân tích dữ
liệu nhằm trích rút các mô hình biểu diễn các lớp dữ liệu, giúp chúng ta hiểu được
các kho dữ liệu và dự đoán các dữ liệu phát sinh trong tương lai. Để nâng cao độ
chính xác của hệ phân lớp, nhiều phương pháp đã được nghiên cứu và phát triển, từ
đó nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp thống kê
(statistical techniques) [45, 80, 118], mạng nơ-ron (neural networks) [42, 72, 85, 96,
97, 114, 120], phân lớp dựa trên luật mờ [14, 16, 26, 29, 34-41, 61-71, 74, 86, 88,
91, 92].
Các hệ phân lớp thống kê bao gồm giản đồ bầu cử có trọng số [71], Naïve
Bayes [80, 118], phân lớp theo láng giềng gần nhất [45], cây quyết định (ID3, C4.5)

[102], máy véc-tơ hỗ trợ (support vector machine - SVM) [20]. Hầu hết các kỹ thuật
phân lớp thống kê truyền thống đều dựa trên lý thuyết quyết định Bayesian, trong
đó một mô hình xác suất được giả định, nhằm tính toán xác suất hậu nghiệm
(posterior probability). Quyết định phân lớp được thực hiện dựa vào xác suất này.
Các tiếp cận này chỉ cho kết quả tốt khi mô hình xác suất được chọn phù hợp với dữ
liệu và do đó, cần đến các chuyên gia hiểu về dữ liệu. Mạng nơ-ron được xem là
một công cụ quan trọng để giải bài toán phân lớp với độ chính xác cao. Tuy có
nhiều hệ phân lớp mạng nơ-ron cho độ chính xác phân lớp tốt [42, 72, 85, 96, 97,
114, 118, 120], nhưng vẫn tồn tại những khó khăn khi sử dụng hệ phân lớp mạng
nơ-ron. Chẳng hạn, một lượng lớn các tham số trong hệ phân lớp mạng nơ-ron cần
phải ước lượng. Mặt khác, mạng nơ-ron là một hộp đen nên không dễ hiểu đối với
người sử dụng [122].
Các hệ dựa trên luật mờ (fuzzy rule-based systems - FRBS) được sử dụng rộng
rãi trong các lĩnh vực khác nhau trong đời sống xã hội như điều khiển tối ưu và tự

1


động hóa [19, 77, 89, 90, 117], khai phá tri thức từ dữ liệu [14, 16, 26, 29, 34-41,
61-71, 74, 86, 88, 91, 92, 110] do hệ này mô hình hóa được các hệ thống phức tạp,
có thể được ứng dụng để giải quyết những bài toán, trong đó tri thức được biểu diễn
trong môi trường có tính không chắc chắn và không chính xác. Mô hình dễ hiểu đối
với người dùng. Mô hình dựa trên luật mờ cho phép mô tả các hiện tượng trong thế
giới thực gần giống với cách tư duy của con người. Ta biết rằng, con người nhận
thức thế giới thông qua ngôn ngữ tự nhiên. Do đó, với mong muốn các hệ thống
thông minh phục vụ, hỗ trợ con người trong cuộc sống hàng ngày có những hành xử
như con người và có thể thay thế con người trong quá trình ra quyết định, chúng
phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ. Để đáp ứng
các yêu cầu trên, cần có một phương pháp hình thức để mô hình hóa và xử lý thông
tin ngôn ngữ. Đây là một thách thức đối với cộng đồng nghiên cứu, do ngữ nghĩa

của ngôn ngữ mang tính mờ.
Nhằm biến các từ ngôn ngữ thành các đối tượng có thể tính toán được, năm
1965 Zadeh đã đề xuất gán cho ngữ nghĩa của mỗi từ ngôn ngữ (linguistic term)
một cấu trúc hàm chỉ mức độ thuộc của một phần tử vào một tập các phần tử được
gọi là tập mờ [123]. Khi đó, các thao tác trên cấu trúc hàm được xem là các thao tác
trên ngữ nghĩa của các từ ngôn ngữ. Năm 1975, Zadeh đưa ra khái niệm biến ngôn
ngữ với miền giá trị của biến là các từ trong ngôn ngữ tự nhiên và ngữ nghĩa của
mỗi từ ngôn ngữ được biểu diễn bởi một tập mờ, gọi là ngữ nghĩa tính toán dựa trên
tập mờ [124]. Vì vậy, miền giá trị của biến ngôn ngữ trở nên tính toán được.
Một FRBS cơ bản bao gồm cơ sở tri thức (knowledge base - KB) và hệ suy luận
(inference system). Cơ sở tri thức bao gồm cơ sở dữ liệu (database – DB) và cơ sở
luật (rule base – RB). Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng
trong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn
ngữ. Cơ sở luật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng
các luật mờ if-then với các từ ngôn ngữ (như “chậm”, “nhanh”, “thấp”, “cao”,
“xấu”, “tốt”, ...) được sử dụng thường xuyên trong cuộc sống hàng ngày của chúng
ta. Do đó, việc sử dụng các luật mờ là cách tự nhiên biểu diễn tri thức dạng ngôn
ngữ. FRBS được thiết kế dựa vào tri thức chuyên gia và được ứng dụng thành công
trong điều khiển tự động vào năm 1974 bởi Mamdani [89, 90]. Tuy nhiên, không
phải lúc nào cũng có sẵn các chuyên gia và tri thức của họ thường không đầy đủ. Vì
vậy, bài toán thiết kế tự động các FRBS từ dữ liệu được phát sinh từ các sự kiện
trong thế giới thực được đặt ra và thu hút nhiều nhà khoa học quan tâm nghiên cứu.
Đây là một lĩnh vực rộng lớn và có nhiều ứng dụng thực tiễn. Nhờ ứng dụng lý
thuyết tập mờ [123], khái niệm biến ngôn ngữ [124] và logic mờ vào bài toán điều
2


khiển tự động nhằm trích rút các hệ luật mờ từ dữ liệu, các FRBS được ứng dụng
rộng rãi trong lĩnh vực điều khiển mờ, điển hình như King và Mamdani [77],
Takagi và Sugeno [117], Berenji và Khedkar [19], Battaini và các cộng sự [18], Rao

và Sivasubramanian [105].
Khi FRBS được ứng dụng để giải bài toán phân lớp thì được gọi là hệ phân lớp
dựa trên luật mờ (fuzzy rule-based classifier - FRBC). Ưu điểm của hệ phân lớp loại
này là: 1) Lợi dụng tính xấp xỉ vạn năng của các hệ dựa trên luật mờ; 2) Người
dùng cuối có thể sử dụng những tri thức dạng luật, được trích rút từ dữ liệu có tính
dễ hiểu, dễ sử dụng đối với con người, như là những tri thức của họ. Dựa trên quan
điểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xây
dựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho
hệ luật thu được có tính dễ hiểu (interpretability), tức là số luật và số điều kiện tạo
nên luật phải đủ nhỏ; ngữ nghĩa tính toán của các từ ngôn ngữ (linguistic terms) hay
nhãn ngôn ngữ (linguistic labels) xuất hiện trong cơ sở luật phản ánh được đúng
ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên, nhưng vẫn đạt độ chính xác
(accuracy) cao. Với các yêu cầu về FRBC được đặt ra ở trên, việc trích rút hệ luật
mờ từ dữ liệu cho FRBC là một nhiệm vụ nghiên cứu phức tạp với các mục tiêu của
bài toán (độ chính xác và tính dễ hiểu) xung khắc nhau, tức muốn tăng mục tiêu này
thì phải giảm mục tiêu kia. Độ chính xác của FRBC phụ thuộc vào các yếu tố như:
1) Các nhãn ngôn ngữ là cơ sở ngữ nghĩa của các luật ngôn ngữ mờ; 2) Việc biểu
diễn ngữ nghĩa của các nhãn ngôn ngữ; 3) Dạng của các luật ngôn ngữ mờ và ngữ
nghĩa của chúng; 4) Phương pháp suy luận mờ được lựa chọn; 5) Các đặc trưng của
dữ liệu như độ phức tạp, sự phân bố dữ liệu hay dữ liệu có số chiều lớn, dữ liệu
thiếu thông tin.
Để đáp ứng các yêu cầu được đặt ra về FRBC ở trên, bài toán thiết kế tự động
FRBC từ dữ liệu cần giải quyết các bài toán nhỏ hơn do mỗi bài toán cần các kỹ
thuật xử lý khác nhau: thiết kế hệ phân hoạch mờ cho các thuộc tính và trích rút tập
luật mờ tối ưu.
Với hầu hết các hướng tiếp cận dựa trên lý thuyết tập mờ, các luật mờ được
trích rút từ các phân hoạch mờ được thiết kế trước bởi các chuyên gia, tức số từ
ngôn ngữ được sử dụng trong các phân hoạch mờ là cố định và được gán cho các
tập mờ trong các phân hoạch mờ bằng cảm nhận trực giác của người thiết kế như
Ishibuchi và các cộng sự [61-70], Cordon và các cộng sự [26], Alcalá và các cộng

sự [13, 14], Fazzolari và các cộng sự [35, 36]. Một số nghiên cứu đề xuất phương
pháp xây dựng các phân hoạch mờ rời rạc dựa trên sự phân tích dữ liệu bằng công

3


nghệ tính toán hạt (granular computing), điển hình như Roh và các cộng sự [106],
Salehi và các cộng sự [108] hay dựa trên kỹ thuật rời rạc hóa dữ liệu bởi Fazzolari
và các cộng sự [36]. Trong các nghiên cứu này, các từ ngôn ngữ được sử dụng trong
biểu diễn cơ sở luật chỉ là các nhãn ngôn ngữ. Mặc dù mục tiêu cuối cùng của
FRBS là nhằm mô phỏng các khả năng khác biệt của con người trong việc thao tác
trực tiếp trên các từ ngôn ngữ nhưng chưa có nghiên cứu nào trong phạm vi lý
thuyết tập mờ có thể vận dụng các từ ngôn ngữ nhằm truyền đạt ngữ nghĩa của bản
thân chúng, do thiếu một cầu nối hình thức giữa các từ ngôn ngữ với các tập mờ
tương ứng. Trong thực tế, khi xây dựng một luật mờ biểu diễn một mẩu tri thức từ
dữ liệu được thu thập từ thực tiễn, người thiết kế phải thận trọng lựa chọn các từ cụ
thể từ bảng từ vựng của anh ta sao cho phù hợp với mẩu tri thức cần biểu diễn đó.
Trong quá trình này, các từ ngôn ngữ với ngữ nghĩa vốn có của chúng được tương
tác với dữ liệu thu thập được và do đó, về nguyên tắc, tất cả các từ trong bảng từ
vựng đều có thể được lựa chọn bởi người thiết kế. Tuy nhiên, với các tiếp cận dựa
trên lý thuyết tập mờ, ngữ nghĩa vốn có của các từ trong ngôn ngữ tự nhiên không
được xem xét dựa trên một cơ sở hình thức. Do đó, các phương pháp thiết kế FRBS
dựa trên lý thuyết tập mờ không có khả năng mô phỏng quá trình tương tác trong
việc lựa chọn các từ ngôn ngữ phù hợp với dữ liệu thực tiễn của bài toán ứng dụng.
Đại số gia tử (ĐSGT) [50-55] đã có những ứng dụng thành công trong một số
lĩnh vực như điều khiển mờ [1, 4, 7, 31, 56, 81, 82], ra quyết định [6, 53], xử lý thao
tác cơ sở dữ liệu mờ [2], khai phá dữ liệu [3, 5, 9, 10, 32, 57, 58]. ĐSGT cung cấp
một cách tiếp cận cho việc xử lý miền giá trị của biến ngôn ngữ, bổ sung một cơ sở
đại số cho logic mờ Zadeh [123, 124] và tính toán trên các từ [8], cung cấp một cơ
sở hình thức để liên kết ngữ nghĩa tính toán dựa trên tập mờ với ngữ nghĩa định tính

vốn có của các từ ngôn ngữ, trong đó ngữ nghĩa của các từ ngôn ngữ được diễn đạt
trên cơ sở thứ tự ngữ nghĩa, đã hình thành một cơ sở hình thức cho phép các tập mờ
được sinh từ ngữ nghĩa định tính vốn có của các từ ngôn ngữ. Điều này cho phép
mô phỏng quá trình chuyển hóa thành các tập mờ từ thế giới thực của con người.
Dựa trên cơ chế này, Nguyễn Cát Hồ và các cộng sự [5, 57] đã ứng dụng ĐSGT
một cách hiệu quả vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩa
tính toán dựa trên tập mờ tam giác cho bài toán xây dựng tự động cơ sở luật cho
FRBC. Các từ ngôn ngữ được sử dụng trong biểu diễn cơ sở luật của FRBC là các
từ trong ngôn ngữ tự nhiên, do đó, hệ phân lớp dựa trên luật mờ còn được gọi là hệ
phân lớp dựa trên luật ngôn ngữ mờ (fuzzy linguistic rule based classifier - FLRBC)
và luật mờ là luật ngôn ngữ mờ.

4


Về bài toán trích rút tập luật ngôn ngữ mờ tối ưu, các luật ngôn ngữ mờ được
sinh từ các phân hoạch mờ và được huấn luyện nhằm thu được tập luật nhỏ gọn và
có độ chính xác phân lớp cao. Các tiếp cận dựa trên lý thuyết tập mờ thường sinh
các luật ngôn ngữ mờ từ tổ hợp của tất cả từ ngôn ngữ được thiết kế cho các thuộc
tính, mỗi tổ hợp sinh ra một tiền đề luật, điển hình như Cordon và các cộng sự [26],
Alcalá và các cộng sự [13, 14], Antonelli và các cộng sự [16], Ishibuchi và các cộng
sự [61-70], López và các cộng sự [86]. Với cách sinh luật này, số luật ngôn ngữ mờ
được sinh ra rất lớn, đặc biệt đối với các tập dữ liệu có số chiều lớn do số luật ngôn
ngữ mờ được sinh ra tăng theo hàm mũ đối với số chiều của tập dữ liệu. Một số đề
xuất sinh luật dựa trên cây tìm kiếm như Fernández và các cộng sự [41], Fazzolari
và các cộng sự [35]. Với phương pháp này, các thuộc tính được sắp xếp theo một
thứ tự nào đó và một cây tìm kiếm được xây dựng nhằm liệt kê tất cả các tập mục
mờ thường xuyên cho mỗi nhãn lớp và sinh các luật kết hợp cho bài toán phân lớp,
tức các luật được lọc theo tiêu chuẩn độ hỗ trợ (support) và độ tin cậy (confidence)
trong khai phá luật kết hợp. Tuy vậy, số luật ngôn ngữ mờ được sinh ra vẫn có thể

rất lớn. Một số đề xuất khác thực hiện sinh luật dựa trên cây quyết định (decision
tree) như Abonyi và các cộng sự [12], Pulkkinen và Koivisto [103]. Phương pháp
này đã làm giảm đáng kể số lượng luật nhưng do dựa vào chiến lược tìm kiếm tham
lam, nên dễ dẫn đến các quyết định tối ưu địa phương. Mặt khác, khi chuyển đổi từ
cây quyết định sang mô hình mờ thường làm giảm chất lượng của hệ phân lớp và
quá trình hiệu chỉnh mô hình thường làm tăng độ phức tạp của hệ phân lớp. Với tiếp
cận dựa trên ĐSGT [5, 57], Nguyễn Cát Hồ và các cộng sự đã đề xuất phương pháp
sinh các luật ngôn ngữ mờ trực tiếp từ các mẫu dữ liệu, theo đó, mỗi mẫu dữ liệu
sinh ra một luật có độ dài bằng số thuộc tính của tập dữ liệu và các luật có độ dài
nhỏ hơn được sinh ra bằng cách bỏ bớt một số điều kiện luật. Phương pháp sinh luật
này hạn chế được số luật ngôn ngữ mờ được sinh ra và không phụ thuộc vào số từ
ngôn ngữ được sử dụng. Đây là phương pháp sinh luật tốt nên luận án sử dụng để
sinh luật trong các thực nghiệm.
Hệ dựa trên luật mờ với các luật mờ được trích xuất từ dữ liệu cho bài toán
phân lớp được Ishibuchi và các cộng sự đề xuất năm 1992 [61]. Tuy nhiên, hệ luật
mờ thu được còn phức tạp (số luật và số điều kiện lớn) và có độ chính xác chưa cao.
Các FRBS cung cấp cho người dùng cuối một mô hình dễ hiểu, nhưng chúng lại
không có khả năng học. Do đó, các hệ thông minh lai giữa FRBS với các giải thuật
học được đề xuất, trong đó có mạng nơ-ron và các giải thuật tiến hóa (evolutionary
algorithm) được nghiên cứu rộng rãi. Khi FRBS được tích hợp với mạng nơ-ron thì
hệ lai thu được gọi là hệ mờ nơ-ron (neuro-fuzzy systems - NFSs) và khi FRBS

5


được tích hợp với một giải thuật tiến hóa thì được gọi là hệ dựa trên luật mờ tiến
hóa (evolutionary fuzzy rule based system - EFRBS).
Do không chỉ xét đến độ chính xác mà còn xét đến tính dễ hiểu của FRBC trong
thiết kế và quá trình tối ưu, để mô hình phân lớp thu được đảm bảo sự cân bằng
giữa các tiêu chuẩn tối ưu là độ chính xác và tính dễ hiểu, các thuật toán tối ưu đa

mục tiêu được sử dụng để tối ưu FRBC như tìm kiếm hệ luật tối ưu bởi Ishibuchi và
các cộng sự [62, 63, 67], Gonzáler và Perez [46-48], Ji-lin và các cộng sự [74]; hiệu
chỉnh các tham số của hàm thuộc bởi Shi và các cộng sự [113], Roubos và các cộng
sự [107], Zhou và các cộng sự [127]; hiệu chỉnh các tham số của hàm thuộc kết hợp
với tìm kiếm hệ luật tối ưu bởi Setnes và Roubos [112], Alcalá và các cộng sự [14],
Fazzolari và các cộng sự [35, 36]; hiệu chỉnh trọng số luật bởi Nauck và Kruse [98],
Cordon và các cộng sự [26], Ishibuchi và các cộng sự [61, 68], Mansoori và các
cộng sự [91], Jahromi và Taheri [71], Fakhrahmad và Jahromi [34], DelaOssa và
các cộng sự [29]. Một số nghiên cứu khác tập trung vào thiết kế tối ưu FRBC cho
các tập dữ liệu có số chiều lớn bởi Fernández và các cộng sự [41], Fazzolari và các
cộng sự [35], cho tập dữ liệu có số mẫu dữ liệu không cân bằng đối với các nhãn
lớp (imbalanced datasets) bởi Fernández và các cộng sự [37-40], Lopéz và các cộng
sự [87] và cho các tập dữ liệu thiếu thông tin (datasets with missing values) bởi
Luengo và các cộng sự [88]. Cùng chung với các hướng nghiên cứu trên, hướng
nghiên cứu trích xuất hệ luật mờ Mamdani tối ưu cho bài toán hồi quy cũng được
thực hiện, đại diện là Antonelli và các cộng sự [15], Gacto và các cộng sự [44]. Hầu
hết các đề xuất trên sử dụng các chiến lược tìm kiếm tối ưu các tham số của hàm
thuộc, không tối ưu ngữ nghĩa của các từ ngôn ngữ, do đó, số tham số cần hiệu
chỉnh thích nghi lớn và không bảo toàn được ngữ nghĩa của các từ ngôn ngữ. Với
tiếp cận dựa trên ĐSGT [5, 57], các tham số ngữ nghĩa chỉ phụ thuộc vào bản thân
các biến ngôn ngữ của chúng, nên khi các tham số ngữ nghĩa được tối ưu cho các
thuộc tính của một tập dữ liệu cụ thể, tập giá trị ngôn ngữ của các thuộc tính cũng
được thiết kế tối ưu cho tập dữ liệu đó.
Từ những nhận định trên luận án thấy rằng, phương pháp thiết kế FLRBC trên
cơ sở ứng dụng ĐSGT đã khắc phục được một số hạn chế của các tiếp cận dựa trên
lý thuyết tập mờ. Tuy nhiên, hướng tiếp cận này vẫn tồn tại những hạn chế trong
biểu diễn ngữ nghĩa, chẳng hạn, hiện tại mới chỉ sử dụng ngữ nghĩa định lượng
điểm (lõi ngữ nghĩa điểm) và do đó, ngữ nghĩa tính toán dựa trên tập mờ có lõi là
một điểm (tập mờ tam giác). Trong ứng dụng lý thuyết tập mờ cũng thường đòi hỏi
lõi của tập mờ là một khoảng do ngữ nghĩa của từ ngôn ngữ chứa một miền có giá

trị phù hợp với ngữ nghĩa của từ nhất. Ngữ nghĩa dựa trên tập mờ của các từ ngôn
6


ngữ được xem là dạng hạt (granule) và có lõi (core). Như vậy, ngữ nghĩa của mỗi từ
ngôn ngữ đều có lõi và được gọi là lõi ngữ nghĩa (semantics core). Trong xu thế
nghiên cứu ĐSGT, một cơ sở hình thức toán học cần được phát triển để sinh lõi
khoảng của tập mờ biểu diễn ngữ nghĩa của từ ngôn ngữ. Luận án nghiên cứu
trường hợp cụ thể sinh lõi khoảng của tập mờ hình thang do lõi của hình thang có
dạng khoảng nên chúng có thể được sử dụng để biểu diễn lõi ngữ nghĩa được biểu
thị bằng tập mờ của các từ ngôn ngữ. Mặt khác, vấn đề tối ưu các tham số ngữ
nghĩa, sinh luật và tìm kiếm hệ luật tối ưu vẫn cần những nghiên cứu cải tiến.
Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình
thức toán học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõi
của tập mờ hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệ
phân lớp dựa trên luật ngôn ngữ mờ. Thứ hai là nghiên cứu thiết kế hiệu quả hệ
phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được
xác định dựa trên ĐSGT dựa trên kỹ thuật tính toán mềm.
Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:


Đề xuất mở rộng lý thuyết đại số gia tử biểu diễn lõi ngữ nghĩa của các từ
ngôn ngữ nhằm cung cấp một cơ sở hình thức cho việc sinh tự động ngữ
nghĩa tính toán dựa trên tập mờ có lõi là một khoảng. Luận án nghiên cứu
trường hợp cụ thể là ngữ nghĩa dựa trên tập mờ hình thang. Đóng góp này
của luận án đã được công bố ở Tạp chí Tin học và Điều khiển học năm 2012
và 2013 (công trình [CT1] và [CT4]); Tạp chí Knowledge-Based Systems
(công trình [CT5]).




Ứng dụng lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang
của khung nhận thức ngôn ngữ trong việc phát triển các phương pháp, thuật
toán thiết kế tối ưu các hệ phân lớp dựa trên luật ngôn ngữ mờ đảm bảo tính
giải nghĩa được (interpretability) của chúng. So sánh đánh giá kết quả của
các đề xuất so với một số kết quả được công bố trước đó. Đóng góp này của
luận án đã được công bố ở Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên
cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) năm 2013 (công trình
[CT3]); Tạp chí Tin học và Điều khiển học năm 2013 (công trình [CT4]);
Tạp chí Knowledge-Based Systems (công trình [CT5]).



Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết
kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ
ngôn ngữ được xác định dựa trên ĐSGT và đề xuất các phương pháp nâng
cao hiệu quả thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ sử dụng kỹ
7


thuật tính toán mềm. Đóng góp này của luận án đã được công bố ở Kỷ yếu
hội thảo quốc tế RIVF năm 2013 (công trình [CT2]); Tạp chí Khoa học, Đại
học Quốc gia Hà Nội năm 2014 (công trình [CT6]); Tạp chí Tin học và
Điều khiển học năm 2015 (công trình [CT7]); Tạp chí Khoa học và Công
nghệ, VAST năm 2015 (công trình [CT8]).
Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công
bố trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3
bài báo ở Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại học
Quốc gia Hà Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn lâm Khoa
học và Công ngệ Việt Nam; 1 báo cáo trong kỷ yếu hội thảo quốc tế có phản biện

được xuất bản bởi IEEE và 1 báo cáo tại hội thảo quốc gia có phản biện.
Cấu trúc của luận án. Luận án được bố cục thành các phần: Mở đầu, 3 chương, kết
luận, tài liệu tham khảo và các phụ lục.
Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và
ĐSGT, bao gồm: các khái niệm cơ bản, cấu trúc của hệ dựa trên tri thức luật ngôn
ngữ mờ và ứng dụng giải bài toán phân lớp, giới thiệu các khái niệm cơ bản và vai
trò ứng dụng của ĐSGT.
Chương 2 trình bày phương pháp mở rộng lý thuyết ĐSGT nhằm cung cấp một
cơ sở hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình
thang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế hệ dựa trên tri thức
luật ngôn ngữ mờ cho bài toán phân lớp. Các kết quả thực nghiệm và so sánh đánh
giá các phương pháp thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa
tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT mở rộng với các phương
pháp khác cũng được đề xuất trong chương này.
Chương 3 trình bày đề xuất thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn
ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT
bằng kỹ thuật tính toán mềm. Cụ thể, đề xuất ứng dụng thuật toán tối ưu bầy đàn đa
mục tiêu và thuật toán tối ưu đa mục tiêu lai giữa thuật toán tối ưu bầy đàn với thuật
toán mô phỏng tôi luyện để tối ưu hệ dựa trên tri thức luật ngôn ngữ mờ, đề xuất áp
dụng phương pháp lựa chọn đặc trưng nhằm làm giảm thời gian sinh luật ngôn ngữ
mờ đối với các tập dữ liệu có số chiều lớn.

8


CHƯƠNG 1
TỔNG QUAN VỀ HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ
Chương này trình bày một số khái niệm cơ bản liên quan đến cơ sở lý thuyết
được sử dụng làm cơ sở lý luận trong luận án, hệ dựa trên luật ngôn ngữ mờ và ứng
dụng giải bài toán phân lớp dựa trên luật ngôn ngữ mờ, các khái niệm cơ bản và vai

trò ứng của đại số gia tử. Dựa trên sự phân tích những ưu và nhược điểm của các
phương pháp thiết kế FLRBC để đặt ra các vấn đề cần nghiên cứu và giải quyết của
luận án.
1.1.

MỘT SỐ KHÁI NIỆM CƠ BẢN

1.1.1. Tập mờ
Lý thuyết tập mờ được Zadeh giới thiệu vào năm 1965 [123], mở rộng khái
niệm tập hợp kinh điển, nhằm biểu diễn mức độ thuộc của các phần tử vào một tập
hợp.
Định nghĩa 1.1. [123] Tập mờ A xác định trên tập kinh điển U là một tập mà mỗi
phần tử của nó là một cặp giá trị (x, μA(x)), trong đó ∈ với U là tập kinh điển
hay tập nền của tập mờ A và hàm μA: U → [0, 1] là hàm thuộc với giá trị μA(x) thể
hiện mức độ thuộc của x vào tập mờ A. □
Như vậy, hàm μA(x) nhận giá trị trong khoảng [0, 1]. Với một tập mờ A trên U,
hàm A(x) biểu diễn mức độ thuộc của x vào tập mờ A và giá trị của A(x) càng gần
1 thì mức độ thuộc của x vào A càng cao. Khi μA(x) = 1, x sẽ thuộc hoàn toàn vào
tập mờ A. Ngược lại, khi μA(x) = 0 thì x  A . Trong khi với khái niệm tập hợp kinh
điển, μA(x) = 1 nếu x  A và μA(x) = 0 nếu x  A .
Tập { ∈ : ( ) > 0} được gọi là độ hỗ trợ của tập mờ A. Tập { ∈
: ( ) = 1} được gọi là nhân hay lõi của tập mờ A.
1.1.2. Biến ngôn ngữ
Khái niệm biến ngôn ngữ được Zadeh giới thiệu năm 1975 [124]. Biến ngôn
ngữ là loại biến mà các giá trị của nó là các từ hay mệnh đề dưới dạng ngôn ngữ tự
nhiên.
Định nghĩa 1.2. [124] Biến ngôn ngữ là một bộ 5 thành phần (X, T(X), U, R, M),
trong đó X: tên biến, T(X): tập các giá trị ngôn ngữ của biến X, U: không gian các giá
trị (số) của biến, R: quy tắc cú pháp sinh ra các giá trị ngôn ngữ T(X), M: tập các


9


luật ngữ nghĩa nhằm gán ngữ nghĩa của mỗi giá trị ngôn ngữ cho một tập mờ trên
nền U. □
Khái niệm biến ngôn ngữ cung cấp một phương thức đặc tả tính gần đúng của
các hiện tượng được coi là quá phức tạp hay quá mập mờ theo cách mô tả dưới dạng
định lượng thông thường.
Ví dụ 1.1. Biến ngôn ngữ và giá trị ngôn ngữ:
Câu 1: I am not tall
Biến ngôn ngữ: Height
Giá trị ngôn ngữ: Tall
Câu 2: I am heavy
Biến ngôn ngữ: Weight
Giá trị ngôn ngữ: Heavy

Hình 1.1. Biến ngôn ngữ, các giá trị
ngôn ngữ và các tập mờ tương ứng.

Trên Hình 1.1, các tập mờ biểu diễn ngữ nghĩa của các giá trị ngôn ngữ của
biến ngôn ngữ Height là “tall”, “medium”, “short”; của các giá trị ngôn ngữ của
biến ngôn ngữ Weight là “heavy”, “medium”, “light”.
1.1.3. Phân hoạch mờ
Định nghĩa 1.3. [21] Một dãy các tập mờ A = {A1, …, An} thỏa  ≠ Ai ≠ X với i =
( )=
1, …, n là một phân hoạch hữu hạn của một tập C nếu và chỉ nếu ∑
( ) với mọi

∈ .


Một phân hoạch mờ A = {Ai | i = 1, …, n} bao phủ toàn bộ không gian X, nghĩa
là mỗi phần tử của X thuộc vào ít nhất một tập mờ. Do đó: ∀ ∈ , ∃ ∈
[1, ], ( ) > , trong đó, > 0 biểu thị mức phủ của X. □
Mỗi phân hoạch mờ trong Định nghĩa 1.3 được gọi là một thể hạt (granularity)
và mỗi tập mờ trong phân hoạch được gọi là một hạt (granule). Một phân hoạch mờ
chỉ gồm một thể hạt được gọi là cấu trúc phân hoạch mờ đơn thể hạt (single
granularity structure), gọi tắt là cấu trúc đơn thể hạt. Ngược lại, một phân hoạch mờ
gồm nhiều thể hạt được gọi là cấu trúc phân hoạch mờ đa thể hạt (multiple
granularity structure), gọi tắt là cấu trúc đa thể hạt.

10


×