PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ VÀ ĐẠI SỐ GIA TỬ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (915.41 KB, 27 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Đình Phong

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ
HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ
VÀ ĐẠI SỐ GIA TỬ

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2016

Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội

Người hướng dẫn khoa học: GS. TS. Nguyễn Thanh Thủy
PGS. TSKH. Nguyễn Cát Hồ

Phản biện: .............................................................................................
..............................................................................................
Phản biện: .............................................................................................
..............................................................................................
Phản biện: .............................................................................................
..............................................................................................

Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận

án tiến sĩ họp tại .............................................................................................
vào hồi

giờ

ngày

tháng

năm

Có thể tìm hiểu luận án tại:
-

Thư viện Quốc gia Việt Nam

-

Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội

MỞ ĐẦU
Bài toán phân lớp thường thấy trong các lĩnh vực khác nhau của đời sống xã hội như
bao gồm y tế, kinh tế, nhận dạng lỗi, xử lý ảnh, xử lý dữ liệu văn bản, lọc dữ liệu Web,
loại bỏ thư rác, … Có nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp
thống kê, mạng nơ-ron, phân lớp dựa trên luật ngôn ngữ mờ, …
Hầu hết các kỹ thuật phân lớp thống kê đều dựa trên lý thuyết quyết định Bayesian có
hiệu huất phân lớp phụ thuộc vào mô hình xác suất. Hệ phân lớp mạng nơ-ron cần một
lượng lớn các tham số cần phải ước lượng. Mặt khác, kỹ thuật phân lớp thống kê và mạng
nơ-ron là những hộp đen nên thiếu tính dễ hiểu đối với người sử dụng. Hệ phân lớp dựa

trên luật ngôn ngữ mờ (FLRBC) được nghiên cứu rộng rãi do người dùng cuối có thể sử
dụng những tri thức dạng luật được trích rút từ dữ liệu có tính dễ hiểu, dễ sử dụng đối với
con người như là những tri thức của họ. Tiếp cận lý thuyết tập mờ không vận dụng các từ
ngôn ngữ nhằm truyền đạt ngữ nghĩa của các từ do thiếu một cầu nối hình thức giữa các từ
với các tập mờ tương ứng. Đại số gia tử (ĐSGT) cung cấp một cơ chế hình thức sinh các
tập mờ từ ngữ nghĩa định tính của các từ ngôn ngữ đã được ứng dụng một cách hiệu quả
vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩa tính toán dựa trên tập mờ
tam giác của chúng cho bài toán xây dựng tự động cơ sở luật cho FLRBC.
Câu hỏi được đặt ra là việc sử dụng các tập mờ hình thang để biểu diễn ngữ nghĩa tính
toán dựa trên tập mờ của các từ ngôn ngữ trong cơ sở luật của FLRBC có hiệu quả hơn
việc sử dụng các tập mờ tam giác? Trong các nghiên cứu của mình, Yager đã khẳng định
rằng, tập mờ tam giác chỉ là trường hợp đặc biệt của tập mờ hình thang khi điểm mút trái
và điểm mút phải của đáy nhỏ của hình thang trùng nhau. Điều này có nghĩa là việc sử
dụng các tập mờ hình thang trong biểu diễn ngữ nghĩa tính toán của các từ ngôn ngữ mang
tính phổ quát hơn và linh hoạt hơn so với các tập mờ hình tam giác. Tuy nhiên, cho tới
nay, chưa có một cơ chế hình thức toán học nào cho việc sinh các tập mờ hình thang từ
ngữ nghĩa định tính của các từ ngôn ngữ.
Mục tiêu đặt ra của luận án: Thứ nhất là xây dựng một cơ chế hình thức toán học cho
việc sinh tự động ngữ nghĩa tính toán dựa trên tập mờ hình thang từ ngữ nghĩa định tính
của các từ ngôn ngữ cho bài toán thiết kế tự động cơ sở luật cho hệ phân lớp dựa trên luật
ngôn ngữ mờ. Thứ hai là nghiên cứu và đề xuất một số cải tiến trong thiết kế tự động hệ
phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác
định dựa trên ĐSGT nhằm nâng cao chất lượng của hệ phân lớp.
Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:


Đề xuất mở rộng lý thuyết đại số gia tử mô hình hóa lõi ngữ nghĩa của các từ ngôn
ngữ nhằm cung cấp một cơ chế hình thức cho việc sinh tự động ngữ nghĩa tính
toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ cho bài toán thiết
kế tự động hệ phân lớp dựa trên luật ngôn ngữ mờ.



Đề xuất phương pháp luận, các thuật toán mới trong thiết kế tự động cơ sở luật cho
hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán dựa trên tập mờ
hình thang của từ ngôn ngữ được xác định trên cơ sở lý thuyết ĐSGT mở rộng.
1



Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết kế hệ
phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được
xác định dựa trên ĐSGT và đề xuất một số cải tiến làm tăng hiệu quả của các tiếp
cận thiết kế hệ phân lớp dựa trên ĐSGT.
Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công bố
trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3 bài báo ở
Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại học Quốc gia Hà
Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn Lâm Khoa học và Công nghệ
Việt Nam; 1 báo cáo trong kỷ yếu hội nghị quốc tế có phản biện được xuất bản bởi IEEE
và 1 báo cáo tại hội nghị quốc gia có phản biện.
Cấu trúc của luận án. Luận án được bố cục thành các phần: Mở đầu, 4 chương, kết luận
và tài liệu tham khảo.
Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và ĐSGT và
khả năng ứng dụng của ĐSGT. Chương 2 trình bày lý thuyết ĐSGT mở rộng nhằm cung
cấp một cơ chế hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình
thang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế FLRBC. Chương 3 trình
bày các kết quả thực nghiệm và so sánh đánh giá các phương pháp thiết kế FLRBC với
ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT mở rộng với các
phương pháp khác. Chương 4 trình bày một số cải tiến đối với các phương pháp thiết kế

FLRBC với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT.
CHƯƠNG 1
TỔNG QUAN VỀ HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ MỜ
1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.1.1. Tập mờ
1.1.2. Biến ngôn ngữ
1.1.3. Phân hoạch mờ
1.1.4. Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ
Luật ngôn ngữ mờ hay luật mờ if-then, được gọi tắt là luật mờ, là một phát biểu có
điều kiện dưới dạng if A then B. Phần if của luật được gọi là giả thuyết hay tiền đề luật,
phần then của luật được gọi là phần kết luận.
1.1.5. Hệ suy luận mờ
Suy luận xấp xỉ hay suy luận mờ là quá trình suy ra các kết luận dưới dạng các mệnh
đề mờ hay luật mờ trong điều kiện các quy tắc, các luật, các dữ liệu đầu vào cho trước
cũng không cần xác định.
1.1.6. Bài toán phân lớp dữ liệu
Bài toán phân lớp dữ liệu P được phát biểu như sau: cho một tập dữ liệu mẫu D = {(dp,
Cp), p = 1, …, m}, trong đó m là số mẫu dữ liệu, dp = [dp,1, dp,2, ..., dp,n] là dòng thứ p trong
m mẫu dữ liệu có n thuộc tính, C = {Cs | s = 1, …, M} là một tập gồm M nhãn lớp.
Quá trình xây dựng mô hình phân lớp thường được chia thành hai bước:
2

Bước 1. Huấn luyện: mô hình phân lớp được xây dựng dựa trên các tập dữ liệu mẫu đã
được gán nhãn, được gọi là các tập dữ liệu huấn luyện.
Bước 2. Thử nghiệm mô hình: sử dụng mô hình đã được xây dựng tại bước 1 để phân
lớp tập dữ liệu mới đã được gán nhãn được chọn ngẫu nhiên và độc lập với tập dữ liệu
huấn luyện.
1.2. HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ LUẬT MỜ
1.2.1. Cấu trúc của hệ dựa trên luật ngôn ngữ mờ

Hệ dựa trên luật ngôn ngữ mờ bao gồm hai thành phần chính: cơ sở tri thức và hệ suy
luận. Cơ sở tri thức bao gồm cơ sở dữ liệu và cơ sở luật. Cơ sở dữ liệu là miền giá trị của
các thuộc tính được phân hoạch thành các vùng mờ sử dụng các tập mờ. Cơ sở luật là tập
hợp các tri thức liên quan đến các bài toán cần giải quyết dưới dạng các luật mờ if-then.
1.2.2. Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ
Hệ các luật mờ phân lớp bao gồm một tập luật mờ có trọng số dạng:
Luật Rq: if X1 is Aq,1 and ... and Xn is Aq,n then Cq with CFq, với q=1..N

(1.1)

trong đó X = {Xj, j = 1, .., n} là tập n biến ngôn ngữ (thuộc tính) và Aq,j (j=1, ..., n) là các
giá trị ngôn ngữ của các điều kiện mờ trong tiền đề, Cq là nhãn lớp kết luận của Rq và N là
số luật mờ, CFq là trọng số hay độ tin cậy của luật thứ q. Luật Rq có thể được viết tắt dưới
dạng
⟹
with CFq, trong đó Aq là tiền đề của luật thứ q.
Ký hiệu fp(S), fn(S) và fa(S) lần lượt là hàm đánh giá hiệu suất phân lớp của hệ S đối
với tập dữ liệu huấn luyện, số luật trong hệ S và độ dài trung bình hệ S. Khi đó, mục tiêu
xây dựng hệ phân lớp thỏa các mục tiêu:
fp(S) → max, fn(S) và fa(S) → min.
(1.2)
Các mục tiêu trên mâu thuẫn nhau nên các phương pháp giải bài toán phân lớp dựa
trên luật mờ phải cân bằng các mục tiêu trên.
Các bước của bài toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm:
Bước 1. Phân hoạch mờ (fuzzy partition) trên miền các thuộc tính của tập dữ liệu
thành các vùng mờ bằng các tập mờ tương ứng với các từ ngôn ngữ của biến ngôn ngữ.
Bước 2. Trích rút các luật mờ từ các phân hoạch mờ được tạo ở bước 1 sao cho hệ luật
mờ S thu được nhỏ gọn, dễ hiểu và có hiệu suất phân lớp cao.
Hai phương pháp phân hoạch mờ thường được sử dụng là phân hoạch lưới lưới và
phân hoạch rời rạc. Các thước đo đánh giá luật dựa trên độ tin cậy (confidence) và độ hỗ

trợ (support) làm tiêu chuẩn sàng để sàng lọc ra các luật ứng viên:

trong đó

⟹

=

⟹

=

∑ ∈

.

(1.3)

.

(1.4)

∑
∑ ∈

(

)

là độ tương thích hay độ đốt cháy của mẫu dữ liệu dp đối với điều kiện

Aq của luật Rq và thường được tính bằng biểu thức toán tử nhân như sau:
3

=∏

,

,

.

,

(1.5)

- Độ tin cậy (c), độ hỗ trợ (s) và tích (c × s) đều có thể dùng làm tiêu chuẩn sàng.
- Nhãn lớp của từng điều kiện tiền đề Aq được xác định như sau:
=

{ (

⇒

)|ℎ = 1, … ,

}.

(1.6)

- Các luật có thể được gán trọng số luật, công thức sau thường được sử dụng:
=

⟹

−

,

,

(1.9)

cq,2nd là độ tin cậy lớn nhất của các luật có cùng điều kiện Aq nhưng khác kết luận khác Cq.
= max

,

⟹

ℎ |ℎ = 1, … ,

;ℎ ≠

,

(1.12)

Hai phương pháp lập luận phân lớp cho một mẫu dữ liệu dp = [dp,1, dp,2, ..., dp,n]:
- Phương pháp lập luận là Single Winner Rule:
×

= argmax

×

∈

.

(1.14)

- Phương pháp lập luận bầu cử trọng số (weighted vote):

= argmax ∑

×

∈

, ℎ = 1, …

.

(1.15)

1.2.3. Những vấn đề tồn tại
- Hầu hết các đề xuất theo hướng tiếp cận lý thuyết tập mờ vẫn thiếu một cơ chế hình
thức liên kết giữa ngữ nghĩa vốn có của các từ ngôn ngữ với các tập mờ tương ứng của
chúng; thiếu một cơ sở hình thức hóa toán học trong thiết kế tự động ngữ nghĩa tính toán
dựa trên tập mờ từ ngữ nghĩa vốn có của các từ ngôn ngữ, dẫn đến hệ phân lớp thu được
không là kết quả của sự tương tác giữa ngữ nghĩa của các từ ngôn ngữ với dữ liệu.
- Chưa có cơ chế hình thức đánh giá tính khái quát và tính cụ thể của các từ ngôn ngữ
và bài toán thiết kế các thể hạt (granularity) cho các phân hoạch mờ trên miền các thuộc
tính đảm bảo sự cân bằng giữa tính khái quát và tính cụ thể của các từ ngôn ngữ chưa được
đặt ra.
1.3. Đại số gia tử
1.3.1. Đại số gia tử của biến ngôn ngữ
Định nghĩa 1.4. [49] Giả sử X là một biến ngôn ngữ có miền giá trị là Dom(X). Một ĐSGT
AX tương ứng của X là một bộ 5 thành phần AX = (X, G, C, H, ≤), trong đó: (X, ≤) là cấu
trúc dựa trên quan hệ thứ tự, X là một tập giá trị ngôn ngữ của X với X  Dom(X) và ≤ là
quan hệ thứ tự được cảm sinh bởi ngữ nghĩa vốn có của các từ ngôn ngữ trên X; G = {c-,
c+} là tập các phần tử sinh có quan hệ ngữ nghĩa c- ≤ c+, trong đó c- và c+ tương ứng là
phần tử sinh nguyên thủy âm và dương; C = {0, W, 1} là tập các hằng thỏa quan hệ ngữ
nghĩa 0 ≤ c- ≤ W ≤ c+ ≤ 1, trong đó 0 và 1 tương ứng là phần tử nhỏ nhất và phần tử lớn
nhất trong cấu trúc (X, ≤), W là phần tử trung hòa; H là tập gia tử của biến ngôn ngữ X. 
Với mỗi x  X, ký hiệu H(x) là tập tất cả các giá trị ngôn ngữ u  X được cảm sinh từ
x bởi các gia tử trong H và được biểu diễn bởi chuỗi u = hn…h1x, với hn, …, h1  H.
4

Trong trường hợp x  {c-, c+} thì chuỗi u = hn…h1c được gọi là một biểu diễn chính tắc
nếu hj+1…h1c ≠ hj…h1c với mọi j = 1, …, n - 1 và khi đó u có độ dài n + 1, được ký hiệu là
|u| hoặc l(u). Ký hiệu sau: Xk là tập tất cả các giá trị ngôn ngữ có độ dài đúng bằng k và X(k)

là tập tất cả các giá trị ngôn ngữ có độ dài nhỏ hơn hoặc bằng k.
Trong ĐSGT AX = (X, G, C, H, ≤) nếu X, G và H là tập sắp thứ tự tuyến tính thì AX
được gọi là ĐSGT tuyến tính. Một số tính chất của ĐSGT:
- Dấu của c+ là sign(c+) = +1, dấu của c- là sign(c-) = -1.
- Tập các gia tử dương là H+ = {hj: 1 ≤ j ≤ p} và có dấu sign(hj) = +1, tập các gia tử là
H- = {hj: -q ≤ j ≤ -1} và có dấu sign(hj) = -1 và ta có H = H+  H-.
- Gia tử k là dương đối với gia tử h nếu k làm tăng ngữ nghĩa của h và khi đó dấu
sign(k, h) = +1. Ngược lại, k là âm đối với h nếu k làm giảm ngữ nghĩa của h và có dấu
sign(k, h) = -1. Dấu của một hạng từ x với x = hmhm-1…h2h1c, trong đó c  {c-, c+} và hj 
H, được tính như sau:
Sign(x) = sign(hm, hm-1) × … × sign(h2, h1) × sign(h1) × sign(c).
(1.16)
Ý nghĩa của dấu của từ là: nếu sign(hx) = +1 thì x ≤ hx, và nếu sign(hx) = -1 thì hx ≤ x.
- Tính kế thừa trong cảm sinh các giá trị ngôn ngữ của các gia tử. Khi một giá trị
ngôn ngữ hx được cảm sinh từ x bằng việc tác động gia tử h vào x thì ngữ nghĩa của hx
thay đổi nhưng vẫn truyền đạt ngữ nghĩa gốc của x. Tính chất này góp phần bảo toàn quan
hệ thứ tự ngữ nghĩa: nếu hx ≤ kx thì h’hx ≤ k’kx, hay h’ và k’ bảo tồn quan hệ ngữ nghĩa
của hx và kx một cách tương ứng.
Hai từ ngôn ngữ x và y được gọi là độc lập nếu x  H(y) và y  H(x).
Một ĐSGT AX được gọi là tự do nếu với mọi x  H(G) thì hx ≠ x. Nghĩa là AX là tự do
nếu và chỉ nếu chỉ có các hằng tử là các phần tử bất động.
Định lý 1.1. [49] Cho tập H- và H+ là các tập sắp thứ tự tuyến tính của ĐSGT AX = (X, G,
C, H, ≤). Khi đó ta có các khẳng định sau:
(1) Với mỗi u  X thì H(u) là tập sắp thứ tự tuyến tính.
(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X cũng là
tập sắp thứ tự tuyến tính. Hơn nữa nếu u < v, và u, v là độc lập với nhau, tức là u  H(v)
và v  H(u), thì H(u)  H(v). 
1.3.2. Lượng hóa đại số gia tử
Xét bất kỳ ánh xạ υ của một ĐSGT AX đảm bảo tính bảo toàn cấu trúc thứ tự trên
miền giá trị của X. Đẳng cấu υ đảm bảo việc cảm sinh ánh xạ của mọi mô hình tính mờ

H(x) của một từ ngôn ngữ x tới một khoảng nằm trong đoạn [0, 1], được gọi là khoảng tính
mờ của x và được ký hiệu là (x). Độ dài của (x) được gọi là độ đo tính mờ của x và
được ký hiệu là fm(x). Với ý tưởng trên, độ đo tính mờ được tiên đề hóa như sau:
Định nghĩa 1.5. Một hàm fm: X  [0, 1] được gọi là một độ đo tính mờ của biến ngôn
ngữ X, nếu nó có các tính chất sau:
(FM1) fm là một độ đo đầy đủ trên X, nghĩa là fm(c) + fm(c+) = 1 và, u  X,
5

 fm(hu)  fm(u) ;

hH

(FM2) Nếu H(x) = x, thì fm(x) = 0. Đặc biệt ta có: fm(0) = fm(W) = fm(1) = 0;
(FM3) x, y  X, h  H, ta có fm(hx)/x = fm(hy)/y, nghĩa là tỷ số này không phụ thuộc
vào một phần tử cụ thể nào trong X mà chỉ phụ thuộc vào h được gọi là độ đo tính mờ của
gia tử h và được ký hiệu là (h). 
Công thức tính đệ quy độ đo tính mờ của x = hm...h1c với c  {c-, c+} như sau:
fm(x) = (hm)...(h1) fm(c), trong đó

  ( h)  1 .

(1.17)

hH

Mệnh đề 1.1. [51, 52] Độ đo tính mờ fm của các khái niệm và (h) của các gia tử thỏa:
1)

fm(hx) = (h)fm(x), x  X;

2) fm(c) + fm(c+) = 1;
p

3)

 fm(h c) fm(c) , với c  {c, c+};
i

i   q ,i  0

 fm(h x)  fm( x) , x  X.

4)

i

 q  i  p ,i  0

1

5)   (hi )   và
i  q

p

  (h )   , với ,  > 0 và  +  = 1. 
i

i 1

Định nghĩa 1.6. Ngữ nghĩa số của các từ ngôn ngữ hay ánh xạ định lượng ngữ nghĩa của
AX là ánh xạ bảo toàn thứ tự υ: X  [0,1] thỏa mãn các điều kiện sau:
SQM1) υ bảo toàn thứ tự trên X, tức là x < y  υ(x) < υ(y) và υ(0) = 0, υ(1) = 1;
SQM2) υ là song ánh và ảnh của X, υ(X), là trù mật trong đoạn [0, 1] ; 
Mệnh đề 1.2. Ánh xạ định lượng ngữ nghĩa nhờ tính mờ là ánh xạ υ được xác định:
1) υ(W) =  = fm(c), υ(c) =  - fm(c), υ(c+) =  +fm(c+);
j

2) υ(hjx) = υ(x)+ Sign ( h j x )(  i 1 fm ( hi x )   ( h j x ) fm ( h j x )) , với 1  j  p,
j

và υ(hjx) = υ(x)+ Sign ( h j x )(  i  1 fm ( hi x )   ( h j x ) fm ( h j x )) , với q  j  1.
Hai công thức này có thể viết thành một công thức chung, với j  [-q^p] và j  0 là:
j

 ( h j x )   ( x )  Sign ( h j x )(  i  sign ( j ) fm ( hi x )   ( h j x ) fm ( h j x )) , và
 ( h j x )  1 2 [1  Sign ( h j x ) Sign ( h p h j x )(    )]  { ,  } . 
1.3.3. Ý nghĩa ứng dụng của đại số gia tử
ĐSGT đã được ứng dụng thành công trong các lĩnh vực như điều khiển mờ, hồi quy
và dự báo, thiết kế FLRBC, ... Trong những ứng dụng như vậy, ngữ nghĩa của các từ ngôn
ngữ được sử dụng trong biểu diễn các luật ngôn ngữ mờ cần được biểu thị bằng tập mờ
phù hợp với ngữ nghĩa vốn có của chúng. Với độ đo tính mờ của |H| - 1 gia tử, độ đo tính
mờ của một phần tử sinh (fm(c-) hoặc fm(c+)) và một số nguyên dương k giới hạn độ dài tối
6

đa của các từ ngôn ngữ được gọi là các tham số ngữ nghĩa, ký hiệu là Л. Khi cho một bộ
giá trị cụ thể của các tham số ngữ nghĩa, các giá trị định lượng của các từ ngôn ngữ được
tính toán và ngữ nghĩa tính toán dựa trên tập mờ của chúng được xây dựng. Giá trị định

lượng của mỗi từ ngôn ngữ là một điểm nằm trong khoảng tính mờ liên kết với độ đo tính
mờ tương ứng xác định đỉnh của tập mờ tam giác. Như vậy, ngữ nghĩa tính toán dựa trên
tập mờ của các từ ngôn ngữ được tích hợp với nhau dựa trên cơ chế hình thức hóa chặt
chẽ, trong đó các tham số tính mờ của ĐSGT sinh ra các tập mờ tam giác của tất cả các từ
ngôn ngữ của ĐSGT hay biến ngôn ngữ. Nghĩa là các đại lượng xác định các tập mờ bị
ràng buộc với nhau và có thể được hiệu chỉnh thích nghi nhờ các tham số tính mờ.
1.3.4. Những vấn đề tồn tại
Lý thuyết ĐSGT truyền thống các giả thiết trong các tiên đề khá chặt làm mất đi tính
mềm dẻo trong biểu diễn ngữ nghĩa của các từ ngôn ngữ và trong ứng dụng giải các bài
toán thực tế. Chẳng hạn, độ đo tính mờ của phần tử trung hòa W và hai phần tử 0 và 1 phải
bằng 0 mặc dù trong các ứng dụng thực tế đều thường xây dựng các tập mờ cho chúng.
Do trong cơ chế hình thức sinh ngữ nghĩa tính toán dựa trên tập mờ từ ngữ nghĩa định
tính của các từ ngôn ngữ cho FLRBC, ngữ nghĩa số của các từ ngôn ngữ chỉ là một điểm
nằm trong khoảng tính mờ tương ứng nên chỉ đủ cơ sở để xây dựng các tập mờ tam giác.
1.4. KẾT LUẬN CHƯƠNG 1
Trong chương này, luận án đã hệ thống lại những kiến thức cơ sở liên quan đến các
hệ dựa trên luật ngôn ngữ mờ, đại số gia tử và khả năng ứng dụng.
CHƯƠNG 2
LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG CỦA KHUNG NHẬN THỨC
NGÔN NGỮ VÀ ỨNG DỤNG GIẢI BÀI TOÁN PHÂN LỚP
2.1. MỞ RỘNG ĐSGT CHO VIỆC MÔ HÌNH HÓA LÕI NGỮ NGHĨA CỦA CÁC
TỪ NGÔN NGỮ
rất nhanh
nhanh
1

lõi

150

200

Hình 2.1. Mối quan hệ giữa từ “nhanh” và “rất nhanh” của biến ngôn ngữ TOCDO và
các giá trị của tập nền U được biểu diễn dưới dạng các tập mờ.
Mọi từ mang ngữ nghĩa không rõ ràng x của một biến ngôn ngữ với miền tham chiếu
số U biểu diễn mối quan hệ của x với các giá trị của U, tức là mọi giá trị số của U phù hợp
với x ở một độ chắc chắn nhất định. Mối quan hệ giữa từ “nhanh” và “rất nhanh” của biến
ngôn ngữ TOCDO và các giá trị của U có thể được biểu diễn dưới dạng các tập mờ như
trong Hình 2.1. Ký hiệu Core(x) là lõi ngữ nghĩa của của x thì Core(x) = {(u, x(u)): x(u)
7

= 1} và ngữ nghĩa của x là tập Sem(x) = {(u, x(u)): x(u)  [0, 1]}. Lõi ngữ nghĩa của hai
từ ngôn ngữ bất kỳ x, y  X và ngữ nghĩa tương ứng của chúng thỏa các điều kiện sau:
(C1) Core(x)  Sem(x);
(C2) Nếu x ≤ y thì Core(x) ≤ Core(y), Core(x) ≤ Sem(y) và Sem(x) ≤ Core(y).
Trong phương pháp hình thức hóa ĐSGT, lõi ngữ nghĩa của từ ngôn ngữ x cần được
sinh từ gia tử nên một gia tử nhân tạo h0 được bổ sung nhằm cảm sinh lõi ngữ nghĩa của x
là h0x. Việc mở rộng một ĐSGT tuyến tính AX được thực hiện như sau.
Định nghĩa 2.1. Mở rộng ngữ cảnh của một ĐSGT tuyến tính và tự do AX = (X, C, G, H,
) là ĐSGT mở rộng AXmr = (Xmr, C, G, Hmr, ), trong đó C cũng là tập các hằng tử của
AXmr, Hmr = HI  {h0} = H+  H  {I, h0}, ở đó H = {h-q, …, h-2, h-1}, h-q < ... < h-2 < h-1
và H+ = {h1, h2 ,... , hp}, h1 < h2 < ... < hp, nghĩa là HI = H  {I}, Xmr = X  {h0x | x  X}
và ≤ là quan hệ thứ tự mở rộng của X trên Xmr, nếu nó thỏa các tiên đề sau:
(A1) Toán tử đơn vị V (phần tử lớn nhất) trong H+ là dương hoặc âm đối với đối với
mọi gia tử trong H. Chẳng hạn V là dương đối với chính nó và đối với L trong H-.
(A2) Nếu u, v  X là độc lập, tức là u  HI(v) và v  HI(u) thì x  HI(u)  x  HI(v).
(A3) Kế thừa gia tử: Với x  X, h, k, h’, k’  H, ta có:
(i) x ≠ hx  x  HI(hx).
(ii) h ≠ k & hx  kx  h’hx  k’kx.

(iii)hx ≠ kx thì hx và kx là độc lập.
(A4) u  X, nếu v  HI(u) và v  u (v ≥ u) thì v  hu (v ≥ hu) với x  HI.
(A5mr) Các tiên đề cho lõi ngữ nghĩa của từ ngôn ngữ: với x, y  Xmr và x ≠ y,
(i) hh0x = h0x với h  Hmr và với x  X, h0x = x khi và chỉ khi x là hằng,
ngược lại x và h0x là không sánh được.
(ii) Với ∀ , ∈ , < ⟹ ℎ < & < ℎ . 
Các tiên đề của AXmr được bổ sung nhằm mục đích mô tả các đặc trưng của lõi ngữ
nghĩa của các từ ngôn ngữ dưới dạng quan hệ thứ tự.
Định lý 2.1. Cho AXmr = (Xmr, C, G, Hmr, ) là một ĐSGT mở rộng của một ĐSGT tuyến
tính và tự do AX = (X, C, G, H, ). Khi đó,
mr

(i) X

= X  {h0x: x  X \ C } và với x  C, h0x  X.
mr

< ⟺
tập {h0x: x  X} được sắp tuyến tính.

<ℎ

(ii) x, y  X , x ≠ y, ta có
(iii) Tập

=

∪ {ℎ

:

∈

(

)}

⟺ℎ

<

⟺ℎ

<ℎ

. Vì vậy

được sắp tuyến tính. 

Định lý sau khẳng định các tiên đề từ (A2) đến (A4) vẫn đúng đối với AXmr .
Định lý 2.2. Cho AXmr = (Xmr, C, G, Hmr, ) là một ĐSGT mở rộng của một ĐSGT tuyến
tính và tự do AX = (X, C, G, H, ). Nếu các tập X và H xuất hiện trong các tiên đề (A2),

8

(A3), (A4) được thay thế tương ứng trong bởi Xmr và Hmr thì các mệnh đề được ký hiệu
tương ứng là (A2mr), (A3mr), (A4mr) vẫn đúng đối với AXmr. 
Định lý 2.3. Mọi từ ngôn ngữ được cảm sinh từ AXmr có biểu diễn chính tắc duy nhất. 
2.2. MỞ RỘNG KHÁI NIỆM ĐỘ ĐO TÍNH MỜ

Để bảo đảm tính linh hoạt trong ứng dụng, ta giả thiết độ đo tính mờ của phần tử trung
hòa W là khác 0, tức fm(W) ≠ 0. Khi đó, hệ tiên đề của độ đo tính mờ mở rộng của AXmr
được phát biểu như sau:
Định nghĩa 2.2. Cho AXmr = (Xmr, C, G, Hmr, ) là một ĐSGT mở rộng của một ĐSGT
tuyến tính và tự do AX. Một hàm fm : Xmr  [0,1] được gọi là độ đo tính mờ của ĐSGT
AXmr nếu nó thỏa các tính chất sau:
(fm1) fm(c-) + fm(W) + fm(c+) = 1;
(fm2) hHmr fm(hu) = fm(u), uH(G);
(fm3) h  Hmr và x, y  H(G) thỏa x, y ≠ h0z thì

fm ( hx )
fm ( hy )

.
fm ( x )
fm ( y )

Tỷ số fm(hx)/fm(x) là không phụ thuộc vào x được gọi đó là độ đo tính mờ của gia tử h
và ký hiệu là (h) và h bao gồm cả h0.
Mệnh đề 2.1. Độ đo tính mờ fm của các từ ngôn ngữ của ĐSGT AXmr được định nghĩa như
trong Định nghĩa 2.2 thỏa các tính chất sau:
(1) fm(hx) = (h)×fm(x) với h  Hmr, x  H({c, c+}) và hx ≠ x;
(2) fm(x) = (hn)×...×(h1)fm(c), với x = hn...h1c, c  {c, c+} là biểu diễn chính tắc
của x  Xmr;
(3)



(4) ∑

hH mr

∈ (

 ( h)  1 ;
)

(ℎ

)+∑

∈

( ) = 1 với ∀ > 0. Với k = 1, ta có (fm1). 

2.3. HỆ KHOẢNG TÍNH MỜ LIÊN KẾT VỚI ĐỘ ĐO TÍNH MỜ
Gọi PI([0, 1]) là tập tất cả các khoảng con của đoạn [0, 1]. Ta luôn luôn quy ước là các
khoảng đều đóng ở đầu mút trái và mở ở đầu mút phải, trừ khi đầu mút phải là giá trị 1. Ta
có khái niệm khoảng tính mờ  của các từ ngôn ngữ của Xmr, (x) với ∈ ( ) =
{ ∈
: | | ≤ } = ( ) ∪ {ℎ : ∈ ( ) }, dựa trên hệ tiên đề của độ đo tính mờ:
Định nghĩa 2.3. Cho một ĐSGT mở rộng AXmr = (Xmr, C, G, Hmr, ) của một ĐSGT tuyến
tính và tự do AX và độ đo tính mờ fm: Xmr  [0, 1] thỏa các tính chất trong Định nghĩa
2.2. Giả sử mỗi từ ngôn ngữ x  ( ) được liên kết với một khoảng trong PI([0, 1]). Các
khoảng này được gọi là các khoảng tính mờ mức k của các từ ngôn ngữ tương ứng của
AXmr và nó được xây dựng quy nạp theo k như sau:
1) Với k = 1, xây dựng các khoảng tính mờ 1(c-), 1(W), 1(c+) với |1(x)| = fm(x),
sao cho chúng có thứ tự tương đồng với thứ tự của các hạng từ c-, W, c+.
9

2) Với k > 1 và xC, xây dựng các khoảng tính mờ k(x) sao cho (i) nếu |x| < k - 1 thì
|k(x)| = |k-1(x)|, (ii) nếu |x| = k - 1 thì |k(x)| = (h0)fm(x), (iii) nếu |x| = k thì |k(x)| =
fm(x), (iv) thứ tự của các khoảng tính mờ tương đồng với thứ tự của các hạng từ x, tức là,
với x, y  {hx: h  Hmr}, nếu x ≤ y thì k(x) ≤ k(y). 
Thuật toán 2.1. Thuật toán xây dựng hệ khoảng tính mờ.
Đầu vào: ( ) = {c, W, c+}, các tham số của AXmr và số k là độ dài tối đa của các từ.
Đầu ra:  là tập các khoảng với nhãn là các từ ngôn ngữ trong

( ).

Khởi tạo j = 1 và tập  bằng rỗng.
Bước 1: Với j = 1, xây dựng các khoảng I(x)  [0,1], với x 

( )

sao cho |I(x)| =

fm(x) và nếu x < x’ thì I(x) < I(x’).  =   I(x), là tập chứa các khoảng của các từ của
( ) có thứ tự tương đồng với thứ tự giữa các từ ngôn ngữ và là phân hoạch của [0,1].
Nếu k = 1 thì dừng, ngược lại nếu k > 1 thì thực hiện Bước 2.
Bước 2: j = j + 1. Xây dựng các khoảng của các từ ngôn ngữ x  ( ) như sau:
(i) Với các từ ngôn ngữ x thỏa |x| < j – 1, giữ nguyên các khoảng I(x)  ;
(ii) Với mỗi y thỏa |y| = j – 1, xây dựng các khoảng con I(hy)  I(y) với I(y)   sao
cho |I(hy)| = (h)|I(y)|, h  Hmr có thứ tự tương đồng với thứ tự của các từ ngôn ngữ.
 =   I(y), tập các khoảng được gán tương ứng cho các từ trong ( ) ;
Bước 3 (bước lặp): Lặp lại Bước 2 cho đến khi j = k. 
Kết thúc thuật toán, ta thu được  là tập các khoảng với nhãn là các từ trong ( ) .
Định lý 2.4. Thuật toán 2.1 về xây dựng các khoảng tính mờ là đúng đắn và các khoảng
tính mờ của ( ) có các tính chất sau:

(1) Với mỗi x thỏa |x| = k, khoảng tính mờ mức k của x, k(x), thỏa |k(x)| = fm(x), còn
với x mà |x| < j  k, k(x) = I(h0x) và |k(x)| = (h0)fm(x), tức là các hạng từ độ dài ngắn
hơn j có mặt trong ngữ cảnh cùng các hạng từ độ dài j sẽ có ngữ nghĩa bị co lại;
(2) Với mọi x 

( )

thỏa |x| = j < k, ta có k(x) = I(h0x) và |k(x)| = (h0)fm(x). Với x

thỏa |x| = j  k – 2, ta có k(x) = k-1(x).
(3) Tập tất cả các khoảng tính mờ mức k, FI(k) = {k(x), x 

( ) },

có các tính chất:

a- Đối với hạng từ hằng W, ta có k(W) = 1(W);
b- Với mỗi x  H({c,c+}) thỏa |x| = k – 1, tập các khoảng tính mờ {k(hx): h  Hmr}
là một phân hoạch nhị phân của khoảng tính mờ k-1(x) mức k – 1 của x.
c- Các khoảng tính mờ trong FI(k) có thứ tự tương đồng với thứ tự của các hạng từ của
chúng và lập thành một phân hoạch nhị phân của đoạn [0,1]. 
2.4. ÁNH XẠ NGỮ NGHĨA ĐỊNH LƯỢNG KHOẢNG
Định nghĩa 2.4. Cho AXmr là ĐSGT mở rộng của AX tuyến tính và tự do, ánh xạ f : Xmr 
PI([0, 1]) được gọi là ánh xạ định lượng khoảng của AXmr nếu nó thỏa các điều kiện sau:
(IQ1) f bảo toàn thứ tự trên Xmr, tức là nếu x  y thì f(x)  f(y), với x, y  Xmr;
(IQ2) f(Xmr) là tập trù mật trong [0, 1]. 
10

Định lý 2.5. Cho độ đo tính mờ fm của ĐSGT AXmr và  là tập tất cả các khoảng tính mờ

của các từ ngôn ngữ của AXmr được xác định bởi fm. Khi đó ánh xạ f: Xmr    PI[0, 1]
được định nghĩa như sau là ánh xạ định lượng khoảng:
f(x) = |x|+1(h0x)  PI[0, 1], với x, y  Xmr

(2.5)

với lưu ý rằng, nếu x = h0z thì f(x) = |x|+1(h0x) = |x|(h0z). 
2.5. MỞ RỘNG ĐỘ ĐO TÍNH MỜ CỦA CÁC PHẦN TỬ 0 VÀ 1
ĐSGT mở rộng AXmr được mở rộng thành ĐSGT mở rộng toàn phần với độ đo tính mờ
của hai phân tử 0 và 1 khác 0 và được ký hiệu là AXmrtp. Khi đó, hệ tiên đề của độ đo tính
mờ mở rộng của AXmrtp được phát biểu như sau:
Định nghĩa 2.5. Cho một ĐSGT mở rộng toàn phần AXmrtp = (Xmr, C, G, Hmr, ) của một
ĐSGT mở rộng tự do AXmr. Một hàm fm : Xmr  [0,1] được gọi là độ đo tính mờ của
ĐSGT AXmrtp nếu nó thỏa các tính chất sau:
(fmc1) fm(0) + fm(c-) + fm(W) + fm(c+) + fm(1) = 1;
(fmc2) hHmr fm(hu) = fm(u), uH(G);
(fmc3) h  Hmr và x, y  H(G) thỏa x, y ≠ h0z thì

fm ( hx )
fm ( hy )

. 
fm ( x )
fm ( y )

Từ Định lý 2.4, điểm mút trái của f(x) qua các độ đo tính mờ với k = |x| được tính:
L(f(x)) = ∑ ∈
( ) + ∑ ∈ ( )&
(ℎ ).
(2.6)

&
Công thức (2.6) chưa thể hiện mối quan hệ giữa giá trị định lượng và các tham số của
từ. Định lý sau cung cấp công thức đệ quy tính L(f(x)). Giả sử H+ = {hj: j = 1, …, p}, H- =
{ hj: j = -1, …, -q}, = ∑
(ℎ ) và = ∑
(ℎ ). Ta có, + + (ℎ ) = 1.
Định lý 2.6. Điểm mút trái của giá trị định lượng f được cảm sinh bởi các độ đo tính mờ
fm được tính đệ quy theo thủ tục sau:
(1) Với các từ có độ dài 1: L(f(0)) = 0, L(f(c-)) = fm(0) +  × fm(c-), L(f(W)) = fm(0) +
fm(c-), L(f(c+)) = fm(0) + fm(c-) + fm(W) và L(f(1)) = 1 - fm(1).
(2) Với y = hjx, x  X: đặt (x) = {1 + Sign(hjx)[(h0x) + Sign(hphjx)( - )]}/2, thì
L(f(hjx)) = L(f(x)) + Sign(hjx) × fm(x) × {
∑

( )

1+

ℎ

× (ℎ ) +

(ℎ ) − ( ) × (ℎ )}.

2.6. ỨNG DỤNG LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG TRONG
THIẾT KẾ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ
Luận án áp dụng phương pháp hai giai đoạn thiết kế FLRBC với ngữ nghĩa tính toán
của các từ được xác định bởi ĐSGT AXmr và AXmrtp, điểm khác biệt so với ĐSGT AX:
1) Thứ nhất, trong bước thiết kế các từ ngôn ngữ cho các thuộc tính của tập dữ liệu
huấn luyện, mỗi thuộc tính được liên kết với một ĐSGT AXmr hoặc AXmrtp thay vì AX. Tập

các từ mức k trong Xk đã bao gồm đầy đủ các hạng từ ngôn ngữ có độ dài nhỏ hơn hoặc
bằng k và tạo thành một phân hoạch trên miền giá trị định lượng chuẩn hóa [0, 1].
11

2) Thứ hai, ngữ nghĩa tính toán dựa trên tập mờ tam giác của các từ ngôn ngữ trong
biểu diễn cơ sở luật của FLRBC được thay bằng tập mờ hình thang.
2.6.1. Thiết kế ngữ nghĩa tính toán dựa trên tập mờ của các từ ngôn ngữ
Phương pháp luận cho việc thiết kế các từ ngôn ngữ với ngữ nghĩa dựa trên tập mờ có
độ dài tối đa của từ là kj cho bài toán phân lớp dựa trên luật mờ như sau:
+ Mỗi thuộc tính thứ j của tập dữ liệu huấn luyện được liên kết với một ĐSGT AXmrj
hoặc AXmrtpj, cảm sinh tập các từ ,( ) có thứ tự theo ngữ nghĩa định tính của chúng.
+ Ký hiệu
thể, ta có

tương ứng là tập các tham số tính mờ của AXmr và AXmrtp. Cụ

và
={

(

), fm(Wj), (hj,i), (h0,j)} và

={

(

), fm(Wj), fm(0j),

fm(1j), (hj,i), (h0,j)}. Khi cho các giá trị cụ thể của các tham số mờ, tất cả các khoảng tính
mờ ℑ
mức k ≤ kj và f(xj,i) của các từ trong ,( ) được xây dựng và tạo thành một
,
phân hoạch trên [0, 1]. Do

(

,

)ℑ (

,

), nên ta có (

,

)≤⋯≤ (

,

,

). Ký

kiệu L(•) và R(•) lần lượt là điểm mút trái và mút phải của một khoảng bất kỳ. Giả sử đặt a
= R(f(xj,i-1)), b = L(f(xj,i)), c = R(f(xj,i)), d = L(f(xj,i+1)), ta có công thức tính giá trị hàm thuộc
của tập mờ hình thang , ( ) của từ xj,i theo (2.7), trong đó v là một điểm dữ liệu.

,

( ) =

0vớihoặc < hoặc >
⎧
với ≤ <
⎪
⎨
⎪
⎩

1với ≤ ≤
với < ≤

(2.7)

Hai cấu trúc phân hoạch mờ được sử dụng là: 1) Cấu trúc đơn thể hạt (Hình 2.5), chỉ
duy nhất một phân hoạch mờ trên miền giá trị của mỗi thuộc tính của tập dữ liệu huấn
luyện và tất cả các tập mờ đều có mặt tại mức kj. 2) Cấu trúc đa thể hạt (Hình 2.7) sử dụng
nhiều phân hoạch mờ trên miền giá trị của mỗi thuộc tính của tập dữ liệu huấn luyện. Mỗi
thể hạt được cấu tạo bởi các tập mờ của các từ ngôn ngữ có độ dài bằng nhau.

Hình 2.5. Các tập mờ được thiết kế theo cấu trúc đơn thể hạt được sinh bởi ĐSGT AXmr.

a. Ngữ nghĩa tính toán dựa trên tập mờ hình thang của các từ có độ dài 1.

12

b. Ngữ nghĩa tính toán dựa trên tập mờ hình thang của các từ có độ dài 2.
Hình 2.7. Các tập mờ được thiết kế theo cấu trúc đa thể hạt được sinh bởi ĐSGT AXmr.

2.6.2. Sinh tập luật khởi đầu từ dữ liệu dựa trên ngữ nghĩa ĐSGT mở rộng
Đặt Л =  {

 {kj} | j = 1, …, n} với AXmr hoặc Л =  {

 {kj} | j = 1, …,

n} với AXmrtp và gọi chung các giá trị trong Л là các tham số ngữ nghĩa. Thủ tục xây dựng
tập luật khởi đầu từ mt mẫu dữ liệu của D là E_IFRG(Л, D, NR0, K, λ) như sau:
Thuật toán 2.2. E_IFRG (Thuật toán sinh tập luật khởi đầu).
Input: Tập mẫu dữ liệu D = {(dp, Cp) | p = 1, …, mt}, M lớp kết luận, n thuộc tính, các
tham số ngữ nghĩa Л, NR0 số luật khởi đầu, K giới hạn độ dài của các từ ngôn ngữ, λ giới
hạn độ dài tối đa của luật.
Output: Tập luật khởi đầu S0.
Begin
Bước 1: Xây dựng tập các hạng từ, tập khoảng tính mờ, tập ánh xạ định lượng khoảng
và các tập mờ hình thang của các từ đối với mọi thuộc tính của tập dữ liệu huấn luyện.
Bước 2: Sinh tập luật ứng viên từ tập dữ liệu huấn luyện.
Tập các khoảng tính mờ ℑ (

, ( ))

chứa thành phần dữ liệu dl,j xác định một khối hộp

Hl chứa mẫu dữ liệu dl. Khối hộp Hl cùng với lớp kết luận Cl của pl xác định luật mờ cơ sở
độ dài n có dạng sau:

IF X1 is x1,i(1) AND … AND Xn is xn,i(n) THEN Cl
(Rb)
Phần kết luận của luật là lớp Cq được chọn từ các nhãn lớp có độ tin cậy của luật là lớn
nhất. Từ các luật cơ sở có độ dài n, các luật ứng viên có độ dài nhỏ hơn n được xây dựng
bằng cách bỏ đi một số điều kiện tiền đề Al,j của luật cơ sở.
Bước 3. Chọn lọc tập luật khởi đầu S0 từ tập luật ứng viên sử dụng tiêu chuẩn sàng.
Sắp xếp các luật giảm dần trong mỗi nhóm theo tiêu chuẩn sàng và chọn ra NB0 luật
trong mỗi nhóm từ trên xuống dưới. Trả lại tập luật khởi đầu S0.
End.
Sau Bước 3 ta thu được hệ luật khởi đầu S0 có NR0 = NB0 * M luật. Các luật được gán
một trọng số được tính bằng một trong các công thức (1.7), (1.8), (1.9), (1.10).
Độ phức tạp của thủ tục E_IFRG là đa thức đối với kích thước và số thuộc tính của tập
dữ liệu mẫu D.
2.6.3. Bài toán tối ưu các từ ngôn ngữ và tìm kiếm hệ luật tối ưu
Để hiệu chỉnh thích nghi các tham số ngữ nghĩa được nêu ở trên cho phù hợp với từng
tập dữ liệu huấn luyện, bài toán tiến hóa tối ưu hóa đa mục tiêu thiết kế các từ ngôn ngữ
13

tối ưu cho bài toán phân lớp P được đặt ra với E_IFRG(Л, D, NR0, K, λ) là thủ tục xây
dựng hệ luật khởi đầu và với các ràng buộc về các tham số ngữ nghĩa đã được nêu ở trên.
Khi đó, các mục tiêu của bài toán tìm kiếm giá trị tối ưu của các tham số ngữ nghĩa với cơ
sở luật S được sinh ra bởi thủ tục E_IFRG là:
maximize perf(S) và maximize avg(S)-1
(2.9)
trong đó perf(S) là tỷ lệ phân lớp đúng của hệ S trên tập mẫu huấn luyện, avg(S)-1 là
nghịch đảo của độ dài luật trung bình của hệ S. Số luật của hệ S được cố định trước theo
từng tập dữ liệu huấn luyện cụ thể.
Sau quá trình tối ưu trên ta thu được tập các bộ tham số ngữ nghĩa gần tối ưu Лopt. Sinh
tập luật khởi đầu S0 với NR0 luật sử dụng một bộ tham số ngữ nghĩa trong Лopt. Bài toán

đặt ra là phải chọn ra một tập luật con của S0 cho FLRBC sao cho đạt các mục tiêu sau:
maximize perf(S), maximize NR(S)-1 và maximize avg(S)-1
(2.10)
với ràng buộc S  S0, NR(S)  Nmax.
trong đó NR(S)-1 là nghịch đảo của số luật trung bình và Nmax là số luật tối đa được chọn và
được xác định trước. Mỗi cá thể ứng với mỗi lời giải là một tập luật S được chọn từ S0 và
được biểu diễn bởi một chuỗi số thực ri = (p1, ..., pNmax), pj  [0, 1]. Giá trị pj xác định chỉ
số của luật trong S0 được chọn cho S có giá trị là pj × |S0|, ta có 0  pj × |S0| < |S0|.
S = {Ri  S0 | i = pj × |S0|, i ≥ 0}

(2.11)

trong đó • là phép lấy phần nguyên.
2.7. KẾT LUẬN CHƯƠNG 2
Chương này nghiên cứu phát triển mở rộng lý thuyết ĐSGT nhằm mô hình hóa lõi ngữ
nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang và ứng dụng trong thiết kế tự
động FLRBC.
CHƯƠNG 3
CÀI ĐẶT MÔ PHỎNG TRÊN MÁY TÍNH VÀ SO SÁNH ĐÁNH GIÁ
3.1. CÀI ĐẶT THỰC NGHIỆM
3.1.1. Giải thuật tối ưu bầy đàn đa mục tiêu
Giải thuật PSO đa mục tiêu (MOPSO) dựa trên khái niệm chia sẻ thích nghi được
Lechuga M. S. đề xuất năm 2006 như sau:
Thuật toán 3.1. MOPSO (Giải thuật tối ưu đa mục tiêu PSO)
Đầu vào: Cấu hình cần được huấn luyện;
Đầu ra: Cấu hình là kết quả của quá trình huấn luyện.

Begin
Bước 1: Các biến popi, pbesti, gbesti, fSharei được khởi tạo. Biến fSharei được tính như sau:
fSharei =

x
nCount i

(3.4)
n

j
trong đó, x = 10. nCounti được tính như sau: nCounti   sharingi
j 0

14

(3.5)

trong đó, n là số particle trong bộ nhớ lưu trữ, sharingij được tính toán theo (3.2).
Bước 2: Tốc độ của mỗi particle được tính toán như sau:
veli = ω × veli + c1 × r1 × (pbesti − popi) + c2 × r2 × (gbesth − popi)
(3.6)
trong đó, ω là hệ số inertia, c1 và c2 là các hệ số tăng tốc, veli là giá trị tốc độ liền trước đó, r1
và r2 là các giá trị ngẫu nhiên giữa 0 và 1, pbesti là vị trí tốt nhất được tìm thấy bởi particle,
gbesth là particle được đi theo và popi là vị trí hiện tại của particle trong không gian biến.
Bước 3: Vị trí mới của các particle được tính như sau: popi = popi + veli
(3.7)
Bước 4: Các vị trí mới của bầy được đánh giá.
Bước 5: Bộ nhớ lưu trữ được cập nhật theo tiêu chuẩn tính trội và chia sẻ thích nghi.
Bước 6: Bộ nhớ của từng particle được cập nhật sử dụng tiêu chuẩn tính trội.
Bước 7: Chấm dứt nếu đạt điều kiện kết thúc, ngược lại thì trở về Bước 2.

End.
3.1.2. Giải bài toán tối ưu các từ ngôn ngữ và tìm kiếm hệ luật tối ưu bằng MOPSO
Tối ưu các tham số ngữ nghĩa sử dụng giải thuật MOPSO là MOPSO_SPO.
Thuật toán 3.2. MOPSO_SPO (Tối ưu các tham số ngữ nghĩa)
Đầu vào: Cấu hình đầu vào
Đầu ra: Tập các tham số ngữ nghĩa tối ưu Лopt.

Begin
Cụ thể hóa Giải thuật 3.1 với vị trí của mỗi cá thể là một bộ tham số ngữ nghĩa cần tối ưu;
Trả lại tập các giá trị tốt nhất của các tham số ngữ nghĩa Лopt;

End.
3.1.3. Dữ liệu và phương pháp thực nghiệm
Các thực nghiệm được tiến hành đối với 23 tập dữ liệu mẫu UCI được cộng đồng
nghiên cứu thừa nhận bao gồm: Appendicitis, Australian, Bands, Bupa, Cleveland,
Dermatology, Glass, Haberman, Hayes-roth, Heart, Hepatitis, Ionosphere, Iris,
Mammographic, Newthyroid, Pima, Saheart, Sonar, Tae, Vehicle, Wdbc, Wine, Wisconsin.
Phương pháp kiểm tra chéo 10 nhóm (10-fold cross-validation) được sử dụng và được lặp
lại 3 lần đối với một tập dữ liệu được thử nghiệm. Kết quả cuối cùng của các lần thử
nghiệm sau khi lựa chọn được hệ luật tối ưu được tính trung bình đối với số luật #R, độ
phức tạp của hệ luật #C, tỷ lệ phân lớp đúng trên tập huấn luyện Ptr và trên tập kiểm tra
Pte. Độ phức tạp của hệ luật được tính theo công thức #C = #R × Avg, trong đó Avg là độ
dài trung bình của hệ luật.
Số thế hệ khi tối ưu các tham số ngữ nghĩa MOPSO_SPO là 250, tìm kiếm hệ luật tối
ưu MOPSO_RBO là 1000. Số cá thể mỗi thế hệ là 600.
Các ràng buộc đối với các tham số ngữ nghĩa như sau: số gia tử âm và gia tử dương
đều được lấy là 1. Giới hạn độ dài của các từ ngôn ngữ 0 < kj ≤ 3. Giá trị của các độ đo
tính mờ: Với ĐSGT AXmr: 0,2 ≤
( ), (Lj) ≤ 0,7; 0,0001 ≤ fm(Wj) ≤ 0,2;
+

+
≤ 0,01; 0,15 ≤
+

= 1; 0,0001 ≤ (h0,j) ≤ 0,5. Với ĐSGT AXmrtp: 0,00001 ≤ fm(0), fm(1)
(
+

), (Lj) ≤ 0,7; 0,0001 ≤ fm(Wj) ≤ 0,2;
( ) = 1; 0,0001 ≤ (h0,j) ≤ 0,5.
15

( )+

+

Trừ trường hợp được đề cập cụ thể, phương pháp lập luận phân lớp được sử dụng là
Single winner rule, công thức tính trọng số luật là CFIII, tiêu chuẩn sàng luật là tích của độ
tin cậy và độ hỗ trợ (c × s).
3.2. SO SÁNH HAI PHƯƠNG PHÁP THIẾT KẾ PHÂN HOẠCH MỜ ĐƠN VÀ ĐA
THỂ HẠT
Dựa trên kết quả thực nghiệm và so sánh đối với 23 tập dữ liệu được thực nghiệm và
sử dụng phương pháp kiểm định thống kê Wilcoxon Signed Rank đối với hiệu suất phân
lớp và độ phức tạp của hệ luật, ta có thể kết luận tiếp cận thiết kế hệ phân lớp dựa trên
phương pháp luận ĐSGT áp dụng phương pháp thiết kế đa thể hạt cho hiệu suất phân lớp
tốt hơn phương pháp thiết kế đơn thể hạt.
3.3. SO SÁNH HAI PHƯƠNG PHÁP LẬP LUẬN SINGLE WINNER RULE VÀ
WEIGTED VOTE
Phân tích kết quả thực nghiệm đối với 23 tập dữ liệu mẫu và kết quả kiểm định giả

thuyết thống kê Wilcoxon Signed Rank đối với hiệu suất phân lớp và độ phức tạp của hệ
luật, ta có thể kết luận rằng, các tiếp cận thiết kế hệ phân lớp dựa trên phương pháp luận
ĐSGT AX, AXmr, AXmrtp sử dụng phương pháp lập luận single winner rule đều cho hiệu
suất phân lớp tốt hơn so với phương pháp lập luận weighted vote tương ứng.
3.4. SO SÁNH CÁC PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP THEO TIẾP
CẬN ĐSGT
Ký hiệu phương pháp thiết kế FLRBC với ngữ nghĩa tính toán của từ được xác định
dựa trên ĐSGT AX, ĐSGT AXmr và ĐSGT AXmrtp tương ứng là FRBC_AX, FRBC_AXmr và
FRBC_AXmrtp. Theo các kết quả thực nghiệm trong Bảng 3.14, hệ phân lớp FRBC_AXmrtp
cho kết quả phân lớp trên tập kiểm tra cao hơn so với hệ phân lớp FRBC_AX đối với 19
tập dữ liệu và cao hơn so với hệ phân lớp FRBC_AXmr đối với 15 tập dữ liệu trong số 23
tập dữ liệu mẫu được thực nghiệm. Với các kết quả kiểm định thống kê Wilcoxon Signed
Rank, ta có thể khẳng định rằng, việc ứng dụng ĐSGT AXmrtp trong thiết kế FLRBC cho
hiệu suất phân lớp tốt hơn so với việc ứng dụng ĐSGT AXmr và ĐSGT AX, ĐSGT AXmr
cho hiệu suất phân lớp tốt hơn ĐSGT AX.
Bảng 3.14. So sánh các kết quả thực nghiệm giữa hệ phân lớp FRBC_AXmrtp và hai hệ
phân lớp FRBC_AX và FRBC_AXmr.
Tập
dữ liệu
App
Aus
Ban
Bup
Cle
Der
Gla
Hab
Hay
Hea
Hep

FRBC_AXmrtp

FRBC_AXmr

FRBC_AX

#C

Ptr

Pte

#C

16,77
46,50
58,20
181,19
468,13
182,84
474,29
10,80
114,66
123,29
25,53

92,38
88,56
78,19

79,78
66,64
96,37
78,78
77,60
89,40
89,19
93,68

88,15
87,15
73,46
72,38
62,39
94,40
72,24
77,40
84,17
84,57
89,28

21,32
36,20
52,20
187,20
657,43
198,05
343,60
10,20
122,27

122,72
26,16

Ptr
92,28
88,06
76,17
78,13
72,44
98,03
80,45
76,91
90,11
89,63
95,83

≠Pte ≠R×C

Pte
87,55
86,38
72,80
68,09
62,19
96,07
72,09
75,76
84,17
84,44
88,44

0,60
0,77
0,66
4,29
0,20
-1,67
0,15
1,64
0,00
0,13
0,84

16

-4,55
10,30
6,00
-6,00
-189,3
-15,22
130,69
0,60
-7,61
0,57
-0,63

#C
16,91
41,85

78,19
170,70
640,19
189,46
488,38
20,00
139,42
120,69
25,75

Ptr

Pte

91,30
87,72
76,28
77,54
69,86
96,88
80,26
77,67
89,98
88,07
94,44

88,09
86,86
72,10
69,41

63,40
95,52
72,78
77,43
83,33
84,57
89,17

≠Pte

≠R×C

0,06
-0,14
0,29
4,65
1,36 -19,99
2,97
10,50
-1,01 -172,05
-1,12
-6,63
-0,54 -14,09
-0,03
-9,20
0,84 -24,76
0,00
2,60
0,11
-0.22

Ion
Iri
Mam
New
Pim
Sah
Son
Tae
Veh
Wdb
Win
Wis

88,03
30,37
73,84
39,82
56,12
59,28
49,31
210,70
195,07
25,04
40,39
69,81

94,69
98,25

85,49
96,76
78,69
75,51
87,59
68,97
70,74
97,08
99,60
97,78

91,56 90,33 95,35 90,22 1,34
97,33 26,29 98,40 96,00 1,33
84,20 92,25 86,05 84,20 0,00
95,67 45,18 97,02 94,42 1,25
77,01 60,89 78,28 76,18 0,83
70,05 86,75 76,35 69,33 0,72
78,61 79,76 88,39 76,80 1,81
61,00 261,00 72,11 59,47 1,53
68,20 242,79 70,30 67,62 0,58
96,78 37,35 97,62 96,96 -0,18
98,49 35,82 99,88 98,30 0,19
96,95 74,36 97,81 96,74 0,21

TB

114,78 86,16 82,67 126,53 86,77 81,92

-2,30
4,08

-18,41
-5,36
-4,78
-27,47
-30,46
-50,30
-47,72
-12,31
4,57
-4,55

83,71
34,59
82,08
30,93
50,33
58,41
53,91
163,61
216,19
23,08
42,09
59,81

94,67
98,35
85,31
96,30
78,53
74,55

86,84
68,36
71,64
97,16
100,0
97,20

90,98
96,67
84,46
95,03
76,66
70,27
77,29
59,46
68,12
95,96
98,52
96,51

0,58
0,66
-0,26
0,64
0,35
-0,22
1,32
1,54
0,08
0,82

-0,03
0,44

4,32
-4,22
-8,24
8,89
5,79
0,88
-4,60
47,09
-21,12
1,96
-1,70
10,00

123,05 86,04 82,29

3.5. SO SÁNH VỚI MỘT SỐ PHƯƠNG PHÁP THEO TIẾP CẬN LÝ THUYẾT
TẬP MỜ
Các kết quả thực nghiệm của hai hệ phân lớp FRBC_AXmr và FRBC_AXmrtp được so
sánh với một số các kết quả theo tiếp cận lý thuyết tập mờ được công bố gần đây của R.
Alcalá, 2011 và M. Antonelli, 2014.
Trong R. Alcalá, 2011, đã đề xuất kỹ thuật lựa chọn phân hoạch đơn thể hạt từ các
phân hoạch đa thể hạt. Theo kết quả thực nghiệm, có hai kỹ thuật cho kết quả tốt hơn cả là
All Granularities và Product/1-ALL TUN. Các kết quả thực nghiệm, so sánh tương ứng
được thể hiện trong Bảng 3.17 và Bảng 3.20. Cả hai hệ phân lớp FRBC_AXmr và
FRBC_AXmrtp đều cho hiệu suất phân lớp trung bình trên tập kiểm tra đối với 23 tập dữ
liệu thử nghiệm cao hơn so nhưng có độ phức tạp của hệ phân lớp thấp hơn so với hai hệ
phân lớp All Granularities và Product/1-ALL TUN. Theo kết quả kiểm định giả thuyết

thống kê Wilcoxon Signed Rank, ta có thể khẳng định rằng cả hai hệ phân lớp
FRBC_AXmr và FRBC_AXmrtp đều tốt hơn so với các phương pháp được đề xuất trong R.
Alcalá, 2011 về hiệu suất phân lớp nhưng không tăng độ phức tạp của hệ phân lớp.
Bảng 3.17. So sánh các kết quả thực nghiệm của hệ phân lớp FRBC_AXmr so với hai hệ
phân lớp All Granularities và Product-1-ALL TUN.
Tập
dữ
liệu
App
Aus
Ban
Bup
Cle
Der
Gla
Hab
Hay
Hea
Hep
Ion
Iri
Mam
New

FRBC_AXmr
#C
16,91
41,85
78,19
170,70

640,19
189,46
488,38
20,00
139,42
120,69
25,75
83,71
34,59
82,08
30,93

All Granularities

Ptr

Pte

91,30
87,72
76,28
77,54
69,86
96,88
80,26
77,67
89,98
88,07
94,44
94,67

98,35
85,31
96,30

88,09
86,86
72,10
69,41
63,40
95,52
72,78
77,43
83,33
84,57
89,17
90,98
96,67
84,46
95,03

#C
8,84
4,00
57,18
112,59
1132,14
220,36
408,83
90,55
140,03

109,45
35,34
141,33
27,40
102,46
49,40

Ptr
91,86
85,51
71,36
69,50
73,11
99,07
78,65
79,46
90,88
90,19
96,10
95,64
99,11
83,07
96,19

Pte

Product/1-ALL TUN
≠Pte

≠R×C

#C

87,91 0,18
8,07
20,89
85,51 1,35 37,85
62,43
68,73 3,37 21,01 104,09
63,99 5,42 58,11 210,91
55,11 8,29 -491,95 1020,66
94,12 1,40 -30,90 185,28
60,48 12,30 79,54 534,88
71,89 5,54 -70,55
21,13
78,03 5,30 -0,61 158,52
83,46 1,11 11,24 164,61
20,29
90,44 -1,27 -9,59
88,62 2,36 -57,62
86,75
95,11 1,56
7,19
18,54
81,04 3,42 -20,38 106,74
91,78 3,25 -18,48
56,47

17

Ptr

Pte

93,47
89,18
71,18
78,59
77,21
99,28
83,68
76,82
90,99
91,87
97,88
96,25
98,30
83,90
98,02

87,30
85,65
65,80
67,19
58,80
94,48
71,28
71,88
78,88
82,84

88,53
90,79
97,33
80,49
94,60

≠Pte ≠R×C
0,79
1,21
6,30
2,22
4,60
1,04
1,50
5,55
4,45
1,73
0,64
0,19
-0,66
3,97
0,43

-3,98
-20,58
-25,90
-40,21
-380,47
4,18
-46,50

-1,13
-19,11
-43,92
5.,46
-3,04
16,05
-24,66
-25,55

Pim
Sah
Son
Tae
Veh
Wdb
Win
Wis

50,33
58,41
53,91
163,61
216,19
23,08
42,09
59,81

78,53
74,55

86,84
68,36
71,64
97,16
100,0
97,20

76,66 95,01 77,80 74,92
70,27 76,24 76,70 71,14
77,29 70,67 86,54 78,88
59,46 147,09 66,55 54,57
68,12 492,55 69,34 62,81
95,96 55,74 97,12 94,90
98,52 32,10 100,0 96,08
96,51 77,41 98,22 96,07

TB

123,05

86,04 82,29 160,29 85,74 79,37

1,74
-0,87
-1,59
4,89
,31
1,06
2,44
0,44

-44,68
-17,83
-16,76
16,52
-276,36
-32,66
9,99
-17,60

57,20
110,84
47,59
215,92
382,12
44,27
58,99
69,11
163,0

79,06
77,73
87,91
71,21
71,11
97,33
99,92
98,33

77,05

70,13
78,90
60,78
66,16
94,90
93,03
96,35

-0,39
0,14
-1,61
-1,32
1,96
1,06
5,49
0,16

-6,87
-52,43
6,32
-52,31
-165,93
-21,19
-16,90
-9,31

87,36 80,57

Bảng 3.20. So sánh các kết quả thực nghiệm của hệ phân lớp FRBC_AXmrtp so với hai hệ
phân lớp All Granularities và Product-1-ALL TUN.

Tập
dữ
liệu
App
Aus
Ban
Bup
Cle
Der
Gla
Hab
Hay
Hea
Hep
Ion
Iri
Mam
New
Pim
Sah
Son
Tae
Veh
Wdb
Win
Wis
TB

FRBC_AXmrtp

All Granularities

Pte

16,77
46,50
58,20
181,19
468,13
182,84
474,29
10,80
114,66
123,29
25,53
88,03
30,37
73,84
39,82
56,12
59,28
49,31
210,70
195,07
25,04
40,39
69,81

92,38
88,56

78,19
79,78
66,64
96,37
78,78
77,60
89,40
89,19
93,68
94,69
98,25
85,49
96,76
78,69
75,51
87,59
68,97
70,74
97,08
99,60
97,78

8,84 91,86 87,91 0,24
7,93
20,89
88,15
4,00 85,51 85,51 1,64 42,50
62,43
87,15
57,18 71,36 68,73 4,73

1,02 104,09
73,46
72,38 112,59 69,50 63,99 8,39 68,60 210,91
62,39 1132,14 73,11 55,11 7,28 -664,01 1020,66
94,40 220,36 99,07 94,12 0,28 -37,52 185,28
72,24 408,83 78,65 60,48 11,76 65,45 534,88
90,55 79,46 71,89 5,51 -79,75
21,13
77,40
84,17 140,03 90,88 78,03 6,14 -25,37 158,52
84,57 109,45 90,19 83,46 1,11 13,84 164,61
89,28
35,34 96,10 90,44 -1,16 -9,81
20,29
86,75
91,56 141,33 95,64 88,62 2,94 -53,30
27,40 99,11 95,11 2,22
2,97
18,54
97,33
84,20 102,46 83,07 81,04 3,16 -28,62 106,74
49,40 96,19 91,78 3,89 -9,59
56,47
95,67
77,01
95,01 77,80 74,92 2,09 -38,89
57,20
70,05
76,24 76,70 71,14 -1,09 -16,95 110,84
78,61

70,67 86,54 78,88 -0,27 -21,36
47,59
61,00 147,09 66,55 54,57 6,43 63,61 215,92
68,20 492,55 69,34 62,81 5,39 -297,49 382,12
55,74 97,12 94,90 1,88 -30,70
44,27
96,78
98,49
32,10 100,0 96,08 2,41
8,29
58,99
77,41 98,22 96,07 0,88 -7,60
69,11
96,95

114,78

86,16 82,67

#C

Pte

≠R×C

Ptr

#C

Ptr

Product/1-ALL TUN
≠Pte

160,29 85,74 79,37

#C

163,0

Ptr

Pte

93,47
89,18
71,18
78,59
77,21
99,28
83,68
76,82
90,99
91,87
97,88
96,25
98,30
83,90
98,02
79,06

77,73
87,91
71,21
71,11
97,33
99,92
98,33

87,30
85,65
65,80
67,19
58,80
94,48
71,28
71,88
78,88
82,84
88,53
90,79
97,33
80,49
94,60
77,05
70,13
78,90
60,78
66,16
94,90
93,03

96,35

≠Pte ≠R×C
0,85
1,50
7,66
5,19
3,59
-0,08
0,96
5,52
5,29
1,73
0,75
0,77
0,00
3,71
1,07
-0,04
-0,08
-0,29
0,22
2,04
1,88
5,46
0,60

-4,12
-15,93
-45,89

-29,72
-552,52
-2,44
-60,59
-10,33
-43,86
-41,32
5,24
1,28
11,83
-32,89
-16,66
-1,08
-51,56
1,72
-5,22
-187,05
-19,23
-18,60
0,70

87,36 80,57

Hai hệ phân lớp được đề xuất trong luận án được so sánh với các kết quả được đề xuất
của M. Antonelli, 2014 có tên là PAES-RCS, một tiếp cận khai thác tiến hóa đa mục tiêu
để học đồng thời cơ sở luật và các tham số của các hàm thuộc của FLRBC. Các kết quả
thực nghiệm và so sánh giữa hệ phân lớp PAES-RCS và các hệ phân lớp FRBC_AXmrtp và
FRBC_AXmr được thể hiện trong Bảng 3.23. Theo kết quả kiểm định thống kê Wilcoxon
Signed Rank, cả hai hệ phân lớp FRBC_AXmrtp và FRBC_AXmr đều cho kết quả tốt hơn hệ
phân lớp PAES-RCS cả về hiệu suất phân lớp và độ phức tạp của hệ phân lớp.

Bảng 3.23. So sánh các kết quả thực nghiệm của hệ phân lớp FRBC_AXmrtp và
FRBC_AXmr so với hệ phân lớp PAES-RCS.
Tập dữ
liệu

PAES-RCS
#C

Pte

FRBC_AXmrtp
#C

Pte

FRBC_AXmr
≠Pte

18

≠R×C

#C

Pte

≠Pte

≠R×C

App
Aus
Ban
Bup
Cle
Der
Gla
Hab
Hay
Hea
Hep
Ion
Iri
Mam
New
Pim
Sah
Son
Tae
Veh
Wdb
Win
Wis
TB

35,28
329,64
756,00
256,20

1140,00
389,40
487,90
202,41
120,00
300,30
300,30
670,63
69,84
132,54
97,75
270,64
525,21
524,60
323,14
555,77
183,70
170,94
328,02
355,23

85,09
85,80
67,56
68,67
59,06
95,43
72,13
72,65
84,03

83,21
83,21
90,40
95,33
83,37
95,35
74,66
70,92
77,00
60,81
64,89
95,14
93,98
96,46
80,66

16,77
46,50
58,20
181,19
468,13
182,84
474,29
10,80
114,66
123,29
25,53
88,03
30,37
73,84

39,82
56,12
59,28
49,31
210,70
195,07
25,04
40,39
69,81
114,78

88,15
87,15
73,46
72,38
62,39
94,40
72,24
77,40
84,17
84,57
89,28
91,56
97,33
84,20
95,67
77,01
70,05
78,61
61,00

68,20
96,78
98,49
96,95
82,67

-3,06
-1,35
-5,90
-3,71
-3,33
1,03
-0,11
-4,75
-0,14
-1,36
-6,07
-1,16
-2,00
-0,83
-0,32
-2,35
0,87
-1,61
-0,19
-3,31
-1,64
-4,51
-0,49

18,51
283,14
697,80
75,01
671,87
206,56
13,61
191,61
5,34
177,01
274,77
582,60
39,47
58,70
57,93
214,52
465,93
475,29
112,44
360,70
158,66
130,55
258,21

16,91
41,85
78,19
170,70
640,19
189,46

488,38
20,00
139,42
120,69
25,75
83,71
34,59
82,08
30,93
50,33
58,41
53,91
163,61
216,19
23,08
42,09
59,81
123,05

88,09
86,86
72,10
69,41
63,40
95,52
72,78
77,43
83,33
84,57
89,17

90,98
96,67
84,46
95,03
76,66
70,27
77,29
59,46
68,12
95,96
98,52
96,51
82,29

-3,00
-1,06
-4,54
-0,74
-4,34
-0,09
-0,65
-4,78
0,70
-1,36
-5,96
-0,58
-1,34
-1,09
0,32
-2,00

0,65
-0,29
1,35
-3,23
-0,82
-4,54
-0,05

18.37
287.79
677.81
85.5
499.81
199.94
-0.48
182.41
-19.42
179.61
274.55
586.92
35.25
50.46
66.82
220.31
466.8
470.69
159.53
339.58
160.62
128.85

268.21

3.5. SO SÁNH ĐÁNH GIÁ VỚI MỘT SỐ TIẾP CẬN KHÁC
Các kết quả được đề xuất trong luận án được so sánh với kết quả của hai phương pháp
thiết kế hệ phân lớp không dựa vào cơ chế tiến hóa là FURIA và C4.5. FURIA (Fuzzy
Unordered Rules Induction Algorithm) là một mở rộng của giải thuật RIPPER với việc sử
dụng các luật mờ thay vì các luật rõ, khai thác từ các tập luật không được sắp xếp thay vì
các tập luật được sắp xếp. Hệ phân lớp C4.5 là hệ phân lớp dựa trên cây quyết định khai
thác khái niệm entropy thông tin. Các kết quả thực nghiệm và kiểm định giả thuyết thông
kê, ta có thể kết luận rằng cả hai hệ phân lớp FRBC_AXmr và FRBC_AXmrtp thực sự tốt
hơn FURIA và C4.5 cả về hiệu suất phân lớp lẫn độ phức tạp của hệ phân lớp.
3.7. KẾT LUẬN CHƯƠNG 3
Chương này trình bày các cài đặt thực nghiệm bao gồm dữ liệu thực nghiệm, phương
thức tiến hành thực nghiệm, các tham số, kết quả thực nghiệm và đánh giá so sánh.
CHƯƠNG 4
MỘT SỐ CẢI TIẾN TRONG THIẾT KẾ HỆ PHÂN LỚP DỰA TRÊN LUẬT
NGÔN NGỮ MỜ VỚI NGỮ NGHĨA DỰA TRÊN ĐSGT
Chương này trình bày việc áp dụng một số kỹ thuật làm tăng hiệu quả của phương
pháp thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ trên cơ sở đại số gia tử.
4.1. NÂNG CAO CHẤT LƯỢNG CỦA HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN
NGỮ MỜ BẰNG CÁC GIẢI THUẬT TỐI ƯU
4.1.1. So sánh tính hiệu quả của giải thuật MOPSO so với giải thuật GSA
19

Theo các kết quả thực nghiệm, giải thuật tối ưu MOPSO cho hiệu quả phân lớp trung
bình trên tập kiểm tra cao hơn (80,83% so với 80,50%) và có độ phức tạp trung bình của
các hệ luật thấp hơn (141,64 so với 177,49) đáng kể so với giải thuật tối ưu GSA. Theo
các kết quả kiểm định thống kê, ta có thể kết luận rằng tiếp cận thiết kế hệ phân lớp dựa
trên phương pháp luận ĐSGT truyền thống AX sử dụng MOPSO cho kết quả tốt hơn so

với sử dụng GSA đối với cả hiệu suất phân lớp và độ phức tạp của hệ phân lớp.
4.1.2. So sánh tính hiệu quả của giải thuật MOPSO-SA so với giải thuật MOPSO
4.1.2.1. Giải thuật tối ưu đa mục tiêu lai MOPSO-SA
Giải thuật mô phỏng tôi luyện (simulated annealing - SA) được sử dụng nhằm giúp các
particle của MOPSO thoát khỏi vùng tối ưu địa phương để tiếp tục quá trình tìm kiếm do
giải thuật SA sử dụng luật chấp thuận Metropolis (metropolis acceptance rule).
Giải thuật mô phỏng tôi luyện SA
Thuật toán 4.1. SA (Thuật toán mô phỏng tôi luyện)
Đầu vào: Cấu hình cần được huấn luyện; Các tham số: E, T0, α, điều kiện kết thúc.
Đầu ra: Cấu hình là kết quả của quá trình huấn luyện.

Begin
Bước 1: Khởi tạo cấu hình ban đầu với năng lượng E, tỷ suất làm lạnh α  [0, 1] và T = T0.
Bước 2: Tính sự thay đổi năng lượng ∆E của cấu hình hiện tại.
Bước 3: Nếu giá trị ∆E âm, cấu hình mới được chấp nhận. Ngược lại, cấu hình mới được
chấp nhận với xác suất P  e ( E / k T ) , kB là hằng số Boltzman.
B

Bước 4: Nếu đạt điều kiện kết thúc, quá trình tôi luyện kết thúc. Ngược lại, giảm nhiệt độ T
= α×T và nhảy tới Bước 2.

End.
Giải thuật tối ưu đa mục tiêu lai MOPSO-SA
Thuật toán 4.2. MOPSO-SA (giải thuật tối ưu bầy đàn mô phỏng tôi luyện)
Đầu vào: Cấu hình cần được huấn luyện; Các tham số: Gmax, Tmax, α, n, D.
Đầu ra: Cấu hình là kết quả của quá trình huấn luyện.

Begin
Bước 1: Khởi tạo t = 0, và sinh ngẫu nhiên n particle của thế hệ ban đầu. Nhiệt độ ban đầu T0
= Tmax, tỷ suất làm lạnh α, số thế hệ Gmax. Các giá trị của các hàm mục tiêu của mỗi particle

đánh giá. Giá trị chia sẻ thích nghi của từng each particle được tính theo công thức (3.4).
Bước 2: Với mỗi i trong bầy đàn.
Bước 2.1: Tính tốc độ của velit 1 của particle i theo công thức (3.6).
Bước 2.2: Tính vị trí mới pop it 1 của particle i theo công thức (3.7).
Bước 2.3: Đánh giá các giá trị mục tiêu của particle thứ i.
Bước 2.4: Kiểm tra tiêu chuẩn tính trội giữa vị trí mới pop it 1 của particle i và vị trí cũ của nó
tại thế hệ trước đó
vị trí

pop it 1

pop it .

Nếu vị trí

pop it 1

trội hơn vị trí pop it , nghĩa là vị trí mới tốt hơn, thì

được chấp nhận là vị trí mới của particle i. Ngược lại, tính giá trị RMSR:
RMSR =

1
D

D
t 1
i, j

 ( fitness

 fitnessit, j )2

(4.1)

j 1

trong đó, D là số mục tiêu. Sinh ngẫu nhiên một số δ  [0, 1]. Vị trí mới được chấp nhận nếu

20

δ > e ( RMSR /T ) hoặc số lần di chuyển thất bại lớn hơn 100. Nếu vị trí mới được chấp nhận thì
nhảy tới Bước 2. Ngược lại, nhảy tới Bước 2.1.
Bước 3: Cập nhật bộ nhớ lưu trữ ngoài theo tiêu chuẩn tính trội và chia sẻ thích nghi.
Bước 4: Cập nhật bộ nhớ của các particle dựa trên tiêu chuẩn tính trội.
Bước 5: Nếu đạt điều kiện kết thúc, giải thuật chấm dứt và đầu ra là tập các phương án tốt
nhất được lưu trong bộ nhớ lưu trữ ngoài. Ngược lại, thay đổi nhiệt độ tôi luyện Tt 1    Tt ,
t

tăng t = t + 1, và nhảy tới Bước 2.

End.
4.1.2.2. Ứng dụng giải thuật MOPSO-SA thiết kế tối ưu các từ ngôn ngữ và lựa chọn
hệ luật tối ưu
Với các mục tiêu tối ưu (2.8), giải thuật tối ưu các tham số ngữ nghĩa được cấu trúc
hóa bằng giải thuật MOPSO-SA và được đặt tên là MOPSOSA_SPO.
Thuật toán 4.3. MOPSOSA_SPO (Tối ưu các tham số ngữ nghĩa)
Đầu vào: tập dữ liệu mẫu D = {(dp, Cp) | p = 1, …, m}, các tham số: a, b, NR0, Npop, Gmax, K, λ,
Tmax, α; //Npop là kích thước bầy, Gmax là số thế hệ.

Đầu ra: Tập các tham số ngữ nghĩa tối ưu Лopt;

Begin
Giải thuật này cụ thể hóa Giải thuật 4.2 với vị trí của mỗi cá thể là một bộ tham số ngữ nghĩa;
Trả lại tập các giá trị tốt nhất của các tham số ngữ nghĩa Лopt;

End.
4.1.2.3. Thực nghiệm so sánh giải thuật MOPSO-SA so với giải thuật MOPSO
Qua các kết quả thực nghiệm đối với 23 tập dữ liệu và các kết quả kiểm định
Wilcoxon Signed Rank, ta có thể kết luận rằng, việc sử dụng giải thuật tối ưu MOPSO-SA
trong thiết kế FLRBC với ngữ nghĩa ĐSGT AX cho hiệu suất phân lớp tốt hơn so với việc
sử dụng giải thuật MOPSO (82,48% so với 81,92%) và việc sử dụng giải thuật tối ưu
MOPSO-SA trong thiết kế FLRBC với ngữ nghĩa dựa trên ĐSGT AXmrtp không những cho
hiệu suất phân lớp tốt hơn (82,94% so với 82,67%) mà còn cho độ phức tạp trung bình
thấp hơn (107,52 so với 114,78) so với việc sử dụng giải thuật tối ưu MOPSO.
4.2. CẢI TIẾN PHƯƠNG PHÁP SINH LUẬT MỜ SINH LUẬT MỜ VỚI NGỮ
NGHĨA DỰA TRÊN ĐẠI SỐ GIA TỬ ÁP DỤNG LỰA CHỌN ĐẶC TRƯNG
Với mục tiêu làm giảm số chiều của các tập dữ liệu có số chiều lớn trước khi thực hiện
sinh luật sử dụng ĐSGT, luận án đề xuất ứng dụng kỹ thuật lựa chọn đặc trưng với trọng
số động do Sun X. đề xuất năm 2013 như một bước tiền xử lý bổ sung cho phương pháp
hai bước thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ trên cơ sở ĐSGT.
4.2.1. Một số khái niệm cơ bản về lý thuyết thông tin
4.2.2. Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động
Công thức phân tích tính hợp lý: ( , ) = 2 ×

( ; )
( )

( )

(0 ≤ ( , ) ≤ 1)

(4.8)

Tỷ lệ phụ thuộc lẫn nhau giữa fi và fj biểu thị tỷ lệ tăng hoặc giảm của tính hợp lý giữa
fi và nhãn lớp bởi có sự tham gia của thuộc tính mới được định nghĩa như sau:
21

(, )=

( , ),
( , ),

;

> ( ;
;

≤ ( ;

)
)

(4.13)

( , ) ≤ 1.
Ta thấy rằng −1 ≤
Giải thuật lựa chọn đặc trưng DWFS được đề xuất bởi Sun X. dưới dạng mã giả:
Thuật toán 4.4. DWFS.

Đầu vào: Tập dữ liệu huấn luyện D với không gian thuộc tính F và lớp C.
Đầu ra: Tập con S được lựa chọn có thuộc tính.

Begin
Khởi tạo các biến: k = 1, = ∅; Khởi tạo trọng số w(f) cho từng thuộc tính f trong F bằng 1;
Tính giá trị U(f, class) cho từng thuộc tính f trong F;
While ≤ do
For từng thuộc tính ứng viên ∈ do
Tính ( ) = ( ,
) × ( );
End;
Chọn thuộc tính ứng viên fj có J(f) lớn nhất; = ∪ { }; F = F \ {fj};
For từng thuộc tính ứng viên ∈ do
Tính tỷ lệ phụ thuộc lẫn nhau CR(i, j); ( ) = ( ) × (1 + ( , ));
End; k = k + 1;

End.
Độ phức tạp của giải thuật DWFS là ( × ) như đã được chứng minh bởi Sun X.,
trong đó, n là số thuộc tính gốc và số thuộc tính được lựa chọn.
4.2.3. Ứng dụng giải thuật DWFS trong thiết kế FLRBC trên cơ sở ĐSGT
Phương pháp hai giai đoạn thiết kế FLRBC theo tiếp cận ĐSGT được bổ sung thêm
một giai đoạn tiền xử lý áp dụng giải thuật DWFS. Bước tiền xử lý như sau: Với mỗi tập
dữ liệu cụ thể, các thuộc tính có giá trị liên tục được phân hoạch thành các cụm bằng việc
áp dụng kỹ thuật phân cụm mờ c-means với hàm chỉ số hợp lệ cụm (cluster validity index
function) PBMF để rời rạc hóa dữ liệu và sau đó áp dụng giải thuật DWFS để lựa chọn
một tập con các thuộc tính có tính phân biệt nhất.
4.2.4. Kết quả thực nghiệm và thảo luận
Sau khi áp dụng kỹ thuật lựa chọn đặc trưng, thời gian sinh luật giảm đáng kể. Chẳng
hạn, thời gian sinh tập luật khởi đầu từ tập dữ liệu Dermatology gốc trong trường hợp độ
dài luật tối đa là 3 hết 07:41:03 hay 27.663 giây, lớn hơn 5.532 lần so với sau khi áp dụng

kỹ thuật lựa chọn đặc trưng lựa chọn ra 7 thuộc tính.
Kết quả thực nghiệm về hiệu suất phân lớp của FLRBC trên cơ sở ĐSGT AX và ĐSGT
AX
đối với tập dữ liệu gốc và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng
trên kết quả trung bình đối với 8 tập dữ liệu được thử nghiệm, hiệu suất trung bình và độ
phức tạp trung bình của các hệ phân lớp không có nhiều khác biệt. Các kết quả kiểm định
giả thuyết thống kê cho ta kết luận, việc áp dụng phương pháp lựa chọn đặc trưng như một
bước tiền xử lý trong phương pháp thiết kế FLRBC trên cơ sở ĐSGT không làm giảm chất
lượng của hệ phân lớp. Để giảm thời gian sinh luật từ các tập dữ liệu có số chiều lớn, kỹ
thuật lựa chọn đặc trưng nên được áp dụng như một kỹ thuật tiền xử lý dữ liệu.
22
mrtp

4.3. BIỂU DIỄN NGỮ NGHĨA TÍNH TOÁN DỰA TRÊN TẬP MỜ HÌNH THANG
ĐẢM BẢO TÍNH GIẢI NGHĨA ĐƯỢC CỦA KHUNG NHẬN THỨC NGÔN NGỮ
Đảm bảo tính giải nghĩa được của khung nhận thức ngôn ngữ (LFoC) là đảm bảo ngữ
nghĩa tính toán (tập mờ) của các từ ngôn ngữ phải được xây dựng từ ngữ nghĩa vốn có của
chúng và phải bảo toàn những đặc trưng riêng của ngữ nghĩa định tínhcủa chúng (khái
quát và cụ thể). N. C. Hồ và các cộng sự đã đưa ra 4 ràng buộc trên ngữ nghĩa tính toán
của các từ ngôn ngữ nhằm đảm bảo tính giải được của khung nhận thức ngôn ngữ.
Ràng buộc thứ nhất. Ngữ nghĩa vốn có của các từ ngôn ngữ của một biến ngôn ngữ xuất
hiện trong một cơ sở luật về nguyên tắc được sử dụng để tạo ra một cơ sở hình thức hóa
cho việc xác định ngữ nghĩa định lượng của các từ ngôn ngữ, bao gồm ngữ nghĩa dựa trên
tập mờ, cho biểu diễn ngữ nghĩa của cơ sở luật.
Ràng buộc thứ hai. Ngữ nghĩa tính toán của các từ ngôn ngữ, bao gồm ngữ nghĩa dựa
trên tập mờ, phải được sinh ra dựa trên một cơ chế hình thức hóa đầy đủ của miền giá trị
của các biến ngôn ngữ.
Ràng buộc thứ ba. Với một tập các từ cụ thể
của một biến ngôn ngữ X, phép gán

: ⟶
với Intv là tập các khoảng trên miền giá trị số được chuẩn hóa của X biểu thị
ngữ nghĩa khoảng của các từ của phải bảo toàn tính khái quát và tính cụ thể của các từ.
Cụ thể, hai từ x và hx ∈ với h là một gia tử, quan hệ (ℎ ) ⊆ ( ) phải được thỏa.
Ràng buộc thứ tư. Để bảo toàn ngữ nghĩa của các luật ngôn ngữ, các phép gán ngữ nghĩa
tính toán của các từ ngôn ngữ của một biến X xuất hiện trong các luật phải bảo toàn thứ tự
ngữ nghĩa của các từ của X.
Cấu trúc phân hoạch mờ đơn thể hạt không thỏa Ràng buộc thứ ba, tức (ℎ ) ⊈
( ), do độ hỗ trợ của tập mờ ứng với từ ngôn ngữ x không chứa độ hỗ trợ của từ ngôn
ngữ hx được cảm sinh từ x nhờ gia tử h.
Với cấu trúc phân hoạch mờ đa thể hạt dựa trên độ dài của các từ, độ hỗ trợ của từ x
không chứa độ hỗ trợ của các từ hx, do đó phân hoạch được tạo ra không thỏa Ràng buộc
thứ ba nêu trên. Để thỏa Ràng buộc thứ ba, N. C. Hồ và các cộng sự đề xuất tách các từ
ngôn ngữ có độ dài bằng 1 tại mức k = 1 thành hai mức: mức k = 0 chỉ bao gồm 3 từ ngôn
ngữ 00, W và 10, mức k = 1 bao gồm 4 từ ngôn ngữ 01, c-, c+ và 11. Với cách biểu diễn này,
độ hỗ trợ của tập mờ ứng với từ ngôn ngữ x hoàn toàn chứa độ hỗ trợ của từ ngôn ngữ hx
và Ràng buộc thứ ba, tức (ℎ ) ⊆ ( ) và kết quả là thỏa cả bốn ràng buộc nêu trên.
Các kết quả thực nghiệm cho thấy, hệ phân lớp với cấu trúc đa thể hạt mới có hiệu suất
phân lớp trên tập kiểm tra tốt hơn so với hệ phân lớp với cấu trúc đa thể hạt cũ đối với 18
tập dữ liệu mẫu trong số 23 tập dữ liệu mẫu được thử nghiệm. Các kết quả kiểm định giả
thuyết thống kê Wilcoxon Signed Rank cho ta kết luận, phương pháp thiết kế đa thể hạt
với mức k = 1 được tách thành hai mức 0 và 1 như được trình bày ở trên không những có
ngữ nghĩa dựa trên tập mờ hình thang của các từ ngôn ngữ thỏa Ràng buộc thứ ba và đảm
bảo tính giải nghĩa được của khung ngôn nhận thức ngôn ngữ, mà còn cho hiệu suất phân
lớp tốt hơn so với phương pháp thiết kế đa thể hạt không tách mức k = 1.
23

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ VÀ ĐẠI SỐ GIA TỬ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về