Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật tt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

HOÀNG VĂN THÔNG

NGHIÊN CỨU NGỮ NGHĨA TÍNH TOÁN
CỦA TỪ NGÔN NGỮ VÀ ỨNG DỤNG VÀO VIỆC
XÂY DỰNG HỆ MỜ TỐI ƯU DỰA TRÊN LUẬT
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62.46.01.10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2016
1


Công trình được hoàn thành tại:
Học viện Khoa học và Công Nghệ – Viện Hàn lâm Khoa học và Công nghệ Việt
Nam

Người hướng dẫn khoa học:

1. PGS. TSKH Nguyễn Cát Hồ
2. PGS. TS Nguyễn Văn Long

Phản biện 1: PGS.TS Nguyễn Đình Hóa
Phản biện 2: PGS.TS Bùi Thu Lâm


Phản biện 3: TS Nguyễn Đức Dũng

Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học Viện:
Vào hồi … giờ …., ngày …. tháng …. năm …….

Có thể tìm hiểu luận án tại:
1. Thư viện Quốc gia Việt Nam
2. Thư viện Học viện Khoa học và Công nghệ

2


MỞ ĐẦU
Dựa trên lý thuyết tập mờ, hệ mờ dựa trên luật (Fuzzy Rule Based
System - FRBS) là một trong những công cụ gặt hái được nhiều thành công
trong giải quyết các bài toán điều khiển, phân lớp, hồi quy.
Khi xây dựng các FRBS, hai mục tiêu cần đạt được là độ chính xác
(accuracy) và tính giải nghĩa được (interpretability). Đây là hai mục tiêu
xung đột nhau, vì vậy, khi xây dựng các FRBS các thuật toán luôn phải
hướng tới đảm bảo sự cân bằng (tradeoff) giữa hai mục tiêu này. Tính giải
nghĩa được của FRBS được đặc biệt quan tâm khi nó được ứng dụng vào
các lĩnh vực mà ở đó con người làm trung tâm (ví dụ: y tế, giáo dục, …). Ở
đây các FRBS được xem như là các hộp xám (gray-boxes), tức là người
dùng có thể kiểm tra và hiểu được các thành phần của nó [11]. Do đó, trong
những năm gần đây vấn đề tính giải nghĩa được của FRBS trở thành một
chủ đề “nóng” trong lĩnh vực này.
Hiện tại có nhiều quan điểm khác nhau về tính giải nghĩa được, trong
một số nghiên cứu cố gắng đánh giá tính giải nghĩa được bằng cách phân
chia các yếu tố liên quan đến nó theo các mức và thiết lập một tập các ràng
buộc ở các mức đó. Trong [26] Gacto cho rằng hiện tại có hai hương tiếp

cận chính về tính giải nghĩa được. Hướng thứ nhất dựa trên độ phức tạp,
hướng này tập trung vào việc làm giảm độ phức tạp của mô hình đạt được,
thường sử dụng các độ đo như số luật, số biến, độ dài của luật, số từ sử dụng
cho một biến,…. Hướng thứ hai dựa trên ngữ nghĩa, hướng này tập trung
vào đảm bảo tính toàn vẹn ngữ nghĩa của các nhãn ngôn ngữ, được thể hiện
bằng các tập mờ được thiết kế cho FRBS và ngữ nghĩa của luật. Hướng tiếp
cận dựa trên lý thuyết tập mờ thiếu một phương pháp hình thức toán học
đầy đủ để xác định ngữ nghĩa tính toán của từ từ ngữ nghĩa vốn có của nó,
dẫn đến việc gán ngữ nghĩa tính toán được biểu diễn bằng tập mờ cho các
nhãn ngôn ngữ và các ràng buộc tính giải nghĩa được của FRBS đều dựa
trên trực quan của người thiết kế. Do đó tính chính xác ngữ nghĩa của các
nhãn từ không được đảm bảo và ở đó phải đưa ra nhiều ràng buộc cho tính
giải nghĩa được của FRBS (trong [41] Mencar đưa ra 37 ràng buộc). Theo
chúng tôi ngữ nghĩa tính toán của từ là yếu tố quan trọng để đảm bảo tính
giải nghĩa được của FRBS. Vì vậy, cần phải tìm kiếm một hướng tiếp cận
mới cho vấn đề này mà ở đó ngữ nghĩa tính toán của từ được xác định bằng
một phương pháp hình thức đầy đủ dựa trên ngữ nghĩa vốn có của nó.
1


Nhằm khắc phục một số hạn chế của hướng tiếp cận theo lý thuyết tập
mờ trong [50, 52] đã phát triển các thuật toán theo hướng tiếp cận dựa trên
Đại số gia tử (ĐSGT) xây dựng LRBS (ở đây gọi là LRBS thay vì FRBS do
các từ sử dụng trong nó là từ ngôn ngữ tự nhiên) giải bài toán phân lớp.
Mặc dù, ứng dụng ĐSGT vào giải quyết bài toán phân lớp đã tạo ra các
LRBS có hiệu quả phân lớp khá tốt. Tuy nhiên, ngữ nghĩa tính toán của từ
vẫn không bảo toàn được tính khái quát và tính đặc tả vì vậy chúng ta cần
tiếp tục nghiên cứu phát triển các thuật toán tốt hơn và nghiên cứu ứng dụng
ĐSGT vào giải quyết các bài toán mới nhằm chứng minh tính hiệu quả của
phương pháp luận dựa trên ĐSGT. Bên cạnh đó, vấn đề tính giải nghĩa được

của LRBS chưa được quan tâm nghiên cứu trong hướng tiếp cận này. Với
những mục tiêu đặt ra, luận án đã đạt được một số kết quả sau:
1) Đề xuất ba thuật toán tiến hóa xây dựng LRBS giải bài toán phân
lớp, bài toán hồi quy trong đó ngữ nghĩa tính toán (NNTT) của từ ngôn ngữ
sử dụng trong LRBS được xác định bằng ĐSGT và mục tiêu tính giải nghĩa
được của LRBS được định nghĩa dựa trên độ phức tạp.
2) Đề xuất hướng tiếp cận mới cho vấn đề tính giải nghĩa được của
LRBS theo hướng tiếp cận dựa trên ĐSGT, đề xuất 4 ràng buộc về tính giải
nghĩa được ở mức phân hoạch mờ hay là mức thấp của các LRBS.
3) Phát biểu khái niệm khung nhận thức ngôn ngữ (LFoC), đề xuất
phương pháp thiết kế NNTT của tập từ ngôn ngữ của LFoC dựa trên ngữ
nghĩa vốn có của từ được xác định bằng ĐSGT thỏa mãn các ràng buộc đã
đề xuất.
4) Phát biểu các định lý khẳng định tính đúng đắn của phương pháp
thiết kế NTTT và những ràng buộc mà nó thỏa mãn.
5) Đề xuất thuật toán xây dựng các LRBS giải bài toán hồi quy, trong
đó mục tiêu tính giải nghĩa được của LRBS được đánh giá dựa trên hướng
tiếp cận mới.

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
1.1. Một số kiến thức cơ bản về lý thuyết tập mờ
1.1.1. Định nghĩa tập mờ
Định nghĩa 1.1: [63, 65] Cho U là một tập các điểm (đối tượng) với
các phần tử ký hiệu bởi x, U={x}. Một tập mờ A trên U là một tập mà mỗi
phần tử của nó là một cặp các giá trị ((x,  A(x)), trong đó x U và  A là ánh
2


xạ:


 A : U  [0, 1]
(1.1)
Trong đó ánh xạ  A được gọi là hàm thuộc của tập mờ A. Tập U được

gọi là cơ sở của tập mờ A, ký hiệu A  ( x,  A ( x)) : x U , hàm  A(x) biểu thị
cấp độ thuộc của phần tử x vào tập mờ A, nếu giá trị của  A(x) càng gần 1
thì cấp độ thuộc của x vào A cao hơn.
1.1.2. Xây dựng hàm thuộc
Khi xây dựng các hàm thuộc, một yêu cầu đặt ra là giá trị của nó phải
biến thiên từ 0 đến 1.
1.1.3. Biến ngôn ngữ
Biến ngôn ngữ là những biến mà giá trị của nó là các từ ngôn ngữ.
1.1.4. Phân hoạch mờ
Phân hoPhân hoạch mờị của nó là các từ ngôn ngữ.thhóa các miền xác
định của các biến ngôn ngữ.
1.2. Một số kiến thức về Đại số gia tử
1.2.1. Định nghĩa đại số gia tử
Định nghĩa 1.5: [49] Một ĐSGT được ký hiệu là bộ 4 thành phần được
ký hiệu là AX = (X, G, H, ) trong đó G là tập các phần tử sinh, H là tập các
gia tử (hedge) còn “” là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong
G có chứa các phần tử hằng 0, 1, W với ý nghĩa là phần tử bé nhất, phần tử
lớn nhất và phần tử trung hòa (neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ
x  X là một hạng từ (term) trong ĐSGT.
Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, H,
) gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm hai gia tử tới hạn là
 và  với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi
tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX* = (X, G,
H, , , ).
1.2.2. Một số tính chất của đại số gia tử tuyến tính
1.2.3. Độ đo tính mờ của các giá trị ngôn ngữ

Định nghĩa 1.6: [49] Cho AX *= (X, G, H, , , ) là một ĐSGT tuyến
tính đầy đủ. Ánh xạ fm: X  [0,1] được gọi là một độ đo tính mờ của các
hạng từ trong X nếu:
(i) fm là đầy đủ, tức là fm(c-) + fm(c+) =1 và hH fm(hu) = fm(u),
uX;
3


(ii) fm(x) = 0, với các x thỏa H(x) = {x} và fm(0) = fm(W) = fm(1) = 0;
fm(hx) fm(hy)

(iii) x,y  X, h  H, ký hiệu  (h) =
, tỷ số này không
fm( x)
fm( y)
phụ thuộc vào x và y, và nó được gọi là độ đo tính mờ của các gia tử.
Mệnh đề 1.1: [49] Với độ đo tính mờ fm và  đã được định nghĩa trong
Định nghĩa 1.6, ta có:
(i) fm(c-) + fm(c+) = 1 và



hH

fm(hx)  fm( x) ;

(ii) j 1 q  (h j )   ,  pj1  (h j )   , với  ,  > 0 và  +  = 1;
(iii) xX fm( x)  1 , trong đó Xk là tập các hạng từ có độ dài đúng k;
k


(iv) fm(hx) =  (h).fm(x), và xX, fm(x) = fm(x) = 0;
(v) Cho fm(c-), fm(c+) và  (h) với hH, khi đó với x = hn...h1c, c 
{c-, c+}, dễ dàng tính được độ đo tính mờ của x như sau: fm(x) =
 (hn)... (h1)fm(c).
1.2.4. Định lượng ngữ nghĩa của giá trị ngôn ngữ
Định nghĩa 1.8: Một hàm dấu Sign: X  {-1, 0, 1} là một ánh xạ được
định nghĩa đệ qui như sau, trong đó h, h'  H và c  {c-, c+}:
(i1) Sign(c-) = -1, Sign(c+) = 1;
(i2) Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h
dương đối với c;
(i3) Sign(h'hx) = -Sign(hx), nếu h'hx  hx và h' âm đối với h; Sign(h'hx)
= Sign(hx), nếu h'hx  hx và h' dương đối với h;
(i4) Sign(h'hx) = 0, nếu h'hx = hx.
Dựa trên định nghĩa hàm dấu để chúng ta so sánh hx và x.
Định nghĩa 1.9: Cho AX* là một ĐSGT tuyến tính đầy đủ và fm là một
độ đo tính mờ trên X. Ta nói ánh xạ 𝔳𝔛 : X  [0, 1] được cảm sinh bởi độ
đo tính mờ fm nếu được định nghĩa bằng đệ qui như sau:
(i) 𝔳𝔛 (W)== fm(c-), 𝔳𝔛 (c-)=  –  fm(c-) = .fm(c-), 𝔳𝔛 (c+) = 
+ fm(c+);
(ii) 𝔳𝔛 (hjx) = 𝔳𝔛 (x)+ Sign(h x)   (h ) fm( x)   (h x) (h x) fm( x) ,
j i  sign ( j )
i
j
j

i  sign ( j )

(1.5)
với mọi j, –q  j  p và j  0, trong đó:
4



1
 (h j x)  1  Sign(h j x) Sign(hp h j x)(   )  ,   ;
2

(iii) 𝔳𝔛 (c-) = 0, 𝔳𝔛 (c-) =  = 𝔳𝔛 (c+), 𝔳𝔛 (c+) = 1, và với mọi j thỏa
–q  j  p, j  0, ta có:
1
Sign( j )
𝔳𝔛 (hjx) = 𝔳𝔛 (x) + ijSign
 (hi ) fm( x) 1  Sign(h j x)  (h j ) fm( x),
( j)
2

1
Sign( j )
𝔳𝔛 (hjx) = 𝔳𝔛 (x) + Sign(hj x)ijSign
 (hi ) fm( x) 1  Sign(h j x) (h j ) fm( x).
( j)
2

1.2.5. Khoảng tính mờ
Khoảng tính mờ của các hạng từ x  X, ký hiệu fm(x), là một đoạn
con của [0, 1], fm(x)  Itv([0, 1]), độ dài bằng độ đo tính mờ, |fm(x)| =
fm(x).
1.2.6. Hệ khoảng tương tự
Một khía cạnh khác của ngữ nghĩa định lượng của các hạng từ là khái
niệm khoảng tương tự mức k, với k là một số dương xác định chiều dài tối
đa của các hạng. Các khoảng tương tự ℭ(𝑥) của các từ trong X(k) hình thành

một phân hoạch của U và 𝔳𝔛(x) ℭ(𝑥). Các giá trị của tất cả các khoảng
mờ tương tự ℭ(𝑥) được coi như là tương tự với những khoảng khác và với
giá trị 𝔳𝔛(x) của x với một cấp độ k.

1.3. Hệ mờ dựa trên luật
1.3.1. Các thành phần của hệ mờ
Một FRBS gồm có các thành phần cơ bản sau: cơ sở dữ liệu là các tập
của các tập mờ được gán nhãn dùng để xây dựng phân hoạch mờ miền tham
chiếu của các biến, FRB là một tập các luật mờ dạng if-then có dạng:
rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (q = 1,..,M) (1.6)
trong đó Aqj là các tập mờ, M là số luật. Nếu 𝔛n+1 là biến ngôn ngữ thì ta gọi
là mô hình mờ Mamdani, 𝔛n+1 là biến thực thì ta gọi là mô hình mờ TakagiSugeno. Và hệ suy diễn thực hiện lập luận xấp xỉ dựa trên cơ sở tri thức và
các giá trị đầu vào. Với bài toán phân lớp thường sử dụng một trong hai
phương pháp single-winner rule hoặc weighted vote. Với bài toán hồi quy
thường sử dụng phương pháp trung bình trọng số.
1.3.2. Các mục tiêu khi xây dựng FRBS
Khi xây dựng các FRBS hai mục tiêu cần đạt được là hiệu quả thực
hiện và tính giải nghĩa được của FRBS.
5


1) Đánh giá hiệu quả thực hiện của FRBS
Với bài toán phân lớp được đánh giá dựa trên tỉ lệ phần trăm số mẫu
được phân lớp chính xác trên tổng số mẫu dữ liệu kiểm tra.
Với bài toán hồi quy, sử dụng độ đo giá trị sai số bình phương trung
bình (MSE). Giá trị MSE càng nhỏ thì độ chính xác của FRBS càng cao.
1
N
(1.12)
MSE 

( yˆ i  y i ) 2

i 1
2N
trong đó yˆ i là giá trị suy diễn từ FRBS với giá trị đầu vào pi, N là số mẫu dữ
liệu kiểm tra.
2) Vấn đề tính giải nghĩa được của FRBS
Tính giải nghĩa được của FRBS là vấn đề phức tạp, việc lựa chọn một
độ đo tính giải nghĩa được hiện tại vẫn là vấn đề mở. Trong một số nghiên
cứu cố gắng đánh giá tính giải nghĩa được của FRBS bằng cách phân chia
nó theo các mức và thiết lập một tập các ràng buộc ở các mức này. FRBS
thỏa mãn càng nhiều ràng buộc thì tính giải nghĩa được càng cao.
1.4. Kết luận chương 1
Trong chương này, luận án đã trình bày tóm tắt những kiến thức cơ sở
làm nền tảng phục vụ trong quá trình nghiên cứu. Nó bao gồm những nội
dung chính sau đây: lý thuyết tập mờ, lý thuyết của ĐSGT, các thành phần
của FRBS. Với những kiến thức cơ sở được trình bày trong chương này là
nền tảng để thực hiện các mục tiêu đã đặt ra của luận án.
CHƯƠNG 2. PHÁT TRIỂN CÁC THUẬT TOÁN TIẾN HÓA
XÂY DỰNG CÁC LRBS GIẢI BÀI TOÁN PHÂN LỚP, HỒI QUY
Trong chương này, luận án phát triển các thuật toán xây dựng LRBS,
trong đó ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong LRBS được
xác định bằng ĐSGT và tính giải nghĩa được của LRBS được định nghĩa
dựa trên độ phức tạp giải bài toán phân lớp, hồi quy. Các thuật toán thực
hiện học đồng thời ngữ nghĩa tính toán của từ ngôn ngữ được biểu diễn
bằng tập mờ tam giác, số từ sử dụng trên mỗi biến và cơ sở luật.
2.1 Phát triển thuật toán giải bài toán phân lớp
2.1.1. Bài toán phân lớp
Bài toán phân lớp Error! Reference source not found.7, 28, 39, 50]:
Cho một tập mẫu dữ liệu D ={ (pi, Ci), i = 1,..,N }, pi là một véc tơ n chiều

có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của các
6


biến (thuộc tính) 𝔛j của bài toán, với j = 1,..,n, Ci  C tập các nhãn có m
lớp, i = 1,.., m, N là số mẫu dữ liệu. Từ tập mẫu dữ liệu D xây dựng một mô
hình cho phép phân lớp bất kỳ mẫu dữ liệu p  U = U1  ...  Un.
Giải bài toán bằng FRBS là xây dựng một hệ các luật mờ S, để phân
lớp hay ánh xạ từ tập dữ liệu U vào tập các giá trị nhãn lớp trong C.
Khi phát triển các thuật toán giải bài toán này, chúng ta phải thực hiện
các công việc sau:
- Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)
- Sinh tập các luật mờ ứng cử
- Tìm kiếm hệ luật mờ tối ưu S từ tập các luật mờ ứng cử
Trong chương này chúng tôi đề xuất thuật toán được goi là OPHA-SGERD
gồm hai pha:
- Pha 1 thiết kế các tập từ ngôn ngữ sử dụng trong LRRB bằng việc
phát triển thuật toán OP-PARHA dựa trên thuật giải di truyền (GA) đề tìm
các bộ tham số tính mờ tối ứu của ĐSGT.
- Pha 2 tìm kiếm hệ luật tối ưu bằng việc phát triển thuật toán HAOFRB dựa trên thuật giải di truyền.
Trong cả hai pha, tập luật ứng cử được sinh ra bằng thuật toán HASGERD được phát triển dựa trên ĐSGT, thuật toán SGERD và một trong
các tiêu chuẩn chọn luật trong mục 2.1.3. Trong đó hàm mục tiêu của các
giải thuật GA là f(S) = wp.fp(S) + wn.fn(S)-1 + wa.fa(S)-1  max, ở đây 0 <
wp, wn, wa < 1 và wp+wn+wa = 1, fp(S) là hàm đánh giá hiệu quả phân lớp,
fn(S) là số luật và fa(S) là độ dài trung bình của vế trái trong hệ luật S.
2.1.2 Thuật toán OPHA-SGERD
1) Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)
Phân hoạch mờ được thiết kế dựa trên ngữ nghĩa định lượng của các
từ ngôn ngữ Aji (i=1,..,|Xj|) được sinh ra từ một ĐSGT tuyến tính AXj tương
ứng với biến 𝔛j.

1

c-

Vc-

0

Lc-

W

Lc+ c+

Vc+

1

0

0

0.1

0.2

0.3

0.4


0.5

0.6

0.7

0.8

0.9

Hình 2.1. Một phân hoạch mờ đơn thể hạt được xây dựng dựa trên ĐSGT
7

1


2) Các tiêu chuẩn chọn luật
Tiêu chuẩn được xác định bằng hiệu giữa tổng độ đốt cháy luật của các
mẫu dữ liệu được đoán nhận chính xác và không chính xác:
f ( Aq  Cq )    A ( p i )    A ( pi )
(2.3)
j

piClassCq

piClassCq

q

Tiêu chuẩn (2.4) cải tiến tiêu chuẩn (2.3) với việc bổ sung tham số

ngưỡng để ước lượng không gian quyết định của luật:
f ( Aq  Cq )    A ( p i )    A ( p i )   j (1   q ) (2.4) trong đó q là số mẫu
pi ClassCq

j

pi ClassCq

q

dữ liệu có độ đốt cháy luật rq cao hơn q. q là tham số ngưỡng được xác
định như sau  q  0.5 với lq là độ dài của luật rq.
lq

Tiêu chuẩn (2.5) thay  q  0.5 trong (2.4) bằng  q   với  (0, 1)
lq

được

tối

ưu

f ( Aq  Cq ) 

 

piClassCq

Aj


lq

trong
( pi ) 

 

piClassCq

quá

trình

( p i )   q (1   )
lq

Aq

tiến

hóa

(2.5). Trong đó

q là số mẫu dữ liệu có độ đốt cháy luật rq lớn hơn  l .
q

3) Thuật toán sinh hệ luật ứng cử
Để sinh tập luật ứng cử chúng tôi phát triển thuật toán HA-SGERD

dựa trên thuật toán SGERD trong [39] với phân hoạch mờ miền tham chiếu
của các biến được xây dựng như trong mục 2.1.2. Thuật toán này sinh ra
tập luật ứng cử rất nhỏ.
4) Thuật toán OP-PARHA thiết kế ngôn ngữ
Thiết kế ngôn ngữ là đi tìm bộ tham số tính mờ tối ưu của ĐSGT. Giả
thiết mỗi biến 𝔛j chỉ có 2 gia tử, một gia tử dương (Vj) và một gia tử âm
(Lj). Khi đó việc tối ưu tham số của ĐSGT cho mỗi tập dữ liệu là đi tìm bộ
j
j
tham số tối ưu op ={( o fmc
 , o L , okj, o): j = 1,..,n} với tiêu chuẩn chọn luật
j
j
(2.5) hoặc op ={( o fmc
 , o L , okj) : j=1,..,n} với tiêu chuẩn còn lại.

Để tìm tham số tính mờ tối ưu của ĐSGT, chúng tôi thiết kế thuật toán
OP-PARHA dựa trên giải thuật di truyền với sơ đồ mã hóa nhị phân. Và
hàm mục tiêu perf(R, D) là hiệu quả phân lớp của hệ luật R trên toàn bộ tập
mẫu dữ liệu D, R được sinh ra từ HA-SGERD. Các toán tử đột biến, lại
ghép và lựa chọn quần thể cho thế hệ kế tiếp được thừa kế trong [5].
5) Thuật toán HA-OFRB tối ưu hệ luật
Với bộ tham số tối ưu tìm được bằng thuật toán OP-PARHA, áp dụng
8


thuật toán HA-SGERD để sinh ra m*Q luật ứng cử R. Chúng tôi thiết kế
thuật toán HA-OFRB dựa trên GA với sơ đồ mã hóa nhị phân để tìm kiếm
hệ luật con S tối ưu từ tập R.
2.1.3. Kết quả thử nghiệm

Thực hiện thử nghiệm thuật toán được đề xuất với các tiêu chuẩn chọn
luật trong mục 2.1.3, đối sánh kết quả thực hiện đạt được của các tiêu chuẩn
này và đối sánh với thuật toán trong [39]. Kết quả thử nghiệm được tổng
hợp trong các bảng 2.3, 2.4, 2.5 và 2.6.
Bảng 2.3 Kết quả thử nghiệm thuật Bảng 2.4 Kết quả thử nghiệm thuật
toán OPHA-SGERD và thuật toán toán OPHA-SGERD và thuât toán
SGERD với tiêu chuẩn (2.3)
SGERD với tiêu chuẩn (2.4)
T ập dữ liệu

Perf (%)
SGERD

OPHASGERD

Cance r

96.29

Glass

#Nal

#Nar
SGERD

OPHASGERD

SGERD


OPHASGERD

96.42

5.38

6.00

1.17

1.33

62.90

68.22

11.52

12.00

1.85

Iris

96.93

96.67

4.00


4.00

Pima

74.64

77.34

6.12

Sonar

77.20

82.21

Wine

95.52

Image

83.52

Vowe l

49.68

Ye ast


49.84

Perf (%)

T ập dữ liệu

#Nar

SGERD

OPHASGERD

Cancer

97.02

2.83

Glass

1.01

1.25

7.00

1.42

4.29


6.00

96.07

7.12

8.00

86.19

11.44

51.72

30

53.77

22.36

SGERD

SGERD

OPHASGERD

96.42

3.96


5.00

2.31

2.40

63.38

73.36

10.22 11.00

2.13

2.45

Iris

96.40

97.33

4.30

5.00

1.95

1.80


1.43

Pima

73.08

76.95

7.76

8.00

7.18

2.50

1.14

1.50

Sonar

75.20

79.81

5.96

5.00


5.17

3.80

1.39

2.13

Wine

96.19

6.14

7.00

3.56

2.43

11.00

2.18

2.45

Image

86.10


86.76

9.28

14.00

4.56

2.57

29.00

3.04

3.03

Vowel

58.53

55.25

33.78 30.00

3.88

2.57

20.00


2.85

2.90

Yeast

56.53

54.18

21.50 20.00

5.50

2.95

Bảng 2.5 Kết quả thử nghiệm thuật
toán OPHA-SGERD với tiêu chuẩn
chọn luật (2.5) và thuật toán SGERD
với tiêu chuẩn (2.4)
Perf (%)

T ập dữ
liệu

SGERD

OPHASGERD

Cance r


97.02

96.42

Glass

63.38

73.83

Iris

96.40

Pima

73.08

Sonar

75.20

Wine

96.19

Image

86.10


Vowe l
Ye ast

#Nal

OPHASGERD

#Nar

Bảng 2.6 Kết quả thử nghiệm
thuật toán OPHA-SGERD với ba
tiểu chuẩn (2.3), (2.4), (2.5)

#Nal

OPHASGERD

SGERD

OPHASGERD

3.96

6.00

2.31

1.83


10.22

11.00

2.13

3.73

97.33

4.30

4.00

1.95

77.34

7.76

7.00

7.18

78.85

5.96

5.00


5.17

97.19

6.14

8.00

3.56

86.19

9.28

12.00

4.56

58.53

57.37

33.78

34.00

56.53

55.73


21.50

19.00

SGERD

96.63

Perf (%)
T ập dữ liệu
(2.3)

(2.4)

(2.5)

Cancer

96.42

96.42

96.42

Glass

68.22

73.36


73.83

1.50

Iris

96.67

97.33

97.33

2.29

Pima

77.34

76.95

77.34

4.40

Sonar

82.21

79.81


78.85

2.75

Wine

96.07

96.63

4.00

Image

86.19

86.76

97.19
86.19

3.88

3.44

Vowel

51.72

55.25


57.37

5.50

3.53

Yeast

53.77

54.18

55.73

Từ các bảng tổng hợp kết quả thử nghiệm chúng tôi có thể khẳng định
thuật toán được đề xuất với tiêu chuẩn chọn luật cải tiến (2.5) trong luận án
tạo ra các LRBS có độ chính xác và tính giải nghĩa được được định nghĩa
dựa trên độ phức tạp tốt hơn thuật toán SGERD và tiêu chuẩn chọn luật
9


(2.5) tốt hơn các tiêu chuẩn (2.3), (2.4).
2.2. Phát triển thuật toán giải bài toán hồi quy
2.2.1. Bài toán hồi quy
Cho một tập mẫu dữ liệu D ={(pi, yi), i = 1,..,N }, pi là một véc tơ n
chiều có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của
các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1,..,n; yi 
Un+1  R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu
ra) 𝔛n+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ

cho phép tính giá trị yˆ  Un+1 ứng với mỗi giá trị đầu vào p  U = U1  ...
 Un .
Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để
ánh xạ tập dữ liệu đầu vào U vào tập dữ liệu đầu ra Un+1 bằng một phương
pháp lập luận xấp xỉ. Khi xây dựng các FRBS cho bài toán hồi quy, các luật
sử dụng trong RB thường là luật mờ Mamdani. Trong chương này luận án
đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa
trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán
này. Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ
phức tạp.
2.2.2. Thuật toán HA-PAES-SG
Thuật toán cho phép học đồng thời ngữ nghĩa tính toán của từ được
biểu diễn bằng tập mờ dạng tam giác, số từ ngôn ngữ sử dụng cho mỗi biến
và cơ sở luật. Hàm sinh luật (GenerateRule) từ mẫu dữ liệu tương tự như
trong [v]. Với phương pháp sinh luật này sẽ làm giảm không gian tìm kiếm
các luật phải xem xét rất nhiều so với sinh luật bằng tổ hợp tất cả các từ sử
dụng cho các biến.
1) Phát triển thuật toán
a. Mã hóa cá thể: Giả thiết mỗi biến 𝔛j chỉ có một gia tử dương Vj (Very),
một gia tử âm Lj (Little) và mục tiêu cần tối ưu là tham số tập mờ, số từ
ngôn ngữ và cơ sở luật. Khi đó mỗi cá thể của quần thể được mã hóa gồm
ba phần (Cµ, Ck , CRB) xem hình 2.3. Trong đó Cµ, Ck, CRB lần lượt biểu diễn
các tham số tính mờ của các ĐSGT, độ dài tối đa của các từ và cơ sở luật.

Hình 2.3. Cấu trúc mã hóa một cá thể
10


Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai
mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp

Comp được xác định theo (1.13).
b. Các toán tử di truyền
- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp
lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB.
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến
luôn xảy trên nó.
- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và
độc lập trên Cµ, Ck và CRB.
Trên Cµ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực
hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên
trong các khoảng được xác định trước cho các tham số.
Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc
giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ
qua.
Trên CRB: Chúng ta áp dụng một trong hai toán tử
1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB
2) Toán tử 𝔬m2 bổ sung  luật vào CRB
Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì
nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một.
Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều
kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa
luật này.
Định nghĩa 2.1: Luật rq được gọi là luật không chuẩn nếu j sao cho từ
Aq , j là điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn hơn kj.
Nếu luật rq không chuẩn do điều kiện tiền đề tương ứng với từ Aq , j gây
nên thì bỏ các gia tử bên trái của Aq , j để được từ Aq' , j có độ dài đúng bằng kj..
c. Thuật toán tiến hóa đa mục tiêu: Tương tự như trong [8-10, 12-15], chúng
tôi áp dụng lược đồ tiến hóa (2+2)M-PAES trong [16].
2) Kết quả thử nghiệm
Bảng 2.8 Các tham số thử nghiệm

 min = fmmin =0.3,  max =fmmax = 0.7 PAdd = 0.75
11

Pinc_k = 0.5


𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5,  max = 5
archiveSize = 64, MaxGen = 300,000
𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵 = 0.1
Mmin = 5, Mmax = 50
Chúng tôi tiến hành thử nghiệm thuật toán HA-PAES-SG trên máy
tính tương tự như thử nghiệm trong [14] trên 6 tập dữ liệu hồi quy với các
tham số trong bảng 2.8. Các kết được quả tổng hợp và trình bày trong các
bảng 2.9.
Từ bảng 2.9 cho thấy giá trị MSE của thuật toán HA-PAES-SG tốt hơn
trên 5 tập dữ liệu trên cả tập huấn luyện và tập kiểm tra, ngoại trừ ELE thấp
hơn trên tập huấn luyện. Ở đây có sự khác biệt lớn về độ chính xác giữa
thuật toán của chúng tôi với các thuật toán được so sánh. Bên cạnh đó độ
phức tạp của các LRBS cũng thấp hơn trên 5 tập dữ liệu. Chiều dài trung
bình của luật (Comp/#R) trong LRBS được tạo ra từ thuật toán HA-PAESSG ngắn hơn nhiều so với với các thuật toán trong [14].
Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán
(2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST
Tập dữ
liệu
ELE

WA

WI


M PG6

STP

TR

Thuật toán

#R

Comp

MSETr

SDtr

ttr

MSETs

SDts

tts

(2+2)M -PAES(I)

34.480

68.210


13660.200

1851.500

=

15768.600

3239.900

=

(2+2)M -PAES(C)

24.240

96.480

13539.800

3764.700

*

15278.800

4129.000

=


HA-PAES-SG

34.966

75.414

13732.337

2499.690

=

14969.681

4010.176

*

(2+2)M -PAES(I)

20.200

75.160

1.911

0.381

+


1.997

0.298

+

(2+2)M -PAES(C)

15.270

98.650

1.694

0.489

+

2.094

0.973

+

HA-PAES-SG

24.100

58.000


1.265

0.175

*

1.383

0.229

*

(2+2)M -PAES(I)

17.830

61.810

1.474

0.343

+

1.647

0.343

+


(2+2)M -PAES(C)

13.120

83.550

1.441

0.276

+

1.556

0.243

+

HA-PAES-SG

24.167

57.833

0.873

0.102

*


1.034

0.161

*

(2+2)M -PAES(I)

40.360

130.280

2.565

0.341

+

4.185

1.352

=

(2+2)M -PAES(C)

48.030

121.660


2.820

0.428

+

4.304

1.365

=

HA-PAES-SG

47.700

112.033

2.153

0.192

*

4.036

1.117

*


(2+2)M -PAES(I)

48.530

184.000

0.748

0.098

+

0.934

0.175

=

(2+2)M -PAES(C)

49.420

181.730

0.795

0.225

+


1.046

0.309

+

HA-PAES-SG

49.100

146.700

0.567

0.109

*

0.720

0.192

*

(2+2)M -PAES(I)

25.100

103.920


0.056

0.020

=

0.100

0.097

=

(2+2)M -PAES(C)

19.100

147.000

0.066

0.025

=

0.132

0.132

=


HA-PAES-SG

29.267

62.267

0.038

0.014

*

0.068

0.094

*

2.2.3. Thuật toán HA-PAES-MG
Trong phần này chúng tôi phát triển một thuật toán được gọi là HAPAES-MG (MG) nó thì tương tự như thuật toán HA-PAES-SG (SG). Tuy
12


nhiên ở thuật toán này chúng tôi đề xuất một phương pháp thiết kế ngữ
nghĩa tính toán của từ dạng phân hoạch mờ đa thể hạt mới (hình 2.6).

Hình 2.5. Một thiết kế phân hoạch Hình 2.6. Một thiết kế phân hoạch
mờ đa thể hạt trong [50] với độ dài mờ đa thể hạt được đề xuất mới với
tối đa của từ là 2.
độ dài tối đa của từ là 2.

Chúng tôi tiến hành thử nghiệm thuật toán MG tương tự như trong [10]
với các tham số được cho trong bảng 2.8, ở đây tham số Mmax = 30. Kết quả
thử nghiệm được đối sánh với thuật toán SG và PAESKB trong [10] (viết tắt
là KB). Tổng hợp các kết quả thử nghiệm tại điểm FIRST và kết quả trung
bình tại điểm MEDIAN, LAST được trình bày trong bảng 2.11. Chúng tôi
tiến hành đối sánh bằng phương pháp phân tích thống kê Wilcoxon test trên
giá trị độ phức tạp (Comp) và sai số bình phương trung bình trên tập kiểm
tra MSEts với giả thiết H0 = “Không có sự khác biệt giữa hai phương pháp
được đối sánh”. Kết quả phân tích thống kê được tổng hợp trong các bảng
2.12 và 2.13.

Tập
dữ liệu

Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAESSG (SG) và PAES KB (KB) tại điểm FIRST
#R
MG

SG

Comp
KB

MG

SG

SD’tr

MSEts

KB

MG

SG

KB

MG

SG

SD’ts

MSEts
KB

MG

SG

Diff SG

KB

Diff KB

MG

SG


KB

ELE1

20.40 22.63 27.00 35.03 35.87

46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128

ELE2

24.43 26.67 30.00 57.17 59.07

65.00

WA

22.80 24.13 28.00 69.67 58.27 103.00

0.97

1.26

1.64 0.085 0.137 0.024

1.06

1.38 -0.231

3.92 -0.729 0.108 0.163 2.365


WI

23.33 24.17 25.00 72.57 57.83

91.00

0.74

0.87

1.30 0.103 0.115 0.208

0.87

1.03 -0.158

1.49 -0.415 0.144 0.153 0.174

TR

15.00 14.73 11.00 37.60 24.50

40.00

0.08

0.05

0.08 3.233 0.314 0.500


0.10

0.09 0.081

0.14 -0.317 3.050 1.567 1.071

AB

12.87 26.27 29.00 31.43 59.67 107.00

2.40

2.35

2.32 0.048 0.040 0.034

2.447

2.453 -0.002

2.48 -0.013 0.074 0.074 0.073

MTG

13.00 17.73 12.00 25.97 28.37

49.00

0.016


0.017

0.05 0.239 0.259 0.400

0.023

0.023 -0.005

0.09 -0.749 0.847 0.398 1.111

CA

10.57 15.00 10.00 29.90 45.07

30.00

4.76

4.73

11.99 0.139 0.192 0.249

4.95

4.99 -0.007

13.43 -0.631 0.137 0.193 0.347

78.23


87.02 -0.101

89.00 -0.121 0.289 0.200 0.281
-0.342 0.559 0.369 0.644

PT

11.20 26.40 14.00 35.83 67.77

Mean
17.07
FIRST
Mean
MED 10.81
Mean
5.01
LAST

6.30

75.87

82.87

11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246

87.00 0.282 0.185 0.299

64.89


0.472 0.182 0.221

-0.104

12.6 21.27 25.89

25.8

0.460 0.250 0.261

-0.152

-0.33 0.492 0.490 0.587

5.00

5.00

0.414 0.768 0.527

-0.479

-0.365 0.451 0.816 0.654

21.97 20.67 43.91 48.49
14.52

53.00


9821 18,589

5.81

8.07

Từ bảng 2.13 cho thấy có sự khác biệt thống kê trên giá trị MSEts giữa
thuật toán MG với hai thuật toán được so sánh. Từ đây chúng ta có thể kết
13


luận rằng thuật toán MG có thể tạo ra các LRBS có độ chính xác cao hơn
và phân hoạch mờ dạng đa thể hạt tốt hơn dạng đơn thể hạt. Từ bảng 2.11
và bảng kết quả phân tích thống kế 2.12 cho thấy, độ phức tạp của LRBS
được tạo ra từ thuật toán thuật toán MG thấp hơn các thuật toán được so
sánh. Mặc dù thuật toán MG và các thuật toán được đối sánh được phát triển
trên cùng một lược đồ tiến hóa (2+2)M-PAES nhưng MG có thể tạo ra các
LRBS tốt hơn trên cả hai mục tiêu tính giải nghĩa được và độ chính xác.
Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
The FIRST point
The MEDIAN point
The LAST point

VS
HA-PAES-SG
PAESKB
HA-PAES-SG
PAESKB
HA-PAES-SG

PAESKB

R+
30.0
45.0
40.0
37.0
44.0
0.0

R
15.0
0.0
5.0
8.0
1.0
45.0

Exact P-value
≥ 0.2
0.003906
0.03906
0.09766
0.007812
≥ 0.2

Confid. -interval
[-16.92 , 11.4]
[-43.27 , -5.535]
[-9.08 , -0.03]

[-11.3 , 0.9]
[-3.965 , -0.6]
[0.07 , 1.585]

Hypoth. (H 0)
Not Rejected
Rejected
Rejected
Not Rejected
Rejected
Not Rejected

Bảng 2.13 So sánh trung bình phương sai (MSEts ) bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
The FIRST point
The MEDIAN point
The LAST point

VS
HA-PAES-SG
PAESKB
HA-PAES-SG
PAESKB
HA-PAES-SG
PAESKB

R+
40.0
45.0
43.0

42.0
45.0
45.0

R
5.0
0.0
2.0
3.0
0.0
0.0

Exact P-value
0.03906
0.003906
0.011718
0.019532
0.003906
0.003906

Confid. -interval
[0.002 , 0.2355]
[0.0655 , 0.631]
[0.029 , 0.313]
[0.0475 , 0.649]
[0.2875 , 0.642]
[0.013 , 0.696]

Hypoth. (H 0)
Rejected

Rejected
Rejected
Rejected
Rejected
Rejected

2.3. Kết luận chương 2
Trong chương này luận án đã đề xuất các thuật toán giải bài toán phân
lớp, hồi quy bằng LRBS. NNTT của các từ được xác định bằng ĐSGT và
được điều chỉnh thông qua tham số mờ của ĐSGT.
Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD trong
[39] để sinh luật ứng cử, số luật ứng cử sinh ra rất nhỏ so với phương pháp
sinh luật bằng tổ hợp hoặc từ dữ liệu [50, 52]. Kết quả thử nghiệm cho thấy
thuật toán tạo ra các LRBS có tính giải nghĩa được và độ chính xác cao hơn
thuật toán được so sánh.
Các thuật toán SG và MG xây dựng các LRBS giải bài toán hồi quy,
thực hiện tối ưu đồng thời NNTT của từ, số từ sử dụng cho mỗi biến và RB
nhưng không gian tìm kiếm giảm đi đáng kể do sinh luật từ mẫu dữ liệu và
điều chỉnh ngữ nghĩa tính toán bằng ĐSGT. Các kết quả thử nghiệm được
so sánh với các thuật toán đề xuất trong [14] và [10] cho thấy các thuật toán
14


được phát triển trong luận án tốt hơn trên cả hai mục tiêu. Từ kết quả phân
tích thống kê có thể kết luận rằng thiết kế NNTT của từ ngôn ngữ bằng cấu
trúc dạng đa thể hạt tốt hơn dạng đơn thể hạt.

CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG
NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG
3.1. Vấn đề tính giải nghĩa được của FRBS

Vấn đề tính giải nghĩa được của FRBS là bài toán chưa được giải quyết
bằng một phương pháp luận nhất quán giữa các cách tiếp cận hiện tại và với
phương pháp nghiên cứu trong lô gic truyền thống. Các tiếp cận giải quyết
vấn đề này chủ yếu dựa trên trực quan để đưa ra các ràng buộc ở các mức
khác nhau của FRBS. Trong chương này luận án đề xuất một hướng tiếp
cận mới dựa trên ý tưởng của logic truyền thống và ĐSGT giải quyết một
phần vấn đề này. Trước khi trình bày chi tiết các ràng buộc, luận án trình
bày một số khái niệm mới.
3.2. Khái niệm khung nhận thức và khung nhận thức ngôn ngữ
3.2.1. Khung nhận thức và tính giài nghĩa được của nó
Theo Mencar và Fanelli trong [41] một khung nhận thức (Frame of
Cognition- FoC) 𝔉 của biến 𝔛 là một tập hữu hạn các tập mờ có thứ tự trên
miền tham chiếu của 𝔛, và được gán cho các nhãn ngôn ngữ tương ứng
trong 𝔛. Các nhãn ngôn ngữ kết hợp với các tập mờ tương ứng trong một
FoC 𝔉 của 𝔛 được người dùng sử dụng để mô tả các tính chất của các thực
thể dưới dạng ngôn ngữ. Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một
phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn
ngôn ngữ của 𝔉 tới NNTT của chúng. Một FoC 𝔉 là giải nghĩa được nếu
người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được
biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn
ngữ tương ứng.
3.2.2. Khung nhận thức ngôn ngữ
Thay vì sử dụng khái niệm FoC như các phương pháp tiếp cận dựa trên
lý thuyết tập mờ, luận án đưa ra khái niệm khung nhận thức ngôn ngữ
(Linguistic Frame of Cognition – LFoC) trong hướng tiếp cận dựa trên
ĐSGT. Một LFoC được xem như là một tập các từ ngôn ngữ mà ở đó mỗi
từ có ngữ nghĩa của riêng và một FoC chỉ được xem như là một phương
15



pháp biểu diễn NNTT tương ứng với LFoC. Chúng ta có định nghĩa hình
thức sau đây.
Định nghĩa 3.1: [v] Một LFoC 𝔉 của một biến 𝔛, là một tập từ của 𝔛
được sinh ra từ các phần tử sinh {0, c, W, c+, 1} và tập H các gia tử của
người dùng thỏa mãn các điều kiện sau:
(i) {0, c, W, c+, 1}  𝔉; (ii) hx  𝔉  (h’  H) (h’x  𝔉) (hoặc
tất cả các từ hx, h H, phải cùng thuộc vào 𝔉, hoặc không); (iii) x  𝔉 & x
= hx’ & h  H  x’  𝔉 (đóng đối với việc lấy tổ tiên của nó).
3.3. Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC
3.3.1. Ràng buộc ngữ nghĩa vốn có của từ
Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện
trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng
để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ,
bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB.
Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần
thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc
tính toán đủ giầu. Trên quan điểm toán học, các tập mờ được gắn với các từ
chỉ là ảnh tính toán tương ứng. Nó được gán bởi người thiết kế LRBS, trong
khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ.
3.3.2. Ràng buộc phương pháp xác định NNTT của từ
Chúng ta thấy rằng miền từ của các biến ngôn ngữ phải được hình thức
hóa và các phương pháp xây dựng LRBS chủ yếu được phát triển dựa trên
các thuật toán tiến hóa. Vì vậy, để thuận lợi cho việc phát triển thuật toán
thì phải có các thủ tục để xác định NNTT của từ, điều khiển, kiểm soát quá
trình hiệu chỉnh ngữ nghĩa của từ nhằm đảm bảo tính giải nghĩa được LRBS
ở mức từ. Từ yêu cầu này, chúng tôi đưa ra ràng buộc sau đây:
Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ,
phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ
của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát
triển dựa trên chính phương pháp hình thức đó.

3.3.3. Ràng buộc ngữ nghĩa khoảng của từ
Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ
vào nhiều phần tử khác nhau trong thế giới thực. Vì vậy, Nguyễn Cát Hồ
và cộng sự đã gọi khía cạnh ngữ nghĩa này là ‘ngữ nghĩa khoảng’ của từ.
16


Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc
tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn
tính khái quát và tính đặc tả của các từ. Kí hiệu: 𝔖 là tập từ của một LFoC
của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛.
Ràng buộc 3: [v] Cho một tập từ 𝔖 của một LFoC của một biến 𝔛,
phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát và tính đặc
tả giữa các từ, tức là với bất kỳ hai từ x, hx  𝔖, trong đó h là một gia tử
thì (hx)  𝔄(x).
Ví dụ: (very very tall)  (very tall)  (tall)
3.3.4. Ràng buộc ngữ nghĩa thứ tự của từ
Xét các biến ngôn ngữ 𝔛j với j = 1,.., n+1, và một luật mờ rq: If 𝔛1 is
Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1). Trong [50, 52] Nguyễn
Cát Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các
biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và
đặc biệt để con người làm quyết định. Theo chúng tôi thì bất kỳ luật ngôn
ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét
về phương diện quan hệ ngữ nghĩa thứ tự của chúng. Do đó ngữ nghĩa của
luật rq phải được định nghĩa trên quan hệ ngữ nghĩa thứ tự của các miền từ
của các biến. Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho các từ của các biến
𝔛 có mặt trong luật phải chuyển tải được ngữ nghĩa thứ tự của các từ tới các
tập mờ (ký hiệu là C(𝔛)) của các luật. Cụ thể, chúng tôi yêu cầu ℑ như là
một ánh xạ, phải bảo toàn cấu trúc dựa trên thứ tự của miền từ của 𝔛, tức là
ℑ phải là một song ánh.

Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự của các luật ngôn ngữ,
phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) của các từ của biến 𝔛 trong các luật
phải bảo toàn ngữ nghĩa thứ tự của các từ của 𝔛 bằng một định nghĩa quan
hệ thứ tự ≼ phù hợp trên C(𝔛) và ℑ phải là một song ánh.
Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good)
3.4. Biểu diễn NNTT dựa trên tập mờ của các từ trong LFoC
3.4.1. Biểu diễn đơn thể hạt của LFoC
Đặt 𝔉𝔛 là một LFoC của 𝔛 thỏa mãn định nghĩa 3.1 và 𝔳𝔛 là một ánh
xạ định lượng ngữ nghĩa được xác định bởi bộ giá trị tham số tính mờ fm(c)
và  (h), h  H \{hp} cho trước. Khi đó biểu diễn đơn thể hạt của một
LFoC có thể được xây dựng như hình 2.1 là một ví dụ.
17


Để kiểm tra tính đúng đắn và tính giải nghĩa được của LFoC, luận án
xem xét 𝔉𝔛 thỏa mãn những ràng buộc nào được đề xuất trong mục 3.3.
Trước hết, chúng ta định nghĩa một quan hệ thứ tự trên các tập mờ tam giác,
mỗi tập mờ được mô tả bằng bộ ba tham số (a, b, c).
Định nghĩa 3.2: [v] Với hai tập mờ tam giác bất kỳ được xác định
bằng bộ ba giá trị (a, b, c) và (d, e, f) được định nghĩa trên tập vũ trụ đã
chuẩn hóa về đoạn [0, 1] của biến 𝔛. Các tập mờ (a, b, c) và (d, e, f) có quan
hệ thứ tự (a, b, c) ≼ (d, e, f) nếu thỏa mãn một trong những điều kiện sau
đây:
(i) Thứ tự mạnh ≼ s : (a, b, c)≼ s (d, e, f) khi và chỉ khi b < e & a < d & c
< f;
(ii) Thứ tự trung bình ≼ m: (a, b, c) ≼ m (d, e, f) khi và chỉ khi b < e & (a
< d & c ≥f hoặc c < f & a ≥d);
(iii) Thứ tự yếu ≼ w (ít nhất một trong hai là tam giác vuông nằm ở vị trí
0 hoặc 1 của vũ trụ): (a, b, c) ≼ w (d, e, f) khi và chỉ khi một trong các
điều kiện sau thỏa mãn:

(aD) (b = e = a = d = 0  c < f);
(bD) (b = e = c = f = 1  a < d);
(cD) ((a > d & c = f = e = 1) hoặc (c > f & a = d = b = 0))  b < e.
Định lý 3.1: [v] Xét một biến 𝔛 và miền từ tương ứng, X = Dom(𝔛),
khi đó nó được xem như là một ĐSGT, AX = (X, G, C, H, ). Cho các giá
trị tham số tính mờ của 𝔛, fm(c) và  (h), h  H \ {hp}, biểu diễn đơn thể
hạt của 𝔉𝔛 được xây dựng bằng thủ tục ở trên có các tính chất sau:
(i) Biểu diễn đơn thể hạt được xác định duy nhất, và thỏa mãn các ràng
buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức là bảo toàn thứ tự các từ của 𝔉𝔛
với quan hệ thứ tự ≼ trong định nghĩa 3.2. (iii) Không thỏa mãn ràng buộc
3, do độ hỗ trợ của tập mờ tam giác (ngữ nghĩa khoảng) được gán cho các
từ không bảo toàn tính khái quát và tính đặc tả của các từ của 𝔉𝔛.
3.4.2. Biểu diễn đa thể hạt của LFoC
Giả sử X = Dom(𝔛), tập hợp của tất cả các từ của 𝔛, được chia thành
các tập Xk , k = 0 đến, mỗi tập bao gồm các từ cùng mức đặc tả. Hình 2.6
là một ví dụ minh họa cấu trúc đa thể hạt được phát triển trong luận án.
Định lý 3.2: [v] Xét một biến 𝔛 và miền hạng từ của nó, X = Dom(𝔛),
nó được xem như là một ĐSGT AX = (X, G, C, H, ) của 𝔛. Với các giá trị
18


tham số tính mờ fm(c) và  (h), h  H \ {hp} và một mức đặc tả k > 0 cho
trước, biểu diễn NNTT của một LFoC 𝔉𝔛 dạng đa thể hạt được xây dựng
theo thủ tục trên có các tính chất sau:
(i) Biểu diễn đa thể hạt được xác định duy nhất, và thỏa mãn các ràng
buộc 1, 2;
(ii) Thỏa mãn ràng buộc 3, bảo toàn quan hệ tính khái quát và tính đặc
tả giữa các từ. Tức là, khi xem độ hỗ trợ của tập mờ tam giác biểu thị ngữ
nghĩa của từ x như là ngữ nghĩa khoảng của nó, ký hiệu là i(x), thì với hx 
𝔉𝔛, h  H, chúng ta có i𝔖(hx)  i𝔖(x);

(iii) Phép gán 𝔄 : x → Trg(x), được định nghĩa bằng biểu diễn đa thể
hạt của 𝔉𝔛, trong đó Trg(x) biểu thị tam giác được xây dựng cho từ x, là
một song ánh. Khi đó với hai từ bất kỳ x và y thỏa mãn x < y thì quan hệ thứ
tự Trg(x) ≼ Trg(y) là đúng nếu các điều kiện sau được thỏa mãn:
(aT) Với x, y {0l, 1l : l = 0, 1, …, k}, ta có Trg(x) ≼sw Trg(y), theo
(i) hoặc (aD) và (bD) trong (iii) của định nghĩa 2.2;
(bT) Ngược lại, với ít nhất một trong x, y thuộc Xl \ {0l, 1l}, ở cùng một
mức l, chúng ta có:
(*) Trg(x) ≼ smw Trg(y), hoặc viết Trg(x) ≼ Trg(y), tức là tất cả (i),
(ii) và (iii) của định nghĩa 3.2 được sử dụng; và
(**)Trg(x) ≼w Trg(y) chỉ có thể xảy ra khi y = 1j, x  Xl \ {0l, 1l},
j < l và x là lận cận 1l, hoặc khi x = 0j, y  Xl \ {0l, 1l}, j < l và
y là lân cận 0l. Hơn nữa, tồn tại x’ trên cùng mức với y khái
quát hơn x thì Trg(x’) ≼m Trg(y).
3.5. Phát triển thuật toán xây dựng LRBS giải bài toán hồi quy
Trong chương này, luận án phát triển một thuật toán tiến hóa được gọi
là HA-PAES-MG-Kmax (MG-Kmax) xây dựng LRBS giải bài toán hồi quy,
trong đó tính giải nghĩa được được định nghĩa theo hướng tiếp cận mới.
3.5.1. Thiết kế ngữ nghĩa tính toán (phân hoạch mờ)
Như trình bày ở trên, thuật toán được phát triển dựa trên khái niệm và
phương pháp thiết kế NNTT của từ của LFoC. Trong đó thuật toán HAPAES-SG-Kmax sử dụng phương pháp thiết kế NNTT dạng đơn thể hạt của
LFoC và thuật toán HA-PAES-MG-Kmax sử dụng phương pháp thiết kế
dạng đa thể hạt của LFoC. Thuật toán HA-PAES-MG-Kmax được xem là
thuật toán được đề xuất trong chương này của luận án.
19


3.5.2. Mã hóa các cá thể
Giả thiết rằng mỗi biến 𝔛j chỉ có một gia tử dương Vj và một gia tử âm
Lj, mỗi LFoC 𝔉j của 𝔛j là tập gồm các từ ngôn ngữ có độ dài nhỏ hơn hoặc

bằng 3, Xj(3) với j =1,..,n. Mỗi cá thể được mã hóa gồm hai phần: Cµ biểu
diễn các tham số tính mờ tương ứng với các ĐSGT của các biến và CRB biểu
diễn RB. Mỗi luật được mã hóa bằng một véc tơ gồm n+1 số nguyên. Giả
thiết các từ của mỗi 𝔉j  {Don’tcare} được đánh chỉ số như sau: giả sử ta
có 𝔉j  {Don’tcare} = {yjk : k = 0, 1, …, T}, khi đó tất cả các từ yjk được
mã hóa bằng chỉ số k, với k = 0, 1, …, T và j = 1, …, n+1 , trong đó yj0 =
“Don’tcare”, có nghĩa là “Don’tcare” có chỉ số là “0”. Khi đó, bất kỳ luật
ngôn ngữ rq với những giả thiết này chúng ta có 𝐴𝑞𝑗 = 𝑦𝑗𝑘𝑞𝑗 có thể được
mã hóa như là các véc tơ (kq1, …, kqn, kq(n+1)). Các luật của RB được sinh ra
bằng hàm GenerateRule từ mẫu dữ liệu tương tự như trong [5] với bộ tham
số tính mờ trong Cµ.
r1

L1  𝐶1−


… Ln+1  𝐶𝑛+1

k 11

rM



k
k 1(n+1)

k M1




k Mn

1n

Hình 3.4 Cấu trúc mã hóa một cá thể
3.5.3. Thuật toán tiến hóa
Các toán tử lại ghép, đột biến tương tự như thuật toán HA-PAES-MG
trong chương 2 trên phần Cµ và CRB. Thuật toán tiến hóa đa mục tiêu được
phát triển dựa trên lược đồ tiến hóa (2+2)M-PAES trong [16].
3.5.4. Kết quả thử nghiệm
Chúng tôi tiến hành thử nghiệm thuật toán tương tự như trong [10].
Các tham số cho trong bảng 2.10, ở đây Mmax = 30.
1) So sánh giữa biểu diễn đa thể hạt và đơn thể hạt của LFoC
Tiến hành thử nghiệm đối sánh hai thuật toán MG-Kmax và SG-Kmax. Ở
đây giới hạn chiều dài tối đa của các từ kmax = 1 nhằm đảm bảo NNTT của
các từ với phân hoạch đơn thể hạt không quá đặc tả. Kết quả thử nghiệm tại
điểm FIRST và các giá trị trung bình tại các điểm MEDIAN và LAST được
tổng hợp trong bảng 3.2.
Từ bảng 3.2 cho thấy biểu diễn đa thể hạt của LFoC thì tốt hơn nhiều
đơn thể hạt trên các tiêu chí được xem xét ở cả pha kiểm tra và pha huấn
20


luyện. Từ kết quả phân tích thống kê trong bảng 3.3 và 3.4 cho thấy có sự
khác biệt trên cả hai mục tiêu được phân tích. Kết quả này phù hợp với ý
tưởng trình bày các từ với cấp độ khái quát cao hơn sẽ làm giảm độ phức
tạp và tăng tính chính xác của LRBS.
Bảng 3.2 Kết quả trung bình đạt được bởi HA-PAES-MG-Kmax và HA-PAESSG-Kmax tại điểm FIRST
HA-PAES-MG-Kmax


Dataset
ELE1
ELE2
WA
WI
TR
AB
MT G
CA
PT
FIRST
Me dian
Last

#R

Mean
Mean
Mean

Comp

HA-PAES-SG-Kmax

MSEtr

SD’ tr

MSEts


SD’ ts

#R

Comp

MSEtr

SD’ tr

MSEts

SD’ ts

Diff SG

11.40

18.17

163429

0.025

197301

0.166

25.10


40.13

16282

0.038

198924

0.181

-0.01

16.47

32.27

10816

0.174

12232

0.226

25.43

54.07

25300


0.285

27031

0.247

-0.55

16.37

44.03

1.03

0.061

1.11

0.123

24.77

60.83

1.30

0.201

1.45


0.205

-0.23

11.67

21.80

0.89

0.092

0.97

0.199

20.10

39.77

0.93

0.126

1.01

0.137

-0.04


14.63

41.63

0.03

0.091

0.04

0.350

25.43

70.77

0.07

0.424

0.07

0.370

-0.48

10.17

26.67


2.43

0.046

2.48

0.075

20.50

58.73

2.32

0.022

2.40

0.073

0.03

14.20

38.47

0.01

0.262


0.02

0.419

18.00

43.70

0.03

0.522

0.04

0.700

-0.58

9.80

23.77

5.21

0.177

5.72

0.261


9.60

24.00

7.93

0.147

8.36

0.178

-0.32

10.77

35.77

86.29

89.65

0.168

11.90

38.23

97.22


0.103

-0.12

31.40

0.221

20.09

47.80

0.123
0.210

101.95

12.83

0.150
0.120

8.66

15.83

0.120

0.212


11.99

22.08

5.00

5.00

0.260

0.298

5.00

5.00

0.244

-0.26

0.189

0.236

-0.25

0.199

0.300


-0.22

Bảng 3.3 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm định
giả thuyết Wilcoxon-test với mức α = 0.05 đối với ba điểm đại diện
Point
FIRST
MEDIAN
LAST

VS

R+

R

HA-PAES-SG-Kmax
HA-PAES-SG-Kmax
HA-PAES-SG-Kmax

45
45
18

0
0
18

Exact P-value Confid. -interval Exact-confid. Hypoth. (H0 )
0.003906

0.003906
≥ 0.2

[-25.55 , -8.515]
[-9.515 , -3.57]
[0, 0]

0.96094
0.96094
0.96094

Rejected
Rejected
Not Rejected

Bảng 3.4 So sánh trung bình phương sai (MSEts ) bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 đối với ba điểm đại diện
Point
FIRST
MEDIAN
LAST

VS

R+

HA-PAES-SG-Kmax
HA-PAES-SG-Kmax
HA-PAES-SG-Kmax


43
43
42

R
2
2
3

Exact P-value Confid. -interval Exact-confid. Hypoth. (H0 )
0.011718
0.011718
0.019532

[0.04 , 0.48]
[0.04 , 0.49]
[0.07 , 0.39]

0.96094
0.96094
0.96094

Rejected
Rejected
Rejected

2) So sánh với thuật toán HA-PAES-MG và PAES KB
Chúng tôi thực hiện nghiên cứu thử nghiệm trên máy tính để đối sánh
giữa các thuật toán: MG-Kmax, HA-PAES-MG (viết tắt là MG-Kopt) và
PAESKB. Các kết quả thử nghiệm tại điểm FIRST và giá trị trung bình tại

các điểm MEDIAN, LAST được trình bày trong bảng 3.5, 3.6, 3.7.
Từ bảng 3.6 cho thấy không có khác biệt thống kê giữa thuật toán MGKmax với các thuật toán được đối sánh về độ phức tạp của RB. Nhưng từ
bảng 4.4 cho thấy thuật toán MG-Kmax tạo ra các LRBS có độ phức tạp giảm
so với thuật toán PAES KB trên 6 tập dữ liệu với mức giảm từ 9% đến 47%,
và tăng 3 trong 9 tập dữ liệu với mức lần lượt 1% (ELE1), 97.5% (TR) và
21


4% (CA). Mặc dù độ phức tạp của các LRBS được tạo ra từ thuật toán được
đề xuất trên tập dữ liệu TR tăng gấp hai so với PAES KB, những độ chính
xác lại tăng gấp 4.7 lần.
Về hiệu quả thực hiện MSEts , từ bảng 3.7 cho thấy có sự khác biệt
thống kê giữa thuật toán MG-Kmax với thuật toán PAES KB, quan sát giá trị
DiffKB chúng ta thấy kết quả MSEts của MG-Kmax tốt hơn PAES KB trên 8
trong số 9 tập dữ liệu. Từ đây chúng tôi có thể kết luận rằng thuật toán được
đề xuất tạo ra các LRBS có độ chính xác tốt hơn FRBS tạo ra từ thuật toán
PAESKB.
So với thuật toán MG-Kopt, kết quả thống kê chỉ ra rằng không có sự
khác biệt đáng kể nào giữa MG-Kmax và MG-Kopt. Tuy nhiên, dường như là
MG-Kmax có xu hướng tốt hơn MG-Kopt khi mà nó tốt hơn 5 trên 9 tập dữ
liệu trong pha kiểm tra. Hai thuật toán MG-Kmax và MG-Kopt thì tương tự
nhau ngoại trừ giới hạn độ dài tối đa của các từ của các LFoC. Với MGKmax thì được cố định bởi một số nguyên Kmax cho tất cả các biến. Với MGKopt thì chúng được xem như là tham số và được điều chỉnh trong giới hạn
từ 1 đến Kmax. Do đó, không gian tìm kiếm của MG-Kmax luôn bao hàm
trong không gian tìm kiếm của MG-Kopt. Vì thế các lời giải tối ưu được tìm
thấy bởi MG-Kopt có thể được tìm thấy bởi MG-Kmax khi số thế hệ được
thiết lập lớn hơn.

Tập
dữ
liệu


Bảng 3.5 Kết quả trung bình đạt được bởi HA-PAES-MG-Kmax (Kmax),
HA-PAES-MG-Kopt (Kopt) và PAESKB (KB) tại điểm FIRST
#R
Kmax

Kopt

Comp
KB

Kmax

Kopt

MSEtr
KB

Kmax

Kopt

KB

Kmax

SD’tr

MSEts


Kopt

Diff Kop

KB

Kmax

Kopt

SD’ts
KB

Diff KB

Kmax

Kopt

KB

t

14312 14302 14599
19937 19800
19402
ELE1 27.37 25.47 27.00 46.43 43.53 46.00
0.041 0.052 0.026
0.007
0.027

2
9
5
5
6
8
ELE2 28.73 28.37 30.00 56.80 64.03 65.00 8829 7603 11043 0.157 0.197 0.251 10703 8575 0.199 12606
0.151
103.0
WA
25.00 23.60 28.00 58.17 68.90
1.04
0.96
1.64 0.060 0.061 0.024
1.26
1.09 0.132
3.92
0
0.679
WI
24.30 18.57 25.00 47.97 38.17 91.00
0.81
0.80
1.30 0.067 0.077 0.208
0.91
0.92 -0.015
1.49 0.391
29.63 27.30 11.00 79.00 82.83 40.00
0.02
0.03

0.08 0.111 0.102 0.500
0.03
0.04 -0.060
0.14
TR
0.755
107.0
21.00 16.47 29.00 66.30 49.67
2.29
2.32
2.32 0.021 0.024 0.034
2.40
2.42 -0.007
2.48
AB
0
0.031
0.01
0.01
0.05 0.190 0.254 0.400 0.022 0.019 0.117
0.09
MTG 18.00 18.00 12.00 35.57 45.87 49.00
0.760
12.80 10.07 10.00 31.23 24.27 30.00
5.18
5.03 11.99 0.140 0.088 0.249
4.86
5.22 -0.070 13.43
CA
0.638

16.60 11.20 14.00 48.27 38.80 53.00 66.05 82.91 87.00 0.226 0.393 0.299 69.86 84.71 -0.175 89.00
PT
0.215
Mean 22.60 19.89 20.67 52.19 50.67 64.89
0.113 0.139 0.221
0.014
FIRST
0.399
Mean 13.20 11.61 12.56 23.96 22.90 25.78
0.132 0.146 0.261
-0.102
MED
0.443
Mean 5.00 5.01 5.00 5.00 5.00
5.00
0.265 0.322 0.527
0.086
LAST
0.434

0.167 0.181 0.128
0.227 0.206 0.246
0.140 0.095 2.365
0.169 0.232 0.174
0.343 0.585 1.071
0.064 0.068 0.073
0.568 0.790 1.111
0.173 0.165 0.347
0.252 0.366 0.281
0.234 0.299 0.644

0.262 0.242 0.587
0.317 0.370 0.654

Từ những phân tích ở trên cho thấy thuật toán được đề xuất MG-Kmax
có thể tạo ra các LRBS không chỉ có thể giải nghĩa được trong ngữ cảnh
22


mới, mà còn đạt được độ chính xác cao hơn thuật toán PAES KB của Alcalá
và các cộng sự [10], trong khi chúng cùng được phát triển trên một lược đồ
tiến hóa.
Bảng 3.6 So sánh độ phức tạp của hệ luật (Comp) bằng phương pháp kiểm định
giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
Point
FIRST
MEDIAN
LAST

VS
HA-PAES-MG-Kopt
PAESKB
HA-PAES-MG-Kopt
PAESKB
HA-PAES-MG-Kopt
PAESKB

R+
21
36
15

29
27
18

R
24
9
30
16
18
18

Exact P-value
≥ 0.2
0.1289
≥ 0.2
0.406941
≥ 0.2
≥ 0.2

Confid. –interval
[-7.28 , 9.765]
[-40.7 , 12.785]
[-1.385 , 3.685]
[-9.52 , 6.665]
[-0.015 , 0]
[0, 0]

Exact-confid.
0.96094

0.96094
0.96094
0.96094
0.96094
0.96094

Hypoth. (H0 )
Not Rejected
Not Rejected
Not Rejected
Not Rejected
Not Rejected
Not Rejected

Bảng 3.7 So sánh trung bình phương sai (MSEts ) bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
Point
FIRST
MEDIAN
LAST

VS
HA-PAES-MG-Kopt
PAESKB
HA-PAES-MG-Kopt
PAESKB
HA-PAES-MG-Kopt
PAESKB

R+

21.5
44
21
43
15
44

R
23.5
1
24
2
30
1

Exact P-value
≥ 0.2
0.007812
≥ 0.2
0.011718
≥ 0.2
0.007812

Confid. -interval
[-0.117 , 0.07]
[0.094 , 0.699]
[-0.152 , 0.0635]
[0.051 , 0.669]
[-0.196 , 0.0235]
[0.214 , 0.638]


Exact-confid.
0.96094
0.96094
0.96094
0.96094
0.96094
0.96094

Hypoth. (H0 )
Not Rejected
Rejected
Not Rejected
Rejected
Not Rejected
Rejected

3.6. Kết luận chương 3
Trong chương này luận án đã thảo luận về tính giải nghĩa được của
FRBS theo hướng tiếp cận dưa trên lý thuyết tập mờ. Phát biểu khái niệm
LFoC trên cơ sở khái niệm FoC và lý thuyết ĐSGT. Luận án đã đề xuất 4
ràng buộc tính giải nghĩa được theo hướng tiếp cận ĐSGT của LRBS: ràng
buộc 1 về vai trò ngữ nghĩa của từ, ràng buộc 2 về phương pháp xác định
NNTT của từ, ràng buộc 3 về ngữ nghĩa khoảng của từ, ràng buộc 4 về ngữ
nghĩa thứ tự của từ. Luận án đề xuất phương pháp thiết kế NNTT của từ
dạng cấu trúc đa thể hạt cho các từ của một LFoC thỏa mãn những ràng
buộc đã được đề xuất, phát biểu và chứng minh các định lý về tính đúng
đắn của phương pháp thiết kế NNTT mới.
Trong chương này, luận án đề xuất thuật toán HA-PAES-MG-Kmax
được phát triển dựa trên lược đồ tiến hóa (2+2)M-PAES, ĐSGT và khái

niệm LFoC. Thuật toán được thử nghiệm và đối sánh với MG-Kmax, MGKopt, PAESKB. Kết quả phân tích thống kê cho thấy thuật toán MG-Kmax
không những có thể tạo ra được các LRBS thỏa mãn các ràng buộc tính giải
nghĩa được mới đề xuất trong luận án, mà còn tạo ra các LRBS có tính giải
nghĩa được cao theo hướng tiếp cận dựa trên độ phức tạp đồng thời có độ
chính xác cao hơn các thuật toán được đối sánh.
23


×