Tải bản đầy đủ (.pdf) (71 trang)

Phương pháp trích rút các luật mờ phân lớp dựa trên đại số gia tử và ứng dụng (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.43 MB, 71 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC HẢI

PHƯƠNG PHÁP TRÍCH RÚT CÁC LUẬT MỜ
PHÂN LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ
VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên – 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN


2

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC HẢI

PHƯƠNG PHÁP TRÍCH RÚT CÁC LUẬT MỜ
PHÂN LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ
VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 0101


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Dương Thăng Long

Thái Nguyên – 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN


3

LỜI NÓI ĐẦU
Trong cuộc sống loài người, ngôn ngữ được hình thành một cách tự nhiên
để giải quyết nhu cầu trao đổi thông tin với nhau. Hơn thế, nó là công cụ để con
người mô tả các sự vật, hiện tượng trong thế giới thực và dựa trên đó để tư duy,
lập luận đưa ra những nhận định, phán quyết nhằm phục vụ cho cuộc sống xã
hội. Ngày nay khoa học và công nghệ đã có những phát triển vượt bậc, nhiều
máy móc thiết bị được tạo ra đã góp phần giải phóng sức lao động của con
người. Trong đó lĩnh vực công nghệ thông tin đã có những đóng góp vô cùng to
lớn cho sự phát triển kinh tế - xã hội nói chung và giúp giải phóng sức lao động
không chỉ là lao động chân tay mà còn cả lao động trí óc của con người nói
riêng. Công nghệ thông tin đã góp phần đưa khả năng tư duy, lập luận và sự
sáng tạo kiểu như bộ não người vào máy móc thiết bị để “thông minh hơn”. Để
thực hiện điều này, rất nhiều nhà khoa học đã và đang nghiên cứu cả về lý
thuyết lẫn ứng dụng, đưa ra các phương pháp, các quy trình nhằm kế thừa, mô
phỏng khả năng của con người vào các thiết bị máy móc. Trước hết, các nhà
khoa học đã phải hình thức hóa toán học các vấn đề ngôn ngữ và xử lý ngôn ngữ
mà con người vẫn làm. Người đi tiên phong trong lĩnh vực này là Lotfi A.
Zadeh, ông đã đề xuất khái niệm mờ từ những khái niệm mơ hồ, không rõ ràng.
Cho đến nay, hệ mờ phân lớp dạng luật (FRBCS) là mô hình được nhiều

tác giả quan tâm nghiên cứu và sử dụng trong khai phá dữ liệu, tìm kiếm tri thức
từ dữ liệu cho bài toán phân lớp. Thế mạnh của mô hình này là có thể cung cấp
được cho người dùng cuối những tri thức dạng luật dễ hiểu , dễ sử dụng đối với
con người như là những tri thức của họ . Với viê ̣c sử du ̣ng tâ ̣p mờ và lôgic mờ ,
các nghiên cứu đều tìm kiếm phương pháp xây dựng hệ mờ phân lớp dạng luật

Số hóa bởi Trung tâm Học liệu – ĐHTN


4

nhằm đa ̣t hai mu ̣c tiêu chính : thứ nhấ t , hiê ̣u quả phân lớp của hê ̣ càng cao càng
tốt; thứ hai, tính phức tạp của hệ đồng thời càng nhỏ càng tốt.
Mô hình xây dựng hệ luật mờ phân lớp dựa trên đại số gia tử được đề xuất với
mục tiêu xây dựng hệ luật mờ để ứng dụng phân lớp cho các mẫu dữ liệu sao
cho hệ luật phải có hiệu quả phân lớp cao, càng đơn giản, dễ hiểu và tường minh
đối với người dùng càng tốt.
Tên đề tài được lựa chọn là “Phương pháp trích rút các luật mờ phân
lớp dựa trên đại số gia tử và ứng dụng”. Nội dung của luận văn được bố cục
thành các phần như sau:
Chương 1. Kiến thức cơ bản về hệ mờ và lập luận xấp xỉ.
Chương 2. Phương pháp trích rút luật mờ phân lớp dựa trên đại số gia tử.
Chương 3. Cài đặt thử nghiệm và đánh giá.

Số hóa bởi Trung tâm Học liệu – ĐHTN


5

CHƢƠNG 1:

KIẾN THỨC CƠ BẢN VỀ HỆ MỜ VÀ LẬP LUẬN XẤP XỈ
1.1. Khái quát về lập luận xấp xỉ (lập luận mờ)
Từ năm 1965 Zadeh đưa ra lý thuyết tập mờ, logic mờ nhưng phải đến
những thập niên cuối của thế kỷ XX lý thuyết tập mờ, logic mờ mới được đặc
biệt quan tâm nghiên cứu và ứng dụng vào trong lý thuyết điều khiển, hệ thống
và trí tuệ nhân tạo. Tập mờ và logic mờ dựa trên các suy luận của con người về
các thông tin không đầy đủ để hiểu biết và điều khiển hệ thống. Điều khiển mờ
chính là mô phỏng cách xử lý thông tin và điều khiển của con người đối với các
đối tượng, do vậy điều khiển mờ đã giải quyết thành công rất nhiều vấn đề điều
khiển phức tạp trước đây chưa giải quyết được.
1.1.1. Định nghĩa tập mờ
Định nghĩa 1.1: [4] Cho tập vũ trụ U với các phần tử ký hiệu bởi x,
U={x}. Một tập mờ A trên U là tập được đặc trưng bở một hàm

(x) mà nó liên

kết mỗi phần tử x U với một số thực trong đoạn [0,1]. Giá trị hàm
diễn mức độ thuộc của x trong A.

(x) biểu

(x) là một ánh xạ từU vào [0,1] và được gọi

là hàm thuộc của tập mờ A[1].
Hay A được gọi là tập mờ khi và chỉ khi:
A = {(x,
Trong đó
Giá trị hàm

(x) x U,


(x): U

[0,1]}

(1)

(x) được gọi là hàm thuộc của tập mờ A.
(x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao.

Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển. Khi A là tập hợp kinh
điển thì A có thể được biểu diễn như sau
Số hóa bởi Trung tâm Học liệu – ĐHTN


6

A = {(x,

(x) x

Khi đó hàm thuộc

U,

(x): U

{0,1}}

(2)


(x) chỉ nhận hai giá trị 0 và 1.

1.1.2. Số mờ
Định nghĩa 1.2: [4] Tập mờ A trên đường thẳng số thực R là một số mờ,
nếu:
1.A chuẩn hóa, tức là có điểm x’ sao cho
2. Ứng với mỗi
3.

R, tập mức {x:

(x)

(x’) = 1.
} là đoạn đóng trên R.

(x) là hàm liên tục.

Một số dạng số mờ thường được sử dụng là số mờ dạng tam giác, hình
thang và dạng hàm Gauss.
a. Số mờ dạng tam giác được xác định bởi 3 tham số. Khi đó hàm thuộc
của sô mờ tam giác A(a, b, c) cho bởi:

1


0

a


z

b

c

z

Số hóa bởi Trung tâm Học liệu – ĐHTN


7

b.Số mờ hình thang A(a, b, c, d) được sác định bởi 4 tham số và hàm
thuộc cho bởi:

1

0

a

b

c

z

d


c.Số mờ dạng hàm Gauss có hàm thuộc cho bởi:

Trong đó

là số dương được chọn thích hợp.

1


0

z

Số hóa bởi Trung tâm Học liệu – ĐHTN


8

Khái niệm về phân hoạch mờ (fuzzy partition) cũng là một trong khái
niệm quan trọng trong việc tiếp cận giải quyết bài toán phân lớp.
1.1.3. Định nghĩa phân hoạch mờ
Theo [4] Cho p điểm cố định m1đó tập gồm p tập mờ A1, A2,…, Ap(với

,

, …,

là các hàm thuộc tương


ứng) định nghĩa trên U được gọi là một phân hoạch mờ của U nếu các điều kiện
sau thỏa mãn, k=1,…,p:
(mk) = 1 (mk được gọi là một điểm trong nhân của Ak);

1)

2) Nếu x [mk-1, mk+1],

= 0 (trong đó m0 = m1 = a và mp+1 = mp =b);

3)

(x) liên tục

4)

(x) đơn điệu tăng trên [mk-1, mk] và đơn điệu giảm trên [mk,mk+1];

5)

U,

, sao cho

(x) > 0 (tất cả mọi điểm trong U đều thuộc một

lớp của phân hoạch này với độ thuộc nào đó khác 0)
1.1.4 Các phép tính trên tập mờ Zadeh
1.1.4.1 Các phép toán tập hợp:

Cho A, B là 2 tập mờ trên cùng tập nền U:
Phép giao (Intersection):
Phép giao của tập A và B là tập mờ C được định nghĩa như sau:
C = A B = {(x,

(x))| x

U,

(x) = min{

(x),

(x)}}

Ví dụ:
Cho U = {1, 2, 3, 4, 5} và hai tập mờ A, B như sau:
A = {(1,0), (2,1), (3,0.6), (4,0.3), (5,0.2)}
Số hóa bởi Trung tâm Học liệu – ĐHTN


9

B = {(1,0), (2,0.5), (3,0.7), (4,0.2), (5,0.4)}
Khi đó : C = A

B = {(1,0), (2,0.5), (3,0.6), (4,0.2), (5,0.2)}

Phép hợp (Union):
Hợp của hai tập mờ A và B là tập mờ C được định nghĩa như sau:

C = A B = {{(x,

(x))| x

U,

(x) = max{

(x),

(x)}}

Ví dụ:
Cho U = {1, 2, 3, 4, 5} và hai tập mờ A, B như sau:
A = {(1,0), (2,1), (3,0.6), (4,0.3), (5,0.2)}
B = {(1,0), (2,0.5), (3,0.7), (4,0.2), (5,0.4)}
Khi đó : C = A

B = {(1,0), (2,1), (3,0.7), (4,0.3), (5,0.4)}

Phép bù (Complement):
Bù của hai tập mờ A được định nghĩa như sau:
AC = {(x,

(x)) x

U,

(x) = 1 -


(x)}

Lưu ý:
1/ A AC U
2/ A AC 0
3/ (AC)C = A
1.1.4.2 Phép phủ định:
Phủ định (negation) là một trong những phép toán logic cơ bản. Để suy
rộng chúng ta cần tới toán tử v(Not P) xác định giá trị chân lý của Not P đối với
mệnh đề P.

Số hóa bởi Trung tâm Học liệu – ĐHTN


10

Định nghĩa: Hàm n: [0, 1]  [0, 1] không tăng thoả mãn các điều kiện
n(0) = 1, n(1) =0 gọi là hàm phủ định.
Hàm n là phép phủ định mạnh, nếu n giảm chặt và n(n(x)) = x với mỗi x
Ví dụ: n(x) = 1- x, n(x) = 1- x2
1.1.4.3 Phép hội:
Phép hội (vẫn quen gọi là phép AND – conjunction) là một trong những
phép toán cơ bản nhất. Nó cũng là cơ sở để định nghĩa phép giao của hai tập mờ.
Định nghĩa 1.3: [4] Hàm T: [0, 1] x[0, 1]  [0, 1] là một phép hội hay t –
chuẩn (chuẩn tam giác hay t- norm) nếu thoả mãn các điều kiện sau:
1) T(1, x) = x với mọi 0  x  1
2) T có tính giao hoán, tức là T(x, y) = T(y, x) với mọi 0  x, y  1
3) T không giảm theo nghĩa T(x, y)  T(u,v) với mọi x u, y  v
4) T có tính kết hợp : T(x, T(y, z)) = T(T(x, y), z) với mọi 0  x, y  1
Ví dụ về một số t – chuẩn

T(x, y) = min(x, y) ; T ( x, y ) = x.y ; T(x,y) = max(x+y -1, 0)
1.1.4.4 Phép tuyển:
Giống như phép hội, phép tuyển hay toán tử logic OR thông thường cần
thoả mãn các tính chất sau:
Định nghĩa 1.4: [4] Hàm S : [0, 1]x[0, 1]  [0, 1] gọi là phép tuyển hay
là t - đối chuẩn (t – conorm) nếu thoả mãn các tiên đề sau:
1) S(0, x) = x với mọi 0  x  1
2) S có tính giao hoán: S(x, y) = S(y, x) với mọi 0  x, y  1
3) S không giảm theo nghĩa s(x, y)  s(u, v) với x  u, y  v
Số hóa bởi Trung tâm Học liệu – ĐHTN


11

4) S có tính kết hợp S(x, S(y,z)) = S(S(x, y), z) với mọi 0  x, y, z  1
Ví dụ: Một số phép tuyển:
S(x, y) = max(x, y) ; S (x, y) = x+ y – xy ; S(x, y) = min( x+ y -1 , 0), …..
1.1.4.5 Phép kéo theo:
Phép kéo theo là một hàm số I: [0,1]2  [0,1] thoả các điều kiện sau:
1) I(0,y)=1,  y  [0,1]
2) I(x,1)=1,  x  [0,1]
3) 0  x1, x2 1  I(x1,y)  I(x2,y),  y  [0,1]
4) 0  y1, y2 1  I(x,y1)  I(x,y2),  x  [0,1]
5) I(1,0)=0
Cho:T là t-chuẩn; S là t-đối chuẩn; n là phép phủ định mạnh
Phép kéo theo thứ nhất:
Hàm IS(x,y) xác định trên [0, 1]2 bằng biểu thức IS(x,y) =S(n(x),y)
Phép kéo theo thứ hai:
Cho T là t-chuẩn, xác định IT(x,y) =Sup{z | 0  z  1 và T(x,y) 
y},x,y [0,1]

Phép kéo theo thứ ba:
Cho (T, S, n) là bộ 3 De Morgan, T là t-chuẩn, S là t-đối chuẩn, n là phép
phủ định mạnh
Phép kéo theo thứ ba: Hàm ITS(x,y) xác định trên [0, 1]2 bằng biểu thức
ITS(x,y) =S(n(x),T(x,y))
1.1.5. Biến ngôn ngữ
Số hóa bởi Trung tâm Học liệu – ĐHTN


12

Biến ngôn ngữ làm một loại biến mà giá trị của nó không phải là số mà là
từ hay mệnh đề dưới dạng ngôn ngữ tự nhiên. Biến ngôn ngữ được định nghĩa
như sau:
Định nghĩa 1.5 [1]: Biến ngôn ngữ được xác định bởi một bộ 5 thành
phần (X, T(X), U, R, M) trong đó:
X

– là tên biến

T(X) – là tập các giá trị ngôn ngữ của biến X
U

– là không gian tham chiếu hay còn gọi là miền cơ sở của biến X

R

– là một số quy tắc cú pháp sinh các giá trị ngôn ngữ trong T(X)

M


– là quy tắc gán ngữ nghĩa biểu thị bằng tập mờ trên U cho các từ
ngôn ngữ trong T(X)

Ví dụ: Cho biến ngôn ngữ: Chiều cao
X = Chiều cao
T(X) = {Rất thấp, Thấp, Hơi Thấp, Bình thường, Hơi cao, Cao, Rất cao}
U = [50,215] – miền đánh giá chiều cao
R = Nếu chiều cao u là X thì Chiều cao có giá trị như sau:
Rất thấp với hàm thuộc
Thấp với hàm thuộc

(u)
(u)

Hơi thấp với hàm thuộc

(u)

Bình thường với hàm thuộc

(u)

Hơi cao với hàm thuộc

(u)

Rất cao với hàm thuộc

(u)


Số hóa bởi Trung tâm Học liệu – ĐHTN


13

Một số đặc trưng cơ bản của biến ngôn ngữ:
a)Tính phổ quát: các biến ngôn ngữ khác nhau về các giá trị nguyên thủy
nhưng ý nghĩa về mặt cấu trúc miền giá trị của chúng vẫn được giữ. Nói cách
khác, cấu trúc miền giá trị của hai biếnngôn ngữ cho trước tồn tại một “đẳng
cấu” sai khác nhau bởi giá trị sinh nguyên thủy
b) Tính độc lập ngữ cảnh của giả tử và liên từ như AND, OR…: ngữ nghĩa
của các gia tử và lien từ như AND, OR,… hoàn toàn độc lập với ngữ cảnh, khác
với giá trị nguyên thủy của các biến ngôn ngữ phụ thuộc vào ngữ cảnh. Do đó,
khi tìm kiếm các mô hình cho các gia tử và liên từ như AND, OR… chúng ta
không phải quan tâm đến giá trị nguyên thủy của biến ngôn ngữ đang xét.
Các đặc trưng này cho phép chúng ta sử dụng cùng một tập gia tử và xây
dựng một cấu trúc toán học duy nhất cho miền giá trị của các biến ngôn ngữ
khác nhau.
1.1.6. Suy luận xấp xỉ (suy luận mờ)
Suy luận xấp xỉ hay còn gọi là suy luận mờ, là quá trình suy ra những kết
luận dưới dạng các mệnh đề mờ trong điều kiện các quy tắc, các luật, các dữ liệu
đầu vào cho trước cũng không hoàn toàn xác định. Mỗi luật mờ được biểu diễn
bởi một biểu thức “if – then”, được phát biểu dưới dạng ngôn ngữ tự nhiên thể
hiện sự phụ thuộc nhân quả giữa các biến.
Ví dụ: If chuồn chuồn bay thấp then trời mưa
Trong suy luận mờ, đầu ra thường phụ thuộc vào nhiều yếu tố đầu vào.
Lúc đó ta có thể biểu diễn luật này dưới dạng luật mờ tổng hợp
Gọi x1, x2, …, xn là các biến đầu vào và y là biến đầu ra (thường là các
biến ngôn ngữ). Aki là các tập mờ ứng với các luật Rk trên không gian nền Ui có


Số hóa bởi Trung tâm Học liệu – ĐHTN


14

hàm thuộc ký hiệu là Aki(xi) hoặc Aki(xi). Bk là tập mờ trên không gian nền V có
hàm thuộc Bk(y)= Bk(y).
IF (x1 is Ak1) (x2 is Ak2)  … (xi is Aki)  …  (xn is Akn) THEN y is Bk
Ví dụ:
IF (Ngoại ngữ giỏi)  (Tin học giỏi)  (Chuyên môn vững) THEN (Khả năng
trúng tuyển cao)
Giải bài toán lập luận xấp xỉ theo mô hình (1) là xây dựng một phương
pháp lập luận dựa trên các luật mờ để tính toán đầu ra từ các dữ liệu đầu vào
tương ứng, tức tìm kết quả B của Y khi biết giá trị A1, A2, ..., An tương ứng với
các biến X1, X2, …, Xn. Vì chúng ta đang ở trong môi trường thông tin mờ,
không chắc chắn, nên không có một phương pháp lập luận chính xác và duy
nhất. Mỗi phương pháp sẽ xuất phát từ một quan sát trực quan nào đó.
Theo phương pháp truyền thống, quy tắc modus ponens tổng quát hóa được
áp dụng cho hệ mờ dạng (1) cùng với việc sử dụng các phép toán lôgíc mờ đã
được nhiều tác giả đề cập chi tiết trong [1]. Ở đây chúng ta tóm tắt như sau:
Xét mỗi luật mờ trong (1) là một quan hệ mờ Ri trên miền tích Đề-các U=
U1U2 ... UnV với hàm thuộc được xác định bởi:

Ri = I(Tn(Ai,1, ..., Ai,n), Bi)

(3)

trong đó Ai,j, Bi là các hàm thuộc tương ứng với Ai,j, Bi, Tn là phép t-normnngôi và I là phép kéo theo. Kết nhập các luật mờ Ri (i = 1, ..., m) của hệ bằng
phép t-conorm với hàm thuộc R và áp dụng quy tắc suy diễn hợp thành ta có kết

quả:
 B' 

 n
  M   n
  
sup
  j 1 A' (u j )   i1  I   j 1 Ai, j (u j ),  Bi (v)   
  
(u1,...,un ,v )U 
 
j
 
Số hóa bởi Trung tâm Học liệu – ĐHTN

(4)


15

ở đây  là phép t-norm,  là phép t-conorm và  là min hoặc prod.
Công thức (4) cho thấy phương pháp lập luận này với những cách chọn các
phép t-norm, t-conorm hay kéo theoI dẫn đến những kết quả tính toán tập mờ B
khác nhau. Điều này phù hợp với đặc trưng của lập luận xấp xỉ. Câu hỏi về cách
chọn các phép trên như thế nào để có một phương pháp lập luận tốt nói chung
không có câu trả lời khẳng định mà phụ thuộc vào từng tình huống ứng dụng cụ
thể và được kiểm chứng qua kết quả thực nghiệm.
Mặt khác, hệ luật mờ dạng Sugeno với phần kết luận của các luật là một
mệnh đề kinh điển chứa hằng cá thể sẽ trở thành một trường hợp riêng của dạng
(1) khi chọn đầu ra Bi có hàm thuộc ở dạng đơn tử. Tuy nhiên, luật mờ dạng

Sugeno với ưu điểm có thể thể hiện các hành vi cục bộ của hệ thống được ứng
dụng và không cần giải mờ sau khi lập luận. Đây là những lý do thúc đẩy những
nghiên cứu hơn nữa về các mô hình ứng dụng hệ luật mờ, đặc biệt trường hợp
luật mờ có kết luận chỉ chứa giá trị hằng cá thể sẽ được trình bày tiếp ở những
phần sau.
1.2.Một số vấn đề cơ bản trong Đại số gia tử
1.2.1. Đại số gia tử
Để mô phỏng các quá trình suy luận của con người, lý thuyết đại số gia tử
(ĐSGT) đã cố gắng nhúng tập ngôn ngữ vào một cấu trúc đại số thích hợp và
tìm cách xem chúng như là một đại số để tiên đề hoá sao cho cấu trúc thu được
mô phòng tốt ngữ nghĩa ngôn ngữ.
Giả sử X là một biến ngôn ngữ và miền giá trị của X là Dom(X). Một đại
số gia tử AX tương ứng của X là một bộ 4 thành phần AX = (Dom(X), G, H, ≤)
trong đó G là tập các phần tử sinh, H là tập các gia tử và quan hệ “≤” là quan hệ
cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần tử hằng 0, 1, W
Số hóa bởi Trung tâm Học liệu – ĐHTN


16

với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hòa trong X. Ta
gọi mỗi giá trị ngôn ngữ x ∈ X là một hạng từ trong ĐSGT.
Trong đại số gia tử AX = (Dom(X), C, H, ≤) nếu Dom(X) và C là tập sắp
thứ tự tuyến tính thì AX được gọi là đại số gia tử tuyến tính.Khi được thêm hai
gia tử tới hạn là và

với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập

H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX = (X,
G, H, ,


, ≤).

Khi tác động gia tử h ∈H vào phần tử x ∈X, thì thu được phần tử ký hiệu
hx. Với mỗi x ∈X, ký hiệu H(x) là tập tất cả các hạng từ u ∈X sinh từ x bằng
cách áp dụng các gia tử trong H và viết u = hn…h1x, với hn, …, h1∈H.
Tập H gồm các gia tử dương H+ và gia tử âm H-. Các gia tử dương làm
tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ
nghĩa của hạng từ. Không mất tính tổng quát, ta luôn giả thiết rằng H- = {h-1< h2<

... < h-q} và H+ = {h1< h2< ... < hp}.
Để ý rằng biểu thức hn...h1u được gọi là một biểu diễn chính tắc của một

hạng từ x đối với u nếu x = hn...h1u và hi...h1u ≠ hi-1...h1u với i nguyên và i ≤ n.
Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của nó đối
với phần tử sinh cộng thêm 1, ký hiệu l(x).
Ví dụ: Cho biến ngôn ngữ HOT, có G = {0,COLD, W, HOT, 1}, H- =
{PossibleHOT, Little HOT 1.2.2. Tính chất của đại số gia tử tuyến tính
a. Tính thứ tự ngữ nghĩa của các hạng từ
Định lý 1.1: [1] Cho tập H- và H+ là các tập sắp thứ tự tuyến tính của
ĐSGT AX= (X, G, H, ≤). Khi đó ta có các khẳng định sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN


17

1. Với mỗi u∈X thì H(u) là tập sắp thứ tự tuyến tính.
2. Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính

thì X cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu unhau, tức là u∉H(v) và v∉H(u), thì H(u) ≤ H(v).
b. So sánh hai hạng từ trong miền ngôn ngữ
Định lý 1.2: [1] Cho x = hn…h1u và y = km…k1u là hai biểu diễn chính tắc
của x và y đối với u. Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho hj' = kj' với
mọi j' < j (ở đây nếu j = min {n, m} + 1 thì hoặc hjlà toán tử đơn vị I, hj = I, j = n
+ 1 ≤ m hoặc

dkj = I, j = m + 1 ≤ n) và

(1)x < y khi và chỉ khi hjxj< kjxj, trong đó xj = hj-1...h1u.
(2)x = y khi và chỉ khi m = n và hjxj = kjxj.
(3)x và y là không so sánh được với nhau khi và chỉ khi hjxjvà kjxjlà không
so sánh được với nhau.
1.2.3. Vấn đề định lƣợng ngữ nghĩa trong đại số gia tử
Hàm H(x) có thể được sử dụng như là một mô hình biểu thị tính mờ của x
và kích thước tập H(x) được xem như độ đo tính mờ của x, và được định nghĩa
như sau:
Định nghĩa 1.6: [1] AX = (X, G, H, ,
Ánh xạ fm: X

, ≤) là một ĐSGT tuyến tính đầy đủ.

[0,1] được gọi là một độ đo tính mờ của các hạng từ trong X nếu:

(1)fm là đầy đủ, tức là fm(c-) + fm(c+) = 1 và

= fm(u), ∀u∈X;

(2)fm(x) = 0, với các x thỏa H(x) = {x}. Đặc biệt, fm(0) = fm(W) = fm (1) = 0;

(3)∀x,y ∈ X, h ∈ H,

=

, tỷ số này không phụ thuộc vào x và

y, vì vậy nó được gọi là độ đo tính mờ của các gia tử và được ký hiệu bởi (h).

Số hóa bởi Trung tâm Học liệu – ĐHTN


18

Trong định nghĩa trên, điều kiện (1) thể hiện tính đầy đủ của các phần tử
sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến.
Điều kiện (2) thể hiện tính rõ của các hạng từ và điều kiện (3) có thể thể được
chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử độc lập với ngữ
cảnh, do vậy khi áp dụng một gia tử h lên các hạng từ thì hiệu quả tác động
tương đối làm thay đổi ngữ nghĩa của các hạng từ đó là như nhau.
Hình vẽ sau sẽ minh họa rõ hơn cho khái niệm độ đo tính mờ của biến
ngôn ngữ HOT
Hot
Poss Hot

Little Hot

VeryHot

More Hot


W

1
fm(MLHot)

fm(LLHot)

fm(PVHot)

fm(VVHot)

fm(LVHot)
fm(VLHot)

fm(MHot)

fm(PLHot)

fm(LittleHot)

fm(MVHot)

fm(VeryHot)

fm(PossHot)
fm(Hot)

Hình 1.1: Độ đo tính mờ của biến HOT
Một số tính chất của độ đo tính mờ của các hạng tử và gia tử được thể
hiện qua mệnh đề sau:

Mệnh đề 1.1: [1] Với độ đo tính mờ fm và
(1)fm(c-) + fm(c+) = 1 và
(2)

,

đã được định nghĩa, ta có:

= fm(x);
với

> 0 và

= 1;

= 1, trong đó Xk là tập các hạng từ có độ dài đúng k;

(3)
(4)fm(hx) =

.fm(x). và x X, fm( x) = fm( x) = 0;

Số hóa bởi Trung tâm Học liệu – ĐHTN


19

(5)Cho fm(c-), fm(c+) và =

với ∀h∈H,khi đó với x = hn…h1 ,


{-

,+}, dễ dàng tính được độ do tính mờ của x như sau:
fm(x) =



)fm( )

Để thuận tiện cho việc tính toán và xử lý trong nhiều ứng dụng chúng ta
cần xác định giá trị định lượng của các hạng từ này. Việc định lượng hóa các
khái niệm mờ theo phương pháp tiếp cận của tập mờ được thực hiện qua các
phương pháp khử mờ. Đối với ĐSGT, giá trị định lượng của các hạng từ được
định nghĩa dựa trên cấu trúc thứ tự ngữ nghĩa của miền giá trị của các biến ngôn
ngữ, cụ thể là độ đo tính mờ của các hạng từ và gia tử.
Định nghĩa 1.7:[1] Cho AX = (X, G, H, ,

, ≤) là một ĐSGT tuyến tính

đầy đủ. Ánh xạ v: X→ [0,1] được gọi là một định lượng ngữ nghĩa của AX nếu:
(1)v là ánh xạ 1-1 từ tập X vào đoạn [0,1] và đảm bảo thứ tự trên X, tức là
x,y X, x
v(x)
(2)v liên tục: x X, v( x) = infimumv(H(x)) và v( x) = supremumv(H(x))
Điều kiện (1) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng
nào, điều kiện (2) đảm bảo tính trù mật của H(G) trong X. Trước hết ta cần phải
định nghĩa về dấu của các hạng từ.

Định nghĩa 1.8: [1] Một hàm dấu Sign: X

{-1,0,1} là một ánh xạ được

định nghĩa đệ quy như sau:
(1)Sign(c-) = -1, Sign(c+) = 1;
(2)Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương
đối với c
(3)Sign(h’hx) = -Sign(hx), nếu h’hx hx và h’ âm đối với h; Sign(h’hx) =
Sign(hx) nếu h’hx hx và h’ dương đối với h.
Số hóa bởi Trung tâm Học liệu – ĐHTN


20

(4)Sign(h’hx) = 0, nếu h’hx = hx
Mệnh đề 1.2: Với mọi gia tử h và phần tử x X nếu Sign(hx) = +1 thì
hx>x; nếu Sign(hx) = -1 thì hxĐịnh nghĩa 1.9:[1] Khoảng tính mờ của các hạng từ x∈X, ký hiệu

fm(x),

là một đoạn con của [0,1], ℑfm(x) ∈ tv([0,1]), nếu nó có độ dài bằng độ đo tính
mờ, |ℑfm(x)| = fm(x), và được xác định bằng qui nạp theo độ dài của x như sau:
(1) Với độ dài của x bằng 1 (l(x)=1), tức là x∈ {c-, c+}, khi đó |ℑfm(c-)| =
fm(c-), |ℑfm(c+)| = fm(c+) và ℑfm(c-) ≤ ℑfm(c+);
(2) Giả sử x có độ dài n (l(x) = n) và khoảng tính mờ ℑfm(x) đã được định
nghĩa với |ℑfm(x)| = fm(x). Khi đó tập các khoảng tính mờ {ℑfm(hjx): -q ≤ j ≤ p
và j ≠ 0} ⊂ Itv([0,1]) được xây dựng sao cho nó là một phân hoạch của ℑfm(x),
và thỏa mãn |ℑfm(hjx)| = fm(hjx) và có thứ tự tuyến tính tương ứng với thứ tự của

tập {h-qx, h-q+1x, ..., hpx}, tức là nếu h-qx > h-q+1x > ... > hpx thì ℑfm(h-qx) >fm(hq+1x)

> ... >ℑfm(hpx) và ngược lại:
v(Hot)
v(PHot)

v(LHot)

ℑ2(PHot)

ℑ2(LHot)
ℑ3(VLHot) ℑ3(PLHot)

ℑ3(LPHot) ℑ3(MPHot)

ℑ3(MLHot) ℑ3(LLHot)

v(VHot)

v(MHot)

ℑ3(LMHot)

ℑ3(PPHot) ℑ3(VPHot)

ℑ2(MHot)

ℑ2(VHot)

ℑ3(MMHot

)

ℑ3(LVHot) ℑ3(MVHot)

ℑ3(MPHot)

ℑ3(VMHot)

ℑ3(PVHot) ℑ3(VVHot)

Hình 1.2: Khoảng tính mờ của các hạng từ của biến HOT

Mệnh đề 1.3: [1] Cho A X = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy đủ:
(1) Nếu Sign(hpx′) = 1, thì ta có ℑ(h-qx′) ≤ ℑ(h-q+1x′) ≤ ... ≤ ℑ(h-1x′) ≤
Số hóa bởi Trung tâm Học liệu – ĐHTN


21

ℑ(h1x′) ≤ ℑ(h2x′) ≤ ... ≤ ℑ(hpx′), và nếu Sign(hpx′) = -1, thì ta có ℑ(hpx′) ≤
ℑ(hp-1x′) ≤ ... ≤ ℑ(h1x′) ≤ ℑ(h-1x′) ≤ ℑ(h-2x′) ≤ ... ≤ ℑ(h-qx′);
(2) Tập Ik = {ℑ(x): x ∈ Xk} là một tựa phân hoạch của đoạn [0,1];
(3) Cho một số m, tập {ℑ(y): y = km... k1x, ∀km,... , k1∈ H} là một tựa
phân hoạch của khoảng tính mờ ℑ(x);
(4) Tập Ik = {ℑ(x): x ∈ Xk} “mịn” hơn tập Ik-1 = {ℑ(x): x ∈ Xk-1}, tức là
bất kỳ một khoảng tính mờ trong Ik chắc chắn được chứa bên trong một khoảng
của Ik-1;
(5) Với x < y và l(x) = l(y), thì ℑ(x) ≤ ℑ(y) và ℑ(x) ≠ ℑ(y).
Theo Định nghĩa 1.7 và 1.8, có một mối liên hệ giữa ánh xạ định lượng
ngữnghĩa và khoảng tính mờ của của hạng từ trong một ĐSGT, được thể hiện bằng

địnhlý sau :
Định lý 1.3: [1] Cho A X = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy
đủ và hàm υ được định nghĩa trong Định nghĩa 1.7. Khi đó υ là một ánh xạ định
lượng ngữ nghĩa và tập các giá trị của υ đối với H(x), viết là υ(H(x)), trù mật
trong đoạn [υ(Φx), υ(∑x)], ∀x ∈ X. Hơn nữa, υ(Φx) = infimum υ(H(x)), υ(∑x)
= supremum υ(H(x)) và fm(x) = υ(∑x) - υ(Φx), và như vậy fm(x) = d(υ(H(x))),
trong đó d(A) là đường kính của A ⊆ [0,1]. Kết quả, υ(H(G)) trù mật trong đoạn
[0,1].
Định lý này cũng khẳng định rằng ĐSGT AX cùng với hàm định lượng
ngữ nghĩa υ có thể ứng dụng trong mọi quá trình thực.
Từ những kết quả trên cho thấy giá trị định lượng ngữ nghĩa υ(x) của
một hạng từ x cũng như khoảng tính mờ ℑ(x), ∀x ∈ X, phụ thuộc đầy đủ vào
các tham số mờ gia tử fm(c-), fm(c+), µ(h) ∀h ∈ H.
1.3. Bài toán phân lớp và phƣơng pháp giải quyết dựa trên hệ mờ dạng luật
Số hóa bởi Trung tâm Học liệu – ĐHTN


22

1.3.1. Bài toán phân lớp
Trong các bài toán về lĩnh vực khai phá dữ liệu thì bài toán phân lớp là
một trong những bài toán đặc trưng được nhiều tác giả nghiên cứu, với các
phương pháp khác nhau để đạt được hiệu quả phân lớp cao nhất. Trong đó có
phương pháp dựa trên hệ mờ dạng luật (fuzzy rule-base classification systems FRBCS), ngoài việc đạt được hiệu quả phân lớp cao phương pháp này còn được
nghiên cứu để đáp ứng cho người dùng một mô hình phân lớp dễ hiểu trực quan,
được người dùng sử dụng như là các tri thức của mình để áp dụng trong thực tế.
Bài toán phân lớp mờ có thể được phát biểu như sau: cho một tập các dữ
liệu mẫu D = {(P, C)}, trong đó P = {pi = (di,1,…,di,n)| i=1,…,N} là tập dữ liệu,
C = {C1,…,Cm} là tập các nhãn của các lớp, pi ∈ U là dữ liệu thứ i với U = U1 ×
... × Un là tích Đề-các của các miền của n thuộc tính X1, ..., Xn tương ứng, m là

số lớp và N là số mẫu dữ liệu, để ý rằng P ⊂ U. Mỗi dữ liệu pi∈ P thuộc một lớp
ci∈ C tương ứng tạo thành từng cặp (pi, ci) ∈ D. Giải bài toán bằng FRBCS
chính là xây dựng một hệ các luật mờ, ký hiệu S, để phân lớp đóng vai trò như
một ánh xạ từ tập dữ liệu vào tập nhãn:
S: U

C

(1.1)

Như vậy, hệ S phải đạt được các mục tiêu như hiệu quả quả phân lớp cao,
tức là sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng
như số điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về hiệu quả phân
lớp nhằm đáp ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho
của bài toán, các luật mờ trong S phải đơn giản và dễ hiểu đối với người dùng.
Khi đó mục tiêu xây dựng hệ luật sao cho:
fp(S) → max, fn(S) và fa(S) → min.
trong đó:

(1.2)

- fp(S) – hàm đánh giá hiệu quả phân lớp
- fn(S) – là số luật

Số hóa bởi Trung tâm Học liệu – ĐHTN


23

- fa(S) – là độ dài (số điều kiện tham gia)

Tuy nhiên, ta thấy rằng ba mục tiêu xây dựng hệ luật trên không thể đạt
được đồng thời. Khi số luật giảm thì lượng tri thức về bài toán giảm khi đó nguy
cơ phân lớp sai tăng, khi có quá nhiều luật lại gây nhiễu loạn thông tin trong quá
trình phân lớp. Số điều kiện của mỗi luật ảnh hưởng đến tính phổ quát của luật,
cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại. Tính phổ quát
dễ làm tăng khả năng dự đoán của luật nhưng nguy cơ gây sai số lớn, khi tính cá
thể tăng làm giảm khả năng dự đoán nhưng lại tăng tính đúng đắn của luật. Vì
vậy, các phương pháp giải quyết bài toán đều phải thỏa hiệp giữa các mục tiêu
để đạt được kết quả cuối cùng.
Dưới dạng tổng quát của hệ mờ dạng luật có n đầu vào thì đầu ra của nó
cũng là một tập mờ, khi đó chúng ta cần giải mờ để xác định nhãn phân lớp cho
mẫu dữ liệu tương ứng. Để đơn giản hơn thì ta sử dụng các luật mờ có phần kết
luận của mỗi luật là một giá trị hằng tương ứng với nhãn của một lớp có dạng
như sau:
If x1 is Aq1 and …and xn is Aqn then Class Cq with CFq

(1.3)

trong đó Aqj là giá trị ngôn ngữ của các biến ngôn ngữ tương ứng với các thuộc
tính, Cq là nhãn phân lớp và CFq là trọng số của mỗi luật, q= 1,…, M với M là số
luật, j=1…n. Thông thường CFq [0,1].
Đối với những dữ liệu mẫu của bài toán cho dưới dạng số, tức là U

Rn

thì việc xây dựng một hệ luật mờ S gồm hai bước:
Bước 1: Phân hoạch mờ trên miền của các thuộc tính bằng tập các giá trị
ngôn ngữ của các biến ngôn ngữ - Dom(x), mỗi giá trị ngôn ngữ được gán một
hàm thuộc tương ứng.
Bước 2: Xác định các luật mờ từ các phân hoạch ở trên tạo thành hệ S.

Số hóa bởi Trung tâm Học liệu – ĐHTN


24

Bước 1 thường dựa trên các tập mờ tương ứng với các giá trị ngôn ngữ
trên miền của các thuộc tính. Chúng ta có thể sử dụng phương pháp phân hoạch
dạng lưới (grid-partition) hoặc phân hoạch theo sự phân bố dữ liệu (scatterpartition).
Ví dụ: Cho bài toán phân lớp với tập mẫu có thuộc tính x 1, x2 và hai lớp
{C1, C2} biểu thị bằng chấm tròn và vuông (hình..):

Hình 1.3: Lưới phân hoạch mờ trên miền của hai thuộc tính
Lưới phân hoạch này chia không gian tích Đề-các của các miền của thuộc
tính tạo thành không gian các siêu hộp, ký hiệu Hs, các luật mờ sẽ được hình
thành từ các tổ hợp của các giá trị ngôn ngữ trong không gian phân hoạch tương
ứng với mỗi siêu hộp mà tại đó có hỗ trợ bởi các mẫu dữ liệu.
Trực quan từ ví dụ trong hình 1.3, các hệ luật có thể được chọn như sau:
- Hệ S1 gồm 7 luật mờ sau:
If x1 is Small and x2 is Small then Class C1,
If x1 is Small and x2 is Large then Class C1,
If x1 is Large and x2 is Medium then Class C1,
If x1 is Large and x2 is Small then Class C2,
Số hóa bởi Trung tâm Học liệu – ĐHTN


25

If x1 is Medium and x2 is Small then Class C2,
If x1 is Medium and x2 is Medium then Class C2,
If x1 is Medium and x2 is Large then Class C2.

- Hệ S2 gồm 4 luật mờ sau:
If x1 is Small then Class C1,
If x1 is Large and x2 is Medium then Class C1,
If x1 is Medium then Class C2,
If x1 is Large and x2 is Small then Class C2.
1.3.2. Mô hình hệ mờ dạng luật giải bài toán phân lớp
Luật mờ dạng (1.3) có thể được viết gọn lại như sau:
Aq

Cq with CFq

(1.4)

Trong đó Aq = (Aq,1,…,Aq,n)
Luật mờ (1.4) được đánh giá qua độ tin cậy c(Aq

Cq) kí hiệu cq và độ hỗ

trợ s(Aq Cq) kí hiệu sqbằng các công thức:



c(A q  Cq )  cq 

pi ClassCq

 Aq (pi )

N


  Aq (pi )

(1.5)

i 1



s(A q  Cq )  sq 

pi ClassCq

 Aq (pi )

N

(1.6)

Số hóa bởi Trung tâm Học liệu – ĐHTN


×