Tải bản đầy đủ (.doc) (90 trang)

Hệ thống phân lớp dựa trên luật mờ thích nghi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 90 trang )

Hệ thống phân lớp dựa trên luật mờ thích nghi

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.

Tác giả

Võ Đức Quang

1


Hệ thống phân lớp dựa trên luật mờ thích nghi

LỜI CẢM ƠN
Sau thời gian nghiên cứu, thực hiện đề tài với sự chỉ bảo, hướng dẫn tận tình
của thầy giáo, PGS. TS. Trần Đình Khang - Viện Công Nghệ Thông Tin và truyền
thông, trường Đại học Bách Khoa Hà Nội, có thể nói luận văn của tôi đã đạt được
những kết quả nhất định.
Với lòng biết ơn sâu sắc, tác giả luận văn xin được gửi lời cảm ơn chân thành
tới PGS. TS. Trần Đình Khang và các thầy cô giáo thuộc trường Đại học Bách
Khoa Hà Nội, các thầy cô trong Viện Công Nghệ Thông Tin và truyền thông, Bộ
môn Hệ thống thông tin, những người đã cung cấp, truyền đạt và chỉ bảo nhiệt tình
tất cả những kiến thức nền tảng và chuyên ngành quý giá cho tôi suốt năm năm học
đại học và thời gian học cao học tại trường.
Tôi cũng xin được gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn ở
bên cạnh, ủng hộ, động viên tinh thần cho tôi trong suốt quá trình thực hiện luận
văn này.


Hà Nội, tháng 12 năm 2013

Võ Đức Quang

2


Hệ thống phân lớp dựa trên luật mờ thích nghi

MỤC LỤC
LỜI CAM ĐOAN.........................................................................................................1
LỜI CẢM ƠN...............................................................................................................2
MỤC LỤC....................................................................................................................3
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHŨ VIẾT TẮT.........................................6
DANH MỤC CÁC BẢNG...........................................................................................7
DANH MỤC CÁC HÌNH............................................................................................8
MỞ ĐẦU....................................................................................................................10
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP.......................................12
1.1. Giới thiệu ............................................................................................................12
1.2. Bài toán phân lớp.................................................................................................13
1.3. Giải quyết bài toán phân lớp dựa trên hệ mờ......................................................16
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT...........................................................................20
2.1. Giới thiệu về tập mờ............................................................................................20
2.1.1. Tập mờ loại một...........................................................................................20
Các phép toán tập hợp trên tập mờ loại I...........................................................21
2.1.2. Tập mờ loại hai.............................................................................................23
2.2. Giới thiệu về tập mờ loại II đại số gia tử............................................................26
2.2.1. Đại số gia tử..................................................................................................26
2.2.1.1. Giới thiệu...............................................................................................26
2.2.1.2. Độ đo tính mờ, khoảng tính mờ, ánh xạ định lượng ngữ nghĩa...........28

2.2.2. Tập mờ loại II đại số gia tử..........................................................................31
2.2.2.1. Định nghĩa.............................................................................................31
2.2.2.2. Biểu diễn tập mờ loại hai đại số gia tử.................................................31
2.2.3. Các phép toán tập hợp..................................................................................33
2.2.3.1. Phép hợp................................................................................................34
2.2.3.2. Phép giao...............................................................................................34

3


Hệ thống phân lớp dựa trên luật mờ thích nghi

2.2.3.3. Phần bù..................................................................................................35
2.3. Hệ thống phân lớp dựa trên hệ mờ loại I............................................................36
2.3.1. Luật mờ loại 1 trong bài toán phân lớp........................................................36
2.3.2. Hệ thống phân lớp dựa trên hệ mờ loại 1.....................................................37
2.3.2.1. Thủ tục sinh luật....................................................................................38
2.3.2.2. Thủ tục phân lớp...................................................................................43
CHƯƠNG 3. NÂNG CAO HIỆU QUẢ PHÂN LỚP VỚI LUẬT MỜ THÍCH
NGHI...........................................................................................................................46
3.1. Điều chỉnh tập luật để cải thiện hiệu quả phân lớp.............................................46
3.2. Điều chỉnh tập luật trong phương pháp lưới mờ đơn.........................................48
3.2.1. Thích nghi tập luật dựa trên học sửa lỗi.......................................................48
3.2.1.1. Thủ tục học sửa lỗi................................................................................48
3.2.1.2. Phân lớp với tập luật thích nghi học sửa lỗi.........................................50
3.2.2. Thích nghi tập luật dựa trên học bổ sung.....................................................53
3.2.2.1. Thủ tục học bổ sung..............................................................................53
3.2.2.2. Phân lớp với tập luật thích nghi học bổ sung........................................54
3.2.3. Cắt tỉa tập luật...............................................................................................55
3.3. Điều chỉnh tập luật dựa trên tập mờ loại hai ĐSGT...........................................58

3.3.1. Hệ logic mờ loại II đại số gia tử...................................................................58
3.3.1.1 Mô hình chung........................................................................................58
3.3.1.2. Mờ hóa...................................................................................................59
3.3.1.3. Cơ sở luật...............................................................................................59
3.3.1.4. Mô tơ suy diễn.......................................................................................60
3.3.1.5. Xử lý đầu ra...........................................................................................60
3.3.2. Điều chỉnh tập luật phân loại với tập mờ loại II ĐSGT..............................61
3.3.2.1. Xây dựng cấu trúc ĐSGT......................................................................61
3.3.2.2. Xây dựng tập mờ loại II ĐSGT.............................................................64
3.3.2.3. Phân lớp.................................................................................................66
CHƯƠNG 4. THIẾT KẾ HỆ THỐNG......................................................................68

4


Hệ thống phân lớp dựa trên luật mờ thích nghi

4.1. Bộ dữ liệu thử nghiệm.........................................................................................68
4.2. Phân tích thiết kế ứng dụng.................................................................................69
4.2.1. Mô hình hệ thống..........................................................................................69
4.2.2. Chuẩn hóa dữ liệu đầu vào...........................................................................71
4.2.3. Chức năng sinh luật......................................................................................71
Sinh luật phương pháp lưới mờ đơn..................................................................71
Sinh luật phương pháp tập mờ loại II đại số gia tử:..........................................73
4.2.4. Chức năng phân lớp......................................................................................74
Phân lớp phương pháp lưới mờ đơn...................................................................74
Phân lớp phương pháp lưới mờ đơn luật thích nghi..........................................76
Phân lớp với luật mờ loại II đại số gia tử...........................................................78
CHƯƠNG 5. CÀI ĐẶT HỆ THỐNG VÀ THỬ NGHIỆM......................................79
5.1. Môi trường và công cụ phát triển........................................................................79

5.2. Chương trình ứng dụng.......................................................................................80
5.3. Thử nghiệm và đánh giá......................................................................................84
KẾT LUẬN.................................................................................................................87
TÀI LIỆU THAM KHẢO..........................................................................................89

5


Hệ thống phân lớp dựa trên luật mờ thích nghi

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHŨ VIẾT TẮT
Các ký hiệu:



Một giá trị ngôn ngữ trong tập mờ loại 2

µ A (x)

Tập tất cả các khái niệm ngữ nghĩa sinh ra từ xˆ
Hàm thuộc tập mờ loại 1


A
µ A~ ( x)

s-conorm
t-norm
Phần bù tập mờ A
Hàm thuộc tập mờ loại 2


H (xˆ )


~
A

SIG
fm(xˆ )
µ (h)

[ fm( xˆ), fm( xˆ)]

Tập mờ loại 2
Hàm dấu
Độ đo tính mờ xˆ
Độ đo tính mờ của gia tử h
Khoảng tính mờ của xˆ

RijK

Một luật trong phương pháp phân loại mờ dạng lưới

CFijK

Độ thuộc của luật trong phương pháp mờ dạng lưới

Các chữ viết tắt:
ĐSGT
FRBCS

GA
KPDL
HAT2FS

Đại số gia tử
fuzzy rule-based classification systems
Genetic Algorithms – Giải thuật di truyền
Khai phá dữ liệu
Hedge Algebraic Type-2 Fuzzy Systems

6


Hệ thống phân lớp dựa trên luật mờ thích nghi

DANH MỤC CÁC BẢNG
Bảng 2.1. Ví dụ về hàm SIG, với bốn gia tử là Very, More, Possibly….……26
Bảng 3.1. Quan hệ giữa các tham số học và số vòng lặp……………….……51
Bảng 4.1. Một số mẫu dữ liệu Iris……………………………………….……71
Bảng 4.2. Tổng hợp giá trị biên mẫu dữ liệu Iris…………………….……….71
Bảng 5.1. Phương pháp phân loại và các tham số sử dụng………….………86
Bảng 5.2. Hiệu suất phân loại trên các các mẫu huấn luyện (%)……….…...87
Bảng 5.3. Bảng kết quả khả năng khái quát hóa với các mẫu kiểm tra (%)...88

7


Hệ thống phân lớp dựa trên luật mờ thích nghi

DANH MỤC CÁC HÌNH

Hình 1.1. Học để xây dựng mô hình phân lớp……………………………………..14
Hình 1.2. Đánh giá và phân loại…………………………………………………....16
Hình 2.1. Ví dụ biểu diễn tập mờ TuổiGià…………………………….…………..20
Hình 2.2. Biểu diễn hàm thuộc của tập mờ A và B…………………………….….21
Hình 2.3. Biểu diễn các phép toán trên tập mờ A và B……………….……..…….22
Hình 2.4. Ví dụ về hàm thuộc loại II………………………………………………24
Hình 2.5. Độ đo tính mờ fm(True)………………………………………………....28
Hình 2.6. Cây đại số gia tử với nút gốc là True……………………………………29
Hình 2.7. Biểu diển phân hoạch mờ………………………………………………..35
Hình 2.8. Mô hình hệ thống phân lớp với phương pháp lưới mờ đơn……………..37
Hình 2.9. Phân vùng mờ bằng lưới mờ đơn……………………………………..…39
Hình 2.10. Mô tả phân loại hai lớp…………………………………………...…....41
Hình 2.11. Minh họa luật mờ………………………………………………………41
Hình 2.12. Phân loại bằng lưới mờ đơn……………………………………………44
Hình 3.1. Ranh giới phân loại xác định bởi hai luật mờ…………………………...46
Hình 3.2. Mô hình hệ thống phân lớp lưới mờ đơn luật thích nghi……….………47
Hình 3.3. Phân loại bằng thủ tục 3A……………………………………………….51
Hình 3.4. Minh họa phân loại với phương pháp lưới mờ luật thích nghi…………57
Hình 3.5. Mô hình hệ logic mờ loại 2……………………………………………...58
Hình 3.6. Mô hình phân lớp dựa trên tập mờ loại 2 ĐSGT………………………..61
Hình 3.7. Biểu diễn fm(c-)……………………………………………...……...….65
Hình 3.8. Với fm(c-) = 0.5………………………………………...…………..…..65
Hình 3.9. fm(c-) = 0.3……………………………………………………..……....65
Hình 4.1. Hình ảnh các loài hoa Iris…………………………...………………..…68
Hình 4.2. Phân cấp chức năng hệ thống…………………………………………....70
Hình 4.3. Mô hình sinh luật…………………………………………………….….72

8



Hệ thống phân lớp dựa trên luật mờ thích nghi

Hình 4.4. Lưu đồ của khối chức năng sinh luật………………………………..….73
Hình 4.5. Mô hình phân lớp tổng quát………………………………………….…74
Hình 4.6. Lưu đồ khối chức năng phân lớp đơn giản........................……...............75
Hình 4.7. Lưu đồ khối chức năng phân lớp luật thích nghi..............……................77
Hình 5.1. Giao diện chương trình.............................................................................80
Hình 5.2. Giao diện chương trình cùng các bước thực hiện............…….................81
Hình 5.3. Phân loại các mẫu.......................................................…….....................83

9


Hệ thống phân lớp dựa trên luật mờ thích nghi

MỞ ĐẦU
Trong giai đoạn hiện nay, khoa học công nghệ thế giới phát triển rất nhanh;
nhiều sản phẩm công nghệ được sản xuất phục vụ cho cuộc sống con người ngày
càng tiện nghi hơn. Đặc biệt trong đó là sự bùng nổ của ngành Công nghệ thông tin
với hàng loạt các sản phẩm công nghệ cao không ngừng được gia tăng về số lượng,
cải tiến về chất lượng. Đóng góp trong sự phát triển đó, gần đây, kỹ thuật mờ được
ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, từ những thiết bị gia dụng
hàng ngày như tủ lạnh, máy giặt, điều hòa nhiệt độ,… đến những nghiên cứu mang
tính chất khoa học. Bên cạnh đó, các kỹ thuật trong “khai phá dữ liệu” và “máy
học” có thể dùng để trích xuất những thông tin hữu ích cho chúng ta từ các dữ liệu
lưu trữ. Các tri thức học được trên các bộ dữ liệu có thể vận dụng để cải thiện hiệu
quả hoạt động của hệ thống hoặc giúp con người trong các bài toán tư vấn quyết
định.
Nhận thấy, trong lĩnh vực “khai phá dữ liệu”, bài toán phân lớp đang là một
bài toán lớn bao trùm nhiều lĩnh vực trong cuộc sống với những mức độ khác nhau.

Đã có nhiều hướng để tìm lời giải cho vấn đề này trong đó áp dụng luật mờ loại I.
Tuy nhiên phương pháp này vẫn mang trong nó nhiều vấn đề cần cải tiến như: tính
chính xác trong phân loại, tập luật quá lớn, hiệu quả phân lớp phụ thuộc nhiều tham
số của phương pháp phân loại,… Nghiên cứu cải thiện hiệu quả phân lớp dựa trên
các luật thích nghi, tập mờ loại II đại số gia tử trở thành một hướng nghiên cứu mới
mẻ, hứa hẹn đạt hiệu quả cao. Chính vì lý do đó, tôi chọn đề tài “Hệ thống phân
lớp dựa trên luật mờ thích nghi” là hướng nghiên cứu luận văn thạc sỹ của mình.
Luận văn đi vào tìm hiểu các khái niệm về logic mờ, tập mờ loại 1, cấu trúc
đại số gia tử và áp dụng phương pháp lưới mờ đơn để giải quyết bài toán phân lớp.
Sâu hơn nữa, luận văn áp dụng các phương pháp điều chỉnh tham số của luật phân
loại để đạt hiệu suất phân loại cao hơn và ranh giới phân loại chấp nhận được. Để so
sánh, đánh giá hiệu quả phân lớp, tác giả luận văn tiến hành phân loại thử nghiệm

10


Hệ thống phân lớp dựa trên luật mờ thích nghi

trên bộ dữ liệu hoa IRIS. Kết quả thu được chứng minh phương pháp luật thích nghi
có nhiều ưu điểm vượt trội và cho hiệu quả phân loại tốt hơn.
Bố cục của luận văn được chia ra làm các phần như sau:
Chương 1. Tổng quan về bài toán phân lớp
Chương này sẽ trình bày đối tượng nghiên cứu của luận văn là bài toán phân
lớp. Giới thiệu mô hình giải quyết một bài toán phân lớp nói chung và hướng tiếp
cận bài toán phân lớp với các luật trong mô hình phân loại mờ.
Chương 2. Cơ sở lý thuyết
Chương này trình bày những kiến thức cơ bản về tập mờ, tập mờ loại một,
tập mờ loại hai đại số gia tử và giới thiệu một phương pháp giải quyết bài toán phân
lớp dựa trên luật lưới mờ đơn giản.
Chương 3. Nâng cao hiệu quả phân lớp với luật thích nghi

Dựa trên cơ sở lý thuyết đã trình bày trong Chương 2. Chương này sẽ trình
bày hai phương pháp điều chỉnh tập luật để cải thiện hiệu quả phân lớp so với
phương pháp lưới mờ đơn giản đó là: Điều chỉnh trọng số của luật theo hướng thích
nghi và áp dụng cấu trúc đại số gia tử vào luật phân loại.
Chương 4. Thiết kế hệ thống
Chương này đi vào phân tích, thiết kế hệ thống phân lớp để đánh giá hiệu
suất phân loại với đối tương là mẫu hoa IRIS.
Chương 5. Cài đặt hệ thống và thử nghiệm
Với phân tích thiết kế từ chương trước, luận văn tiến hành cài đặt thuật toán
ứng dụng và thử nghiệm phân loại tập mẫu với các phương pháp đánh giá khác
nhau.
Chương 6. Kết luận

11


Hệ thống phân lớp dựa trên luật mờ thích nghi

CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP
1.1. Giới thiệu
Ngày nay, các hệ thống thông tin có thể lưu trữ một khối lượng rất lớn dữ
liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu này, các kỹ thuật trong
Khai phá dữ liệu (KPDL) và Máy học có thể dùng để trích xuất những thông tin hữu
ích mà chúng ta chưa biết. Các tri thức vừa học được có thể vận dụng để cải thiện
hiệu quả hoạt động của hệ thống thông tin ban đầu tốt hơn. KPDL là một quá trình
học tri thức mới từ những dữ liệu đã thu thập được. Trong KPDL, các bài toán có
thể phân ra thành bốn loại chính như dưới đây.
Bài toán thông dụng nhất trong KPDL là Phân lớp (classification). Với một
tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật
phân loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một

trong những lớp (còn gọi là loại) đã được xác định trước. Nhận dạng cũng là một
bài toán thuộc kiểu phân loại.
Ngoài ra còn có các lớp bài toán: Dự đoán (prediction) sẽ học ra các bộ dự
đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra
một giá trị số học cho hàm cần dự đoán. Bài toán tiêu biểu trong nhóm này là dự
đoán giá sản phẩm để lập kế hoạch trong kinh doanh.
Các giải thuật tìm luật liên kết (association rule) tìm kiếm các mối liên kết giữa các
phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm với nhau
trong siêu thị,…
Các kỹ thuật Phân cụm (clustering) sẽ nhóm các đối tượng dữ liệu có tính
chất giống nhau vào cùng một nhóm. Có nhiều cách tiếp cận với những mục tiêu
khác nhau trong phân loại.
Tiếp sẽ trình bày những lý thuyết cơ bản về bài toán thông dụng nhất trong
khai phá dữ liệu: Bài toán phân lớp (classification).

12


Hệ thống phân lớp dựa trên luật mờ thích nghi

1.2. Bài toán phân lớp
Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con
người có thể trích rút ra các quyết định nghiệp vụ thông minh. Phân lớp và dự đoán
là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ
liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai. Phân lớp dự đoán giá trị
của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete
value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là
biết trước. Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị
liên tục. Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là
mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngày

hôm nay và các ngày trước đó. Hay nhờ các luật về xu hướng mua hàng của khách
hàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn
về lượng mặt hàng cũng như chủng loại bày bán… Một mô hình dự đoán có thể dự
đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông
tin về thu nhập và nghề nghiệp của khách hàng. Trong những năm qua, phân lớp dữ
liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như
học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics)...
Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại,
nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục... Phần lớn các
thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory
resident), thường thao tác với lượng dữ liệu nhỏ. Một số thuật toán ra đời sau này đã
sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật toán
với những tập dữ liệu lớn lên tới hàng tỉ bản ghi.
Nhưng dù áp dụng để giải quyết các vấn đề cụ thể như thế nào thì đặc trưng
cấu trúc xử lý của hệ thống đều gồm hai bước xử lý chính là: Học (training) và kiểm
tra và phân loại (classification).
Bước 1: Học (training)
Mục đích của bước này là xây dựng một mô hình xác định một tập các lớp
dữ liệu. Mô hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ

13


Hệ thống phân lớp dựa trên luật mờ thích nghi

sở dữ liệu, mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính. Giả sử mỗi
bộ dữ liệu đã thuộc về một trong các lớp đã đựơc định nghĩa trước, điều này được
xác định bởi một trong các thuộc tính, gọi là thuộc tính phân lớp. Trong ngữ cảnh
của bài toán phân lớp, mỗi bộ dữ liệu được xem như là một mẫu, một ví dụ, hay
một đối tượng.

Những bộ dữ liệu được phân tích để xây dựng mô hình phân lớp được lấy từ
trong tập dữ liệu học hay dữ liệu huấn luyện (training data set). Những bộ dữ liệu
riêng lẻ tạo thành tập dữ liệu huấn luyện còn gọi là những mẫu huấn luyện (training
samples) và được chọn ngẫu nhiên từ một tập các mẫu. Bước này được xem là học
có giám sát, ngược lại với học có giám sát là học không có giám sát (unsupervised
learing), tiêu biểu là bài toán gom cụm (clustering) trong đó các lớp mà các mẫu
huấn luyện thuộc về là không biết trước và số lớp dữ liệu cũng không được biết
trước. Mô hình được đưa ra sau khi đã phân tích xong tập dữ liệu huấn luyện
thường có dạng là những quy tắc phân lớp, cây quyết định hay các công thức toán
học. Ví dụ Hình 1.1 có một cơ sở dữ liệu về thông tin khách hàng, một mô hình
phân lớp (hay luật phân lớp) được xây dựng sau quá trình học ở Bước 1 có thể xác
định những khách hàng tin cậy và những khách hàng bình thường của một cửa
hàng. Luật phân lớp này có thể được sử dụng để phân loại các mẫu dữ liệu liệu
trong tương lai, cũng như nó cung cấp một tri thức hữu ích chứa trong cơ sở dữ liệu.

Hình 1.1. Học để xây dựng mô hình phân lớp

14


Hệ thống phân lớp dựa trên luật mờ thích nghi

Bước 2 : Kiểm tra và phân loại (classification)
Bước này sử dụng mô hình phân lớp đã được xây dựng ở Bước 1 vào việc
phân lớp. Đầu tiên, đánh giá độ chính xác của mô hình hay bộ phân lớp này, bằng
cách sử dụng một tập các mẫu đã được phân lớp để kiểm tra (test) gọi là bộ kiểm
định (test set). Những mẫu này được chọn ngẫu nhiên và độc lập với các mẫu đã
được học ở Bước 1 gọi là mẫu kiểm định (test sample). Độ chính xác của một mô
hình phân lớp dựa trên bộ thử là tỷ lệ những mẫu thử được phân lớp đúng bằng mô
hình phân lớp đó. Nghĩa là với mỗi mẫu thử, so sánh lớp đúng mà mẫu thử đó thuộc

về với lớp mà mô hình phân lớp này dự đoán cho mẫu thử đó. Lưu ý, nếu độ chính
xác của mô hình này dựa trên tập dữ liệu huấn luyện, thì mô hình này được đánh giá
là tối ưu, nó phân lớp đúng hoàn toàn trên các mẫu đã được học; trong trường hợp
này, mô hình hướng tới sự quá khít (overfitting) của dữ liệu. Vì vậy phải sử dụng
một bộ dữ liệu liệu thử. Nếu độ chính xác của một mô hình được xem xét có thể
chấp nhận được thì mô hình đó được dùng để phân lớp cho các bộ dữ liệu hoặc các
đối tượng trong tương lai.
Ví dụ, mô hình phân lớp được xây dựng trong Bước 1 bằng cách phân tích
dữ liệu của các khách hàng đã biết, được dùng để dự đoán sự “đánh giá” các khách
hàng mới trong tương lai ở Hình 1.2.

15


Hệ thống phân lớp dựa trên luật mờ thích nghi

Hình 1.2. Đánh giá và phân loại

1.3. Giải quyết bài toán phân lớp dựa trên hệ mờ
Đánh giá tầm ảnh hưởng lớn của bài toán phân lớp trong cuộc sống, các nhà
khoa học đã tìm cách giải quyết vấn đề này theo nhiều hướng nghiên cứu khác nhau
nhằm đạt được hiệu quả cao nhất. Nổi bật nhất là các phương pháp: Phân lớp
Bayes, Naïve Bayesian, mạng neural, phân lớp K - láng giềng gần, thuật toán di
truyền. Đặc biệt trong đó rất đáng chú ý là việc áp dụng các luật mờ để giải quyết
bài toán phân lớp.
Việc áp dụng luật mờ làm cơ sở phân lớp mang lại một sự hợp lý và kết quả
rất gần với thực tế. Trong khi các phương pháp khác tập trung giải quyết bài toán
với mục tiêu đạt hiệu quả phân lớp cao nhất thì phương pháp dựa trên hệ mờ dạng
luật (fuzzy rule-based classification systems - FRBCS), ngoài việc đạt hiệu quả
phân lớp cao còn được nghiên cứu để đáp ứng cho người dùng một mô hình phân

lớp dễ hiểu và trực quan. Người dùng có thể sử dụng các luật mờ trong mô hình như
là các tri thức của mình để chủ động áp dụng trong thực tế. Phương pháp FRBCS
được nhiều tác giả nghiên cứu sử dụng để giải bài toán (chẳng hạn trong [1],[3],[4],
[5]) và chúng ta gọi đây là bài toán phân lớp mờ.

16


Hệ thống phân lớp dựa trên luật mờ thích nghi

Bài toán phân lớp mờ có thể được phát biểu như sau: Cho một tập các mẫu
dữ liệu

, trong đó

là tập dữ liệu,

là tập các nhãn của các lớp,

là dữ liệu thứ với

là tích Đề-các của các miền của
ứng,

là số lớp và

một lớp

là số mẫu dữ liệu, để ý rằng


tương ứng tạo thành từng cặp

thuộc tính
. Mỗi dữ liệu

tương
thuộc

. Giải bài toán bằng FRBCS

chính là xây dựng một hệ các luật mờ, ký hiệu , để phân lớp đóng vai trò như một
ánh xạ từ tập dữ liệu vào tập nhãn:
Hệ các luật mờ này biểu diễn cho tri thức về bài toán, nó không chỉ phản ánh
đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và cung cấp giúp cho người
dùng phán đoán, ra quyết định. Do đó, hệ luật phải tường minh, dễ hiểu đối với
người dùng. Như vậy, hệ

phải đạt các mục tiêu như hiệu quả phân lớp cao, tức là

sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng như số
điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về hiệu quả phân lớp nhằm đáp
ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, còn
hai mục tiêu sau với mong muốn hệ luật phải tường minh, các luật mờ trong

phải

đơn giản và dễ hiểu đối với người dùng.
Nếu

là hàm đánh giá hiệu quả phân lớp,


là số luật và

là độ

dài (hay số điều kiện tham gia) trung bình của vế trái trong hệ luật S thì mục tiêu là
xây dựng hệ luật sao cho:

Ba mục tiêu trên không thể đạt được đồng thời. Khi số luật giảm đồng nghĩa
với lượng tri thức về bài toán giảm thì nguy cơ phân lớp sai tăng lên, nhưng khi có
quá nhiều luật cũng có thể gây ra sự nhiễu loạn thông tin trong quá trình phân lớp.
17


Hệ thống phân lớp dựa trên luật mờ thích nghi

Bên cạnh đó, số điều kiện của mỗi luật ảnh hưởng đến tính phổ quát hay cá thể của
luật, cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại số điều kiện
tăng sẽ làm tăng tính cá thể của luật đó. Tính phổ quát sẽ làm tăng khả năng dự
đoán của luật nhưng nguy cơ gây sai số lớn, trong khi tính cá thể giảm khả năng dự
đoán nhưng lại tăng tính đúng đắn của luật. Các phương pháp giải quyết bài toán
đều phải thỏa hiệp giữa các mục tiêu này để đạt được kết quả cuối cùng.
Các tác giả trong [20] sử dụng hệ luật mờ như dạng:
IF x1 is A1 and … and x9 is A9 THEN y is B,
cho bài toán phân lớp, khi đó kết quả lập luận đầu ra của hệ là một tập mờ B đối với
một mẫu dữ liệu, chúng ta cần giải mờ để xác định nhãn phân lớp cho mẫu dữ liệu
tương ứng. Nhiều tác giả [1][5][7][17] thì sử dụng các luật mờ có phần kết luận của
mỗi luật là một giá trị hằng tương ứng với nhãn của một lớp, có dạng như sau:
If
trong đó:

tính,

is

and ... and

is

then Class

with

,

là giá trị ngôn ngữ của các biến ngôn ngữ tương ứng với các thuộc

là nhãn phân lớp và

là trọng số của luật,

với

là số luật,

. Thông thường trong các bài toán thì trọng số của luật là số thực trong
khoảng đơn vị,
Đối với tập dữ liệu mẫu của bài toán phân lớp được cho dưới dạng số, tức là
, thì việc xây dựng một hệ luật mờ

thường gồm hai bước sau:


Bước 1: Phân hoạch mờ (fuzzy partition) trên miền của các thuộc tính bằng
tập các giá trị ngôn ngữ của các biến ngôn ngữ -

, mỗi giá trị ngôn ngữ

được gán một hàm thuộc tương ứng.
Bước 2: Xác định các luật mờ từ các phân hoạch ở trên tạo thành hệ .
Bước phân hoạch mờ dựa trên các tập mờ tương ứng với các trị ngôn ngữ
trên miền của các thuộc tính. Có hai phương pháp thường áp dụng đó là phân hoạch

18


Hệ thống phân lớp dựa trên luật mờ thích nghi

dưới dạng lưới (grid-partition) và phân hoạch theo sự phân bố dữ liệu (scatterpartition). Trong luận văn sẽ nghiên cứu giải quyết bài toán phân lớp và cải tiến tập
luật nâng cao hiệu quả phân lớp với phân hoạch dạng lưới.

19


Hệ thống phân lớp dựa trên luật mờ thích nghi

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Giới thiệu về tập mờ
2.1.1. Tập mờ loại một
Lý thuyết tập mờ lần đầu tiên được Lotfi.A.Zadeh, một giáo sư thuộc trường
Đại học Caliornia, Berkley, giới thiệu trong một công trình nghiên cứu vào năm
1965.[9]. Lý thuyết tập mờ bao gồm logic mờ, số học mờ, quy hoạch toán học mờ,

hình học tôpô mờ, lý thuyết đồ thị mờ, và phân tích dữ liệu mờ, mặc dù thuật ngữ
logic mờ thường được dùng chung cho tất cả.
Xét một tập hợp toán học thông thường, ví dụ tập hợp Tuổi Già bao gồm các
giá trị tuổi x thoả mãn:
Tuổi Già = {x| x ≥ 60 và x ≤ 130}
Nhận xét rằng thật vô lý khi ta coi 60 tuổi là già và cũng coi 90 tuổi là già.
Với tập hợp toán học thông thường coi tất cả các phần tử trong một tập hợp vai trò
như nhau. Từ đó mở rộng tập mờ toán học thông thường, với vai trò các phần tử
trong tập hợp được đặc trưng bởi độ thuộc của phần tử đó, khi đó ta có khái niệm
tập mờ (hay tập mờ loại I).
Định nghĩa 2-1: Một tập mờ A xác định trên không gian nền X được đặc trưng
bằng một hàm thuộc µ A ( x) : X → [ 0,1]
Trong đó, A là nhãn mờ của biến x, thường mang một ý nghĩa ngôn ngữ nào
đó, mô tả định tính thuộc tính của đối tượng , chẳng hạn như cao, thấp, nóng, lạnh,
sáng, tối,... Một tập mờ có thể hữu hạn hoặc vô hạn phần tử, nếu tập mờ A là hữu
hạn thì được viết dưới dạng: A = ∑i =1 µ A ( xi ) xi và khi tập mờ A vô hạn được viết
N

là: A = ∫x∈ X µ A ( x ) x
Ví dụ tập mờ Tuổi Già trên có thể được biểu diễn như sau:

20


Hệ thống phân lớp dựa trên luật mờ thích nghi

0.99 1
1 
 0.01 0.03
+

+ ... +
+
+ ... +

61
109 110
130 
 60

TuổiGià = 

Biểu diễn về mặt hình học ta có tập mờ TuổiGià như sau:

Hình 2.1. Ví dụ biểu diễn tập mờ TuổiGià

Về mặt logic, tập mờ diễn đạt mức độ chân lý của một phát biểu, với 0.0 đại
diện cho trường hợp phát biểu hoàn toàn sai và 1.0 biểu diễn trạng thái hoàn toàn
đúng. Chẳng hạn, khi ta nói: “Ông Quang đã già”.
Nếu như ông Quang đang ở tuổi 75, chúng ta có thể gán cho phát biểu trên
một giá trị chân lý là 0.31. Điều này có ý nghĩa là ông Quang ít nhiều đã già, và
mức độ già của ông được đánh giá bằng một con số tương ứng là 0.31.
Các phép toán tập hợp trên tập mờ loại I
Trong lý thuyết tập mờ, các phép toán tập hợp được định nghĩa thông qua
các hàm thuộc của chúng. Giả sử A và B là hai tập mờ xác định trên không gian X
được đặc trưng bởi các hàm thuộc tương ứng là µ A (x) và µ B (x)
Ðịnh nghĩa 2-2:
Hợp của hai tập mờ A và B, ký hiệu A ∪ B có hàm thuộc được định nghĩa:

µ A∪B ( x) = µ A ( x) • µ B ( x)


(2-1)

Trong đó ký hiệu • là toán tử s-conorm, và thường được sử dụng là phép max.
Ðịnh nghĩa 2-3:
Giao của hai tập mờ A và B, ký hiệu A ∩ B có hàm thuộc được định nghĩa:
(2-2)
µ A∩B ( x) = µ A ( x) ∗ µ B ( x)
Trong đó ký hiệu ∗ là toán tử t-norm, và thường được sử dụng là phép min.

21


Hệ thống phân lớp dựa trên luật mờ thích nghi

Ðịnh nghĩa 2-4:
Phần bù của tập mờ A, ký hiệu A có hàm thuộc được định nghĩa:
(2-3)

µ A ( x) = 1 − µ A ( x)
Xét ví dụ sau:

Ví dụ 2-1: Cho hai tập mờ A và B cùng xác định trên không gian nền X = [0..10] có
hàm thuộc được xác định như sau:

1, khi 0 ≤ x ≤ 3
− 1
µ A ( x) =  3 × x + 2, khi 3 ≤ x ≤ 6

0, khi 6 ≤ x ≤ 10



(2-4)


0, khi 0 ≤ x ≤ 2
1
µ B ( x ) =  5 × x − 2 5 , khi 2 ≤ x ≤ 7

1, khi 7 ≤ x ≤ 10


(2-5)

Hình 2.2. Biểu diễn hàm thuộc của tập mờ A và B

22


Hệ thống phân lớp dựa trên luật mờ thích nghi

Hình 2.3. Biểu diễn các phép toán trên tập mờ A và B
Hợp (hình a), Giao (hình b), Phần bù (hình c,d)

2.1.2. Tập mờ loại hai
Tập mờ loại I đã bộc lộ một vài khuyết điểm, theo G.J.Klir và T.A.Folger
[19], “một vấn đề, nếu không nói là nghịch lý, rằng việc biểu diễn tính mờ lại sử
dụng độ thuộc mà bản thân nó lại là một số thực rõ”. Hơn nữa, quá trình suy diễn
đối với tập mờ loại I là hoàn toàn rõ ở tất cả các công đoạn. Những khuyết điểm này
của tập mờ loại I thúc đẩy quá trình nghiên cứu mở rộng tập mờ loại I sao cho vẫn
giữ được những ưu điểm trong suy luận không chắc chắn và loại bỏ khuyết điểm

của tập mờ loại I. Từ đó, mở rộng tập mờ loại I với độ thuộc được mờ hoá, hay độ
thuộc lại là một tập mờ loại I, ta có tập mờ loại II.
Định nghĩa 2-5: Một tập mờ loại II được xác định bởi một hàm thuộc mờ, độ thuộc
của mỗi phần tử là một tập mờ trên [0,1]. Một tập mờ loại II

~
A

trên X là tập mờ

~
được đặc trưng bởi hàm thuộc mờ µ A~ ( x) như sau: µ A~ ( x) : A → [ 0,1] J , trong đó

µ A~ ( x) được gọi là độ thuộc mờ và là một tập mờ loại I trên J ⊆ [ 0,1] .

23


Hệ thống phân lớp dựa trên luật mờ thích nghi

nghiên cứu một loại tập mờ loại II đặc biệt, khi mà độ thuộc là các giá trị chân lý
ngôn ngữ, với quy ước hoàn toàn đúng được coi là 1, hoàn toàn sai được coi là 0, vì
vậy giá trị chân lý ngôn ngữ {đúng, sai} có thể coi là một tập mờ loại I trên [0,1], và
tập mờ loại II với độ thuộc là các giá trị chân lý ngôn ngữ được gọi là tập mờ loại II
đại số gia tử.
Để minh hoạ cho tập mờ loại I và tập mờ loại II ta xét ví dụ sau:
Ví dụ: Một hội đồng giám khảo bảo vệ tốt nghiệp gồm có 5 thầy giáo. Điểm
bảo vệ tốt nghiệp của một sinh viên là trung bình cộng điểm của cả 5 thầy. Với một
thí sinh A, xét về các tiêu chí khác nhau có thể xứng đáng được 8, 9 hoặc 10 điểm.
Ta xét một vài trường hợp cho điểm như sau:

Cách 1 (thông thường): 8 hoặc 9 hoặc 10.
Cách 2 (tập mờ loại I):

0 .2 0 .4 0 .4
+
+
.
8
9 10

Cách 3 (tập mờ loại II khoảng):

[ 0.1,0.3] + [ 0.3,0.4] + [ 0.4,0.5]
8

Cách 4 (tập mờ loại II đại số gia tử):

9

10

LessTrue VeryTrue MoreTrue
+
+
8
9
10

Nhận xét:
Theo cách 1, rõ ràng sai số cho điểm là khá lớn, phụ thuộc vào tâm lý cân

nhắc của thầy giáo. Theo cách 2, chính xác hơn một chút, tuy nhiên nhiều trọng số,
dễ gây ra sai số mới của chính những trọng số này, mệt mỏi cho người chấm. Cách
3 có lẽ càng phức tạp với người chấm. Cách 4, khá nhẹ nhàng, rõ ràng hợp lý nhất
và điểm chính xác hơn.
Qua ví dụ này, ta có thể thấy tập mờ loại II đại số gia tử chính là một bước
tiếp cận gần hơn nữa với suy nghĩ của con người, phù hợp với các hệ thống cần
tham khảo ý kiến của các chuyên gia. Nếu coi tập mờ loại I là sự mở rộng của tập
hợp toán học thông thường thành không gian 2 chiều, thì tập mờ loại II chính là sự
mở rộng của tập mờ loại I từ không gian 2 chiều thành không gian 3 chiều. Điều
này được khẳng định trong định nghĩa dưới đây:

24


Hệ thống phân lớp dựa trên luật mờ thích nghi
~
Ðịnh nghĩa 2-6: Một tập mờ loại hai, ký hiệu A
, được mô tả bởi một hàm thuộc

loại hai µ A~ ( x, u ) , với x ∈ X và u ∈ J x ⊆ [ 0,1] , tức là:
(2-6)
trong đó, 0 ≤ µ A~ ( x, u ) ≤ 1

~
Tập mờ loại II A cũng có thể được biểu diễn là:
(2-7)
ở đây dấu

∫∫


được hiểu là sự kết hợp tất cả những giá trị có thể của x và u. Trong

không gian rời rạc, dấu



được thay thế bởi



.

Một ví dụ về hàm thuộc loại II cho trong hình vẽ sau:

Hình 2.4. Ví dụ về hàm thuộc loại II

Hình 2.4 mô tả một hàm thuộc loại II µ A~ ( x, u ) với x và u rời rạc. Cụ thể,
X={1,2,3,4,5}, U={0, 0.2, 0.4, 0.6, 0.8}, J x ⊆ [ 0,1] là tập các giá trị có thể của u tại
x, được gọi là hàm thuộc sơ cấp của x, chẳng hạn J1={0, 0.2, 0.4, 0.6, 0.8}, J2={0.6,
0.8}…
Như vậy, việc biểu diễn tập mờ loại II được mở rộng thành 3 chiều, gồm có:
-

Không gian nền X

-

Độ thuộc sơ cấp J x ⊆ [ 0,1] , cũng chính là giá đỡ của hàm thuộc mờ.

25



×