Tải bản đầy đủ (.pdf) (43 trang)

Tiểu luận môn toán học cho khoa học máy tính Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng dụng Logic mờ trong khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 43 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



BÀI THU HOẠCH MÔN
TOÁN HỌC CHO KHOA HỌC MÁY TÍNH





TÊN ĐỀ TÀI : Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng dụng
Logic mờ trong khai phá dữ liệu




GV: PGS.TS Đỗ Văn Nhơn
HV: Trịnh Đồng Thạch Trúc
Mã số: CH1301068
Lớp: Cao học khóa 8









Tp. Hồ Chí Minh – 12/2013
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
1
Trịnh Đồng Thạch Trúc – CH1301068
Mục lục
MỞ ĐẦU 1
CHƢƠNG 1. LOGIC MỜ 2
1.1. Logic mệnh đề 2
1.2. Tập mờ 3
1.2.1. Khái niệm tập mờ 3
1.2.2. Các dạng hàm thuộc tiêu biểu 4
1.2.3. Các khái niệm liên quan 5
1.2.4. Các toán tử logic trên tập mờ 6
1.2.5. Các phép toán mở rộng 8
1.3. Logic mờ 11
1.3.1. Khái niệm logic mờ 12
1.3.2. Biến ngôn ngữ 12
1.3.3. Mệnh đề mờ 13
1.3.4. Các phép toán mệnh đề mờ 14
1.3.5. Phép toán kéo theo mờ 14
1.3.6. Luật mờ 15
1.3.7. Luật Modus Ponens hay Modus Tollens 16
1.4. Số mờ 17
1.4.1. Định nghĩa 17
1.4.2. Các số học mờ 18
CHƢƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 19
2.1. Phát hiện tri thức và khai phá dữ liệu 19
2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu 19
2.2.1. Xác định vấn đề 20

2.2.2. Thu thập và tiền xử lý dữ liệu 20
2.2.3. Khai thác dữ liệu 20
2.2.4. Minh họa và đánh giá 20
2.2.5. Đƣa kết quả vào thực tế 21
2.3. Khai phá dữ liệu 21
2.3.1. Khái niệm về khai phá dữ liệu 21
2.3.2. Nhiệm vụ của khai phá dữ liệu 21
2.3.3. Một số ứng dụng khai phá dữ liệu 21
2.3.4. Các kỹ thuật khai phá dữ liệu 22
2.3.4.1. Khai phá dữ liệu dự đoán 22
2.3.4.2. Khai phá dữ liệu mô tả 22
2.3.5. Kiến trúc của hệ thống khai phá dữ liệu 23
2.4. Luật kết hợp 23
2.4.1. Ý nghĩa thực tiễn của luật kết hợp 23
2.4.2. Một số khái niệm 24
2.4.3. Tìm luật kết hợp 25
2.4.4. Thuật toán tìm luật kết hợp Apriori: 25
CHƢƠNG 3. PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP MỜ VÀ MINH HỌA BẰNG ỨNG
DỤNG THỰC TẾ 27
3.1. Mờ hóa dữ liệu 27
3.2. Khai phá luật mờ 30
3.3. Thuật toán khai phá luật kết hợp mờ 33
3.4. Ứng dụng 36
KẾT LUẬN 40
Tài liệu tham khảo : 41
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
1
Trịnh Đồng Thạch Trúc – CH1301068
MỞ ĐẦU

Logic mờ ra đời đã cung cấp một công cụ để nghiên cứu và xây dựng các hệ
thống có khả năng xử lý thông tin không chính xác. Nhờ có Logic mờ mà con ngƣời
xây dựng đƣợc những hệ điều khiển có tính linh động rất cao. Logic mờ có phạm vi
ứng dụng rộng rãi trên thế giới, từ những hệ thống cao cấp phức tạp nhƣ những hệ dự
báo, nhận dạng, robos, vệ tinh, du thuyền, máy bay,… đến những đồ dùng hằng ngày
nhƣ máy giặt, máy điều hoà không khí, máy chụp hình tự động.
Cùng với sự ra đời của logic mờ thì khai phá dữ liệu (data mining), hiện nay
đang đƣợc rất nhiều ngƣời chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong
việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn. Những phƣơng
pháp thống kê truyền thống, phần lớn đều đã đƣợc định trƣớc mục đích của công việc,
và sau đó chỉ việc sử dụng những phƣơng pháp thích hợp để có đƣợc những thông tin
mà chúng ta cần. Khai phá dữ liệu nhƣ là một công cụ, giúp chúng ta tìm ra “mỏ”
trong những “dãy núi khổng lồ”.
Ý tƣởng liên kết luật kết hợp với lý thuyết mờ đã xuất hiện, ý tƣởng ban đầu
xuất phát từ nỗ lực để xử lý các thuộc tính số trong CSDL, trong đó việc phân chia các
giá trị số vào các tập rõ có thể dẫn đến việc đánh giá cao hơn hoặc thấp hơn các giá trị
ở gần biên. Tập mờ có thể khắc phục vấn đề này bằng cách cho phép một phần tử có
thể thuộc vào các tập khác nhau. Lý thuyết mờ cung cấp những công cụ cần thiết để
thực hiện các tính toán trên các cấu trúc dữ liệu khác nhau.
Việc sử dụng logic mờ trong mô hình quan hệ cung cấp một cách hiệu quả để
xử lý dữ liệu số với các thông tin không chính xác, không chắc chắn hoặc không đầy
đủ. Lý thuyết tập mờ ngày càng đƣợc sử dụng nhiều và thƣờng xuyên hơn trong các hệ
thống thông minh bởi vì mối quan hệ của nó với cách lập luận của con ngƣời. Một số
nghiên cứu đã chứng minh đƣợc hiệu suất vƣợt trội của logic mờ trong khai phá dữ
liệu và kho dữ liệu.
Sau khi học xong học phần logic mờ do thầy Đỗ Văn Nhơn phụ trách, em đã
nghiên cứu và xây dựng phƣơng pháp tìm luật kết hợp mờ dựa vào cơ sở dữ liệu là kết
quả thi tuyển sinh đầu vào khối A trƣờng cao đẳng Phát thanh – Truyền hình II thành
phố Hồ Chí Minh và điểm thi tốt nghiệp của sinh viên sau 3 năm học.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
2
Trịnh Đồng Thạch Trúc – CH1301068
15
o
C
20
o
C
Nhiệt độ
32
o
C
Lạnh
Bình thƣờng
Nóng
CHƢƠNG 1. LOGIC MỜ
1.1. Logic mệnh đề
Cơ sở chính của logic mệnh đề là ta chỉ quan tâm đến 2 tiêu chuẩn sau:
- Mệnh đề
- Chân trị (1 và 0)
Từ 2 cơ sở chính này ta suy ra đƣợc 2 giá trị chân lý đó là: đúng (1) và sai (0).
Nhƣ vậy logic mệnh đề luôn tuân theo 2 giá trị giả thuyết nhƣ sau:
- Giả thuyết 1 là tính thành viên của tập hợp: Với một phần tử và một tập hợp bất
kỳ, thì phần tử hoặc là thuộc tập hợp đó, hoặc thuộc phần bù của tập đó.
- Giả thuyết 2 là định luật loại trừ trung gian, khẳng định một phần tử không thể
vừa thuộc một tập hợp vừa thuộc phần bù của nó.
Ví dụ 1.1: Ta có những lập luận nhƣ sau thì không thể áp dụng logic mệnh đề đƣợc:
Nếu có một bài toán nào đó có áp dụng logic mệnh đề, mà bài toán lại có giá trị
đúng (1) cũng không hẳn là đúng, mà sai (0) cũng không hẳn là sai nhƣ vậy ta không

thể áp dụng logic mệnh đề để tính toán.
Ví dụ 1.2: Nếu nhiệt độ dƣới 20 độ C thì lạnh, còn nhiệt độ từ 21 độ C đến 32 độ C là
bình thƣờng, ngƣợc lại từ 32 độ C trở lên là nóng. Hình 1.2 bên dƣới minh họa tập hợp
“LẠNH” gồm tất cả các nhiệt độ từ 20 độ C trở xuống, còn “NÓNG” gồm tất cả các
nhiệt độ từ 32 độ C trở lên.








Hình 1.2: Biểu diễn tập nhiệt độ “Lạnh”, “Bình thƣờng” và “Nóng”
Qua biểu diễn của hình trên ta thấy không thể áp dụng logic mệnh đề để phân biệt các
thành phần trong cùng một tập hợp. Giả sử ta xét trƣờng hợp về nhiệt độ lạnh giữa hai
nhiệt độ 10 độ C và 8 độ C, thì logic mệnh đề không thể hiện đƣợc nhiệt độ nào lạnh
hơn nhiệt độ nào, còn giả sử ta xét trƣờng hợp nhiệt độ nóng giữa hai nhiệt độ 40 độ C
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
3
Trịnh Đồng Thạch Trúc – CH1301068
và 50 độ C, thì logic mệnh đề cũng không thể hiện đƣợc nhiệt độ nào nóng hơn nhiệt
độ nào.
Nhƣ vậy đối với logic mệnh đề thì không thể giải quyết đƣợc các dữ kiện mang tính
mơ hồ, không chính xác, mà trong thực tế lại có rất nhiều phát biểu bằng ngôn ngữ
tự nhiên ở dạng này.
 Quy tắc tính toán của logic mệnh đề: Trong logic mệnh đề để tính toán suy luận ta
có 5 phép toán cơ bản sau:
STT

Phép toán
Ý nghĩa
1

Phủ định
2


3

Hay
4

Phép kéo theo
5

Phép kéo theo 2 chiều
1.2. Tập mờ
1.2.1. Khái niệm tập mờ
Một tập hợp trong một không gian nào đó, theo khái niệm cổ điển sẽ chia không
gian thành 2 phần rõ ràng. Một phần tử bất kỳ trong không gian sẽ thuộc hoặc không
thuộc vào tập đã cho. Tập hợp nhƣ vậy còn đƣợc gọi là tập rõ. Lý thuyết tập hợp cổ
điển là nền tảng cho nhiều ngành khoa học, chứng tỏ vai trò quan trọng của mình.
Nhƣng những yêu cầu phát sinh trong khoa học cũng nhƣ cuộc sống đã cho thấy rằng
lý thuyết tập hợp cổ điển cần phải đƣợc mở rộng.
Ta xét tập hợp những ngƣời trẻ. Ta thấy rằng ngƣời dƣới 26 tuổi thì rõ ràng là
trẻ và ngƣời trên 60 tuổi thì rõ ràng là không trẻ. Nhƣng những ngƣời có tuổi từ 26 đến
60 thì có thuộc tập hợp những ngƣời trẻ hay không? Nếu áp dụng khái niệm tập hợp cổ
điển thì ta phải định ra một ranh giới rõ ràng và mang tính chất áp đặt, chẳng hạn là 45
tuổi để xác định tập hợp những ngƣời trẻ. Và trong thực tế thì có một ranh giới mờ để

ngăn cách những ngƣời trẻ và những ngƣời không trẻ đó là những ngƣời trung niên.
Nhƣ vậy, những ngƣời trung niên là những ngƣời có một “độ trẻ” nào đó. Nếu coi “độ
trẻ” của ngƣời dƣới 26 tuổi là hoàn toàn đúng tức là có giá trị là 1 và coi “độ trẻ” của
ngƣời trên 60 tuổi là hoàn toàn sai tức là có giá trị là 0, thì “độ trẻ” của ngƣời trung
niên sẽ có giá trị p nào đó thoả 0 < p < 1 (có nghĩa là: p  [0, 1]).
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
4
Trịnh Đồng Thạch Trúc – CH1301068
Nhƣ vậy nhu cầu mở rộng khái niệm tập hợp và lý thuyết tập hợp là hoàn toàn
tự nhiên. Các công trình nghiên cứu về lý thuyết tập mờ và logic mờ đã đƣợc L.Zadeh
công bố đầu tiên năm 1965, và sau đó liên tục phát triển mạnh mẽ.
Định nghĩa: Cho không gian nền U, tập A

U đƣợc gọi là tập mờ nếu A đƣợc xác
định bởi hàm:
A

:X->[0,1]
-
A

đƣợc gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership
function)
- Với x

X thì
A

(x) đƣợc gọi là mức độ thuộc của x vào A.

Nhƣ vậy ta có thể coi tập rõ là một trƣờng hợp đặc biệt của tập mờ, trong đó hàm
thuộc chỉ nhận 2 giá trị 0 và 1.
Ký hiệu tập mờ, ta có các dạng ký hiệu sau:
 Liệt kê phần tử: giả sử U={a,b,c,d} ta có thể xác định một tập mờ A=
dcba
02.03.01.0


 A =
  
Uxxx
A
|)(,


 A =

Ux
A
x
x)(

trong trƣờng hợp U là không gian rời rạc
 A =

U
A
xx /)(

trong trƣờng hợp U là không gian liên tục

Lƣu ý là các ký hiệu



không phải là các phép tính tổng hay tích phân, mà chỉ
là ký hiệu biểu thị tập hợp mờ.
Ví dụ: Tập mờ A là tập “số gần 2” xác định bởi hàm thuộc
2
)2( 

x
A
e

ta có thể ký
hiệu: A =
  
Uxxx  |)2(,
2
hoặc A =



 xx /)2(
2

1.2.2. Các dạng hàm thuộc tiêu biểu
Theo lý thuyết thì hàm thuộc có thể là một hàm bất kỳ thoả
A


:X->[0,1].
Nhƣng trong thực tế thì có các dạng hàm thuộc sau đây là quan trọng và có tính ứng
dụng cao hơn cả.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
5
Trịnh Đồng Thạch Trúc – CH1301068
 Nhóm hàm đơn điệu
Nhóm này gồm đơn điệu tăng và đơn điệu giảm. Ví dụ tập hợp ngƣời già có hàm
thuộc đơn điệu tăng theo tuổi trong khi đó tập hợp ngƣời trẻ có hàm thuộc đơn điệu
giảm theo tuổi. Ta xét thêm ví dụ minh họa sau:
- Cho tập vũ trụ E = Tốc độ = {20, 50, 80, 100, 120} đơn vị là km/h.
- Xét tập mờ F=Tốc độ nhanh xác định bởi hàm thuộc
nhanh

nhƣ đồ thị
Nhƣ vậy tốc độ dƣới 20km/h đƣợc coi là không nhanh. Tốc độ càng cao thì độ thuộc
của nó vào tập F càng cao. Khi tốc độ là 100km/h trở lên thì độ thuộc là 1.








 Nhóm hàm hình chuông
Nhóm hàm này có đồ thị dạng hình chuông, bao gồm dạng hàm tam giác, hàm hình
thang, gauss.
Xét ví dụ cũng với tập vũ trụ E ở trên, xét tập mờ F=Tốc độ trung bình xác định bởi

hàm thuộc









1005050/)100(
502030/)20(
100200
xkhix
xkhix
xxkhi
trungbình











1.2.3. Các khái niệm liên quan
Giả sử A là tập mờ trên vũ trụ U, có hàm thuộc

A

thì ta có các khái niệm sau:
1
0.85
0.5
100
20
50
80
E
nhanh


120
1
0.4
100
20
50
80
E
trungbình


120

×