Tải bản đầy đủ (.pdf) (27 trang)

Phân lớp dữ liệu sử dụng logic mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (398.45 KB, 27 trang )

Đ

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

PHẠM MẠNH HÙNG

PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ

LuËn v¨n th¹c SÜ KHOA HỌC MÁY TÍNH

Mẫu 3. Trang phụ bìa luận văn (title page)
THÁI NGUYÊN - 2012

Số hóa bởi Trung tâm Học liệu – Đại học
Thái
NguyênTh¸i
Nguyªn

2012




I HC THI NGUYấN
TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG

PHM MNH HNG

PHN LP D LIU S DNG LOGIC M
Chuyên ngành: Khoa hc mỏy tớnh


Mã số: 60 48 01

Luận văn thạc Sĩ KHOA HC MY TNH

Ng-ời h-ớng dẫn khoa học: TS. V MNH XUN

THI NGUYấN - 2012

S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn




Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




i

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung trong luận văn hoàn toàn theo đúng nội dung
của đề cƣơng đã đăng ký và nội dung các phần trích lục tài liệu hoàn toàn chính
xác. Nếu có sai sót gì tôi xin hoàn toàn chịu trách nhiệm.
Ngƣời viết

Phạm Mạnh Hùng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





ii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
DANH MỤC CÁC HÌNH ...........................................................................................v
DANH MỤC CÁC BẢNG........................................................................................ vi
MỞ ĐẦU .....................................................................................................................1
CHƢƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU ...........................................3
1.1. Khái quát về phân lớp dữ liệu ..........................................................................3
1.1.1. Các bƣớc tiến hành phân lớp dữ liệu ..........................................................4
1.1.2. Chuẩn bị dữ liệu .........................................................................................6
1.1.3. Làm sạch dữ liệu ........................................................................................7
1.1.4. Phân tích dữ liệu .........................................................................................7
1.1.5. Chuyển đổi dữ liệu .....................................................................................7
1.1.6. So sánh các mô hình phân lớp ....................................................................8
1.2. Phân lớp dữ liệu với kỹ thuật cây quyết định ...................................................8
1.2.1. Khái niệm về cây quyết định ......................................................................8
1.2.2. Giải thuật ....................................................................................................9
1.2.3. Rút luật phân lớp từ cây quyết định .........................................................10
1.2.4. Ƣu điểm và hạn chế của cây quyết định ...................................................11
1.3. Phân lớp dữ liệu với kỹ thuật mạng Bayes .....................................................12
1.3.1. Định lý Bayes ...........................................................................................12
1.3.2. Phân loại Bayes ngây thơ (Bayes đơn giản) .............................................12
1.4. Phân lớp dữ liệu với kỹ thuật mạng nơ-ron ....................................................13
1.4.1. Cơ sở về mạng nơ-ron ..............................................................................13
1.4.2. Cấu trúc và mô hình mạng nơ-ron............................................................14

1.4.3. Dạng toán học của tổng liên kết ...............................................................15
1.4.4. Dạng của hàm a(f) - Hàm hoạt tính phi tuyến. .........................................15
1.5. Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM) ..........................................17
1.6. Phân lớp dữ liệu bằng WEKA ........................................................................19
1.6.1. Giới thiệu chung .......................................................................................19
1.6.2. Ứng dụng của phần mềm Weka 3.7.5 vào bài toán phân lớp dữ liệu điểm
của học sinh. .......................................................................................................21

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii

1.7. Kết luận chƣơng 1 ..........................................................................................23
CHƢƠNG 2: PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ ................................24
2.1. Tập mờ:...........................................................................................................24
2.1.1. Lý thuyết tập mờ ......................................................................................24
2.1.2. Khái niệm tập mờ .....................................................................................25
2.1.3. Một số định nghĩa cơ bản .........................................................................27
2.1.4. Các phép toán trên tập mờ ........................................................................29
2.2. Quan hệ mờ ....................................................................................................31
2.2.1. Khái niệm chung ......................................................................................31
2.2.3. Các phép hợp thành mờ ............................................................................38
2.3. Suy diễn mờ ....................................................................................................39
2.3.1. Phép suy diễn: “if P then Q” ....................................................................39
2.3.2. Phép suy diễn “if P then Q else Q1” ........................................................40
2.4. Logic mờ.........................................................................................................40
2.4.1. Mở đầu ......................................................................................................40

2.4.2. Biến ngôn ngữ và mệnh đề mờ.................................................................41
2.4.3. Các phép kết nối .......................................................................................43
2.5. Phân lớp dữ liệu dựa trên quan hệ mờ ............................................................45
2.5.1. Cơ sở lí thuyết ..........................................................................................45
2.5.2. Phân hoạch các đối tƣợng mờ trong bài toán thực tế ..............................45
2.5.3. Quan hệ mờ trong phân lớp dữ liệu ..........................................................46
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM ..................................................................50
3.1. Khái niệm chung bài toán phân lớp ................................................................50
3.2. Bài toán minh họa sự phân lớp các đối tƣợng mờ ..........................................51
3.2.1. Phát biểu bài toán .....................................................................................51
3.2.2. Thuật toán .................................................................................................51
3.3. Thử nghiệm bài toán ứng dụng phân lớp bằng logic mờ ............................52
3.4. Kết quả thử nghiệm .....................................................................................55
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................61
TÀI LIỆU THAM KHẢO .........................................................................................63

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iv

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT



Phép hội




Phép tuyến



Lƣợng từ với mọi



Phép giao



Phép hợp



Phép kéo theo



Tập rỗng



Phép thuộc



Lƣợng từ tồn tại




Phép tƣơng đƣơng



Phép phủ định



Chứa trong

×

Tích đề các

CSDL

Cơ sở dữ liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




v

DANH MỤC CÁC HÌNH


Hình 1.1: Quá trình phân lớp dữ liệu và bƣớc xây dựng mô hình phân lớp. ...............4
Hình 1.2: Quá trình phân lớp dữ liệu - ƣớc lƣợng độ chính xác của mô hình .............6
Hình 1.3: Quá trình phân lớp dữ liệu - phân lớp dữ liệu mới ......................................6
Hình 1.4: Cây quyết định mua máy tính của sinh viên ..............................................10
Hình1.5: Minh hoạ về một nơ- ron ...........................................................................14
Hình1.6: Sự liên kết của hai nơ-ron ...........................................................................15
Hình1.7: Giao diện ban đầu của phần mềm WEKA .................................................19
Hình 2.1: Khái niệm tập mờ ......................................................................................28
Hình2.2: Các tập mờ biểu diễn các giá trị ngôn ngữ: “Chậm”, “Trung bình" và “Nhanh”.42
Hình 2.3: Tập mờ “tuổi trẻ” .......................................................................................43

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vi

DANH MỤC CÁC BẢNG
Bảng 1.1: Bảng mua máy tính của sinh viên ............................................................9
Hình 1.3: Hình minh họa đổi đuôi XLS sang CSV (comma delimited) .................21
Bảng 1.4: Bảng dữ liệu đầu vào để phân lớp bằng WEKA ....................................22
Bảng1.3: Bảng phân lớp các trƣờng dữ liệu WEKA ..............................................22
Bảng 3.1: Bảng điểm học sinh ................................................................................53
Bảng 3.2: Ma trận khoảng cách Hamming .............................................................55
Bảng 3.3: Ma trận phân lớp Hamming....................................................................57

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





1

MỞ ĐẦU
Phân lớp dữ liệu là một bài toán thƣờng gặp trong đời sống hàng ngày. Chẳng
hạn ngƣời ta phân loại học lực sinh viên dựa vào điểm trung bình từng học kỳ hoặc
phân chia theo từng vùng lãnh thổ, phân loại các bệnh tật thƣờng gặp, các cách
phân loại nhƣ vậy đều xuất phát từ việc xác định một quan hệ tƣơng đƣơng trên tập
các đối tƣợng đang xét. Tuy nhiên phân lớp thông qua quan hệ tƣơng đƣơng thông
thƣờng mặc dù thuận tiện, dễ lập trình, song thiếu mềm dẻo và đôi khi không phản
ánh đúng thực chất đối tƣợng. Chẳng hạn một sinh viên có điểm trung bình 6,9 thì
đƣợc xếp loại trung bình, đồng hạng với ngƣời có điểm 5,0; song ngƣời có điểm
trung bình 7,0 lại xếp hạng khá!. Tƣơng tự nhƣ vậy, trong đời sống ngƣời ta vẫn
phân loại một cách “tƣơng đối” chẳng hạn nhƣ “những ngƣời cao”. Logic mờ đƣợc
ra đời và phát triển dựa trên lý thuyết tập mờ đã giúp cho tin học có cái nhìn gần
với thực tiễn hơn, các công cụ của logic mờ cho phép xử lý những thông tin không
đầy đủ, không chính xác, chẳng hạn việc tìm hai đối tƣợng “giống nhau” chứ
không phải “bằng nhau” nhƣ với cách tìm kiếm thông thƣờng.
Nhằm tìm hiểu kỹ hơn về logic mờ và ứng dụng trong bài toán phân lớp dữ liệu,
giúp cho việc phân lớp mềm dẻo hơn, gần với đời thƣờng hơn, tôi đã lựa chọn đề
tài “Phân lớp dƣ̃ liệu sử dụng logic mờ” làm đề tài luận văn của mình.
Mục đích của đề tài:
Mục đích của đ ề tài này nh ằm nghiên cƣ́u lý thuyết tập mờ , quan hệ mờ, logic
mờ, trên cơ sở đó nghiên cứu phƣơng pháp phân lớp dữ liệu dựa trên logic mờ
đồng thời minh hoạ trên một số bài toán cụ thể. Nội dung chính của luận văn gồm
ba chƣơng.
Chương 1: Tổng quan về phân tích dữ liệu.
Chƣơng này trình bày khái quát về một số kỹ thuật phân lớp, cách phân lớp
thông thƣờng đã sử dụng. Chƣơng này cũng đƣa ra một số ví dụ minh họa cụ thể.

Chương 2: Phân lớp dƣ̃ liệu sử dụng logic mờ.
Chƣơng này trình bày khái niệm tập mờ, các phép toán trên tập mờ và quan hệ
mờ cùng với những tính chất cơ bản của quan hệ mờ. mệnh đề mờ, các phép toán
logíc mờ, đặc biệt là các luật logic mờ làm cơ sở cho chƣơng sau.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....




data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....


data error !!! can't not
read....

data error !!! can't not
read....



×