Tải bản đầy đủ (.pdf) (69 trang)

Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả hong yu và dachun yan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 69 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NHA TRANG
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN TỐT NGHIỆP

TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG
DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ
HONG YU VÀ DACHUN YAN

Giảng viên hướng dẫn:

TS. Nguyễn Đức Thuần

Sinh viên thực hiện:

Trần Văn Đức

Mã số sinh viên:

57130946

Khánh Hòa - 2019


TRƯỜNG ĐẠI HỌC NHA TRANG

KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN


ĐỒ ÁN TỐT NGHIỆP

TÌM HIỂU THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG
DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI TÁC GIẢ
HONG YU VÀ DACHUN YAN

Giảng viên hướng dẫn:

TS. Nguyễn Đức Thuần

Sinh viên thực hiện:

Trần Văn Đức

Mã số sinh viên:

57130946

Khánh Hòa, tháng 6/2019


QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP

iii


TRƯỜNG ĐẠI HỌC NHA TRANG
Khoa/Viện: Công nghệ thông tin
PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP
Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của

hai tác giả Hong Yu và Dachun Yan
Chuyên ngành: Công nghệ thông tin
Họ và tên sinh viên: Trần Văn Đức

Mã sinh viên: 57130946

Người hướng dẫn: TS. Nguyễn Đức Thuần
Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang
Phần đánh giá và cho điểm của người hướng dẫn (tính theo thang điểm 10)
Mô tả chất lượng
Tiêu chí
đánh giá

Trọng
số
(%)

Xây dựng đề
cương nghiên cứu

10

Tinh thần và thái
độ làm việc

10

Kiến thức và kỹ
năng làm việc


10

Nội dung và kết
quả đạt được

40

Kỹ năng viết và
trình bày báo cáo

30

Giỏi

Khá

Đạt yêu cầu

Không đạt

9 - 10

7-8

5-6

<5

Điểm


ĐIỂM TỔNG
Ghi chú: Điểm tổng làm tròn đến một chữ số lẻ.
Nhận xét chung (sau khi sinh viên hoàn thành ĐA/KLTN):
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
Đồng ý cho cho sinh viên:

Được bảo vệ:

Không được bảo vệ:

Khánh Hòa, ngày ......... tháng ...... năm ........
Cán bộ hướng dẫn

iv


TRƯỜNG ĐẠI HỌC NHA TRANG
Khoa/Viện: Công nghệ thông tin
PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP

(Dành cho cán bộ chấm phản biện)
Tên đề tài: Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan
Chuyên ngành: Công nghệ thông tin
Họ và tên sinh viên: Trần Văn Đức

Mã sinh viên: 57130946


Người phản biện: .............................................
Cơ quan công tác: Khoa Công nghệ thông tin – Đại học Nha Trang
I. Phần đánh giá và cho điểm của người phản biện (tính theo thang điểm 10)
Mô tả chất lượng
Tiêu chí
đánh giá

Trọng
số
(%)

Hình thức
bản thuyết minh

30

Nội dung bản
thuyết minh

30

Kết quả
nghiên cứu

20

Mức độ trích dẫn
và sao chép


20

Giỏi

Khá

Đạt yêu cầu

Không đạt

9 - 10

7-8

5-6

<5

Điểm

ĐIỂM TỔNG
Ghi chú: Điểm tổng làm tròn đến một chữ số lẻ.
Kết luận:
Đồng ý cho cho sinh viên:

Được bảo vệ:

Không được bảo vệ:

Khánh Hòa, ngày ......... tháng ...... năm ........

Cán bộ chấm phản biện
(Ký và ghi rõ họ tên)

v


II. Phần nhận xét cụ thể
II.1. Hình thức thuyết minh (tỉ trọng 30%)
• Trình bày
....................................................................................................................................................
....................................................................................................................................................
• Bố cục và lập luận
....................................................................................................................................................
....................................................................................................................................................
• Văn phong
....................................................................................................................................................
II.2. Nội dung thuyết minh (tỉ trọng 30%)
• Mục tiêu nghiên cứu
....................................................................................................................................................
....................................................................................................................................................
• Tổng quan tài liệu
....................................................................................................................................................
....................................................................................................................................................
• Phương pháp nghiên cứu
....................................................................................................................................................
....................................................................................................................................................
II.3. Kết quả nghiên cứu (tỉ trọng 20%)
• Kết quả đạt được
....................................................................................................................................................
....................................................................................................................................................

• Kết luận
....................................................................................................................................................
....................................................................................................................................................
II.4. Mức độ trích dẫn và sao chép (tỉ trọng 20%)
• Mức độ trích dẫn
....................................................................................................................................................
• Mức độ sao chép
....................................................................................................................................................

vi


CAM ĐOAN CỦA SINH VIÊN
Tôi xin cam đoan về các kết quả và số liệu trình bày trong đồ án “Tìm hiểu thuật
toán phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả Hong Yu và
Dachun Yan” là trung thực. Trong quá trình thực hiện đồ án, tôi có sử dụng một số tài
liệu liên quan đến vấn đề cần nghiên cứu. Các tài liệu này đã được phép sử dụng và trích
dẫn đầy đủ ở mục “Tài liệu tham khảo”.
Tôi xin chịu hoàn toàn trách nhiệm về tính liêm chính của đồ án.
Khánh Hòa, tháng 6 năm 2019
Sinh viên thực hiện
Trần Văn Đức

vii


LỜI CẢM ƠN
Trải qua hơn ba tháng thực hiện đề tài, bản thân em vấp phải không ít những khó
khăn khi vấn đề cần nghiên cứu là hoàn toàn mới mẻ. Bài toán phân cụm là một bài toán
khó và mở, đây cũng là đề tài được rất nhiều học viên cao học lựa chọn cho luận văn

thạc sĩ, tiến sĩ của mình. Đặc biệt, hiện nay vẫn chưa có một thuật toán nào là tối ưu để
giải quyết hoàn toàn các bộ dữ liệu vốn đa dạng và phức tạp.
Để có được kết quả như hôm nay, em xin gửi lời cảm ơn chân thành đến các thầy
cô đã giảng dạy suốt bốn năm qua và đặc biệt là thầy Nguyễn Đức Thuần, thầy hướng
dẫn trực tiếp, nhiệt tình hỗ trợ hết mình cho em về những kiến thức liên quan đến đề tài.
Những buổi trao đổi với thầy giúp em hiểu hơn về lý thuyết tập thô, cũng như tính rộng
lớn của bài toán phân cụm. Và em nghĩ đó là kiến thức giá trị mà em có được sau khi
hoàn tất đề tài.
Tuy kết quả bước đầu đã đáp ứng được mục tiêu của đề tài nhưng vẫn còn nhiều
khía cạnh cần phải được làm rõ và phát triển để đề tài có được một kết quả hoàn mỹ hơn,
đáp ứng được các bộ dữ liệu đa dạng, hỗ trợ cho việc phát hiện tri thức.
Khánh Hòa, tháng 6 năm 2019
Sinh viên thực hiện
Trần Văn Đức

viii


MỤC LỤC
QUYẾT ĐỊNH GIAO ĐỒ ÁN TỐT NGHIỆP .................................................................................... iii
PHIẾU THEO DÕI TIẾN ĐỘ VÀ ĐÁNH GIÁ ĐỒ ÁN TỐT NGHIỆP ......................................... iv
PHIẾU CHẤM ĐIỂM ĐỒ ÁN TỐT NGHIỆP .................................................................................... v
CAM ĐOAN CỦA SINH VIÊN .......................................................................................................... vii
LỜI CẢM ƠN ...................................................................................................................................... viii
MỤC LỤC .............................................................................................................................................. ix
DANH SÁCH HÌNH VẼ ....................................................................................................................... xi
DANH SÁCH BẢNG ........................................................................................................................... xii
DANH SÁCH CÁC TỪ VIẾT TẮT................................................................................................... xiii
LỜI MỞ ĐẦU ...................................................................................................................................... xiv
1.


GIỚI THIỆU VỀ ĐỀ TÀI ...................................................................................................... xiv

2.

MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI ...................................... xiv

3.

Ý NGHĨA CỦA ĐỀ TÀI .......................................................................................................... xv

4.

NỘI DUNG CỦA ĐỀ TÀI ....................................................................................................... xv

CHƯƠNG 1. .......................................................................................................................................... 1
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ....................................... 1
1.1

GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU............. 1

1.2

QUÁ TRÌNH KHÁM PHÁ TRI THỨC.................................................................................. 1

1.3

QUÁ TRÌNH KHAI PHÁ DỮ LIỆU ....................................................................................... 2

1.4


CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU....................................................................... 2

1.5

CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU ................................. 3

1.6

CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU ........................ 4

1.7

NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU ................................................... 4

CHƯƠNG 2. .......................................................................................................................................... 6
PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM.............................................................................. 6
2.1

KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU ............................................... 6

2.2

CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU ................................................................... 6

2.3

CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU .................................. 7

2.4


PHÂN LOẠI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU ................. 8

2.4.1 Kỹ thuật phân cụm phân hoạch .............................................................................................. 8
2.4.2 Kỹ thuật phân cụm phân cấp .................................................................................................. 9
2.4.3 Kỹ thuật phân cụm dựa trên mật độ ...................................................................................... 9
2.4.4 Kỹ thuật phân cụm dựa trên lưới ......................................................................................... 10
2.4.5 Kỹ thuật phân cụm dựa trên mô hình .................................................................................. 10
2.4.6 Kỹ thuật phân cụm có dữ liệu ràng buộc ............................................................................. 11

ix


2.5

MỘT SỐ THUẬT TOÁN PHÂN CỤM CỔ ĐIỂN .............................................................. 11

2.5.1 Thuật toán phân cụm K-Means ............................................................................................ 11
2.5.2 Thuật toán phân cụm K-Medoids ......................................................................................... 11
2.5.3 Thuật toán phân cụm K-Center ............................................................................................ 12
CHƯƠNG 3. ........................................................................................................................................ 13
THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ CỦA HAI
TÁC GIẢ HONG YU VÀ DACHUN YAN ....................................................................................... 13
3.1

KHÁI QUÁT VẤN ĐỀ ........................................................................................................... 13

3.2

TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ......................................................................... 13


3.2.1

Giới thiệu.......................................................................................................................... 13

3.2.2

Một số khái niệm ............................................................................................................. 14

3.3

PHÂN CỤM ĐỊNH HƯỚNG TRI THỨC ............................................................................... 21

3.3.1

Một số khái niệm cơ bản của thuật toán phân cụm K-O ..................................................... 21

3.3.2

Mô hình lý thuyết quyết định dựa vào lý thuyết tập thô ...................................................... 23

3.4

THUẬT TOÁN PHÂN CỤM BÁN TỰ ĐỘNG DỰA VÀO LÝ THUYẾT TẬP THÔ .... 25

3.4.1

Chọn các giá trị ngưỡng 𝐓𝐡𝐢 .......................................................................................... 25

3.4.2


Định nghĩa mức độ không phân biệt của các cụm........................................................ 27

3.4.3

Hiệu chỉnh phân cụm ...................................................................................................... 27

3.4.4
Các bước của thuật toán SAC-DTRSM của
hai tác giả Hong Yu và Dachun Yan ............................................................................................. 28
3.5
ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN CỤM
DỰA VÀO MA TRẬN NHẦM LẪN ................................................................................................. 37
CHƯƠNG 4. ........................................................................................................................................ 40
CHƯƠNG TRÌNH THỬ NGHIỆM .................................................................................................. 40
4.1

GIỚI THIỆU VỀ CHƯƠNG TRÌNH .................................................................................... 40

4.2

DỮ LIỆU .................................................................................................................................. 40

4.3

TỔ CHỨC XỬ LÝ .................................................................................................................. 40

4.4

MÔ TẢ CHỨC NĂNG CỦA CHƯƠNG TRÌNH................................................................. 46


4.5

HƯỚNG DẪN CHẠY VÀ KIỂM THỬ ................................................................................ 48

4.6

KẾT QUẢ ĐẠT ĐƯỢC .......................................................................................................... 48

4.7

ĐÁNH GIÁ VỀ CHƯƠNG TRÌNH ....................................................................................... 48

4.8

HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ................................................................................. 49

TỔNG KẾT.......................................................................................................................................... 50
TÀI LIỆU THAM KHẢO .................................................................................................................. 51
PHỤ LỤC ............................................................................................................................................. 52

x


DANH SÁCH HÌNH VẼ
Hình 2. 1 Minh họa việc phân cụm dữ liệu ..................................................................6
Hình 2. 2 Các chiến lược phân cụm phân cấp..............................................................9
Hình 3. 1 Minh họa tập thô ..........................................................................................18
Hình 3. 2 Mô tả sự sắp xếp độ tương tự của các đối tượng đối với xi .......................26
Hình 4. 1 Giao diện nhập liệu dữ liệu và tham số cho thuật toán .............................46

Hình 4. 2 Hiển thị thông tin dữ liệu ............................................................................46
Hình 4. 3 Hiển thị toàn bộ dữ liệu đầu vào .................................................................46
Hình 4. 4 Hiển thị kết quả phân cụm ..........................................................................47
Hình 4. 5 Hiển thị chi tiết các bước xử lý và kết quả của chương trình ...................47
Hình 4. 6 Giao diện chương trình ...............................................................................47
Hình 5. 2 Kết quả phân cụm với bộ Test 2 ..................................................................53
Hình 5. 3 Kết quả phân cụm với bộ Test 3 ..................................................................53
Hình 5. 4 Kết quả phân cụm với bộ Iris ......................................................................54
Hình 5. 5 Kết quả phân cụm với bộ Wine ...................................................................54

xi


DANH SÁCH BẢNG
Bảng 3. 1 Bảng hệ thống thông tin minh họa .............................................................15
Bảng 3. 2 Một hệ quyết định điều tra vấn đề da cháy nắng .......................................16
Bảng 3. 3 Bảng kết quả quyết định dựa vào lý thuyết tập thô ....................................17
Bảng 3. 4 Một hệ quyết định về vấn đề lựa chọn sản phẩm .......................................19
Bảng 3. 5 Bảng dữ liệu minh họa ................................................................................21
Bảng 3. 6 Minh họa sự sắp xếp giảm dần độ tương tự ở hàng i ................................25
Bảng 3. 7 Bảng dữ liệu liệu minh họa của hai tác giả Bean và Kambhampati ........28
Bảng 3. 8 Bảng kết quả độ tương tự của xi với các đối tượng khác ..........................30
Bảng 3. 9 Bảng kết quả sau khi sắp xếp giảm dần sim(xi, xj) của đối tượng xi ........30
Bảng 3. 10 Bảng ma trận phân biệt ở lần tính 1 .........................................................32
Bảng 3. 11 Bảng ma trận phân biệt ở lần tính 2 .........................................................34
Bảng 3. 12 Bảng ma trận phân biệt ở lần tính 3 .........................................................34
Bảng 3. 13 Bảng ma trận phân biệt ở lần tính 4 .........................................................35
Bảng 3. 14 Bảng ma trận phân biệt ở lần tính 5 .........................................................35
Bảng 3. 15 Bảng ma trận phân biệt ở lần tính 6 .........................................................36
Bảng 3. 16 Bảng ma trận phân biệt ở lần tính 7 .........................................................36

Bảng 3. 17 Bảng ma trận phân biệt ở lần tính 8 .........................................................37
Bảng 3. 18 Bảng một số độ đo hiệu năng phân cụm ..................................................38
Bảng 4. 1 Kết quả phân cụm với một số bộ dữ liệu ....................................................48
Bảng 5. 1 Ma trận độ tương tự giữa các đối tượng trong bộ Test 2 ..........................52

xii


DANH SÁCH CÁC TỪ VIẾT TẮT
K-O Framework

Knowledge-Oriented Framework

SAC-DTRSM

Semi-Autonomous Clustering based on Decision Theory Rough Set Model

xiii


LỜI MỞ ĐẦU
1. GIỚI THIỆU VỀ ĐỀ TÀI
Bài toán phân cụm cho đến nay vẫn luôn là một chủ đề được rất nhiều học giả nghiên
cứu nhằm tìm ra một thuật toán tối ưu để giải quyết với những bộ dữ liệu khác nhau.
Một số thuật toán đã được giới thiệu và cho kết quả khá khả quan nhưng vẫn còn nhiều
hạn chế như kết quả ảnh hưởng bởi bộ dữ liệu đầu vào…
Hai tác giả Hong Yu và Dachun Yan tiếp cận bài toán phân cụm theo một khía cạnh
mới trong việc phân cụm với các dữ liệu có tính mơ hồ, không chắc chắn. Các tác giả
đặt ra một vấn đề đó là các đối tượng sau khi được phân cụm có thể thuộc về nhiều cụm
khác nhau, thay vì chỉ thuộc về một cụm như các thuật toán trước đó. Ưu điểm trong đề

xuất thuật toán của hai tác giả đó chính là việc khởi tạo được phân cụm ban đầu một
cách tự động mà không cần có sự can thiệp từ người dùng, tuy nhiên một điểm hạn chế,
đó là cần phải cung cấp các tham số đầu vào để thuật toán có thể hiệu chỉnh nhằm đạt
được một phân cụm cuối cùng. Mặc dù vậy, thuật toán được đề xuất của hai tác giả cũng
đã mở ra một hướng mới trong việc giải quyết bài toán phân cụm.
Đồ án “Tìm hiểu thuật toán phân cụm bán tự động dựa vào lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan” giúp em có thêm hiểu biết liên quan đến bài toán
phân cụm, các kiến thức về lý thuyết tập thô. Đó là những kiến thức hữu ích, là nền tảng
cho các đề tài nghiên cứu thêm khi học lên cao hơn sau này.
2. MỤC TIÊU VÀ PHƯƠNG PHÁP NGHIÊN CỨU CỦA ĐỀ TÀI
Mục tiêu của đề tài:
• Tìm hiểu thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của
hai tác giả Hong Yu và Dachun Yan
• Cài đặt thuật toán và so sánh với các kết quả của tác giả.
Phương pháp nghiên cứu của đề tài:
• Đọc các tài liệu có liên quan
• Tìm hiểu tổng quan về khám phá tri thức và khai phá dữ liệu.
• Tìm hiểu tổng quan về phân cụm và các kỹ thuật phân cụm.
• Tìm hiểu về lý thuyết tập thô.
xiv


• Tìm hiểu về mô hình quyết định dựa vào lý thuyết tập thô.
• Trình bày thuật toán SAC-DTRSM của tác giả Hong Yu và Dachun Yan.
• Xây dựng chương trình thử nghiệm với thuật toán của hai tác giả.
3. Ý NGHĨA CỦA ĐỀ TÀI
Cung cấp một thuật toán mới trong việc giải quyết bài toán phân cụm, đồng thời
mang đến một kiến thức mới dựa vào thuật toán của Hong Yu và Dachun Yan.
4. NỘI DUNG CỦA ĐỀ TÀI
Nội dung của đề tài được trình bày trong 4 chương.

• Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu.
Chương này giới thiệu một cách tổng quan về khám phá tri thức và khai phá dữ
liệu, giúp người đọc nắm được những vấn đề cơ bản.
• Chương 2: Phân cụm và các kỹ thuật phân cụm
Trình bày khái quát về phân cụm và các kỹ thuật phân cụm. Bên cạnh đó, còn
đề cập đến một số thuật toán phân cụm điển hình.
• Chương 3: Thuật toán phân cụm bán tự động dựa trên lý thuyết tập thô của hai
tác giả Hong Yu và Dachun Yan.
Đây là chương trọng tâm của đồ án. Nội dung của chương đi sâu vào các lý
thuyết liên quan, làm rõ các vấn đề của thuật toán.
• Chương 4: Chương trình thử nghiệm.
Giới thiệu về chương trình cài đặt và kết quả đạt được, đưa ra một số đánh giá
về thuật toán và hướng phát triển đề tài.
Ngoài ra, đồ án còn có phần tổng kết nhằm trình bày những nhận xét, điều đạt được
và hạn chế qua quá trình thực hiện đề tài.

xv


CHƯƠNG 1.
TỔNG QUAN VỀ
KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1.1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ
DỮ LIỆU
Trong thời đại ngày nay, cùng với sự phát triển của xã hội, lĩnh vực công nghệ thông
tin cũng có nhiều sự tiến bộ như khả năng lưu trữ dữ liệu ngày càng lớn. Việc khai thác
các dữ liệu này một cách hiệu quả nhằm đáp ứng các nhu cầu về thông tin phục vụ cho
các mục đích khác nhau là một mối quan tâm lớn.
Khám phá phá tri thức và khai phá dữ liệu đang nổi lên nhanh chóng và trở thành
một trong những hướng nghiên cứu chính liên quan đến nhiều lĩnh vực như khoa học

máy tính và công nghệ tri thức kết hợp với cơ sở dữ liệu, thống kê, học máy… để trích
chọn những thông tin giá trị và tri thức trong khối lượng dữ liệu lớn.
Khám phá tri thức trong cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các
mô hình trong dữ liệu với các tính năng: phân tích, tổng hợp, khả ích và có thể hiểu.
Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các thuật toán
khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận
được để tìm ra các mẫu hoặc các mô hình trong dữ liệu.
Mục đích của khai phá dữ liệu là phát hiện tri thức phục vụ cho các lợi ích trong
thực tế và các yêu cầu trong nghiên cứu học thuật. Do đó, ta có thể coi mục đích chính
của khai phá dữ liệu là mô tả (description) và dự đoán (prediction).
1.2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC
Bước đầu tiên: Tìm hiểu phạm vi ứng dụng và xác định bài toán.
Bước thứ hai: Thu thập và tiền xử lý dữ liệu, bao gồm cả việc lựa chọn các nguồn
dữ liệu, loại bỏ nhiễu hoặc ngoại lệ, xử lý các dữ liệu bị thiếu, việc chuyển đổi (phân rã
nếu cần thiết), rút gọn dữ liệu…
Bước thứ ba: Khai phá dữ liệu nhằm rút trích các mẫu hoặc các mô hình ẩn trong
dữ liệu.

1


Bước thứ tư: Là làm rõ tri thức phát hiện được, đặc biệt là thể hiện mô tả và dự báo.
Thực tế cho thấy các mẫu được phát hiện hoặc các mô hình có được từ dữ liệu không
phải luôn luôn được xem xét hoặc sử dụng ngay, mà cần phải thực hiện một quá trình
lặp để đánh giá tri thức phát hiện.
Bước cuối: Là đưa tri thức phát hiện được vào sử dụng thực tế.
1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức. Về
bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong
cơ sở dữ liệu, chủ yếu phục vụ cho mô tả và dự đoán.

Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của thuộc tính dữ liệu
trong kho dữ liệu mà con người có thể hiểu được.
Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát
hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các
mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến
quan tâm.
Quá trình khai phá dữ liệu bao gồm các bước chính:


Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.



Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.



Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng
sao cho thuật toán khai thác dữ liệu có thể hiểu được. Đây là một quá trình rất
khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao
ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp
đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v…



Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu và thực hiện
việc phân cụm dữ liệu để tìm được các mẫu có ý nghĩa, các mẫu này được biểu
diễn dưới dạng luật kết hợp, cây quyết định... tương ứng với ý nghĩa của nó.

1.4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

Với hai mục đích chính của khai phá dữ liệu là Mô tả và Dự đoán, người ta thường
sử dụng các phương pháp sau cho khai thác dữ liệu:
• Luật kết hợp (Association Rules)
2


• Phân lớp (Classfication)
• Hồi qui (Regression)
• Trực quan hóa (Visualiztion)
• Phân cụm (Clustering)
• Tổng hợp (Summarization)
• Mô hình ràng buộc (Dependency modeling)
• Biểu diễn mô hình (Model Evaluation)
• Phân tích sự phát triển và độ lệch (Evolution and Deviation Analyst)
• Phương pháp tìm kiếm (Search Method)
1.5 CÁC HƯỚNG TIẾP CẬN CƠ BẢN TRONG KHAI PHÁ DỮ LIỆU
Phân lớp và dự đoán (Classification & prediction):
Là quá trình xếp một đối tượng vào một trong những lớp đã biết trước (Ví dụ: phân
lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời
tiết...). Đối với hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như
cây quyết định (decision tree), mạng nơron nhân tạo (neural network), ... Hay lớp bài
toán này còn được gọi là học có giám sát - Học có thầy (supervised learning).
Phân cụm (clustering/segmentation):
Sắp xếp các đối tượng theo từng cụm dữ liệu tự nhiên, tức là số lượng và tên cụm
chưa được biết trước. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các
đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm
trong các cụm khác nhau là nhỏ nhất. Lớp bài toán này còn được gọi là học không giám
sát - Học không thầy (unsupervised learning).
Luật kết hợp (association rules):
Là dạng luật biểu diễn tri thức ở dạng khá đơn giản (Ví dụ: 80% sinh viên đăng ký

học cơ sở dữ liệu thì có tới 60% trong số họ đăng ký học Phân tích thiết kế hệ thống
thông tin). Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực kinh doanh, y học,
tin sinh học, giáo dục, viễn thông, tài chính và thị trường chứng khoán, ...
Phân tích chuỗi theo thời gian (sequential/temporal patterns):
Tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính
thời gian. Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện
3


của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y. Hướng tiếp cận này được ứng dụng
nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cao.
Mô tả khái niệm (concept desccription & summarization):
Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm.
Ví dụ: tóm tắt văn bản.
1.6 CÁC LĨNH VỰC ỨNG DỤNG THỰC TIỄN CỦA KHAI PHÁ DỮ LIỆU
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức, quy luật
của thị trường chứng khoán và đầu tư bất động sản…
Thương mại điện tử: Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách
hàng; phân tích khách hàng duyệt web; phân tích hành vi mua sắm trên mạng và cho
biết thông tin tiếp thị phù hợp với loại khách hàng.
Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho các
nhà thiên văn để tự động xác định các vì sao và các dải thiên hà trong một bản khảo sát
lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir).
Sinh học phân tử: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin,
Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994).
1.7 NHỮNG THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU
Khối lượng dữ liệu lớn và từ nhiều nguồn khác nhau: CSDL, internet, các loại thiết
bị thu nhận tín hiệu, các loại thiết bị nhận dạng, các loại thiết bị lưu trữ như băng từ,
CD, ... Số mẫu tin và số các thuộc tính quá lớn làm cho độ phức tạp và thời gian giải
quyết bài toán tăng lên rất nhanh. Mô hình hay tri thức phát hiện được bị thay đổi theo

thời gian tức là mô hình hay tri thức đó phụ thuộc vào thời điểm quan sát, lấy mẫu, thời
điểm khai phá, kết quả đạt được sau khai phá cũng gây không ít khó khăn cho khai phá
dữ liệu. Dữ liệu bị ảnh hưởng, bị nhiễu bởi tác động của môi trường bên ngoài, hay bộ
dữ liệu không hoàn chỉnh làm cho dữ liệu không phản ánh trung thực, chính xác của các
quy luật, tri thức mà ta tìm được. Các thuộc tính không phù hợp, các bộ giá trị không
đầy đủ, bị thiếu giá trị trong các miền thuộc tính sẽ ảnh hưởng rất lớn đến việc khai phá
dữ liệu. Chẳng hạn như khi khai phá dữ liệu, các hệ thống tương tác với nhau, phụ thuộc
nhau, chỉ cần thiếu một vài giá trị nào đó sẽ dẫn đến các mẫu thuẫn, không chính xác,
không đầy đủ.
4


Nội dung của chương này đã trình bày một cách khái quát cho người đọc về khám
phá tri thức và khai phá dữ liệu, các hướng tiếp cận cơ bản và kỹ thuật trong khai phá
dữ liệu; cùng những thách thức đối mặt. Chương tiếp theo sẽ giới thiệu rõ hơn về phân
cụm và các kỹ thuật phân cụm.

5


CHƯƠNG 2.
PHÂN CỤM VÀ CÁC KỸ THUẬT PHÂN CỤM
2.1 KHÁI NIỆM VÀ MỤC ĐÍCH CỦA PHÂN CỤM DỮ LIỆU
Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó được ứng
dụng rộng rãi và đa dạng trong các ngành khoa học như sinh học, tâm lý học, y học,
ngành marketing, thị giác máy tính, điều khiển học …
Phân cụm dữ liệu là một hình thức học không giám sát (unsupervised learning) trong
đó các mẫu học chưa được gán nhãn.
Hình 2.1 minh họa cho việc phân cụm dữ liệu.


Hình 2. 1 Minh họa việc phân cụm dữ liệu
Mục đích của phân cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương
tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm. Các điểm dữ liệu nằm trong
các cụm khác nhau có độ tương tự thấp hơn các dữ liệu nằm trong một cụm.
2.2 CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU
Lĩnh vực kinh tế: tìm quốc gia có nền kinh tế tương đồng hay các công ty có tiềm
lực kinh tế như nhau. Phân tích cụm có thể giúp các nhà marketing khám phá nhóm
khách hàng có cùng thói quen mua sắm.
Trong sinh học: giúp phân loại thực vật, động vật, các mẫu gen với các chức năng
tương tự nhau.
Trong y học: phát hiện các nhóm bệnh nhân có cùng triệu chứng lâm sàng.
Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung
cấp cho độc giả.
6


Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, gian lận
thương mại.
Web: gom cụm phân loại các tài liệu trên Web.
2.3 CÁC YÊU CẦU CỦA PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU
Có khả năng tương thích, hiệu quả với CSDL dung lượng lớn, số chiều lớn:
Nhiều thuật toán phân cụm làm việc tốt với những tập dữ liệu nhỏ chứa ít hơn 200
đối tượng. Tuy nhiên, một cơ sở dữ liệu lớn có thể chứa tới hàng triệu đối tượng. Việc
phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả. Vậy làm cách nào
để chúng ta có thể phát triển các thuật toán phân cụm có khả năng mở rộng cao đối
với các cơ sở dữ liệu lớn ?
Có khả năng xử lý các kiểu dữ liệu khác nhau:
Nhiều thuật toán được thiết kế để xử lý dữ liệu bằng số. Tuy nhiên, các ứng dụng
có thể yêu cầu phân cụm các dạng dữ liệu khác nhau như dữ liệu kiểu nhị phân, phân
loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu.

Có khả năng khám phá ra các cụm với các dạng bất kỳ:
Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclidean hay Manhattan.
Các thuật toán dựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với
kích thước và mật độ tương tự nhau. Tuy nhiên, một cụm (cluster) có thể có hình dạng
bất kỳ. Do đó cần phát triển các thuật toán để tìm ra các cluster hình dạng bất kỳ.
Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào:
Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định
trong phân tích phân cụm (như số lượng các cụm mong muốn). Kết quả của phân cụm
thường khá nhạy cảm với các tham số đầu vào. Nhiều tham số rất khó để xác định, nhất
là với các tập dữ liệu có lượng các đối tượng lớn. Điều này không những gây trở ngại
cho người dùng mà còn làm cho khó có thể điều chỉnh được chất lượng của phân cụm.
Khả năng thích nghi với dữ liệu nhiễu:
Hầu hết những cơ sở dữ liệu thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ
liệu chưa biết hoặc dữ liệu sai. Một số thuật toán phân cụm nhạy cảm với dữ liệu như
vậy và có thể dẫn đến chất lượng phân cụm thấp.

7


Ít nhạy cảm với thứ tự của các dữ liệu vào:
Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng
một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có
thể sinh ra các cụm rất khác nhau. Do đó, việc quan trọng là phát triển các thuật toán mà
ít nhạy cảm với thứ tự vào của dữ liệu.
Số chiều lớn:
Một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các
thuộc tính. Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều thấp, bao
gồm chỉ từ hai đến 3 chiều. Người ta đánh giá việc phân cụm là có chất lượng tốt nếu
nó áp dụng được cho dữ liệu có từ 3 chiều trở lên. Nó là sự thách thức với các đối tượng
dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vì khi xét những không gian với

số chiều lớn có thể rất thưa.
Phân cụm ràng buộc:
Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác
nhau. Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và
thỏa mãn các ràng buộc.
Dễ hiểu và dễ sử dụng:
Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử
dụng. Nghĩa là, sự phân cụm có thể cần được giải thích ý nghĩa và ứng dụng rõ ràng.
2.4 PHÂN LOẠI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU
2.4.1 Kỹ thuật phân cụm phân hoạch
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến
khi xác định số các cụm được thiết lập. Số các cụm được thiết lập là các đặc trưng được
lựa chọn trước. Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian
Euclidean. Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các
điểm để lựa chọn các đối tượng nào có quan hệ là gần nhau với mỗi điểm khác và các
đối tượng nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác.
Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc
các cụm có mật độ các điểm dầy đặc. Các thuật toán phân hoạch dữ liệu có độ phức tạp
rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm
kiếm tất cả các cách phân hoạch có thể được. Chính vì vậy, trên thực tế thường đi tìm
8


giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh
giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ
liệu. Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử
dụng chiến lược tham lam (Greedy) để tìm kiếm nghiệm.
2.4.2 Kỹ thuật phân cụm phân cấp
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem
xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây

phân cấp này được xây dựng theo kỹ thuật đệ quy. Có hai cách tiếp cận phổ biến của kỹ
thuật này đó là:
Hòa nhập nhóm, thường được gọi là tiếp cận Bottom-Up.
Phân chia nhóm, thường được gọi là tiếp cận Top-Down.

Hình 2. 2 Các chiến lược phân cụm phân cấp
Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân
hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có
thể cải tiến thông qua bước phân cụm phân hoạch. Phân cụm phân hoạch và phân cụm
phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã có rất nhiều thuật toán
cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai thác dữ liệu.
2.4.3 Kỹ thuật phân cụm dựa trên mật độ
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là
số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó. Trong cách
tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối
tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã
được xác định trước.

9


Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ
liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ. Kỹ thuật này có thể khắc
phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các
tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động
rất lớn đến kết quả phân cụm.
2.4.4 Kỹ thuật phân cụm dựa trên lưới
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc
dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu
không gian. Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành

cấu trúc dữ liệu lưới. Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng
trong từng ô trên lưới chứ không phải các đối tượng dữ liệu. Cách tiếp cận dựa trên lưới
này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của
nhóm các đối tượng trong một ô.
Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng
không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà
phương pháp phân phân cụm dựa trên mật độ không giải quyết được. Ưu điểm của
phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng
dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi
chiều của không gian lưới.
2.4.5 Kỹ thuật phân cụm dựa trên mô hình
Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho
khớp với dữ liệu một cách tốt nhất. Chúng có thể sử dụng chiến lược phân cụm phân
hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về
tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch.
Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình
toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất
cơ bản. Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình
thống kê và mạng nơron. Phương pháp này gần giống với phương pháp phân cụm dựa
trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được
xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử
dụng cùng một khái niệm mật độ cho các cụm.
10


×