Tải bản đầy đủ (.pdf) (66 trang)

Phân cụm dữ liệu và ứng dụng phân cụm sinh học trường trung học cơ sở Chu Văn An (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.36 MB, 66 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRỊNH ANH TUẤN

PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG PHÂN CỤM
SINH HỌC TRƢỜNG TRUNG HỌC CƠ SỞ CHU VĂN
AN

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn: TS.Nguyễn Long Giang

THÁI NGUYÊN - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




ii

LỜI CAM ĐOAN
Tác giả Trịnh Anh Tuấn xin cam kết rằng nội dung của Luận văn này chƣa
đƣợc nộp cho bất kỳ một chƣơng trình cấp bằng cao học nào cũng nhƣ bất kỳ một
chƣơng trình đào tạo cấp bằng nào khác.
Ngoài ra, tác giả cũng xin cam kết Luận văn thạc sĩ này là nỗ lực riêng của cá
nhân tác giả. Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các
phần đƣợc trích dẫn) đều là kết quả làm việc của cá nhân tác giả.


Thái Nguyên, tháng 6 năm 2016
Tác Giả

Trịnh Anh Tuấn

Số hóa bởi Trung tâm Học liệu – ĐHTN




iii
LỜI CẢM ƠN
Để hoàn thành đƣợc luận văn này, trƣớc hết tôi xin gửi lời cảm ơn sâu sắc nhất
tới TS. Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học
và Công nghệ Việt Nam đã tận tình hƣớng dẫn, chỉ bảo, định hƣớng, đóng góp
những ý kiến quý báu trong suốt quá trình thực hiện luận văn.
Tôi xin chân thành cảm ơn các thầy, cô giáo trong Bộ môn Khoa học máy
tính, Khoa Công nghệ thông tin, Phòng Đào tạo Sau đại học - Nghiên cứu Khoa
học, Trƣờng Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã tạo mọi
điều kiện tốt nhất để tôi hoàn thành khóa học.
Xin cám ơn đồng nghiệp tại trƣờng Trung học cơ sở Chu Văn An thành phố
Thái Nguyên đã trợ giúp rất nhiều trong thời gian qua.
Trong quá trình thực hiện Luận văn, mặc dù đã cố gắng hết mình, song chắc
chắn luận văn của em vẫn còn nhiều thiếu sót. Em rất mong nhận đƣợc sự chỉ bảo
vào đóng góp tận tình của các thầy cô để luận văn của em đƣợc hoàn thiện hơn.
Thái Nguyên, tháng 6 năm 2016
Tác Giả

Trịnh Anh Tuấn


Số hóa bởi Trung tâm Học liệu – ĐHTN




iv
MỤC LỤC
LỜI CAM ĐOAN................................................................................................................................................i
LỜI CẢM ƠN...................................................................................................................................................... iii
MỤC LỤC............................................................................................................................................................ iv
DANH MỤC CÁC BẢNG ............................................................................................................................vii
DANH MỤC CÁC HÌNH .............................................................................................................................viii
MỞ ĐẦU ............................................................................................................................................................... 1
1.1. Sự cần thiết lựa chọn đề tài ............................................................................................... 1
1.2. Mục tiêu đề tài .................................................................................................................... 2
1.3. Đối tƣợng và phạm vi nghiên cứu .................................................................................... 2
1.4. Phƣơng pháp nghiên cứu................................................................................................... 3
1.5. Cấu trúc của luận văn ........................................................................................................ 3
Chƣơng 1. TỔNG QUAN ................................................................................................................................. 4
1.1. Quá trình khám phá tri thức .............................................................................................. 4
1.2. Khai phá dữ liệu ................................................................................................................. 5
1.2.1. Khái niệm khai phá dữ liệu ................................................................................5
1.2.2. Các kỹ thuật khai phá dữ liệu ............................................................................6

1.3. Phân cụm dữ liệu................................................................................................................ 8
1.3.1. Khái niệm về phân cụm dữ liệu .........................................................................8
1.3.2. Một số vấn đề trong phân cụm dữ liệu ..............................................................9
1.3.3. Mục tiêu của phân cụm dữ liệu ........................................................................10
1.3.4. Các bước cơ bản trong phân cụm dữ liệu .......................................................10
1.3.5. Yêu cầu của phân cụm dữ liệu .........................................................................11

1.3.6. Ứng dụng của phân cụm dữ liệu ......................................................................12

1.4. Kết luận chƣơng ............................................................................................................... 13
Chƣơng 2. CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU ...............................................................14
2.1. Kiểu dữ liệu ...................................................................................................................... 14
2.1.1. Phân loại kiểu dữ liệu dựa trên kích thước miền .............................................14
2.1.2. Phân loại kiểu dữ liệu dựa trên hệ đo..............................................................14

2.2. Phép đo độ tƣơng tự và phép đo khoảng cách .............................................................. 16
Số hóa bởi Trung tâm Học liệu – ĐHTN




v
2.2.1. Khái niệm tương tự và không tương tự ............................................................16
2.2.2. Phép đo khoảng cách .......................................................................................17

2.3. Phƣơng pháp phân cụm phân hoạch .............................................................................. 18
2.3.1. Giới thiệu phương pháp ...................................................................................18
2.3.2. Thuật toán K-MEANS ......................................................................................19
2.3.3. Thuật toán PAM ...............................................................................................21

2.4. Phƣơng pháp phân cụm phân cấp................................................................................... 24
2.4.1. Giới thiệu phương pháp ...................................................................................24
2.4.2. Thuật toán HERACHICAL...............................................................................25
2.4.3. Thuật toán BIRCH ...........................................................................................28

2.5. Phƣơng pháp phân dựa trên mật độ................................................................................ 31
2.5.1. Giới thiệu phương pháp ...................................................................................31

2.5.2. Thuật toán DBSCAN ........................................................................................32

2.6. Phƣơng pháp phân cụm dựa trên lƣới ............................................................................ 36
2.6.1. Giới thiệu phương pháp ...................................................................................36
2.6.2. Thuật toán STING ............................................................................................37

2.7. Kết luận chƣơng ............................................................................................................... 40
Chƣơng 3. PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƢỜNG TRUNG HỌC CƠ SỞ CHU
VĂN AN ..............................................................................................................................................................41
3.1. Bài toán phân cụm kết quả học tập của học sinh tại trƣờng trung học cơ sở Chu Văn
An…………………………………………………………………………………….41
3.1.1. Giới thiệu trường Trung học cơ sở Chu Văn An..............................................41
3.1.2. Bảng dữ liệu kết quả học tập của học sinh ......................................................42
3.1.3. Bài toán phân cụm kết quả học tập của học sinh ............................................43

3.2. Lựa chọn phƣơng pháp, công cụ .................................................................................... 44
3.2.1. Lựa chọn ngôn ngữ R thực hiện phân cụm ......................................................44
3.2.2. Các bước thực hiện phân cụm bằng ngôn ngữ R .............................................46

3.3. Kết quả phân cụm bằng thuật toán K-means ................................................................ 48
3.3.1. Phân cụm học sinh dựa trên kết quả học tập ...................................................48
3.3.2. Phân cụm học sinh dựa trên điểm trung bình các môn ...................................52
3.3.3. Phân cụm dựa trên điểm trung bình môn toán và môn văn .............................53
Số hóa bởi Trung tâm Học liệu – ĐHTN




vi
3.4. Kết luận chƣơng ............................................................................................................... 54

KẾT LUẬN.........................................................................................................................................................55
TÀI LIỆU THAM KHẢO ..............................................................................................................................57

Số hóa bởi Trung tâm Học liệu – ĐHTN




vii
DANH MỤC CÁC BẢNG
Bảng 3.1. Bảng dữ liệu kết quả học tập của học sinh.......................................................... 43
Bảng 3.2. Phân cụm theo kết quả học tập ........................................................................... 48
Bảng 3.3. Thống kê phân cụm theo địa bàn hành chính ..................................................... 49
Bảng 3.4. Thống kê phân cụm theo hoàn cảnh gia đình ..................................................... 50
Bảng 3.5. Thống kê phân cụm theo dân tộc ........................................................................ 51
Bảng 3.6. Thống kê phân cụm theo giới tính ...................................................................... 52
Bảng 3.7. Phân cụm theo điểm trung bình môn toán .......................................................... 52
Bảng 3.8. Phân cụm theo điểm trung bình môn văn ........................................................... 53

Số hóa bởi Trung tâm Học liệu – ĐHTN




viii
DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình khám phá tri thức .................................................................................. 4
Hình 1.2. Quy trình phân cụm .............................................................................................. 8
Hình 2.1. Khởi tạo các đối tƣợng medoid ........................................................................... 22
Hình 2.2. Cây CF đƣợc dùng trong thuật toán BIRCH ...................................................... 29

Hình 2.3. Ý tƣởng của thuật toán phân cụm phân cấp. ....................................................... 31
Hình 2.4. Lân cận với ngƣỡng  của điểm p. ...................................................................... 32
Hình 2.5. Mật độ liên lạc .................................................................................................... 33
Hình 2.6. Mật độ liên thông ................................................................................................ 34
Hình 2.7. Các mức ô lƣới khác nhau trong quá trình truy vấn ........................................... 38
Hình 3. 1. Website của trƣờng Trung học cơ sở Chu Văn An ............................................. 41
Hình 3.2. Cơ cấu tổ chức của trƣờng Trung học cơ sở Chu Văn An ................................... 42
Hình 3.3. Thống kê số học sinh theo điểm toán .................................................................. 47
Hình 3.4. Kết quả phân cụm ................................................................................................ 48

Số hóa bởi Trung tâm Học liệu – ĐHTN




1

MỞ ĐẦU
1.1. Sự cần thiết lựa chọn đề tài
Sự phát triển của nhanh chóng các ứng dụng công nghệ thông tin và Internet
vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật... trong mấy
năm gần đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn
thông tin từ các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết
định, bên cạnh các phƣơng pháp khai thác thông tin truyền thống, các nhà nghiên
cứu đã phát triển các phƣơng pháp, kỹ thuật và phần mềm mới hỗ trợ tiến trình
khám phá, phân tích, tổng hợp thông tin, lĩnh vực này đƣợc gọi là khai phá dữ liệu
và khám phá tri thức (Data mining and Knowledge discovery)
Khai phá dữ liệu và khám phá tri thức là một lĩnh vực quan trọng của ngành
Công nghệ thông tin với mục tiêu là tìm kiếm các tri thức có ích, cần thiết, tiềm ẩn
và chƣa đƣợc biết trƣớc trong cơ sở dữ liệu lớn. Đây là lĩnh vực đã và đang thu hút

đông đảo các nhà khoa học trên thế giới và trong nƣớc tham gia nghiên cứu. Khai
phá dữ liệu có thể xem là nhiệm vụ quan trọng trong quá trình khám phá tri thức từ
cơ sở dữ liệu, bao gồm ba bƣớc chính: thu thập và tiền xử lý dữ liệu; lựa chọn các
thuật toán khai phá dữ liệu; đánh giá kết quả và biểu diễn tri thức. Các bài toán quan
trọng trong khai phá dữ liệu bao gồm: phân lớp (classification); hồi quy (regression);
phân cụm (clustering); khai phá luật kết hợp (rule association)… Các kỹ thuật, công
cụ sử dụng trong khai phá dữ liệu bao gồm: cây quyết định; mạng nơron nhân tạo;
thuật toán di truyền; các kỹ thuật phân lớp, phân cụm; các phƣơng pháp trong thống
kê nhƣ phân tích tƣơng quan, phân tích phƣơng sai, hồi quy đơn biến, đa biến...
Khai phá dữ liệu có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống nhƣ:
phân tích, dự báo trong kinh tế, tài chính; chuẩn đoán bệnh trong y tế; tin sinh học;
hỗ trợ quá trình sản xuất, kinh doanh...
Phân cụm (clustering) là bài toán có vai trò quan trọng trong khai phá dữ liệu
và có nhiều ứng dụng trong thực tiễn. Mục tiêu của phƣơng pháp phân cụm dữ liệu
là quá trình nhóm các đối tƣợng tƣơng tự nhau trong cơ sở dữ liệu vào các cụm sao
cho các đối tƣợng trong cùng một cụm là tƣơng đồng, còn các đối tƣợng thuộc các
Số hóa bởi Trung tâm Học liệu – ĐHTN




2
cụm khác nhau sẽ không tƣơng đồng. Điểm mạnh của phân cụm dữ liệu là đƣa ra
đƣợc những cấu trúc có ích hoặc những cụm các đối tƣợng tìm thấy trực tiếp từ dữ
liệu mà không cần bất kì một tri thức cơ sở nào. Giống nhƣ cách tiếp cận học máy,
phân cụm dữ liệu đƣợc hiểu nhƣ là phƣơng pháp học không có thầy (unsupervised
learning). Không giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải
định nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là
một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là
học bằng ví dụ (learning by example). Trong phƣơng pháp này sẽ không thể biết kết

quả các cụm thu đƣợc sẽ nhƣ thế nào khi bắt đầu quá trình. Vì vậy, cần có một
chuyên gia để đánh giá các cụm thu đƣợc. Phân cụm dữ liệu đƣợc sử dụng nhiều
trong các ứng dụng về phân đoạn thị trƣờng, phân đoạn khách hàng, nhận dạng mẫu,
phân loại trang Web, phân loại, đánh giá học sinh, sinh viên trong các trƣờng học…
Ngoài ra, phân cụm dữ liệu còn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử lí cho
các thuật toán khai phá dữ liệu khác.
Là một ngƣời công tác trong lĩnh vực giáo dục phổ thông, với mong muốn áp
dụng các kiến thức đã học về các phƣơng pháp phân cụm vào bài toán thực tiễn là
phân cụm học sinh của trƣờng Trung học cơ sở Chu Văn An, thành phố Thái
Nguyên dựa vào kết quả học tập, tác giả luận văn chọn đề tài: “Phân cụm dữ liệu và
ứng dụng phân cụm học sinh trường Trung học cơ sở Chu Văn An”.

1.2. Mục tiêu đề tài
Nắm bắt đƣợc một cách tổng thể các phƣơng pháp phân cụm trong khai phá
dữ liệu. Trên cơ sở đó, áp dụng các kỹ thuật phân cụm vào giải quyết bài toán thực
tiễn tại địa phƣơng nơi tác giả làm việc là phân cụm kết quả học tập của học sinh
trƣờng Trung học cơ sở Chu Văn An, thành phố Thái Nguyên.

1.3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của đề tài là các phƣơng pháp phân cụm dữ liệu trong
khai phá dữ liệu và cơ sở dữ liệu về kết quả học tập của học sinh trƣờng Trung học
cơ sở Chu Văn An, thành phố Thái Nguyên.
Số hóa bởi Trung tâm Học liệu – ĐHTN




3
Phạm vi nghiên cứu của đề tài là áp dụng một số phƣơng pháp phân cụm vào
việc giải quyết bài toán phân cụm kết quả học tập của học sinh trƣờng Trung học cơ

sở Chu Văn An, thành phố Thái Nguyên.

1.4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm.
Về nghiên cứu lý thuyết, luận văn đã tổng hợp các kết quả nghiên cứu về các
phƣơng pháp phân cụm dữ liệu trong khai phá dữ liệu. Về nghiên cứu thực nghiệm,
luận văn cài đặt và thử nghiệm một số thuật toán phân cụm trên dữ liệu học sinh của
trƣờng Trung học cơ sở Chu Văn An.

1.5. Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, ba chƣơng chính, kết luận và tài liệu tham
khảo.
Phần mở đầu: Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan về khai phá dữ liệu và phân cụm dữ liệu.
Chương 2: Trình bày một số phƣơng pháp và thuật toán phân cụm dữ liệu, bao
gồm phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân
cụm dựa trên lƣới, phân cụm dựa trên mô hình, phân cụm mờ…
Chương 3: Trình bày kết quả thử nghiệm một số thuật toán phân cụm để giải
quyết bài toán phân cụm học sinh trƣờng Trung học cơ sở Chu Văn An, bao gồm
phát biểu bài toán, lựa chọn thuật toán, công cụ phát triển (lập trình, cơ sở dữ liệu),
đánh giá kết quả thử nghiệm.
Phần kết luận: Tóm tắt các kết quả đạt đƣợc và hƣớng phát triển tiếp của đề
tài.

Số hóa bởi Trung tâm Học liệu – ĐHTN





4
Chƣơng 1. TỔNG QUAN
Chƣơng này giới thiệu tổng quan về quá trình khám phá tri thức từ dữ liệu,
khai phá dữ liệu và bài toán phân cụm trong khai phá dữ liệu.
1.1. Quá trình khám phá tri thức
Cùng với sự phát triển vƣợt bậc của các công nghệ điện tử và truyền thông đã
làm cho khả năng thu thập, lƣu trữ và xử lý dữ liệu cho các hệ thống tin học không
ngừng nâng cao. Bên cạnh đó, việc tin học hoá nhiều lĩnh vực của cuộc sống đã tạo
ra cho chúng ta một kho dữ liệu khổng lồ. Quá trình khám phá tri thức trong Cơ sở
dữ liệu (Knowledge Discovery in Databases) đang là một vấn đề thời sự của nền
công nghệ thông tin thế giới hiện nay. Nó đƣợc ứng dụng vào nhiều lớp bài toán
thực tế khác nhau và thu đƣợc nhiều thành quả to lớn.
Khám phá tri thức trong cơ sở dữ liệu là một quá trình nhận biết đúng đắn,
mới, hữu ích và cuối cùng là có thể hiểu đƣợc mẫu hoặc mô hình trong dữ liệu. Quá
trình khám phá tri thức có thể bao gồm các bƣớc nhƣ Hình 1.1 [7]

Dữ liệu
thô

Tri thức

Trích chọn
dữ liệu

Tiền xử lý
dữ liệu

Biến đổi
dữ liệu


Đánh giá và
giải thích

Khai phá
dữ liệu

Hình 1.1. Quá trình khám phá tri thức
-

Trích chọn dữ liệu: Là bƣớc trích chọn những tập dữ liệu cần đƣợc khai phá
từ tập dữ liệu lớn ban đầu theo một tiêu chí nhất định. Đây là bƣớc quan
trọng để rút ra những tri thức hữu ích và chọn phƣơng pháp khai phá dữ liệu
phù hợp với mục đích ứng dụng và bản chất dữ liệu.

-

Tiền xử lý dữ liệu: Là bƣớc làm sạch dữ liệu: lựa chọn dữ liệu nguồn, loại bỏ
các dữ liệu nhiễu hoặc ngoại lai, xử lý các giá trị không đầy đủ, biến đổi và
rút gọn dữ liệu, sửa các lỗi mang tính hệ thống, tập hợp các thông tin cần
Số hóa bởi Trung tâm Học liệu – ĐHTN




5
thiết để mô hình hoặc tính toán nhiễu, quyết định các chiến lƣợc xử lý các
trƣờng dữ liệu bị lỗi. Sau bƣớc này dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút
gọn và đƣợc rời rạc hoá.
-


Biến đổi dữ liệu: Đây là bƣớc chuẩn hoá và làm mịn dữ liệu để đƣa dữ liệu
về dạng thuận lợi nhất nhằm phục vụ cho kỹ thuật khai phá ở bƣớc sau.

-

Khai phá dữ liệu: Áp dụng các kỹ thuật phân tích nhằm để khai thác dữ liệu,
trích chọn các mẫu ẩn hoặc mô hình trong dữ liệu. Một mô hình có thể xem
nhƣ là một biểu diễn tổng thể của cấu trúc nhằm tóm lƣợc các thành phần
mang tính hệ thống có trong dữ liệu hoặc mô tả dữ liệu phát sinh. Ngƣợc lại,
một mẫu là một cấu trúc cục bộ có khi chỉ liên quan tới một nhóm các biến
và một số trƣờng hợp.

-

Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ
liệu đã đƣợc khám phá ở bƣớc trên đƣợc chuyển dạng và đƣợc biểu diễn ở
một dạng gần gũi với ngƣời sử dụng, đồng thời đánh giá những tri thức khám
phá đƣợc theo những tiêu chí nhất định. Đặc biệt là làm sáng tỏ các mô tả và
dự đoán, hai mục tiêu chính của các hệ thống khám phá trong thực tế. Kinh
nghiệm cho thấy rằng các mẫu hoặc mô hình phát hiện đƣợc từ các dữ liệu
không phải lúc nào cũng đáng quan tâm và có thể trực tiếp sử dụng đƣợc
ngay, quy trình khám phá tri thức đƣợc lặp đi lặp lại có điều chỉnh theo các
tri thức phát hiện đƣợc. Để đánh giá đƣợc các luật áp dụng trong quy trình
khám phá tri thức, dữ liệu thƣờng đƣợc chia thành hai tập, huấn luyện trên
tập thứ nhất và kiểm chứng trên tập thứ hai. Có thể lặp lại quy trình này với
một số lần với các phần chia khác nhau, sau đó lấy trung bình các kết quả để
ƣớc lƣợng các luật thi hành.

1.2. Khai phá dữ liệu
1.2.1. Khái niệm khai phá dữ liệu

Khai phá dữ liệu (Data mining) là quá trình tìm kiếm, phát hiện các tri thức
mới, tiềm ẩn, hữu dụng trong các cơ sở dữ liệu lớn, các kho dữ liệu...Các kết quả
Số hóa bởi Trung tâm Học liệu – ĐHTN




6
khoa học cùng những thành công trong khám phá tri thức cho thấy khai phá dữ liệu
là một lĩnh vực mang lại nhiều lợi ích và có triển vọng, có ƣu thế hơn hẳn so với các
công cụ phân tích dữ liệu truyền thống. Khai phá dữ liệu là một lĩnh vực có liên
quan đến rất nhiều ngành khoa học khác nhƣ: Hệ cơ sở dữ liệu, thống kê, học máy,
trực quan hoá.Tuỳ vào cách tiếp cận đƣợc sử dụng thì khai phá dữ liệu còn áp dụng
một số kỹ thuật khác nhƣ mạng nơron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri
thức .So với các phƣơng pháp này, khai phá dữ liệu có một số ƣu thế rõ rệt.
So với phƣơng pháp học máy, khai phá dữ liệu có thể sử dụng dữ liệu có
nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó, phƣơng
pháp học máy đòi hỏi tập dữ liệu phải đầy đủ, ít biến động và không quá lớn.
Phƣơng pháp hệ chuyên gia, các ví dụ của chuyên gia thƣờng phải đòi hỏi
chất lƣợng cao hơn nhiều so với dữ liệu trong cơ sở dữ liệu.
Phƣơng pháp thống kê là một trong những nền tảng lý thuyết của khai phá dữ
liệu nhƣng khai phá dữ liệu đã khắc phục đƣợc một số tồn tại của phƣơng pháp
thống kê nhƣ: Các phƣơng pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu
có cấu trúc trong rất nhiều kiểu cơ sở dữ liệu, nó hoạt động hoàn toàn theo dữ liệu,
nó không sử dụng tri thức sẵn có của lĩnh vực, kết quả phân tích của thống kê rất
nhiều và khó có thể làm rõ đƣợc, phƣơng pháp thống kê cần có sự hƣớng dẫn của
ngƣời dùng để xác định phân tích dữ liệu nhƣ thế nào và ở đâu.
Với những ƣu điểm đó, khai phá dữ liệu đang đƣợc áp dụng vào nhiều lĩnh
vực nhƣ tài chính, ngân hàng, bảo hiểm, y tế, an ninh, internet.. .Các công ty phần
mềm lớn trên thế giới cũng đã rất quan tâm chú trọng việc nghiên cứu và phát triển

các kỹ thuật khai phá dữ liệu: Oracle tích hợp các công cụ khai phá dữ liệu vào bộ
Oracle9i, IBM phát triển khai phá dữ liệu với các ứng dụng nhƣ Intelligence
Miner…[5].
1.2.2. Các kỹ thuật khai phá dữ liệu
Nếu đứng trên quan điểm của học máy (Machine learning) thì kỹ thuật khai
phá dữ liệu bao gồm:

Số hóa bởi Trung tâm Học liệu – ĐHTN




7
-

Học có giám sát (supervised learning): là quá trình gán nhãn lớp cho các
phần tử trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện và các
thông tin về nhãn lớp đã biết. Đây là một kỹ thuật của ngành học máy để xây
dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp
gồm đối tƣợng đầu vào và đầu ra mong muốn. Đầu ra của một hàm có thể là
một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại
cho một đối tƣợng đầu vào (gọi là phân loại). Nhiệm vụ của chƣơng trình
học có giám sát là dự đoán giá trị của hàm cho một đối tƣợng bất kì là đầu
vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (các cặp đầu vào và
đầu ra tƣơng ứng). Để đạt đƣợc điều này, chƣơng trình học phải tổng quát
hóa từ các dữ liệu sẵn có để dự đoán đƣợc những tình huống chƣa gặp phải
theo một cách “hợp lý”.

-


Học không có giám sát (unsupervised learning): là quá trình phân chia một
tập dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tƣơng tự nhau mà
chƣa biết trƣớc các thông tin về lớp một phƣơng pháp của ngành học máy
nhằm tìm ra một mô hình mà phù hợp với các quan sát. Nó khác biệt với học
có giám sát ở chỗ là đầu ra đúng tƣơng ứng cho mỗi đầu vào là không biết
trƣớc. Trong học không có giám sát, một tập dữ liệu đầu vào đƣợc thu thập.
Học không có giám sát thƣờng đối xử với các đối tƣợng đầu vào nhƣ là một
tập các biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ đƣợc xây
dựng cho tập dữ liệu đó [4].

-

Học nửa giám sát (semi-supervised learning): là quá trình phân chia một tập
dữ liệu thành các lớp dựa trên một tập dữ liệu nhỏ các ví dụ huấn luyện và
một số các thông tin về một số nhãn lớp đã biết trƣớc.
Nếu căn cứ vào lớp các bài toán cần giải quyết thì kỹ thuật khai phá dữ liệu

gồm các kỹ thuật sau:
-

Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Các kỹ thuật loại
này gồm có: Phân cụm (Clustering), tóm tắt (Summarization), trực quan hoá
Số hóa bởi Trung tâm Học liệu – ĐHTN




8
(Visualization), phân tích sự phát triển và độ lệch (Evolution and deviation

analysis), phân tích luật kết hợp (Association rules),...
-

Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đƣa ra các dự đoán dựa vào
các suy diễn trên dữ liệu hiện tại. Các kỹ thuật loại này gồm có: Phân lớp
(Classification), hồi quy (Regression),...

1.3. Phân cụm dữ liệu
1.3.1. Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu (PCDL) là một kỹ thuật trong khai phá dữ liệu nhằm tìm
kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ
liệu lớn, từ đó cung cấp thông tin hữu ích cho việc ra quyết định.
Nhƣ vậy phân cụm dữ liệu là kỹ thuật sử dụng quan sát đối tƣợng để nhóm
các đối tƣợng thành các cụm hoặc chia một tập dữ liệu ban đầu thành các cụm sao
cho:
-

Các đối tƣợng trong cùng một cụm là giống nhau hoặc gần giống nhau đƣợc
xác định bằng độ tƣơng tự. Hay nói một cách khác, các đối tƣợng trong cùng
một cụm là tƣơng tự với nhau.

-

Các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng tự (phi tƣơng tự) với
nhau.
Vậy có thể hiểu một cách đơn giản là “Phân cụm là quá trình tổ chức các đối

tƣợng thành các nhóm sao cho các đối tƣợng trong cùng một nhóm là tƣơng tự với
nhau”. Quy trình này đƣợc thể hiện nhƣ Hình 1.2.
Thuật toán


N đối tượng

K nhóm

Phân cụm
Hình 1.2. Quy trình phân cụm

Số hóa bởi Trung tâm Học liệu – ĐHTN




9
Số các cụm đƣợc xác định tuỳ thuộc vào phƣơng pháp phân cụm. Các thuật
toán phân cụm tìm các nhóm chứa đối tƣợng tƣơng tự nhau. Hai hay nhiều đối
tƣợng đƣợc xếp vào cùng một cụm nếu chúng có chung một định nghĩa về khái
niệm hoặc chúng xấp xỉ với các khái niệm đƣợc mô tả trƣớc. Một cụm là các đối
tƣợng có thể xem nhƣ là một nhóm trong nhiều ứng dụng.
Mặt khác, phân cụm là học bằng quan sát hơn là học bằng ví dụ nên còn
đƣợc gọi là học không giám sát. Hầu hết các nhiệm vụ chính của khai phá dữ liệu,
bắt đầu ở ngoài với một tập huấn luyện chƣa phân lớp và thử phát triển một mô
hình có khả năng dự đoán một bản ghi mới sẽ đƣợc phân lớp nhƣ thế nào. Trong
phân cụm, không có dữ liệu đƣợc phân lớp trƣớc và không có sự phân biệt giữa các
biến độc lập và biến phụ thuộc. Trong học máy, phân cụm là một vấn đề quan trọng
của học không có giám sát, vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong
tập hợp các dữ liệu chƣa biết trƣớc thông tin về lớp hay thông tin về tập ví dụ huấn
luyện. Trong nhiều trƣờng hợp, khi phân lớp đƣợc xem là vấn đề học có giám sát
thì phân cụm dữ liệu là một bƣớc trong phân lớp dữ liệu, trong đó phân cụm sẽ khởi
tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu [14,

15].
1.3.2. Một số vấn đề trong phân cụm dữ liệu
-

Xử lý nhiễu: Hầu hết các dữ liệu sử dụng để phân cụm đều bị nhiễu do quá
trình thu thập thiếu chính xác hay thiếu đầy đủ. Vì vậy cần phải xây dựng
chiến lƣợc cho bƣớc tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu
trƣớc khi chuyển sang giai đoạn phân tích cụm dữ liệu. Dữ liệu bị nhiễu là
dữ liệu không chính xác hay là dữ liệu khuyết thiếu thông tin về một số thuộc
tính. Một trong các kỹ thuật xử lý nhiễu hiện nay là việc thay thế giá trị các
thuộc tính của đối tƣợng nhiễu bằng các giá trị thuộc tính tƣơng ứng.

Số hóa bởi Trung tâm Học liệu – ĐHTN




10
-

Dò tìm phần tử ngoại lai: Phần tử ngoại lai là một nhóm nhỏ các đối tƣợng
dữ liệu khác thƣờng so với các dữ liệu trong cơ sở dữ liệu. Loại bỏ những dữ
liệu kiểu này để tránh ảnh hƣởng đến kết quả phân cụm.

-

Phân cụm đang là vấn đề mở và khó: Vì phân cụm đang phải giải quyết
nhiều vấn đề cơ bản nhƣ: Xây dựng hàm tính độ tƣơng tự, xây dựng các tiêu
chuẩn phân cụm, xây dựng mô hình cho cấu trúc dữ liệu, xây dựng các thuật
toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ tục biểu

diễn và đánh giá kết quả phân cụm. Hiện nay, chƣa có một phƣơng pháp
phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu
trúc dữ liệu. Với những loại dữ liệu hỗn hợp thì việc phân cụm càng trở nên
khó khăn và đây đang là một trong những thách thức lớn trong lĩnh vực khai
phá dữ liệu.

1.3.3. Mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm là xác định đƣợc bản chất nhóm trong tập dữ liệu
chƣa có nhãn. Nhƣng để có thể quyết định đƣợc cái gì tạo thành một cụm tốt. Nó
đòi hỏi ngƣời sử dụng phải đƣa ra một số tiêu chuẩn mà theo cách đó kết quả phân
cụm sẽ đáp ứng đƣợc yêu cầu. Ví dụ nhƣ quan tâm đến việc tìm đại diện cho các
nhóm đồng nhất (rút gọn dữ liệu), tìm kiếm các nhóm hữu ích và phù hợp (các lớp
dữ liệu hữu ích), tìm kiếm các đối tƣợng khác thƣờng (dò tìm phần tử ngoại lai)...
1.3.4. Các bước cơ bản trong phân cụm dữ liệu
-

Chọn lựa đặc trưng: các đặc trƣng phải đƣợc chọn lựa một cách hợp lý để có
thể mã hoá nhiều nhất thông tin liên quan đến công việc quan tâm. Mục tiêu
chính là phải giảm thiểu sự dƣ thừa thông tin giữa các đặc trƣng. Các đặc
trƣng cần đƣợc tiền xử lý trƣớc khi dùng chúng trong các bƣớc sau.

-

Chọn độ đo gần gũi: đây là một độ đo chỉ ra mức độ tƣơng tự hay không
tƣơng tự giữa hai vectơ đặc trƣng. Phải đảm bảo rằng tất cả các vectơ đặc
trƣng góp phần nhƣ nhau trong việc tính toán độ đo gần gũi và không có đặc

Số hóa bởi Trung tâm Học liệu – ĐHTN





11
trƣng nào át hẳn đặc trƣng nào, điều này đƣợc đảm bảo bởi quá trình tiền xử
lý.
-

Tiêu chuẩn phân cụm: điều này phụ thuộc vào sự giải thích của chuyên gia
cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm đƣợc chuyên gia cho
rằng đang ẩn giấu dƣới tập dữ liệu. Chẳng hạn, một cụm loại chặt của véctơ
đặc trƣng trong không gian n chiều có thể dễ nhận thấy theo một tiêu chuẩn,
trong khi một cụm loại “dài và mỏng” lại có thể đƣợc dễ nhận thấy bởi một
tiêu chuẩn khác. Tiêu chuẩn phân loại có thể đƣợc diễn đạt bởi hàm chi phí
hay một vài loại quy tắc khác.

-

Thuật toán phân loại: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm
sáng tỏ cấu trúc phân cụm của tập dữ liệu.

-

Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng
đắn của nó. Điều này thƣờng đƣợc thực hiện bởi việc dùng các kiểm định
phù hợp.

-

Giải thích kết quả: trong nhiều trƣờng hợp, chuyên gia trong lĩnh vực ứng
dụng phải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và

phân tích để đƣa ra các kết luận đúng đắn.
Trong một số trƣờng hợp, nên có cả bƣớc phân tích khuynh hƣớng phân cụm,

trong bƣớc này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một
cấu trúc phân cụm. Ví dụ nhƣ tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy
mọi cố gắng phân cụm đều là vô nghĩa.
Các lựa chọn khác nhau của các đặc trƣng, độ đo gần gũi, tiêu chuẩn phân
cụm có thể dẫn tới các kết quả phân cụm khác nhau.
1.3.5. Yêu cầu của phân cụm dữ liệu
Thuật toán phân cụm phải thoả mãn một số yêu cầu sau:
-

Có khả năng mở rộng: Một số thuật toán có thể áp dụng tốt với tập dữ liệu
nhỏ nhƣng lại không hiệu quả khi áp dụng cho tập dữ liệu lớn.

-

Thích nghi với các kiểu thuộc tính khác nhau của dữ liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN




12
-

Khám phá các cụm với hình thù bất kỳ: Hầu hết các cơ sở dữ liệu có chứa các
cụm dữ liệu với các hình thù khác nhau nhƣ hình lõm, hình cầu,...


-

Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Các giá trị
đầu vào thƣờng rất ảnh hƣởng đến thuật toán phân cụm và rất phức tạp để
xác định các giá trị đầu vào thích hợp đối với các cơ sở dữ liệu lớn.

-

Khả năng thích nghi với các dữ liệu nhiễu hoặc ngoại lai.

-

Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu khi đƣa vào
phân nhóm với các thứ tự khác nhau thì không ảnh hƣởng đến kết quả phân
cụm.

-

Thích nghi với dữ liệu đa chiều: Thuật toán áp dụng hiệu quả cho dữ liệu với
số chiều khác nhau.

-

Dễ hiểu và dễ sử dụng.

1.3.6. Ứng dụng của phân cụm dữ liệu
Phân cụm là một công cụ quan trọng trong một số ứng dụng sau:
-

Giảm dữ liệu: Từ một số lƣợng lớn dữ liệu, phân cụm sẽ nhóm các dữ liệu

này thành cụm dữ liệu nhỏ dễ nhận thấy sau đó xử lý mỗi cụm nhƣ một đối
tƣợng đơn.

-

Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của
dữ liệu phải đƣợc kiểm tra bởi việc dùng một số tập dữ liệu khác.

-

Kiểm định giả thuyết: Phân cụm để xét xem có tồn tại một cụm nào đó trong
tập dữ liệu thoả mãn các giả thiết đã cho hay không.

-

Dự đoán dựa trên các cụm: Trƣớc hết ta phải phân cụm một tập dữ liệu
thành các cụm mang đặc điểm của các dạng mà nó chứa. Sau đó, khi có một
dạng mới chƣa biết xác định xem nó có khả năng thuộc về cụm nào nhất và
dự đoán đƣợc một số đặc điểm của dạng này nhờ các đặc trƣng chung của cả
cụm.
Trong thực tế, phân cụm đƣợc áp dụng vào nhiều lĩnh vực khác nhau nhƣ:

-

Tìm kiếm dữ liệu trên mạng: kết quả đƣợc phân thành các cụm tuỳ theo độ
tƣơng tự với dữ liệu cần tìm.
Số hóa bởi Trung tâm Học liệu – ĐHTN





13
-

Marketing: trợ giúp cán bộ thị trƣờng phát hiện đƣợc những phân đoạn thị
trƣờng để có chiến lƣợc, sản phẩm hợp lý đối với các phân đoạn đó.

-

Phân loại khách hàng sử dụng các sản phẩm của Ngân hàng và các ngành tài
chính, bảo hiểm...

-

Lập bản đồ thành phố theo nhóm các loại nhà ở, giá trị tài sản hay vị trí địa lý.
Phân cụm đang là một vấn đề thời sự của ngành công nghệ thông tin thế giới

hiện tại. Ngoài các ứng dụng phổ biến đã đƣợc biết tới, thời gian gần đây, phân cụm
dữ liệu đã mở rộng phạm vi ứng dụng. Các kỹ thuật phân cụm đã đƣợc sử dụng
trong các lĩnh vực nhƣ: Nhận dạng mẫu, so sánh, phân lớp,.. .Kỹ thuật phân cụm là
sự kết hợp từ nhiều phƣơng pháp khác nhau nhƣ: Toán, vật lý, thống kê, khoa học
máy tính, trí tuệ nhân tạo, cơ sở dữ liệu [7].
Hiện nay, phân cụm dữ liệu đã đƣợc nhiều công ty phần mềm nổi tiếng trên
thế giới tích hợp vào bộ công cụ trong sản phẩm của mình.
1.4. Kết luận chƣơng
Chƣơng 1 trình bày tổng quan về quá trình phát hiện tri thức từ cơ sở dữ liệu
và khái niệm về khai phá dữ liệu. Chƣơng này cũng trình bày các khái niệm cơ bản
về bài toán phân cụm dữ liệu và các ứng dụng của phân cụm dữ liệu trong các bài
toán thực tế. Các khái niệm đƣợc trình bày trong Chƣơng 1 là kiến thức nền tảng
cho các phƣơng pháp phân cụm dữ liệu đƣợc trình bày trong Chƣơng 2.


Số hóa bởi Trung tâm Học liệu – ĐHTN




14
Chƣơng 2. CÁC PHƢƠNG PHÁP PHÂN CỤM DỮ LIỆU
2.1. Kiểu dữ liệu
Trong phân cụm, các đối tƣợng dữ liệu thƣờng đƣợc diễn tả dƣới dạng các
đặc tính hay còn gọi là thuộc tính (Các kiểu dữ liệu và các thuộc tính dữ liệu được
xem là tương đương). Các thuộc tính này là các tham số cho giải quyết vấn đề phân
cụm và sự lựa chọn chúng có tác động đến kết quả phân cụm. Phân loại các kiểu dữ
liệu khác nhau là vấn đề cần giải quyết đối với hầu hết các tập dữ liệu nhằm cung
cấp các phƣơng tiện thuận lợi để nhận dạng sự khác nhau của các phần tử dữ liệu.
Có hai đặc trƣng để phân loại: Kích thước miền và hệ đo.
Cho cơ sở dữ liệu D chứa n đối tƣợng trong không gian k chiều và x, y, z là
các đối tƣợng thuộc D:
x   x1, x2 ,..., xk  , y   y1, y2 ,..., yk  , z   z1,z2 ,...,zk 

Trong đó xi , yi , z i với 1  i  k là các đặc trƣng hoặc thuộc tính tƣơng ứng của
các đối tƣợng x, y, z. Nhƣ vậy ta sẽ có các kiểu dữ liệu nhƣ sau [2, 3, 7].
2.1.1. Phân loại kiểu dữ liệu dựa trên kích thước miền
-

Thuộc tính liên tục: Nếu miền giá trị của nó là vô hạn không đếm đƣợc,
nghĩa là giữa hai giá trị tồn tại vô số giá trị khác. Ví dụ nhƣ các thuộc tính về
nhiệt độ, hoặc cƣờng độ âm thanh...

-


Thuôc tính rời rạc: Nếu miền giá trị của nó là tập hữu hạn, đếm đƣợc. Ví dụ
nhƣ các thuộc tính số, liệt kê,. Trƣờng hợp đặc biệt của thuộc tính rời rạc là
thuộc tính nhị phân mà miền giá trị của nó chỉ có hai phần tử. Ví dụ nhƣ:
Yes/No, True/False, On/Off...

2.1.2. Phân loại kiểu dữ liệu dựa trên hệ đo
Giả sử ta có hai đối tƣợng x, y và các thuộc tính xi , y i với 1  i  k tƣơng ứng
với thuộc tính thứ i của chúng. Nhƣ vậy sẽ có các kiểu dữ liệu nhƣ sau:
-

Thuộc tính định danh: Là dạng thuộc tính khái quát hoá của thuộc tính nhị
phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và có nhiều hơn
Số hóa bởi Trung tâm Học liệu – ĐHTN




15
hai phần tử. Nếu x và y là hai đối tƣợng thuộc tính thì chỉ có thể xác định là
x  y hay x  y .

-

Thuộc tính có thứ tự: Là thuộc tính định danh có thêm tính thứ tự nhƣng
chúng không định lƣợng. Nếu x và y là hai thuộc tính thứ tự thì có thể xác
định là x  y hoặc x  y hoặc x  y hoặc x  y .

-


Thuộc tính khoảng: Để đo các giá trị theo xấp xỉ tuyến tính, với thuộc tính
khoảng có thể xác định đƣợc một thuộc tính là đứng trƣớc hoặc đứng sau
thuộc tính khác với một khoảng là bao nhiêu. Nếu xi  yi thì có thể nói x cách
y một khoảng xi  yi tƣơng ứng với thuộc tính thứ i.

-

Thuộc tính tỷ lệ: Là thuộc tính khoảng nhƣng đƣợc xác định một cách tƣơng
đối so với điểm mốc có nghĩa nào đó.
Trong các loại thuộc tính đề cập đến ở trên thì thuộc tính định danh và thuộc

tính có thứ tự đƣợc gọi chung là thuộc tính có hạng mục, còn thuộc tính khoảng và
thuộc tính tỷ lệ đƣợc gọi chung là thuộc tính số.
Đặc biệt còn có dữ liệu không gian là loại dữ liệu có thuộc tính số khái quát
trong không gian nhiều chiều, dữ liệu không gian mô tả các thông tin liên quan đến
không gian chứa đựng các đối tƣợng. Ví dụ nhƣ thông tin về hình học...Dữ liệu
không gian có thể là dữ liệu liên tục hoặc rời rạc.
-

Dữ liệu không gian liên tục: Bao chứa một vùng không gian.

-

Dữ liệu không gian rời rạc: Có thể là một điểm trong không gian nhiều chiều
và cho phép xác định khoảng cách giữa các đối tƣợng dữ liệu trong không
gian.
Thông thƣờng, các thuộc tính số đƣợc đo bằng các đơn vị xác định nhƣ

kilogams hay centimeters. Tuy nhiên, việc thay đổi các đơn vị đo cũng ảnh hƣởng
đến kết quả phân cụm. Để khắc phục điều này phải chuẩn hoá dữ liệu đƣợc thực

hiện bằng cách thay thế mỗi một thuộc tính bằng thuộc tính số hoặc thêm các trọng
số cho các thuộc tính.

Số hóa bởi Trung tâm Học liệu – ĐHTN




16
2.2. Phép đo độ tƣơng tự và phép đo khoảng cách
2.2.1. Khái niệm tương tự và không tương tự
Khi các đặc tính của dữ liệu đƣợc xác định, ta phải tìm cách thích hợp để xác
định “khoảng cách” giữa các đối tƣợng, hay là phép đo tƣơng tự dữ liệu. Đây là các
hàm để đo sự giống nhau giữa các cặp đối tƣợng dữ liệu, thông thƣờng các hàm này
hoặc là để tính độ tƣơng tự hoặc là để tính độ phi tƣơng tự giữa các đối tƣợng dữ
liệu. Giá trị của hàm tính độ đo tƣơng tự càng lớn thì sự giống nhau giữa các đối
tƣợng càng lớn và ngƣợc lại, còn hàm tính độ phi tƣơng tự tỷ lệ nghịch với hàm tính
độ tƣơng tự. Độ tƣơng tự hoặc phi tƣơng tự có nhiều cách để xác định, chúng đƣợc
đo bằng khoảng cách giữa các đối tƣợng. Tất cả các cách đo độ tƣơng tự đều phụ
thuộc vào kiểu thuộc tính mà ngƣời sử dụng phân tích. Ví dụ, đối với các thuộc tính
hạng mục thì không sử dụng độ đo khoảng cách là một hƣớng hình học của dữ liệu.
Tất cả các độ đo dƣới đây đƣợc xác định trong không gian metric. Bất kỳ
một metric nào cũng là một độ đo nhƣng điều ngƣợc lại không đúng. Để tránh sự
nhầm lẫn, thuật ngữ độ đo ở đây đề cập đến hàm tính độ tƣơng tự hoặc hàm tính độ
phi tƣơng tự. Một không gian metric là một tập trong đó có xác định “khoảng
cách” giữa các cặp phần tử, với những tính chất thông thƣờng của khoảng cách
hình học. Nghĩa là, một tập X (các phần tử của nó có thể là những đối tƣợng bất kỳ)
các đối tƣợng trong cơ sở dữ liệu D đƣợc gọi là một không gian metric nếu:
-


Với mỗi cặp phần tử x, y thuộc X đều đƣợc xác định theo một quy tắc nào đó,
một số thực   x, y  đƣợc gọi là khoảng cách giữa x và y.

-

Quy tắc nói trên thoả mãn hệ tính chất sau:
+   x, y   0 nếu x  y ,   x, y   0 nếu x  y
+   x, y     y,x  với mọi x , y
+   x, y     x,z     y,z 
Hàm   x, y  đƣợc gọi là một metric của không gian, các phần tử của X đƣợc

gọi là một điểm của không gian này.
Số hóa bởi Trung tâm Học liệu – ĐHTN




17
2.2.2. Phép đo khoảng cách
Các thuật toán phân cụm thƣờng sử dụng các phép đo khoảng cách hoặc độ
tƣơng tự giữa hai đối tƣợng để thực hiện phân cụm. Hiện nay có nhiều khoảng cách
đƣợc sử dụng [1], [4]. Giả sử hai đối tƣợng x, y có p thuộc tính:
x   x1,..., x p  , y   y1,..., y p  .

-

Khoảng cách Minkowski đƣợc định nghĩa: d  x, y  

p


r

x y
i 1

p

-

i

Nếu r = 2 ta có khoảng cách Euclidean: d  x, y   2  xi  yi

r

i

2

i 1

p

-

Nếu r =1 ta có khoảng cách Manhattan: d  x, y    xi  yi
i 1

Ngoài ra, còn tồn tại một số phép đo khoảng cách giữa hai cụm dữ liệu, cụ
thể nhƣ sau:

-

Average Linkage (Sự kết nối trung bình): là giá trị trung bình khoảng cách
của tất cả các điểm trong hai cụm đó.

-

Single Linkage (Sự kết nối đơn): là khoảng cách giữa hai điểm gần nhau nhất
trong hai cụm đó.

-

Complete Linkage (Sự kết nối đầy đủ): là khoảng cách giữa hai điểm xa nhau
nhất trong hai cụm đó.

-

Centroid (Trung tâm): là khoảng cách giữa hai trung tâm của cụm.
Phần tiếp theo, luận văn trình bày các phƣơng pháp phân cụm dữ liệu. Có rất

nhiều kỹ thuật tiếp cận và ứng dụng trong thực tế của phân cụm dữ liệu. Nhìn chung,
các kỹ thuật phân cụm đều hƣớng tới hai mục tiêu là chất lượng của các cụm khám
phá đƣợc và tốc độ thực hiện của thuật toán. Tuy nhiên, các kỹ thuật phân cụm có
thể đƣợc phân thành một số loại cơ bản dựa trên các phƣơng pháp tiếp cận nhƣ [5],
[10], [11]:
-

Phƣơng pháp phân cụm phân hoạch.

-


Phƣơng pháp phân cụm phân cấp.

-

Phƣơng pháp phân cụm dựa trên mật độ.
Số hóa bởi Trung tâm Học liệu – ĐHTN




×