ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐĂNG NHƯỢNG
KHAI PHÁ DỮ LIỆU VỀ KẾT QUẢ HỌC TẬP
CỦA HỌC SINH TRƯỜNG CAO ĐẲNG NGHỀ
VĂN LANG HÀ NỘI
LUẬN VĂN THẠC SĨ
Hà Nội - 2012
-
2-
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐĂNG NHƯỢNG
KHAI PHÁ DỮ LIỆU VỀ KẾT QUẢ HỌC TẬP
CỦA HỌC SINH TRƯỜNG CAO ĐẲNG NGHỀ
VĂN LANG HÀ NỘI
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Đỗ Trung Tuấn
Hà Nội – 2012
-
3-
MỤC LỤC
MỤC LỤC
3
MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG
5
DANH MỤC CÁC HÌNH VẼ
7
DANH MỤC CÁC BẢNG
8
BẢN CAM KẾT
9
LỜI CẢM ƠN
10
MỞ ĐẦU
11
CHƯƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 13
1. 1. Về khai phá dữ liệu 13
1. 2. Quá trình khai phá tri thức trong cơ sở dữ liệu 14
1. 3. Các kỹ thuật khai phá dữ liệu 16
1. 3. 1. Khai phá dữ liệu dự đoán 16
1. 3. 2. Khai phá dữ liệu mô tả 17
1. 4. Lợi thế của khai phá dữ liệu so với các phương pháp khác 19
1. 4. 1. Học máy 19
1. 4. 2. Hệ chuyên gia 20
1. 4. 3. Thống kê 20
1. 5. Các ứng dụng của phát hiện tri thức và những thách thức đối với phát hiện tri thức 21
1. 5. 1. Các ứng dụng của phát hiện tri thức 21
1. 5. 2. Những thách thức đối với phát hiện tri thức 21
1. 6. Kết luận 22
CHƯƠNG 2. KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 23
2. 1. Một số khái niệm thống kê 23
2. 1. 1. Định nghĩa 23
2. 1. 2. Chức năng của thống kê 23
2. 1. 3. Phương pháp thống kê 23
2. 2. Khái niệm phân cụm 25
2. 3. Các kiểu dữ liệu trong phép phân cụm 29
2. 3. 1. Đo chất lượng phân cụm 30
2. 3. 2. Các biến tỷ lệ khoảng cách 31
2. 3. 3. Các biến nhị phân 33
2. 3. 4. Các biến tên, có thứ tự và dựa trên tỷ lệ 35
2. 3. 5. Các biến có sự pha trộn của các kiểu 38
2. 4. Phân loại các phương pháp phân cụm chính 39
2. 4. 1. Các phương pháp phân chia 39
2. 4. 2. Các phương pháp phân cấp 40
2. 4. 3. Các phương pháp dựa trên mật độ 40
-
4-
2. 4. 4. Các phương pháp dựa trên lưới 41
2. 5. Các phương pháp phân chia 41
2. 5. 1. Phương pháp phân chia K-means và k-medoids 42
2. 5. 2. Phương pháp phân chia với cơ sở dữ liệu lớn 47
2. 6. Các phương pháp phân cấp 48
2. 6. 1. Phân cụm phân cấp tích đống và phân ly 49
2. 6. 2. Phương pháp BIRCH 51
2. 6. 3. Phương pháp CURE 53
2. 7. Các phương pháp phân cụm dựa trên mật độ 56
2. 7. 1. Phương pháp DBSCAN 57
2. 7. 2. Phương pháp phân cụm OPTICS 58
2. 7. 3. Phương pháp phân cụm DENCLUE 60
2. 8. Các phương pháp phân cụm dựa trên lưới 62
2. 8. 1. Phương pháp STING 62
2. 8. 2. Phân cụm sử dụng phép biến đổi wavelet 64
2. 8. 3 Phân cụm không gian số chiều cao 67
2. 9. Kết luận 68
CHƯƠNG 3. PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG CAO ĐẲNG NGHỀ VĂN
LANG HÀ HỘI 69
3. 1. Giới thiệu lịch sử phát triển 69
3. 1. 1. Cơ cấu tổ chức 70
3. 2. 2. Yêu cầu xây dựng cơ sở dữ liệu học sinh 70
3. 2. 3. Phạm vi thực hiện 71
3. 2. Công cụ xử lý dữ liệu cùng với phân cụm 73
3. 2. 1. Giới thiệu chung 73
3. 2. 2. Công cụ SPSS của IBM 74
3. 3. Phân cụm trong công cụ SPSS của IBM 76
3. 4. 1. Thao tác phân cụm 76
3. 4. 2. Thống kê mô tả đối tượng 78
3. 5. Áp dụng phân cụm học sinh tại trường Cao đẳng nghề Văn Lang Hà Nội 78
3. 5. 1. Xây dựng CSDL học sinh 78
3. 5. 2. Kết quả phân cụm theo thuật toán k-means 81
3. 5. 3. Kết quả phân cụm theo mật độ 93
KẾT LUẬN 94
TÀI LIỆU THAM KHẢO 96
-
5-
MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG
Từ
Tiếng Anh
Tiếng Việt
Clustering
Phân cụm
AGNES
AGglomerative NESting
Tích đống lồng
ATM
Automated teller machine
Máy rút tiền tự động
BIRCH
Balanced Iterative Reducing and
Clustering Using Hierarchies
Phương pháp phân cụm phân cấp
CLARA
Clustering large applications
Phân cục CSDL lớn
CLARANS
Clustering Large Applications
based upon randomized Search
Phân cụm ứng dụng lớn dựa trên
tìm kiếm ngẫu nhiên
CLIQUE
CLustering InQUEst
Phân cụm lưới
CNTT
Công nghệ thông tin
CSDL
Cơ sở dữ liệu
CURE
Clustering Using REpresentatives
Phân cụm dựa trên các trọng điểm
DBSCAN
Density-Based Spatial Clustering
of Applications with Noise
Phân cụm dựa trên mật độ
DENCLUE
DENsity-based CLUstEring
Phân cụm dựa trên hàm phân bố
mật độ
DIANA
DIvisive ANAlysis
Phép phân tích phân ly
DM
Data mining
Khai phá dữ liệu
EM
Expectation Maximization
Kỳ vọng tối đa
HC-TC
Hành chính, tổ chức
HIV
Human immunodeficiency virus
Virus suy giảm miễn dịch ở người
HSSV
Học sinh, sinh viên
IBM
International Business Machines
Corporation
Công ty kinh doanh máy tính quốc
tế
KDD
Knowledge Discovery in
Databases
Phát hiện tri thức trong CSDL
-
6-
OPTICS
Ordering Points To Identify the
Clustering Structure
Sắp xếp các điểm để nhận biết cấu
trúc các cụm dữ liệu
PAM
Partition around medoids
Phân chia xung quanh các đại diện
SAS
Statistical Analysis System
Hệ thống phân tích thống kê
SPSS
Statistical Package for the Social
Sciences
Chương trình thống kê dành cho
các môn khoa học xã hội
STING
STatistical INformation Grid
Phân cụm dựa trên lưới
WWW
World Wide Web
Mạng thông tin toàn cầu
-
7-
DANH MỤC CÁC HÌNH VẼ
Hình 1. 1. Quá trình phát hiện tri thức 15
Hình 1. 2. Tập dữ liệu với 2 lớp : có và không có khả năng trả nợ 16
Hình 1. 3. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay 17
Hình 1. 4. Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm 18
Hình 2. 1. Gom cụm 25
Hình 2. 2 Phân cụm theo thuật toán K means 43
Hình 2. 3 Sơ đồ khối k-means 43
Hình 2. 4 Phân cụm một tập các điểm dựa trên phương pháp k-medoids 46
Hình 2. 5. Các chiến lược phân cụm 48
Hình 2. 6. Phân cụm một tập các điểm dựa trên phương pháp "Tích đống lồng" 50
Hình 2. 7. Phân cụm một tập các điểm bằng CURE 54
Hình 2. 8. Phân cụm phân cấp dựa trên k-láng giềng gần và mô hình hoá động 55
Hình 2. 9. Mật độ tiến và mật độ liên kết trong phân cụm dựa trên mật độ 57
Hình 2. 10. Sắp xếp cụm trong OPTICS 59
Hình 2. 11. Hàm mật độ và điểm hút mật độ 60
Hình 2. 12. Các cụm được định nghĩa trung tâm và các cụm có hình dạng tuỳ ý 62
Hình 2. 13. Một cấu trúc phân cấp đối với phân cụm STING 63
Hình 2. 14. Một mẫu không gian đặc trưng 2 chiều 66
Hình 2. 15. Đa phân giải của không gian đặc trưng a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ 3 66
Hình 3. 1. Website của trường 69
Hình 3. 2. Sơ đồ tổ chức 70
Hình 3. 3. Màn hình quản lý dữ liệu của SPSS 74
Hình 3. 4. Màn hình khai báo tên trường sử dụng trong SPSS 75
Hình 3. 5. Màn hình hiển thị kết quả 75
Hình 3. 6. Màn hình tính toán dữ liệu dựa trên các biến 76
Hình 3. 7. Thao tác phân cụm k-means 77
Hình 3. 8. Chọn tên trường và số cụm cần phân chia 77
Hình 3. 9. Thống kê theo số lượng phân cụm cụ thể 78
Hình 3. 10. Kết quả học tập của học sinh khi tham gia phân cụm 80
Hình 3. 11. Kết quả phân cụm theo vùng miền 82
Hình 3. 12. Kết quả phân cụm theo dân tộc 84
Hình 3. 13. Kết quả số lượng của cụm 1 85
Hình 3. 14. Kết quả số lượng học sinh cụm 3 và 5 87
Hình 3. 15. Kết quả đạo đức học sinh cụm 3 và 5 88
Hình 3. 16. Kết quả học tập của học sinh cụm 4. 89
Hình 3. 17. Kết quả ảnh hưởng của môn toán đến môn văn 92
Hình 3. 18. Kết quả phân cụm theo vùng miền 93
-
8-
DANH MỤC CÁC BẢNG
Bảng 2. 1. Bảng ngẫu nhiên cho các biến nhị phân 34
Bảng 2. 2 Bảng quan hệ chứa hầu hết các thuộc tính nhị phân 35
Bảng 3. 1 Các chiều phân tích theo chủ đề 71
Bảng 3. 2. Bảng kết quả học tập của học sinh sau một năm học tại trường 72
Bảng 3. 3. Bảng xây dựng CSDL học sinh 79
Bảng 3. 4. Kết quả phân cụm và số lượng cụ thể từng cụm 81
Bảng 3. 5. Kết quả phân cụm theo vùng miền 82
Bảng 3. 6. Kết quả phân cụm theo hoàn cảnh gia đình 83
Bảng 3. 7 Kết quả phân cụm theo dân tộc 84
Bảng 3. 8 Kết quả phân cụm theo giới tính 85
Bảng 3. 9. Kết quả theo giới tính cụm 1 86
Bảng 3. 10 Kết quả học tập của các dân tộc cụm 1 86
Bảng 3. 11. Tổng hợp kết quả theo giới tính cụm 3 và 5 87
Bảng 3. 12. Kết quả học tập theo dân tộc cụm 3 và 5 88
Bảng 3. 13. Kết quả học tập theo hoàn cảnh gia đình cụm 3 và 5 89
Bảng 3. 14. Kết quả học tập của học sinh theo vùng miền cụm 4. 90
Bảng 3. 15. Kết quả xếp loại đạo đức học sinh cụm 4. 90
Bảng 3. 17. Kết quả học tập theo giới tính cụm 4 91
Bảng 3. 18. Kết quả phân cụm môn toán, văn 92
Bảng 3. 19. Kết quả phân cụm ảnh hưởng môn toán đến môn văn 92
-
9-
BẢN CAM KẾT
Tôi xin cam đoan đề tài khoa học “Khai phá dữ liệu về kết quả học tập của
học sinh trường Cao đẳng nghề Văn Lang Hà Nội ” này là công trình nghiên cứu
của bản thân tôi.
Các số liệu và kết quả nghiên cứu nêu trong luận văn này là trung thực,
được các tác giả cho phép sử dụng và các tài liệu tham khảo như đã trình bày
trong luận văn. Tôi xin chịu trách nhiệm về luận văn của mình.
-
10-
LỜI CẢM ƠN
Trước tiên em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong ngành Hệ
thống thông tin khoa Công nghệ thông tin của trường Đại học công nghệ-Đại học
quốc gia Hà Nội đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu
cho em trong suốt quá trình học tập và nghiên cứu tại trường.
Xin chân thành cảm ơn thầy giáo PGS. TS Đỗ Trung Tuấn đã tận tình
hướng dẫn, chỉ bảo em trong thời gian qua.
Em cũng xin gửi lời cảm ơn tới gia đình, người thân đã tạo điều kiện để
hoàn thành khóa học sau đại học. Nhân đây, có lời cám ơn đến bạn bè, những
người luôn cổ vũ, quan tâm và giúp đỡ em trong suốt thời gian học tập cũng như
làm luận văn.
Xin cám ơn đồng nghiệp tại trường Trung học phổ thông Quế Võ số 1,
huyện Quế Võ, tỉnh Bắc Ninh đã trợ giúp rất nhiều trong thời gian qua. Chân
thành biết ơn đồng nghiệp tại trường Cao đẳng nghề Văn Lang Hà Nội đã tạo
điều kiện về dữ liệu cho thử nghiệm luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những
thiếu sót nhất định. Em rất mong nhận được những sự góp ý quý báu của thầy cô
và các bạn.
Hà Nội, tháng 05 năm 2012
-
11-
MỞ ĐẦU
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng
nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích
luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá
trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của
những dữ liệu này là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì
hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý
nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó.
Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông
tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi
mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng
lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở
dữ liệu (CSDL) truyền thống ngày càng không đáp ứng được thực tế đã làm phát
triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai
phá dữ liệu.
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu,
ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam
kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần
đưa vào ứng dụng. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu
giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các
nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới đã
ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình
và đã thu được những lợi ích to lớn. Nhưng để làm được điều đó, sự phát triển
của các mô hình toán học và các giải thuật hiệu quả là chìa khoá quan trọng. Vì
vậy, trong luận văn này, tôi sẽ đề cập tới kỹ thuật thường dùng trong khai phá dữ
liệu đó là phân cụm.
Bố cục luận văn
Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết
luận, tài liệu tham khảo, luận văn được chia làm 3 phần:
-
12-
Phần I. Tổng quan về phát hiện tri thức và khai phá dữ liệu
Phần này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói
chung và khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về kỹ thuật chính được
nghiên cứu trong luận văn đó là Kỹ thuật phân cụm.
Phần II. Kỹ thuật phân cụm
Kỹ thuật phân cụm cũng được chia làm nhiều kiểu: phân cụm phân chia,
phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lưới.
Phần III. Kết quả phân cụm học tập của sinh viên.
Phần này trình bày một số kết quả đã đạt được khi tiến hành áp dụng các
giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trường
Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hưởng của vùng miền, của hoàn cảnh
gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả
học tập để đánh giá một cách nhanh chóng nhận thức của người học. Từ đó có
những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực người học.
Công tác trong ngành giáo dục, nơi công nghệ thông tin được áp dụng vào
công tác quản lý từ những năm rất sớm. CSDL thông tin liên quan đến lĩnh vực
quản lý học sinh là một CSDL lớn chứa nhiều thông tin quý báu. Với mong
muốn bước đầu áp dụng kỹ thuật khai phá dữ liệu trên CSDL của học sinh trường
cao đẳng nghề Văn Lang Hà Nội, luận văn đã tập trung nghiên cứu về các kỹ
thuật phân cụm dữ liệu trên CSDL học sinh.
Khai phá dữ liệu là sự tìm kiếm thông tin mới, có giá trị và không tầm
thường trong khối lượng dữ liệu lớn. Nó là sự phối hợp nỗ lực của con người và
máy tính, các kết quả tốt nhất nhận được bằng việc cân bằng giữa tri thức của các
chuyên gia con người trong việc mô tả các vấn đề và mục đích với khả năng tìm
kiếm của máy tính.
-
13-
CHƯƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN
TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Những năm 60 của thế kỷ trước, người ta đã sử dụng các công cụ tin học để
tổ chức và khai thác CSDL. Cùng với sự phát triển vượt bậc của các công nghệ
điện tử và truyền thông, khả năng thu nhập lưu trữ và xử lý dữ liệu cho các hệ
thống tin học không ngừng được nâng cao, theo đó lượng thông tin được lưu trữ
trong các bộ nhớ không ngừng được tăng lên. Theo thống kê cho thấy lượng
thông tin trong các hệ thống tin học cứ sau 20 tháng lại tăng lên gấp đôi. Cuối
những năm 80 của thế kỳ 20, sự phát triển rộng khắp của các CSDL ở mọi quy
mô đã tạo ra sự bùng nổ thông tin trong toàn cầu. Vào thời gian này, người ta bắt
đầu đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp để cung cấp
thông tin với yêu cầu chất lượng ngày càng cao cho người làm quyết định trong
các tổ chức thương mại, tài chính, khoa học, giáo dục…
Hiện nay lượng dữ liệu khổng lồ này thực sự là một nguồn tài nguyên có
nhiều giá trị bởi thông tin là yếu tố then chốt trong mọi hoạt động quản lý kinh
doanh, phát triển sản xuất và dịch vụ… Nó giúp những người điều hành và người
quản lý có hiểu biết về môi trường và tiến trình hoạt động của tổ chức mình trước
khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt đến mục tiêu
hiệu quả và bền vững.
Khai phá dữ liệu là một lĩnh vực mới xuất hiện, nhằm tự động khai thác
những thông tin, những trí thức có tính tiềm ẩn hữu ích từ các CSDL cho các đơn
vị tổ chức doanh nghiệp…Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh,
cạnh tranh cho các đơn vị, tổ chức này. Các kết quả của khoa học cùng những
ứng dụng thành công trong khai phá tri thức cho thấy khai phá dữ liệu là một lĩnh
vực phát triển bền vững mang lại lợi ích và có nhiều triển vọng, đồng thời có ưu
thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay khai phá
dữ liệu đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như: Thương mại, tài
chính, điều trị y học, viễn thông, tin-sinh học, giáo dục…
1. 1. Về khai phá dữ liệu
Khai phá dữ liệu là một hướng nghiên cứu mới ra đời hơn một thập niên trở
lại đây, các kỹ thuật chính được áp dụng trong kỹ thuật này phần lớn được thừa
kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, lý thuyết thống kê và
-
14-
tính toán hiệu năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi
ứng dụng và phương pháp tìm kiếm tri thức đã có nhiều quan điểm khác nhau về
khai phá dữ liệu. Ông Tom Mitchell [18] đã đưa ra định nghĩa khai phá dữ liệu
như sau: "Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những
quy tắc và cải thiện những quyết định trong tương lai". Với một cách tiếp cận
ứng dụng hơn, ông Fayyad [15] đã phát biểu: "Khai phá dữ liệu, thường được
xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất
những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các
quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu". Tuy nhiên ở mức độ trừu tượng
nhất định, chúng ta định nghĩa khai phá dữ liệu : Khai phá dữ liệu là một quá
trình tìm kiếm, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu
đã thu thập được.
Khai phá tri thức trong CSDL là mục tiêu chính của khai phá dữ liệu, do
vậy hai khái niệm khai phá dữ liệu và phát hiện tri thức được các nhà khoa học
trên hai lĩnh vực xem là tương đương nhau. Thế nhưng nếu phân chia một cách
chi tiết thì khai phá dữ liệu là một bước chính trong quá trình phát hiện tri thức
trong dữ liệu.
1. 2. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá tri thức được tiến hành theo các bước. Bắt đầu của quá
trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra [2] . Về lý
thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp
phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ
quá trình
1. Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ
liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu
và thậm chí các dữ liệu từ các nguồn ứng dụng Web.
2. Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia
theo một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả
những người có tuổi đời từ 25-35 và có trình độ đại học.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai
đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá
trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là
tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô
-
15-
nghĩa và không có khả năng kết nối dữ liệu. Ví dụ, tuổi = 253. Giai đoạn
này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những
dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi
vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm
sạch-tiền xử lý-chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch
nghiêm trọng.
4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa
ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu
sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện
các thao tác nhóm hoặc tập hợp…
Hình 1. 1. Quá trình phát hiện tri thức
5. Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở
giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các
mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc
kết hợp
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải
ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết
xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số
phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để
biểu diễn tri thức khai phá được cho người sử dụng.
-
16-
Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn "
khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất.
1. 3. Các kỹ thuật khai phá dữ liệu
Hình 1. 2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp.
Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một số
thời điểm trong quá khứ. Dữ liệu được phân loại vào hai lớp: những người không
có khả năng trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt (tức là
tại thời điểm đó có khả năng trả nợ ngân hàng).
Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đoán và mô tả.
Hình 1. 2. Tập dữ liệu với 2 lớp : có và không có khả năng trả nợ
1. 3. 1. Khai phá dữ liệu dự đoán
Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các
suy diễn trên dữ liệu hiện thời. Nó sử dụng các biến hay các trường trong cơ sở
dữ liệu để dự đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kĩ
thuật: phân loại, hồi quy
1. 3. 1. 1. Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các
mẫu dữ liệu. Quá trình phân loại dữ liệu thường gồm 2 bước: Xây dựng mô hình
và sử dụng mô hình để phân loại dữ liệu.
1. Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước. Mỗi
mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp.
Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện. Các nhãn lớp
-
17-
của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô
hình, vì vậy phương pháp này còn được gọi là học có giám sát.
2. Sử dụng mô hình để phân loại dữ liệu. Trước hết chúng ta phải tính độ chính
xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử
dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Nói cách
khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào một trong số các
lớp cho trước. Hình 1. 3 cho thấy sự phân loại của các dữ liệu vay nợ vào
trong hai miền lớp. Ngân hàng có thể sử dụng các miền phân loại để tự động
quyết định liệu những người vay nợ trong tương lai có nên cho vay hay không.
Hình 1. 3. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay
1. 3. 1. 2. Hồi quy
Phương pháp hồi quy khác với phân loại dữ liệu ở chỗ, hồi quy dùng để dự
đoán về các giá trị liên tục còn phân loại dữ liệu thì chỉ dùng để dự đoán về các
giá trị rời rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác suất một bệnh nhân
sẽ chết dựa trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu
dùng đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
1. 3. 2. Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung
của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm, phân tích luật
kết hợp
Nợ
Thu nhập
-
18-
1. 3. 2. 1. Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng
tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng
một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không
tương đồng [4]. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám
sát. Không giống như phân loại dữ liệu, phân cụm dữ liệu không đòi hỏi phải
định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu
là một cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ.
Trong phương pháp này ta sẽ không thể biết kết quả các cụm thu được sẽ như thế
nào khi bắt đầu quá trình. Vì vậy, thông thường cần có một chuyên gia về lĩnh
vực đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều
trong các ứng dụng về phân đoạn thị trường, phân loại học sinh, nhận dạng mẫu,
phân loại trang Web…
Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí
cho các thuật toán khai phá dữ liệu khác.
Hình 1. 4 cho thấy sự phân cụm tập dữ liệu điểm học sinh vào trong 3 cụm:
lưu ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn
một cụm.
Hình 1. 4. Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm
1. 3. 2. 2. Luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa
các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập
luật kết hợp tìm được. Khai phá luật kết hợp được thực hiện qua 2 bước:
-
19-
1. Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính
độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
2. Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ
hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như
marketing có chủ đích, phân tích quyết định, quản lí kinh doanh…
1. 4. Lợi thế của khai phá dữ liệu so với các phương pháp
khác
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác
như: hệ CSDL, thống kê Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai
phá dữ liệu còn có thể áp dụng một số kĩ thuật như mạng nơ ron, lý thuyết tập thô
hoặc tập mờ, biểu diễn tri thức… Như vậy, khai phá dữ liệu thực ra là dựa trên
các phương pháp cơ bản đã biết. Tuy nhiên, sự khác biệt của khai phá dữ liệu so
với các phương pháp trên và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn các
phương pháp đó, ta sẽ lần lượt xem xét và giải quyết các câu hỏi này.
1. 4. 1. Học máy
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai
phá dữ liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy đủ, bị
nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Trong khi đó
phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến
động và tập dữ liệu không quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập
các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định,
thông tin về đặc điểm, dãy các giá trị của chúng đôi khi cũng được lưu lại như
trong từ điển dữ liệu. Một giải thuật học máy sử dụng tập dữ liệu và các thông tin
kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của việc học. Học
máy có khả năng áp dụng cho cơ sở dữ liệu, lúc này học máy sẽ không phải là
học trên tập các mẫu nữa mà học trên tập các bản ghi của cơ sở dữ liệu. Tuy
nhiên trong thực tế, cơ sở dữ liệu thường động, không đầy đủ và bị nhiễu, lớn
hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho hầu
hết các giải thuật học máy trở nên không hiệu quả. Khai phá dữ liệu lúc này sẽ xử
lý các vấn đề vốn đã điển hình trong học máy và vượt quá khả năng của học máy,
-
20-
đó là sử dụng được các CSDL có dữ liệu nhiễu, không đầy đủ hoặc biến đổi liên
tục.
1. 4. 2. Hệ chuyên gia
Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài toán nào đó.
Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con người.
Mỗi phương pháp hệ chuyên gia là một cách suy diễn các luật từ các ví dụ
và giải pháp đối với bài toán chuyên gia đưa ra. Phương pháp hệ chuyên gia khác
với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao
hơn nhiều so với các dữ liệu trong CSDL và chúng thường chỉ bao hàm được các
trường quan trọng. Các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các
mẫu phát hiện được.
1. 4. 3. Thống kê
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững
chắc cho các bài toán phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần tuý
thôi chưa đủ bởi:
Các phương pháp thống kê không phù hợp với các kiểu dữ liệu có cấu trúc
ở trong rất nhiều các cơ sở dữ liệu.
Thống kê hoàn toàn tính toán trên dữ liệu, nó không sử dụng tri thức sẵn
có về lĩnh vực quan tâm.
Các kết quả của phân tích thống kê có thể rất nhiều và khó có thể làm rõ
được.
Các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác
định phân tích dữ liệu như thế nào và ở đâu.
Phương pháp thống kê là một trong những nền tảng lí thuyết của khai phá
dữ liệu. Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê ở chỗ khai phá dữ
liệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là
các nhà thống kê. Khai phá dữ liệu đã khắc phục được các yếu điểm trên của
thống kê, tự động quá trình thống kê một cách hiệu quả vì thế giảm bớt công việc
của người dùng đầu cuối, tạo ra một công cụ dễ sử dụng hơn.
-
21-
1. 5. Các ứng dụng của phát hiện tri thức và những thách
thức đối với phát hiện tri thức
1. 5. 1. Các ứng dụng của phát hiện tri thức
Các kỹ thuật KDD có thể được áp dụng vào trong nhiều lĩnh vực:
Thông tin thương mại: Phân tích dữ liệu tiếp thị và bán hàng, phân
tích vốn đầu tư, chấp thuận cho vay, phát hiện gian lận
Thông tin sản xuất: Điều khiển và lập lịch, quản lý mạng, phân tích
kết quả thí nghiệm
Thông tin khoa học: Địa lý: Phát hiện động đất
Giáo dục đào tạo: Phân luồng học sinh, áp dụng các phương pháp
dạy học tích cực để nâng cao chất lượng giáo dục
1. 5. 2. Những thách thức đối với phát hiện tri thức
Một số thách thức :
1. Các cơ sở dữ liệu lớn hơn rất nhiều: cơ sở dữ liệu với hàng trăm trường và
bảng, hàng triệu bản ghi và kích thước lên tới nhiều Gigabyte là vấn đề hoàn
toàn bình thường và cơ sở dữ liệu Terabyte cũng đã bắt đầu xuất hiện.
2. Số chiều cao: Không chỉ thường có một số lượng rất lớn các bản ghi trong cơ
sở dữ liệu mà còn có một số lượng rất lớn các trường (các thuộc tính, các
biến) làm cho số chiều của bài toán trở nên cao. Thêm vào đó, nó tăng thêm
cơ hội cho một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ. Vậy
nên cần giảm bớt hiệu quả kích thước của bài toán và tính hữu ích của tri thức
cho trước để nhận biết các biến không hợp lệ.
3. Quá phù hợp: Khi giải thuật tìm kiếm các tham số tốt nhất cho một mô hình
đặc biệt sử dụng một tập hữu hạn dữ liệu, kết quả là mô hình biểu diễn nghèo
nàn trên dữ liệu kiểm định. Các giải pháp có thể bao gồm hợp lệ chéo, làm
theo quy tắc và các chiến lược thống kê tinh vi khác.
4. Thay đổi dữ liệu và tri thức: Thay đổi nhanh chóng dữ liệu động có thể làm
cho các mẫu được phát hiện trước đó không còn hợp lệ. Thêm vào đó, các
biến đã đo trong một cơ sở dữ liệu ứng dụng cho trước có thể bị sửa đổi, xoá
bỏ hay tăng thêm các phép đo mới. Các giải pháp hợp lý bao gồm các phương
pháp tăng trưởng để cập nhật các mẫu và xử lý thay đổi.
-
22-
5. Dữ liệu thiếu và bị nhiễu: Bài toán này đặc biệt nhạy trong các cơ sở dữ liệu
thương mại. Các thuộc tính quan trọng có thể bị mất nếu cơ sở dữ liệu không
được thiết kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều
chiến lược thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc.
6. Mối quan hệ phức tạp giữa các trường: Các thuộc tính hay các giá trị có cấu trúc
phân cấp, các quan hệ giữa các thuộc tính và các phương tiện tinh vi hơn cho
việc biểu diễn tri thức về nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật
phải có khả năng sử dụng hiệu quả các thông tin này. Về mặt lịch sử, các giải
thuật khai phá dữ liệu được phát triển cho các bản ghi có giá trị thuộc tính đơn
giản, mặc dầu các kỹ thuật mới bắt nguồn từ mối quan hệ giữa các biến đang
được phát triển.
7. Tính dễ hiểu của các mẫu: Trong nhiều ứng dụng, điều quan trọng là những gì
khai thác được phải càng dễ hiểu đối với con người thì càng tốt. Các giải pháp
có thể thực hiện được bao gồm cả việc biểu diễn được minh hoạ bằng đồ thị,
cấu trúc luật với các đồ thị có hướng, biểu diễn bằng ngôn ngữ tự nhiên và
các kỹ thuật hình dung ra dữ liệu và tri thức.
8. Người dùng tương tác và tri thức sẵn có: Nhiều phương pháp KDD hiện hành
và các công cụ không tương tác thực sự với người dùng và không thể dễ dàng
kết hợp chặt chẽ với tri thức có sẵn về một bài toán loại trừ theo các cách đơn
giản. Việc sử dụng của miền tri thức là quan trọng trong toàn bộ các bước của
xử lý KDD.
9. Tích hợp với các hệ thống khác: Một hệ thống phát hiện đứng một mình có
thể không hữu ích lắm. Các vấn đề tích hợp điển hình gồm có việc tích hợp
với một giao diện truy vấn, tích hợp với các bảng tính và các công cụ trực
quan và điều tiết các dự đoán cảm biến thời gian thực.
1. 6. Kết luận
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng
nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế
giới. Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới
liên tục được công bố. Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng
dụng thực tế to lớn của khai phá dữ liệu. Phần này đã trình bày một số kiến thức
tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về các phương pháp
phân cụm dữ liệu, phân loại dữ liệu và khai phá luật kết hợp.
-
23-
CHƯƠNG 2. KỸ THUẬT PHÂN CỤM
TRONG KHAI PHÁ DỮ LIỆU
2. 1. Một số khái niệm thống kê
2. 1. 1. Định nghĩa
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp,
trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ
cho quá trình phân tích, dự đoán và ra quyết định.
2. 1. 2. Chức năng của thống kê
Thống kê thường được phân thành 2 lĩnh vực:
1. Thống kê mô tả : Là các phương pháp có liên quan đến việc thu thập số liệu,
tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh
một cách tổng quát đối tượng nghiên cứu.
2. Thống kê suy luận : Là bao gồm các phương pháp ước lượng các đặc trưng
của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán
hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu.
2. 1. 3. Phương pháp thống kê
Thu thập và xử lý số liệu: Số liệu thu thập thường rất nhiều và hỗn độn,
các dữ liệu đó chưa đáp ứng cho quá trình nghiên cứu. Để có hình ảnh
tổng quát về tổng thể nghiên cứu, số liệu thu thập phải được xử lý tổng
hợp, trình bày, tính toán các số đo; kết quả có được sẽ giúp khái quát
được đặc trưng của tổng thể.
Nghiên cứu các hiện tượng trong hoàn cảnh không chắc chắn: Trong
thực tế, có nhiều hiện tượng mà thông tin liên quan đến đối tượng nghiên
cứu không đầy đủ mặc dù người nghiên cứu đã có sự cố gắng. Ví dụ như
nghiên cứu về nhu cầu của thị trường về một sản phẩm ở mức độ nào,
tình trạng của nền kinh tế ra sao, để nắm được các thông tin này một
cách rõ ràng quả là một điều không chắc chắn.
Điều tra chọn mẫu: Trong một số trường hợp để nghiên cứu toàn bộ tất
cả các quan sát của tổng thể là một điều không hiệu quả, xét cả về tính
-
24-
kinh tế (chi phí, thời gian) và tính kịp thời, hoặc không thực hiện được.
Chính điều này đã đặt ra cho thống kê xây dựng các phương pháp chỉ cần
nghiên cứu một bộ phận của tổng thể mà có thể suy luận cho hiện tượng
tổng quát mà vẫn đảm bảo độ tin cậy cho phép, đó là phương pháp điều
tra chọn mẫu.
Nghiên cứu mối liên hệ giữa các hiện tượng: Giữa các hiện tượng
nghiên cứu thường có mối liên hệ với nhau. Ví dụ như mối liên hệ giữa
chi tiêu và thu nhập; mối liên hệ giữa lượng vốn vay và các yếu tố tác
động đến lượng vốn vay như chi tiêu, thu nhập, trình độ học vấn; mối
liên hệ giữa tốc độ phát triển với tốc độ phát triển của các ngành, lạm
phát, tốc độ phát triển dân số… Sự hiểu biết về mối liên hệ giữa các hiện
tượng rất có ý nghĩa, phục vụ cho quá trình dự đoán.
Dự đoán: Dự đoán là một công việc cần thiết trong tất cả các lĩnh vực
hoạt động. Trong hoạt động dự đoán người ta có thể chia ra thành nhiều
loại:
1. Dự đoán dựa vào định lượng và dựa vào định tính. Tuy nhiên, trong
thống kê chúng ta chủ yếu xem xét về mặt định lượng với mục đích
cung cấp cho những nhà quản lý có cái nhìn mang tính khoa học hơn
và cụ thể hơn trước khi ra quyết định phù hợp.
2. Dự đoán dựa vào nội suy và dựa vào ngoại suy. Dự đoán nội suy là
chúng ta dựa vào bản chất của hiện tượng để suy luận, ví dụ như
chúng ta xem xét một liên hệ giữa lượng sản phẩm sản xuất ra phụ
thuộc các yếu tố đầu vào như vốn, lao động và trình độ khoa học kỹ
thuật. Dự đoán dựa vào ngoại suy là chúng ta chỉ quan sát sự biến
động của hiện tượng trong thực tế, tổng hợp lại thành qui luật và sử
dụng qui luật này để suy luận, dự đoán sự phát triển của hiện tượng.
Ví dụ như để đánh giá kết quả hoạt động của một công ty người ta
xem xét kết quả hoạt động kinh doanh của họ qua nhiều năm.
Ngoài ra, người ta còn có thể phân chia dự báo thống kê ra thành nhiều loại
khác.
-
25-
2. 2. Khái niệm phân cụm
Xử lý nhóm một tập các đối tượng vào trong các lớp các đối tượng giống
nhau được gọi là phân cụm. Một cụm là một tập hợp các đối tượng dữ liệu giống
nhau trong phạm vi cùng một cụm và không giống nhau với các đối tượng trong
các cụm khác.
Định nghĩa :
Cho x làm một tập dữ liệu: X = { x
1
, x
2
, …. , x
n
} . Ta định nghĩa m-phân
cụm của X như một sự phân chia X thành m tập (cụm) C
1
, C
2
, …. , C
m
sao cho
thỏa mãn 3 điều kiện:
Hình 2. 1. Gom cụm
Phép phân tích cụm là một hoạt động quan trọng. Thời kì đầu, ta học làm
thế nào để phân biệt giữa gà và vịt, chó và mèo hay giữa động vật và thực vật,
bằng cách trau dồi liên tục tiềm thức các lược đồ phân loại. Phép phân tích cụm
được dùng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng, phép phân tích dữ
liệu, xử lý ảnh, nghiên cứu thị trường Bằng phân cụm, ta có thể nhận biết các
vùng đông đúc và thưa thớt, bởi vậy tìm ra toàn bộ các mẫu phân bố và các tương
quan giữa các thuộc tính dữ liệu. Trong kinh doanh, phân cụm có thể giúp cho
các nhà nghiên cứu thị trường tìm ra các nhóm riêng biệt dựa trên khách hàng
của họ và mô tả các nhóm khách hàng dựa trên các mẫu mua sắm. Trong sinh vật
học, nó có thể được dùng để có được các nguyên tắc phân loại thực vật và động
vật, phân loại gen theo chức năng giống nhau và có được sự hiểu biết thấu đáo
các cấu trúc kế thừa trong các mẫu. Phân cụm cũng có thể được dùng để nhận
biết các vùng đất giống nhau dùng trong cơ sở dữ liệu quan sát trái đất và nhận