Tải bản đầy đủ (.pdf) (87 trang)

Khai phá dữ liệu trong mô hình dữ liệu dạng khối

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.61 MB, 87 trang )




BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2




TRẦN THỊ THU HIỀN



KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH
DỮ LIỆU DẠNG KHỐI




LUẬN VĂN THẠC SĨ MÁY TÍNH




HÀ NỘI, 2014




BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2






TRẦN THỊ THU HIỀN



KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH
DỮ LIỆU DẠNG KHỐI
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ MÁY TÍNH


Người hướng dẫn khoa học: TS. Trịnh Đình Vinh


HÀ NỘI, 2014

1

LỜI CẢM ƠN
Trước tiên em xin bày tỏ lòng biết ơn tới các thầy cô giáo Trường Đại học Sư
phạm Hà Nội 2 đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu cho
em trong suốt quá trình học tập và nghiên cứu tại trường.
Em xin chân thành cảm ơn thầy giáo TS. Trịnh Đình Vinh đã tận tình hướng
dẫn, chỉ bảo em trong thời gian qua.
Em cũng xin gửi lời cảm ơn tới gia đình, người thân, bạn bè đã tạo điều kiện để

em hoàn thành khóa học sau đại học.
Do thời gian và kiến thức có hạn nên luận văn chắc chắn không tránh khỏi những
thiếu sót nhất định. Em rất mong nhận được những sự góp ý quý báu của thầy cô và
các bạn.
Vĩnh Phúc, ngày 15 tháng 12 năm 2014.
Học viên


Trần Thị Thu Hiền









2

LỜI CAM ĐOAN
Trong quá trình hoàn thành luận văn, tôi đã tìm hiểu, nghiên cứu, tổng hợp từ
nhiều nguồn tài liệu khác nhau, dưới sự chỉ đạo, giúp đỡ của giáo viên hướng dẫn,
kết quả của đề tài là sản phẩm lao động của cá nhân tôi. Các nguồn tài liệu sử dụng
được trích dẫn rõ ràng, khoa học.
Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất kỳ hình
thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào.
Tôi xin cam đoan những điều trên là hoàn toàn đúng.
Vĩnh Phúc, ngày 15 tháng 12 năm 2014
Học viên



Trần Thị Thu Hiền


3

MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỞ ĐẦU 5
1. Lí do chọn đề tài 5
2. Mục đích nghiên cứu 6
3. Nhiệm vụ nghiên cứu 6
4. Đối tượng và phạm vi nghiên cứu 6
5. Phương pháp nghiên cứu 6
6. Những đóng góp của đề tài 6
7. Cấu trúc của luận văn 6
DANH MỤC CÁC HÌNH VẼ 8
DANH MỤC CÁC BẢNG 9
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN
CỤM TRONG KHAI PHÁ DỮ LIỆU 10
1.1. Khai phá dữ liệu 10
1.1.1. Khai phá dữ liệu là gì? 10
1.1.2. Quá trình khám phá tri thức 10
1.1.3. Các kỹ thuật khai phá dữ liệu 12
1.1.4. Các ứng dụng của khai phá dữ liệu và những khó khăn trong khai phá dữ
liệu 17
1.2. Kỹ thuật phân cụm trong khai phá dữ liệu 19
1.2.1. Khái niệm phân cụm dữ liệu 19

1.2.2. Các hướng tiếp cận của bài toán phân cụm dữ liệu 20
Kết luận chương 1 38
CHƯƠNG 2: MÔ HÌNH DỮ LIỆU DẠNG KHỐI VÀ KHAI PHÁ DỮ LIỆU
TRÊN KHỐI BẰNG KỸ THUẬT PHÂN CỤM 39
2.1. Mô hình dữ liệu dạng khối 39
2.1.1. Khối, lược đồ khối 39
2.1.2. Lát cắt 40
4

2.1.3. Đại số quan hệ trên khối 41
2.1.4. Phụ thuộc hàm 45
2.1.5. Khoá của lược đồ khối R đối với tập phụ thuộc hàm F trên R 47
2.2. Khai phá dữ liệu trên khối bằng kỹ thuật phân cụm 48
2.2.1. Tính chất của kỹ thuật phân cụm 48
2.2.2. Thuật toán K-mean trên khối 50
Kết luận chương 2 52
CHƯƠNG 3: PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI TRƯỜNG CAO ĐĂNG
NGHỀ CƠ KHÍ NÔNG NGHIỆP 53
3.1. Giới thiệu Trường Cao đẳng nghề Cơ khí nông nghiệp 53
3.1.1. Cơ cấu tổ chức 55
3.1.2. Yêu cầu xây dựng CSDL: 56
3.1.3. Phạm vi thực hiện 57
3.2. Công cụ xử lý dữ liệu IBM SPSS 58
3.2.1. Giới thiệu chung 58
3.2.2. Công cụ SPSS 59
3.3. Phân cụm dữ liệu với công cụ SPSS 62
3.3.1. Thao tác phân cụm 62
3.3.2. Thống kê mô tả đối tượng 64
3.4. Phân cụm dữ liệu học sinh trường Cao đẳng nghề cơ khí nông nghiệp 65
3.4.1. Xây dựng cơ sở dữ liệu 65

3.4.2. Biểu diễn thông tin học sinh theo mô hình khối 68
3.4.3. Kết quả phân cụm theo thuật toán K-means 70
Kết luận chương 3 83
KẾT LUẬN 84
TÀI LIỆU THAM KHẢO 85


5

MỞ ĐẦU
1. Lí do chọn đề tài
Trong nhiều năm qua, cùng với sự phát triển của công nghệ thông tin và ứng
dụng của công nghệ thông tin trong nhiều lĩnh vực của đời sống xã hội, thì lượng
dữ liệu được các cơ quan thu thập và lưu trữ ngày một nhiều lên. Người ta lưu trữ
những dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên
theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến
10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm gì
với những dữ liệu này, nhưng họ vẫn tiếp tục thu thập và lưu trữ vì hy vọng những
dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một cách nhanh chóng để đưa
ra những quyết định kịp thời vào một lúc nào đó.
Chính vì vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền
thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng
kỹ thuật mới đó là kỹ thuật khai phá dữ liệu. Khai phá dữ liệu là một công nghệ tri
thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu lớn.
Từ trước tới nay đã có một số loại mô hình được sử dụng trong các hệ thống cơ
sở dữ liệu như: mô hình thực thể - liên kết, mô hình mạng, mô hình phân cấp, mô
hình hướng đối tượng, mô hình dữ liệu datalog và mô hình quan hệ. Trong những
năm gần đây, việc nghiên cứu nhằm mở rộng mô hình dữ liệu quan hệ đã được
nhiều nhà khoa học quan tâm. Theo hướng nghiên cứu này một mô hình dữ liệu đã
được đề xuất, đó là mô hình dữ liệu dạng khối. Mô hình dữ liệu này có thể được xem

là một mở rộng của mô hình dữ liệu quan hệ.
Đã có một số công trình nghiên cứu về mô hình dữ liệu dạng khối này. Tuy
nhiên việc khai phá dữ liệu trong mô hình dạng khối vẫn còn khá mới mẻ. Chính
vì những lý do trên mà tôi đã chọn đề tài: “Khai phá dữ liệu trong mô hình dữ liệu
dạng khối".
6



2. Mục đích nghiên cứu
Trên cơ sở nghiên cứu khai phá dữ liệu trong mô hình dữ liệu dạng khối sử
dụng thuật toán K-means trong kỹ thuật phân cụm.
3. Nhiệm vụ nghiên cứu
1. Tìm hiểu về khai phá dữ liệu và kỹ thuật phân cụm trong khai phá dữ liệu.
2. Tìm hiểu về mô hình dữ liệu dạng khối.
3. Nghiên cứu thuật toán K-means trên khối bằng kỹ thuật phân cụm.
4. Đối tượng và phạm vi nghiên cứu
Các vấn đề về khai phá dữ liệu, kỹ thuật phân cụm, thuật toán về kỹ thuật phân
cụm trên mô hình dữ liệu dạng khối.
5. Phương pháp nghiên cứu
Trong quá trình triển khai đề tài, tôi sử dụng chủ yếu các phương pháp: Thu
thập tài liệu, phân tích,suy luận, tổng hợp, đánh giá.
6. Những đóng góp của đề tài
1. Tìm hiểu về khai phá dữ liệu, các kỹ thuật khai phá dữ liệu nói chung và kỹ
thuật khai phá dữ liệu bằng phân cụm nói riêng.
2. Chứng minh các tính chất của khai phá dữ liệu bằng phân cụm trên mô hình
khối.
3. Sử dụng kỹ thuật khai phá dữ liệu ứng dụng vào một khối dữ liệu trong mô
hình dữ liệu dạng khối bằng cách đề ra một thuật toán mới đó là thuật toán K-means
trên khối dựa trên thuật toán K-means đã có trên mô hình quan hệ.

4. Áp dụng thuật toán đó để xây dựng một phần mềm phân cụm kết quả học tập
của học sinh tại Trường Cao đẳng nghề Cơ khí nông nghiệp.
7. Cấu trúc của luận văn
Luận văn gồm phần mở đầu, phần kết luận và chương nội dung:
7



Chương 1: Tổng quan về khai phá dữ liệu và kỹ thuật phân cụm trong khai phá
dữ liệu.
Chương 2: Mô hình dữ liệu dạng khối và khai phá dữ liệu trên khối bằng kỹ
thuật phân cụm.
Chương 3: Phân cụm kết quả học tập tại Trường Cao đẳng nghề cơ khí nông
nghiệp.
Sau cùng là tài liệu tham khảo.

8



DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Quá trình khám phá tri thức
Hình 1.2: Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ
Hình 1.3: Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay
Hình 1.4: Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm
Hình 1.5: Mô tả luật kết hợp
Hình 1.6: Gom cụm
Hình 1.7: Sơ đồ khối k-means
Hình 1.8: Phân cụm một tập các điểm dựa trên phương pháp k-medoids
Hình 1.9: Các chiến lược phân cụm phân cấp

Hình 1.10: Phân cụm một tập các điểm bằng CURE
Hình 1.11: Mật độ tiến và mật độ liên kết trong phân cụm dựa trên mật độ
Hình 1.12: Sắp xếp cụm trong OPTICS
Hình 2.1: Biểu diễn khối điểm học sinh DHS(R)
Hình 3.1: Sơ đồ tổ chức trường CĐN Cơ khí nông nghiệp
Hình 3.2: Màn hình quản lý dữ liệu của SPSS
Hình 3.3: Màn hình khai báo tên trường sử dụng trong SPSS
Hình 3.4: Màn hình hiển thị kết quả
Hình 3.5: Màn hình tính toán dữ liệu dựa trên các biến
Hình 3.6: Thao tác phân cụm k-means
Hình 3.7: Chọn tên trường và số cụm cần phân chia
Hình 3.8: Thống kê theo số lượng phân cụm cụ thể
Hình 3.9. Biểu diễn thông tin học sinh theo mô hình khối
Hình 3.10: Kết quả trung bình của học sinh khi tham gia phân cụm
Hình 3.11: Kết quả phân cụm cả năm
Hình 3.12: Kết quả phân cụm cả năm theo vùng miền
Hình 3.13: Kết quả phân cụm theo hoàn cảnh gia đình cả năm
Hình 3.14: Phân cụm cả năm theo dân tộc
Hình 3.15: Kết quả phân cụm cả năm theo giới tính
9



DANH MỤC CÁC BẢNG
Bảng 3.1: Các chiều phân tích theo chủ đề
Bảng 3.2: Bảng xây dựng CSDL học sinh
Bảng 3.3: Kết quả phân cụm và số lượng cụ thể từng cụm
Bảng 3.4: Khoảng cách giữa các cụm của lát cắt học kỳ I
Bảng 3.5: Khoảng cách giữa các cụm của lát cắt học kỳ II
Bảng 3.6: Bảng kết quả phân cụm cả năm

Bảng 3.7: Kết quả phân cụm theo vùng miền trên hai lát cắt học kỳ I và học kỳ II
Bảng 3.8: Kết quả phân cụm cả năm theo vùng miền
Bảng 3.9: Kết quả phân cụm theo hoàn cảnh gia đình trên hai lát cắt học kỳ I và
học kỳ II
Bảng 3.10: Kết quả phân cụm cả năm theo hoàn cảnh gia đình
Bảng 3.11: Phân cụm theo dân tộc trên hai lát cắt học kỳ I và học kỳ II
Bảng 3.12: Phân cụm cả năm theo dân tộc
Bảng 3.13: Phân cụm theo giới tính trên hai lát cắt học kỳ I và học kỳ II
Bảng 3.14: Phân cụm cả năm theo giới tính
Bảng 3.15: Kết quả phân cụm theo môn toán trên hai lát cắt học kỳ I và học kỳ II
Bảng 3.16: Kết quả phân cụm cả năm theo môn toán
Bảng 3.17: Kết quả phân cụm theo môn văn trên hai lát cắt học kỳ I và học kỳ II
Bảng 3.18: Kết quả phân cụm cả năm theo môn văn


10



CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ
KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu
1.1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối
của thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ
sở dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức. Khai phá
dữ liệu là quá trình quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu,
các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh…
Một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá dữ liệu

Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các
mẫu chưa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”.
Định nghĩa của Fayyad: “ Khai phá tri thức là một quá trình không tầm thường
nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”.
1.1.2. Quá trình khám phá tri thức
Quá trình khai phá tri thức được tiến hành qua 6 giai đoạn [6]. Bắt đầu của quá
trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra. Về lý thuyết thì có
vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều
vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình
1. Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ
liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm
chí các dữ liệu từ các nguồn ứng dụng Web.
11



2. Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo
một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những em học
sinh có điểm trung bình học kỳ lớn hơn 8.0 và có giới tính là nữ

Hình 1.1: Quá trình khám phá tri thức
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai
đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình
khám phá tri thức. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không
đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả
năng kết nối dữ liệu. Ví dụ, tuổi = 256. Giai đoạn này sẽ tiến hành xử lý những dạng
dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư

thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu
không được “làm sạch-tiền xử lý-chuẩn bị trước” thì sẽ gây nên những kết quả sai
lệch nghiêm trọng.
4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra
có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ được
chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm
hoặc tập hợp…
12



5. Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở
giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ
liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu
nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu
chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra. Đánh giá sự hữu ích của
các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình
diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.
Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn " khai
phá dữ liệu" là giai đoạn được quan tâm nhiều nhất.
1.1.3. Các kỹ thuật khai phá dữ liệu
Hình 1. 2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 27 trường hợp. Mỗi
một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một số thời điểm
trong quá khứ. Dữ liệu được phân loại vào hai lớp: những người không có khả năng
trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt (tức là tại thời điểm đó
có khả năng trả nợ ngân hàng).
Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đoán và mô tả.


Hình 1.2: Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ
13



1.1.3.1. Khai phá dữ liệu dự đoán
Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các suy
diễn trên dữ liệu hiện thời. Nó sử dụng các biến hay các trường trong cơ sở dữ liệu
để dự đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kĩ thuật: phân
loại, hồi quy
a. Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu
dữ liệu. Quá trình phân loại dữ liệu thường gồm 2 bước: Xây dựng mô hình và sử
dụng mô hình để phân loại dữ liệu.
1. Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước. Mỗi
mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp. Các
mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện. Các nhãn lớp của tập dữ liệu
huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp
này còn được gọi là học có giám sát.
2. Sử dụng mô hình để phân loại dữ liệu. Trước hết chúng ta phải tính độ chính
xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để
dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Hình 1.3 cho thấy sự
phân loại của các dữ liệu vay nợ vào trong hai miền lớp. Ngân hàng có thể sử dụng
các miền phân loại để tự động quyết định liệu những người vay nợ trong tương lai có
nên cho vay hay không.






Hình 1.3: Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay
Nợ
Thu nhập
14



b. Hồi quy
Phương pháp hồi quy khác với phân loại dữ liệu ở chỗ, hồi quy dùng để dự đoán
về các giá trị liên tục còn phân loại dữ liệu thì chỉ dùng để dự đoán về các giá trị rời
rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác suất một bệnh nhân sẽ
chết dựa trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu dùng
đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
1.1.3.2. Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của
dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm, phân tích luật kết
hợp
a. Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương
tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là
tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng [5].
Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát. Không giống
như phân loại dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu
dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan
sát, trong khi phân loại dữ liệu là học bằng ví dụ. Trong phương pháp này ta sẽ không
thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Vì vậy, thông
thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được. Phân
cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân loại thị trường, phân

loại học sinh, nhận dạng mẫu, phân loại trang Web…
Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho
các thuật toán khai phá dữ liệu khác.
15



Hình 1. 4 cho thấy sự phân cụm tập dữ liệu điểm học sinh vào trong 3 cụm: lưu
ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một
cụm.

Hình 1. 4: Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm
b. Luật kết hợp
Phương pháp phát hiện các luật kết hợp (Association Rules) nhằm phát hiện ra
các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu [5]. Các giải thuật
Tìm luật liên kết tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm
các món hàng thường được mua kèm với nhau trong siêu thị. Đầu ra của thuật toán
là tập luật kết hợp tìm được. Cho trước một tập các giao tác, trong đó mỗi giao tác là
một tập các mục, tìm sự tương quan giữa các mục như là một luật và kết quả của giải
thuật khai phá dữ liệu là tập luật kết hợp tìm được. Luật kết hợp thường có dạng X
=> Y. Trong đó:
X là tiền đề, Y là hệ quả (X, Y là hai tập của mục). Ý nghĩa trực quan của luật
là các giao tác của cơ sở dữ liệu mà trong đó nội dung X có khuynh hướng đến nội
dung Y.
Có hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy
(confidence). Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật.
Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Khai
16




phá các luật kết hợp từ cơ sở dữ liệu là việc tìm các luật có độ hỗ trợ và độ tin cậy
lớn hơn ngưỡng mà người dùng xác định trước.
Ví dụ: Phân tích giỏ hàng của người mua hàng trong một siêu thị ta thu được
luật: “68% khách hàng mua sữa thì cũng mua bánh mỳ, 21% mua cả hai thứ. Trong
ví dụ trên thì 68% là độ tin cậy của luật (số phần trăm giao dịch thỏa mãn vế trái thì
thỏa mãn vế phải), 21% là độ hỗ trợ (số phần trăm giao dịch thỏa mãn cả hai vế trái
và phải).

Hình 1.5 Mô tả luật kết hợp
Luật kết hợp mang lại những thông tin vô cùng quan trọng, nó hỗ trợ không nhỏ
trong quá trình ra quyết định. Phương pháp này được sử dụng rất nhiều trong các lĩnh
vực như marketing có chủ đích, phân tích thị trường, quản lý kinh doanh, Khai phá
luật kết hợp được thực hiện qua hai bước:
 Bước 1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định
thông qua việc tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
 Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật này phải
thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing
có chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích thị trường, …

17



1.1.4. Các ứng dụng của khai phá dữ liệu và những khó khăn trong khai phá
dữ liệu
1.1.4.1. Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác
nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin. Tùy theo bản

chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận khác
nhau.
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng. Tìm kiếm tri thức, quy
luật của thị trường chứng khoán và đầu tư bất động sản.
Thương mại điện tử: Tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng.
Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với nhiều
loại khách hàng.
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán hàng
từ đó xác định chiến lược kinh doanh, quảng cáo, kế hoạch sản xuất, …
Khai phá dữ liệu cũng được vận dụng hiệu quả để giải quyết các bài toán phức
tạp trong các ngành đòi hỏi kỹ thuật cao [9], như tìm kiếm mỏ dầu từ ảnh viễn thám,
cảnh báo hỏng hóc trong các hệ thống sản xuất, … Các kỹ thuật Khai phá dữ liệu đã
được áp dụng thành công trong việc dự đoán tải sử dụng điện năng cho các công ty
cung cấp điện, lưu lượng viễn thông cho các công ty điện thoại, mức độ tiêu thụ sản
phẩm cho các nhà sản xuất, giá trị của sản phẩm trên thị trường cho các công ty tài
chính, …
Ngoài ra, Khai phá dữ liệu còn được áp dụng cho các vấn đề xã hội như phân
tích các kết quả phòng chống và điều trị một số loại bệnh, phân tích tác hại của ma
tuý, phát hiện tội phạm hay tăng cường an ninh xã hội, Việc vận dụng thành công
đã mang lại những hiệu quả thiết thực cho các hoạt động diễn ra hàng ngày trong đời
sống.

18



1.1.4.2. Một số khó khăn trong khai phá dữ liệu
- Cơ sở dữ liệu lớn: Các tập dữ liệu cần xử lý trong khai phá dữ liệu thường có
kích thước cực kỳ lớn về cả số lượng các bản ghi và số lượng các thuộc tính. Trong
thực tế, kích thước của các tập dữ liệu trong khai phá dữ liệu thường ở mức tera-byte

(hàng ngàn giga-byte). Với kích thước như thế, thời gian xử lý thường cực kỳ dài.
Mặc dù kích thước bộ nhớ trong của máy tính đã gia tăng đáng kể trong thời gian gần
đây, việc gia tăng này cũng không thể đáp ứng kịp với việc tăng kích thước dữ liệu.
Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu, đệm, song song, …vào các giải
thuật để tạo ra các phiên bản phù hợp với yêu cầu của khai phá dữ liệu trở nên ngày
càng quan trọng.
- Dữ liệu thiếu và nhiễu: Mức độ nhiễu cao trong dữ liệu điều này dẫn đến việc
dự đoán thiếu chính xác.
- Vấn đề “quá phù hợp” (Overfitting): Khi thuật toán khai phá tìm kiếm với các
tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu. Mô hình
đó có thể “Quá phù hợp” trên tập dữ liệu đó nhưng lại thi hành không chính xác trên
tập dữ liệu kiểm tra.
- Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi
nhanh chóng có thể dẫn đến những tri thức đã khai phá trước đây trở nên không còn
phù hợp thậm chí là vô giá trị.
- Đánh giá các mẫu dữ liệu tìm được: Nhiều mẫu phát hiện không thực sự hữu
ích với người sử dụng và thách thức với các hệ khai phá dữ liệu.
- Làm việc với các dữ liệu quan hệ phức tạp: Do các hệ cơ sở dữ liệu quan hệ
được sử dụng rộng rãi nên vấn đề làm tốt với các hệ cơ sở dữ liệu này là vấn đề cần
quan tâm đối với các hệ khai phá dữ liệu.
- Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thông tin
toàn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ nhiều
19



nguồn khác nhau với định dạng khác nhau với số lượng rất lớn. Việc phát hiện tri
thức từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá dữ liệu.
1.2. Kỹ thuật phân cụm trong khai phá dữ liệu
1.2.1. Khái niệm phân cụm dữ liệu

Cho x làm một tập dữ liệu: X = { x
1
, x
2
, …. , x
n
} . Ta định nghĩa m-phân cụm
của X như một sự phân chia X thành m tập (cụm) C
1
, C
2
, …. , C
m
sao cho thỏa mãn 3
điều kiện:

Hình 1.6: Gom cụm
Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện
các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để
từ đó cung cấp thông tin, tri thức cho việc ra quyết định.
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm
dữ liệu sao cho các đối tượng trong một cụm "tương tự" với nhau và các đối tượng
trong các cụm khác nhau sẽ "không tương tự" với nhau. Số các cụm dữ liệu được
phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động
xác định.


20




1.2.2. Các hướng tiếp cận của bài toán phân cụm dữ liệu
1.2.2.1. Phương pháp phân hoạch (Partitioning Methods)
Phân 1 tập dữ liệu có n phần tử cho trước thành k tập con dữ liệu (k ≤ n), mỗi
tập con biểu diễn 1 cụm.
Các cụm hình thành trên cơ sở làm tối ưu giá trị hàm đo độ tương tự sao cho:
 Các đối tượng trong 1 cụm là tương tự.
 Các đối tượng trong các cụm khác nhau là không tương tự nhau.
Đặc điểm:
 Mỗi đối tượng chỉ thuộc về 1 cụm.
 Mỗi cụm có tối thiểu 1 đối tượng.
Một số thuật toán điển hình : K-mean, PAM, CLARA,…
a. Phương pháp K - means
Thuật toán K-means được J.MacQueen giới thiệu vào năm 1967 và phát triển
dựa trên ý tưởng của H.Steinhaus đề xuất năm 1956. Thuật toán này sử dụng giá trị
trung bình (mean) của các đối tượng trong cụm làm tâm của cụm đó. Tư tưởng chính
của thuật toán K-mean là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là
số các cụm được xác định trước, K nguyên dương) sao cho tổng bình phương khoảng
cách giữa các đối tượng đến tâm cụm là nhỏ nhất.
Tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm còn gọi là hàm
tiêu chuẩn (criterion function) được tính bởi công thức:
2
1
 
 

k
i Cx
i
i

mpE

Trong đó, x là một điểm, m
i
là giá trị trung bình của cụm C
i.

Thuật toán k-means bao gồm các bước cơ bản sau:

21













Hình 1.7: Sơ đồ khối k-means
Thuật toán k-means chi tiết như sau:
Input: Số cụm k và các trọng tâm cụm
k
jj
m
1

}{


Output: các cụm C
[i]
(1 ≤ i ≤ k) và hàm tiêu chuẩn E đạt giá trị tối thiểu.
Begin
Bước 1: Khởi tạo
Chọn k trọng tâm
k
jj
m
1
}{

ban đầu trong không gian Rd ( d là số chiều của dữ liệu).
Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm.
Bước 2: Tính toán khoảng cách
Đối với mỗi điểm X
i
(1 ≤ i ≤ n), tính toán khoảng cách của nó tới mỗi trọng tâm m
j

(1 ≤ i ≤ k). Sau đó tìm trọng tâm gần nhất đối với mỗi điểm.
||||||:||{
)()()(
*
t
i
j

t
ijj
t
i
cxcxxS 
for all i
*
= 1, …. , k.
Bước 3: Cập nhật lại trọng tâm cụm m
j
bằng cách xác định trung bình cộng của
vector đối tượng dữ liệu.
Kết thúc
-
+
Bắt đầu
Số cụm k
Trọng tâm
Khoảng cách các
đối tượng đến các
trọng tâm
Nhóm các đối
tượng vào các cụm
Không có
đối tượng
chuyển
nhóm
22








)(
||
1
)(
)1(
t
i
j
sx
j
t
i
t
i
x
s
c

Điều kiện dừng:
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi.
End.
Tuy nhiên, phương pháp K-means chỉ áp dụng khi trung bình của một cụm được
xác định. Không phải ứng dụng nào cũng có thể áp dụng kỹ thuật này, ví dụ những
dữ liệu bao hàm các thuộc tính xác thực. Về phía các người dùng, họ phải chỉ rõ k,
tức số cụm, cần sớm phát hiện ra sự bất lợi. Phương pháp K-means không thích hợp

với việc tìm các cụm có hình dáng không lồi hay các cụm có kích thước khác xa nhau.
Hơn nữa, nó nhạy cảm với các điểm dữ liệu nhiễu và điểm giới hạn, một số lượng
nhỏ dữ liệu như vậy về căn bản có ảnh hưởng tới giá trị trung bình.
Ví dụ: Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuộc được biểu diễn bởi 2
đặc trưng X và Y như sau. Mục đích của ta là nhóm các thuốc đã cho vào 2 nhóm
(K=2) dựa vào các đặc trưng của chúng.
Đối tượng
Thuộc tính 1 (X)
Thuộc tính 2 (Y)
A
1
1
B
2
1
C
4
3
D
5
4



23




Bước 1: Khởi tạo

Chọn 2 trọng tâm ban đầu:
c
1
(1,1) ≡ A và c
2
(2,1) ≡ B, thuộc 2 cụm 1 và 2

Bước 2: Tính toán khoảng cách
+ d(C,c1) = (4-1)
2
+ (3-1)
2
= 13
+ d(C,c2) = (4-2)
2
+ (3-1)
2
= 8
So sánh d(C,c1) > d(C,c2) => C thuộc cụm 2
+ d(D,c1) = (5-1)
2
+ (4-1)
2
= 25
+ d(D,c2) = (5-2)
2
+ (4-1)
2
= 18
So sánh d(D,c1) > d(D,c2) => D thuộc cụm 2

×