Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
NGUYỄN HỒNG HẢI
PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG
VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
Thái Nguyên - 2011
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
NGUYỄN HỒNG HẢI
PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG
VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC
PGS.TS. NGÔ QUỐC TẠO
Thái Nguyên - 2011
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá dữ liệu dạng đóng
và ứng dụng” là công trình nghiên cứu của riêng tôi dƣớ i sƣ̣ hƣớ ng dẫ n củ a
PGS.TS. Ngô Quốc Tạo. Toàn b phần mềm do chnh tôi lập trình và kiểm
thƣ̉ . Tôi xin chị u trá ch nhiệ m về lờ i cam đoan củ a mình .
Các số liệu và thông tin sử dụng trong luận văn này là trung thực.
Tác giả
Nguyễn Hồng Hải
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv
DANH MỤC CÁC BẢNG v
DANH MỤC HÌNH VẼ vi
MỞ ĐẦU 1
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 3
1.2. Khai phá dữ liệu là gì 3
1.2. Ứng dụng của việc khai phá dữ liệu 3
1.3. Qui trình khai phá tri thức 4
1.3.1. Qui trình khai phá tri thức 4
1.3.2. Kiến trúc hệ thống khai phá dữ liệu 5
1.4. Các nhiệm vụ chnh của khai phá tri thức 5
1.4.1. Dự đoán (predictive) 5
1.4.2. Mô tả (discriptive) 6
1.5. Ý tƣởng kĩ thuật khai phá tri thức 7
1.6. Các thách thức của khai phá tri thức 7
1.7. Qui trình chuẩn bị dữ liệu 7
1.7.1. Tại sao cần chuẩn bị dữ liệu 7
1.7.2. Làm sạch dữ liệu 8
1.7.3. Chọn lọc dữ liệu 9
1.7.4. Rút gọn dữ liệu 9
1.7.5. Mã hóa dữ liệu 11
1.8. Tập phổ biến 11
1.8.1. Giới thiệu tập phổ biến 11
1.8.2. Các khái niệm cơ bản 12
1.8.2.1. Cho cơ sở dữ liệu giao dịch 12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii
1.8.2.2. Đ phổ biến và tập phổ biến 13
1.8.2.3. Tnh chất của tập phổ biến 14
1.8.2.4. Tập phổ biến tối đại 14
1.8.2.5. Tập phổ biến đóng 14
1.8.2.6. Luật kết hợp 15
1.8.2.7. Mô tả bài toán luật kết hợp 15
1.9. Phân lớp dữ liệu 16
1.9.1. Định nghĩa thông qua v dụ 16
1.9.2. Quy trình phân lớp 16
1.10. Phân cụm dữ liệu 17
1.10.1. Phân cụm là gì? 17
1.10.2. Phân biệt phân lớp và phân cụm 17
1.10.3. Ứng dụng phân cụm 18
1.10.4. V dụ 19
Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN 2
CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 20
2.1. Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều20
2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều 20
2.3. Tiến hành khai phá tập phổ biến đóng FCP 22
2.3.1. Sơ lƣợc về quá trình khai phá tập phổ biến đóng 22
2.3.2. Thuật toán C-Miner 23
2.3.2.1. Thuật toán phân cụm (thuật toán increamental k-mean) 23
2.3.2.2 Quá trình chia không gian khai phá 25
2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs . 29
2.4. Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều
32
2.5. Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều . 33
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii
2.6. Khai phá các lát cắt đại diện 36
2.6.1. Tạo ra các dàn đại diện 38
2.6.2. Tạo ra các tập phổ biến đóng FCP 39
2.6.3. 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ các khối
đƣợc sinh ra không thỏa mãn) 39
2.6.4. Tnh đúng đắn 41
Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43
3.1. Cài đặt thuật toán trong không gian 2 chiều 43
3.2. Cài đặt ứng dụng trong không gian 2 chiều 46
3.2.1. Cơ sở dữ liệu 47
3.2.2. Các bƣớc thực hiện 47
3.3. Cài đặt thuật toán trong không gian 3 chiều 50
3.4. Cài đặt ứng dụng trong không gian 3 chiều 55
3.4.1. Cơ sở dữ liệu 55
3.4.2. Các bƣớc thực hiện 55
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các từ viết tắt
Nghĩa tiếng anh
Nghĩa tiếng việt
EnumerateSubset
Liệt kê các tập con
Slice
Mặt cắt
Slices
Dàn tƣơng đƣơng với 1 tập
các mặt cắt kết hợp với
nhau.
CP
Closed pattern
Tập đóng
CS
Compact subspace
Không gian con đặc (trong
bài toán đang xét: là không
gian con mà tất cả các ô có
giá trị là “1”.
FCC
Frequent closed cube
Khổi phổ biến đóng
FCP
Frequent closed pattern
Tập phổ biến đóng
Minlen
Là ngƣỡng giá trị Pattern
length mà các pattern phải
thỏa mãn
Minsup
Là ngƣỡng giá trị support
mà các pattern phải thỏa
mãn
RS
Representative slices
Dàn đại diện
RSM
Representative slice Mining
Khai phá lát cắt đại diện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
v
DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng cơ sở dữ liệu 21
Bảng 2.2 Ma trận rút gọn O‟ 26
Bảng 2.3 Lát cắt 27
Bảng 2.4 Kết quả các không gian rút gọn và không gian con 27
(minsup=3, minlen=2) 27
Bảng 2.5 FCP (minsup=3, minle=2) 32
Bảng 2.6 Ma trận O trong không gian 3 chiều 34
Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vi
DANH MỤC HÌNH VẼ
Hình 1.1 Các bƣớc khai phá tri thức 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 5
Hình 1.3 Minh họa phân cụm dữ liệu 18
Hình 1.4 Phân cụm các điểm trong không gian 19
Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 19
Hình 2.1 Khung khai phá 22
Hình 2.2 Cây phân chia sử dụng lát cắt. 28
Hình 2.3 Sai sót và dƣ thừa 29
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1
MỞ ĐẦU
Ngày nay, cuc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ
dàng và chi ph lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và
trang bị nhanh hệ thống máy tnh trong kinh doanh. Số lƣợng dữ liệu khổng lồ
đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa
cứng, băng từ, đĩa quang, CD-ROM,… Tốc đ tăng dữ liệu quá lớn. Từ đó
dẫn đến kết quả là sự pha trn của kỹ thuật thống kê vào các công cụ quản trị
dữ liệu không thể phân tch đầy đủ dữ liệu rng lớn đƣợc nữa.
Dữ liệu sau khi phục vụ cho mt mục đch nào đó đƣợc lƣu lại trong kho
dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn.
Trong khối lƣợng dữ liệu to lớn này có rất nhiều thông tin có ch mang tnh
tổng quát, thông tin có tnh quy luật vẫn còn đang tiềm ẩn mà chúng ta chƣa
biết. Từ khối lƣợng dữ liệu rất lớn cần có những công cụ tự đng rút các
thông tin và kiến thức có ch. Mt hƣớng tiếp cận có khả năng giúp các công
ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai
phá dữ liệu (Data Mining).
Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều
hiệu quả đối với khoa học cũng nhƣ các hoạt đng thực tế, trong đó khai phá
dữ liệu là mt trong những lĩnh vực mang lại hiệu quả thiết thực cho con
ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu
ch từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề
cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá
dữ liệu, ngoài ra luận văn còn đề cập đến phƣơng pháp khai phá dữ liệu dạng
đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2
Luận văn cấu trúc gồm 3 chƣơng:
Chƣơng 1:
Trong chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy
trình chuẩn bị dữ liệu, và mt vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng
pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean.
Chƣơng 2:
Trong chƣơng 2 chúng ta sẽ nghiên cứu phƣơng pháp khai phá tập phổ
biến đóng FCPs trong không gian 2 chiều và phƣơng pháp khai phá khối phổ
biến đóng FCCs trong không gian 3 chiều.
Chƣơng 3:
Trong chƣơng 3 chúng ta sẽ cài đặt thuật toán ở chƣơng 2 và cài đặt
ứng dụng của thuật toán trong kinh doanh: tìm những mặt hàng đƣợc bán
cùng nhau nhiều bằng phƣơng pháp khai phá tập phổ biến đóng FCPs; tìm
những mặt hàng đƣợc bán cùng nhau nhiều theo các mùa: áp dụng phƣơng
pháp khai phá khối phổ biến đóng FCCs.
Luận văn này đƣợc hoàn thành dƣới sự hƣớng dẫn tận tình của PGS.TS
Ngô Quốc Tạo, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối với
thầy. Tác giả xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông
tin, Trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học Thái
Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng
cao trình đ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn
nên luận văn không thể tránh khỏi những thiếu sót. Tác giả knh mong các
thầy cô giáo và bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện hơn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu là gì
Khai phá dữ liệu là quá trình không tầm thƣờng của việc xác định các
mẫu tiềm ẩn có tnh hợp lệ, mới lạ, có ch và có thể hiểu đƣợc tối đa trong cơ
sở dữ liệu.
Quá trình không tầm thƣờng: là quá trình đa xử lý.
Hợp lệ: có thể chứng minh đƣợc tnh đúng đắn của mô hình (mẫu).
Mới lạ: không thể biết trƣớc đƣợc.
Có ch: có thể sử dụng đƣợc.
Có thể hiểu đƣợc: trả về kết quả cho ngƣời dùng có thể hiểu đƣợc.
Mẫu tiềm ẩn: là mối quan hệ trong cơ sở dữ liệu. V dụ: những ngƣời
mua quần giầy thƣờng mua thêm tất, và xi đánh giầy.
1.2. Ứng dụng của việc khai phá dữ liệu
Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kch thƣớc.
Nhƣng lại có rất t tri thức về dữ liệu, vì phần lớn dữ liệu chƣa đƣợc phân
tch. Vì vậy data mining ra đời giúp chúng ta có thể có đƣợc nhiều thông tin
có giá trị, có lợi cho việc ra quyết định.
Mt số lĩnh vực ứng dụng khai phá dữ liệu:
-Thông tin thƣơng mại
+Phân tch thị trƣờng mua bán.
+Phân tch đầu tƣ.
+Phát hiện gian lận.
-Thông tin khoa học
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4
+Thiên văn học
+Cơ sở dữ liệu sinh học
+Khoa học địa chất: b dò tìm đng đất
-Thông tin sản xuất
+Điều khiển và lên kế hoạch.
+Quản trị mạng.
+Phân tch các kết quả thực nghiệm.
1.3. Qui trình khai phá tri thức
1.3.1. Qui trình khai phá tri thức
Hình 1.1 Các bƣớc khai phá tri thức
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5
Bƣớc 1: Tch hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ
liệu
Bƣớc 2: Biến đổi dữ liệu thch hợp với b máy khai phá
Bƣớc 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá,
kết quả cho ta nguồn tri thức thô
Bƣớc 4: Đánh giá các mẫu, dựa trên 1 số tiêu tr để tiến hành kiểm tra và lọc
nguồn tri thức thu đƣợc.
1.3.2. Kiến trúc hệ thống khai phá dữ liệu
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
1.4. Các nhiệm vụ chính của khai phá tri thức
1.4.1. Dự đoán (predictive)
Sử dụng mt vài biến để dự báo giá trị chƣa biết hoặc giá trị tƣơng lai
của các biến:
* Phân lớp: phát hiện ra mô tả của mt vài lớp đã đƣợc xác định và phân
loại dữ liệu vào mt trong các lớp đó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6
V dụ: Mt công ty viễn thông lớn gặp phải khó khăn: tỷ lệ khách hàng
bị mất hàng tháng tăng lên rất nhanh
Giải pháp thông thƣờng: Chào mời khuyến mãi tất cả khách hàng trƣớc
khi hết hợp đồng. Nhƣng chi ph quá tốn kém.
Giải pháp của data mining: xây dựng mô hình dự đoán những khách
hàng có khả năng rời bỏ công ty. Sau đó sẽ khuyến mãi cho những khách
hàng này (VD: khuyến mãi điện thoại mới). Và lên kế hoạch phát triển tiếp
theo nhằm đáp ứng nhu cầu của khách hàng.
* Hồi qui: ánh xạ từ mt mẫu dữ liệu thành mt biến dự đoán trƣớc có giá trị
thực.
Ứng dụng:
+Dự báo thời tiết dựa vào đ ẩm, tốc đ gió, áp suất không kh…….
+Dự đoán thị trƣờng chứng khoán dựa vào xu hƣớng của thị trƣờng.
* Phát hiện sự thay đổi: phát hiện ra những thay đổi quan trọng trong dữ
liệu.
Ứng dụng:
+ Phát hiện gian lận thẻ tn dụng
+Phát hiện xâm nhập mạng trái phép.
1.4.2. Mô tả (discriptive)
Xác định các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu đƣợc.
* Gom cụm: tìm ra tập xác định các nhóm hay các cụm để mô tả dữ
liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
V dụ: chúng ta có thể chia khách hàng thành các nhóm/cụm riêng biệt
để có thể áp dụng các biện pháp quảng cáo khác nhau mt cách hiệu quả nhất.
(chúng ta có thể chia cụm dựa vào thông tin công việc, thu nhập…………)
* Tóm tắt: phát hiện ra mt mô tả tóm tắt cho mt tập con dữ liệu.
* Mô hình hóa phụ thuc: phát hiện ra mô hình mà mô tả phụ thuc
quan trọng nhất giữa các biến.
1.5. Ý tƣởng kĩ thuật khai phá tri thức
Kĩ thuật khai phá dữ liệu đƣợc lấy ý tƣởng từ các lĩnh vực nhƣ: máy
học, thống kê, nhận dạng, các thuật toán……………
Kĩ thuật truyền thống không phù hợp vì:
+Kch thƣớc của dữ liệu quá lớn
+Số chiều dữ liệu lớn
+Bản chất dữ liệu không đồng nhất.
1.6. Các thách thức của khai phá tri thức
Khai phá dữ liệu phức tạp để lấy thông tin phức tạp.
Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề.
Vấn đề bảo mật, và tch hợp dữ liệu.
Lƣợng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông
tin cần thiết đƣợc.
1.7. Qui trình chuẩn bị dữ liệu
1.7.1. Tại sao cần chuẩn bị dữ liệu
Dữ liệu trong thực tế có chất lƣợng xấu:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8
+Dữ liệu thiếu, không đầy đủ: thiếu giá trị của thuc tnh, thiếu
các thuc tnh quan tâm, ….
+Dữ liệu bị tạp, nhiễu: chứa lỗi, hoặc các sai biệt
(v dụ: lƣơng = ” -100 000”)
+Dữ liệu mâu thuẫn: không có sự thống nhất trong mã hoặc tên.
(v dụ: tuổi=42, ngày sinh=03/07/1997)
Dữ liệu không có chất lƣợng, sẽ không thể cho kết quả khai phá tốt.
Quyết định đúng đắn phải dựa trên các dữ liệu chnh xác. V dụ: việc trùng
lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chnh xác, thậm ch
làm lạc lối.
Kho dữ liệu cần sự tch hợp đồng nhất các dữ liệu chất lƣợng.
1.7.2. Làm sạch dữ liệu
Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu.
Các nhiệm vụ của công đoạn làm sạch dữ liệu:
+Điền các giá trị còn thiếu.
+Xác định các sai biệt và khử dữ liệu tạp nhiễu.
+Sửa chữa các dữ liệu mâu thuẫn.
-Bỏ qua các mẫu tin có giá trị thiếu: dễ nhƣng không hiệu quả, đặc biệt
khi tỷ lệ giá trị thiếu của thuc tnh cao
-Điền các giá trị thiếu bằng tay: không khả thi.
-Điền các giá trị thiếu tự đng:
+Thay thế bằng hằng số chung: v dụ: “không biết” có thể thành
lớp mới trong dữ liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9
+Thay thế bằng giá trị trung bình của thuc tnh.
+Thay thế bằng giá trị có nhiều khả năng nhất: có thể suy ra từ
cây quyết định, công thức bayesian…
1.7.3. Chọn lọc dữ liệu
Tập hợp dữ liệu từ nhiều nguồn khác nhau vào trong mt cơ sở dữ liệu.
+Chỉ chọn những dữ liệu cần thiết cho tiến trình khai phá dữ liệu.
+Loại bỏ dữ liệu dƣ thừa và trùng lặp.
+Phát hiện và giải quyết các mâu thuẫn trong dữ liệu.
*Dữ liệu dƣ thừa, trùng lặp:
+Mt thuc tnh là thừa nếu nó có thể suy ra từ các thuc tnh
khác.
+Cùng mt mt thuc tnh có thể có nhiều tên trong các cơ sở dữ
liệu khác nhau (v dụ: năm sinh, tuổi, ngày sinh, birthday).
+Mt số mẫu tin dữ liệu bị lặp lại
Cần tìm cách loại bỏ những dữ liệu dƣ thừa để tăng đ chnh xác.
1.7.4. Rút gọn dữ liệu
Dữ liệu có thể quá lớn đối với 1 số chƣơng trình khai phá dữ liệu:
+Tốn nhiều thời gian.
+Việc khai phá dữ liệu có thể không thể thực hiện đƣợc.
Rút gọn dữ liệu: dữ liệu đƣợc rút gọn (kch thƣớc) sao cho vẫn thu
đƣợc cùng (hoặc gần nhƣ cùng) kết quả phân tch.
Các phƣơng pháp:
+Tổng hợp và tổng quát hóa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10
+Giảm chiều dữ liệu
+Nén dữ liệu
+Giảm số lƣợng
+Rời rạc hóa
*Tổng hợp và tổng quát hóa
-Tổ hợp từ 2 thuc tnh (đối tƣợng) trở lên thành 1 thuc tnh (đối
tƣợng).
V dụ: các thành phố tổng hợp vào vùng, khu vực, quốc gia…….
-Tổng hợp/tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao:
Giảm kch thƣớc tập dữ liệu: giảm số thuc tnh.
Tăng tnh lý thú của mẫu.
*Giảm chiều dữ liệu
-Chọn lựa đặc trƣng (tập con các thuc tnh)
Chọn m thuc tnh từ n thuc tnh, m<=n
Loại bỏ các thuc tnh không liên quan, dƣ thừa.
V dụ: dùng phƣơng pháp Heuristic để rút gọn dữ liệu:
Đầu tiên: chọn thuc tnh đơn tốt nhất
Chọn tiếp thuc tnh tốt nhất trong số còn lại,…………
*Giảm số lƣợng
Phân chia dữ liệu vào các nhóm và lƣu biểu diễn của nhóm.
Phƣơng pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11
1.7.5. Mã hóa dữ liệu
+Mã hóa dữ liệu: chuyển đổi dữ liệu thành dạng phù hợp và thuận tiện
cho các thuật toán khai phá dữ liệu.
+Rời rạc hóa: biến đổi miền giá trị thuc tnh (liên tục) bằng cách chia
miền giá trị thành từng khoảng. Lƣu nhãn của khoảng thay cho các giá trị
thực.
+Phân cấp khái niệm: tập hợp và thay thế khái niệm cấp thấp bằng khái
niệm cấp cao hơn.
+Phƣơng pháp mã hóa:
+Dữ liệu dạng số:
Chia giỏ
Gom nhóm
Phân đoạn tự nhiên
+Dữ liệu dạng phi số:
Tạo sơ đồ phân cấp
Ví dụ:
Chuyển đối giá trị logic thành giá trị chân lý 1, 0
Chuyển đổi giá trị ngày tháng thành số
Chuyển đổi các ct có giá trị số lớn thành tập các giá trị trong
vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó.
Thay thế giá trị của tuổi: trẻ, trung niên, già.
1.8. Tập phổ biến
1.8.1. Giới thiệu tập phổ biến
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12
Mẫu phổ biến là mẫu (tập các hạng muc, chuỗi con, cấu trúc con, đồ
thị con,…) xuất hiện thƣờng xuyên trong tập dữ liệu
Mục đích: tìm ra hiện tƣợng thƣờng xuyên xảy ra của các mẫu trong
dữ liệu.
V dụ:
+Tìm ra những sản phẩm nào thƣờng đƣợc mua chung?
+Ngƣời ta thƣờng mua gì khi đi mua giầy da.
+Làm thế nào để phân loại tự đng văn bản.
Ứng dụng:
+Áp dụng trong phân tch cơ sở dữ liệu bán hàng.
+Mở rng sang quảng cáo, thiết kế catalog, phân tch chiến lƣợc
bán hàng, chuỗi DNA.
1.8.2. Các khái niệm cơ bản
1.8.2.1. Cho cơ sở dữ liệu giao dịch
V dụ: cho các giỏ hàng (các phiên giao dịch)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13
Tiến hành biến đổi cơ sở dữ liệu về dạng nhị phân
A: milk, B: bread, C:cereal, D: sugar, E: eggs
Định nghĩa:
+Hạng mục: các mặt hàng trong giỏ hay mt thuc tnh.
K hiệu I = {i
1
, i
2
, …… , i
m
}.
+Giao dịch: tập các hạng mục đƣợc mua trong 1 giỏ (TID: mã giao
dịch).
K hiệu: t (t
I)
+Cơ sở dữ liệu giao dịch D = {t
1
, t
2
, … , t
n
}, t
i
= {i
i1
, i
i2
, ……, i
ik
} với
i
ij
I
1.8.2.2. Độ phổ biến và tập phổ biến
Cho X là tập các hạng mục trong I, X
t.
Đ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỉ lệ giữa
số các giao dịch chứa X trên tổng số các giao dịch trong D.
Supp(X) = count(X) / |D|.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14
Tập các hạng mục phổ biến S (frequent itemsets) là tập các hạng mục
có đ phổ biến thỏa mãn đ phổ biến tối thiểu minsupp (do ngƣời dùng nhập
trƣớc).
Nếu supp(S)
minsupp thì S là tập phổ biến.
1.8.2.3. Tính chất của tập phổ biến
Tất cả các tập con của tập phổ biến đều là tập phổ biến.
Nếu tập con không phải là tập phổ biến thì tập bao nó (tập cha) không
thể là tập phổ biến.
1.8.2.4. Tập phổ biến tối đại
Tập phổ biến tối đại là tập phổ biến và không tồn tại tập nào bao nó là
phổ biến.
V dụ:
Cho minsupp = 2 ta có:
{B, C, D, E}, {A, C, D} là tập phổ biến tối đại.
{B, C, D} không phải tập phổ biến tối đại. Vì tập bao quanh nó {B, C,
D, E} là tập phổ biến
1.8.2.5. Tập phổ biến đóng
Tập phổ biến đóng là tập phổ biến và không tồn tại tập nào bao nó có
cùng đ phổ biến nhƣ nó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15
V dụ:
Minsupp = 2
{A, B}, {A, B, D}, {A, B, C} là tập phổ biến đóng.
1.8.2.6. Luật kết hợp
Luật kết hợp có dạng:
X => Y, với X, Y
I, và X
Y =
Ý nghĩa: khi X xuất hiện thì Y cũng xuất hiện (với xác xuất nào đó).
Luật kết hợp thƣờng đƣợc đánh giá dựa trên 2 đ đo:
+ Đ phổ biến
Supp(X=>Y) = supp(X
Y)
+ Đ tin cậy (confidence)
Conf(X=>Y) = supp(X
Y) / supp(X)
1.8.2.7. Mô tả bài toán luật kết hợp
Cho đ phổ biến tối thiểu (minsupp) và đ tin cậy tối thiểu (minconf)
do ngƣời dùng xác định.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16
Cho tập các hạng mục I={i
1
, i
2
, …… , i
m
} và CSDL D={t
1
, t
2
, … , t
n
},
với t
i
={i
i1
, i
i2
, … , i
ik
} và i
ij
I.
Bài toán khai phá luật kết hợp là bài toán tìm tất cả các luật dạng X=>Y
(X,Y
I, và X
Y=
} thỏa mãn đ phổ biến và đ tin cậy tối thiểu.
Supp(X=>Y)
minsupp
Conf(X=>Y)
minconf
1.9. Phân lớp dữ liệu
1.9.1. Định nghĩa thông qua ví dụ
Cho CSDL D={t1, t2,… , tn} và tập các lớp C={c1, c2, … , cm},
phân lớp là quá trình xác định ánh xạ f: D -> C sao cho mỗi t
i
đƣợc gán vào 1
lớp trong C.
V dụ: dự đoán tế bào khối u là lành hay ác. Dự đoán khi nào sông có
lũ.
1.9.2. Quy trình phân lớp
Bƣớc 1: xây dựng mô hình
Mô tả tập các lớp xác định trƣớc
*Tập huấn luyện: các mẫu/b dành cho xây dựng mô hình
*Mỗi mẫu/b thuc về 1 lớp đã định nghĩa trƣớc.
*Tìm luật phân lớp, cây quyết định hoặc công thức toán mô tả lớp.
Bƣớc 2: Sử dụng mô hình
Phân lớp các đối tƣợng chƣa biết:
*Xác định đ chnh xác của mô hình, sử dụng tập dữ liệu kiểm tra đc
lập.