..
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
NGUYỄN HỒNG HẢI
PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐĨNG
VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
Thái Nguyên - 2011
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
NGUYỄN HỒNG HẢI
PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐĨNG
VÀ ỨNG DỤNG
Chun ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC
PGS.TS. NGƠ QUỐC TẠO
Thái Ngun - 2011
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá dữ liệu dạng đóng
và ứng dụng” là cơng trình nghiên cứu của riêng tơi dƣới sƣ̣ hƣớng dẫn của
PGS.TS. Ngơ Quốc Tạo. Tồn bợ phần mềm do chính tơi lập trình và kiểm
thƣ̉. Tơi xin chị u trách nhiệm về lời cam đoan của mì nh .
Các số liệu và thông tin sử dụng trong luận văn này là trung thực.
Tác giả
Nguyễn Hồng Hải
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
MỤC LỤC
MỤC LỤC ...................................................................................................... i
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .................................... iv
DANH MỤC CÁC BẢNG ............................................................................. v
DANH MỤC HÌNH VẼ ................................................................................ vi
MỞ ĐẦU ....................................................................................................... 1
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU .................... 3
1.2. Khai phá dữ liệu là gì ........................................................................... 3
1.2. Ứng dụng của việc khai phá dữ liệu ..................................................... 3
1.3. Qui trình khai phá tri thức .................................................................... 4
1.3.1. Qui trình khai phá tri thức ............................................................. 4
1.3.2. Kiến trúc hệ thống khai phá dữ liệu ............................................... 5
1.4. Các nhiệm vụ chính của khai phá tri thức ............................................ 5
1.4.1. Dự đốn (predictive) ..................................................................... 5
1.4.2. Mơ tả (discriptive) ......................................................................... 6
1.5. Ý tƣởng kĩ thuật khai phá tri thức ........................................................ 7
1.6. Các thách thức của khai phá tri thức .................................................... 7
1.7. Qui trình chuẩn bị dữ liệu .................................................................... 7
1.7.1. Tại sao cần chuẩn bị dữ liệu .......................................................... 7
1.7.2. Làm sạch dữ liệu ........................................................................... 8
1.7.3. Chọn lọc dữ liệu ............................................................................ 9
1.7.4. Rút gọn dữ liệu .............................................................................. 9
1.7.5. Mã hóa dữ liệu ............................................................................ 11
1.8. Tập phổ biến ...................................................................................... 11
1.8.1. Giới thiệu tập phổ biến ................................................................ 11
1.8.2. Các khái niệm cơ bản .................................................................. 12
1.8.2.1. Cho cơ sở dữ liệu giao dịch .................................................. 12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii
1.8.2.2. Độ phổ biến và tập phổ biến ................................................. 13
1.8.2.3. Tính chất của tập phổ biến .................................................... 14
1.8.2.4. Tập phổ biến tối đại .............................................................. 14
1.8.2.5. Tập phổ biến đóng ............................................................... 14
1.8.2.6. Luật kết hợp .......................................................................... 15
1.8.2.7. Mơ tả bài tốn luật kết hợp .................................................. 15
1.9. Phân lớp dữ liệu ................................................................................. 16
1.9.1. Định nghĩa thông qua ví dụ ......................................................... 16
1.9.2. Quy trình phân lớp ...................................................................... 16
1.10. Phân cụm dữ liệu ............................................................................. 17
1.10.1. Phân cụm là gì? ......................................................................... 17
1.10.2. Phân biệt phân lớp và phân cụm ................................................ 17
1.10.3. Ứng dụng phân cụm .................................................................. 18
1.10.4. Ví dụ ......................................................................................... 19
Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐĨNG TRONG KHƠNG GIAN 2
CHIỀU VÀ KHAI PHÁ KHỐI ĐĨNG TRONG KHƠNG GIAN 3 CHIỀU 20
2.1. Tổng quan khai phá tập phổ biến đóng FCP trong khơng gian 2 chiều20
2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều.... 20
2.3. Tiến hành khai phá tập phổ biến đóng FCP ........................................ 22
2.3.1. Sơ lƣợc về q trình khai phá tập phổ biến đóng ......................... 22
2.3.2. Thuật toán C-Miner .................................................................... 23
2.3.2.1. Thuật toán phân cụm (thuật tốn increamental k-mean) ........ 23
2.3.2.2 Q trình chia khơng gian khai phá........................................ 25
2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs . 29
2.4. Tổng quan khai phá khối phổ biến đóng FCC trong khơng gian 3 chiều
................................................................................................................. 32
2.5. Mở đầu khai phá khối phổ biến đóng FCC trong khơng gian 3 chiều . 33
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii
2.6. Khai phá các lát cắt đại diện .............................................................. 36
2.6.1. Tạo ra các dàn đại diện ................................................................ 38
2.6.2. Tạo ra các tập phổ biến đóng FCP ............................................... 39
2.6.3. 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ các khối
đƣợc sinh ra không thỏa mãn) ............................................................... 39
2.6.4. Tính đúng đắn ............................................................................. 41
Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG ............................. 43
3.1. Cài đặt thuật tốn trong khơng gian 2 chiều ....................................... 43
3.2. Cài đặt ứng dụng trong không gian 2 chiều ........................................ 46
3.2.1. Cơ sở dữ liệu ............................................................................... 47
3.2.2. Các bƣớc thực hiện ...................................................................... 47
3.3. Cài đặt thuật toán trong không gian 3 chiều ....................................... 50
3.4. Cài đặt ứng dụng trong không gian 3 chiều ........................................ 55
3.4.1. Cơ sở dữ liệu ............................................................................... 55
3.4.2. Các bƣớc thực hiện ...................................................................... 55
KẾT LUẬN .................................................................................................. 59
TÀI LIỆU THAM KHẢO ............................................................................ 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các từ viết tắt
Nghĩa tiếng anh
Nghĩa tiếng việt
EnumerateSubset
Liệt kê các tập con
Slice
Mặt cắt
Dàn tƣơng đƣơng với 1 tập
Slices
các mặt cắt kết hợp với
nhau.
CP
Closed pattern
Tập đóng
Khơng gian con đặc (trong
CS
Compact subspace
bài tốn đang xét: là khơng
gian con mà tất cả các ơ có
giá trị là “1”.
FCC
Frequent closed cube
Khổi phổ biến đóng
FCP
Frequent closed pattern
Tập phổ biến đóng
Là ngƣỡng giá trị Pattern
length mà các pattern phải
Minlen
thỏa mãn
Là ngƣỡng giá trị support
mà các pattern phải thỏa
Minsup
mãn
RS
Representative slices
Dàn đại diện
RSM
Representative slice Mining
Khai phá lát cắt đại diện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
v
DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng cơ sở dữ liệu ......................................................................... 21
Bảng 2.2 Ma trận rút gọn O‟......................................................................... 26
Bảng 2.3 Lát cắt ........................................................................................... 27
Bảng 2.4 Kết quả các không gian rút gọn và không gian con........................ 27
(minsup=3, minlen=2) .................................................................................. 27
Bảng 2.5 FCP (minsup=3, minle=2) ............................................................. 32
Bảng 2.6 Ma trận O trong không gian 3 chiều .............................................. 34
Bảng 2.7 Khai thác FCC (minH=minR=minC=2) ........................................ 38
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vi
DANH MỤC HÌNH VẼ
Hình 1.1 Các bƣớc khai phá tri thức ............................................................... 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu ................................................. 5
Hình 1.3 Minh họa phân cụm dữ liệu ........................................................... 18
Hình 1.4 Phân cụm các điểm trong khơng gian ............................................ 19
Hình 1.5 Phân cụm các ngơi nhà dựa vào khoảng cách địa lý ....................... 19
Hình 2.1 Khung khai phá.............................................................................. 22
Hình 2.2 Cây phân chia sử dụng lát cắt. ....................................................... 28
Hình 2.3 Sai sót và dƣ thừa .......................................................................... 29
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1
MỞ ĐẦU
Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thơng tin dễ
dàng và chi phí lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và
trang bị nhanh hệ thống máy tính trong kinh doanh. Số lƣợng dữ liệu khổng lồ
đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa
cứng, băng từ, đĩa quang, CD-ROM,… Tốc đợ tăng dữ liệu q lớn. Từ đó
dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị
dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn đƣợc nữa.
Dữ liệu sau khi phục vụ cho một mục đích nào đó đƣợc lƣu lại trong kho
dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn.
Trong khối lƣợng dữ liệu to lớn này có rất nhiều thơng tin có ích mang tính
tổng qt, thơng tin có tính quy luật vẫn cịn đang tiềm ẩn mà chúng ta chƣa
biết. Từ khối lƣợng dữ liệu rất lớn cần có những cơng cụ tự đợng rút các
thơng tin và kiến thức có ích. Mợt hƣớng tiếp cận có khả năng giúp các công
ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai
phá dữ liệu (Data Mining).
Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều
hiệu quả đối với khoa học cũng nhƣ các hoạt đợng thực tế, trong đó khai phá
dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con
ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu
ích từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề
cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá
dữ liệu, ngồi ra luận văn cịn đề cập đến phƣơng pháp khai phá dữ liệu dạng
đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2
Luận văn cấu trúc gồm 3 chƣơng:
Chƣơng 1:
Trong chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy
trình chuẩn bị dữ liệu, và mợt vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng
pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean.
Chƣơng 2:
Trong chƣơng 2 chúng ta sẽ nghiên cứu phƣơng pháp khai phá tập phổ
biến đóng FCPs trong khơng gian 2 chiều và phƣơng pháp khai phá khối phổ
biến đóng FCCs trong khơng gian 3 chiều.
Chƣơng 3:
Trong chƣơng 3 chúng ta sẽ cài đặt thuật toán ở chƣơng 2 và cài đặt
ứng dụng của thuật tốn trong kinh doanh: tìm những mặt hàng đƣợc bán
cùng nhau nhiều bằng phƣơng pháp khai phá tập phổ biến đóng FCPs; tìm
những mặt hàng đƣợc bán cùng nhau nhiều theo các mùa: áp dụng phƣơng
pháp khai phá khối phổ biến đóng FCCs.
Luận văn này đƣợc hồn thành dƣới sự hƣớng dẫn tận tình của PGS.TS
Ngơ Quốc Tạo, tác giả xin bày tỏ lịng biết ơn chân thành của mình đối với
thầy. Tác giả xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông
tin, Trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học Thái
Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng
cao trình đợ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn
nên luận văn khơng thể tránh khỏi những thiếu sót. Tác giả kính mong các
thầy cơ giáo và bạn đóng góp ý kiến để đề tài đƣợc hồn thiện hơn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu là gì
Khai phá dữ liệu là q trình khơng tầm thƣờng của việc xác định các
mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu đƣợc tối đa trong cơ
sở dữ liệu.
Q trình khơng tầm thƣờng: là q trình đa xử lý.
Hợp lệ: có thể chứng minh đƣợc tính đúng đắn của mơ hình (mẫu).
Mới lạ: khơng thể biết trƣớc đƣợc.
Có ích: có thể sử dụng đƣợc.
Có thể hiểu đƣợc: trả về kết quả cho ngƣời dùng có thể hiểu đƣợc.
Mẫu tiềm ẩn: là mối quan hệ trong cơ sở dữ liệu. Ví dụ: những ngƣời
mua quần giầy thƣờng mua thêm tất, và xi đánh giầy.
1.2. Ứng dụng của việc khai phá dữ liệu
Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kích thƣớc.
Nhƣng lại có rất ít tri thức về dữ liệu, vì phần lớn dữ liệu chƣa đƣợc phân
tích. Vì vậy data mining ra đời giúp chúng ta có thể có đƣợc nhiều thơng tin
có giá trị, có lợi cho việc ra quyết định.
Mợt số lĩnh vực ứng dụng khai phá dữ liệu:
-Thông tin thƣơng mại
+Phân tích thị trƣờng mua bán.
+Phân tích đầu tƣ.
+Phát hiện gian lận.
-Thơng tin khoa học
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4
+Thiên văn học
+Cơ sở dữ liệu sinh học
+Khoa học địa chất: bợ dị tìm đợng đất
-Thơng tin sản xuất
+Điều khiển và lên kế hoạch.
+Quản trị mạng.
+Phân tích các kết quả thực nghiệm.
1.3. Qui trình khai phá tri thức
1.3.1. Qui trình khai phá tri thức
Hình 1.1 Các bƣớc khai phá tri thức
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5
Bƣớc 1: Tích hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ
liệu
Bƣớc 2: Biến đổi dữ liệu thích hợp với bộ máy khai phá
Bƣớc 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá,
kết quả cho ta nguồn tri thức thô
Bƣớc 4: Đánh giá các mẫu, dựa trên 1 số tiêu trí để tiến hành kiểm tra và lọc
nguồn tri thức thu đƣợc.
1.3.2. Kiến trúc hệ thống khai phá dữ liệu
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
1.4. Các nhiệm vụ chính của khai phá tri thức
1.4.1. Dự đốn (predictive)
Sử dụng mợt vài biến để dự báo giá trị chƣa biết hoặc giá trị tƣơng lai
của các biến:
* Phân lớp: phát hiện ra mô tả của một vài lớp đã đƣợc xác định và phân
loại dữ liệu vào mợt trong các lớp đó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6
Ví dụ: Một công ty viễn thông lớn gặp phải khó khăn: tỷ lệ khách hàng
bị mất hàng tháng tăng lên rất nhanh
Giải pháp thông thƣờng: Chào mời khuyến mãi tất cả khách hàng trƣớc
khi hết hợp đồng. Nhƣng chi phí quá tốn kém.
Giải pháp của data mining: xây dựng mơ hình dự đốn những khách
hàng có khả năng rời bỏ cơng ty. Sau đó sẽ khuyến mãi cho những khách
hàng này (VD: khuyến mãi điện thoại mới). Và lên kế hoạch phát triển tiếp
theo nhằm đáp ứng nhu cầu của khách hàng.
* Hồi qui: ánh xạ từ một mẫu dữ liệu thành mợt biến dự đốn trƣớc có giá trị
thực.
Ứng dụng:
+Dự báo thời tiết dựa vào độ ẩm, tốc đợ gió, áp suất khơng khí…….
+Dự đốn thị trƣờng chứng khoán dựa vào xu hƣớng của thị trƣờng.
* Phát hiện sự thay đổi: phát hiện ra những thay đổi quan trọng trong dữ
liệu.
Ứng dụng:
+ Phát hiện gian lận thẻ tín dụng
+Phát hiện xâm nhập mạng trái phép.
1.4.2. Mô tả (discriptive)
Xác định các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu đƣợc.
* Gom cụm: tìm ra tập xác định các nhóm hay các cụm để mơ tả dữ
liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
Ví dụ: chúng ta có thể chia khách hàng thành các nhóm/cụm riêng biệt
để có thể áp dụng các biện pháp quảng cáo khác nhau một cách hiệu quả nhất.
(chúng ta có thể chia cụm dựa vào thơng tin cơng việc, thu nhập…………)
* Tóm tắt: phát hiện ra mợt mơ tả tóm tắt cho mợt tập con dữ liệu.
* Mơ hình hóa phụ tḥc: phát hiện ra mơ hình mà mô tả phụ thuộc
quan trọng nhất giữa các biến.
1.5. Ý tƣởng kĩ thuật khai phá tri thức
Kĩ thuật khai phá dữ liệu đƣợc lấy ý tƣởng từ các lĩnh vực nhƣ: máy
học, thống kê, nhận dạng, các thuật toán……………
Kĩ thuật truyền thống khơng phù hợp vì:
+Kích thƣớc của dữ liệu quá lớn
+Số chiều dữ liệu lớn
+Bản chất dữ liệu không đồng nhất.
1.6. Các thách thức của khai phá tri thức
Khai phá dữ liệu phức tạp để lấy thông tin phức tạp.
Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề.
Vấn đề bảo mật, và tích hợp dữ liệu.
Lƣợng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông
tin cần thiết đƣợc.
1.7. Qui trình chuẩn bị dữ liệu
1.7.1. Tại sao cần chuẩn bị dữ liệu
Dữ liệu trong thực tế có chất lƣợng xấu:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8
+Dữ liệu thiếu, không đầy đủ: thiếu giá trị của thuộc tính, thiếu
các thuộc tính quan tâm, ….
+Dữ liệu bị tạp, nhiễu: chứa lỗi, hoặc các sai biệt
(ví dụ: lƣơng = ” -100 000”)
+Dữ liệu mâu thuẫn: khơng có sự thống nhất trong mã hoặc tên.
(ví dụ: tuổi=42, ngày sinh=03/07/1997)
Dữ liệu khơng có chất lƣợng, sẽ khơng thể cho kết quả khai phá tốt.
Quyết định đúng đắn phải dựa trên các dữ liệu chính xác. Ví dụ: việc trùng
lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chính xác, thậm chí
làm lạc lối.
Kho dữ liệu cần sự tích hợp đồng nhất các dữ liệu chất lƣợng.
1.7.2. Làm sạch dữ liệu
Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu.
Các nhiệm vụ của công đoạn làm sạch dữ liệu:
+Điền các giá trị còn thiếu.
+Xác định các sai biệt và khử dữ liệu tạp nhiễu.
+Sửa chữa các dữ liệu mâu thuẫn.
-Bỏ qua các mẫu tin có giá trị thiếu: dễ nhƣng khơng hiệu quả, đặc biệt
khi tỷ lệ giá trị thiếu của thuộc tính cao
-Điền các giá trị thiếu bằng tay: không khả thi.
-Điền các giá trị thiếu tự động:
+Thay thế bằng hằng số chung: ví dụ: “khơng biết” có thể thành
lớp mới trong dữ liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9
+Thay thế bằng giá trị trung bình của tḥc tính.
+Thay thế bằng giá trị có nhiều khả năng nhất: có thể suy ra từ
cây quyết định, công thức bayesian…
1.7.3. Chọn lọc dữ liệu
Tập hợp dữ liệu từ nhiều nguồn khác nhau vào trong một cơ sở dữ liệu.
+Chỉ chọn những dữ liệu cần thiết cho tiến trình khai phá dữ liệu.
+Loại bỏ dữ liệu dƣ thừa và trùng lặp.
+Phát hiện và giải quyết các mâu thuẫn trong dữ liệu.
*Dữ liệu dƣ thừa, trùng lặp:
+Mợt tḥc tính là thừa nếu nó có thể suy ra từ các tḥc tính
khác.
+Cùng mợt mợt tḥc tính có thể có nhiều tên trong các cơ sở dữ
liệu khác nhau (ví dụ: năm sinh, tuổi, ngày sinh, birthday).
+Một số mẫu tin dữ liệu bị lặp lại
Cần tìm cách loại bỏ những dữ liệu dƣ thừa để tăng đợ chính xác.
1.7.4. Rút gọn dữ liệu
Dữ liệu có thể quá lớn đối với 1 số chƣơng trình khai phá dữ liệu:
+Tốn nhiều thời gian.
+Việc khai phá dữ liệu có thể khơng thể thực hiện đƣợc.
Rút gọn dữ liệu: dữ liệu đƣợc rút gọn (kích thƣớc) sao cho vẫn thu
đƣợc cùng (hoặc gần nhƣ cùng) kết quả phân tích.
Các phƣơng pháp:
+Tổng hợp và tổng quát hóa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10
+Giảm chiều dữ liệu
+Nén dữ liệu
+Giảm số lƣợng
+Rời rạc hóa
*Tổng hợp và tổng qt hóa
-Tổ hợp từ 2 tḥc tính (đối tƣợng) trở lên thành 1 thuộc tính (đối
tƣợng).
Ví dụ: các thành phố tổng hợp vào vùng, khu vực, quốc gia…….
-Tổng hợp/tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao:
Giảm kích thƣớc tập dữ liệu: giảm số thuộc tính.
Tăng tính lý thú của mẫu.
*Giảm chiều dữ liệu
-Chọn lựa đặc trƣng (tập con các thuộc tính)
Chọn m thuộc tính từ n thuộc tính, m<=n
Loại bỏ các thuộc tính không liên quan, dƣ thừa.
Ví dụ: dùng phƣơng pháp Heuristic để rút gọn dữ liệu:
Đầu tiên: chọn thuộc tính đơn tốt nhất
Chọn tiếp tḥc tính tốt nhất trong số cịn lại,…………..
*Giảm số lƣợng
Phân chia dữ liệu vào các nhóm và lƣu biểu diễn của nhóm.
Phƣơng pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11
1.7.5. Mã hóa dữ liệu
+Mã hóa dữ liệu: chuyển đổi dữ liệu thành dạng phù hợp và thuận tiện
cho các thuật tốn khai phá dữ liệu.
+Rời rạc hóa: biến đổi miền giá trị thuộc tính (liên tục) bằng cách chia
miền giá trị thành từng khoảng. Lƣu nhãn của khoảng thay cho các giá trị
thực.
+Phân cấp khái niệm: tập hợp và thay thế khái niệm cấp thấp bằng khái
niệm cấp cao hơn.
+Phƣơng pháp mã hóa:
+Dữ liệu dạng số:
Chia giỏ
Gom nhóm
Phân đoạn tự nhiên
+Dữ liệu dạng phi số:
Tạo sơ đồ phân cấp
Ví dụ:
Chuyển đối giá trị logic thành giá trị chân lý 1, 0
Chuyển đổi giá trị ngày tháng thành số
Chuyển đổi các cợt có giá trị số lớn thành tập các giá trị trong
vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó.
Thay thế giá trị của tuổi: trẻ, trung niên, già.
1.8. Tập phổ biến
1.8.1. Giới thiệu tập phổ biến
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12
Mẫu phổ biến là mẫu (tập các hạng muc, chuỗi con, cấu trúc con, đồ
thị con,…) xuất hiện thƣờng xuyên trong tập dữ liệu
Mục đích: tìm ra hiện tƣợng thƣờng xuyên xảy ra của các mẫu trong
dữ liệu.
Ví dụ:
+Tìm ra những sản phẩm nào thƣờng đƣợc mua chung?
+Ngƣời ta thƣờng mua gì khi đi mua giầy da.
+Làm thế nào để phân loại tự động văn bản.
Ứng dụng:
+Áp dụng trong phân tích cơ sở dữ liệu bán hàng.
+Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến lƣợc
bán hàng, chuỗi DNA.
1.8.2. Các khái niệm cơ bản
1.8.2.1. Cho cơ sở dữ liệu giao dịch
Ví dụ: cho các giỏ hàng (các phiên giao dịch)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13
Tiến hành biến đổi cơ sở dữ liệu về dạng nhị phân
A: milk, B: bread, C:cereal, D: sugar, E: eggs
Định nghĩa:
+Hạng mục: các mặt hàng trong giỏ hay một thuộc tính.
Kí hiệu I = {i1, i2, …….., im}.
+Giao dịch: tập các hạng mục đƣợc mua trong 1 giỏ (TID: mã giao
dịch).
Kí hiệu: t (t I)
+Cơ sở dữ liệu giao dịch D = {t1, t2, ….., tn}, ti = {ii1, ii2, ……, iik} với
iij I
1.8.2.2. Độ phổ biến và tập phổ biến
Cho X là tập các hạng mục trong I, X t.
Độ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỉ lệ giữa
số các giao dịch chứa X trên tổng số các giao dịch trong D.
Supp(X) = count(X) / |D|.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14
Tập các hạng mục phổ biến S (frequent itemsets) là tập các hạng mục
có đợ phổ biến thỏa mãn đợ phổ biến tối thiểu minsupp (do ngƣời dùng nhập
trƣớc).
Nếu supp(S) minsupp thì S là tập phổ biến.
1.8.2.3. Tính chất của tập phổ biến
Tất cả các tập con của tập phổ biến đều là tập phổ biến.
Nếu tập con không phải là tập phổ biến thì tập bao nó (tập cha) không
thể là tập phổ biến.
1.8.2.4. Tập phổ biến tối đại
Tập phổ biến tối đại là tập phổ biến và khơng tồn tại tập nào bao nó là
phổ biến.
Ví dụ:
Cho minsupp = 2 ta có:
{B, C, D, E}, {A, C, D} là tập phổ biến tối đại.
{B, C, D} không phải tập phổ biến tối đại. Vì tập bao quanh nó {B, C,
D, E} là tập phổ biến
1.8.2.5. Tập phổ biến đóng
Tập phổ biến đóng là tập phổ biến và khơng tồn tại tập nào bao nó có
cùng đợ phổ biến nhƣ nó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15
Ví dụ:
Minsupp = 2
{A, B}, {A, B, D}, {A, B, C} là tập phổ biến đóng.
1.8.2.6. Luật kết hợp
Luật kết hợp có dạng:
X => Y, với X, Y I, và X Y =
Ý nghĩa: khi X xuất hiện thì Y cũng xuất hiện (với xác xuất nào đó).
Luật kết hợp thƣờng đƣợc đánh giá dựa trên 2 độ đo:
+ Độ phổ biến
Supp(X=>Y) = supp(X Y)
+ Độ tin cậy (confidence)
Conf(X=>Y) = supp(X Y) / supp(X)
1.8.2.7. Mô tả bài tốn luật kết hợp
Cho đợ phổ biến tối thiểu (minsupp) và độ tin cậy tối thiểu (minconf)
do ngƣời dùng xác định.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16
Cho tập các hạng mục I={i1, i2, …….., im} và CSDL D={t1, t2, ….., tn},
với ti={ii1, ii2, ….., iik} và iij I.
Bài toán khai phá luật kết hợp là bài tốn tìm tất cả các luật dạng X=>Y
(X,Y I, và X Y= } thỏa mãn độ phổ biến và độ tin cậy tối thiểu.
Supp(X=>Y) minsupp
Conf(X=>Y) minconf
1.9. Phân lớp dữ liệu
1.9.1. Định nghĩa thông qua ví dụ
Cho CSDL D={t1, t2,….. , tn} và tập các lớp C={c1, c2, ….., cm},
phân lớp là quá trình xác định ánh xạ f: D -> C sao cho mỗi ti đƣợc gán vào 1
lớp trong C.
Ví dụ: dự đoán tế bào khối u là lành hay ác. Dự đoán khi nào sơng có
lũ.
1.9.2. Quy trình phân lớp
Bƣớc 1: xây dựng mơ hình
Mơ tả tập các lớp xác định trƣớc
*Tập huấn luyện: các mẫu/bợ dành cho xây dựng mơ hình
*Mỗi mẫu/bợ tḥc về 1 lớp đã định nghĩa trƣớc.
*Tìm luật phân lớp, cây quyết định hoặc cơng thức tốn mơ tả lớp.
Bƣớc 2: Sử dụng mơ hình
Phân lớp các đối tƣợng chƣa biết:
*Xác định đợ chính xác của mơ hình, sử dụng tập dữ liệu kiểm tra đợc
lập.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên