Phương pháp khai phá dữ liệu dạng đóng và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (968.45 KB, 70 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG

NGUYỄN HỒNG HẢI

PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐĨNG
VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

Thái Nguyên - 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG

NGUYỄN HỒNG HẢI

PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐĨNG
VÀ ỨNG DỤNG

Chun ngành: Khoa học máy tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC
PGS.TS. NGƠ QUỐC TẠO

Thái Ngun - 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i

LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá dữ liệu dạng đóng
và ứng dụng” là cơng trình nghiên cứu của riêng tơi dƣới sƣ̣ hƣớng dẫn của
PGS.TS. Ngơ Quốc Tạo. Tồn bợ phần mềm do chính tơi lập trình và kiểm
thƣ̉. Tơi xin chị u trách nhiệm về lời cam đoan của mì nh .
Các số liệu và thông tin sử dụng trong luận văn này là trung thực.
Tác giả
Nguyễn Hồng Hải

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i

MỤC LỤC
MỤC LỤC ...................................................................................................... i
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .................................... iv
DANH MỤC CÁC BẢNG ............................................................................. v
DANH MỤC HÌNH VẼ ................................................................................ vi
MỞ ĐẦU ....................................................................................................... 1
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU .................... 3
1.2. Khai phá dữ liệu là gì ........................................................................... 3
1.2. Ứng dụng của việc khai phá dữ liệu ..................................................... 3
1.3. Qui trình khai phá tri thức .................................................................... 4
1.3.1. Qui trình khai phá tri thức ............................................................. 4
1.3.2. Kiến trúc hệ thống khai phá dữ liệu ............................................... 5
1.4. Các nhiệm vụ chính của khai phá tri thức ............................................ 5
1.4.1. Dự đốn (predictive) ..................................................................... 5
1.4.2. Mơ tả (discriptive) ......................................................................... 6
1.5. Ý tƣởng kĩ thuật khai phá tri thức ........................................................ 7
1.6. Các thách thức của khai phá tri thức .................................................... 7
1.7. Qui trình chuẩn bị dữ liệu .................................................................... 7
1.7.1. Tại sao cần chuẩn bị dữ liệu .......................................................... 7
1.7.2. Làm sạch dữ liệu ........................................................................... 8
1.7.3. Chọn lọc dữ liệu ............................................................................ 9
1.7.4. Rút gọn dữ liệu .............................................................................. 9
1.7.5. Mã hóa dữ liệu ............................................................................ 11
1.8. Tập phổ biến ...................................................................................... 11
1.8.1. Giới thiệu tập phổ biến ................................................................ 11
1.8.2. Các khái niệm cơ bản .................................................................. 12
1.8.2.1. Cho cơ sở dữ liệu giao dịch .................................................. 12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii

1.8.2.2. Độ phổ biến và tập phổ biến ................................................. 13
1.8.2.3. Tính chất của tập phổ biến .................................................... 14
1.8.2.4. Tập phổ biến tối đại .............................................................. 14
1.8.2.5. Tập phổ biến đóng ............................................................... 14
1.8.2.6. Luật kết hợp .......................................................................... 15
1.8.2.7. Mơ tả bài tốn luật kết hợp .................................................. 15
1.9. Phân lớp dữ liệu ................................................................................. 16
1.9.1. Định nghĩa thông qua ví dụ ......................................................... 16
1.9.2. Quy trình phân lớp ...................................................................... 16
1.10. Phân cụm dữ liệu ............................................................................. 17
1.10.1. Phân cụm là gì? ......................................................................... 17
1.10.2. Phân biệt phân lớp và phân cụm ................................................ 17
1.10.3. Ứng dụng phân cụm .................................................................. 18
1.10.4. Ví dụ ......................................................................................... 19
Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐĨNG TRONG KHƠNG GIAN 2
CHIỀU VÀ KHAI PHÁ KHỐI ĐĨNG TRONG KHƠNG GIAN 3 CHIỀU 20
2.1. Tổng quan khai phá tập phổ biến đóng FCP trong khơng gian 2 chiều20
2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều.... 20
2.3. Tiến hành khai phá tập phổ biến đóng FCP ........................................ 22
2.3.1. Sơ lƣợc về q trình khai phá tập phổ biến đóng ......................... 22
2.3.2. Thuật toán C-Miner .................................................................... 23
2.3.2.1. Thuật toán phân cụm (thuật tốn increamental k-mean) ........ 23
2.3.2.2 Q trình chia khơng gian khai phá........................................ 25
2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs . 29
2.4. Tổng quan khai phá khối phổ biến đóng FCC trong khơng gian 3 chiều
................................................................................................................. 32

2.5. Mở đầu khai phá khối phổ biến đóng FCC trong khơng gian 3 chiều . 33

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii

2.6. Khai phá các lát cắt đại diện .............................................................. 36
2.6.1. Tạo ra các dàn đại diện ................................................................ 38
2.6.2. Tạo ra các tập phổ biến đóng FCP ............................................... 39
2.6.3. 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ các khối
đƣợc sinh ra không thỏa mãn) ............................................................... 39
2.6.4. Tính đúng đắn ............................................................................. 41
Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG ............................. 43
3.1. Cài đặt thuật tốn trong khơng gian 2 chiều ....................................... 43
3.2. Cài đặt ứng dụng trong không gian 2 chiều ........................................ 46
3.2.1. Cơ sở dữ liệu ............................................................................... 47
3.2.2. Các bƣớc thực hiện ...................................................................... 47
3.3. Cài đặt thuật toán trong không gian 3 chiều ....................................... 50
3.4. Cài đặt ứng dụng trong không gian 3 chiều ........................................ 55
3.4.1. Cơ sở dữ liệu ............................................................................... 55
3.4.2. Các bƣớc thực hiện ...................................................................... 55
KẾT LUẬN .................................................................................................. 59
TÀI LIỆU THAM KHẢO ............................................................................ 61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các từ viết tắt

Nghĩa tiếng anh

Nghĩa tiếng việt

EnumerateSubset

Liệt kê các tập con

Slice

Mặt cắt
Dàn tƣơng đƣơng với 1 tập

Slices

các mặt cắt kết hợp với
nhau.

CP

Closed pattern

Tập đóng

Khơng gian con đặc (trong

CS

Compact subspace

bài tốn đang xét: là khơng
gian con mà tất cả các ơ có
giá trị là “1”.

FCC

Frequent closed cube

Khổi phổ biến đóng

FCP

Frequent closed pattern

Tập phổ biến đóng
Là ngƣỡng giá trị Pattern
length mà các pattern phải

Minlen

thỏa mãn
Là ngƣỡng giá trị support
mà các pattern phải thỏa

Minsup

mãn
RS

Representative slices

Dàn đại diện

RSM

Representative slice Mining

Khai phá lát cắt đại diện

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

v

DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng cơ sở dữ liệu ......................................................................... 21
Bảng 2.2 Ma trận rút gọn O‟......................................................................... 26
Bảng 2.3 Lát cắt ........................................................................................... 27
Bảng 2.4 Kết quả các không gian rút gọn và không gian con........................ 27
(minsup=3, minlen=2) .................................................................................. 27
Bảng 2.5 FCP (minsup=3, minle=2) ............................................................. 32
Bảng 2.6 Ma trận O trong không gian 3 chiều .............................................. 34

Bảng 2.7 Khai thác FCC (minH=minR=minC=2) ........................................ 38

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vi

DANH MỤC HÌNH VẼ
Hình 1.1 Các bƣớc khai phá tri thức ............................................................... 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu ................................................. 5
Hình 1.3 Minh họa phân cụm dữ liệu ........................................................... 18
Hình 1.4 Phân cụm các điểm trong khơng gian ............................................ 19
Hình 1.5 Phân cụm các ngơi nhà dựa vào khoảng cách địa lý ....................... 19
Hình 2.1 Khung khai phá.............................................................................. 22
Hình 2.2 Cây phân chia sử dụng lát cắt. ....................................................... 28
Hình 2.3 Sai sót và dƣ thừa .......................................................................... 29

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1

MỞ ĐẦU
Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thơng tin dễ
dàng và chi phí lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và
trang bị nhanh hệ thống máy tính trong kinh doanh. Số lƣợng dữ liệu khổng lồ

đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa
cứng, băng từ, đĩa quang, CD-ROM,… Tốc đợ tăng dữ liệu q lớn. Từ đó
dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị
dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn đƣợc nữa.
Dữ liệu sau khi phục vụ cho một mục đích nào đó đƣợc lƣu lại trong kho
dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn.
Trong khối lƣợng dữ liệu to lớn này có rất nhiều thơng tin có ích mang tính
tổng qt, thơng tin có tính quy luật vẫn cịn đang tiềm ẩn mà chúng ta chƣa
biết. Từ khối lƣợng dữ liệu rất lớn cần có những cơng cụ tự đợng rút các
thơng tin và kiến thức có ích. Mợt hƣớng tiếp cận có khả năng giúp các công
ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai
phá dữ liệu (Data Mining).
Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều
hiệu quả đối với khoa học cũng nhƣ các hoạt đợng thực tế, trong đó khai phá
dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con
ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu
ích từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề
cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá
dữ liệu, ngồi ra luận văn cịn đề cập đến phƣơng pháp khai phá dữ liệu dạng
đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2

Luận văn cấu trúc gồm 3 chƣơng:
Chƣơng 1:

Trong chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy
trình chuẩn bị dữ liệu, và mợt vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng
pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean.
Chƣơng 2:
Trong chƣơng 2 chúng ta sẽ nghiên cứu phƣơng pháp khai phá tập phổ
biến đóng FCPs trong khơng gian 2 chiều và phƣơng pháp khai phá khối phổ
biến đóng FCCs trong khơng gian 3 chiều.
Chƣơng 3:
Trong chƣơng 3 chúng ta sẽ cài đặt thuật toán ở chƣơng 2 và cài đặt
ứng dụng của thuật tốn trong kinh doanh: tìm những mặt hàng đƣợc bán
cùng nhau nhiều bằng phƣơng pháp khai phá tập phổ biến đóng FCPs; tìm
những mặt hàng đƣợc bán cùng nhau nhiều theo các mùa: áp dụng phƣơng
pháp khai phá khối phổ biến đóng FCCs.
Luận văn này đƣợc hồn thành dƣới sự hƣớng dẫn tận tình của PGS.TS
Ngơ Quốc Tạo, tác giả xin bày tỏ lịng biết ơn chân thành của mình đối với
thầy. Tác giả xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông
tin, Trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học Thái
Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng
cao trình đợ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn
nên luận văn khơng thể tránh khỏi những thiếu sót. Tác giả kính mong các
thầy cơ giáo và bạn đóng góp ý kiến để đề tài đƣợc hồn thiện hơn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3

Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu là gì
Khai phá dữ liệu là q trình khơng tầm thƣờng của việc xác định các
mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu đƣợc tối đa trong cơ
sở dữ liệu.
Q trình khơng tầm thƣờng: là q trình đa xử lý.
Hợp lệ: có thể chứng minh đƣợc tính đúng đắn của mơ hình (mẫu).
Mới lạ: khơng thể biết trƣớc đƣợc.
Có ích: có thể sử dụng đƣợc.
Có thể hiểu đƣợc: trả về kết quả cho ngƣời dùng có thể hiểu đƣợc.
Mẫu tiềm ẩn: là mối quan hệ trong cơ sở dữ liệu. Ví dụ: những ngƣời
mua quần giầy thƣờng mua thêm tất, và xi đánh giầy.
1.2. Ứng dụng của việc khai phá dữ liệu
Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kích thƣớc.
Nhƣng lại có rất ít tri thức về dữ liệu, vì phần lớn dữ liệu chƣa đƣợc phân
tích. Vì vậy data mining ra đời giúp chúng ta có thể có đƣợc nhiều thơng tin
có giá trị, có lợi cho việc ra quyết định.
Mợt số lĩnh vực ứng dụng khai phá dữ liệu:
-Thông tin thƣơng mại
+Phân tích thị trƣờng mua bán.
+Phân tích đầu tƣ.
+Phát hiện gian lận.
-Thơng tin khoa học

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4

+Thiên văn học
+Cơ sở dữ liệu sinh học
+Khoa học địa chất: bợ dị tìm đợng đất
-Thơng tin sản xuất
+Điều khiển và lên kế hoạch.
+Quản trị mạng.
+Phân tích các kết quả thực nghiệm.
1.3. Qui trình khai phá tri thức
1.3.1. Qui trình khai phá tri thức

Hình 1.1 Các bƣớc khai phá tri thức

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5

Bƣớc 1: Tích hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ
liệu
Bƣớc 2: Biến đổi dữ liệu thích hợp với bộ máy khai phá
Bƣớc 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá,
kết quả cho ta nguồn tri thức thô
Bƣớc 4: Đánh giá các mẫu, dựa trên 1 số tiêu trí để tiến hành kiểm tra và lọc
nguồn tri thức thu đƣợc.
1.3.2. Kiến trúc hệ thống khai phá dữ liệu

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
1.4. Các nhiệm vụ chính của khai phá tri thức

1.4.1. Dự đốn (predictive)
Sử dụng mợt vài biến để dự báo giá trị chƣa biết hoặc giá trị tƣơng lai
của các biến:
* Phân lớp: phát hiện ra mô tả của một vài lớp đã đƣợc xác định và phân
loại dữ liệu vào mợt trong các lớp đó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6

Ví dụ: Một công ty viễn thông lớn gặp phải khó khăn: tỷ lệ khách hàng
bị mất hàng tháng tăng lên rất nhanh
Giải pháp thông thƣờng: Chào mời khuyến mãi tất cả khách hàng trƣớc
khi hết hợp đồng. Nhƣng chi phí quá tốn kém.
Giải pháp của data mining: xây dựng mơ hình dự đốn những khách
hàng có khả năng rời bỏ cơng ty. Sau đó sẽ khuyến mãi cho những khách
hàng này (VD: khuyến mãi điện thoại mới). Và lên kế hoạch phát triển tiếp
theo nhằm đáp ứng nhu cầu của khách hàng.
* Hồi qui: ánh xạ từ một mẫu dữ liệu thành mợt biến dự đốn trƣớc có giá trị
thực.
Ứng dụng:
+Dự báo thời tiết dựa vào độ ẩm, tốc đợ gió, áp suất khơng khí…….
+Dự đốn thị trƣờng chứng khoán dựa vào xu hƣớng của thị trƣờng.
* Phát hiện sự thay đổi: phát hiện ra những thay đổi quan trọng trong dữ
liệu.
Ứng dụng:
+ Phát hiện gian lận thẻ tín dụng
+Phát hiện xâm nhập mạng trái phép.

1.4.2. Mô tả (discriptive)
Xác định các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu đƣợc.
* Gom cụm: tìm ra tập xác định các nhóm hay các cụm để mơ tả dữ
liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7

Ví dụ: chúng ta có thể chia khách hàng thành các nhóm/cụm riêng biệt
để có thể áp dụng các biện pháp quảng cáo khác nhau một cách hiệu quả nhất.
(chúng ta có thể chia cụm dựa vào thơng tin cơng việc, thu nhập…………)
* Tóm tắt: phát hiện ra mợt mơ tả tóm tắt cho mợt tập con dữ liệu.
* Mơ hình hóa phụ tḥc: phát hiện ra mơ hình mà mô tả phụ thuộc
quan trọng nhất giữa các biến.
1.5. Ý tƣởng kĩ thuật khai phá tri thức
Kĩ thuật khai phá dữ liệu đƣợc lấy ý tƣởng từ các lĩnh vực nhƣ: máy
học, thống kê, nhận dạng, các thuật toán……………
Kĩ thuật truyền thống khơng phù hợp vì:
+Kích thƣớc của dữ liệu quá lớn
+Số chiều dữ liệu lớn
+Bản chất dữ liệu không đồng nhất.
1.6. Các thách thức của khai phá tri thức
Khai phá dữ liệu phức tạp để lấy thông tin phức tạp.
Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề.
Vấn đề bảo mật, và tích hợp dữ liệu.
Lƣợng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông

tin cần thiết đƣợc.
1.7. Qui trình chuẩn bị dữ liệu
1.7.1. Tại sao cần chuẩn bị dữ liệu
Dữ liệu trong thực tế có chất lƣợng xấu:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8

+Dữ liệu thiếu, không đầy đủ: thiếu giá trị của thuộc tính, thiếu
các thuộc tính quan tâm, ….
+Dữ liệu bị tạp, nhiễu: chứa lỗi, hoặc các sai biệt
(ví dụ: lƣơng = ” -100 000”)
+Dữ liệu mâu thuẫn: khơng có sự thống nhất trong mã hoặc tên.
(ví dụ: tuổi=42, ngày sinh=03/07/1997)
Dữ liệu khơng có chất lƣợng, sẽ khơng thể cho kết quả khai phá tốt.
Quyết định đúng đắn phải dựa trên các dữ liệu chính xác. Ví dụ: việc trùng
lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chính xác, thậm chí
làm lạc lối.
Kho dữ liệu cần sự tích hợp đồng nhất các dữ liệu chất lƣợng.
1.7.2. Làm sạch dữ liệu
Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu.
Các nhiệm vụ của công đoạn làm sạch dữ liệu:
+Điền các giá trị còn thiếu.
+Xác định các sai biệt và khử dữ liệu tạp nhiễu.
+Sửa chữa các dữ liệu mâu thuẫn.
-Bỏ qua các mẫu tin có giá trị thiếu: dễ nhƣng khơng hiệu quả, đặc biệt

khi tỷ lệ giá trị thiếu của thuộc tính cao
-Điền các giá trị thiếu bằng tay: không khả thi.
-Điền các giá trị thiếu tự động:
+Thay thế bằng hằng số chung: ví dụ: “khơng biết” có thể thành
lớp mới trong dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9

+Thay thế bằng giá trị trung bình của tḥc tính.
+Thay thế bằng giá trị có nhiều khả năng nhất: có thể suy ra từ
cây quyết định, công thức bayesian…
1.7.3. Chọn lọc dữ liệu
Tập hợp dữ liệu từ nhiều nguồn khác nhau vào trong một cơ sở dữ liệu.
+Chỉ chọn những dữ liệu cần thiết cho tiến trình khai phá dữ liệu.
+Loại bỏ dữ liệu dƣ thừa và trùng lặp.
+Phát hiện và giải quyết các mâu thuẫn trong dữ liệu.
*Dữ liệu dƣ thừa, trùng lặp:
+Mợt tḥc tính là thừa nếu nó có thể suy ra từ các tḥc tính
khác.
+Cùng mợt mợt tḥc tính có thể có nhiều tên trong các cơ sở dữ
liệu khác nhau (ví dụ: năm sinh, tuổi, ngày sinh, birthday).
+Một số mẫu tin dữ liệu bị lặp lại
Cần tìm cách loại bỏ những dữ liệu dƣ thừa để tăng đợ chính xác.
1.7.4. Rút gọn dữ liệu
Dữ liệu có thể quá lớn đối với 1 số chƣơng trình khai phá dữ liệu:

+Tốn nhiều thời gian.
+Việc khai phá dữ liệu có thể khơng thể thực hiện đƣợc.
Rút gọn dữ liệu: dữ liệu đƣợc rút gọn (kích thƣớc) sao cho vẫn thu
đƣợc cùng (hoặc gần nhƣ cùng) kết quả phân tích.
Các phƣơng pháp:
+Tổng hợp và tổng quát hóa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10

+Giảm chiều dữ liệu
+Nén dữ liệu
+Giảm số lƣợng
+Rời rạc hóa
*Tổng hợp và tổng qt hóa
-Tổ hợp từ 2 tḥc tính (đối tƣợng) trở lên thành 1 thuộc tính (đối
tƣợng).
Ví dụ: các thành phố tổng hợp vào vùng, khu vực, quốc gia…….
-Tổng hợp/tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao:
Giảm kích thƣớc tập dữ liệu: giảm số thuộc tính.
Tăng tính lý thú của mẫu.
*Giảm chiều dữ liệu
-Chọn lựa đặc trƣng (tập con các thuộc tính)
Chọn m thuộc tính từ n thuộc tính, m<=n
Loại bỏ các thuộc tính không liên quan, dƣ thừa.
Ví dụ: dùng phƣơng pháp Heuristic để rút gọn dữ liệu:
Đầu tiên: chọn thuộc tính đơn tốt nhất

Chọn tiếp tḥc tính tốt nhất trong số cịn lại,…………..
*Giảm số lƣợng
Phân chia dữ liệu vào các nhóm và lƣu biểu diễn của nhóm.
Phƣơng pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11

1.7.5. Mã hóa dữ liệu
+Mã hóa dữ liệu: chuyển đổi dữ liệu thành dạng phù hợp và thuận tiện
cho các thuật tốn khai phá dữ liệu.
+Rời rạc hóa: biến đổi miền giá trị thuộc tính (liên tục) bằng cách chia
miền giá trị thành từng khoảng. Lƣu nhãn của khoảng thay cho các giá trị
thực.
+Phân cấp khái niệm: tập hợp và thay thế khái niệm cấp thấp bằng khái
niệm cấp cao hơn.
+Phƣơng pháp mã hóa:
+Dữ liệu dạng số:
Chia giỏ
Gom nhóm
Phân đoạn tự nhiên
+Dữ liệu dạng phi số:
Tạo sơ đồ phân cấp
Ví dụ:
Chuyển đối giá trị logic thành giá trị chân lý 1, 0
Chuyển đổi giá trị ngày tháng thành số

Chuyển đổi các cợt có giá trị số lớn thành tập các giá trị trong
vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó.
Thay thế giá trị của tuổi: trẻ, trung niên, già.
1.8. Tập phổ biến
1.8.1. Giới thiệu tập phổ biến
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12

Mẫu phổ biến là mẫu (tập các hạng muc, chuỗi con, cấu trúc con, đồ
thị con,…) xuất hiện thƣờng xuyên trong tập dữ liệu
Mục đích: tìm ra hiện tƣợng thƣờng xuyên xảy ra của các mẫu trong
dữ liệu.
Ví dụ:
+Tìm ra những sản phẩm nào thƣờng đƣợc mua chung?
+Ngƣời ta thƣờng mua gì khi đi mua giầy da.
+Làm thế nào để phân loại tự động văn bản.
Ứng dụng:
+Áp dụng trong phân tích cơ sở dữ liệu bán hàng.
+Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến lƣợc
bán hàng, chuỗi DNA.
1.8.2. Các khái niệm cơ bản
1.8.2.1. Cho cơ sở dữ liệu giao dịch
Ví dụ: cho các giỏ hàng (các phiên giao dịch)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13

Tiến hành biến đổi cơ sở dữ liệu về dạng nhị phân

A: milk, B: bread, C:cereal, D: sugar, E: eggs
Định nghĩa:
+Hạng mục: các mặt hàng trong giỏ hay một thuộc tính.
Kí hiệu I = {i1, i2, …….., im}.
+Giao dịch: tập các hạng mục đƣợc mua trong 1 giỏ (TID: mã giao
dịch).
Kí hiệu: t (t  I)
+Cơ sở dữ liệu giao dịch D = {t1, t2, ….., tn}, ti = {ii1, ii2, ……, iik} với
iij  I
1.8.2.2. Độ phổ biến và tập phổ biến
Cho X là tập các hạng mục trong I, X  t.
Độ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỉ lệ giữa
số các giao dịch chứa X trên tổng số các giao dịch trong D.
Supp(X) = count(X) / |D|.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

14

Tập các hạng mục phổ biến S (frequent itemsets) là tập các hạng mục
có đợ phổ biến thỏa mãn đợ phổ biến tối thiểu minsupp (do ngƣời dùng nhập

trƣớc).
Nếu supp(S)  minsupp thì S là tập phổ biến.
1.8.2.3. Tính chất của tập phổ biến
Tất cả các tập con của tập phổ biến đều là tập phổ biến.
Nếu tập con không phải là tập phổ biến thì tập bao nó (tập cha) không
thể là tập phổ biến.
1.8.2.4. Tập phổ biến tối đại
Tập phổ biến tối đại là tập phổ biến và khơng tồn tại tập nào bao nó là
phổ biến.
Ví dụ:

Cho minsupp = 2 ta có:
{B, C, D, E}, {A, C, D} là tập phổ biến tối đại.
{B, C, D} không phải tập phổ biến tối đại. Vì tập bao quanh nó {B, C,
D, E} là tập phổ biến
1.8.2.5. Tập phổ biến đóng
Tập phổ biến đóng là tập phổ biến và khơng tồn tại tập nào bao nó có
cùng đợ phổ biến nhƣ nó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15

Ví dụ:

Minsupp = 2
{A, B}, {A, B, D}, {A, B, C} là tập phổ biến đóng.
1.8.2.6. Luật kết hợp

Luật kết hợp có dạng:
X => Y, với X, Y  I, và X  Y = 
Ý nghĩa: khi X xuất hiện thì Y cũng xuất hiện (với xác xuất nào đó).
Luật kết hợp thƣờng đƣợc đánh giá dựa trên 2 độ đo:
+ Độ phổ biến
Supp(X=>Y) = supp(X  Y)
+ Độ tin cậy (confidence)
Conf(X=>Y) = supp(X  Y) / supp(X)
1.8.2.7. Mô tả bài tốn luật kết hợp
Cho đợ phổ biến tối thiểu (minsupp) và độ tin cậy tối thiểu (minconf)
do ngƣời dùng xác định.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16

Cho tập các hạng mục I={i1, i2, …….., im} và CSDL D={t1, t2, ….., tn},
với ti={ii1, ii2, ….., iik} và iij  I.
Bài toán khai phá luật kết hợp là bài tốn tìm tất cả các luật dạng X=>Y
(X,Y  I, và X  Y=  } thỏa mãn độ phổ biến và độ tin cậy tối thiểu.
Supp(X=>Y)  minsupp
Conf(X=>Y)  minconf
1.9. Phân lớp dữ liệu
1.9.1. Định nghĩa thông qua ví dụ
Cho CSDL D={t1, t2,….. , tn} và tập các lớp C={c1, c2, ….., cm},
phân lớp là quá trình xác định ánh xạ f: D -> C sao cho mỗi ti đƣợc gán vào 1
lớp trong C.

Ví dụ: dự đoán tế bào khối u là lành hay ác. Dự đoán khi nào sơng có
lũ.
1.9.2. Quy trình phân lớp
Bƣớc 1: xây dựng mơ hình
Mơ tả tập các lớp xác định trƣớc
*Tập huấn luyện: các mẫu/bợ dành cho xây dựng mơ hình
*Mỗi mẫu/bợ tḥc về 1 lớp đã định nghĩa trƣớc.
*Tìm luật phân lớp, cây quyết định hoặc cơng thức tốn mơ tả lớp.
Bƣớc 2: Sử dụng mơ hình
Phân lớp các đối tƣợng chƣa biết:
*Xác định đợ chính xác của mơ hình, sử dụng tập dữ liệu kiểm tra đợc
lập.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Phương pháp khai phá dữ liệu dạng đóng và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về