Tải bản đầy đủ (.pdf) (70 trang)

phương pháp khai phá dữ liệu dạng đóng và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (900.36 KB, 70 trang )


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG






NGUYỄN HỒNG HẢI






PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG
VÀ ỨNG DỤNG



LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH








Thái Nguyên - 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG



NGUYỄN HỒNG HẢI






PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG
VÀ ỨNG DỤNG


Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01


LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC
PGS.TS. NGÔ QUỐC TẠO





Thái Nguyên - 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i


LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá dữ liệu dạng đóng
và ứng dụng” là công trình nghiên cứu của riêng tôi dƣớ i sƣ̣ hƣớ ng dẫ n củ a
PGS.TS. Ngô Quốc Tạo. Toàn b phần mềm do chnh tôi lập trình và kiểm
thƣ̉ . Tôi xin chị u trá ch nhiệ m về lờ i cam đoan củ a mình .
Các số liệu và thông tin sử dụng trong luận văn này là trung thực.

Tác giả
Nguyễn Hồng Hải

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i


MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv
DANH MỤC CÁC BẢNG v
DANH MỤC HÌNH VẼ vi

MỞ ĐẦU 1
Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 3
1.2. Khai phá dữ liệu là gì 3
1.2. Ứng dụng của việc khai phá dữ liệu 3
1.3. Qui trình khai phá tri thức 4
1.3.1. Qui trình khai phá tri thức 4
1.3.2. Kiến trúc hệ thống khai phá dữ liệu 5
1.4. Các nhiệm vụ chnh của khai phá tri thức 5
1.4.1. Dự đoán (predictive) 5
1.4.2. Mô tả (discriptive) 6
1.5. Ý tƣởng kĩ thuật khai phá tri thức 7
1.6. Các thách thức của khai phá tri thức 7
1.7. Qui trình chuẩn bị dữ liệu 7
1.7.1. Tại sao cần chuẩn bị dữ liệu 7
1.7.2. Làm sạch dữ liệu 8
1.7.3. Chọn lọc dữ liệu 9
1.7.4. Rút gọn dữ liệu 9
1.7.5. Mã hóa dữ liệu 11
1.8. Tập phổ biến 11
1.8.1. Giới thiệu tập phổ biến 11
1.8.2. Các khái niệm cơ bản 12
1.8.2.1. Cho cơ sở dữ liệu giao dịch 12

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii


1.8.2.2. Đ phổ biến và tập phổ biến 13
1.8.2.3. Tnh chất của tập phổ biến 14

1.8.2.4. Tập phổ biến tối đại 14
1.8.2.5. Tập phổ biến đóng 14
1.8.2.6. Luật kết hợp 15
1.8.2.7. Mô tả bài toán luật kết hợp 15
1.9. Phân lớp dữ liệu 16
1.9.1. Định nghĩa thông qua v dụ 16
1.9.2. Quy trình phân lớp 16
1.10. Phân cụm dữ liệu 17
1.10.1. Phân cụm là gì? 17
1.10.2. Phân biệt phân lớp và phân cụm 17
1.10.3. Ứng dụng phân cụm 18
1.10.4. V dụ 19
Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN 2
CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 20
2.1. Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều20
2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều 20
2.3. Tiến hành khai phá tập phổ biến đóng FCP 22
2.3.1. Sơ lƣợc về quá trình khai phá tập phổ biến đóng 22
2.3.2. Thuật toán C-Miner 23
2.3.2.1. Thuật toán phân cụm (thuật toán increamental k-mean) 23
2.3.2.2 Quá trình chia không gian khai phá 25
2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs . 29
2.4. Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều
32
2.5. Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều . 33

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii



2.6. Khai phá các lát cắt đại diện 36
2.6.1. Tạo ra các dàn đại diện 38
2.6.2. Tạo ra các tập phổ biến đóng FCP 39
2.6.3. 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ các khối
đƣợc sinh ra không thỏa mãn) 39
2.6.4. Tnh đúng đắn 41
Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43
3.1. Cài đặt thuật toán trong không gian 2 chiều 43
3.2. Cài đặt ứng dụng trong không gian 2 chiều 46
3.2.1. Cơ sở dữ liệu 47
3.2.2. Các bƣớc thực hiện 47
3.3. Cài đặt thuật toán trong không gian 3 chiều 50
3.4. Cài đặt ứng dụng trong không gian 3 chiều 55
3.4.1. Cơ sở dữ liệu 55
3.4.2. Các bƣớc thực hiện 55
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv


DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các từ viết tắt
Nghĩa tiếng anh
Nghĩa tiếng việt

EnumerateSubset

Liệt kê các tập con

Slice
Mặt cắt

Slices
Dàn tƣơng đƣơng với 1 tập
các mặt cắt kết hợp với
nhau.
CP
Closed pattern
Tập đóng
CS
Compact subspace
Không gian con đặc (trong
bài toán đang xét: là không
gian con mà tất cả các ô có
giá trị là “1”.
FCC
Frequent closed cube
Khổi phổ biến đóng
FCP
Frequent closed pattern
Tập phổ biến đóng
Minlen

Là ngƣỡng giá trị Pattern
length mà các pattern phải
thỏa mãn
Minsup


Là ngƣỡng giá trị support
mà các pattern phải thỏa
mãn
RS
Representative slices
Dàn đại diện
RSM
Representative slice Mining
Khai phá lát cắt đại diện

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

v


DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng cơ sở dữ liệu 21
Bảng 2.2 Ma trận rút gọn O‟ 26
Bảng 2.3 Lát cắt 27
Bảng 2.4 Kết quả các không gian rút gọn và không gian con 27
(minsup=3, minlen=2) 27
Bảng 2.5 FCP (minsup=3, minle=2) 32
Bảng 2.6 Ma trận O trong không gian 3 chiều 34
Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vi



DANH MỤC HÌNH VẼ
Hình 1.1 Các bƣớc khai phá tri thức 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 5
Hình 1.3 Minh họa phân cụm dữ liệu 18
Hình 1.4 Phân cụm các điểm trong không gian 19
Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 19
Hình 2.1 Khung khai phá 22
Hình 2.2 Cây phân chia sử dụng lát cắt. 28
Hình 2.3 Sai sót và dƣ thừa 29

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1


MỞ ĐẦU
Ngày nay, cuc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ
dàng và chi ph lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và
trang bị nhanh hệ thống máy tnh trong kinh doanh. Số lƣợng dữ liệu khổng lồ
đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa
cứng, băng từ, đĩa quang, CD-ROM,… Tốc đ tăng dữ liệu quá lớn. Từ đó
dẫn đến kết quả là sự pha trn của kỹ thuật thống kê vào các công cụ quản trị
dữ liệu không thể phân tch đầy đủ dữ liệu rng lớn đƣợc nữa.
Dữ liệu sau khi phục vụ cho mt mục đch nào đó đƣợc lƣu lại trong kho
dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn.
Trong khối lƣợng dữ liệu to lớn này có rất nhiều thông tin có ch mang tnh
tổng quát, thông tin có tnh quy luật vẫn còn đang tiềm ẩn mà chúng ta chƣa
biết. Từ khối lƣợng dữ liệu rất lớn cần có những công cụ tự đng rút các

thông tin và kiến thức có ch. Mt hƣớng tiếp cận có khả năng giúp các công
ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai
phá dữ liệu (Data Mining).
Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều
hiệu quả đối với khoa học cũng nhƣ các hoạt đng thực tế, trong đó khai phá
dữ liệu là mt trong những lĩnh vực mang lại hiệu quả thiết thực cho con
ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu
ch từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề
cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá
dữ liệu, ngoài ra luận văn còn đề cập đến phƣơng pháp khai phá dữ liệu dạng
đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn.



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2


Luận văn cấu trúc gồm 3 chƣơng:
Chƣơng 1:
Trong chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy
trình chuẩn bị dữ liệu, và mt vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng
pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean.
Chƣơng 2:
Trong chƣơng 2 chúng ta sẽ nghiên cứu phƣơng pháp khai phá tập phổ
biến đóng FCPs trong không gian 2 chiều và phƣơng pháp khai phá khối phổ
biến đóng FCCs trong không gian 3 chiều.
Chƣơng 3:
Trong chƣơng 3 chúng ta sẽ cài đặt thuật toán ở chƣơng 2 và cài đặt

ứng dụng của thuật toán trong kinh doanh: tìm những mặt hàng đƣợc bán
cùng nhau nhiều bằng phƣơng pháp khai phá tập phổ biến đóng FCPs; tìm
những mặt hàng đƣợc bán cùng nhau nhiều theo các mùa: áp dụng phƣơng
pháp khai phá khối phổ biến đóng FCCs.
Luận văn này đƣợc hoàn thành dƣới sự hƣớng dẫn tận tình của PGS.TS
Ngô Quốc Tạo, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối với
thầy. Tác giả xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông
tin, Trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học Thái
Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng
cao trình đ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn
nên luận văn không thể tránh khỏi những thiếu sót. Tác giả knh mong các
thầy cô giáo và bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện hơn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3


Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
1.1. Khai phá dữ liệu là gì
Khai phá dữ liệu là quá trình không tầm thƣờng của việc xác định các
mẫu tiềm ẩn có tnh hợp lệ, mới lạ, có ch và có thể hiểu đƣợc tối đa trong cơ
sở dữ liệu.
Quá trình không tầm thƣờng: là quá trình đa xử lý.
Hợp lệ: có thể chứng minh đƣợc tnh đúng đắn của mô hình (mẫu).
Mới lạ: không thể biết trƣớc đƣợc.
Có ch: có thể sử dụng đƣợc.
Có thể hiểu đƣợc: trả về kết quả cho ngƣời dùng có thể hiểu đƣợc.
Mẫu tiềm ẩn: là mối quan hệ trong cơ sở dữ liệu. V dụ: những ngƣời
mua quần giầy thƣờng mua thêm tất, và xi đánh giầy.

1.2. Ứng dụng của việc khai phá dữ liệu
Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kch thƣớc.
Nhƣng lại có rất t tri thức về dữ liệu, vì phần lớn dữ liệu chƣa đƣợc phân
tch. Vì vậy data mining ra đời giúp chúng ta có thể có đƣợc nhiều thông tin
có giá trị, có lợi cho việc ra quyết định.
Mt số lĩnh vực ứng dụng khai phá dữ liệu:
-Thông tin thƣơng mại
+Phân tch thị trƣờng mua bán.
+Phân tch đầu tƣ.
+Phát hiện gian lận.
-Thông tin khoa học

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4


+Thiên văn học
+Cơ sở dữ liệu sinh học
+Khoa học địa chất: b dò tìm đng đất
-Thông tin sản xuất
+Điều khiển và lên kế hoạch.
+Quản trị mạng.
+Phân tch các kết quả thực nghiệm.
1.3. Qui trình khai phá tri thức
1.3.1. Qui trình khai phá tri thức

Hình 1.1 Các bƣớc khai phá tri thức



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5


Bƣớc 1: Tch hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ
liệu
Bƣớc 2: Biến đổi dữ liệu thch hợp với b máy khai phá
Bƣớc 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá,
kết quả cho ta nguồn tri thức thô
Bƣớc 4: Đánh giá các mẫu, dựa trên 1 số tiêu tr để tiến hành kiểm tra và lọc
nguồn tri thức thu đƣợc.
1.3.2. Kiến trúc hệ thống khai phá dữ liệu

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
1.4. Các nhiệm vụ chính của khai phá tri thức
1.4.1. Dự đoán (predictive)
Sử dụng mt vài biến để dự báo giá trị chƣa biết hoặc giá trị tƣơng lai
của các biến:
* Phân lớp: phát hiện ra mô tả của mt vài lớp đã đƣợc xác định và phân
loại dữ liệu vào mt trong các lớp đó.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6


V dụ: Mt công ty viễn thông lớn gặp phải khó khăn: tỷ lệ khách hàng
bị mất hàng tháng tăng lên rất nhanh
Giải pháp thông thƣờng: Chào mời khuyến mãi tất cả khách hàng trƣớc

khi hết hợp đồng. Nhƣng chi ph quá tốn kém.
Giải pháp của data mining: xây dựng mô hình dự đoán những khách
hàng có khả năng rời bỏ công ty. Sau đó sẽ khuyến mãi cho những khách
hàng này (VD: khuyến mãi điện thoại mới). Và lên kế hoạch phát triển tiếp
theo nhằm đáp ứng nhu cầu của khách hàng.
* Hồi qui: ánh xạ từ mt mẫu dữ liệu thành mt biến dự đoán trƣớc có giá trị
thực.
Ứng dụng:
+Dự báo thời tiết dựa vào đ ẩm, tốc đ gió, áp suất không kh…….
+Dự đoán thị trƣờng chứng khoán dựa vào xu hƣớng của thị trƣờng.
* Phát hiện sự thay đổi: phát hiện ra những thay đổi quan trọng trong dữ
liệu.
Ứng dụng:
+ Phát hiện gian lận thẻ tn dụng
+Phát hiện xâm nhập mạng trái phép.
1.4.2. Mô tả (discriptive)
Xác định các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu đƣợc.
* Gom cụm: tìm ra tập xác định các nhóm hay các cụm để mô tả dữ
liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7


V dụ: chúng ta có thể chia khách hàng thành các nhóm/cụm riêng biệt
để có thể áp dụng các biện pháp quảng cáo khác nhau mt cách hiệu quả nhất.
(chúng ta có thể chia cụm dựa vào thông tin công việc, thu nhập…………)
* Tóm tắt: phát hiện ra mt mô tả tóm tắt cho mt tập con dữ liệu.
* Mô hình hóa phụ thuc: phát hiện ra mô hình mà mô tả phụ thuc

quan trọng nhất giữa các biến.
1.5. Ý tƣởng kĩ thuật khai phá tri thức
Kĩ thuật khai phá dữ liệu đƣợc lấy ý tƣởng từ các lĩnh vực nhƣ: máy
học, thống kê, nhận dạng, các thuật toán……………
Kĩ thuật truyền thống không phù hợp vì:
+Kch thƣớc của dữ liệu quá lớn
+Số chiều dữ liệu lớn
+Bản chất dữ liệu không đồng nhất.
1.6. Các thách thức của khai phá tri thức
Khai phá dữ liệu phức tạp để lấy thông tin phức tạp.
Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề.
Vấn đề bảo mật, và tch hợp dữ liệu.
Lƣợng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông
tin cần thiết đƣợc.
1.7. Qui trình chuẩn bị dữ liệu
1.7.1. Tại sao cần chuẩn bị dữ liệu
Dữ liệu trong thực tế có chất lƣợng xấu:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8


+Dữ liệu thiếu, không đầy đủ: thiếu giá trị của thuc tnh, thiếu
các thuc tnh quan tâm, ….
+Dữ liệu bị tạp, nhiễu: chứa lỗi, hoặc các sai biệt
(v dụ: lƣơng = ” -100 000”)
+Dữ liệu mâu thuẫn: không có sự thống nhất trong mã hoặc tên.
(v dụ: tuổi=42, ngày sinh=03/07/1997)
Dữ liệu không có chất lƣợng, sẽ không thể cho kết quả khai phá tốt.

Quyết định đúng đắn phải dựa trên các dữ liệu chnh xác. V dụ: việc trùng
lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chnh xác, thậm ch
làm lạc lối.
Kho dữ liệu cần sự tch hợp đồng nhất các dữ liệu chất lƣợng.
1.7.2. Làm sạch dữ liệu
Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu.
Các nhiệm vụ của công đoạn làm sạch dữ liệu:
+Điền các giá trị còn thiếu.
+Xác định các sai biệt và khử dữ liệu tạp nhiễu.
+Sửa chữa các dữ liệu mâu thuẫn.
-Bỏ qua các mẫu tin có giá trị thiếu: dễ nhƣng không hiệu quả, đặc biệt
khi tỷ lệ giá trị thiếu của thuc tnh cao
-Điền các giá trị thiếu bằng tay: không khả thi.
-Điền các giá trị thiếu tự đng:
+Thay thế bằng hằng số chung: v dụ: “không biết” có thể thành
lớp mới trong dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9


+Thay thế bằng giá trị trung bình của thuc tnh.
+Thay thế bằng giá trị có nhiều khả năng nhất: có thể suy ra từ
cây quyết định, công thức bayesian…
1.7.3. Chọn lọc dữ liệu
Tập hợp dữ liệu từ nhiều nguồn khác nhau vào trong mt cơ sở dữ liệu.
+Chỉ chọn những dữ liệu cần thiết cho tiến trình khai phá dữ liệu.
+Loại bỏ dữ liệu dƣ thừa và trùng lặp.
+Phát hiện và giải quyết các mâu thuẫn trong dữ liệu.

*Dữ liệu dƣ thừa, trùng lặp:
+Mt thuc tnh là thừa nếu nó có thể suy ra từ các thuc tnh
khác.
+Cùng mt mt thuc tnh có thể có nhiều tên trong các cơ sở dữ
liệu khác nhau (v dụ: năm sinh, tuổi, ngày sinh, birthday).
+Mt số mẫu tin dữ liệu bị lặp lại
Cần tìm cách loại bỏ những dữ liệu dƣ thừa để tăng đ chnh xác.
1.7.4. Rút gọn dữ liệu
Dữ liệu có thể quá lớn đối với 1 số chƣơng trình khai phá dữ liệu:
+Tốn nhiều thời gian.
+Việc khai phá dữ liệu có thể không thể thực hiện đƣợc.
Rút gọn dữ liệu: dữ liệu đƣợc rút gọn (kch thƣớc) sao cho vẫn thu
đƣợc cùng (hoặc gần nhƣ cùng) kết quả phân tch.
Các phƣơng pháp:
+Tổng hợp và tổng quát hóa

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10


+Giảm chiều dữ liệu
+Nén dữ liệu
+Giảm số lƣợng
+Rời rạc hóa
*Tổng hợp và tổng quát hóa
-Tổ hợp từ 2 thuc tnh (đối tƣợng) trở lên thành 1 thuc tnh (đối
tƣợng).
V dụ: các thành phố tổng hợp vào vùng, khu vực, quốc gia…….
-Tổng hợp/tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao:

Giảm kch thƣớc tập dữ liệu: giảm số thuc tnh.
Tăng tnh lý thú của mẫu.
*Giảm chiều dữ liệu
-Chọn lựa đặc trƣng (tập con các thuc tnh)
Chọn m thuc tnh từ n thuc tnh, m<=n
Loại bỏ các thuc tnh không liên quan, dƣ thừa.
V dụ: dùng phƣơng pháp Heuristic để rút gọn dữ liệu:
Đầu tiên: chọn thuc tnh đơn tốt nhất
Chọn tiếp thuc tnh tốt nhất trong số còn lại,…………
*Giảm số lƣợng
Phân chia dữ liệu vào các nhóm và lƣu biểu diễn của nhóm.
Phƣơng pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11


1.7.5. Mã hóa dữ liệu
+Mã hóa dữ liệu: chuyển đổi dữ liệu thành dạng phù hợp và thuận tiện
cho các thuật toán khai phá dữ liệu.
+Rời rạc hóa: biến đổi miền giá trị thuc tnh (liên tục) bằng cách chia
miền giá trị thành từng khoảng. Lƣu nhãn của khoảng thay cho các giá trị
thực.
+Phân cấp khái niệm: tập hợp và thay thế khái niệm cấp thấp bằng khái
niệm cấp cao hơn.
+Phƣơng pháp mã hóa:
+Dữ liệu dạng số:
Chia giỏ

Gom nhóm
Phân đoạn tự nhiên
+Dữ liệu dạng phi số:
Tạo sơ đồ phân cấp
Ví dụ:
Chuyển đối giá trị logic thành giá trị chân lý 1, 0
Chuyển đổi giá trị ngày tháng thành số
Chuyển đổi các ct có giá trị số lớn thành tập các giá trị trong
vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó.
Thay thế giá trị của tuổi: trẻ, trung niên, già.
1.8. Tập phổ biến
1.8.1. Giới thiệu tập phổ biến

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12


Mẫu phổ biến là mẫu (tập các hạng muc, chuỗi con, cấu trúc con, đồ
thị con,…) xuất hiện thƣờng xuyên trong tập dữ liệu
Mục đích: tìm ra hiện tƣợng thƣờng xuyên xảy ra của các mẫu trong
dữ liệu.
V dụ:
+Tìm ra những sản phẩm nào thƣờng đƣợc mua chung?
+Ngƣời ta thƣờng mua gì khi đi mua giầy da.
+Làm thế nào để phân loại tự đng văn bản.
Ứng dụng:
+Áp dụng trong phân tch cơ sở dữ liệu bán hàng.
+Mở rng sang quảng cáo, thiết kế catalog, phân tch chiến lƣợc
bán hàng, chuỗi DNA.

1.8.2. Các khái niệm cơ bản
1.8.2.1. Cho cơ sở dữ liệu giao dịch
V dụ: cho các giỏ hàng (các phiên giao dịch)


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13


Tiến hành biến đổi cơ sở dữ liệu về dạng nhị phân


A: milk, B: bread, C:cereal, D: sugar, E: eggs
Định nghĩa:
+Hạng mục: các mặt hàng trong giỏ hay mt thuc tnh.
K hiệu I = {i
1
, i
2
, …… , i
m
}.
+Giao dịch: tập các hạng mục đƣợc mua trong 1 giỏ (TID: mã giao
dịch).
K hiệu: t (t

I)
+Cơ sở dữ liệu giao dịch D = {t
1

, t
2
, … , t
n
}, t
i
= {i
i1
, i
i2
, ……, i
ik
} với
i
ij

I
1.8.2.2. Độ phổ biến và tập phổ biến
Cho X là tập các hạng mục trong I, X

t.
Đ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỉ lệ giữa
số các giao dịch chứa X trên tổng số các giao dịch trong D.
Supp(X) = count(X) / |D|.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

14



Tập các hạng mục phổ biến S (frequent itemsets) là tập các hạng mục
có đ phổ biến thỏa mãn đ phổ biến tối thiểu minsupp (do ngƣời dùng nhập
trƣớc).
Nếu supp(S)

minsupp thì S là tập phổ biến.
1.8.2.3. Tính chất của tập phổ biến
Tất cả các tập con của tập phổ biến đều là tập phổ biến.
Nếu tập con không phải là tập phổ biến thì tập bao nó (tập cha) không
thể là tập phổ biến.
1.8.2.4. Tập phổ biến tối đại
Tập phổ biến tối đại là tập phổ biến và không tồn tại tập nào bao nó là
phổ biến.
V dụ:

Cho minsupp = 2 ta có:
{B, C, D, E}, {A, C, D} là tập phổ biến tối đại.
{B, C, D} không phải tập phổ biến tối đại. Vì tập bao quanh nó {B, C,
D, E} là tập phổ biến
1.8.2.5. Tập phổ biến đóng
Tập phổ biến đóng là tập phổ biến và không tồn tại tập nào bao nó có
cùng đ phổ biến nhƣ nó.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15


V dụ:


Minsupp = 2
{A, B}, {A, B, D}, {A, B, C} là tập phổ biến đóng.
1.8.2.6. Luật kết hợp
Luật kết hợp có dạng:
X => Y, với X, Y

I, và X

Y =


Ý nghĩa: khi X xuất hiện thì Y cũng xuất hiện (với xác xuất nào đó).
Luật kết hợp thƣờng đƣợc đánh giá dựa trên 2 đ đo:
+ Đ phổ biến
Supp(X=>Y) = supp(X

Y)
+ Đ tin cậy (confidence)
Conf(X=>Y) = supp(X

Y) / supp(X)
1.8.2.7. Mô tả bài toán luật kết hợp
Cho đ phổ biến tối thiểu (minsupp) và đ tin cậy tối thiểu (minconf)
do ngƣời dùng xác định.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16



Cho tập các hạng mục I={i
1
, i
2
, …… , i
m
} và CSDL D={t
1
, t
2
, … , t
n
},
với t
i
={i
i1
, i
i2
, … , i
ik
} và i
ij

I.
Bài toán khai phá luật kết hợp là bài toán tìm tất cả các luật dạng X=>Y
(X,Y

I, và X


Y=

} thỏa mãn đ phổ biến và đ tin cậy tối thiểu.
Supp(X=>Y)

minsupp
Conf(X=>Y)

minconf
1.9. Phân lớp dữ liệu
1.9.1. Định nghĩa thông qua ví dụ
Cho CSDL D={t1, t2,… , tn} và tập các lớp C={c1, c2, … , cm},
phân lớp là quá trình xác định ánh xạ f: D -> C sao cho mỗi t
i
đƣợc gán vào 1
lớp trong C.
V dụ: dự đoán tế bào khối u là lành hay ác. Dự đoán khi nào sông có
lũ.
1.9.2. Quy trình phân lớp
Bƣớc 1: xây dựng mô hình
Mô tả tập các lớp xác định trƣớc
*Tập huấn luyện: các mẫu/b dành cho xây dựng mô hình
*Mỗi mẫu/b thuc về 1 lớp đã định nghĩa trƣớc.
*Tìm luật phân lớp, cây quyết định hoặc công thức toán mô tả lớp.
Bƣớc 2: Sử dụng mô hình
Phân lớp các đối tƣợng chƣa biết:
*Xác định đ chnh xác của mô hình, sử dụng tập dữ liệu kiểm tra đc
lập.

×