Tải bản đầy đủ (.doc) (86 trang)

Tiểu luận môn học khai phá dữ liệu chủ đề Khai phá dữ liệu bằng luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1000.76 KB, 86 trang )

Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
MƠN: KHAI PHÁ DỮ LIỆU VÀ DATAMINING

TIỂU LUẬN MÔN HỌC

KHAI PHÁ DỮ LIỆU
BẰNG LUẬT KẾT HP

Giảng viên hướng dẫn
PGS.TS Đỗ Phúc
Sinh viên : Võ Minh Hiếu
MSSV : CH1001103

TP.HCM, tháng 11 - 2012
Học viên: CH1001103 - Võ Minh Hiếu

Trang 1 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN


................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................

Học viên: CH1001103 - Võ Minh Hiếu

Trang 2 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining


Trường Đại học CNTT TP.HCM

LỜI NÓI ĐẦU
Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ.
Đặc biệt là nghành khoa học máy tính rất phát triển, nó được ứng dụng rất nhiều
trong các lĩnh vực khác nhau của cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học,
Xây dưng, Nó đã trở thành một phần khơng thể thiếu được trong cuộc sống hàng
ngày của con người.Việc dùng các phương tiện tin học để tổ chức và khai thác các
cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong những năm gần
đây vai trò của máy tính trong việc lưu trữ và xử lý thơng tin ngày càng trở lên quan
trọng. Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đối phát triển đã tạo
ra những kho dữ liệu khổng lồ. Với sự phát triển mạnh mẽ của công nghệ điện tử
tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống
mạng viễn thông, người ta đã xây dựng các hệ thống thơng tin nhằm tự động hố
mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dịng dữ liệu tăng lên
khơng ngừng ví ngay từ các các giao dịch đơn gian nhất như một cuộc điện thoại,
kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v.đều được ghi vào trong máy tính. Cho
tới nay con số này đã trở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách
hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử
dụng vốn,..Vấn đề đặt ra là làm thế nào để sử lý khối lượng thông tin cực lớn như
vậy để phát hiện ra các tri thưc tiềm ẩn trong nó.
Để làm được điều đó người ta đã sử dụng quá trính Phát hiện tri thức trong
cơ sở dữ liệu( Knowledge Discovery in Database-KDD). Nhiệm vụ của KDD là từ
dữ liệu sẵn có phải tìm ra những thơng tin tiềm ẩn có giá trị mà trước đó chưa được
phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên
chúng .Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó
được gọi là kỹ thuật Khai phá dữ liệu( Data Mining).
Từ những lý do đó em đã hiểu về đề tài Khai phá dữ liệu bằng luật kết
hợp. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu
thơng tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong

muốn, đồng thời để áp dụng vào bài toán Quản lý bán hàng tại siêu thị.
Trong q trình làm đồ án để hồn thành đề tài này chúng đã nhận được sự
giúp đỡ chỉ bảo tận tình của các thầy. Nhưng do thời gian có giới hạn và năng lực
cịn hạn chế nên khơng tránh khỏi những sai sót, em mong nhận được sự góp ý
hơn nữa của thầy cô và các bạn.

Học viên: CH1001103 - Võ Minh Hiếu

Trang 3 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

TÓM TẮT ĐỀ TÀI
Nội dung của đồ án là những kiến thức về khai phá dữ liệu sử dụng luật kết
hợp, các thuật tốn kinh điển trong q trình sử dụng luật kết hợp, cách áp dụng
thuật toán Apriori vào một phần nhỏ trong bài toán Quản lý bán hàng tại siêu thị .
Mục đích của đồ án là:
Phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thơng
tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn.
Đưa ra các thuật toán cơ bản như Apriori, thuật toán tìm luật kết hợp khơng
phát sinh ứng viên dựa vào cấu trúc cây FP- Tree, v.v.trong việc sử dụng luật kết
hợp để phân tích một cơ sở dữ liệu nào đó.
Phân tích cơ sở dữ liệu và cài đặt thuật toán Apriori để áp dụng một phần
nhỏ vào bài toán Quản lý bán hàng tại siêu thị .
Đồ án bao gồm có 3 chương, với các nội dung như sau:

ChươngI: Tổng quan về khai phá dữ liệu. Nội dung trong chương này sẽ
được trình bày bao gồm: Khai phá dữ liệu và phát hiện tri thức, quá trình phát hiện
tri thức từ cơ sở dữ liệu, khai phá dữ liệu có lợi ích gì? Các kỹ thuật khai phá dữ
liệu, nhiêm vụ chính của khai phá dữ liệu, các phương pháp khai phá dữ liệu, ứng
dụng của khai phá dữ liệu và một số thách thức đặt ra cho việc khai phá dữ liệu.
ChươngII: Tập phổ biến và luật kết hợp: Nội dung đuợc trình bày bao
gồm: Một số khái niệm, tính chất cơ bản của tập phổ biến và luật kết hợp, tìm tập
phổ biến, một số thuật tốn cơ bản về luật kết hợp, một số ví dụ minh họa các thuật
toán.
ChươngIII: Cách cài đặt và thử nghiệm thuật tốn tìm tập phổ biến và
luật kết hợp: Phân tích một cơ sở dữ liệu, trình bày về cách cài đặt chương trình
khai thác luật kết hợp trong việc quản lý bán hàng tại siêu thị. Dựa vào kết quả này
mà người quản lý bán hàng tại thị siêu nắm bắt được những nhóm mặt hàng nào có
liên quan tới nhau, phục vụ cho mục đích quản lý và lựa chọn các mặt hàng để kinh
doanh.

Học viên: CH1001103 - Võ Minh Hiếu

Trang 4 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

MỤC LỤC
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN................................................................1
LỜI NÓI ĐẦU.......................................................................................................................2

TÓM TẮT ĐỒ ÁN................................................................................................................ 4
MỞ ĐẦU..............................................................................................................................12
Chương I:TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU....................................................... 13
Đặt vấn đề............................................................................................................................................ 13
Khai phá dữ liệu và phát hiện tri thức............................................................................................... 14
Quá trình phát hiện tri thức từ cơ sở dữ liệu..................................................................................... 14
Xác định bài toán....................................................................................................................................................15
Thu thập và tiền xử lý.........................................................................................................................................15
Gom dữ liệu
16
Chọn lọc dữ liệu 16
Làm sạch
16
Làm giàu dữ liệu 17
Mã hố dữ liệu
17
Đánh giá và trình diễn..............................................................................................................................................17
Khai phá dữ liệu......................................................................................................................................................18
Phát biểu và đánh giá kết quả..................................................................................................................................18
Sử dụng tri thức đã phát hiện...................................................................................................................................18

Khaiphádữliệucónhữnglợiíchgì.......................................................................................................... 18
Cáckỹthuậtkhaiphádữliệu.................................................................................................................. 19
Kỹ thuật khai phá dữ liệu mô tả...............................................................................................................................19
Kỹ thuật khai phá dữ liệu dự đốn...........................................................................................................................19

Nhiêmvụchínhcủakhaiphádữliệu....................................................................................................... 19
Phân lớp (Classification)..........................................................................................................................................20
Hồi quy (Regression)...............................................................................................................................................20
Gom nhóm (Clustering)...........................................................................................................................................20

1.6.4. Tổng hợp (Summarization).......................................................................................................... 20
Mơ hình ràng buộc (Dependency modeling)...........................................................................................................20
Dị tìm biến đổi và độ lệch (Change and Deviation Dectection)...........................................................................21

Các phương pháp khai phá dữ liệu.................................................................................................... 21
Các thành phần của giải thuật khai phá dữ liệu....................................................................................................21
Một số phương pháp khai thác dữ liệu phổ biến.................................................................................................22
Phương pháp quy nạp (Induction)..........................................................................................................................22
Cây quyết định và luật............................................................................................................................................22
Phát hiện các luật kết hợp................................................................................................................................... 22
Mạng Neuron
23
Giải thuật di truyền.................................................................................................................................................24

Ứng dụng của khai phá dữ liệu.......................................................................................................... 24
Một số thách thức đặt ra cho việc khai phá dữ liệu.......................................................................... 25

ChươngII: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP........................................................... 27
Mở đầu 27
Các khái niệm cơ bản.......................................................................................................................... 27
Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu......................................................................................................27
Định nghĩa 2. 2. 2: Các kết nối Galois..................................................................................................................27
Định nghĩa 2.2.3: Độ hỗ trợ (Support)...................................................................................................................27
Định nghĩa 2 2.4: Độ tin cậy ( Confidence)...........................................................................................................28
Tính chất 2. 2.4.1: Hỗ trợ của tập con................................................................................................................. 28
Tính chất 2.2.4.2 28

Học viên: CH1001103 - Võ Minh Hiếu

Trang 5 / 77


GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining
Tính
Tính
Định
Định
Tính
Tính
Tính
Tính

chất 2.2.4.3 28
chất 2. 2.4.4 28
nghĩa 2.2.5: Tập mặt
nghĩa 2.2.6: Luật kết
chất 2.2.6.1: Luật kết
chất 2.2.6.2: Luật kết
chất 2.2.6.3: Luật kết
chất 2.2.6.4 30

Trường Đại học CNTT TP.HCM

hàng phổ biến...........................................................................................................29
hợp..............................................................................................................................29
hợp khơng có hợp thành..........................................................................................29
hợp khơng có tính tách............................................................................................ 29
hợp khơng có tính bắc cầu......................................................................................30


Tìmtậpphổbiến.................................................................................................................................... 30
Một số khái niệm.....................................................................................................................................................30
Thuật tốn Apriori....................................................................................................................................................31
2.3.2.1. Mơ tả thuật tốn.....................................................................................................................31
2.3.2.2. Ví dụ minh hoạ cho thuật toán Apriori...................................................................................33
2.3.2.3. Procedure-Code.....................................................................................................................34
2.3.2.4. Tạo tập ứng viên (k+1)- hạng mục.........................................................................................35

Tìmluậtkếthợp..................................................................................................................................... 36
Phát biểu bài tốn khai phá luật kết hợp..................................................................................................................36
Phát triển giải pháp hiệu quả trong khai thác luật kết hợp.......................................................................................38

Quytrìnhkhaithácluậtkếthợp.............................................................................................................. 40
Mộtsốthuậttốnkhác........................................................................................................................... 40
Thuật tốn khai phá song song cho luật kết hợp mờ................................................................................................40
Thuật toán FP-Growth............................................................................................................................................. 42
2.6.2.1 Bản chất.................................................................................................................................. 42
Qui trình.
42
Thuật tốn FP_Growth............................................................................................................................................51

Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN TÌM TẬP PHỔ BIẾN VÀ
LUẬTKẾTHỢP
..............................................................................................................................................
52
Phátbiểubàitốn.................................................................................................................................. 52
Lựachọnthuậttốnđểcàiđặtphầnmềm................................................................................................ 52
ucầukhicàiđặtthuậttốn................................................................................................................. 52
Cơsởdữliệu........................................................................................................................................... 53

Giao diện chính của cơ sở dữ liệu............................................................................................................................53
Bảng danh mục các Nhà cung cấp hàng hóa............................................................................................................54
Bảng danh mục các Hàng Hoá.................................................................................................................................55
Bảng danh mục các Khách Hàng.............................................................................................................................56
Bảng danh mục các Hố Đơn...................................................................................................................................57
Bảng danh mục chi tiết Hố Đơn.............................................................................................................................58
Ghi XML.
59

Giaodiệnchínhchươngtrình................................................................................................................. 59
Kếtnốidữliệu........................................................................................................................................ 60
Thêmdưliệu Xml................................................................................................................................. 60
Kếtquảphântích................................................................................................................................... 61
KếtquảlọcMinSup=10......................................................................................................................... 61
KếtquảlọcMinCon=40%........................................................................................................... 62

KẾTLUẬNCHUNG.............................................................................................................63
HƯỚNGPHÁTTRIỂNĐỀTÀI............................................................................................64
TÀILIỆUTHAMKHẢO...................................................................................................... 65
BẢNGĐỐICHIẾUTHUẬTNGỮVIỆT-ANH.....................................................................66
Học viên: CH1001103 - Võ Minh Hiếu

Trang 6 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM


MỞ ĐẦU
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng
nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một nhiều lên.
Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào
đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này
(khoảng từ 5% đến 10%) là ln được phân tích, số cịn lại họ khơng biết sẽ phải
làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với
ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó.
Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống không đáp ứng
được kỳ vọng này, nên đã ra đời Kỹ thuật phát hiện tri thức và khai phá dữ liệu
(KDD - Knowledge Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu,
ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ
thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa
vào ứng dụng.
Hiện nay có rất nhiều phương pháp để kinh doanh cũng như có rất nhiều
phần mềm để quản lý việc kinh doanh đó. Ví dụ như phần mềm quản lý bán hàng
tại thị siêu bằng Fox, C#, VB,...Tuy nhiên đề tài này chúng em không xây dựng một
phần mềm quản lý bán hàng tại thị siêu hoàn chỉnh mà chỉ tìm hiểu và cài đặt một
khía cạnh nhỏ trong bài toán Quản lý bán hàng tại siêu thị . Đó là phân tích dữ liệu
bằng luật kết hợp trong q trình tìm hiểu các mặt hàng có liên quan tới nhau như
thế nào? Giúp cho nhà quản lý tìm hiểu, phân tích để lựa chọn các mặt hàng kinh
doanh tốt hơn.
Trong phạm vi của đề tài nghiên cứu này, chúng em xin được trình bày:
Những kiến thức về khai phá dữ liệu sử dụng luật kết hợp. Đây là dạng luật
kết hợp tương đối đơn giản nhưng tính hiệu quả cao, giúp tìm ra được những luật
“q hiếm”.
Đưa ra các định nghĩa, tính chất và một số thuật tốn cơ bản thường được áp

dụng trong q trình tìm luật kết hợp của một cơ sở dữ liệu.
Phân tích và cài đặt thuật tốn Apriori áp dụng vào một phần nhỏ trong bài
toán Quản lý bán hàng tại siêu thị .

Học viên: CH1001103 - Võ Minh Hiếu

Trang 7 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU
Đặt vấn đề
Trong kỉ nguyên Internet, Intranets, Warehouses, đã mở ra nhiều cơ hội cho
những nhà doanh nghiệp trong việc thu thập và xử lý thông tin. Hơn nữa, các công
nghệ lưu trữ và phục hồi dữ liệu phát triển một cách nhanh chóng vì thế cơ sở dữ
liệu ở các cơ quan, doanh nghiệp, đơn vị ngày càng nhiều thông tin tiềm ẩn phong
phú và đa dạng.
Cơ sở dữ liệu trong các doanh nghiệp thì dữ liệu giao dịch đóng một vai trò
rất quan trọng cho việc hoạch định kế hoạch kinh doanh trên thương trường vào
những năm tiếp theo. Hiện tại, việc sử dụng các dữ liệu này tuy đã đạt được một số
kết quả nhất định song vẫn còn một số vấn đề tồn đọng như:
- Dựa hoàn toàn vào dữ liệu, khơng sử dụng tri thức có sẳn về lĩnh vực, kết
quả phân tích khó có thể làm rõ được.
- Phải có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế
nào và ở đâu.

Trong điều kiện và yêu cầu của xã hội, đòi hỏi phải có những phương pháp
nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thơng tin có giá trị.
Các tri thức chiết xuất được từ cơ sở dữ liệu trên sẽ là một nguồn tài liệu hỗ trợ cho
lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất
kinh doanh. Vì vậy, tính ứng dụng của khai phá dữ liệu bằng luật kết hợp từ cơ sở
dữ liệu giao dịch là một vấn đề đang được quan tâm đặc biệt trong xã hội hiện nay.
Mục đích của việc nghiên cứu là xây dựng một giải pháp hiệu quả tính ứng
dụng luật kết hợp trong việc ra quyết định của cơ quan doanh nghiệp dựa trên cơ sở
dữ liệu giao dịch.
Sự phát triển nhanh chóng các ứng dụng cơng nghệ thông tin và Internet vào
nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật,... Đã tạo ra nhiều
cơ sở dữ liệu khổng lồ ví dụ như cơ sở dữ liệu bán hàng của một siêu thị chứa hàng
nghìn giao tác bán hàng; hay cơ sở dữ liệu của một hệ thống thông tin về khách
hàng trong một ngân hàng,... Để khai phá hiệu quả nguồn thông tin từ các cơ sở dữ
liệu lớn hỗ trợ tiến trình ra quyết định, bên cạnh các phương pháp khai thác thông
tin truyền thống, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và
phần mềm mới hỗ trợ tiến trình khai phá, phân tích tổng hợp thơng tin.
Có rất nhiều kỹ thuật khai phá dữ liệu khác nhau tuân theo các bước quá
trình phát hiện tri thức, để giải quyết các nhiệm vụ để khai phá dữ liệu. Sau đây
chúng em sẽ lần lượt trình bày những vẫn đề đã nêu ra.

Học viên: CH1001103 - Võ Minh Hiếu

Trang 8 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining


Trường Đại học CNTT TP.HCM

Khai phá dữ liệu và phát hiện tri thức
Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử
dụng thơng tin có hiệu quả. Điều đó có nghĩa là từ các dữ liệu có sẵn phải tìm ra
những thơng tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra những xu hướng
phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là q
trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy
được các tri thức chính ra từ kỹ thuật khai phá dữ liệu.
Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu
thì q trình phát hiện tri thức chỉ tồn bộ quá trình triết xuất tri thức từ cơ sở dữ
liệu, trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vẫn đề,
thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã
phát hiện và đưa kết quả vào thực tế.
Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát
hiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai phá dữ liệu là chỉ một
giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri
thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn đóng vai trị chủ chốt và là
giai đoạn chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu.
Quá trình phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức từ cơ sở dữ liệu là một q trình có sử dụng nhiều phương
pháp và cơng cụ tin học nhưng vẫn là một quá trình mà trong đó con người làm
trung tâm. Do đó nó khơng phải là một hệ thống phân tích tự động mà là một hệ
thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ
liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học.
Xác địnhbài toán

Thuthập vàtiềnxửlý dữ
liệu


Khai phá dữliệutriết xuất
tri thức

Phát biểukết quảvà
đánh giátriết xuất tri
thức

Sửdụngtri thức
vàphát hiệnđược
triết xuất tri thức

Học viên: CH1001103 - Võ Minh Hiếu

Trang 9 / 77

GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Mặc dù có 5 giai đoạn như trên( hình 1.1) xong quá trình phát hiện tri thức từ cơ
sở dữ liệu là 1 quá trình tương tác và lặp đi lặp lại theo kiểu xoắn chơn ốc, trong đó

Học viên: CH1001103 - Võ Minh Hiếu

Trang 10 / 77


GVHD: TS Đỗ Phúc


Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả
thu được của giai đoạn trước theo kiểu thác nước. Đây là một q trình biện trứng
mang tính chất học của q trình phát hiện trí thức và là phương pháp luận trong
viện phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau:
Xác định bài tốn
Đây là một q trình mang tính định hình với mục đích xác định được lĩnh
vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ
sở dữ liệu được chun mơn hố và phân chia theo các lĩnh vực khác nhau như: Sản
phẩm, kinh doanh, tài chính, v.v.Với mỗi tri thức phát hiện được có thể có giá trị
trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa với một lĩnh vực khác. Vì
vậy việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn
tiếp theo thu thập và tiền xử lý dữ liệu.
Thu thập và tiền xử lý
Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại khơng
đầy đủ, khơng thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy giai đoạn thu
thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ
cơ sở dữ liệu. Có thể nói giai đoạn này chiếm từ 70%-80% giá thành trong toàn bộ
bài toán.
Người ta chia giai đoạn và tiền xử lý dữ liệu như: Gom dữ liệu, chọn dữ liệu,
làm sạch, mã hố dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu. Các cơng đoạn
này được thực hiện theo trình tự nhất định cụ thể như sau:
Đánh giá & trình diễn


Mã hoá DL

Làm giàu DL

C
l
e
a
n
s
e
d

Làm sạch DL

Chọn lọc DL

Pattern Discovery

Gom DL

Transfo
rme

Học viên: CH1001103 - Võ Minh Hiếu

Trang 11 / 77

GVHD: TS Đỗ Phúc



Khai phá dữ liệu và datamining

Trường Đại học CNTT TP.HCM

Knowledge

Preprocessed
Preparated
Target
Internet,..

Data

Hình 1.2. Quá trình phát hiện tri thức

Học viên: CH1001103 - Võ Minh Hiếu

Trang 12 / 77

GVHD: TS Đỗ Phúc


Gom dữ liệu
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là
bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ
liệu từ các nguồn ứng dụng Web.
Chọn lọc dữ liệu
Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó. Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết tứ cơ sở dữ liệu tác

nghiệp vào một cơ sở dữ liệu riêng. Chúng ta chọn ra những dữ liệu cần thiết cho
các giai đoạn sau. Tuy nhiên công việc thu gom dữ liệu vào một cơ sở dữ liệu
thường rất kho khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng
một loại thông tin, nhưng được tạo lập theo các dạng hình thức khác nhau. Ví dụ
nơi này dùng kiểu chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó
của khách hàng. Đồng thời chất lượng dữ liệu của các nơi cũng không giống nhau.
Vì vậy chúng ta cần chọn lọc dữ liệu thật tốt để chuyển sang giai đoạn tiếp theo
Làm sạch
Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải
trong khi gom dữ liệu là tính khơng đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa
các giá trị vơ nghĩa và khơng có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến
hành xử lý những dạng dữ liệu khơng chặt chẽ nói trên. Những dữ liệu dạng này
được xem như thông tin dư thừa, khơng có giá trị. Bởi vậy, đây là một q trình rất
quan trọng vì dữ liệu này nếu khơng được “làm sạch - tiền xử lý - chuẩn bị trước”
thì sẽ gây nên những kết quả sai lệch nghiệm trọng.
Giai đoạn này thực hiện một số chức năng sau:
Điều hoà dữ liệu: Cơng việc này nhằm giảm bớt tính khơng nhất quán dữ
liệu lấy từ nhiều nguồn khác nhau. Phương pháp thông thường là khử các trường
hợp trùng lặp dữ liệu và thống nhất các ký hiệu. Ví dụ một khách hàng có thể có
nhiều bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá
nhân gây ra và tạo ra sự nhầm lẫn là có nhiều khách hàng.
Xử lý các giá trị khuyết: Tính khơng đầy đủ của dữ liệu có thế gây ra
hiện tượng dữ liệu chứa các giá trị khuyết. Đây là hiện tượng khá phổ biến.
Người ta sử dụng nhiều phương pháp khác nhau để xứ lý các giá trị khuyết như:
Bỏ qua các bộ có giá trị khuyết, điểm bổ sung bằng tay, dùng một hằng chung để bổ
sung vào giá trị khuyết, dùng giá trị trung bình của mọi bản ghi trên thuộc tinh
khuyết, dùng giá trị trung bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà
tần suất xuất hiện lớn nhất.



- Xử lý nhiễu và các ngoại lệ: Thông thường nhiễu dữ liệu có thể là nhiễu
ngẫu nhiên hoặc các giá trị bất bình thường. Để làm sạch nhiễu, người ta có thể sử
dụng phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại
lệ để xử lý.
Làm giàu dữ liệu
Mục đích của giai đoạn này là bổ sung thêm nhiều loại thơng tin có liên
quan vào cơ sở dữ liệu gốc. Để làm được điêu này, chúng ta phải có các cơ sở dữ
liệu khác ở bên ngồi có liên quan tới cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ
sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức.
Đây là bước mang tính tư duy trong khai phá dữ liệu.Ở giai đoạn này
nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật
toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mơ hình
dữ liệu tuần tự, v. v.
Q trình làm giàu bao gồm việc tích hợp và chuyển đổi dữ liệu. Các dữ
liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thơng nhất. Các
khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính tốn lại để đưa về
một kiểu thống nhất, tiện cho q trình phân tích.
Mã hố dữ liệu
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và
điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với
mục đích khai thác. Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những
dạng thuật tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hố
dữ liệu như:
-

Phân vùng: Dữ liệu là giá trị chuỗi, nằm trong các tập các chuỗi cố đinh.

- Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm
hiện hành.

- Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn.
- Chuyển đổi Yes-No thành 0-1.
Đánh giá và trình diễn
Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.Ở giai đoạn này, các
mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ
mẫu dữ liệu nào cũng đều hữu ích, đơi khi nó cịn bị sai lệch. Vì vậy, cần phải ưu
tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu.


Khai phá dữ liệu
Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và
tiến hành xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán
khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu
có được và tách ta các tri thức cần thiết.
Là giai đoạn thiết yếu, trong đó các phương pháp thơng minh sẽ được áp
dụng để trích xuất ra các mẩu dữ liệu.
Phát biểu và đánh giá kết quả
Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo
cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau.
Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có
mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, Các tri
thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ
cho các mục đích hỗ trợ các quyết định khác nhau.
Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có
mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, giúp tạo
cơ sở cho những quyết định chiến lược. Thông thường, chúng được tổng hợp, so
sánh bằng các biểu đồ và được kiểm nghiệm, tin hoc.
Sử dụng tri thức đã phát hiện
Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành

hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri
thức được chuẩn bị sẵn sàng cho ứng dụng.
Các kết quả của q trình phát hiện tri thức có thể được đưa vào ứng dụng
trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mơ tả
nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá
quá trình này.
Khai phá dữ liệu có những lợi ích gì
- Cung cấp tri thức hỗ trợ ra quyết định.
- Dự báo.
- Khái qt dữ liệu.
Hình 1.3 Là một mơ hình thể hiện lợi ích của KPDL trong việc phân tích và
ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó


Tiếp thị

CSDL

Tiếp thị

KDD &
Nhà kho dữ liệu

Data Mining


Hình 1.3: Mơ hình lợi ích của khai phá dữ liệu
ác kỹ thuật khai phá dữ liệu
Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính:
Kỹ thuật khai phá dữ liệu mơ tả

Có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung của dữ liệu
trong CSDL hiện có. Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt
(summerization), trực quan hố (visualiztion), phân tích sự phát triển và độ lệch
(Evolution and deviation analyst), phân tích luật kết hợp (association rules).v.v.
Kỹ thuật khai phá dữ liệu dự đốn
Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời.
Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regression)…
hiêm vụ chính của khai phá dữ liệu
Rõ ràng rằng mục đích của khai phá dữ liệu là các tri thức chiết xuất được sẽ
được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên
cứu khoa học.
Do đó, ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mơ tả và dự
đốn. Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào mục đích này.
Dự đốn liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ
liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá
trị trong tương lai của các biến đáng quan tâm.
Mơ tả tập trung vào việc tìm kiếm các mẫu mơ tả dữ liệu mà con người có
thể hiểu được.
Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu là:
- Phân lớp (Classification).
- Hồi qui (Regression).
- Gom nhóm (Clustering).
- Tổng hợp (Summarization).
- Mơ hình ràng buộc (Dependency modeling).


- Dị tìm biến đổi và độ lệch (Change and Deviation Dectection).
Phân lớp (Classification)
Phân lớp là việc phân loại một mẫu dữ liệu vào một trong số các lớp đã xác
định.

Mục tiêu của thuật tốn phân lớp là tìm ra các mối quan hệ nào đó giữa các


thuộc tính dự báo và thuộc tính phân lớp, từ đó sử dụng mối quan hệ này để dự báo
lớp cho các bộ dữ liệu mới khác cùng khuông dạng.
Hồi quy (Regression)
Hồi quy là việc l ọc một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy,
ví dụ như biết các phép đo vi sóng từ xa, đánh giá khả năng tử vong của bệnh nhân
biết các kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới
bằng một hàm chỉ tiêu quảng cáo, v. v.
Gom nhóm (Clustering)
Là việc mơ tả chung để tìm ra các tập xác định các nhóm hay các loại để mơ
tả dữ liệu. Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau. Có
nghĩa là một dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng
dụng khai phá dữ liệu có nhiệm vụ gom nhóm như: Phát hiện tập các khách hàng có
phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ
các phương pháp đo tia hồng ngoại.
Tổng hợp (Summarization)
Nhiệm vụ tổng hợp là việc sản sinh ra các mô tả đặc trưng cho một lớp. Các
mô tả này là một kiểu tổng hợp, tóm tắt mơ tả các đặc tính chung của tất cả các bộ
dữ liệu dạng giỏ mua hàng thuộc một lớp.
Các mô tả đặc trưng thể hiện dưới dạng các luật thường có khn dạng:
“Nếu một bộ dữ liệu thuộc về một lớp đã chỉ ra trong tiền đề, thì bộ dữ liệu đó có tất
cả các thuộc tính đã nêu trong kết luận”. Những luật này có những đặc trưng khác
biệt so với các luật phân lớp. Luật phát hiện đặc trưng cho một lớp chỉ được sản
sinh khi các bộ dữ liệu thuộc về lớp đó.
Mơ hình ràng buộc (Dependency modeling)
Bao gồm việc tìm kiếm một mơ hình mơ tả sự phụ thuộc đáng kể giữa các
biến. Các mơ hình phụ thuộc tồn tại dưới hai mức: Mức cấu trúc của mơ hình xác

định các biến nào là phụ thuộc cục bộ với nhau, mức định lượng của một mơ hình
xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó.
Dị tìm biến đổi và độ lệch (Change and Deviation Dectection)
Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các
giá trị chuẩn hoặc được đo trước đó.
Vì các nhiệm vụ khác nhau này yêu cầu số lượng và các dạng thông tin rất
khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn giải thuật khai
phá dữ liệu khác nhau. Ví dụ như giải thuật tạo cây quyết định tạo ra được một mô


tả phân biệt được các mẫu giữa các lớp nhưng khơng có các tính chất và đặc điểm
của lớp.
Các phương pháp khai phá dữ liệu
Quá trình khai phá dữ liệu là q trình phát hiện mẫu, trong đó, giải thuật
khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật,
cây phân lớp, hồi quy, gom nhóm, v. v.
Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu
diễn mơ hình, đánh giá mơ hình, tìm kiếm mơ hình.

Biểu diễn mơ hình: Mơ hình được biểu diễn bằng một ngơn ngữ L để
mơ tả các mẫu có thể khai thác được. Tức là người phân tích dữ liệu cần phải hiểu
đầy đủ các giả thiết mô tả và cần phải diễn tả được các giả thiết mô tả nào được tạo ra
bởi giải thuật. Mơ hình đó sẽ được đánh giá bằng cách đưa các dữ liệu thử vào mơ
hình và thay đổi lại các tham số cho phù hợp nếu cần.

Đánh giá mơ hình: Đánh giá xem một mẫu có đáp ứng được các tiêu
chuẩn của quá trình phát hiện tri thức hay khơng. Việc đánh giá độ chính xác dự
đoán dựa trên đánh giá chéo (Cross Validation). Đánh giá chất lượng mơ tả liên
quan đến độ chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của

mơ hình. Cả hai chuẩn thống kê và chuẩn logic đều có thể được sử dụng để đánh giá
mơ hình.
• Phương pháp tìm kiếm: Phương pháp tìm kiếm bao gồm hai thành
phần: tìm kiếm tham số và tìm kiếm mơ hình.
- Tìm kiếm tham số: Để tối ưu hóa các tiêu chuẩn đánh giá mơ hình với
các dữ liệu quan sát được và với một mơ tả mơ hình đã định.
- Tìm kiếm mơ hình: Xảy ra giống như một vịng lặp qua phương pháp
tìm kiếm tham số: Mơ tả mơ hình bị thay đổi tạo nên một họ các mơ hình.
= > Với mỗi một mơ tả mơ hình, phương pháp tìm kiếm tham số được áp
dụng để đánh giá chất lượng mơ hình. Các phương pháp tìm kiếm mơ hình thường
sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của khơng gian các mơ hình
có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản
không dễ đạt được.
Một số phương pháp khai thác dữ liệu phổ biến
Phương pháp quy nạp (Induction).
Một cơ sở dữ liệu là một kho thông tin nhưng các thơng tin quan trọng
hơn cũng có thể được suy diễn từ kho thơng tin đó. Có hai kỹ thuật chính để thực


hiện việc này là suy diễn và quy nạp.
• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để
suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng
phương pháp này thường là các luật suy diễn.

Phương pháp quy nạp: .Phương pháp quy nạp suy ra các thông tin
được sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức
chứ không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp
này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ
sở dữ liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL. Trong

khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật.
Cây quyết định và luật

Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản
nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được
gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc
tính, các lá mơ tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi
trên cây, qua các cạnh tương ứng với các giá trị, thuộc tính của đối tượng tới lá.
• Tạoluật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có
ý nghĩa về mặt thống kê. Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng
với một phần trong CSDL, Q là mệnh đề dự đốn.
Cây quyết định và luật có ưu điểm là hình thức mơ tả đơn giản, mơ hình
suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là mơ tả cây
và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ
chính xác của mơ hình.
Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần
dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết
hợp tìm được. Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp
giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự
xuất hiện của B trong cùng bản ghi đó: A = > B.
Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu
lớn là khơng khó. Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc
là ta chỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật.
Ví dụ chỉ có số ít người mua sách tiếng anh mà mua thêm đĩa CD. Số lượng các luật
kết hợp trong một số cơ sở dữ liệu lớn gần như vô hạn. Do vậy thuật tốn sẽ khơng
thể phát hiện hết các luật và khơng phân biệt được luật nào là thông tin thực sự có
giá trị và thú vị.



Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng
hạn ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua
sách âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD. Lúc đó ta quan tâm đến số
lượng trường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ
cho luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc,
ngoại ngữ, thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên.
Tuy nhiên giá trị hỗ trợ là khơng đủ. Có thể có trường hợp ta có một
nhóm tương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với
lượng lớn hơn những người thích sách thể thao, âm nhạc, ngoại ngữ mà khơng thích
mua đĩa CD. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối
cao. Như vậy chúng ta cần thêm một độ đo thứ hai đó là độ tin cây (Confidence). Độ
tin cậy là phần trăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể
thao, ngoại ngữ.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật
dạng X => B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và
độ tin cậy của luật không nhỏ hơn ngưỡng Minconfi cho trước. Từ một cơ sở dữ
liệu ta có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
Mạng Neuron
Mạng Neuron là tiếp cận tính tốn mới liên quan tới việc phát triển cấu
trúc toán học và khả năng học. Các phương pháp là kết quả của việc nghiên cứu mơ
hình học của hệ thống thần kinh con người.
Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc khơng
chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu
hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác khơng thể
phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến
mạng Neuron. Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp
dụng và phát triển nhưng nó cũng có những ưu điểm đáng kể.
Dữliệu

Mơhìnhmạng

Neuron

Mẫuchiếtxuất
được


Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon.
Một trong số những ưu điểm phải kể đến của mạng Neuron là khả năng
tạo ra các mơ hình dự đốn có độ chính xác cao, có thể áp dụng được cho rất nhiều
loại bài toán khác nhau, đáp ứng được nhiệm vụ đặt ra của khai phá dữ liệu như
phân lớp, gom nhóm, mơ hình hóa, dự báo các sự kiện phụ thuộc vào thời gian, v.v.
Giải thuật di truyền
Giải thuật di truyền, nói theo nghĩa rộng là mơ phỏng lại hệ thống tiến
hóa trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể được hình
thành, được ước lựợng và biến đổi như thế nào? Ví dụ như xác định xem làm thế
nào để lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ. Giải
thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để
có thể giải quyết nhiều bài toán thực tế khác nhau.
Giải thuật di truyền là một giải thuật tối ưu hóa. Nó được sử dụng rất
rộng rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật
mạng Neuron. Sự liên hệ của nó với các quá trình khai phá dữ liệu. Ví dụ như trong
kỹ thuật cây quyết định, tạo luật. Như đã đề cập ở phần trước, các luật mơ hình hóa
dữ liệu chứa các tham số được xác định bởi các giải thuật phát hiện tri thức.
Giai đoạn tối ưu hóa là cần thiết để xác định xem các giá trị tham số nào
tạo ra các luật tốt nhất. Và vì vậy mà giải thuật di truyền đã được sử dụng trong các
công cụ khai phá dữ liệu.
Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như:
Hệ CSDL, thống kê, trực quan hoá.v.v. Hơn nữa, tuỳ vào cách tiếp cận được sử
dụng, khai phá dữ liệu cịn có thể áp dụng một số kỹ thuật như mạng nơron, lý

thuyết tập thô, tập mờ, biểu diễn tri thức, v.v.So với các phương pháp này, khai phá
dữ liệu có một số ưu thế rõ rệt.
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai
phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu khơng đầy
đủhoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp
dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn.
Phương pháp hệ chuyên gia: Phương pháp này khác với khai phá dữ liệu
ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong


CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các
chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
Phương pháp thống kê là một trong những nên tảng lý thuyết của khai
phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương
pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được.
Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có
cấu trúc trong rất nhiều CSDL.
Các phương pháp thống kê hoạt động hồn tồn theo dữ liệu, nó khơng sử
dụng tri thức có sẵn về lĩnh vực.
Kết quả phân tích của hệ thống sẽ rất nhiều và khó có thể làm rõ ra được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một
cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như:
Marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh,
internet.v.v.rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai
phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi
ích to lớn.
Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh:
Brandaid: Mơ hình Marketing linh hoạt tập chung vào hàng tiêu dùng.

Callpla: Giúp nhân viên bán hàng xác định số lần viếng thăm của khách
hàng triển vọng và khách hàng hiện có.
Detailer: Xác định khách hàng nào nên viếng thăm và sản phẩm nào nên
giới thiệu trong từng chuyến viếng thăm.
Geoline: Mơ hình thiết kế địa bàn tiêu thụ và dịch vụ.
Mediac: Giúp người quảng cáo mua phương tiện trong một năm, lập kế
hoạch sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm năng.
Một số thách thức đặt ra cho việc khai phá dữ liệu
Các cơ sở dữ liệu lớn.
Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khơng cịn
phù hợp nữa.
Dữ liệu bị thiếu hoặc nhiễu.
Quan hệ giữa các trường phức tạp.
Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.


Tích hợp với các hệ thống khác…
* Kết luận chương I
Qua chương I chúng ta đã biết được thế nào là tổng quan về khai phá dữ liệu.
Nó bao gồm một số nội dung sau:
Khai phá dữ liệu và phát hiện tri thức: Là quá trình khám phá tri thức tiềm ẩn
trong cơ sở dữ liệu.
Quá trình phát hiện tri thức từ cơ sở dữ liệu: Là một quá trình có sử dụng
nhiều phương pháp và cơng cụ tin học để tìm ra một cơ sở dữ liệu có ích cho người
sử dụng.
Khai phá dữ liệu có lợi ích gì: Cung cấp tri thức và hỗ trợ việc ra quyết định,
dự báo, khái quát dữ liệu.
Các kỹ thuật khai phá dữ liệu: Có rất nhiều các kỹ thuật nhưng thường sử
dụng kỹ thuật mơ tả và dự đốn.
Nhiệm vụ của khai phá dữ liệu: Phân lớp, hồi quy, gom nhóm, tổng hợp, mơ

hình ràng buộc, dị tìm biến đổi và độ lệch.
Các phương pháp khai phá dữ liệu: Phương pháp quy nạp, cây quyết định và
luật, phát hiện các luật kết hợp, mạng Neuron, giải thuật di truyền.
Ứng dụng của khai phá dữ liệu: Marketing, tài chính, ngân hàng và bảo
hiểm, khoa học, y tế, an ninh, internet…
Một số thách thức đặt ra cho việc khai phá dữ liệu: Cơ sở dữ liệu lớn, dữ liệu
bị thiếu hoặc nhiễu, quan hệ giữa các trường phức tạp.v.v.

Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
Mở đầu
Hiện nay các công ty, doanh nghiệp đang lưu trữ một lượng thông tin lớn về
bán hàng. Một bản ghi trong cơ sở dữ liệu này chứa các thông tin về ngày mua bán,
số lượng hàng bán,... Từ cơ sở dữ liệu bán hàng, chúng ta có thể tìm ra các mối
quan hệ giữa các cặp thuộc tính- giá trị thuộc tính. Đó là luật kết hợp tiêu biểu: Ví
dụ có 80% khách hàng mua sách ngoại ngữ thì sẽ mua đĩa CD hoặc VCD.
ác khái niệm cơ bản
Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu
Cho tập O là tập hữu hạn khác rỗng các giao tác và I là tập hữu hạn khác
rỗng các mặt hàng, R là một quan hệ hai ngôi giữa O và I sao cho với o∈ O và
i∈ I, (o,i)∈ R= > giao tác.o có chứa mặt hàng i. Ngữ cảnh khai phá dữ liệu (dưới
đây sẽ gọi tắt là NCKPDL) là bộ ba (O, I, R).


×