Tải bản đầy đủ (.pdf) (84 trang)

Luận văn khai phá luật kết hợp nhị phân, ứng dụng sắp xếp các loại tài liệu phục vụ đọc giả

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 84 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

VŨ VĂN TUẤN

KHAI PHÁ LUẬT KẾT HỢP
NHỊ PHÂN, ỨNG DỤNG SẮP XẾP CÁC
LOẠI TÀI LIỆU PHỤC VỤ ĐỌC GIẢ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

VŨ VĂN TUẤN

KHAI PHÁ LUẬT KẾT HỢP
NHỊ PHÂN, ỨNG DỤNG SẮP XẾP CÁC
LOẠI TÀI LIỆU PHỤC VỤ ĐỌC GIẢ
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS. TS. Lê Huy Thập

HÀ NỘI, 2018



LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy giáo PGS.TS. Lê Huy Thập đã nhiệt
tình hướng dẫn và giúp em trong quá trình làm luận văn thạc sỹ khoa học máy
tính.
Em cũng xin gửi lời cảm ơn chân thành đến tất cả các thầy cô giáo
phòng Sau đại học trường Đại học Sư phạm Hà Nội 2 và các thầy cô bộ môn
đã tận tình giúp đỡ, giảng dạy, cung cấp cho em những kiến thức quý giá
trong thời gian học tập tại trường.
Cuối cùng xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên và
giúp đỡ trong thời gian học tập cũng như thời gian thực hiện làm luận văn .
Hà Nội, tháng 11 năm 2018
Tác giả

Vũ Văn Tuấn


LỜI CAM ĐOAN
Tôi xin cam đoan đây là kết quả nghiên cứu của tôi dưới sự hướng dẫn
khoa học của PGS.TS. Lê Huy Thập.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Hà Nội, tháng 11 năm 2018
Tác giả

Vũ Văn Tuấn


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ý nghĩa


Ký hiệu
CSDL

Cơ sở dữ liệu

D

Cơ sở dữ liệu giao dịch

DL

Dữ Liệu

DM

Data Mining (khai phá dữ liệu)

KDD

KnowleDge Discovery (phát hiện tri thức)

KPDL

Khai Phá Dữ Liệu

DW

Kho dữ liệu


θ

Độ hỗ trợ (support)

β

Độ tin cậy (confidence)



Phép giao



Phép hợp



Tập rỗng



Tập con

ϵ

Thuộc

Ck


Tập các k-itemset ứng viên

TID

Tập các giao dịch


DANH MỤC CÁC BẢNG
Bảng 1.1. Các phép toán mệnh đề ..................................................................... 5
Bảng 1.2. Mức ưu tiên của các phép toán logic ................................................ 5
Bảng 1.3. Bảng chân trị ..................................................................................... 6
Bảng 1.4.Bảng chân trị của p  (q  r) ............................................................. 6
Bảng 1.5. Chân trị của p  q và  p  q.......................................................... 9
ảng 2.1

d cơ sở dữ liệu 6 giao dịch ........................................................ 25

ảng 2.2 ảng c c m c và độ hỗ trợ .............................................................. 26
ảng 2.3. T nh độ hỗ trợ và độ tin cậy............................................................ 28
ảng 2.4 C c tập ph biến .............................................................................. 28
ảng 2.5. Luật kết hợp sinh ra từ tập ph biến

E ...................................... 30

ảng 2.6 Th hiện c c giao dịch thực tế ......................................................... 32
ảng 2.7 ảng tập c c giao dịch c th .......................................................... 33
ảng 2.8 ảng tập m c và độ hỗ trợ ............................................................... 34
ảng 2.9 Tập c c m c ph biến trong bảng 2.8.............................................. 34
ảng 2.10 ài to n ph t hiện luật kết hợp ...................................................... 35
Bảng 2.11. Bảng mua hàng của khách hàng ................................................... 36

Bảng 2.12. Thông tin nhị phân từ bảng 2.11................................................... 36
ảng 2.13. ảng mua hàng của kh ch ............................................................ 53
ảng 2.14. Thông tin nhị phân từ bảng 2.13................................................... 54
Bảng 2.15. Các luật kết hợp từ hệ thông tin nhị phân mua bán hàng hoá ...... 59
Bảng 2.16. Các luật kết hợp mua bán hàng hoá .............................................. 59


DANH MỤC CÁC HÌNH VẼ

Hình 3.1. Giao diện chính .......................................................................................66
Hình 3.2. Giao diện với số liệu Demo hoặc nhập từ bàn phím ...............................67
Hình 3.3. Các giao diện nhập số các m c dữ liệu và dữ liệu dạng nhị phân .........67
Hình 3.4. Giao diện và kết quả của 6 data item 6 transaction ...............................68
Hình 3.5. Giao diện kết quả của 5 data item 6 transaction .....................................69
Hình 3.6. Giao diện kết quả của 5 data item 4 transaction .....................................70
Hình 3.7. Giao diện kết quả của 4 data item 4 transaction .....................................71
Hình 3.8. Giao diện kết quả của 5 data item 5 transaction .....................................71


MỤC LỤC
LỜI MỞ ĐẦU...................................................................................................1
Chương 1. Cơ sở l thuyết ................................................................................ 3
1.1. Logic to n học ......................................................................................... 3
111

hái ni m v m nh

v

h n tr .................................................... 3


112

á ph p toán m nh

113

i u th

114

á uật ủa ogi v

115

á dạng hính tắ ........................................................................... 9

..................................................................... 3

ogi .................................................................................. 5
á quy tắ thay thế ....................................... 7

1.2. Khai ph dữ liệu .................................................................................... 11
121
122

hái quát hai phá d
nh ngh a hai phá d

i u ............................................................. 11

i u ........................................................... 11

123

á

ủa quá tr nh hai phá d

124

hi m v trong hai phá d

i u ....................................... 13

i u .................................................... 14

1.3. T ng Quan về Visual Basic 6.0 ............................................................ 15
1 3 1 Sơ

ợc v Visual Basic.Net ............................................................ 15

1.3.2. Biến hằng và các ki u d li u. ........................................................ 16
1.3.3. Cấu trú

i u khi n ......................................................................... 20

1.4. Kết luận chương 1 ................................................................................. 23
Chương 2: Khai ph luật kết hợp .................................................................... 24
2.1. ài to n ph t hiện luật kết hợp ............................................................. 24
211


uật ết hợp .................................................................................... 24

212

hát i u

i toán uật ết hợp ....................................................... 29


213

i n

uật ết hợp tr n h th ng th ng tin nh ph n ............... 35

2.2. Thuật to n priori và priori - TID ..................................................... 41
221

huật toán priori .......................................................................... 41

222

huật toán priori - TID ................................................................ 46

2.2.3. Thuật toán phát hi n tập chỉ báo và luật kết hợp nh phân ............ 48
2.3. Luật kết hợp nhị phân trong khai ph dữ liệu ....................................... 51
2.4. Kết luận chương 2 ................................................................................. 59
Chương 3. Chương trình thử nghiệm luật kết hợp nhị phân chỉ dẫn sắp xếp
các loại tài liệu................................................................................................. 61

3.1. C c phương ph p bố trí các tài liệu trong c c thư viện, cửa hàng bán
sách. .............................................................................................................. 61
3 1 1 á ph ơng pháp trí các tài li u trong á th vi n, c a hàng
sách. .......................................................................................................... 61
3.1.2. Tìm hi u danh m c tham khảo tài li u trong các công trình: Báo
chí, báo cáo, giáo trình, sách nghiên c u................................................. 63
3.2. Lập trình đề mô ..................................................................................... 65
3 2 1 Sơ ồ thuật Toán ............................................................................. 65
3.2.2. Các giao di n và kết quả của h ơng tr nh .................................... 66
3.3. Kết luận h ơng 3 ................................................................................. 71
Kết Luận à Hướng Phát Tri n......................................................................73
Tài Liệu Tham Khảo.......................................................................................74


1

LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Khai phá dữ liệu hiện nay đã trở thành một trong những lĩnh vực được
các nhà khoa học quan tâm nghiên cứu bới tính ứng d ng cao trong thực tiễn
cuộc sống. Khai phá dữ liệu được ứng d ng rộng rãi trong nhiều lĩnh vực như:
Tài chính và thị trường chứng khoán, thương mại, giáo d c, y tế, sinh học,
bưu ch nh viễn thông ... với nhiều hướng tiếp cận như: Phân lớp dự đo n,
phân c m, Luật kết hợp ...
Trong khi mượn tài liệu tại thư viện, mua tài liệu tại các cửa hàng tài
liệu hoặc các kết nối (link) khi tìm kiếm trên mạng, người ta thường mượn
hoặc mua, ... nhiều tài liệu cùng một lúc và thường có các tài liệu này có liên
quan với nhau. Vì vậy việc bố trí chỗ sắp xếp tài liệu như thế nào đ hợp lý là
một vấn đề cần nghiên cứu. Điều này cần đến sự hỗ trợ của hệ chuyên gia và
của khai phá dữ liệu, đặc biệt là luật kết hợp nhị phân.

Xuất phát từ những l do đ , em đã quyết định lựa chọn đề tài: ―Khai
phá luật kết hợp nhị phân, ứng d ng sắp xếp các loại tài liệu ph c v đọc giả‖
cho đề tài luận văn thạc sĩ.
2. Mục đích nghiên cứu (Các kết quả cần đạt đƣợc)
Nghiên cứu t ng quan về khai phá luật nhị phân và các thuật toán liên
quan như:

priori,

priori-TID. Lập trình chỉ ra sự liên quan của các tài liệu

trong ―giao dịch‖ (mượn, mua hay tạo các link) theo luật kết hợp nhị phân.
3. Nhiệm vụ nghiên cứu


2
Tìm hi u về khai phá luật kết hợp nhị phân, các thuật toán Apriori,
Apriori-TI trong trường hợp nhị phân.
4. Đối tƣợng và phạm vi nghiên cứu
Khai phá dữ liệu, hệ chuyên gia, logic toán..., tìm hi u về cách sắp xếp
tài liệu trong thư viện, cửa hàng sách,...
5. Phƣơng pháp nghiên cứu
ùng phương ph p nghiên cứu lý luận: thông qua việc đọc các tài liệu
trên sách, báo các công trình nghiên cứu đã c đi tới xây dựng cơ sở lý thuyết
của luận văn, c c phương ph p giải quyết các vấn đề khi làm luận văn.
Phương ph p nghiên cứu thực nghiệm: Áp d ng thực tế những nghiên
cứu, thử nghiệm chương trình đ có kết quả c th .
6. Bố cục luận văn
Nội dung của luận văn được trình bày trong 3 chương và phần kết luận:
Chương 1: Cơ sở lý thuyết. Trong đ giới thiệu t ng quan về logic toán

học về quá trình khai phá dữ liệu, giới thiệu ngôn ngữ lập trình là cơ sở đi đến
chương 2 của luận văn.
Chương 2: Khai ph luật kết hợp. Chương 2 của luận văn trình bày t ng
quan về bài toán phát hiện luật kết hợp, giới thiệu thuật toán Apriori, AprioriTID, trình bày về luật kết hợp nhị phân.
Chương 3: Chương trình thử nghiệm luật kết hợp nhị phân chỉ dẫn sắp
xếp các loại tài liệu. Chương 3 của luận văn trình bày c c phương ph p bố trí
các tài liệu trong c c thư viện, cửa hàng bán sách. Lập trình đề mô chương
trình, sơ đồ thuật toán, các giao diện và kết quả chương trình.


3
Chƣơng . Cơ sở

thu ết

. . L gic t án học
c
Mệnh đề to n học cũng chỉ c hai gi trị: Đúng hoặc Sai. Gi trị đúng
hoặc sai của một mệnh đề được gọi là chân trị của mệnh đề. Chân trị đúng
được viết là 1, chân trị sai được viết là 0.
Mệnh đề sơ cấp e e entar proposition)
Là mệnh đề không th phân nh hơn được nữa - c th n i đ là ph t
bi u đơn giản nhất.
C c mệnh đề sơ cấp thường được gắn với c c k hiệu như c c chữ p, q,
r,.. mà ta gọi là c c biến logic.
Mệnh đề phức hợp: (compound proposition)
Mệnh đề phức hợp là mệnh đề được tạo ra từ c c mệnh đề sơ cấp hoặc
từ c c mệnh đề sơ cấp và c c mệnh đề phức hợp kh c b ng c ch dùng c c từ
liên kết như ―không‖ (NOT , ―và‖ ( N


, ―hoặc‖, (OR ,...

c
Ph p ph định
Ph p phủ định làm cho một mệnh đề c chân trị đúng trở thành đúng
trở thành sai và ngược lại. Ph p phủ định thường được dùng với k hiệu ¬, −,
;
Ph p h i
Hội của hai mệnh đề p và q, được k hiệu p  q:
Chân trị của p  q là 1 khi cả p lẫn q đều c chân trị 1.
Ph p tu n
Phép tuy n của mệnh đề p và mệnh đề q ký hiệu là p  q


4
Nhận xét:1. Mệnh đề p  q chỉ có chân trị 0 khi cả p và q đều có chân trị 0.
2. Mệnh đề p p luôn có chân trị 1, tức là mệnh đề p p luôn luôn đúng
3. Phép loại trừ của mệnh đề p và q được ký hiệu p  q
Phép kéo theo
Ph p k o theo, c nghĩa là ―Nếu ......thì..........‖, k hiệu là p  q (Nếu
mệnh đề p thì q được x c định theo bảng chân trị sau: (bảng 6)
Ghi chú: Ngoài c ch n i ―Nếu p thì q‖ của phép p  q, người ta còn có các
c ch n i tương đương như sau:
1. ―q nếu p‖
2. ―p chỉ nếu q‖
3. ―p là điều kiện đủ cho q‖
4. ―q là điều kiện cần cho p‖
Phép kéo theo 2 chi u ( ươ g ươ g)
Phép kéo theo 2 chiều, c nghĩa là ―Nếu và chỉ nếu‖, được ký hiệu là p
 q ( p nếu và chỉ nếu q)

Ghi chú:
1. p  q có chân trị 1 khi cả p lẫn q đều có cùng chân trị
2. C c c ch đọc khác:
+ ―p khi và chỉ khi q‖
+ ―p là điều kiện cần và đủ cho q‖
p

q

p

p

q

q

p  q p→q p↔q

¬p

¬(¬p)

0

0

0

0


0

1

1

0

0

0

1

0

1

1

1

0

0

0

1


0

0

1

1

0

0

0

0

1

1

1

1

0

1

1


0

0


5
Bảng 1.1. Các phép toán mệnh đề
Mức ưu ê của các phép toán logic
Thứ tự ưu tiên của c c ph p to n logic được liệt kê theo mức yếu dần
từ trên xuống dưới ở bảng 1.2.
Ký hiệu phép toán

Nghĩa của phép toán

¬, −,
,
, 

Phủ định
Hội, tuy n
K o theo, tương đương

Bảng 1.2. Mức ƣu tiên c a các phép toán logic
Ghi chú: Các phép toán trong cùng một dòng có thứ tự nhập nh ng
(không rõ ràng) vì vậy khi dùng chúng cần lưu

b sung thêm dấu (. đ chỉ

ra sự ưu tiên.

Ví d 1.1:
1/ p q c nghĩa là p  (q )
2/p  q  r s c nghĩa là ((p)  q)  (r (s ))
3/ p  q r còn không rõ ràng giữa 2 phép toán  và  cần cho thêm
dấu ( đ chỉ rõ sự ưu tiên.
u

ức

gc

Định nghĩa
Bi u thức logic có th nói chính là mệnh đề phức hợp, bi u thức logic
thường được ký hiệu bởi các chữ in to và nó là sự kết hợp của:
-

Các mệnh đề hay các giá trị h ng

-

Các biến mệnh đề hoặc các bi u thức logic

-

Các phép toán logic và các dấu ( )

Ví d 1.2: Cho p, q, r là các biến mệnh đề logic, F, G, H là các bi u thức
logic. Khi đ :
E = (p  ( q  r) )  (r  s),



6
P = E, F  G, (G  H)  (G  E)
Là những bi u thức logic.
Bảng chân trị c a bi u thức

gic

Là bảng liệt kê chân trị có th có theo mọi khả năng chân trị của các
biến mệnh đề (hoặc các bi u thức logic khác) có trong bi u thức.
Ví d 1.3: Lập bảng chân trị của các bi u thức logic p  q và  pq, p q.
Bảng chân trị được th hiện ở bảng 1.3.
p

q

pq

p

q

 pq

p q

0

0


1

1

1

0

1

0

1

1

1

0

1

0

1

0

0


0

1

0

1

1

1

1

0

0

0

1

Bảng 1.3. Bảng chân trị
Ví d 1.4: Lập bảng chân trị cho bi u thức p  (q  r).
Bảng chân trị được th hiện ở bảng 1.4.
p
0
0
0
0

1
1
1
1

q
r
p
q  r p  (q  r)
0
0
1
0
1
0
1
1
0
1
1
0
1
0
1
1
1
1
1
1
0

0
0
0
0
0
1
0
0
0
1
0
0
0
0
1
1
0
0
1
Bảng 1.4.Bảng chân trị c a p  (q  r)

Sự tƣơng đƣơng c a hai bi u thức

gic

Hai bi u thức logic E và F được gọi là tương đương với nhau và viết E
 F khi E và F có cùng chân trị.


7

Đ ki m tra xem 2 bi u thức logic c tương đương với nhau hay không
ta nên lập bảng chân trị cho 2 bi u thức đ , dựa vào kết qủa đ rút ra kết luận.
Hoặc chứng minh bi u thức này có th biến đ i đ được bi u thức kia và
ngược lại.
4

c uậ của

gc

Các uật c a

gic

c c quy ắc

ay

ế

1. Luật phủ định của phủ định: p  p
2. Luật giao hoán:

pqqp
pqqp

3. Luật kết hợp:

p  (q  r)  (p  q)  r
p  (q  r)  (p  q)  r


4. Luật phân phối:

p  (q  r)  (p  q)  (p  r)
p  (q  r)  (p  q)  (p  r)

5. Luật Demorgan:

 (p  q)  p  q
 (p  q)  p  q

6. Luật về phần tử bù:

p  p  1
p  p  0

7. Luật kéo theo:
8. Luật tương đương:

p  q  p  q
p  q  (p  q)  (q  p)

9. Các luật đơn giản của phép tuy n (  ):
pp p
p1 1
p0 p
p  (p  q)  p
10. Các luật đơn giản của phép hội (  ):
pp p



8
p1 p
p0 0
p  (p  q)  p
Các qu tắc tha thế
Quy tắc 1: (Quy tắc thay thế ươ g ươ g)
Cho E là bi u thức logic, nếu thay thế một biến hoặc bi u thức con của
nó bởi 1 bi u thức tương đương với bi u thức con đ , bi u thức logic E‘ mới
nhận được sẽ tương đương với E.
Ví d 1.5: E =  p  q
Vì q  q, do đ ta c th thay thế q bởi  q vào E và được
E‘ =  p  q. Dùng bảng chân trị cho E và E‘ ta sẽ thấy E  E‘.
Quy tắc 2: (Tính bất biế

ối với bi u thức logic hằ g ú g)

Cho E là một bi u thức h ng đúng, nếu thay thế một mệnh đề p nào đ
trong E bởi 1 bi u thức logic bất kỳ ta sẽ nhận được bi u thức logic E‘ mới
cũng là h ng đúng.
Ví du: E = (p  q)  ( p  q) thì E  1 (E là h ng đúng .
Thật vậy: Chúng ta có th thấy kết qủa này qua bảng chân trị dưới đây
(xem bảng 1.5)
p

q

p

pq


pq

0

0

1

1

1

0

1

1

1

1

1

0

0

0


0

1

1

0

1

1


9
Bảng 1.5. Chân trị c a p  q và  p  q

Bây giờ ta thay thế q trong E bởi q  r ta sẽ được:
E‘ = (p  (q  r))  ( p  (q  r)) theo quy tắc 2 ta cũng c E‘  1
(h ng đúng .
Ví dụ ứng dụng
Ví dụ 1.6:Chứng minh r ng: (p  q)  ( q  p)
Giải: (p  q)  p  q (theo luật kéo theo)
mà  p  q  q  p (theo luật giao hoán)
vậy (p  q)  q  p (theo luật bắc cầu)
q  p  q  p (theo luật phủ định)
mà  q  p  q  p (theo luật kéo theo)
hay  q  p  q  p
Vậy (p  q)  q  p (Điều phải c/m).
5


c dạ g c í

ắc

Bi u thức h i cơ bản và tu n cơ bản
Bi u thức hộ cơ bản
Bi u thức logic F = F (p1, p2, ...pn , trong đ pi ( i  1, n ) là các biến
mệnh đề sơ cấp, được gọi là bi u thức hội cơ bản, nếu:
F = q1 q2 ... qn
với qi = pi hoặc qi =pi ( i  1, n )
Ví d 1.7: F (x, y, z) = x y  z, trong đ x, y, z là c c biến mệnh đề sơ cấp.


10
Bi u thức tuy

cơ bản

Bi u thức logic E = E (p1, p2, ...pn , trong đ pi ( i  1, n ) là các biến
mệnh đề sơ cấp, được gọi là bi u thức tuy n cơ bản, nếu:
E = q1 q2 ... qn
với qi = pi hoặc qi =pi ( i  1, n )
Ví d : E (x, y, z) = x y  z, trong đ x, y, z là c c biến mệnh đề sơ cấp.
Bi u thức

gic chu n tu n và chu n h i

Bi u thức logic chuẩn tuy n
Bi u thức logic E = E (p1, p2, ...pn , trong đ pi ( i  1, n ) là các biến

mệnh đề sơ cấp, được gọi là dạng chuẩn tuy n, nếu:
E = E1 E2 ... En
trong đ mỗi Ei ( i  1, n ) là một bi u thức hội cơ bản của các pi ( i  1, n )
Ví d 1.8: E (x, y, z) = (x y  z)  (x  y  z)  (x  y z) là bi u thức
chuẩn tuy n vì E1 = (x y  z), E2 = (x  y  z) và E3 = (x  y z) là các
bi u thức hội cơ bản.
Đ nh lý: Mọi bi u thức logic E (p1, p2, ...pn đều tương đương với một
bi u thức chuẩn tuy n duy nhất. Tức là E (p1, p2, ...pn )  E1 E2 ... Em
(duy nhất ) với Ei ( i  1, m ) là các bi u thức hội cơ bản.
Ei = q1 q2 ... qnvới qi = pi hoặc qi =pi ( i  1, n ).
Bi u thức logic chuẩn hội
Bi u thức logic F = F (p1, p2, ...pn , trong đ pi ( i  1, n ) là các biến
mệnh đề sơ cấp, được gọi là chuẩn hội, nếu:
F = F1 F2 ... Fn
trong đ mỗi Fi ( i  1, n ) là một bi u thức tuy n cơ bản của các pi ( i  1, n )


11
Ví d 1.9: F (p1, p2, p3) = (p1p2 p3)  (p1 p2 p3)  (p1 p2 p3) là bi u
thức chuẩn hộivì F1 = (p1p2 p3), F2 = (p1 p2 p3) và F3 = (p1 p2 p3) là
các bi u thức tuy n cơ bản.
Đ nh lý: Mọi bi u thức logic F (p1, p2, ...pn

đều tương đương với một

bi u thức chuẩn hộiduy nhất. Tức là F (p1, p2, ...pn )F = F1 F2 ... Fm
(duy nhất ) với Fi ( i  1, m ) là các bi u thức tuy n cơ bản.
hay Fi = q1 q2 ... qnvới qi = pi hoặc qi =pi ( i  1, n ).
. . Khai phá dữ iệu
qu

a

d

u

Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và
các ký hiệu, hoặc c c ―đối tượng‖ với một

nghĩa nào đ khi được gửi cho

một chương trình dưới một dạng nhất định. Chúng ta sử d ng các bit đ đo
lường c c thông tin và xem n như là c c dữ liệu đã được lọc b c c dư thừa,
được rút gọn tới mức tối thi u đ đặc trưng một c ch cơ bản cho dữ liệu.
Chúng ta có th xem tri thức như là c c thông tin t ch hợp, bao gồm các sự
kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có th được hi u
ra, có th được phát hiện, hoặc có th được học. Nói cách khác, tri thức có th
được coi là dữ liệu c độ trừu tượng và t chức cao.
Phát hiện tri thức trong các CSDL là một qui trình nhận biết các mẫu
hoặc các mô hình trong dữ liệu với c c t nh năng: hợp thức, mới, có ích, và có
th hi u được. Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri
thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui
định về hiệu quả tính toán chấp nhận được đ tìm ra các mẫu hoặc các mô
hình trong dữ liệu. Nói một cách khác, m c đ ch của phát hiện tri thức và khai
phá dữ liệu chính là tìm ra các mẫu và/hoặc c c mô hình đang tồn tại trong
c c CS L nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu.
Đ

g a


a

d

u


12
Khai phá dữ liệu được dùng đ mô tả quá trình phát hiện ra tri thức
trong CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho
việc dự báo trong kinh doanh, các hoạt động sản xuất,... Khai phá dữ liệu làm
giảm chi phí về thời gian so với phương ph p truyền thống trước kia (ví d
như phương ph p thống kê . Sau đây là c c định nghĩa mang t nh mô tả của
nhiều tác giả về khai phá dữ liệu:
nh ngh a ủa Ferruzza:―Khai ph dữ liệu là tập hợp c c phương
ph p được dùng trong tiến trình khám phá tri thức đ chỉ ra sự khác biệt các
mối quan hệ và các mẫu chua biết bên trong dữ liệu‖.
nh ngh a ủa Parsaye: ―Khai ph dữ liệu là quá trình trợ giúp quyết
định, trong đ chủng ta tìm kiếm các mẫu thông tin chua biết và bất ngờ trong
CSDL lớn‖.
nh ngh a ủa Fayyad: ―Khai ph tri thức là một quá trình không tầm
thuờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và c
th hi u đuợc‖.
Các ứng d ng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều
lĩnh vực: thống kê, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song song...
Khai phá dữ liệu có nhiều ứng d ng trong thực tế, ví d nhu: Bảo hi m, tài
chính và thị truờng chứng khoán: phân tích tình hình tài chính và dự báo giá
của các loại c phiếu trong thị trường chứng khoán. Danh m c vốn và giá, lãi
suất, dữ liệu thẻ tín d ng, phát hiện gian lận,...

Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định:
Điều trị y học và chăm s c y tế: một số thông tin về chuẩn đo n bệnh
lưu trong c c hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu
chứng bệnh, chuẩn đo n và phương ph p điều trị.
Sản xuất và chế biến: Quy trình, phương ph p chế biến và xử lý sự cố.


13

Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt vãn bản.
Lĩnh vực khoa học: Quan s t thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và
một số bệnh di truyền,...
1.2.3. c bước của qu
a
d
u
Quy trình phát hiện tri thức thường tuân theo c c bước :
Bƣớc

t: Hình thành, x c định và định nghĩa bài to n. Là tim hi u

lĩnh vực ứng d ng từ đ hình thành bài to n, x c định các nhiệm v càn phải
hoàn thành. ước này sẽ quyết định cho việc rủt ra được các tri thức hữu ích
và cho phép chọn c c phương ph p khai ph dữ liệu thích hợp với m c đ ch
ứng d ng và bản chất của dữ liệu.
Bƣớc hai : Thu thập và xử l dữ liệu, là thu thập và xử l thô còn được
gọi là tiền xử l dữ liệu nh m loại b nhiễu, xử l việc thiếu dữ liệu, biến đ i
dữ liệu và rút gọn dữ liệu khi cần, ở bước này thường chiếm nhiều thời gian

trong toàn bộ quy trình ph t hiện tri thức.

ữ liệu được lấy từ nhiều nguồn

kh c nhau, không hề đồng nhất, c th gây nhầm lẫn. Sau bước này, dữ liệu sẽ
đồng nhất, đã rut gọn và rời rạc.
Bƣớc ba: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay
nói cách khác là trích ra các mẫu và các mô hình ẩn dưới các dữ liệu. Giai
đoạn này rất quan trọng, bao gồm c c công đoạn như: chức năng, nhiệm v và
m c đ ch của khai phá dữ liệu, dùng phương ph p khai ph nào? Thông
thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả đưa ra t nh chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc
phát hiện các suy diễn dựa trên dữ liệu hiện có.
Bƣớc bốn: Là hi u tri thức đã tìm được, đặc biệt là làm sáng t các mô
tả và dự đo n. C c bước trên có th lặp đi lặp lại một số lần, kết quả thu được


14

có th được lấy trung bình trên tất cả các lần thực hiện.
Bƣớc nă : Sử d ng các tri thức phát hiện được. Là hi u tri thức đã tìm
được, đặc biệt là làm sáng t các mô tả và dự đo n. C c bước trên có th lặp
đi lặp lại một số lần, kết quả thu được có th được lấy trung bình trên tất cả
các lần thực hiện. Các kết quả của quá trình phát hiện tri thức có th được đưa
và ứng d ng trong c c lĩnh vực khác nhau. Do các kết quả có th là các dự
đo n hoặc các mô tả nên chủng có th được đưa vào c c hệ thống hỗ trợ ra
quyết định nh m tự động hoá quá trình này.
4

g


a

d

u

Nhiệm v chính trong khai phá dữ liệu bao gồm: Phân lớp, Hồi qui,
Phân nhóm, T ng hợp, Mô hình hoá sự ph thuộc và phát hiện sự biến đ i và
độ lệch.
Phân lớp
Là việc x c định một ánh xạ đ ánh xạ các mẫu dữ liệu th a mãn ràng
buộc nào đ vào cùng một l p, do đ dữ liệu sẽ được phân thành các lóp có
th giao nhau hoặc không.
H i Qu
Là việc dùng một hàm dự b o đ từ các mẫu dữ liệu đã c hàm dự báo
sẽ cho một giá trị thực. Nhiệm v của hồi quy tuơng tự nhu phân lớp, đi m
khác nhau chính là ở chỗ thuộc t nh đ dự báo là liên t c chứ không phải rời
rạc. Việc dự báo các giá trị số thuờng đuợc làm bởi c c phuơng ph p thống kê
c đi n, chẳng hạn nhu hồi quy tuyến t nh. Tuy nhiên, phuơng ph p mô hình
ho cũng đuợc sử d ng, ví d : cây quyết định.
Ứng d ng của hồi quy là rất nhiều: dự báo thời tiết, uớc luợng sác xuất
nguời bệnh có th chết b ng cách ki m tra các triệu chứng; dự báo nhu cầu
của nguời dùng đối với một sản phẩm, khoáng sản v,v,...
Phân nhó


15
Là việc mô tả chung đ tìm ra các tập hay các nhóm, loại mô tả dữ liệu.
Các nhóm có th tách nhau hoặc phân cấp hay gối lên nhau. C nghĩa là dữ
liệu có th vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng d ng khai

phá dữ liệu có nhiệm v phân nhóm nhu phát hiện tập các khách hàng có phản
ứng giống nhau trong CSDL tiếp thị; x c định các quang ph từ c c phuơng
ph p đo tia hồng ngoại,... Liên quan chặt chẽ đến việc phân nhóm là nhiệm v
đ nh gi dữ liệu, hàm mật độ xác suất đa biến/ c c trường trong CSDL.
Tổng hợp
Là công việc liên quan đến c c phương ph p tìm kiếm một mô tả tập
con dữ liệu. Kỹ thuật t ng hợp thường áp d ng trong việc phân tích dữ liệu có
t nh thăm dò và b o c o tự động.
Nhiệm v chính là sản sinh ra các mô tả đặc trưng cho một lớp. Mô tả
loại này là một ki u t ng hợp, tóm tắt c c đặc tính chung của tất cả hay hầu
hết các m c của một lớp. Các mô tả đặc trưng th hiện theo luật có dạng sau:
―Nếu một m c thuộc về lớp đã chỉ trong tiền đề thì m c đ c tất cả các thuộc
t nh đã nêu trong kết luận‖. [3]
1.3. Tổng Quan về Visual Basic 6.0
Sơ ược v Visual Basic.Net
Visual Basic.NET (VB.NET) là ngôn ngữ lập trình khuynh hướng đối
tượng (Object Oriented Programming Language) do Microsoft thiết kế lại từ
con số không. Thật sự, đây là ngôn ngữ lập trình mới và rất lợi hại, không
những lập nền tảng vững chắc theo ki u mẫu đối tượng như c c ngôn ngữ lập
trình hùng mạnh kh c đã vang danh C++, Java mà còn dễ học, dễ phát tri n
và còn tạo mọi cơ hội hoàn hảo đ giúp ta giải đ p những vấn đề khúc mắc
khi lập trình. Hơn nữa, dù không kh khăn gì khi cần tham khảo, học h i hay
đào sâu những gì xảy ra bên trong ... hậu trường OS, Visual Basic.NET
( .NET giúp ta đối phó với các phức tạp khi lập trình trên nền Windows và
do đ , ta chỉ tập trung công sức vào các vấn đề liên quan đến dự án, công việc
hay doanh nghiệp mà thôi.
Sơ ƣợc về .Net


16

.NET là tầng trung gian giữa các ứng d ng (applications) và hệ điều
hành (OS). Tầng .NET cung cấp mọi dịch v cơ bản giúp ta tạo các công
d ng mà ứng d ng (application đòi h i, giống như hệ điều hành cung cấp các
dịch v cơ bản cho ứng d ng (application), tỷ như: đọc hay viết các tập tin
(files vào dĩa cứng (hard drive), ... Tầng này bao gồm 1 bộ các ứng d ng
(application) và hệ điều hành gọi là .NET Servers. Như vậy, .NET gần như là
một bộ sưu tập (collection) các nhu liệu và khái niệm kết hợp trộn lẫn nhau
làm việc nh m tạo giải đ p c c vấn đề liên quan.
1.3.2. Biến hằng và các ki u d li u.
Biến
Đ khai báo biến ta dùng lệnh Dim:
Dim <Tên biến > [As<ki u dữ liệu>]
Biến khai báo trong thủ t c chỉ tồn tại khi thủ t c thi hành. Nó sẽ biến
mất khi thủ t c chấm dứt. Giá trị của biến trong thủ t c là c c bộ đối với thủ
t c đ , nghĩa là ta không th truy nhập biến từ bên ngoài thủ t c. Nhờ đ , ta
có th dùng trùng tên biến c c bộ trong những thủ t c khác nha.
Ki u dữ liệu trong khai báo Dim có th là những ki u cơ bản như
Integer, String hoặc Currency. Ta cũng c th dùng đối tượng của
(như
Object, Form1, TextBox) hoặc của các ứng d ng khác.
Khai báo biến trong phần Declarations của một mô-đun nghĩa là biến
đ tông tại và có tầm hoạt động trong mô-đun đ .
Khai báo biến với từ kho Public nghĩa là biến đ tồn tại và có tầm hoạt động
của toàn ứng d ng .
Khai báo biến c c bộ với từ kho Static nghĩa là mặc dầu biến đ biến
mất khi thủ t c chấm dứt, nhưng gi trị của nó vẫn được giữ lại đ tiếp t c
hoạt động khi thủ t c được gọi trong lần sau.
Hằng
ùng đ chứa những dữ liệu tạm thời nhưng không thay đ i trong suốt
thời gian chương trình hoạt động. Sử d ng h ng số làm chương trình s ng sủa

và dễ đọc nhờ những tên gợi nhớ thay vì các con số. VB cung cấp một số
h ng định nghĩa sẵn, nhưng ta c th tự tạo h ng.
Ta có th dùng cửa s Object rowser đ xem danh sách các ứng d ng
h ng có sẵn của VB và VBA( Visual basic for Application). Các ứng d ng
khác cung cấp những thư viện đối tượng, như Microsoft Exel, Microsoft


×