Tải bản đầy đủ (.pdf) (123 trang)

Dự thảo Tóm tắt Luận án Tiến sĩ Toán học: Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu số lượng có sự phân cấp các mục

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 123 trang )

Đ I H C QU C GIA HÀ N I
TR

NG Đ I H C KHOA H C T

NHIểN

_______________________

NGUY N DUY HÀM

PHỄT TRI N M T S

THU T TOỄN HI U QU

KHAI THÁC T P M C TRểN C
Cị S

D

SỞ D

LI U S

PHỂN C P CÁC M C

TH O LU N ỄN TI N Sƾ TOỄN H C

HƠ N i ậ 2016

L



NG


Đ I H C QU C GIA HÀ N I
TR

NG Đ I H C KHOA H C T

NHIểN

_______________________

NGUY N DUY HÀM

PHỄT TRI N M T S

THU T TOỄN HI U QU

KHAI THỄC T P M C TRểN C
Cị S

SỞ D

LI U S

L

NG


PHỂN C P CÁC M C

Chuyên ngành: C

S

TOỄN CHO TIN H C

Mư s : 62.46.01.10

D

TH O LU N ỄN TI N Sƾ TOỄN H C
NG

IH

NG D N KHOA H C:
1. TS.NGUY N TH H NG MINH
2. PGS.TS. VẪ ĐỊNH B Y

HƠ N i ậ 2016


L I CAM ĐOAN
Tôi xin cam đoan lu n án này là công trình nghiên cứu do tác gi th c
hiện d

is h


ng d n của t p th cán b h

ng d n. Lu n án có sử dụng

thông tin trích d n từ nhiều ngu n tham kh o khác nhau, các thông tin trích
d n đều đ ợc ghi rõ ngu n g c. Các s liệu th c nghiệm, k t qu nghiên cứu
trình bày trong lu n án là hoàn toàn trung th c, ch a đ ợc công b b i tác gi
nào hay trong bất kì công trình nào khác.
Tác gi

Nguy n Duy Hàm

i


L IC M
Lu n án Ti n sƿ nƠy đ ợc th c hiện t i tr
ậ Đ i h c Qu c gia Hà N i v i s h

N
ng Đ i h c Khoa h c và T nhiên

ng d n khoa h c của TS. Nguy n Th H ng

Minh, PGS.TS.Võ Đình B y và TS. Lê Quang Minh. Nghiên cứu sinh xin bày tỏ
lòng bi t n sơu sắc t i thầy giáo, cô giáo h

ng d n đư đ nh h

ng khoa h c, t n


tơm giúp đỡ và ch b o t m trong su t quá trình nghiên cứu m i có th hoàn thiện
b n lu n án này. Nghiên cứu sinh luôn ghi nh công lao d y dỗ, dìu dắt vào con
đ

ng khoa h c của c

cứu sinh

PGS.TS Hoàng Chí Thành ậ ng

i đư h

ng d n Nghiên

giai đo n đầu làm nghiên cứu khoa h c. Nghiên cứu sinh xin chân thành

c m n các nhƠ khoa h c, tác gi các công trình nghiên cứu đư đ ợc trích d n trong
lu n án vì đơy lƠ ngu n tài liệu quý báu đ Nghiên cứu sinh phát tri n và hoàn thiện
các công b của mình.
Nghiên cứu sinh xin chân thành c m n Ban Giám hiệu, lãnh đ o Khoa Toán
ậ C ậ Tin h c, các thầy cô, gi ng viên B môn Tin h c ậ Tr

ng Đ i h c Khoa

h c T nhiên ậ Đ i h c Qu c gia Hà N i đư t o nh ng điều kiện thu n lợi nhất đ
Nghiên cứu sinh hoƠn thƠnh ch

ng trình h c t p và th c hiện hoàn tất lu n án của


mình.
Nghiên cứu sinh xin chân thành c m n Ban Giám hiệu Tr
ninh nhân dân, t p th giáo viên B môn Toán ậ Tin h c Tr

ng Đ i h c An

ng Đ i h c An ninh

nhơn dơn n i Nghiên cứu sinh công tác và các b n bè thân thi t đư luôn t o điều
kiện, đ ng viên, khuy n khích và hỗ trợ t i đa đ Nghiên cứu sinh hoàn thành b n
lu n án này.
Cu i cùng, con xin c m n B Mẹ, đặc biệt là Mẹ ậ ng

i đư luôn hy sinh tất

c vì s nghiệp h c t p của các con, rất ti c mẹ đư không đợi đ ợc đ n ngày con
hoàn thành lu n án. Xin c m

n gゥ。@ģ↓ョィ, ch gái vƠ các em đư luôn đ ng hành,

đ ng viên, chia sẻ giúp duy trì nhiệt huy t và ngh l c đ đi đ n hoàn thành b n
lu n án này./
TP.Hồ Chí Minh, tháng 04 năm 2016

ii


M C L C
L I CAM ĐOAN....................................................................................... I
L IC M


N ......................................................................................... II

M CL C

........................................................................................ III

DANH M C B NG................................................................................ VI
DANH M C CÁC HÌNH VẼ, Đ

TH ............................................... VIII

DANH M C CÁC KÍ HI U VÀ CH
MỞ Đ U
CH

VI T T T ................................ XI

.......................................................................................... 1

NG 1. T NG QUAN V KHAI THÁC T P M C .................... 7

1.1. Bài toán khai thác t p m c .................................................................................... 7
1.1.1. M t s đ

nh nghƿa
.................................................................................................. 7

1.1.2. Bài toán khai thác FI............................................................................................ 14


1.2. Các ph

ng pháp khai thác FI ...........................................................................15

1.2.1. Sh
áp khai
ng ph
thác FI trên CSDL ngang
1.2.2. Ph

...................................................... 15

ng pháp khai thác FI trên CSDL d c d a trên ITậtree................................ 17

1.3. M t s ph

ng pháp khai thác FWI vƠ FWUI trên QDB ............................20

1.3.1. Gi i thiệu ............................................................................................................. 20
1.3.2. Khai thác FWI ..................................................................................................... 21
1.3.3. Khai thác FWUI .................................................................................................. 24
1.3.4. Khai thác TRFIk ................................................................................................... 26

1.4. Khai thác FI tr ên CSDL có s phân c p các m c ..........................................27
1.5. Ti p c n bitậvector tr ong khai thác FI .............................................................30
1.6. K t lu n ch

CH

ng .....................................................................................................32


NG 2. KHAI THÁCT P M C PH

LI U S

L

BI N TRểN C SỞ D

NG .................................................................................. 34
iii


2.1. Thu t toán khai thác t p F WI ............................................................................34
2.1.1. Gi i thiệu ............................................................................................................. 34
2.1.2. Thu t toán tính giao của hai IWS ........................................................................ 38
2.1.3. Thu t toán khai thác FWI .................................................................................... 40
2.1.4. K t qu th c nghiệm............................................................................................ 46

2.2. Thu t toán khai thác F WUI ................................................................................51
2.2.1. Cấu trúc Multi bit segment .................................................................................. 51
2.2.2. Thu án
t to
xác đ

nh giao MBiS ........................................................................... 53

2.2.3. Thu t toán khai thác FWUI d a trên MBiSậtree ................................................ 54
2.2.4. K t qu th c nghiệm............................................................................................ 56


2.3. Thu t toán khai thác TRF WUI k .........................................................................61
2.3.1. M t s khái niệm ................................................................................................. 61
2.3.2. Cấu trúc DTab ..................................................................................................... 62
2.3.3. Cấu trúc TRậtree ................................................................................................. 62
2.3.4. Thu t toán khai thác TRFWUIk sử dụng cấu trúc d liệu DTab ......................... 63
2.3.5. Thu t toán khai thác nhanh TRFWUIk d a trên cấu trúc DHeap........................ 66
2.3.6. K t qu th c nghiệm............................................................................................ 70

2.4. K t lu n ch

CH

ng .....................................................................................................72

NG 3. KHAI THÁC T P M C PH

LI U S

L

BI N TRÊN C SỞ D

NG CÓ S PHÂN C P CÁC M C ............................... 74

3.1. Gi i thi u bài toán .................................................................................................74
3.2. Thu t toán khai thác F WUI tr ên H QDB ..........................................................78
3.2.1. Thu t toán xác đ nh weight cho các mục cha ...................................................... 78
3.2.2. Thu t toán thêm mục cha vào CSDL .................................................................. 79
3.2.3. Thu t toán khai thác FWUI ................................................................................. 80


3.3. M t s c i ti n nâng cao hi u qu khai thác F WUI tr ên HQ DB.................84
3.3.1. Cấu trúc EDBV.................................................................................................... 84
3.3.2. Tính tidset nút cha từ tidset nút con .................................................................... 89
3.3.3. Ki m tra m i quan hệ cha con đ i v i các mục trong t p mục ........................... 91

iv


3.3.4. Thu t toán khai thác nhanh FWUI trên HQDB ................................................... 92

3.4. K t qu th c nghi m .............................................................................................93
3.4.1. CSDL th c nghiệm .............................................................................................. 93
3.4.2. K t qu th c nghiệm............................................................................................ 94

3.5. K t lu n ch

ng .................................................................................................. 100

K T LU N VÀ H
1.

Các k t qu đ t đ

2.

H

NG PHÁT TRI N ............................................. 101
c ......................................................................................... 101


ng phát tr i n................................................................................................. 102

DANH M C CÔNG TRÌNH KHOA H C C A TÁC GI LIÊN QUAN
Đ N LU N ÁN .................................................................................... 103
TÀI LI U THAM KH O..................................................................... 104

v


DANH M C B NG
B ng 1.1.

Các giao d ch của BDB DB .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 8

B ng 1.2.

Các giao d ch của HDB DB .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 9

B ng 1.3.

ID của các mục của HBD DB.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 9

B ng 1.4.

Các giao d ch của HDB DB bằng ID. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN10

B ng 1.5.

Giao d ch của QDB DB. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN11


B ng 1.6.

Tr ng s các mục của QDB DB. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN11

B ng 1.7.

Các giao d ch của WDB DB .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN12

B ng 1.8.

Tr ng s của các mục của WDB DB. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN13

B ng 1.9.

BDB DB .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN14

B ng 1.10. BDB DB theo chiều d c. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN19
B ng 1.11. Giá tr tw của CSDL DB trong ví dụ 1.4 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN23
B ng 1.12. twu các giao d ch của DB trong ví dụ 1.4 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN25
B ng 1.13. HDB DB trong Ví dụ 1.2 sau khi thêm mục cha .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN30
B ng 2.1.

Bitậvector. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35

B ng 2.2.

DBV của bitậvector trong ví dụ 2.1 . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35

B ng 2.3.


IWS từ bitậvector trong ví dụ 2.1 . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35

B ng 2.4.

Ch s các bit 1 của IWS(X) .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN38

B ng 2.5.

M ng MAP . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN40

B ng 2.6.

IWS của các mục .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN44

B ng 2.7.

Mô t CSDL th c nghiệm.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47

B ng 2.8.

Bitậvector v i 96 phần tử .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN51

B ng 2.9.

MBiS từ bitậvector

B ng 2.10.

Topậrankậk. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 62


B ng 3.1.

Giao d ch của HD .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75

B ng 3.2.

Tr ng s .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75

B ng 3.3.

Tên mặt hàng của các mục .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75

B ng 2.8 . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN52

vi


B ng 3.4.

Giao d chcủa HD........................................................................................82

B ng 3.5.

Tr ng s ......................................................................................................82

B ng 3.6.

twu của các giao d ch.................................................................................82

B ng 3.7.


T p 1–itemset phổ bi n .............................................................................83

B ng 3.8.

M ng MAP v i65.535 phần tử ................................................................86

B ng 3.9.

Bi u di n s nguyên K d

B ng 3.10.

Mô t CSDL ...............................................................................................93

i d ng b n đo n, mỗ i đon là m t word ..86

B ng 3.11. Các mức trên cây phân cấp .......................................................................94
B ng 3.12. So sánh b nh và s l ợng các mục .....................................................94
B ng 3.13. Th c nghiệm trên CSDL SALEậFACTậSYNC ....................................95
B ng 3.14. So sánh th i gian ch y trên CSDL SALEậFACTậ1997 ......................99

vii


DANH M C CÁC HÌNH VẼ, Đ

TH

Hình 1.1.


Cây phân cấp Tr .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 9

Hình 1.2.

Cây phân cấp Tr bi u di n theo ID . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN10

Hình 1.3.

Thu t toán Apriori trong khai thác t p mục phổ bi n . NNNNNNNNNNNNNNNNNNNNNNNN16

Hình 1.4.

Thu t toán FPậGrowth d a trên cấu trúc FPậtree .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN17

Hình 1.5.

Thu t toán Eclat d a trên cấu trúc ITậtree . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN18

Hình 1.6.

Cây IT tree v i minsup = 0,5 của CSDL DB. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN19

Hình 2.1.

Thu án
t to
xác đ

Hình 2.2.


Thu t toán tính ws của t p mục X.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN T

Hình 2.3.

Thu t toán xây d ng cây IWSậtree . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN43

Hình 2.4.

Thu t toán khai thác FWI d a trên IWSậtreeNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTS@@

Hình 2.5.

IWSậtree v i nút A(minws = 0,4) .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 44

Hình 2.6.

IWSậtree v i nútA vàB(minws = 0,4) . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN45 @

Hình 2.7.

IWSậtree v i minws = 0,4 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN46

Hình 2.8.

So sánh th i gian ch y v i CSDL RETAIL. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47

Hình 2.9.

So sánh th i gian ch y v i CSDL BMSậPOS. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47


Hình 2.10.

So sánh th i gian ch y v i CSDL SALEậFACTậ1997. . NNNNNNNNNNNNNNNNNNN48

Hình 2.11.

So sánh th i gian ch y v i CSDL SALEậFACTậ1997+1998. .NNNNNNNNN48

Hình 2.12.

So sánh th i gian ch y v i CSDL SALEậFACTậSYNC. NNNNNNNNNNNNNNNNNN48

Hình 2.13.

So sánh th i gian ch y v i CSDL CONNECT. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN48

Hình 2.14.

So sánh th i gian ch y v i CSDL ACCIDENTS. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49

Hình 2.15.

So sánh b nh sử dụng v i CSDL RETAIL. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49

Hình 2.16.

So sánh b nh sử dụng v i CSDL BMSậPOS. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49

Hình 2.17.


So sánh b nh sử dụng v i CSDL SALEậFACTậ1997. . NNNNNNNNNNNNNNNNN49

nh giao hai IWS . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN39

viii


Hình 2.18.

So sánh b nh sử dụng v i CSDL SALEậFACTậ1997+1998. .NNNNNNN50

Hình 2.19.

So sánh b nh sử dụng v i CSDL SALEậFACTậSYNC. .NNNNNNNNNNNNNNN50

Hình 2.20.

So sánh b nh sử dụng v i CSDL CONNECT.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN50

Hình 2.21.

So sánh b nh sử dụng v i CSDL ACCIDENT. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN50

Hình 2.22.

Thu t toán xác đ nh giao hai MBiS . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN53

Hình 2.23.


Thu t toán tính wus d a trên MBiS . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN54

Hình 2.24.

Thu t toán khai thác FWUI d a trên MBiSậtree.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN56

Hình 2.25.

So sánh th i gian ch y trên CSDL RETAIL. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN57

Hình 2.26.

So sánh th i gian ch y trên CSDL BMSậPOS. . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN57

Hình 2.27.

So sánh th i gian ch y trên CSDL SALEậFACTậ1997. . NNNNNNNNNNNNNNNNNN57

Hình 2.28.

So sánh th i gian ch y trên CSDL SALEậFACTậ1997+1998...........58

Hình 2.29.

So sánh th i gian ch y trên CSDL SALEậFACTậSYNC. NNNNNNNNNNNNNNNNN58

Hình 2.30.

So sánh th i gian ch y trên CSDL CONNECT. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN58


Hình 2.31.

So sánh th i gian ch y trên CSDL ACCIDENTS. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNN58

Hình 2.32.

So sánh b nh sử dụng trên CSDL RETAIL. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN58

Hình 2.33.

So sánh b nh sử dụng trên CSDL BMSậPOS. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN59

Hình 2.34.

So sánh b nh sử dụng trên CSDL SALEậFACTậ1997. . NNNNNNNNNNNNNNNN59

Hình 2.35.

So sánh b nh sử dụng trên CSDL SALEậFACTậ1997+1998. . NNNNNN59

Hình 2.36.

So sánh b nh sử dụng trên CSDL SALEậFACTậSYNC. .NNNNNNNNNNNNNN59

Hình 2.37.

So sánh b nh sử dụng trên CSDL CONNECT.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN60

Hình 2.38.


So sánh b nh sử dụng trên CSDL ACCIDENT. .NNNNNNNNNNNNNNNNNNNNNNNNNNNNN60

Hình 2.39.

DTab v i k = 5 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN62

Hình 2.40.

Thu t toán t o TRậtree sử dụng DTab.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN64

Hình 2.41.

Thu t toán l c ra TRFWUIk .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN66

Hình 2.42.

DHeap v i k = 5 v i CSDL trong ví dụ 1.4. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN66
ix


Hình 2.43.

Thu t toán chèn m t nút m i vào DHeap .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN68

Hình 2.44.

Thu t toán t o TRậtree sử dụng DHeap .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN69

Hình 2.45.


Thu t toán l c ra TRFWUIk . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 70

Hình 2.46.

So sánh th i gian ch y trên CSDL MBSậPOS . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN70

Hình 2.47.

So sánh th i gian ch y trên CSDL RETAIL . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN71

Hình 2.48.

So sánh th i gian ch y trên CSDL CONNECT . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN71

Hình 2.49.

So sánh th i gian trên CSDL SALEậFACTậ1997 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNN71

Hình 2.50.

So sánh th i gian trên CSDL SALEậFACTậ1997+1998. NNNNNNNNNNNNNNNNNN71

Hình 2.51.

So sánh th i gian trên CSDL SALEậFACTậSYNC .NNNNNNNNNNNNNNNNNNNNNNNNNN72

Hình 3.1.

T p các cây phân c ấp Tr . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75


Hình 3.2.

Thu t toán tính weight cho các mục cha.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN79

Hình 3.3.

Thu t toán thêm mục cha vào CSDL .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN80

Hình 3.4.

Thu t toán khai thác FWUI từ HQDB .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN81

Hình 3.5.

Cây HITậtree v i CSDL HD và minwus = 0,6 . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN83

Hình 3.6.

Sử dụng các phép AND và d ch bit đ tách các đo n hai byte .NNNNNNNNNN87

Hình 3.7.

Thu t toán tính nhanh wus của các t p mục . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN89

Hình 3.8.

Thu t toán xác đ nh tidset các mục và tính twu của các giao d ch . NNNN90

Hình 3.9.


Thu t toán khai thác nhanh FWUI trên HQDB . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN93

Hình 3.10.

So sánh th i gian trên CSDL SALEậFACTậ1997 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNN97

Hình 3.11.

So sánh th i gian trên CSDLSALEậFACTậ1997+1998. NNNNNNNNNNNNNNNNNNN97

Hình 3.12.

So sánh th i gian trên CSDL SALEậFACTậSYNC .NNNNNNNNNNNNNNNNNNNNNNNNNN97

Hình 3.13.

So sánh th i gian trên CSDL SALEậFACTậ1997 .NNNNNNNNNNNNNNNNNNNNNNNNNNNNN98

Hình 3.14.

So sánh th i gian trên CSDL SALEậFACTậ1997+1998. NNNNNNNNNNNNNNNNNN98

Hình 3.15.

So sánh th i gian trên CSDL SALEậFACTậSYNC .NNNNNNNNNNNNNNNNNNNNNNNNNN98

x


DANH M C CÁC KÍ HI U VÀ CH

Stt

Từ vi t t t

1.

CSDL

Database

C s d liệu

2.

DBV

Dynamic bitậvector

Bit đ ng

3.

EDBV

Extended dynamic bitậvector

Bit đ ng m r ng

4.


EIWS

Extendedinterval word segment

Các đo n word m r ng

5.

FI

Frequent itemset

T p mục phổ bi n

6.

FPậtree

Frequent PatternậTree

Cây FP

7.

FWI

Frequent weighted itemset

8.


FWUI

Frequent weighted utility itemset

9.

HQDB

Hierachy quantitative database

10.

ITậtree

Itemset tidsetậtree

Cây ITậtree

11.

IWS

Interval word segment

Các đo n word

12.

MBiS


Multi bit segment

Các đo n bit 1 liên ti p

13.

BDB

Binary database

C s d liệu nh phân

14.

HDB

Hierachical database

15.

WDB

Weighted database

C s d liệu tr ng s

16.

MByS


Multi byte segment

Các đo n byte

17.

QDB

Quantitative database

C s d liệu s l ợng

18.

DTab

Dynamic table

B ng đ ng

19.

TRFIk

Topậrankậk frequent itemset

20.

TRFWUIk


Thu t ng ti ng Anh

VI T T T
Thu t ng ti ng Vi t

T p mục phổ bi n có
tr ng s
T p mục phổ bi n tr ng
s h u ích
C s d liệu s l ợng có
s phân cấp các mục

C s d liệu có phân cấp
các mục

Topậrankậk frequent weight
utility itemset

K nhóm t p mục phổ bi n
có thứ h ng cao nhất
K nhóm t p mục phổ bi n
tr ng s

h u ích có thứ

h ng k cao nhất
xi


21.


DHeap

Dynamic heap

Heap đ ng

22.

Item

Item

Mục

23.

Itemset

Set of items

T p mục

24.

LI

Large integer

S nguyên l n (tám byte)


xii


MỞ Đ U
S phát tri n m nh m của Công nghệ thông tin trong nh ng năm gần
đơy đư thúc đ y s phát tri n chung của toàn xã h i. V i các ứng dụng của
Công nghệ thông tin, con ng

i đư có nh ng “trợ thủ” đắc l c hỗ trợ mình

trong cu c s ng cũng nh trong công việc. Công nghệ thông tin ứng dụng
trong rất nhiều lƿnh v c đ a đ n s tiện lợi và k t n i m i ng

i trên khắp th

gi i l i v i nhau. Các ứng dụng nh ngơn hƠng điện tử, th

ng m i điện tử,

v.v… đư giúp cho con ng
thao tác thủ công tr
th

i ti t kiệm rất nhiều th i gian và công sức so v i

c đơy. Trong nh ng ứng dụng đó, thông tin, d liệu

ng xuyên đ ợc đ a vƠo đ các hệ th ng thông tin l u tr và xử lý. Bên


c nh đó, m t s l ợng l n các d liệu đ ợc c p nh t hàng ngày và t đ ng
l u tr thông qua các ho t đ ng của con ng
th ng thông tin, m ng xã h i, v.v…@ lƠm cho d

i khi t

ng tác v i các hệ

liệu càng ngày càng l n

và phức t p.
Ngoài việc phục vụ cho các hệ th ng thông tin ho t đ ng theo chức năng
sẵn có thì m t vấn đề đặt ra là làm sao có th khai thác hiệu qu các lo i d
liệu l u tr trong hệ th ng, tìm ra các tri thức quan tr ng, các quy lu t của
d liệu phục vụ cho việc đ a ra các d đoán, d báo nhằm hỗ trợ ra quy t
đ nh và các nhu cầu liên quan khác. Ví dụ từ c s d liệu (CSDL) của hệ
th ng bán hàng trong siêu th có th tìm ra đ ợc quy lu t (thói quen) mua
hàng của các khách hàng. Khách hƠng th
nhau? hay đ tuổi từ “A” đ n “B” th

ng mua các mặt hàng nào cùng v i

ng a thích mặt hàng nào?, v.v... Từ

đó đ giúp cho việc tri n khai các k ho ch phát tri n s n ph m hiệu qu h n
của các hệ th ng bán hƠng nh trung tơm th

ng m i, siêu th , v.v…

Khai thác tập mục phổ biến trên CSDL nhị phân

Từ nh ng yêu cầu thi t th c đó, lƿnh v c khai thác d liệu đư vƠ đang
đ ợc phát tri n m nh trong th i gian gần đơy. M t trong nh ng bài toán quan
tr ng trong khai thác d liệu đ ợc quan tâm nghiên cứu là khai thác t p mục
1


phổ bi n (frequent itemsets ậ FI), từ FI có th khai thác lu t k t hợp, đ a ra
nh ng d báo, d đoán vƠ tìm ra quy lu t của d liệu nhằm phục vụ cho các
nhu cầu khác nhau của con ng

i.

Thu t toán đầu tiên đ ợc bi t t i trong khai thác FI là đ ợc đề xuất b i
Agrawal và các đ ng s [2] năm 1993 sau đó chính Agrawal đề xuất thu t
toán Apriori [1] năm 1994. Tuy nhiên thu t toán này s m b c l h n ch về
th i gian xử lý do đ c CSDL nhiều lần. Ti p theo Han và các đ ng s đề xuất
thu t toán FPậGrowth [20] vƠ Grahne cùng các đ ng s đề xuất FP-Growth*
[16] d a trên việc nén d liệu lên cây FPậtree (frequent patternậtree) v i ch
hai lần đ c CSDL, đơy lƠ thu t toán hiệu qu về b nh sử dụng, song l i t n
th i gian cho duyệt cây FPậtree đ khai thác các FI. Ti p đ n Zaki và các
đ ng s

đề xuất thu t toán Eclat [54] d a trên cấu trúc ITậtree (Itemset

Tidsetậtree) v i ch m t lần đ c d liệu đ chuy n CSDL ngang thành CSDL
d c v i các mục và tidset (set of transactions ậ t p các giao d ch) của chúng.
Tuy nhiên, Eclat có h n ch là cần nhiều b nh đ l u tr tidset, do đó gián
ti p nh h

ng đ n hiệu qu về mặt th i gian của thu t toán này. Ti p theo


Zaki và các đ ng s [55] đề xuất cấu trúc diffset, v i t t

ng sử dụng phần

bù của tidset, nh ng cách lƠm nƠy ch th c s có hiệu qu trên CSDL dày.
Tuy nhiên, trong th c t CSDL th a m i là lo i CSDL phổ bi n.
M t s phát tri n gần đơy v i cấu trúc Nậlist [8, 9,10,11,12, 15, 28, 45]
là các nghiên cứu d a trên ti p c n FPậGrowth nhằm gi m b nh giúp gián
ti p c i ti n th i gian khai thác của h

ng ti p c n này. Tuy nhiên, các nghiên

cứu này m i đề c p trên CSDL nh phơn, ch a đ ợc nghiên cứu áp dụng trên
CSDL s l ợng, do đặc thù của CSDL s l ợng cần tính tr ng s các giao
d ch của các t p mục đ xác đ nh đ hỗ trợ của các t p mục, mƠ đơy lƠ m t
khó khăn của ti p c n FPậGrowth.
Khai thác tập mục phổ biến trên CSDL số lượng
Các chủ đề nghiên cứu trên CSDL s l ợng nh khai thác t p mục phổ
bi n có tr ng s (frequent weighted itemsetậFWI) [7, 23, 24, 27, 34, 37, 39,

2


42, 47, 48, 49, 50, 51, 52, 53] hay khai thác t p mục phổ bi n tr ng s h u ích
(frequent weighted utility itemset ậFWUI) [22, 35, 44 ], hay t p mục h u ích
cao - hight utility item set [14, 25, 26, 31] đư đ ợc quan tâm nghiên cứu nh .
Rakumar và đ ng s [23] đề xuất bài toán khai thác lu t k t hợp tr ng
s và m t framework đ khai thác FWI. Sau đó Tao và đ ng s [39] đề xuất
thu t toán khai thác FWI d a trên ti p c n Apriori v i hai đ đo tr ng s giao

d ch (transaction weight – tw) vƠ đ hỗ trợ tr ng s (weight support ậ ws), tuy
nhiên nh đư trình bƠy

trên cách ti p c n này rất t n th i gian do quét

CSDL nhiều lần. Ti p đ n, Vo và các đ ng s [42] đề xuất cấu trúc WITậtree
trong khai thác FWI và MWITậtree [44] trong khai thác FWUI theo ti p c n
Eclat [54] v i ch m t lần quét CSDL. H n ch của các ph

ng pháp nƠy lƠ

cần nhiều b nh l u tr tidset của các t p mục bằng các danh sách, làm t n
th i gian xác đ nh giao tidset của các t p mục, do đó th i gian khai thác ch a
đ ợc t i u.
M t bài toán m i đ ợc đặt ra và phát tri n gần đơy trong khai thác FI là
khai thác k nhóm t p mục phổ bi n có thứ h ng cao nhất (Topậrankậk
frequent itemsetậTRFIk) [8, 11, 15, 28] Khai thác FI thông th

ng không

ki m soát đ ợc s l ợng các t p mục phổ bi n tìm thấy. Trong nhiều tr

ng

hợp ch cần quan tơm đ n m t s l ợng nhất đ nh các FI, hay s l ợng các
nhóm FI có đ hỗ trợ l n nhất. Khai thác TRFIk gi i quy t đ ợc đòi hỏi này.
Bài toán khai thác TRFIk đư đ ợc Deng gi i thiệu vƠo năm 2007 [8] v i thu t
toán FAE, sau đó đ ợc Fang đề xuất thu t toán VTK [15] đ gi i quy t. Ti p
theo, Deng [11] đề xuất thu t toán NTK d a trên cây PPCậtree (Preậorder
Postậorder Code tree) và cấu trúc Nậlist. Gần đơy, Le vƠ các đ ng s [28] đề

xuất thu t toán iNTK là m t c i ti n của NTK. iNTK sử dụng cấu trúc Nậlist
v i khái niệm subsume đ ợc gi i thiệu trong [45]. Đây đ ợc xem là thu t
toán hiệu qu nhất cho đ n hiện nay, mặc dù iNTK t n th i gian cho việc t o
cây PPCậtree. Tuy nhiên, các nghiên cứu trên m i ch đề c p đ n CSDL nh

3


phân, còn trên CSDL s l ợng bài toán khai thác Topậrankậk v n ch a đ ợc
quan tâm nghiên cứu.
Khai thác tập mục phổ biến trên CSDL có sự phân cấp các mục
Bên c nh CSDL nh phân, CSDL s l ợng, thì CSDL có s phân cấp các
mục là lo i CSDL có nhiều trong ứng dụng th c t . CSDL có s phân cấp các
mục là CSDL có th hiện m i quan hệ khách quan gi a các mục d
cây phân cấp, các mục có mặt trong CSDL là các mục

i d ng

nút lá của cây phân

cấp. Năm 1995, Han vƠ các đ ng s [21] lần đầu tiên đề c p t i bài toán khai
thác FI trên CSDL có s phân cấp các mục. Ti p theo, Liu và các đ ng s
[32] đề xuất bài toán khai thác FI v i nhiều ng ỡng hỗ trợ trên CSDL có s
phân cấp các mục, theo đó, mỗi mục có m t ng ỡng hỗ trợ riêng biệt. Từ đó
đ n nay đư có nhiều nghiên cứu liên quan đ n bài toán này [4, 5, 6, 30, 32, 40,
41] . Tuy nhiên các ti p c n hiện nay đ i v i khai thác trên CSDL có s phân
cấp các mục còn có nhiều h n ch , trong đó đặc biệt là t n th i gian và b
nh đ thêm các mục cha trên cây phân cấp vào CSDL. Ngoài ra các nghiên
cứu hiện t i ch a đề c p trên CSDL s l ợng có s phân cấp các mục.
Động lực nghiên cứu của luận án

Bài toán khai thác FI trên m t s lo i CSDL nh đư phơn tích

trên mặc

dù đư đ ợc quan tâm nghiên cứu nhiều, nh ng cho đ n hiện nay các ph

ng

pháp khai thác FI trên các lo i CSDL s l ợng còn h n ch là t n b nh và
th i gian xử lý ch a đ ợc t i u. Mặt khác, khai thác FI trên CSDL s l ợng
có s phân cấp các mục hiện nay ch a đ ợc quan tâm nghiên cứu, mặc dù
đơy lƠ lo i CSDL có nhiều trong các ứng dụng th c t . Đ ng th i, CSDL s
l ợng có s phân cấp các mục là s k t hợp gi a CSDL s l ợng và CSDL có
s phân cấp các mục. Do đó, đề xuất thu t toán khai thác hiệu qu FI trên
CSDL s l ợng có s phân cấp các mục có th áp dụng đ khai thác hiệu qu
FItrên các CSDL s l ợng và CSDL có s phân cấp các mục, giúp c i thiện
th i gian và b nh trong khai thác FI trên các hệ th ng thông minh.

4


Trên c s đó, Nghiên cứu sinh ch n đề tƠi “PHÁT TRI N M T S
THU T TOÁN HI U QU KHAI THÁC T P M C TRÊN CSDL S
L

NG CÓ S

PHÂN C P CÁC M C” lƠm đề tài nghiên cứu cho lu n

án Ti n sƿ của mình. Lu n án h


ng đ n các mục tiêu sau:

1. Đề xuất một số cấu trúc dữ liệu mới, thuật toán mới để nâng cao hiệu
quả khai thác FWI và FWUI biến trên CSDL số lượng. Từ đó áp dụng cho
khai thác tập mục phổ biến trên CSDL số lượng có sự phân cấp các mục.
2. Đề xuất thuật toán hiệu quả để khai thác k nhóm tập mục phổ biến trọng
số hữu ích có thứ hạng cao nhất trên CSDL số lượng.
3. Đề xuất cấu trúc dữ liệu, thuật toán hiệu quả để khai thác FWUI trên
CSDL số lượng có sự phân cấp các mục.
Từ các mục tiêu nghiên cứu trên, lu n án đ ợc cấu trúc bao g m ngoài
phần m đầu và phần k t lu n, n i dung lu n án đ ợc trình bày trong ba
ch

ng:
Chương 1: “Tổng quan về khai thác t p mục” trình bƠy các khái niệm về

khai thác FI các ph

ng pháp khai thác FI, FWI, FWUI và TRFIk. Phân tích

u đi m và h n ch của các ph

ng pháp nƠy đ ng th i đề xuất h

ng nghiên

cứu của lu n án.
Chương 2: “Khai thác t p mục phổ bi n trên c s d liệu s l ợng”
trình bày m t s cấu trúc d liệu m i đ bi u di n tidset của các t p mục, trên

c s đó đề xuất các ph

ng pháp hiệu qu đ khai thác nhanh FWI, FWUI

trên CSDL s l ợng. Đ ng th i, trong ch

ng nƠy cũng đề xuất bài toán khai

thác k nhóm t p mục phổ bi n tr ng s

h u ích có thứ h ng cao nhất

(TRFWUIk) trên CSDL s l ợng và thu t toán hiệu qu đ gi i quy t bài toán
này v i hai cấu trúc DTab và DHeap.
Chương 3: “Khai thác t p mục phổ bi n trên c s d liệu s l ợng có
s phân cấp các mục” đề xuất thu t toán khai thác FWUI trên CSDL s l ợng

5


có s phân cấp các mục. Trình bày m t m r ng của cấu trúc d liệu trong
ch

ng 2 vƠ m t s đề xuất nhằm c i ti n thu t toán khai thác hiệu qu FWUI

trên CSDL s l ợng có s phân cấp các mục.

6



CH

NG 1.

T NG QUAN V KHAI THÁC T P M C

1.1. Bài toán khai thác t p m c
Mục đích của việc khai thác t p mục lƠ đ xác đ nh nhóm các mục (item)
có tần suất xuất hiện thỏa mãn m t ng ỡng nƠo đó của ng

i sử dụng đ a

vào. Trong đó, bƠi toán khai thác t p mục phổ bi n là m t bài toán con của
bài toán khai thác t p mục v i việc khai thác các t p mục có tần suất xuất
hiện nhiều trong CSDL. Tần suất xuất hiện này thỏa mưn ng ỡng do ng

i sử

dụng đ a vƠo (đ ợc g i lƠ ng ỡng phổ bi n). Từ các FI khai thác đ ợc có th
sinh ra t p lu t k t hợp nhằm khám phá m i quan hệ tiềm n, h u ích gi a các
mục trong CSDL, phục vụ các yêu cầu xuất phát từ đòi hỏi của th c t của
ng

i sử dụng. Có th nói, từ khi đ ợc gi i thiệu đ n nay, đư có khá nhiều

công trình nghiên cứu liên quan nhằm mục đích gi i quy t t t bài toán này.
Và hiện nay, bài toán khai thác t p mục đang đ ợc ti p tục nghiên cứu đ tìm
ra các gi i pháp hiệu qu h n.
N i dung ch


ng 1 s trình bày m t s đ nh nghƿa vƠ khái niệm liên

quan đ n bài toán khai thác t p mục trên m t CSDL nh CSDL nh phân,
CSDL có s phân cấp các mục, CSDL s l ợng và m t bi n th của CSDL s
l ợng là CSDL tr ng s . Đ ng th i ch

ng 1 gi i thiệu tổng quát m t s ti p

c n chính cho bài toán khai thác t p mục trên các lo i CSDL đó.
1.1.1. Một số định nghĩa
Định nghĩa 1.1. CSDL nhị phân (Binary DatabaseậBDB) là m t b

g m hai thành phần: T, I trong đó:

T = {t1, t2, ..., tm} là t p g m m giao d ch của CSDL
I = {i1, i2, ..., in} là t p g m n mục trong CSDL
Trong đó
n].

={

,

,…,



} trong đó

7


=

hoặc

v i i = [1, …,


Ví dụ 1.1: Cho CSDL DB v i t p các mục I = {A, B, C, D, E} và t p các
giao d ch T đ ợc bi u di n b i B ng 1.1 nh sau:
B ng 1.1. Các giao d ch của BDB DB
Mục

A

B

C

D

E

t1

1

1

0


1

1

t2

0

1

1

1

0

t3

1

1

0

1

1

t4


1

1

1

0

1

t5

1

1

1

1

1

t6

0

1

1


0

1

Giao d ch

Các mục xuất hiện trong m t giao d ch của CSDL t

ng ứng có giá tr 1,

ng ợc l i có giá tr 0. Ví dụ giao d ch t1 = {1, 1, 0, 1, 1} có nghƿa các mục A,
B, D, E có trong giao d ch, mục C không có trong giao d ch.
CSDL nh phân là CSDL bi u di n s xuất hiện hay không của các mục
trong các giao d ch. Trong nhiều tr

ng hợp, các mục trong CSDL có m i

quan hệ v i nhau đ ợc th hiện qua các cây phân cấp, ví dụ "computer" là
mức khái quát của "Desktop" và "Notebook", hay "Printer" là mức khái quát
của "Laser priter", "Ink-Jet printer", v.v… Nh ng CSDL có th hiện m i quan
hệ của các mục thông qua cây phân cấp đ ợc CSDL nh phân có s phân cấp
các mục.
Định nghĩa 1.2. CSDL nhị phân có sự phân cấp các mục

(Hierarchical Database–HDB) là m t b g m ba thành phần: T, I, Tr, trong
đó:
T = {t1, t2, ..., tm} là t p g m m giao d ch của CSDL
I = {i1, i2, ..., in} là t p g m n mục trong CSDL


8


Trong đó,

,

={

n].

,… ,



} trong đó

=

hoặc v i i = [1, …,

Tr là cây phân cấp th hiện m i quan hệ của các mục trong CSDL.
Cho HDB DB có t p các mục I = {Desktop, Dot–matrix printer, Ink–jet
printer, Laser printer, Notebook, Scanner}, các giao d ch T đ ợc bi u di n
nh B ng 1.2 và cây phân cấp th hiện quan hệ các mục nh Hình 1.1.
B ng 1.2. Các giao d ch của HDB DB
Giao d ch

Mục


t1

Notebook, Laser printer

t2

Scanner, Dot–matrix printer

t3

Dot–matrix printer, Ink–jet printer

t4

Notebook, Dot–matrix printer, Laser printer

t5

Scanner

t6

Desktop

Printer
Non ậ impact

Laser

Computer


Dot ậ matrix

Desktop

Scanner

Notebook

Ink ậ jet

Hình 1.1. Cây phân cấp Tr
Đ đ n gi n, ta gán các mục trên cây phân cấp Tr bằng các ID nh B ng 1.3:
B ng 1.3. ID các mục của HBD DB
ID mục

Tên mục

A

Desktop

B

Inkậjet Printer

C

Laser Printer


D

Notebook

9


E

Scanner

F

Dotậmatrix Printer

G

Nonậimpact

H

Computer

K

Printer

Từ ID đ ợc đ nh nghƿa trong B ng 1.3, các giao d ch trong B ng 1.2 và
cây phân cấp Tr đ ợc bi u di n l i nh trong B ng 1.4 và Hình 1.2.
B ng 1.4. Các giao d ch của HDB DB bằng ID

Giao d ch

mục

t1

D, C

t2

E, F

t3

F, B

t4

D, F, C

t5

E

t6

A
H

K

G
C

Hình 1.2.

A

F

E
D

B

Cây phân cấp Tr bi u di n theo ID

T p J = {G, K, H} là t p các mục cha của cây phân cấp không xuất hiện
trong các giao d ch của CSDL DB. Tuy nhiên chúng có vai trò nhất đ nh, th
hiện m i quan hệ của các mục trong CSDL DB. Do đó, khi khai thác FI trên
CSDL phân cấp đòi hỏi ph i khai thác c t p các mục trên cây phân cấp bao
g m (I

J).

CSDL nh phân là CSDL th hiện s có mặt hay không của mục trong
các giao d ch của CSDL mƠ không quan tơm đ n giá tr (tr ng s , lợi ích, s

10



l ợng, v.v…) của các mục trong các giao d ch. Trong nhiều ứng dụng th c t
nh CSDL bán hƠng trong siêu th , CSDL đ n thu c, v.v… mỗi mục trên mỗi
đ n hƠng th

ng kèm theo s l ợng và giá tr của chúng. Các CSDL d ng

nƠy đ ợc g i là CSDL s l ợng.
Định nghĩa 1.3. CSDL số lượng (Quantitative DatabaseậQDB) là m t

b ba thành phần: T, I, W, trong đó:

T = {t1, t2, ..., tm} là t p g m m giao d ch của CSDL
I = {i1, i2, ..., in} là t p g m n mục trong CSDL
W = {w1, w2, …, wn} là t p g m n tr ng s của các mục t

ng ứng trong

t pI
Trong đó, tk = {

,

, …,



} là giao d ch thứ k,

là s nguyên ch


s l ợng của mục thứ i trong giao d ch, k = 1.. m.
Ví dụ 1.2: Cho QDB DB v i t p các mục I = {A, B, C, D, E}, các giao
d ch T đ ợc bi u di n trong B ng 1.5, tr ng s các mục nh trong b ng 1.6.
B ng 1.5. Giao d ch của QDB BD
G iao d ch

A

B

C

D

E

1

1

0

4

1

0

1


3

0

1

2

1

0

3

2

3

1

1

0

1

1

2


2

1

3

0

1

1

1

0

B ng 1.6. Tr ng s các mục trong QDB DB
Mục

Tr ng s

A

0,6

B

0,1

11



×