Tải bản đầy đủ (.pdf) (84 trang)

Ứng dụng các kỹ thuật khai phá dữ liệu trên các cở sở dữ liệu liên quan đến giấy phép lái xe

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (23.38 MB, 84 trang )

IH

NG
IH

M

LU

NG D NG CÁC K THU T KHAI PHÁ
D LI
D LI U
N GI Y PHÉP LÁI XE
TH NG THÔNG TIN

LU
H TH NG THÔNG TIN

NG - 2018

ng -


IH

NG
IH

M

NG D NG CÁC K THU T KHAI PHÁ D


LI
D LI U LIÊN QUAN
N GI Y PHÉP LÁI XE

Chuyên ngành: H TH NG THÔNG TIN
Mã s : 848 01 04

LU

ng d n khoa h c:

ng -





iv

M CL C
L
...........................................................................................................i
TRANG THÔNG TIN LU
.......................................................... ii
M C L C .....................................................................................................................iv
DANH M C CÁC T VI T T T .............................................................................vi
DANH M C B NG BI U ........................................................................................ vii
DANH M C HÌNH ................................................................................................... viii
M
U .........................................................................................................................1

1. Lý do ch
tài ................................................................................................1
2. M c tiêu và nhi m v nghiên c u ......................................................................2
ng và ph m vi nghiên c u ......................................................................2
u ....................................................................................2
5. Ý
c và th c ti n c
tài ............................................................3
6. B c c lu
...................................................................................................3
T NG QUAN V KHAI PHÁ D LI U ................................................4
...............................................................................................................4
1.2. Các d ng d li u có th khai phá ..........................................................................4
ng ti p c
n và k thu t áp d ng .................................................6
c ng d ng .................................................................................................7
1.5. M t s
li u..................................................................7
n và quy n p ................................................................7
1.5.2. Cây quy
nh và lu t: .................................................................................8
n ..............................................................................8
1.5.4. M ng neural ..................................................................................................8
1.5.5. Gi i thu t di truy n .......................................................................................9
LU T K T H P VÀ THU T TOÁN TÌM LU T LU T K T H P
.......................................................................................................................................10
2.1. T ng quan v lu t k t h p ...................................................................................10
2.2. M t s khái ni
n ...................................................................................... 11
2.2.1 Lu t k t h p .................................................................................................11

h tr c a m t t p m c (itemset) ..........................................................11
2.2.3. T p m c ph bi n (frequent itemset): .........................................................11
a m t lu t: .............................................................................. 11
2.3. Bài toán khai phá d li u b ng lu t k t h p và các pha th c hi n..................12
2.4. M t s tính ch t c a t p m c ph bi n và lu t k t h p .................................... 14


v

2.4.1. M t s tính ch t v i t p m c ph bi n .......................................................14
2.4.2. M t s tính ch t c a lu t k t h p ................................................................14
2.5. Các lo i lu t k t h p............................................................................................. 15
2.6. Các thu t toán khai phá d li u nh lu t k t h p ............................................ 17
2.6.1. Khai phá lu t k t h
ut
d li u tác v ...............17
2.6.2. Khai phá lu t k t h

ng ...............................................................37

. NG D NG LU T K T H P KHAI PHÁ D LI U TAI N N
GIAO THÔNG .............................................................................................................40
3.1. M
u c a bài toán .......................................................................40
3.2. K t qu
c và phát tri n ng d ng .......................................................... 58
K T LU N .................................................................................................................. 59
TÀI LI U THAM KH O



vi

DANH M C CÁC T
TNGT
CSDL
GPLX
GPLX
HKBH
TT
TTTT

VI T T T


vii

DANH M C B NG BI U
S hi u
B ng 2.1.

Tên b ng
Ví d

Trang

d li u tai n n giao thông

B ng 2.2.

tin c y c a m t s lu t k t h


B ng 2.3.

Các ký hi u c a thu t toán Apriori.

13
c sinh ra t b ng 2.1

14
18

B ng 2.4.

d li

B ng 2.5.

Minh h a k t qu

B ng 2.6.

Danh sách L các m c

B ng 2.7.

D li u tai n n giao thông

38

B ng 3.1.


S li u tai n n

41

B ng 3.2.
B ng 3.3.
B ng 3.4.

minh h a thu t toán Apriori

20

c 1 c a thu t toán EP-growth.
cs px p

31

n
u khi
Hành khách b

30

43
n

43
n


44


viii

DANH M C HÌNH

S hi u

Tên hình

Trang

Hình 1.1

Quá trình khai phá d li u

5

Hình 2.1

B

32

Hình 2.2

Fp-tree ph thu c c

u m c liên k t và FP-tree v i CSDL D


36


1

M
1.

..v.v.

mình.

U


2

g tin.

2008.

3.1.

S


3

1


2

3


4

Ch

ng 1

T NG QUAN V KHAI PHÁ D

LI U
1980.

xem nh

-

1.

ng

kinh doanh mà tr
1.
2

:



nh Oracle, SQL Server, MS Access, ...

khai

nghi


5

patial, time

text &
nó.
hình 1:

Hình 1.

trình,..


6

-processing
and Preparation)

xem nh thông tin d
-


khai thác.

v.v.

1.3. Các h

h

-


7

nh

phóng nhanh v
..


1.4.
nh
ng
pháp
Thông tin th
.

1.5.
1.5.1. Ph
Ph
ng

ng pháp này
th
Ph


8

1.5

ng
1.5

là các
u
nh

1.5

cong ng


9

:

1.5
T t


10


Ch

ng 2

LU T K T H P VÀ THU T TOÁN TÌM LU T LU T K T H P
2.

t

:
n.

chân" và "say bia r

th
nh


11

2.
I = {I1, I2,..., Im
T = {t1, t2

m

Y,
I, Y


I, X

Y=

.

2.

quát t

sau:

Supp(X)=

T

DT

X

D

supp(X)
2.
supp(X)
2.

sau:
supp(r) = supp(X Y).


1

X.


12

Supp (X

Y) = P (X

Conf (X

Y) = P (Y/X) = supp(X Y)/supp(X)

Supp(X Y) = P(X

Y)

Y)

minsup

Conf(X Y) = P(Y/X) = supp(X Y)/supp(X) minconf Ng
th
2.
trên.
Cho

I x T).

nh

t

2I

I

sau:
Cho
conf(X

Y) = supp(X

theo h

Y)/ supp(X)

sau:

Pha 1:

Pha 2:
này t
conf
X'

X \ X'
X


X\

supp(X Y)
mincconf


13

minconf.
thông

(ID)
1

T1

T2

2

T1

T2

3

T3

N2
N3


T3

4

N1
N1

N2

T1

5

N3
T2

N1

sau:

T2

N1. Trong tr

conf (T2
2/3
67%
2d



14

2

T3

N1

100%

T2

N1

67%

T1

N3

67%

T1

N1

33%

2.

2.
supp(B).

không là
supp(B)

supp(B) minsup (theo
1, i2

-

k

u ý ng
2.
Z và Y
Xét tr

Y

.

Y=
Y

T

Y X
Y


Z thì X

Z=X
Z và Y

Y

Z

Z ch
Y

hay supp(X)>supp(X Y) và supp(Y)> supp(X


15

Y

Z => X

Y

X

Z
Y và Y

Z


Z.
T(Y) T(Z) t
conf (X

Y) = conf(Y Z) = minconf
Z) = minconf2

Z

(L-

(L-B) c
A.

Vì supp (B)

conf (B (L-B) =

sup p(L)

sup p(L)

sup p(B)

sup p( A)

min conf

-C)
và D


-D)

.
Vì D

=>

C nên (L-D)

(L-

sup p(L)
sup p(L

-D)

supp(L-C)

sup p(L)
D)

sup p(L

-D)

D)

Các
2.

5

:

min conf

C)

conf ((L-C)

C)

minconf.

C


×