Tải bản đầy đủ (.pdf) (24 trang)

Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (704.68 KB, 24 trang )


1
H

C

VI

N

CÔNG

NGH


BƯU

CHÍNH

VIỄ
N

THÔNG





















NGUY

N

ANH

NGUYÊN





ĐỀ TÀI:
NGHIÊN

C

U


QUY

TRÌNH

ETL

TRONG

KHO

D


LI

U


NG

D

NG

VÀO

H



TH

NG

D


LI

U

KINH

DOANH

TRONG

DOANH

NGHI

P

VI

N

THÔNG





Chuyên

ngành:

Khoa

h

c

máy

tính



s

:

60.48.01



TÓM

T


T

LU
ẬN

VĂN

THẠC











HÀ NỘI -2012


2
Lu
ận văn đượ
c

hoàn

thành


t

i:
HỌC

VIỆN

CÔNG

NGHỆ

BƯU

CHÍNH

VIỄN

THÔNG


Người hướng dẫn khoa học:

TS PHẠM THẾ QUẾ



Phản biện
1:………………………………………………………………………….
………………………………………………………………………….

………………………………………………………………………….



Phản biện 2:…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………




Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Côngnghệ
Bưu chính Viễn thông

Vào

lúc:

giờ ngày tháng năm










Có thể tìm hiểu luận văn tại:

-
Thư việ
n

c

a

H

c

vi

n

Công

ngh
ệ Bưu chính Viễ
n

thông




3

M



ĐẦ
U


1.



do

ch
ọn

đề

tài

Ngành

công

nghi

p

vi

n


thông

sau

nh
ững năm phát triển đang lưu trữ
m

t

kh
ối lượ
ng

d

li

u

kh

ng

l

,

bao


g

m

các

d

li
ệu như thông tin về
khách

hàng,

chi

ti
ế
t

cu

c

g

i,

các


d

ch

v

thuê

bao,

thông

tin

c

nh

b

o

tình

tr

ng

h


th

ng

m

ng

vi

n

thông,

d

li

u

v

h

th

ng

cáp


vi
ễn thông v.v Lượ
ng

d

li

u

kh

ng

l

này

n
ếu đượ
c
khai thác đúng cách sẽ


m

t

l


i

th
ế
cho

các

doanh

nghi

p

vi

n

thông

trong

vi

c

tung

ra


các

d

ch

v
ụ chăm sóc khách hàng
hay

các

ng

d

ng

mang

tính

th

c

ti
ễn cao,


đồng nghĩa vớ
i

vi
ệc tăng cơ hộ
i

c
ạnh tranh đố
i

v

i

các

doanh

nghi

p

khác.

T
ừ đó yêu cầu đặ
t

ra


vi

c

xây

d

ng

kho

d

li

u

t

nh

ng

ngu

n

d


li

u

trên

ph

c

v

cho

vi

c

phân

tích

kinh

doanh

t
ại các đơn vị
vi


n

thông.

Tuy

nhiên

vi

c

xây

d

ng

m

t

h

th

ng

nh

ư
th
ế
v

p

ph

i

m

t

s

h

n

ch
ế
v

m

t

k


thu

t,

đặ
c

bi

t



khi

kích

th
ướ
c

cũn
g

nh
ư

độ


ph

c

t

p

c

a

môi

tr
ườ
ng

thông

tin

ng

lên.

L
ư
u


tr


phân

tán

nhi

u

d

ng

không

t
ươ
ng

thích

v

i

nhau,

th


m

chí

còn



nh

ng

d

ng

phi

c

u

trúc.

Nhi

u

h



CSDL

đ
ã

đượ
c

xây

d

ng

không

t
ươ
ng

thích

v

i

nhau




không

t
ươ
ng

thích

v

i

nh

ng

h

thông

tin

m

i
đượ
c


xây

d

ng.

Nhi

u

khách

hàng

không

tho

mãn

v

i

nh

ng

h



th

ng

thông

tin

hi

n

th

i.

Kho

d

li
ệu thườ
ng

bao

g

m


các

thành

ph

n

khác

nhau,

m

i

thành

ph

n



thi
ế
t

k

ế
,

kĩ thuậ
t



công

c
ụ riêng [6]. Trong đó hệ
th

ng

ETL



m

t

thành

ph

n


chính

ch

u

trách

nhi

m

cho

quá

trình

ETL

(

Extract,

Transform,

Load)

trong


kho

kho

d

li

u;

cho

phép

trích

rút

các

d

li

u

t

nhi


u

ngu

n

khác

nhau,

làm

s

ch,

tùy

ch

nh



chuy
ển đổ
i,




cu

i

cùng

t

i

vào

kho

d


li

u[1].

Vi

c

xây

d

ng


ETL

chi
ếm đế
n

80%

phát

tri

n

d


án



55%

th

i

gian


c

a

kho

d

li

u

[4].



v

y

vi
ệc đánh giá đúng vai trò củ
a

quá

trình

ETL


t
ừ đó có thể
th



hình

hóa,

thi
ế
t

k
ế


t
ối ưu ETL trong việ
c

xây

d

ng

kho


d


li

u

s

quy
ết đị
nh

s

thành

b

i

c

a

kho

d

li


u

[6].

Với mục đích nghiên cứu về
các

quá

trình

ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài

“Nghiên

cứu

qu
y

trình

ETL

trong

kho


dữ

liệu

ứng

dụng

vào

hệ

thống

dữ

liệu

kinh

doanh

trong

doanh

nghiệp

viễn


thông

.

1.

Mụ
c

đ
ích

c

a

đề

tài:

Ti
ế
p

c

n

các


ph
ươ
ng

pháp
tìm hiểu các bước trong một quy trinh
xây
dựng một hệ thống ETL, các phương án xử lý trong từng trường hợp cụ thể để có thể áp
dụng trong các bài toán thực tế.
2.

Đố
i

t
ượ
ng



ph

m

vi

nghiên

c


u:

Vi

c

nghiên

c

u

s


t

p

trung

vào



thuy
ế
t


xây

d

ng

h

th

ng

ETL,

áp

d

ng

vào

xây

d

ng

ch
ức năng trích xuấ

t

v

i

ngu

n

d


li

u

t

h

4

th

ng

d

li


u

Vinaphone.

3.

Ph
ươ
ng

pháp

nghiên

c

u:

Tìm

hi

u

các

tài

li


u

liên

quan

đế
n

các

k

thu

t

ELT

trong

kho

d

li
ệu, các phương pháp xây dự
ng


h

th

ng

ETL.

4.

K
ế
t

c

u

c

a

lu

n

v
ă
n


Lu
ận văn gồm 3 chương
Chương

1:

T

ng

quan

v

ETL

trong

kho

d

li

u

Chương này trình bày các khái niệ
m,

các


thành

ph

n,

ch
ức năng trong kho dữ
li

u,

các

ng

d
ụng cũng như nhữ
ng



hình

kho

d

li


u.

T

ng

quan

v

ETL,

các

thành

ph

n



vai

trò

ETL

trong


kho

d

li

u

Chương

2:

Ki
ế
n

trúc



các

thành

ph

n

ETL


Chương này tậ
p

trung

vào

chi

ti
ế
t

các

thành

ph

n

c
ủa ETL, các bướ
c

th

c


hi

n

c

a

m

t

h

th

ng

ETL,

nh

ng

v
ấn đề
g

p


ph

i

v

i

m

i

thành

ph

n

c

th

trong

m

t

h


th

ng

ETL.

Các

bi

n

pháp

gi

i

quy
ế
t

v

i

m

i


tình

hu

ng

trong

nh

ng

bài

toán

c

th

.

Chương

3:

Xây

d


ng

modul

trích

xu

t

d

li

u

trong

ETL.

Chương cuố
i

cùng

c

a

lu

ận văn trình bày mộ
t

th

nghi

m

nh

áp

d

ng

ph

n



thuy
ết đã nêu ở
2
chương trước. Đó là áp dụ
ng

th


nghi
ệm phương pháp trích xuất đã
nghiên

c

u

trong

ph

n



thuy
ế
t

vào

bài

toán

trích

xu


t

d

li

u

t

h

th

ng

d

li

u

chi

ti
ế
t

cướ

c



d

li

u

c

a

h

th

ng

tr
ả trướ
c.
5

CHƯƠNG

1.

TỔNG


QUAN

VỀ

ETL

TRONG

KHO

DỮ

LIỆU

1.

Kho

d


li

u

1.1.

Khái


ni

m

kho

d


li

u


Định nghĩa

do W.H.Inmon đưa ra :
Kho

d

li

u

(Data

Warehouse)




t

p

h

p

d

li

u

tích

h
ợp theo hướ
ng

ch
ủ đề
,
tương đố
i
ổn đị
nh,c

p


nh

t
đị
nh

k

nh

m

h

tr

quá

trình

t

o

quy
ế
t

đị

nh.[2]

Như vậ
y,



th

th

y

r
ằng thông thườ
ng

m

t

kho

d

li
ệu được xem như một cơ sở
d

li


u

đượ
c

duy

trì

riêng

bi

t
trên cơ sở
d

li

u

t

nhi

u

ngu


n
cơ sở
d

li

u

tác

nghi

p.


1.1.2.

Các

đặc

trưng

của

kho

dữ

liệu


M

t

kho

d

li

u
đượ
c

xác
đị
nh



m

t

c
ơ
s

d


li

u

trong
đ
ó



ch

a

b

n
đặ
c

tính

sau:

h
ướ
ng

ch

ủ đề
,

tính

n
đị
nh,
đượ
c

tích

h

p,

g

n

v

i

th

i

gian.



1.1.3.

Kiến

trúc

kho

dữ

liệu



hình

ki
ế
n

trúc

c

a

h


th

ng

kho

d

li
ệu cơ bả
n

g

m



ba

thành

ph

n:

D

li


u

ngu

n,

vùng

d

li

u

trung

gian



kho

d

li

u

.





















Hình

1.1.

Ki
ế
n

trúc

kho


d


li

u

1.1.3.1.

Kho

d


li

u

ch


đề

(Datamart)

Kho

d


li

u

ch
ủ đề
(Data

Mart)

c
ũ
ng



m

t

s

d

li

u




nh

ng
đặ
c
đ
i

m

gi

ng

v

i

kho

d

li

u

nh
ư
ng


quy



c

a



nh


h
ơ
n



l
ư
u

tr


d


li


u

v


m

t

lĩn
h

v

c,

m

t

chuyên

ngành

c

th

.




2

lo

i

-

Datamart

ph

thu

c.

6

-
Datamart độ
c

l

p.

1.1.3.2.


Siêu

d


li

u

(MetaData)

Metadata



m

t

lo

i

“d

li

u


v

d

li

u”,


đượ
c

xây

d

ng

nh

m

m

c
đ
ích




t

c

u

trúc

n

i

dung

v

d

li

u

bên

trong

c
ơ
s


d

li

u.

Metadata



ý

ngh
ĩ
a

đặ
c

bi

t

quan

tr

ng

trong


vi

c

xây

d

ng



t


ch

c

l
ư
u

tr


d



li

u

c

a

Data

Warehouse.

1.1.3.3.



sở

d


li

u

kho

d



li

u

Cơ sở
d

li

u

t

p

trung



m

t

n

n

t
ảng cơ bả
n


c
ủa môi trườ
ng

kho

d

li
ệu. Cơ sở
d

li

u

này

h

u

h
ết được cài đặ
t

d

a


trên

công

ngh

c

a

H

th

ng

qu

n

tr
ị cơ sở
d

li

u

quan


h

(RDBMS).


1.1.4.

Các

ứng

dụng

của

kho

dữ

liệu

Kho

d

li
ệu đượ
c


s

d

ng

theo

ba

cách

chính:

Cách

s


d

ng

truy

n

th

ng



Trong

cách

s

d

ng

này

vi

c

khai

thác

thông

tin

d

a


trên

các

công

c

truy

v

n



báo

cáo.

Nh




vi

c

trích


l

c,

tích

h

p



chuy

n

đổ
i

các

d


li

u

thô


sang

d

ng

d

li

u



ch

t

l
ượ
ng

cao





tính


n
đị
nh.

H


tr


tr

c

tuy
ế
n

(OLAP)


N
ế
u

ngôn

ng


truy

v

n

chu

n

SQL



các

công

c

làm

báo

cáo

truy

n


th

ng

ch



th

miêu

t


nh

ng





trong

c
ơ

s



d


li

u

thì

phân

tích

tr

c

tuy
ế
n



kh



ng


phân

tích

d


li

u,

xem

xét

xem

gi


thuy
ế
t



đún
g

hay


sai.

Tuy

nhiên

phân

tích

tr

c

tuy
ế
n

l

i

không



kh




ng

đư
a

ra

gi


thuy
ế
t.

Do

kích

th
ướ
c

quá

l

n






tính

ch

t

ph

c

t

p

nên

khó



th

s

d

ng


Data

Warehouse

cho

m

c
đ
ích

này.


Công

ngh


khai

phá

d


li


u

(Data

mining)


Trong

hoàn

c

nh

hi

n

nay

s

phát

tri

n

c


a

d

li

u
đặ
t

ra

yêu

c

u

ph

i

l
ư
u

tr



d

li

u

ph

c

t

p





kích

th
ướ
c

l

n.

Vi


c

khai

phá

d


li

u

tr


thành

m

t

nhu

c

u

khoa


h

c



trong

ho

t
độ
ng

th

c

ti

n.


1.1.5.

Thiết

k
ế


CSDL

cho

kho

dữ

li

u

1.1.5.1.

Gi

n
đồ
hình

sao
7

Gi

n
đồ
hình

sao

đượ
c
đưa
ra

l
ần đầ
u

tiên

b

i

Raph

Kimball
như


m

t

l

a

ch


n

thi
ế
t

k
ế
CSDL

cho

kho

d

li

u.

Trong

gi

n
đồ
hình

sao,


d

li

u
đượ
c

xác
đị
nh



phân

lo

i

theo

2

ki

u:

s


ki

n

(b

ng

Fact)



chi

u

(các

b

ng

Dimension:

các

b

ng


liên

k
ế
t).

1.1.5.2.

Gi

n
đồ
hình

tuy
ế
t

r
ơ
i

Gi

n
đồ
hình

tuy

ế
t

r
ơ
i



m

t

s

m

r

ng

c

a

gi

n
đồ
hình


sao,

t

i
đó
m

i

cánh

sao

không

ph

i



m

t

b

ng


Chi

u





nhi

u

b

ng.

Trong

d

ng

gi

n
đồ
này,

m


i

b

ng

theo

chi

u

c

a

gi

n
đồ
hình

sao
đượ
c

chu

n


hóa
hơn.
Gi

n
đồ
hình

tuy
ế
t

r
ơ
i

c

i

thi

n
năng
su

t

truy


v

n,

t

i

thi

u

không

gian
đĩa

c

n

thi
ế
t

để

lưu


tr


d


li

u



c

i

thi

n

năng

su

t

nh


vi


c

ch


ph

i

k
ế
t

h

p

nh

ng

b

ng



kích


th
ướ
c

nh


hơn
thay



ph

i

k
ế
t

h

p

nh

ng

b


ng



kích
thướ
c

l

n

l

i

không

chu

n

hóa.

1.1.5.3.

Gi

n
đồ

k
ế
t

h

p



k
ế
t

h

p

gi

a

gi

n
đồ
hình

sao


d

a

trên

b

ng

S

ki

n



nh

ng

b

ng

Chi

u


không

chu

n

hóa

theo

các

chu

n

1,

2,

3



gi

n
đồ
hình


tuy
ế
t

r
ơ
i

trong

đ
ó

t

t

c


các

b

ng

Chi

u


đề
u

đã

đượ
c

chu

n

hóa.


1.2.

ETL



vai

trò

ETL

trong

kho


dữ

liệu


1.2.1.

Khái

niệm

ETL

H


th

ng

ETL

(Extract-Transform-Load)



n

n


t

ng

c

a

kho

d


li

u.

M

t

h


th

ng

ETL đượ

c

thi
ế
t

k
ế
cho

vi

c

trích

xu

t

d


li

u

t



các

h

th

ng

ngu

n,

chuy
ển

đổ
i

d


li

u

đả
m

b


o

các

ngu
ồn độ
c

l

p



th

tích

h

p,



cu

i

cùng


d

li

u

sau

chuy
ển đổi được đưa
vào

kho

d

li

u

ph

c

v

m
ục đích phát triể
n


ng

d

ng

hay

ph

c

v

các

m
ục đích kho dữ
li

u.

[7,

tr.xii]


1.2.1

Vai


trò

của

ETL

trong

kho

dữ

liệu

H


th

ng

ETL

ph
ải

đ
óng


m

t

vai

trò

quan

tr

ng

trong

vi

c

cung

c

p

cho

các



ng

d

ng

ngườ
i

s

d

ng

m

t

khuôn

d

ng

d

li


u

phù

h

p.

B

n

ch

t

Kho

d

li

u



quá

trình


l

y

d

li

u

t

các

h

th

ng

LS



h

th
ống cơ sở
d


li

u

tác

nghi

p



chuy
ển đổ
i

thành

thông

tin



t

ch

c


trong

m
ột đị
nh

d

ng

thân

thi

n

v
ới ngườ
i

s

d
ụng; trên cơ sở đó có thể
phân

tích

d


li

u



h

tr

quy
ết đị
nh

kinh

doanh.

Quá

b
ắt đầ
u

t

các

h


th

ng

ngu
ồn đế
n

khi

d

li

u

được đưa vào các bả
ng

chi

u

hay

b

ng

s


ki

n

s

chi

phí

ít

nh

t

70%

th

i

gian,

n

l

c


c

a

h

u

h
ế
t

các

d

án

kho

d

li

u.

Trong

tài


li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho

d

li

u

nói

lên

vai

trò

c

a

ETL

trong

kho

d


li

u
8

1.2.2

Các

thành

phần

của

ETL
.

Trích

xu

t:

D

li

u


ngu

n

t

r

t

nhi

u

ngu

n

khác

nhau





th




r

t

nhi

u

c

u

trúc

d

li
ệu khác nhau như nhiề
u

lo
ại cơ sở
d

li

u,

t


t

p

d

li

u

excel

hay

t

t

p

d

li

u

thô.




th
ế
nhi

m

v

chính

c
ủa bướ
c

này



trích

xu

t

d

li

u


t

h

th

ng

ngu
ồn để
x

lý.

Chuy
ển đổ
i

:
Đây là quá trình rấ
t

ph

c

t
ạp


dùng để
chuy
ển đổ
i

d

li

u

ngu

n

m

t



hình

khác

phù

h

p




chuy
ển vào cơ sở
d

li
ệu đích.
T

i

d

li

u
:
Đây là quá trình

đẩ
y

d

li
ệu sau khi đã đượ
c


chuy
ển đổ
i

vào

kho

d

li

u.

D

li
ệu sau khi đã đượ
c

chuy
ển đổ
i

s
ẽ đượ
c

t


i

vào

kho

d

li

u.
9

CHƯƠNG

2.

KIẾN

TRÚC



CÁC

THÀNH

PHẦN

CỦA


ETL.

2.1.

Tổng

quan

ETL

2.1.1.

Những

đặc

điểm

chính

của

ETL

M

i

ch

ức năng ETL thự
c

hi

n

m

t

m
ục đích quan trọ
ng.

Khi

mu

n

chuy

n

d

li

u


t

h

th

ng

ngu

n

vào

h

th
ống thông tin được lưu trữ
trong

kho

d

li

u,

vi


c

th

c

hi

n

các

ch
ức năng này đề
u

c

n

thi
ết. Để thay đổ
i

d

li
ệu thành thông tin, trướ
c


tiên

ph

i
xác đị
nh

các

d

li

u.

Sau

khi
xác đị
nh

d

li

u,

không


th
ể đơn giản là đổ
d

li

u

vào

kho.

D

li

u

ph
ải đượ
c

trích

xu

t




qua

các

bi
ến đổ
i

phù

h
ợp để đượ
c

chuy
ển đổ
i

thành

thông

tin.

Sau

khi đã c
huy
ển đổ

i

d

li

u,



v

n

không

h

u

ích

v
ới ngườ
i

s

d


ng

cu
ối cùng cho đế
n

khi

nó đượ
c

chuy

n

vào

kho

d

li

u.

T

i

d


li

u



m

t

ch
ức năng
cu

i

cùng
. Như vậ
y

ta

ph

i

th

c


hi

n

c

3

ch
ức năng của ETL để
chuy
ển đổ
i

d

li

u

thành

thông

tin.

2.1.2.

Các


chi

phí

cho

h


th

ng

ETL

Nói

chung

ta

s

tiêu

t

n


kho

ng

50-70%

công

s

c

c

a

d

án

vào

các

ch
ức năng ETL.
2.1.3.

Yêu


cầu

với

ETL



các

bước


ETL

Cho

bảng

sự

kiện


ETL

cho

bảng


chiều


Viết

các

thủ

tục

cho

tải

tất

cả

dữ

liệu


Tổ

chức

vùng


xử



dữ

liệu



công

cụ

kiểm

thử


Kế

hoạch

cho

các

bảng

tổng


hợp


Xác

định

các

dữ

liệu

chuyển

đổi



các

luật

làm

sạch


Thiết


lập

các

luật

trích

xuất

dữ

liệu


Chuẩn

bị

cho

việc

ánh

xạ

giữa


các

thành

phần

dữ

liệu

đích

với

dữ

liệu

nguồn


Xác

định

nguồn

dữ

liệu,


cả

dữ

liệu

trong



ngoài


Xác

định

các

dữ

liệu

đích

cần

thiết


trong

kho

dữ

liệu


Hình

2.1.

Các

bướ
c

chính

c

a

m

t

quy


trình

ETL.


2.1.4.

Các

yếu

tố

quan

trọng

đối

với

ETL

-
Xác định được độ
ph

c

t

ạp và đa dạ
ng

c

a

các

h

th

ng

ngu

n

d

li
ệu để


th

xây

d


ng

đượ
c

các

ch
ức năng trích xuấ
t



chuy
ển đổ
i

phù

h

p.

-
Xác định đượ
c

các


ki

u

t

i



th

i

gian

t

i

cho

các

lo

i

d


li
ệu để có phương án phù hợ
p.
10

2.2.

Vùng

dữ

liệu

trung

gian

Trong

t

t

c


các

ki
ế

n

trúc

kho

d


li

u,

luôn



m

t

vùng

ch

a

d

li


u

g

i



vùng

trung

gian

hay

còn

g

i



vùng

x

lý.


D

li

u
đượ
c

chuy

n

t

nhi

u

ngu

n

vào

vùng

x






không

thông

qua

(ho

c

r

t

ít)

công
đ
o

n

x



nào.


2.3.

Trích

xuất

dữ

liệu

2.3.1.

Xác

định

nguồn

dữ

liệu

Xác đị
nh

ngu

n


d

li

u

bao

g

m

vi
ệc xác đị
nh

t

t

c

các

ngu

n

d


li

u

thích

h

p,

các

d

li

u

c

n

thi
ết để đưa vào kho dữ
li

u.





























Hình

2.2.

Các


bước

xác

đị
nh

ngu

n

d


li

u

2.3.2.

Các

k


thuật

trích


xuất

dữ

liệu

2.3.2.1

Các

lo

i

k

thu

t

trích

xu

t

D

li


u

trong

h

th

ng

ngu

n



th
ể rơi vào hai loạ
i.

Giá

tr

hi

n

t


i.

H

u

h
ế
t

các

thu

c

tính

trong

các

h

th

ng

ngu
ồn rơi vào loạ

i

này.

đây giá trị được lưu trữ
c

a

m

t

thu

c

tính



t

giá

tr

c

a


thu

c

tính

ngay

th
ời điể
m

này

c

a

th

i

gian.

Các

giá

tr


t

m

th

i

ho

c

nh

t

th

i.

Khi

các

giao

d

ch


x

y

ra,

các

giá

tr

thay

đổi. Không có cách nào để
bi
ế
t

bao

lâu

giá

tr

hi


n

t

i

s

gi

nguyên

hay

s
ẽ thay đổ
i.

11

Tr
ạng thái đị
nh

kì.

Lo

i


này

không

ph

bi
ến như thể
lo
ại trướ
c.

Trong

lo

i

này,

giá

tr

c

a

m


t

thu
ộc tính đượ
c

gi
ữ như mộ
t

tr

ng

thái

m
ỗi khi có thay đổ
i

x

y

ra.

T

i


m

i

th

i

điể
m,

gíá

tr

tr
ạng thái được lưu trữ
v

i

tham

chi
ếu đế
n

th

i


gian

khi

giá

tr
ị thay đổ
i.

Khi

tri

n

khai

m

t

h

th

ng

kho


d

li

u,

các

d

li
ệu ban đầ
u

v

i

m

t

th

i

gian

nh


t

đị
nh

ph
ải đượ
c

chuy

n

vào

kho

d

li
ệu, sau đó ta phải đưa vào các dữ
li
ệu thay đổ
i

sau

t


i

ban đầ
u.

Nói

r

ng

ra,



2

lo

i

chính

c

a

trích

xu


t

d

li

u



d

li
ệu tĩnh và dữ
li

u

thay

đổ
i.Trích

xu

t

d


li
ệu tĩnh chiế
m

ch

y
ế
u

trong

t
ải ban đầ
u,



trích

xu

t

d

li
ệu thay đổ
i


trong

t
ải gia tăng.
T
ải

gia

tăng



th


phân

chia

thành

trích

xu

t

theo


th

i

gian

th

c

ho

c

trích

xu

t

ch

m

ch

m.

Trong


th

i

gian

th

c

n

m

b

t

d

li

u



3

tùy


ch

n,

n

m

b

t

d

li

u

ch

m

ta



2

tùy


ch

n.

2.3.2.2.

Các

k

thu

t

trích

xu

t

d

li

u

th

i


gian

th

c

N

m

b

t

d

li

u

qua

b

n

ghi

giao


d

ch.

Tùy

ch

n

này

s

d

ng

b

n

ghi

giao

d

ch


c

a

h

qu

n

tr
ị cơ sở
d

li
ệu đượ
c

duy

trì

cho

vi

c

khôi


ph

c

khi



l

i

x

y

ra.

M

i

giao

d

ch

thêm,


c

p

nh

t

hay

xóa

m

t

b

n

ghi

trong

b
ảng cơ sở
d

li


u,

h

qu

n

tr
ị cơ sở
d

li

u

ngay

l

p

t

c

sinh

ra


m

t

b

n

ghi

log.

N

m

b
ắt thông qua trigger cơ sở
d

li

u.

Tùy

ch
ọn này cũng đượ
c


áp

d

ng

cho

các

h

th

ng

ngu

n

d

li

u

s

d


ng

ng

d
ụng cơ sở
d

li

u.

Ta



th

t

o

các

trigger

cho

t


t

c

các

s

ki

n



ta

c

n

n

m

b
ắt. Đầ
u

ra


c
ủa trigger đượ
c

ghi

vào

m

t

t
ệp độ
c

l

p



s
ẽ đượ
c

s

d
ụng để

trích

xu

t

d

li

u

cho

kho

d

li

u.

vi

c

t

o




duy

trì

trigger

trong

su

t

các

quá

trình

c

a

h

th

ng


ngu

n

s
ẽ tăng thêm các chi phí tài nguyên và thờ
i

gian

c

a

h

th

ng

ngu

n.

N

m

b


t

trong

các

ng

d

ng

ngu

n.

K

thu
ật này đượ
c

xem

n
hư nắ
m

b


t

d

li

u

ng

d

ng

h

tr

.

Nói

cách

khác,

các

ng


d

ng

ngu
ồn đượ
c

th

c

hi
ện để
h

tr

cho

vi

c

n

m

b


t

d

li

u

cho

kho

d

li

u.

Ta

ph

i

ch

nh

s
ửa các chương trình ứ

ng

d
ụng liên quan đượ
c

vi
ế
t

cho

các têp và cơ sở
d

li

u

ngu

n

2.3.2.3.

Các

k

thu


t

trích

xu

t

d

li

u

ch

m

N

m

b

t

d

a


trên

ngày

tháng



nhãn

th

i

gian.

M

i

khi

m

t

b
ản ghi đượ
c


t

o

ra

ho

c

c

p

nh

t





th
ẻ được đánh dấ
u

b

i


m

t

nhãn

bi

u

di

n

b

i

ngày



th

i

gian.

Nhãn


th

i

gian

cung

c
ấp cơ sở
cho

vi

c

ch

n

ra

các

b

n

ghi


cho

vi

c

trích

xu

t.

Trích

xu

t

b

ng

cách

so

sánh

t


p

tin.

N
ế
u

các

k

thu

t

trên

không

kh

thi

cho

t

p


tin

ngu

n

c

th
ể, khi đó kỹ
thu
ật này được xem như biệ
n

pháp

cu

i

cùng.

K

thu
ật này cũng đượ
c

g


i
12

v

i

tên

khác



k

thu

t

so

sánh

s

khác

nhau


gi

a

nh

ch

p

b

i





so

sánh

2

nh

ch

p


c

a

ngu

n

d

li

u.

2.3.2.4. Đánh giá các kỹ
thu

t

trích

xu

t

2.4.

Làm

sạch




chuyển

đổi

dữ

liệu

2.4.1

Các

nhiệm

vụ



bản

của

chuyển

đổi

dữ


liệu

Trích

ch

n.

Nhi

m

v

này

n

m

ph
ần đầ
u

c

a

toàn


b

quá

trình

chuy
ển đổ
i.



th

toàn

b

ho

c

m

t

s

b


n

ghi

t

d

li

u

ngu

n

Tách/Nh

p.

Nhi

m

v

này

bao


g

m

các

lo

i

thao

tác

d


li
ệu để
th

c

hi

n

vi


c

ch

n

các

ph

n

d

li

u

ngu

n.

Chuy
ển

đổ
i.

chu


n

hóa

gi

a

d

li

u

trích

xu

t

t

các

ngu

n

khác


nhau



t
ạo ra các trườ
ng

mà ngườ
i

dùng

th

s

d

ng





th

hi
ểu đượ
c.


T

ng

h

p.

Khi

vi
ệc lưu trữ
d

li

u

t

ng

h

p
đượ
c

yêu


c
ầu thay vì lưu trữ
d

li

u

m

c

th

p.

Làm

giàu

d


li

u:

Nhi


m

v

này

s

p

x
ếp và đơn giản hóa các trườ
ng

riêng

bi
ết để
làm

cho

chúng

tr

nên

h


u

d
ụng hơn cho kho dữ
li

u.

2.4.2

Các

kiểu

chuyển

đổi

dữ

liệu

-

S

a

l
ại đị

nh

d

ng.

-

Gi
ải mã các trườ
ng.

-

Giá

tr

tính

toán



giá

tr

th


phát.

-

Chia

nh
ỏ các trường đơn.
-

G

p

thông

tin.

-

Chuy
ển đổ
i

B



t


.

-

Chuy
ển đổi đơn vị đo lườ
ng.

-

Chuy
ển đổ
i

th

i

gian.

-

T

ng

h

p.


-

Cơ cấ
u

l

i

khóa.

-

Xóa

b

n

ghi

trùng.

2.4.3.

Tích

hợp




hợp

nhất

dữ

liệu

2.4.3.1. Xác

đị
nh

th

c

th

trong

chuy
ển đổ
i

d

li


u.

Th

c

th



th

xu

t

hi

n

trong

nhi

u

h

th


ng

khác

nhau,

làm

th
ế
nào
để
t
ổng hơp
các

ngu

n

này



không

s

b


trùng

l

p

hay

b

thi
ế
u.
13

-
Bước

đầ
u

tiên,

t

t

c



các

b

n

gi,

không

phân

bi
ệt



trùng

nhau

hay

không,

đượ
c

đị
nh


danh

duy

nh

t.

-
Bướ
c

th

hai



h

p

các

b

n

ghi


trùng

m
ột cách đị
nh

k

thông

qua

các

gi

i

thu

t

t

độ
ng




ki

m

tra

th

công.

2.4.3.2.

Tích

h

p

nhi

u

ngu

n

d

li


u.

V
ấn đề
này



k
ế
t

qu

c

a

vi

c

m

t

ph

n


t

d

li

u



nhi
ều hơn mộ
t

ngu

n

d

li

u.

M

t

gi
ải pháp đơn giản là đặt ưu tiên cho

các

ngu

n



ch

n

ngu
ồn có độ ưu tiên cao
2.4.4.

Chuyển

đổi

các

thuộc

tính

chiều

Trong


ph

n

này

xem

xét

các

lo
ại thay đổ
i

v

i

thu

c

tính

chi

u,


các
phương pháp để
x



các

lo
ại thay đổ
i

d

li

u

chi

u.

-
Thay đổ
i

lo

i


1



s

a

l

i.

Các

lo
ại này đượ
c

áp

d

ng

cho

kho

d


li

u

không

c

n

gi

tính

l

ch

s

.

-

Lo
ại 2 thay đổ
i

gi


tính

l

ch

s

c

a

kho

d

li

u.

-

Lo
ại 3 thay đổ
i



nh
ững thay đổ

i

d

ki
ến nơi ngườ
i

dùng

c

n



kh
ả năng phân
tích

các

s

li

u

trong


c

2

cách


có thay đổi, không thay đổ
i.

2.5.

Tải

dữ

liệu

2.5.1.

Các

loại

tải

dữ

liệu


T
ải

đầ
u

tiên



t

p

h

p

t

t

c

các

b

ng


kho

d

li

u

cho

l
ần đầ
u

tiên.

T

i

b


sung



áp

d


ng

trên

nh
ững thay đổ
i

khi

c

n

thi
ế
t

m
ột cách đị
nh



Làm

tươi

toàn


bộ

-

xóa

hoàn

toàn

n

i

dung

c

a

1

ho

c

nhi

u


b

ng



t

i

l

i

v

i

d

li

u

m

i

(


T
ải đầ
u

tiên



m
ột làm tươi toàn bộ
).

2.5.1.

Kỹ

thuật



quy

trình

tải

dữ

liệu




4



hình

t

i

d

li

u

:

Load,

Append,

Destructive

Merge,

Constructive


Merge

Load.

N
ế
u

b

ng

m
ục tiêu đã tồ
n

t

i



d

li
ệu đã tồ
n

t


i

trong

b

ng,

quá

trình

t

i

s

xóa

d

li
ệu đã có và tả
i

d

li


u

t

t
ập tin đế
n.

N
ế
u

b
ảng đã rỗng trướ
c

khi

t

i,

ti
ế
n

trình

t

ải đơn giả
n

t

i

d

li

u

t
ừ file đế
n.

Append.

Ta



th

coi

vi

c


t

i

append

gi
ống như mộ
t

m

r

ng

c

a

Load.

N
ế
u

d

li

ệu đã
t

n

t

i

trong

b

ng,

ti
ế
n

trình

append

s
ẽ thêm vô điề
u

ki

n


các

d

li

u

vào,

gi

nguyên

d

li

u

hi

n



trong

các


b

ng

m

c

tiêu.

Khi

m

t

b

n

ghi

trùng

v

i

m


t

b
ản ghi đã có, ta có thể
xác đị
nh

cách

x



d

li
ệu đẩ
y

trùng.

Các

b
ản ghi đầ
u

vào




th
ể cho phép thêm vào như là
d


li
ệu

trùng.

Trong

trườ
ng

h

p

khác,

b

n

ghi

trùng




đầ
u



b


lo

i

b


trong

quá

trình

append.
14

Destructive

Merge.


Trong



hình

này,ta

t

i

d

li
ệu đầ
u

vào

vào

b

ng

d

li

ệu đích. Nế
u

khóa

chính

c

a

b
ản ghi đầ
u

v

i

gi

ng

khóa

c

a

m


t

b
ản ghi đã có, khi đó nó cậ
p

nh

t

b

n

ghi đích tương ứ
ng.

N
ế
u

b
ản ghi đầ
u

vào




m

t

b

n

ghi

m

i

không

trùng

khóa

v

i

b

n

ghi


đã có, khi đó bản ghi đượ
c

thêm

vào

b

ng

d

li
ệu đích.
Constructive

Merge.

Ch
ế độ này hơi khác so vớ
i

Destructive

Merge
.

N
ế

u

khóa

chính

c

a

m

t

b

n

ghi

trùng

v

i

khóa

c


a

b
ản ghi đã có, để
l

i

b

n

ghi

này,

thêm

b

n

ghi

m
ới và đánh
d

u


b

n

ghi

thêm

m
ới như bả
n

ghi

thay

th
ế
cho

b
ản ghi cũ.
Cách

áp

d

ng


cho

3

lo

i

t

i

c

a

kho

d

li

u.

*)

Quy

trình


t

i

cho

t

ng

lo

i

T
ải

ban

đầ
u:

V

i

l

n


ch
ạy đầ
u

tiên

c

a

t
ải ban đầ
u

ta

s

d

ng

ki

u

t
ải Load, sau đó tiế
p


t

c

v

i

ch
ế độ
Append.

T
ải

gia

tăng
.

Các

ng

d

ng

liên


t
ục thay đổ
i

theo

các

h

th

ng

ngu

n.



v

y,

ta

c

n


m

t

phương pháp để
n

m

b
ắt đượ
c

chu

k
ỳ thay đổ
i.

N
ế
u

nhãn

th
ời gian được xem như

mộ
t


ph

n

khóa

chính

ho

c

n
ế
u

nhãn

th

i

gian,

khi đó cấ
u

trúc


này



th
ể đượ
c

s

d
ụng để
gi

chu

k

t

nhiên

c
ủa các thay đổ
i.

S

d


ng

Constructive Merge.
Các

b
ản ghi đã có có thể
xóa

b



thay

th
ế
b

ng

d

li

u

m

i.


Ch
ế độ này đượ
c

áp

d

ng

cho

b

t

k

b

ng

m

c

tiêu

nào




b

ng

m

c

tiêu

l

ch

s

không

quan

tr

ng.

S

d


ng

Destructive Merge
T

i

l
àm

tươi

toàn

bộ
.

Lo

i

ng

d
ụng liên quan đến đị
nh

k


ghi

l

i

toàn

b

kho

d

li
ệu. Đôi
khi,

ta

c

n

làm

m

i


l

i

m

t

s

b

ng

c

th
ể. Làm tươi mộ
t

ph

n

r

t

hi
ế

m

b

i



m

i

b

ng

chi
ều đượ
c

g

n

v

i

b


ng

s

ki

n.

2.5.2

Làm

tươi

dữ

liệu



c
ập

nhât

dữ

liệu

Sau


t
ải ban đầ
u,

ta



th

duy

trì

kho

d

li

u



c

p

nh


t



v

i

2
phương thứ
c:



C

p

nh

t

-

ng

d

ng


cho

d

li
ệu thay đổ
i

trong

h

th

ng

ngu

n.


Làm tươi


t

i

l


i

toàn

b

theo

chu

k

.

2.5.3.

Phương

pháp

tải

với

các

bảng

chiều


Trong

kho

d


li

u,

ta

s


d

ng

khóa

sinh

b

i

h



th

ng.

B

n

ghi

trong

h


th

ng

ngu

n



khóa

c


a

chúng.



v
ậy, trướ
c

khi

d

li

u

ngu

n



th
ể đưa vào bả
ng

chi


u,

cho





t

i

ban đầ
u

hay

t

i

trên

d

li
ệu thay đổ
i,


thì

khóa

c

a

s

n

ph

m

c

n

chuy

n

sang

khóa

c


a

h

th

ng

trong

kho

d

li

u.

Ta



th

c

n

coi


chuy
ển đổi khóa như mộ
t

ph

n

c

a

ch
ức năng
truy
ển đổ
i

ho

c

th

c

hi

n


m

t

cách

riêng

bi
ệt trướ
c

khi

th

c

hi

n

các

ch
ức năng tả
i.
15

2.5.4.


Tải

lịch

sử



tải

gia

tăng

cho

bảng

sự

kiện

Khóa

c

a

b


ng

s


ki

n

(b

ng

fact)



s


t

i

k
ế
t

h


p

các

khóa

c

a

b

ng

chi

u.

Do

nguyên

nhân

này,

các

b


n

chi

cho

chi

u

d

li
ệu đượ
c

t
ải trước tiên. Sau đó, trướ
c

khi

t

i

d

li


u

cho

các

b

ng

s

ki

n,

ta

ph

i

t

o

khóa

k

ế
t

n

i

cho

các

b

ng

s

ki

n

t
ới các khóa

tương

ng

trong


b

ng

chi

u.

CHƯƠNG

3.

XÂY

DỰNG

MODULE

TRÍCH

XUẤT

DỮ

LIỆU

TRONG


ETL



3.1.

Yêu

cầu

bài

toán

3.1.
1

Mục

tiêu

của

bài

toán

M

t

s


yêu

c
ầu đố
i

v

i

ng

d

ng:

-
Đả
m

b
ảo tính đúng đắ
n



m

t


s

li

u

so

v

i

h

th

ng

d

li

u

ngu

n,

tuân


th

các

lu

t

trong

vi

c

trích

rút

d

li

u.

-

ng

d


ng

ph
ải đả
m

b

o

tính

m

m

d
ẻo và linh động đố
i

v

i

các

ngu

n


d

li

u

khác

nhau.
-

Cho

phép

theo

dõi



c

nh

báo

v
ề các thay đổ

i

trong

h

th

ng

d


li

u

ngu
ồn cũng
như vấn đề
x

y

ra

trong

quá


trình

khai

thác.

3.1
.2.

Phạm

vi

nguồn

dữ

liệu


























Hình

3.1



hình

h


th

ng

d



li

u

16

-

D

li

u

tiêu

th

cu

c

g

i



SMS


-

D

li

u

tiêu

th

Data

(

3G+GPRS)

-

D

li

u

CDR

-


D

li

u

LACCELL

3.2

Phân

tích

yêu

cầu

bài

toán


3.2.1.

Kiến

trúc


ứng

dụng































Hình

3.2.

Ki
ế
n

trúc


ng

d

ng



V

i

yêu

c


u

cho

phép

m

r
ộng để đưa dữ
li

u

t

các

ngu

n

khác

nhau

vào

kho


d

li

u

h

th

ng

trích

xu

t

d

li
ệu đượ
c

thi
ế
t

k
ế để

vi

c

m

r

ng

l

thu

n

ti

n

nh

t.
Ở đây các phương thứ
c

k
ế
t


n

i

bao

g

m

-

K
ế
t

n

i

d

li

u

t

h


th

ng

ngu

n

qua

FTP,

các

t
ệp có đị
nh

d

ng

Excel



FoxPro.

-


K
ế
t

n

i

v

i

d

li

u

Oracle

qua

k
ế
t

n
ối cơ sở
d


li

u

(ODBC,

OCI).

17

3.2.2.

Dữ

liệu

đích



hình

kho

d


li
ệu


chuyên

đề

DATA_CALL

































Hình

3.3.

Kho

d


li
ệu

chuyên

đề

DATA_CALL

Chi

u

d


li

u

LAC_CELL_DIM:

Chi

u

d

li

u

thông

tin

v

v

trí

c

a


các

cell

BTS

Chi

u

d

li

u

CALL_TYPE_DIM:

Chi

u

d

li

u

thông


tin

v

ki

u

Chi

u

d

li

u

OWNER_DIM:

Chi

u

d

li

u


thông

tin

v

nhà

m

ng

Chi

u

d

li

u

PROVINCE_DIM:

Chi

u

d


li

u

thông

tin

v

t

nh

thành

Chi

u

d

li

u

ACTIVITY_TYPE_DIM:

Chi


u

d

li

u

thông

tin

ki

u

giao

d

ch

Chi

u

d

li


u

TIME_CALENDAR_DIM:

Chi

u

d

li

u

th

i

gian





hình

kho

d



li
ệu

chuyên

đề

DATA_MTA



hình

kho

d


li
ệu

chuyên

đề

CDR

18


3.2.3.
Nguồn

dữ

liệu


3.2.2.1.

D

li

u

t

h

th

ng

tr
ả trướ
c

Ngu


n

d


li

u:

D

li
ệu được lưu trữ
trong

b

ng

d

li

u

DATA_CALL_HISTORY,

DATA_MTA


c

a

h

th
ống cơ sở
d

li

u

c

a

Vinaphone

s

d

ng

h

qu


n

tr
ị cơ sở
d

li

u

ORACLE.
T

n

xu

t

trích

xu

t:

Hàng

ngày.

C


a

s


th

i

gian:

th

i

gian

2h-4h

sáng.

Phương

pháp

trích

xuấ
t:


Do

các

b

n

ghi

trong

d

li

u

g

n

li

n

v

i


th
ời gian như vậy đây


ki

u

trích

xu
ất đị
nh

k

.

N

m

b
ắt

thay

đổ
i


d


li

u:
Ở đây ta sử
d
ụng phương pháp nắ
m

b

t

d

li

u

ch

m

s

d


ng

ngày

tháng



nhãn

th

i

gian.

Các

lu

t

trích

xu

t

d



li

u:

*)

Ngu

n

d

li

u

DATA_CALL_HISTORY

-

Ch

l

y

d

li


u

thu

c

d

ng

tho

i

hay

SMS

-

Các

b

n

ghi

d


li

u

l

y

v

ph

i



thông

tin

v

d

li

u

trên


các

lo

i

tài

kho

n

khác

r

ng.

*)

Ngu

n

d

li

u


DATA_MTA

-

Các

b

n

ghi

d

li

u

l

y

v

ph

i




thông

tin

v

d

li

u

trên

các

lo

i

tài

kho

n

khác

r


ng.

Không

l

y

các

d

li
ệu có trườ
ng

LOGIN_NAME

=

“CUONGNC”

d

li

u

tr


ti

n

t

các

h

th

ng

khác.
DataCallMapping

19



hình

hóa

ánh

x



gi

a

ngu
ồn



đích




<<Attribute>>

DATA_CALL_HISTORY

.SUSCRIBER_ID


<<Attribute>>

DATA_CALL_HISTORY

.START_CA LL_DATE_

TIME



<<Attribute>>

DATA_CALL_HISTORY

.END_CA LL_DATE_TI

ME








<<Ma p>>







<<Ma p>>









<<Attribute>>

SUSCRIBER_ID



<<Attribute>>

START_TIME



<<Attribute>>

END_TIME


DATA_CALL_HISTORY

(OLTP)


<<Attribute>>

DATA_CALL_HISTORY

.

AC TI VITY _ T YP E


<<Ma p>>


<<Attribute>>

ACTIVITY_TYPE


<<Attribute>>

DATA_CALL_HISTORY

.CALLED _NUMBER


<<Attribute>>

DATA_CALL_HISTORY

.CELL_ID

<<Ma p>>



<<Ma p>>


<<Attribute>>

CALLED_NUMBER


<<Attribute>>

CELL_ID

DATA_CALL


<<Ma p>>


<<Attribute>>

DATA_CALL_HISTORY

.
BA LA NC E S_INF O

<<Attribute>>

LAC_ID






Lọc:

Chỉ

lấy

các

bản

ghi

thuộc

loại

Voice

hoặc

SMS

<<Ma p>>


<<Ma p>>


<<Ma p>>



<<Ma p>>


<<Attribute>>

A1_S



<<Attribute>>

A2_S


<<Attribute>>

A4_S


<<Attribute>>

A7_S


Lọc:

Chỉ

lấy


bản

ghi



A1_S+A2_S+A4 _S+A7 _S<>0

(Có

tiêu

thụ

trên

các

TKC,

TKK M,TKKM1,TKKM2)





Hình

3.4




hình

ánh

x


d


li

u

DATA_CALL_HISTORY


3.2.2.2.

Ngu

n

d

li


u

t

h

th
ống tính cướ
c


3.2.2.3.

Trích

xu

t

d

li

u

Lac-cell.

20

3.3.




hình

hóa

module

trích

xuất

dữ

liệu

với

UML

Xây dựng các biểu đồ người sử dụng và

biểu đồ tuần tự cho modul trích xuất dữ liệu


DS: Data Source W:Wrapper M:Monitor S:Source Identifier I: Integrator DSA: Data Staging Area
1: Get Connection W()

2: Extract Data W()


3: Get Data()

4: Install Data()


5: Get changes()

6: Get Connection M()

7: Check Data()

8: Get Data M()


9: Inform Integrator M()

10: Update data()


11: Identify new source()

12: Assign components()

13:Inform Integrator()







Hình

3.5
.



đồ

tu

n

t


c

a

module

trích

xu

t

d



li

u

21

3.4.

Cài

đặt

thử

nghiệm

module

trích

xuất

dữ

liệu


3.4.1.


Xây

dựng

ứng

dụng


3
.4.2.Cài

đặt



thực

thi

ứng

dụng


3.4.2.1.

C


u

hình

ng

d

ng

<translation>
<source

url=“…”,

etc

>
<column

name=“…”>
[<rule

language=“…”>
</rule>]
</column>
[<column

name=“…”>[<rule></rule>]</column>]
</source>

<target

url=“…”,

etc.>
<column

name=“…”,

etc.>[<rule></rule>]</column>
[<column

name=“…”,

etc.>[<rule></rule>]</column>]
</target>
</

translation

>

3.4.2.2.

K
ế
t

qu
ả cài đặ

t

v

i

d

li

u

th

nghi

m


























Hình

3.6.

Giao

di

n

module

trích

xu

t


d


li

u

22

-

Giao

di

n

chính

-

Ch
ức năng cấ
u

hình

tham

s


ánh

x

d

li

u

-

C

u

hình

tham

s
ố đặ
t

l

ch

trích


xu

t

-

K
ế
t

qu

th

nghi

m

trích

xu

t

d

li

u


CALL_HISTORY

-

K
ế
t

qu

th

nghi

m

trích

xu

t

d

li

u

CDR


-

K
ế
t

qu

th

nghi

m

trích

xu

t

d

li

u

MTA



3.

5.

Kết

luận

chương

Trong chương ba họ
c

viên
đã
thi
ế
t

k
ế


hình

tri

n

khai


h

th

ng

th

nghi

m,

xây

d

ng

thi
ế
t

k
ế
module

trích

xu


t

b

ng

vi

c

áp

các



thuy
ế
t

v

trích

xu

t

d


li

u
ở chương hai
vào trườ
ng

h

p

d

li

u

c

th

.

Bên

c
ạnh đó cũng
ch


ra

m

t

s

h

n

ch
ế
trong

vi

c

x



m

t

s


lo

i

thông

tin

c

th

v

i

m

t

s

h

n

ch
ế
các


lo

i

t

ch

c

d

li
ệu đầ
u

vào.

T

vi

c

phân

tích

các


h

n

ch
ế đó, họ
c

viên đề
xu

t,

phân

tích

thi
ế
t

k
ế


xây

d

ng


phát

tri
ển chương trình vớ
i

các

lo

i

s

li

u

khác

và linh động hơn vớ
i

các

t

ch


c

d

li
ệu đầ
u

vào,

ti
ế
p

t

c

phát

tri

n

các

module

chuy
ển đổ

i



t

i

d

li
ệu để


th

t

o

ra

m

t

b

công


c

ETL

hoàn

ch

nh.
23

KẾT

LUẬN

Lu

n


n

nghiên

c

u


NGHIÊN


C

U

QUY

TRÌNH

ETL

TRONG

KHO

D


LI

U


NG

D

NG

VÀO


H


TH

NG

D


LI

U

KINH

DOANH

TRONG

DOANH

NGHI

P

VI

N


THÔNG

đ
ã
đượ
c

hoàn

thành.




Phân

tích

công

ngh

,

c

u

trúc,


ki
ế
n

trúc,



công

c


để

xây

d

ng

công

c

ETL

ph


c

v

cho

vi

c

xây

d

ng

kho

d

li

u.

Tìm

hi

u


các

ph
ươ
ng

pháp,

k

thu

t

trích

xu

t,

chuy
ển

đổ
i,

t

i


áp

d

ng

v

i

t

ng

lo

i

d


li

u,

v
ới các trườ
ng

h


p

c

th
ể để
mang

l

i

hi

u

qu

cao

nh

t

cho

h

th


ng

ETL.



Th

c

hi

n

xây

d

ng

kho

d


li

u


th


nghi

m

t


h


th

ng

ngu

n

d

li

u

kinh

c


a

Vinaphone.

Tuy

nhiên

do

th

i

gian

th

c

hi

n

lu

n

v

ă
n



gi

i

h

n

nên

lu

n

v
ă
n

ch

d

ng

l


i

v

i

vi

c

xây

d

ng

module

trích

xu

t

áp

d

ng


cho

m

t

s

ngu

n

d


li

u

chính

c
ủa đơn vị


K
ế
t


qu

thu
đượ
c

r

t

kh

quan,

h

th

ng

cho

phép

trích

xu

t


d

li

u

t

các

ngu

n

d

li

u

v

i

khuôn

d
ạng khác nhau như Oracle, FoxPro, Excel
.


K
ế
t

qu


này

cho

th

y



th

áp

d

ng

h

th

ng


cho

h

th

ng

th

c

t
ế đang trong quá trình
tri

n

khai.


Trong

tương

tai

học


viên

đề

xu

t

phát

tri

n

ti
ế
p

các

module

chuy
ển

đổ
i




module

t

i

d

li
ệu để
t

o

ra

môt

h

th

ng

ETL

hoàn

ch


nh

ph

c

v

cho

vi

c

xây

d

ng

kho

d


li

u

không


ch


trong

lĩnh

vự
c

vi

n

thông



trong

nhi
ều

lĩnh

vự
c

khác nhau.


Qua

đ
ó,



th


kh

ng

đị
nh

xây

d

ng

h

th

ng


ETL

cho

vi

c

xây

d

ng

h

th

ng

d

li

u

kinh

doanh


c

a

doanh

nghi

p



h
ế
t

s

c

c

n

thi
ết đố
i

v


i

các

doanh

nghi

p.

Vi

c

hi

u

đượ
c

t

m

quan

tr
ọng




phương

pháp

xây

dự
ng

h


th
ống

ETL

đóng

vai

trò

quyết

đị
nh


trong

vi

c

xây

d

ng

cho

h

th

ng

kho

d

li

u

nói


riêng



các

h

th

ng

d

a

trên

n

n

t

ng

kho

d


li

u

nói

chung.
24

TÀI

LI
ỆU

THAM

KH
ẢO

[1]

Arktos : towards the modeling, design, control and execution of ETL processes, Panos
Vassiliadis*,

Zografoula

Vagena,

Spiros


Skiadopoulos,

Nikos

Karayannidis,

Timos

Sellis,
2001.
[2]

A

UML

Based

Approach

for

Modeling

ETL

Processes

in


Data

Warehouses,

Juan
Trujillo and Sergio Luj´n-Moraa, Dept. de Lenguajes y Sistemas Inform´ticosa Universidad
de Alicante (Spain).
[3]

Building the Data Warehouse, W.H.Inmon, Copyright © 2005

John Wiley & Sons, Inc.
[4]

Conceptual

Modeling

for

ETL

Processes,

Panos

Vassiliadis,

Alkis


Simitsis,

Spiros
Skiadopoulos.
[5] Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. Paulraj
Ponniah, Copyright © 2001 John Wiley & Sons, Inc.
[6]

Data

Cleaning:

Problems

and

Current

Approaches,

Erhard

Rahm

*,

Hong

Hai


Do,
University of Leipzig, Germany.
[7]

The

Data

Warehouse

ETL

Toolkit

Practical

Techniques

for

Extracting,

Cleaning,
Conforming, and Delivering Data,

Ralph Kimball, Joe Caserta.
[8]

Hierarchical


Approach

to

Data

Extraction

using

UML

2.0,

Payal

Pahwa1,

Geetika
Chaudhary, Khyati Jain, Neha Sharma and Ruchira Gupta.

×