Tải bản đầy đủ (.pdf) (91 trang)

ứng dụng kho dữ liệu và mối quan hệ khách hàng nhằm phân tích tình hình kinh doanh của doanh nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 91 trang )

 GIÁO DC VÀ ÀO TO
TRNG I HC LC HNG
***

PHM NGC THCH


NG DNG KHO D LIU VÀ
I QUAN H KHÁCH HÀNG
NHM PHÂN TÍCH TÌNH HÌNH KINH DOANH
A DOANH NGHIP



Chuyên ngành : Công ngh thông tin
Mã s : 60.48.02.01


Lun vn thc s Công ngh thông tin

NGI HNG DN KHOA HC
PGS. TS  PHÚC



ng Nai, Nm 2013
- i -


I CM N


Trc ht, em xin gi ti toàn th các thy cô Khoa Công ngh thông tin li
chúc sc kho và li cm n sâu sc.
Trong sut thi gian hc tp ti trng i hc Lc Hng vi s tn tình
truyn t kin thc ca thy cô ã giúp cho em có mt s kin thc c bn và các
phng pháp hc tp, nghiên cu khoa hc hiu qu em có s t tin hn trong
công vic và các công tác nghiêu cu khoa hc sau này.
Em xin t lòng bit n sâu sc n thy PGS.TS.  Phúc ã tn tình hng
n em trong vic thc hin lun vn này và kính chúc thy cùng gia ình luôn
nh khe, thành công trong công vic và t nhiu thành tu trong các công trình
nghiên cu khoa hc ca mình.

Em xin trân trng cm n !
- ii -

I CAM OAN

Tôi xin cam oan ây là công trình nghiên cu ca tôi di s hng dn ca
PGS. TS  Phúc. Các kt qu có c và vic phân tích kt qu là trung thc và
cha tng c công b trong bt k công trình nào khác.

TÁC GI



























- iii -

C LC

I CM N i
I CAM OAN ii
C LC iii
DANH MC CÁC T VIT TT iv
DANH MC BNG v
DANH MC HÌNH NH vi
GII THIU 1
CHNG 1: MU 3
1.1 Lý do thc hin  tài 3

1.2 Mc tiêu nghiên cu 4
1.3 Phm vi nghiên cu 4
1.4 Phng pháp thc hin 4
1.5 Tóm tt kt qut c 5
CHNG 2: C S LÝ THUYT 6
2.1 Lý thuyt v kho d liu 6
2.1.1 nh ngha và các c m ca kho d liu 6
2.1.2 Mc tiêu ca kho d liu 9
2.1.3 Các thành phn ca mt kho d liu 12
2.1.4 Mô hình d liu và vic thit k kho d liu 16
2.2 Lý thuyt v mi quan h khách hàng 30
2.2.1 Nn tng qun lý quan h khách hàng 30
2.2.2 Qun lý quan h khách hàng và qun tr thông minh 32
2.2.3. Kho d liu khách hàng 34
2.2.4. Qun tr thông minh vi s tha mãn ca khách hàng 35
CHNG 3: THIT K VÀ XÂY DNG KHO D LIU VÀ
I QUAN H KHÁCH HÀNG 37
3.1 Thit k chc nng cho h thng qun lý quan h khách hàng 38
3.2 Thit k CSDL cho kho d liu 39
3.2.1. Thit k khi d liu Product Sales 39
3.2.2. Thit k khi d liu Communication Subscription 45
3.3 Np d liu cho kho d liu 48
3.4 To truy vn phát sinh d liu cho kho d liu 57
CHNG 4: CÀI T VÀ KHAI THÁC KHO D LIU 58
4.1 Vit chng trình to form nhp liu 58
4.2 Xây dng ng dng khai thác d liu t kho d liu 61
4.3 Chy chng trình và phân tích kt qu 64
T LUN VÀ HNG TÌM HIU NÂNG CAO 74
TÀI LIU THAM KHO
PH LC

- iv -

DANH MC CÁC T VIT TT

4GL : Fourth-Generation Languages / Ngôn ng th h th t
ASP : Application Support Provider / Nhà cung cp dch v h trng dng
BI : Business Intelligence / Qun tr thông minh
CET : Current Extraction Time / Thi m trích xut d liu hin thi
CRM : Customer Relationship Management / Qun lý quan h khách hàng
CSDL : C s d liu
DASD : Direct Access Storage Device / Thit b lu tr truy cp trc tip
DBMS : Database Management System / H thng qun tr CSDL
DDS : Dimentional Data Store / Lu tr d liu chiu
DIS : Data Item Set / Mô hình quan h cp trung
DN : Doanh nghip
DSS : Decision Support System / H thng h tr ra quyt nh
DW : Data Warehouse / Kho d liu
ETL : Extract, Transform, Load / Trích xut, chuyn i và np d liu
ER : Entity Relationship / Quan h thc th
ERD : Entity Relationship Level / Mc  quan h thc th
ERP : Enterprise Resource Planning / Hoch nh ngun lc DN
IT : Information Technology / Công ngh thông tin (CNTT)
LSET : Last Successful Extraction Time / Thi m trích xut d liu thành công
cui cùng
MIS : Management Information Systems / H thng thông tin qun lý
NF : Normal Form / Chun hóa d liu
ODS : Operational Data Store / Lu tr d liu u hành
OLAP : Online Analytical Processing / X lý phân tích trc tuyn
OLTP : Online Transaction Processing / X lý giao dch trc tuyn
PC : Personal Computer / Máy tính cá nhân

RSS : Really Simple Syndication (RSS 2.0.0) / là nh dng d liu da theo
chun XML dùng trong vic chia s tin tc Web.
SCM : Supply Chain Management / Qun lý chui cung ng
SOA : Service-Oriented Architecture / Kin trúc hng dch v

- v -

DANH MC BNG

ng 2.1 Các khía cnh ch yu ca CRM 31
ng 3.1 Các chc nng ca h thng qun lý quan h khách hàng 38
ng 3.2 Thit k chi tit cho bng s kin Product Sales 41
ng 3.3 Thông tin mô t bng chiu d liu dim_Date 42
ng 3.4 Thit k chi tit cho bng chiu d liu dim_Date 42
ng 3.5 Thit k chi tit cho bng chiu d liu dim_Product 43
ng 3.6 Thit k chi tit cho bng chiu d liu dim_Customer 43
ng 3.7 Thit k chi tit cho bng chiu d liu dim_Store 44
ng 3.8 D liu mu cho bng s kin Communication Subscription 46
ng 3.9 Thit k chi tit cho bng s kin Communication Subscription 46
ng 3.10 Thit k chi tit cho bng chiu d liu dim_Communication 47
ng 3.11 Thit k chi tit cho bng chiu d liu dim_Subscription_Status 47
ng 3.12 Thit k chi tit cho bng chiu d liu dim_Channel 47















- vi -

DANH MC HÌNH NH

Hình 2.1 Các thành phn ca kho d liu 12
Hình 2.2 Bng s kin 15
Hình 2.3 Bng chiu d liu 15
Hình 2.4 Chuyn d liu t h thng u hành sang môi trng kho d liu
không chn thun là vic trích xut d liu 17
Hình 2.5 D liu t các ng dng khác nhau cc k ri rc 18
Hình 2.6 Chuyn i d liu t các h thng hin ti sang môi trng kho d
liu mt cách hp lý thì nó sc tích hp 19
Hình 2.7 Các thc th và các mi quan h 20
Hình 2.8 Mi thc th trong mô hình ERD sc xác nh bng mô hình
DIS 20
Hình 2.9 Các quan h trong ERD sc phn ánh bng các kt ni trong
DIS 21
Hình 2.10 Các u vào ca bng c trình bày bng hai giao tác 21
Hình 2.11 Các yu t thit k liên quan n hiu sut 22
Hình 2.12 Môi trng c ghi d liu 22
Hình 2.13 Mô hình d liu hai chiu n gin - các thc th là ngang hàng 24
Hình 2.14 Mô hình d liu ba chiu cho thy rng các thc th là không ngang
hàng vi nhau 24
Hình 2.15 Mô hình kt ni hình sao n gin vi thc thN HÀNG c

tính toán nhiu nht và các thc th khác kt ni vào 25
Hình 2.16 Trong nhiu trng hp, bng s kin tng hp c tính toán bi
 liu dng s và khóa ngoi trong khi bng chiu d liu c
tính toán bng d liu ký t 26
Hình 2.17 Mô hình kt ni hình bông tuyt n gin vi thc th KHÁCH
HÀNG kt ni vi thc th QUC GIA 27
Hình 2.18 Khi OLAP trong mô hình kho d liu 28
Hình 2.19 Cách tip cn ETL vi tng d liu trung gian 29
Hình 2.20 Cách tip cn ETL không có tng d liu trung gian 29
- vii -

Hình 2.21 Cách tip cn ELT cho phép vic chuyn i d liu trên máy ch
kho d liu 30
Hình 2.22 Mô hình qun tr thông minh 34
Hình 3.1 Lu  các bc tin hành thit k và khai thác kho d liu 38
Hình 3.2 Bng s kin và chiu d liu cho khi d liu Product Sales 40
Hình 3.3 Lc  hình sao y  cho khi d liu Product Sales 44
Hình 3.4 Bng s kin và chiu d liu cho khi d liu Communication
Subscription 45
Hình 3.5 Lc  hình sao y  cho khi d liu Communication
Subscription 48
Hình 3.6 To d án mi cho vic np d liu và to lu  d liu 49
Hình 3.7 Ánh x ct d liu gia h thng ngun và kho d liu 49
Hình 3.8 Kt qu thc thi d án cho bng chiu d liu dim_Customer 50
Hình 3.9 Kt qu thc thi d án cho bng chiu d liu dim_Product 51
Hình 3.10 Tác v dòng d liu cho bng chiu d liu dim_Store 52
Hình 3.11 Kt qu thc thi d án cho bng chiu d liu dim_Store 53
Hình 3.12 Lu  kim soát và t tham s cho d án cho bng s kin 54
Hình 3.13 Lu  dòng d liu và vic ánh x ct d liu cho bng s kin 55
Hình 3.14 Kt qu vic np d liu cho bng s kin 56

Hình 4.1 Màn hình chính ca ng dng nhp liu cho h thng ngun 58
Hình 4.2 Màn hình ng nhp ng dng nhp liu 59
Hình 4.3 Màn hình nhp liu cho danh mc khách hàng 59
Hình 4.4 Màn hình nhp liu cho danh mc sn phm 60
Hình 4.5 Màn hình nhp liu cho danh mc kho 60
Hình 4.6 Khi to d án xây dng khi d liu OLAP 61
Hình 4.7 Kt ni hình sao trong khi d liu OLAP 62
Hình 4.8 Tin trình to khi d liu t bng s kin và bng chiu d liu 63
Hình 4.9 Trin khai thành công khi d liu OLAP 63
Hình 4.10 Khi to d án khai thác kho d liu 64
Hình 4.11 Báo cáo li nhun bán hàng theo khách hàng và thi gian 64
Hình 4.12 Doanh thu bán hàng theo thi gian 65
Hình 4.13 Báo cáo chi phí và s lng mua theo vùng, quc gia 66
- viii -

Hình 4.14 Báo cáo li nhun theo khách hàng và thông tin giao tip vi khách
hàng 66
Hình 4.15 Báo cáo doanh thu theo sn phm, khách hàng và thi gian 67
Hình 4.16 Báo cáo doanh thu theo sn phm, khách hàng và thi gian bng
MS Excel 68
Hình 4.17 Danh sách các trng d liu sc chn cho vic phân tích d
liu 69
Hình 4.18 Biu  v ch tiêu li nhun 69
Hình 4.19 Biu  v ch tiêu doanh thu 70
Hình 4.20 Báo cáo doanh thu ca tt c khách hàng 70
Hình 4.21 Báo cáo li nhun ca tt c khách hàng nm 2013 71
Hình 4.22 Báo cáo li nhun theo thi gian 72
Hình 4.23 Báo cáo li nhun theo v trí a lý 72
Hình 4.24 Báo cáo doanh thu da trên kênh giao tip 73


















- 1 -

GII THIU
Ngày nay, nhu cu m rng và phát trin các gii pháp DW và BI s ngày
càng ln mnh, nht là trong bi cnh kinh t xã hi nh hin ti s buc các
TC/DN phi ti u hóa các hot ng ca mình và a ra quyt nh nhanh chóng,
chính xác. Gii pháp DW và BI thng i chung vi nhau nh là gii pháp tng th
phc v cho quá trình xây dng mt doanh nghip thông minh, thông qua vic tp
p và x lý d liu, a ra các báo cáo, phân tích và doán theo các góc nhìn a
chiu phc v cho các hot ng theo dõi và a ra quyt nh ca doanh nghip.
Trong ó, DW ch n gin là vic hp nht d liu t nhiu ngun, c
chun hóa  có th khai thác tt, h tr trong vic a ra các quyt nh mang tính
chin lc và chin thut. Mc ích chính ca DW là luôn cung cp mt hình nh
thng nht và chính xác nht v doanh nghip ti bt k thi m nào. S dng mt

trong các gii pháp qun lý kho d liu, doanh nghip có th khai thác toàn b d
liu ca doanh nghip mình thay vì trc ây thng mt rt nhiu công sc.
BI là gii pháp s dng các k nng, qui trình, công ngh, ng dng  h tr
ra quyt nh, các công c BI nâng cao kh nng tr giúp a ra các quyt nh
mang tính chin lc, chin thut và em li hiu qu trong kinh doanh. BI cho
phép doanh nghip hiu bit v quá kh và doán tng lai thông qua ng dng
CNTT  có th d dàng kim soát khi lng d liu khng l, khai phá tri thc
n có theo nhiu góc nhìn y  ca mt doanh nghip. Mc ích chính ca BI là
 tr cho doanh nghip ra quyt nh tt hn.
 thng BI cung cp các kh nng  tr li nhng câu hi quan trng bng
cách chuyn mt lng ln d liu t các h thng ang hot ng sang mt nh
ng hin hành, có th s dng và d hiu. Chúng cung cp thông tin là  sn sàng
ra quyt nh. BI cho phép phân tích xu hng hin ti và tng lai, cnh báo ngay
p tc các c hi và các vn  và cung cp thông tin phn hi liên tc v tính hiu
qu ca vic ra quyt nh.
Bên cnh s kt hp gia DW và các ng dng BI, còn có mt yu t có nh
ng không nh ti thành công ca doanh nhip, ó là CRM. CRM cam kt mang
i li nhun áng k cho các t chc trin khai nó c v doanh thu và hiu qu cao
- 2 -

trong hot ng sn xut. Chuyn sang nh hng khách hàng trng tâm có th dn
n hiu qu kinh doanh tng cao và t giá n nh, tng trng doanh thu, gia tng
doanh s bán hàng vi chi phí gim, ci thin t sut li nhun t khách hàng, gia
ng s tha mãn khách hàng và gn kt lâu dài vi khách hàng. Cui cùng, mi t
chc u mun khách hàng trung thành hn, li nhun nhiu hn. Bi vì nó thng
òi hi mt su táng k thu hút khách hàng mi nên chúng ta không th có
 kh nng  có nhng khon u t này. Do vy, mt trong nhng mc tiêu ca
CRM là  chuyn i nhng khách hàng không mang li li nhun thành nhng
khách hàng mang li li nhun [11].
i dung ca lun vn bao gm các phn sau:

 u: gii thiu chung v kho d liu, qun tr thông minh và qun lý
quan h khách hàng. Tình hình ng dng kho d liu ca các doanh nghip
i Vit Nam và vai trò ca quan h khách hàng trong kinh doanh.
 Chng 1: trình bày v các vn  chung ca lun vn nh: lý do thc hin
 tài, mc tiêu  tài, phng pháp thc hin và kt qut c.
 Chng 2: trình bày lý thuyt v kho d liu và mi quan h khách hàng.
Các c m và vic thit k kho d liu; vai tro ca quan h khách hàng
và qun tr thông minh.
 Chng 3: trình bày vic thit k mt kho d liu c th vi vic thit các
khi d liu, vic np d liu t h thng ngun vào CSDL kho d liu.
 Chng 4: vit ng dng np d liu cho h thng ngun và thit k các d
án khai thác d liu t kho d liu, ng thi tin hành phân tích d liu ã
c khai thác t kho d liu.
 t lun và hng phát trin: tóm lc các ni dng ã c trình bày
trong lun vn và  xut các hng phát trin thêm.
 Tài liu tham kho: danh sách các tài liu dùng cho vic tham kho 
hoàn thành bài lun vn.
 Ph lc: các n mã lnh c dùng trong quá trình sinh d liu cho kho
 liu t h thng ngun.

- 3 -

CHNG 1
U
1.1. Lý do thc hin  tài:
Vic ng dng h thng thông tin h tr ra quyt nh mà trong ó DW là mt
thành phn quan trng còn hn ch, ch dng li  các doanh nghip ln nh: Ngân
hàng (Sacombank, Vietin Bank), Vin thông (MobiFone), Chng khoán (sàn giao
ch chng khoán hà Ni) (Ngun: Ngân hàng Nhà Nc Vit Nam). Do ó, xây
ng mô hình DW s giúp doanh nghip hiu rõ hn v h thng này và giúp Ban

Giám c a ra nhng quyt nh nhanh chóng, chính xác cho hot ng sn xut
kinh doanh ca doanh nghip mình.
Theo kt qu nghiên cu ca 2 chuyên gia là Paul Gray và Jongbok Byun,
trng Claremont Graduate School, khi trin khai DW và CRM thành công, doanh
nghip sc hng rt nhiu li ích nh:
 Có th tit kim chi phí tip cn khách hàng mi (thng cao hn gp 5-10
n) nh duy trì c mi quan h tt vi khách hàng hin ti.
 t c s tha mãn và trung thành ca khách hàng. u này rt có li vì
khách hàng trung thành thng có xu hng quay tr li mua và ít quan tâm
i giá c hn khách hàng mi.
 ng li nhun: Mt công ty c tng thêm 5% khách hàng trung thành thì
có th tng 25% n hn 100% li nhun tùy theo các ngành ngh kinh
doanh.
 ng cng hiu qu hot ng qun lý công ty nh h thng quy trình rõ
ràng trong CRM bt buc các nhân viên (NV) phi tuân th quy nh v báo
cáo tình hình ca tng b phn.
Sau ây là các li ích ca vic trin khai CRM thành công c thu thp và
ng kt t mt cuc kho sát rng rãi ca các nghiên cu CRM gn ây [2]:
 i thin kh nng hng mc tiêu khách hàng có li nhun.
 Tích hp các dch v qua các kênh.
 i thin lc lng bán hàng hiu qu và t nng sut cao.
- 4 -

 c thù hóa các thông p marketing.
 Tùy bin các sn phm và dch v.
 i thin dch v khách hàng hiu qu và t nng sut cao.
 i thin v giá c.
i lý do ó,  tài này s nghiên cu sâu hn v vic ng dng kho d liu
và mi quan h khách hàng nhm giúp doanh nghip có cái nhìn rõ hn v tình hình
kinh doanh ca doanh nghip mình và có nhng phân tích kt qu kinh doanh thông

qua hot ng mua bán, giao tip vi khách hàng nhm xây dng chin lc khách
hàng trng tâm  tng hiu qu sn xut, kinh doanh ca doanh nghip mt khi
doanh nghip phát trin và qui mô sn xut kinh doanh c m rng.
1.2. Mc tiêu nghiên cu:
  s lý thuyt v kho d liu và các c m ca nó.
  s lý thuyt v mi quan h khách hàng.
 Thit k và xây dng CSDL h thng kho d liu và mi quan h khách
hàng.
 Phân tích tình hình kinh doanh ca doanh nghip da trên vic khai thác d
liu t kho d liu.
1.3. Phm vi nghiên cu:
Lun vn s s dng b d liu kinh doanh ca công ty TNHH Schaeffler Vit
Nam  minh ha cho vic thit k kho d liu và mi quan h khách hàng. ng
thi, lun vn s phân tích tình hình kinh doanh ca Schaeffler Vit Nam trên kho
 liu va c xây dng.
1.4. Phng pháp nghiên cu:
 Nghiên cu c s lý thuyt:
 ng hp và phân tích các ngun d liu khác nhau v kho d liu và
i quan h khách hàng.
 Thit k và xây dng CSDL:
- 5 -

 ng dng h qun tr CSLD SQL Server 2005  xây dng CSDL kho
 liu và mi quan h khách hàng.
 Vit mã lnh trên CSLD SQL Server 2005  phát sinh d liu t h
thng ngun vào kho d liu.
 ng dng b công c Visual Studio 2005 – Business Intelligence
Development Studio  thc hin vic chuyn i, np d liu t h
thng ngun d liu vào kho d liu.
 Phân tích tình hình kinh doanh ca doanh nghip:

  dng công c OLAP trên b công c Visual Studio 2005  khai
thác d liu trên kho d liu.
  dng d án báo cáo ca b công c Visual Studio 2005  phân tích
 liu t kho d liu.
1.5. Tóm tt kt qut c:
 Lý thuyt:
  lý thuyt v kho d liu và mi quan h khách hàng.
 n phm:
 t CSDL kho d liu v doanh thu ca doanh nghip.
 t chng trình khai thác d liu ca kho d liu da trên k thut
OLAP.
 t d án báo cáo  phân tích tình hình kinh doanh ca doanh nghip.







- 6 -

CHNG 2
 S LÝ THUYT
2.1. Lý thuyt kho d liu:
2.1.1. nh ngha và các c m ca kho d liu:
Vic tin hc hoá các quy trình kinh doanh; công ngh tiên tin trong truyn ti
và lu tr d liu; công c qun lý c s d liu mnh mã m ra nhng kh nng
i trong các thao tác và phân tích d liu. Các nhà qun lý doanh nghip ang háo
c  khám phá nhng kho d liu hin ti và quá kh xác nh xu hng phát
trin và các hình mu trong vic kinh doanh. H hy vng vic khai thác d liu và

 dng chúng  a ra quyt nh kinh doanh thông minh s làm cho doanh
nghip s có bc phát trin nhy vt và thành công. Trong bi cnh này, các ngành
công nghip ang ngày càng tp trung vào DW, OLAP, và các công ngh liên quan
khác. Trong phm vi nghiên cu ca lun vn này, hc viên ch tp trung vào DW.
Có hai cách nh ngha khác nhau v kho d liu c Ralph Kimball và Bill
Inmon a ra. Có th nói, hai ông là cha  ca khái nim kho d liu. Theo Ralph
Kimball “Kho d liu là mt h thng trích xut, làm sch, tng hp và cung cp
ngun d liu vào mt kho lu tr d liu a chiu và sau ó h tr, thc hin truy
n và phân tích cho các mc ích ca quá trình ra quyt nh.”, còn theo Bill
Inmon thì “Kho d liu là mt tp hp d liu tng i n nh (không hay thay
i), cp nht theo thi gian, c tích hp theo hng ch nhm h tr quá
trình to quyt nh v mt qun lý.” [13]. Tuy nhiên, nh ngha ca Bill Inmon
c chp nhn rng rãi hn. Có th hiu các c m trong nh ngha ca Bill
Inmon nh sau:
 ng ch (Subject-Oriented): ngha là d liu s cung cp thông tin
 mt ch c th hn là các thông tin v các chc nng hay phòng ban
a mt công ty. Bi vì kho d liu theo hng ch nên nó s cho phép
phân tích thông tin c kt ni vi mt ch  c th nào ó, ví d
Marketing hoc Sales. Nói mt cách n gin hng ch là mt qui trình
kinh doanh (business process) ch không phi là mt b phn (department).
- 7 -

 Tích hp (Integrated): có ngha là d liu c thu thp trong DW có th
n t nhiu ngun khác nhau, nhng c kt hp thành mt n v hp lý
và có liên quan mt thit vi nhau. Ví d: d liu có th ly t b phn
Marketing và Sales a vào kho d liu thành doanh thu hàng nm.
 p nht theo thi gian (Time-Variant): kho d liu lu tr d liu t quá
kh cng nh hin ti  nh hng các quyt nh kinh doanh trong
ng lai. D liu quá kh s tr giúp trong vic xác nh các mu d liu
n n mt s quyt nh kinh doanh nào ó. Nó hoàn toàn ph thuc vào

ngi qun tr và nhà qun lý doanh nghip v vic quyt nh cách lu tr
 liu trong kho d liu trong bao lâu. Ví d: 1 nm, 3 nm, 5 nm,…
 n nh (Non-Volatile): có ngha là s không có vic cp nht d liu c
u tr trong kho d liu mà thay vào ó là các thông tin c t chc 
hin th các thay i ca d liu ó. D liu trong kho d liu c s dng
cho vic phân tích nên các thao tác cp nht hay xóa d liu có th làm nh
ng ti vic phân tích này. Vì vy, nói chung là d liu trong DW không
bao gic cp nht hay xóa b. Bt c khi nào mt thuc tính c th
hoc mc d liu c cp nht ti ngun thì phiên bn mi ca nó c
u tr trong DW  vô hiu phiên bn d liu c.
Trc tiên, chúng ta s tp trung vào các mc tiêu c bn ca DW. Các mc
tiêu này c phát trin da trên các yêu cu và vic qun lý kinh doanh.
 DW phi làm sao  d liu ca DN c truy cp mt cách d dàng.
i dung ca DW phi d hiu. D liu phi trc quan và rõ ràng i vi
ngi kinh doanh ch không n thun ch cho các nhà phát trin. D hiu
ng ý là mc  dc, ni dung ca DW cn c xác nh là có ý ngha.
Doanh nhân mun tách ra và kt hp li d liu trong kho theo cách kt hp
vô tn, quá trình thng c gi là chiu và chn. Các công c truy cp
vào DW phi n gin và d s dng. Chúng cng phi tr li kt qu truy
n cho ngi s dng vi thi gian chi là ti thiu.
 DW phi trình bày thông tin ca DN mt cách nht quán. D liu trong
kho phi áng tin cy. D liu phi c thu thp mt cách cn thn t
nhiu ngun khác nhau ngoài DN, c làm sch, m bo cht lng và
- 8 -

c s dng ch khi nó phù hp vi tiêu chí ca ngi s dng. Thông tin
 mt quá trình kinh doanh phi phù hp vi thông tin t ni khác. Nu hai
bin pháp thc hin có cùng tên thì chúng phi có ngha là cùng mt th.
Ngc li, nu hai bin pháp này không ging nhau thì chúng phi c
dán nhãn khác nhau. Thông tin nht quán có ngha là thông tin cht lng

cao. Nó có ngha là tt c các d liu sc trình bày và hoàn chnh. Tính
nht quán cng ng ý rng các nh ngha chung cho ni dung ca DW s
n có cho ngi s dng.
 DW phi c thích ng và linh hot vi s thay i. Chúng ta hoàn toàn
không th tránh s thay i. Nhu cu ca ngi s dng, u kin kinh
doanh, d liu và công ngh tt cu là các ch th cho các bin ng ca
thi gian. DW phi c c thit k  x lý các thay i không th
tránh khi này. Thay i i vi DW nên nh nhàng, có ngha là nó không
làm mt hiu lc ca d liu hoc các ng dng hin thi. D liu và các
ng dng hin thi s không b thay i hoc phá v khi doanh nghip yêu
u nhng câu hi mi hoc mt s d liu mi c thêm vào DW. Nu
 liu mô t trong DW c chnh sa thì chúng ta phi gii lý gii cho
nhng thay i mt cách thích hp.
 DW phi là phng tin an toàn  bo v thông tin quí báu ca DN.
Thông tin quí báu ca mt DN sc lu tr trong DW.  mc ti thiu,
DW có th cha thông tin v nhng gì chúng ta ang bán cho mt ai ó vi
t giá c nào ó – là nhng chi tit nguy hi tim tàng trong tay ca
nhng k xu. DW phi kim soát vic truy cp vào các thông tin bí mt
a DN mt cách hiu qu.
 DW phi phc v nh là nn tng cho vic ra quyt nh tt hn. DW
phi có d liu chính xác  h tr vic ra quyt nh. Ch có mt u ra
chính xác t DW: quyt nh c a ra sau khi DW trình bày các bng
chng ca nó. Nhng quyt nh này cung cp giá tr và tác ng kinh
doanh mà có th phân b cho kho cha. Danh hiu nguyên thy xy ra
trc DW vn là mô t tt nht v nhng gì chúng ta ang thit k: mt h
thng h tr ra quyt nh.
- 9 -

Vì vy, chúng ta có th nói rng DW không là gì c ngoi tr là ni lu tr
c bit d liu ca doanh nghip, là ni d liu c t chc theo cách mà vic

phân tích tr nên d dàng và trc quan cho ngi qun tr doanh nghip và giúp h
thc hin công vic da trên các quyt nh kinh doanh. Hay nói cách khác, mc
tiêu chính ca DW là  cung cp mt kho lu tr d liu hp nht, linh hot, có ý
ngha cho ngi dùng trong vic phân tích, báo cáo và h tr ra quyt nh. Tt c
các mc tiêu khác ca DW u có ngun gc t mc tiêu chính này. Tuy nhiên, v
phía ngi s dng hoc doanh nghip vn có khó khn trong vic phân tích, khai
thác, t chc kho d liu, các khó khn thng gp là:
 Không th tìm thy d liu cn thit: D liu ri rác  rt nhiu h thng
i các giao din và công c khác nhau, khin tn nhiu thi gian chuyn t
 thng này sang h thng khác. Có th có nhiu ngun thông tin áp ng
c òi hi, nhng chúng li có nhng khác bit và khó phát hin thông
tin nào là úng.
 Không th ly ra c d liu cn thit: Thng xuyên phi có chuyên gia
tr giúp, dn n công vic b dn ng. Có nhng loi thông tin không
th ly ra c nu không m rng kh nng làm vic ca h thng có
n.
 Không th hiu d liu tìm thy: Mô t d liu nghèo nàn và thng xa ri
i các thut ng nghip v quen thuc.
 Không th s dng c d liu tìm thy: Kt qu thng không áp ng
 bn cht d liu và thi gian tìm kim. D liu phi chuyn i bng tay
vào môi trng làm vic ca ngi s dng [12].
2.1.2. Mc tiêu ca kho d liu:
Trc khi i vào chi tit ca các thành phn kho d liu, chúng ta s tìm hiu
 các mc tiêu c bn ca kho d liu. Các ch ny sinh có th xy ra là:
 Chúng ta có c núi d liu nhng không th truy cp c.
 Chúng ta cn ct và chia nh d liu bng mi cách.
 i ngi có th d dàng ly d liu mt cách trc tip.
 Cho bit ch nhng thành phn quan trng.
- 10 -


 Ngn chn vic trình bày cùng vn  mà khác nhau các con s.
 Chúng ta mun mi ngi s dng thông tin  h tr vic ra quyt nh.
Nh vy, vi các yêu cu v công vic nh trên, chúng ta s chuyn i thành
các yêu cu ca mt kho d liu.
Kho d liu phi làm cho thông tin ca mt TC c truy xut d dàng.
Các ni dung ca kho d liu phi d hiu. Các d liu phi trc quan và rõ ràng
cho ngi dùng làm vic ch không n thun cho các nhà phát trin. D hiu có
ng ý là mc  dc; ni dung ca kho d liu cn mang ý ngha. Ngi dùng
doanh nghip mun chia tách và kt hp d liu trong kho d liu mt cách vô hn,
quá trình này thng c gi là chiu và chn. Các công c truy cp vào kho d
liu phi n gin và d s dng. Chúng cng phi tr li kt qu truy vn cho
ngi s dng vi thi gian chi là ti thiu.
Kho d liu phi trình bày thông tin ca TC mt cách nht quán. D liu
trong kho d liu phi áng tin cy. D liu phi c kt ni cn thn t nhiu
ngun xung quanh t chc, c làm sch, phi m bo cht lng và sn sàng ch
khi nó phù hp vi nhu cu ca ngi s dng. Thông tin t mt qui trình kinh
doanh phi phù hp vi thông tin ca qui trình khác. Nu hai phng pháp thc
hin có cùng tên thì chúng phi cùng ngha. Ngc li, nu hai phng pháp không
có ngha tng t thì chúng phi c dán nhãn khác nhau. S nht quán thông tin
có ngha là thông tin có cht lng cao. Có ngha là tt c các d liu ã c tính
toán và hoàn chnh. Tính nht quán cng ng ý rng các nh ngha tng quát ni
dung ca kho d liu là có sn cho ngi dùng.
Kho d liu phi thích nghi và thay i linh hot.n gin vì chúng ta
không th tránh khi s thay i. Nhu cu ca ngi s dng, u kin kinh doanh,
 liu và công ngh tt cu tùy thuc vào bin ng ca thi gian. Kho d liu
phi c c thit k x lý các thay i không th tránh khi này. Thay i
i vi kho d liu nên uyn chuyn, u ó có ngha là chúng không làm mt
hiu lc d liu hoc các ng dng hin có. D liu và các ng dng hin có không
nên b thay i hoc b phá v khi cng ng doanh nghip yêu cu câu hi mi
- 11 -


hoc d liu mi c thêm vào kho. Nu d liu mô t trong kho d liu c
thay i thì chúng ta phi gii thích cho nhng thay i mt cách thích hp.
Kho d liu phi là mt phng tin an toàn  bo v tài sn thông tin
a DN. Viên ngc thông tin quý giá ca mt t chc c lu tr trong kho d
liu.  mc  ti thiu, kho d liu ging nh ni cha thông tin v nhng gì
chúng ta ang bán cho ai ó vi mt mc giá nào ó – mt mi nguy hi tim n
trong tay nhng ngi xu. Kho d liu phi kim soát vic truy cp vào thông tin
bí mt ca t chc mt cách hiu qu.
Kho d liu phi phc v nh là nn tng cho s ci thin vic ra quyt
nh. Kho d liu phi có d liu chính xác  h tr quá trình ra quyt nh. Ch
có mt s tht u ra duy nht t mt kho d liu: các quyt nh c a ra sau
khi kho d liu ã a ra bng chng ca nó.
ng ng doanh nghip phi chp nhn kho d liu nu nó là c coi
là thành công. Vic chúng ta ã xây dng mt gii pháp p mt s dng các sn
phm và nn tng tt là u không quan trng. Nu cng ng doanh nghip không
chp nhn kho d liu và tip tc s dng nó tích cc 6 tháng sau khi ào to thì
vic nghim thu là tht bi. Không ging nh vic vit li mt h thng, ni ngi
dùng không có s la chn nào khác là phi s dng h thng mi, nhng  s
ng h thng mi, vic s dng kho d liu ôi khi là tùy chn. Sn gin hóa
 d dàng c ngi s dng chp nhn hn.







- 12 -


2.1.3. Các thành phn ca mt kho d liu:










Có bn thành phn riêng r và phân bit sc trình bày trong môi trng
kho d liu, ó là: h thng ngun d liu, khu vc tng d liu, khu vc trình bày
 liu và các công c truy cp d liu.
  thng ngun d liu (Operational Source Systems): ây là nhng h
thng các bn ghi d liu ghi li các giao dch trong quá trình hot ng kinh
doanh. Các h thng ngun d liu này nên c dùng bên ngoài kho d liu
i vì chúng ta ít có kim soát ni dung và nh dng d liu trong các h
thng này. u tiên ca chính h thng ngun này là x lý hiu sut và tính sn
sàng. Truy vn trên h thng ngun này b bó hp, các truy vn có kt qu mi
n mt bn ghi b hn ch nghiêm trng cho các nhu cu trên h thng ngun
 liu này. Chúng ta ginh rng các h thng ngun d liu không c
truy vn theo cách thông dng và t xut nh kho d liu. Các h thng
ngun d liu duy trì rt ít d liu quá kh và nu có mt kho d liu tt thì
các h thng ngun d liu có thc gim bt trách nhim trình bày hay
u tr quá kh. Mi h thng ngun d liu thng là mt ng dng hình ng

Hình 2.1 Các thành ph

n c


a kho d


li

u


(Ngu

n: [11])

- 13 -

 nhiên, có ít u t cho vic chia s d liu chung nh sn phm, khách
hàng, a lý. Nu h thng ngun d liu ang c tái cu trúc li  có cái
nhìn nht quán thì s là u tuyt vi. Vic n lc tích hp các ng dng ca
doanh nghip nh th s làm cho vic thit k kho d liu d dàng hn nhiu.
 Khu vc tng d liu (Data Staging Area): khu vc tng d liu ca kho d
liu là  cp ti c vic lu tr và các qui trình x lí ph bin nh là trích
xut-chuyn i-np d liu. Khu vc tng d liu là tt c mi th gia các
 thng ngun d liu và khu vc trình bày d liu. Trong kho d liu, d
liu làm vic thô c chuyn i vào kho d liu  chuyn giao cho ngi
 dng có yêu cu truy vn và s dng. Do ó, ngi dùng s không c
phép truy cp vào khu vc tng d liu này. Khu vc tng d liu b chi phi
i các hot ng n gin là phân loi và x lý tun t. Trong nhiu trng
p, khu vc tng d liu không da trên công ngh liên quan mà thay vào ó
là bao gm mt h thng các tp tin. Sau khi xác nhn d liu cho phù hp vi
nhng quy tc công vic c nh ngha là mt-mt và mt-nhiu, thì bc

cui cùng trong vic xây dng mt c s d liu vt lý chun 3 y  là vô
ngha.
 Trình bày d liu (Data Presentation): Khu vc trình bày d liu là ni d
liu c t chc, lu tr và sn có cho các truy vn trc tip ca ngi s
ng, các báo cáo và các ng dng phân tích khác. Vì khu vc tng d liu là
khu vc sân sau nên khu vc trình bày s là kho d liu cho các công vic x
lý liên quan. ó là tt c nhng th mà vic x lý d liu cn quan tâm thông
qua các công c truy cp d liu. Chúng ta thng xem khu vc trình bày nh
là mt lot các khi d liu tích hp li. Theo hình thc n gin nht ca nó,
t data mart trình bày d liu t mt qui trình công vic n gin.
Mô hình chiu là mt tên mi cho mt k thut c làm cho c s d liu n
gin và d hiu. T tng trng này n trng hp khác, bt u t nhng
m 1970, các t chc, công ty t vn, ngi dùng và các nhà cung cp CNTT
ã hng v mt cu trúc chiu n gin  làm cho các nhu cu c bn ca
con ngi phù hp vi s gin n.
- 14 -

Công nghip sau này ôi khi  cp mô hình 3NF nh các mô hình ER. ER
là t vit tt ca Entity Relationship. ERD là vic v các hp và ng giao
tip các mi quan h gia các bng vi nhau. C hai mô hình 3NF và chiu
có thc trình bày trong ERDs bi vì c hai bao gm các bng quan h có
t ni vi nhau, s khác bit chính gia mô hình 3NF và chiu là mc 
chun hóa. Vì c hai loi mô hình có thc trình bày theo dng ERDs, nên
chúng ta s không  cp n các mô hình 3NF là mô hình ER; thay vào ó,
chúng ta s gi chúng là các mô hình chun hóa gim thiu s nhm ln.
Mô hình chun hóa là vô cùng hu ích cho vic x lý các công vic u
hành bi vì mt giao dch cp nht hoc chèn ch cn tác ng vào c s d
liu  mt ni. Tuy nhiên, các mô hình chun hóa là quá phc tp i vi d
liu kho cho vic thc hin truy vn. Ngi dùng không th hiu, xác nh
hoc ghi nh các mô hình chun hóa tng t nh h thng ng giao

thông. Vic s dng các mô hình chun hóa trong khu vc trình bày d liu
a kho d liu s phá toàn b mc ích ca kho d liu, c th là, truy vn
 liu trc quan và hiu sut cao.
Thay vào ó, mô hình chiu gii quyt các vn  v lc  phc tp trong
khu vc trình bày d liu. Mt mô hình chiu cha các thông tin ging nh
t mô hình chun hóa, nhng gói d liu trong nh dng thit k vi mc
c tiêu là làm cho ngi dùng d hiu, tng hiu sut truy vn và thay i
linh hot.
Trong mô hình chiu, có hai thut ng hay c s dng, ó là: bng s kin
(fact tables) và bng chiu d liu (dimension tables).
ng s kin (fact tables): mt bng s kin là mt bng chính trong mô
hình chiu có chc nng lu tr các d liu tng hp cho quá trình hot
ng. Ngi dùng c gng  lu tr d liu tng hp t kt qu ca mt
quá trình công vic trong mt data mart n l. Bi vì d liu tng hp a
phn là ln nht trong bt k data mart nào nên cn tránh vic lp li  nhiu
i khác.

- 15 -





Vic s dng thut ng  kin là  trình bày  ln ca d liu. Chúng ta
có th tng tng là t mt th trng bit c sn phm ang c bán ra
i s lng bao nhiêu và doanh s mi ngày cho mi sn phm trong mi
a hàng nh th nào.  ln d liu c thc hin ti các giao m ca
t c các chiu (ngày, sn phm và ca hàng). Danh sách các chiu s xác
nh c tính ca bng s kin tng hp và cho ta bit phm vi ca công vic
là gì.

ng chiu d liu (dimension tables):





ng chiu d liu là ngi ng hành không th tách ri vi bng s kin.
ng chiu d liu cha các mô t vn bn ca công vic. Trong mt mô
hình chiu, bng chiu d liu s có có nhiu ct hay nhiu thuc tính.
Nhng thuc tính này mô t các hàng trong bng chiu d liu. Trong bng
 liu chiu, càng nhiu mô t vn bng càng tt. Vic bng d liu chiu
có khong 50 n 100 thuc tính trong nó là không ph bin. Kích thc
ng chiu d liu thng ít v s hàng (ít hn 1 triu hàng rt nhiu), nhng
có nhiu ct thuc tính. Mi chiu c xác nh bi khóa chính duy nht
a nó, c ký hiu là PK và là khóa ngoi cho bng s kin tng hp nào
t ni vi nó.
Hình 2.2 B

ng s


ki

n

(Ngu

n: tác gi

)



Hình 2.3 B

ng chi

u d


li

u


(Ngun: tác gi)

- 16 -

Thuc tính ca bng chiu d liu óng vai trò quan trng trong kho d liu.
i vì chúng là ngun gc ca hu ht tt c các ràng buc và d liu báo
cáo, nên chúng là chìa khóa làm cho kho d liu d hiu và d s dng. Sc
nh ca kho d liu là t l thun vi cht lng và chiu sâu ca các thuc
tính ca bng chiu d liu. Thi gian dành cho vic cung cp các thuc tính
i mô t k thut rõ ràng càng nhiu thì kho d liu càng tt. Thi gian
dành cho vic tính toán giá tr trong mt ct thuc tính càng nhiu thì kho d
liu càng tt. Thi gian dành cho vic m bo cht lng giá tr trong mt
t thuc tính càng nhiu thì kho d liu càng tt.
 Công c truy cp d liu (Data Access Tools): thành phn chính cui cùng
trong môi trng kho d liu là các công c truy cp d liu. Vic s dng
thut ng công c là  cp n sa dng v kh nng có thc cung

p cho ngi dùng  tác ng lên khu vc trình bày d liu cho quá trình
phân tích ra quyt nh. Theo nh ngha, tt c các công c truy cp d liu
truy vn d liu t khu vc trình bày ca kho d liu. Rõ ràng, vic truy vn là
toàn b vn  trong vic s dng kho d liu.
t công c truy cp d liu có thn gin nh mt công c truy vn c
bit hoc phc tp nh mt mô hình khai thác d liu hoc mô hình ng dng.
Các công c truy vn c bit có thc hiu và s dng có hiu qu ch vi
t nh t l ngi dùng nh hp trong kho d liu tim nng. Phn ln
ngi dùng mong mun truy cp d liu thông qua các ng dng tham s có
n. Mt s các công c truy cp d liu phc tp hn, nh các công c d
báo hoc mô hình, thc s có th np kt qu ca chúng tr li vào khu vc
ngun d liu h thng hoc các khu vc tng d liu/ trình bày d liu ca
kho d liu.
2.1.4. Mô hình d liu và vic thit k kho d liu:
Có 2 yu t chính trong vic xây dng mt kho d liu: thit k giao din t
các h thng u hành và thit k bn thân kho d liu. Kho d liu c xây dng
theo phong cách ci tin, ngha là mt giai n phát trin mi ph thuc hoàn toàn
vào kt qut c t các giai n trc ó. u tiên, mt phn d liu c xác

×