Tải bản đầy đủ (.pdf) (88 trang)

Tích hợp dữ liệu kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (32.74 MB, 88 trang )

0— L

ĐẠI 1IỌC ọ u o c GIA 1IA NỌI
TRƯỜNG d a• i h o• c ( ơ n c n g h é•

PHAN NHẢT
• KIÊN

T ÍC H H O P DỦ L IÊ U , K H O DŨ L IÉ U V À Ử N G D U N G

TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CƠNG

Ngành: Cơng nghệ thơng tin
Ma số: 1.01.10

LUẬN VĂN THẠC s ĩ

NGƯÒI HƯỚNG DÁN KHOA HỌC
rs. ĐỎ VÃN THÀNH

DAI H O C Q U Ố C G IA HẢ N Ò
ĨRUNG TÀMTHƠNG TIN ÌHƯVlẺN

V - LO/

1là Nội - 2008


1

MỤC LỤC


DANII MỤC CÁ C KÝ I III l i .
c Á c ( I l ữ VIH'r I A I ........................................................... 3
DANH MỤC CÁC BẠNCì mi
I ............................................................................................. 4
l )ẠNI I MỤC C Á C HÍNII VI'.
DĨ T I I Ị ..................................................................................... 5
M( ) DẢU.................................................................................. ....................................................................... 7
CHƯƠNG l - T Í C I I l ỉ Ợ P D Ĩ T l II;.u VÀ KHO D Ơ I . I I . U .................................................................y
1. rích hợp dừ l i ệ u .................................................................................................................................
/. I Khái niệm lích hợp (ỉữ liệu ........................................................................................................ l)
1.2 Lịch sư phát iriên cua licit hợp (lữ liệu ..................................................................................
1.3 ì i (iụ minh họa ................................................................................................... I I
1.4 Lý ilinycl tic tì hợp dừ liệu ....................................................................................................... 12
2. Tồng quan quá trình từ dữ liệu đến thực hiện ra quyết đị nh ................................................ 15
3. Kho dữ liệu.................................................................................................................................... 18
ỉ. / Khái niệm kho dừ liệu ............................................................................................................. IX
3.2 Những đặc tỉìêm ctr ban CIIU kho dữ liệu ..............................................................................20
3.3 Sự khác nhau ỉỉiừti các hự thong CSDL tác nghiệp vả các kho (lữ liệu ........................ 23
3.4 Kiến trúc kho (lữ liệu .................................................................................................................25
3.5 Síơ hình kho dừ liệu ................................................................................................................... 27
3.6 c 'hiển lược thi ke, Xíiy thmg kho dừ liệu ............................................................................ 3 1
4. Cơ sớ dữ liệu chu đề (Data Mart)...............................................................................................36
4. ỉ Khái niệm cơ sơ (lừ liệu chu đ ề .............................................................................................. 36
4.2 Những lý i/o can pliái xây dựng các cơ sớ dừ liệu chu d ề ................................................38
5. Khai phá dữ liệu (Data Mininu)................................................................................................. 39
5. / Khải niệm ......................................................................................................................................3 y
5.2 c 'ác kỹ ịhuật khai phá dừ Hệu.................................................................................................. 4 1
6. kết l u ậ n ................................................................................................................................................ 42
CHƯƠNG II - GIỚI THIỆU MỌT SỎ KHO DỮ LIỆU VÀ C S m . C H Ủ Đ È ............................43
1. Ớ tron» nước........................................................................................................................................ 43

I I Cơ .sớ dừ liệu chú dè về kinh tế vĩ mô ....................................................................................43
1.2 Hẹ cơ sờ dừ liệu phát ỉrièn bển vừttg của l iệt Xam .......................................... ............... 46
2. Ớ ngoài n ư ớ c .................................................................................................................................. 53
3. kct l u ậ n ...........................................................................................................................................57

CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG c ơ SỜ Dfr l.lị:n CHỦ l)Ẻ Đ ộ c I.ẠP TRONCi
QUẢN LÝ TẢI CHÍNH C Ị N ( Ỉ .......... ................................................................................................58
1. Cìiới thiệu vân đ è ................................................................................................................................ 58
2. Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách........................................... 58
3. Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân s á c h ...................................................... 59
J. / Yên cần Ví' liệ tlionịỉ chi tien .....................................................................................................59
3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu ........................................................................................... 59
3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớrộng, nàng cap ........ ........................60
4. Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách....................................................................... 61
5. Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách............................................................. 62
5.1 Mị hình phân rà chức nàng......................................................................................................62
5.2 Mỏ hình cỉữ liệu ............................................................................................................................64
6. Một so chức năng chu yếu cua C SD1. chú đề về thu - chi lìgân sách................................. 65
7. két l u ậ n ................................................................................................................................................. 79
KÍ T I.UẬN CỈIU NG..............................................................................................................................80
IÀI I l l. i ir il I A M K H Ả O ............................................................................................................................SI
PIIỤ I Ụ C ........................................................................................................................................................ 82


DANH MỤC CÁC KÝ HIẸU, CÁC CHỪ VIÈT TÁT
Diễn }>iai

K\' hiệu
CN 1 1


c omi nghệ ihông tin

cọ

Cơ quan

CSI )I

Cư sơ dừ liệu

l)M

Data Mart

l)SS

Decision Suport System - ỉ lệ thông hồ trự quvêt định

l)\v

Data Warehouse - Kho dừ liệu

IR

Entities Relationship - Quan hệ thực the

III.

Extract. Transform. Load - Trích chọn. Chuẩn hoá. Nạp


Ill

Cộnụ dồnụ các quốc gia sứ dụnu đồnu tiền chung Châu Âu

CÌAV

Global As View

KBNN

Kho bạc Nhá nước

KDI)

Knowledge Discover) in Databases - Khai phá tri thức từ CSDI..

K l -XII

Kinh te - xà hôi

l.AV

Local As View

I.IIỌ

Lien hợp quốc

MDGs


Millenium Development Goals - Các mục liêu phát triên thiên niên ky

MOLAP

Multidimensional-OI.AP - Xứ lý phân tích trực tuyên kiêu đa chiêu

NSN N

Ngân sách Nhà nước

OLAP

Online Analytical Processing - Xư lý phân tích trực tuyến

OI I P

Online Transaction Processinii - Xứ lý giao dịch trực tuyến

PTBV

Phát tricn bền vừng

KOI .AI’

Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ

Cư sơ dừ liệu chu dê


DANH MỤC CÁC BẢNG BIẾU

Tồn há 11«Ị
Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu
Bang 2: So sánh các hộ thốnii OI I P và OLAI’


s

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Tên hình vẽ

Trang

I linh

I : Biêu dỏ dơn uián cua một kho dừ liệu

Hình

2: lỉiêu đỏ niai pháp tích hợp dữ liệu iheo kiêu liên kết lỏng

10

Hinh

3: Mô tá khônu gian ban ụhi cùa các ánh xạ (iA V \á L.AV

13

I lĩnh


4: Mỏ ta quá trình từ dừ liệu don thực hiện ra quyết định

16

Hình

9

5: Minh hoạ khái niệm lích hợp và chun dơi thông tin dữ liệu
từ các CSDL tác ntỉhiệp vào Kho dữ liệu

21

Mình 6: Kiến trúc Kho dù liệu

25

I linh

7: Mị ta mơ hình Kho dừ liệu trường hợp 3 chiểu

28

I linh

8: Mô tá sơ dồ dừ liệu nhiều chiều theo sơ dồ hình sao

29

I linh


9: Mơ tà sơ đồ dừ liệu nhiều chièu theo sơ dồ bơng tuyết

30

I lình10: Mỏ

tà sơ đồ dữ liệu nhiều chiều theo sơ dồ chòm sao sự kiện

I linh 11: Mò tả phương pháp triển khai kho dìr liệu

30
35

ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với k h o dữ liệu và
C SD Lchuđề

37

I linh 13: I.uồng dữ liệu trong một tỏ chức, cơ quan

38

Hình 14: Mơ lã q trình khai phá dữ liệu

40

I lình 15: Sơ liồ phân rã chức nãng CSDI. chú đề thu - chi NSNN

63


I lình 16: Sơ đồ dữ liệu cua C’SDI. chu đề thu - chi NSNN

64

I linh 17: (Yie khoan mục chi tiẻu thu - chi niĩân sách

65

1linh IX: Giám sát. theo dõi tình hình thục hiện các mục tiêu chu yếu

66

1linh 19: I im kiếm, lựa chọn chí liêu theo lĩnh vực và nhóm chi tiêu

67

I lình 20: Tìm kiếm, lựa chọn chi tiêu theo nguồn số liệu

67

I lình 21 : l .ựa chọn khoáng thời gian lấy số liệu cho các chi tiêu

68

I Unh 22: Lựa chọn địa bàn theo địa danh

68

Minh 23: l .ựa chọn địa bàn theo vị tri trên bàn đồ


69

I linh 24: Mán 11inh liệt kê kết quà truy vấn dìr liệu

69

I lình 25: Màn hình liệt kè
70

I lình 26: Màn hình liệt kê dừ liệu iheo các tiêu chi tliỗnu kê

70

1linh 27: Các phép tốn thong kẽ có thể thực hiện trơn dừ liệu

71

I linh 28: kịt q phép tốn Phần trâm dưởi ílạim lì lo I Aeel

71

I linh 29: kêt qua phép tốn 100 dào số dưới dạng file Hxcel

72

Hình 30: kịi qua phép tốn Chi sổ hồn hợp dưứi dạnạ file Excel

72



6
11 inh 3 I : kct qua phép toán C'luiNcn dôi dan \ ị dirới dạng nie l \ e d

73

11ml) 32: k c i qua phép lốn tlico cơne tlitre ngirới sir dụng tự định nghĩa

73

1lình 33: I rinh bày dữ liệu dưới dạng báng biếu

74

I linh 34: Trinh bày dừ liệu dirứi dạng dồ thị

74

I hull 35: I rình bày dữ liệu dưới dạng bán dồ

75

I lĩnh 36: Màn hình lựa

76

chọn kct xuất sơ liệu

I lình 37: Màn hình dừ liệu sau khi kết xuất ra Líxcel


76

Hình 38: I rinh bá\ két quá phân tích trorm PowerPoint

77

I linh 39: Minh hoạ chức năng hướng dẫn sir dụng CSDL chủ dể

78


7

M Ở Đ ÁU
N íià\ nay. nhân loại lia 11li dirim trước một nuliịch l>' là c ó rất nhièu clĩr liệu
nhirnu lại dõi ihơnsỉ tin. Q trình nỗ lực lỵiai tjlivct níỉhịch lv nà) dà dần đến
hình thành một xu lurỡnii nghiên cửu và ứng tiụnu dang rat phô bien và sơi ilộníí
troníi the giớ i C N T T hiện nay. dó là van lie phát hiện Iri thức từ các c ơ sờ dừ
liệu (K n o w le d g e D isco v ery in Databases - KI)D).
Ọuá trình K.DD ạỏm nhiều iiiai đoạn, tronii dó có hai 2 Ìai doạn quan trọnc
nhất, dó là: x â \ d ự n c kho dữ liệu (D ata W arehousing) và khai phá dừ liệu (Data

Vlininụ). Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD. Mục
dich cua giai đoạn nàv là \ â \ dựnc một loại c ơ sở dữ liệu (C S I )I .) k h ôn a chuẩn

hố, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn,
lừ nhiều CSDL khác nhau. Các CSDL này nói chIInu thirờnẹ dược phát triển
trên nền các hệ quàn trị C SD I. khác nhau. Vì vậy khi xây d ự ng kho dừ liệu


tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên
quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ. phần mềm và dừ liệu.
Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề Iiên quan
đến lích hợp dữ liệu; kiến trúc và các thành phần c ơ bản cùa kho dừ liệu: khai

phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\
dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh
vực tài chinh c ô n e ữ V iệt Nam.






l.uận vãn g ơ m có 3 ch ư ơn g nội dung, không kê các phần m ở dầu. kết luận,
lài liệu tham khảo và phụ lục:

• Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu. Trình bày các khái niệm, lý
tluiyết c ơ ban và các van đề liên quan dến tích hợp dữ liệu và kho dữ liệu.

• Chương / / - Giới thiệu một số kho (lữ liệu và CSDL chú dề. (ìiới thiệu
khái qt v ề mục liíclì, dặc điểm, chức năn ti cùa m ột s ố kho dừ liệu,

CSDL chu để tiêu biêu ơ tronụ và ngồi
nước hiện
nay.
c
*

• Chương l ỉ l - ủh g dụng xây dựng CSDL ch ti đề độc lập trong quản lý

Tài chính cơng. Trình bà\ việc ứne dụ nu l\' thuvết Kho dừ liệu de \â\


dựĩiíĩ ihứ nchiệm một CSDI chù dê phục vụ phân tích, dự háo vê tình
hình thu

chi nn sách áp d ụ n u tro nu lĩnh vực

l ài ch ín h cơnư.

lác giá xin íuri lời irân trọn li cam ơn đèn I hâ\ ui áo hirớnii dần

IS. I)ồ

Văn I hành cùníì tồn the các bạn hè. dồng niihiệp dà nhiệt tinh aiúp dỡ. cu 112
cáp nlnu thơnạ tin. tư liệu quv háu dè hoàn thành luận vãn này. Do khn khơ
thời gian có hạn nên nội ilium luận văn chắc chăn SC cịn nhiều thiếu SĨI. tác già
rat nions, nhận dược sự íiỏp

tham eia V kiến của các thav cỏ ui áo. bạn bị dơnti

nuhiệp dê ns trình ìiỉihiên cứu nù\ nề\ cànu tlirợc hồn thiện hơn nữa.
Xin chân thành cám ơn!


CHƯƠNG I - TÍCH HỢP DỮ LIẸU VÀ KHO DỮ LIẸU
I. Tích họp (lũ liệu

/. / Khái niệm tícli hợp (lũ liệu
T íc h h ợ p d ừ liệu lù q u á trình ket h ợ p cá c loại d ữ liệu lừ nh iề u nỉỉUÔn khác

nhau và CIII1Ü cấp cho niurời sư dụng một cái nhìn dồna nhất về các dừ liệu dó.

Vấn đề quan trọng này đà và claim xuất hiện ngày càna nhiều tronti các lĩnh vực
I



w

tỉ

s—





m

»—

c •

khác nhau cua dời sốnu \ã hội. chãns hạn trong lĩnh vực thương mại khi các
cỏn ạ IV tương tự nhau can hợp nliẩl dừ liệu cua họ. hoặc tro nu lĩnh vực khua học

nhằm kết hợp các két quà million cửu từ các kho tri thức khác nhau. Tích hợp dừ
liệu xuai hiện với cườnạ độ ngà\ càns tãnu và làm bùna nô nhu cầu chia se dữ
liệu. Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn
can dược uiai


íỊUvet.

Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích

hợp thâmỉ tin doanh nghiệp {Enterprise information Integration).

1.2 Lịcli sử phát irìên cua tích họp dữ liệu
Ngà) nay. tích hợp dữ liệu khơnu cịn là van đe mới me. l ừ những năm
1960. sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi.
dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL. Việc tích hợp có thề dược
thực hiện ở nhiều cấp độ trong kiến trúc của CSDL. và một trong nhữ na phươnii
pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ). Ở đó.
dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract,
Transform, Load ~ gọi tat là tiến trình ETL) vào một imuồn. và có thế được truv
vấn với một lược dồ dơn lé.

ỉ/ình I : Bien i1ồ (lơn gian cua một kho dữ liệu.
Thông Ún từ các c 'SOI. nịỉitịn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu


10
Vê mặt kiến trúc. ílà\ cơ thơ dược \C111 Iilur một pluronu pháp liên kơt chặl
bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy
vấn. Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược
tinh cập nhật tức thịi cua dừ

liệ u

(\í dụ khi một


I1ÜI1

dữ liệu UOC được cập

nhật mới. nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình
í: I I cần phai dược thi hành lại nhiều lần. Niioài ra. cũna khó có thê xây tiựnu
các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiịn dữ liệu
mà khơnu truy cập tới dừ liệu dầy dù.
Tronu nlũrna năm aần đây. việc tích hợp dữ liệu có xu hướng nới lịna liên
kết aiừa các dừ liệu. Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons
nhài thôn*! qua một lược đo trung gian hay cịn uọi là CSDL ào (xem hình 2).

Vị bọc

Vó bọc

Hình 2: Biêu (tồ ỊỊiái pháp lích hợp (lữ liựn theo kiên liên két lòng.
Xây tlựiHỉ một lược ito Inins’ Ịỉitm mil qua đó người sư tỉụnỊĩ có thê đưa ra các truy vail.

I heo mơ hình tích hợp này. các truy van dong nhất sau khi di qua lược đồ
trung iỊÍan (Mediated Schema) và các vo bọc ( Wrappers) sẽ được chuân hóa
thành các truy vấn cơ sở trên các CSDL nuuồn. Q trình này cũnu có thể dược
gợi là q trinh hói đáp dựa trên khuna nhìn ( View), bời vì chúng ta có thê xem
mồi Iiiin dừ liệu như là một khunii nhìn trên lược do trung aian. Plurơnụ pháp
tiếp cận nlur \ ậ\ dược aọi là plurơnu pháp kìumsi nhìn cục bộ (Local /l.s l ieu LAV). C'ùnt» có một mơ hình lích hợp khác tron 12 dó lược dồ trung aian dược
thièt kê như là một khunu nhìn trên các dừ liệu rmuồn. IMiươim pháp tiôp cận này


dược íiọi là phương pháp killin g n h ìn to à n c ụ c (G lo b a l A s I '/Vu- - G A V ). ihirônt»


dược sir đụim khi CỎ nlnrmi rac roi phái sinh khi tra lời các till) \an qua lược dô
truim uian.

I u\ nhiên, nhược diêm cùa phương pháp này là sẽ phai sưa lại

kliunuk . nhìn cho lược
• dồ trunu
w Wuian mồi khi có them một
* nun dữ liệu
• mới dược
*
lich hợp hoặc khi một n Lílion hiện tại tha\ dối lược dồ cùa nó.

Hiện nay. một sổ nahiên cứu vè vẩn đị lích hợp dừ liệu cịn có liên quan
Jell vắn dị lích liợp ngữ lìiỉliui (Semantic Integration), vần dị nàv khônu chi ra
làm the nào dc \à \ dựna kiên trúc tích hợp. mà là làm thế nào dê uiui quyêt các
\unii dột nạừ niihĩa eiừa các nguồn dừ liệu khơng, dơnu nhât. Ví dụ nếu hai cơ nu
1\ hợp nhất CSDI. cùa họ lại. thì các khái niệm và định nahìa nào đỏ tronu các
lược dồ riêne cùa họ. chăn a hạn "lợi nhuận", sẽ có nhìrng V nghĩa khác nhau.

Ironụ một CSDI.. nó có thê cỏ nuhĩa là lợi nhuận barm đông dô-1a (dưới dạnu sô
ilụrc dấu phây tlộnu). ironạ khi ironti CSDI. kia. nó lại có nghĩa là số lirợnu hàna
hán dược (dưới dạna số nạuyên). Một chiến lược aiài pháp chuim cho các ván
dề nlitr vậy là sứ dụng các bàn thê (ontologies) troniì đó dịnh nghĩa mội cách rõ
rànu các thuật nu ừ cùa lược dơ và từ đó giúp aiài quvét dược các xunu đột ngừ
nghĩa.
/..? Vi dụ minh họa
( ìiá SƯ có một
sư dim

* ưnu
w dụnu
• w vvch tronc
w đó nmrời
W
• ü
c có thê tru\
Ihơrm tin khác nhau về các thành phố như: ihốns kè tội phạm, thời tiết, khách
sạn. nhân khâu, v.v... Theo cách truyền thống, thì các thông tin pliai tồn tại iront»
một CSDL dơn nhất với một lược đồ đơn nhất. Tuy nhiên, một số lirợnu Ihơnu
tin đa dạnu nhir vậy rat khó và rất tốn kém đê cỏ thê tập hợp tronụ một tô chức
dơn nhất. Thậm chí nếu có ton tại các nuuon thơíiíi tin dể tập hợp dìr liệu, thi
cũ nu sị dẫn đến cỏ thè bị trùnii lập dữ liệu trong các CSDI. tội phạm, các trang
uch vè thời tiết, và các dừ liệu dân số.
Một eiái pháp tích hợp dừ liệu cho van de nàv lù coi các nguồn dừ liệu bên
ngồi đó như là các khunu nhìn thơng qua một lược dồ trune Ilian ào. Diều nà>
có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mơ
hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu
muốn. Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema). ! icp
tlico. họ sẽ

thiết

ke

các

vo bọc (wrappers)


hoặc các

bộ điẻii hợp (adapters)

cho


12

mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt. Các hộ
dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè
bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunu
w

c

>

s-

y

*—

tàm lích hợp dừ liệu (\cni hình 2). Khi một iiLurời sư dụng irne dụnu tru\ vân
lược dỏ Irunu tiian. Irung tâm tích hợp dữ liệu sẽ chn hóa iruy vân nàv thành
các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè. Và cuôi cùng, các kct
qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa
nmrời sử dụnụ.
Một lợi ích cua íiiái pháp nà\ lù các nun dữ liệu mới có thê được hơ SUI1Ỉ2

một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium. Điều này
Iirơna phan với các hệ thonu I I I. hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ
tồn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu.

1.4 LÝ thuyết tích hợp ilũ liệu
LÁ thuyết tích hợp dữ liệu là một tập hợp

C O I

1 cua lý thuyết CSDL. Các kếl

qua cua nỏ cho chúng ta biết rana dừ liệu có thê tích hợp dược hay khị nu và có
nhữnỉiW . khó khàn wui khi thực
hiện.
Tuy•* ra nuw nhĩrnu
nuhĩa
van cịn khá trừu


w dịnli

W
lirợnu. nhưna nhìn chunti chúng cũn ụ là dù dế hiên điền được tat cả nhừnii thê
loại cùa các hệ thống tích hợp.
1.4.1 Các (tịnh nghĩa
Các hệ thơnu lích hợp dừ liệu dược định nuliĩa một cách chính tăc như một
hộ ha <G,S,M> iront» dó Ci là lược dồ tồn cục (hoặc truim íiian). s là tập hợp
các lược đồ nmiồn khônu dont» nhất, và M là phép ánh xạ các lim vân eiừa các
lược dồ nuuồn và lược đồ tồn cục. Cu (ì và s đều được biếu diền trong các
nuỏn ntĩừ thông qua các hanư chừ cái hao gom các biêu tượng cho các quan hệ

ricnii cua cliủtm. Ảnh xạ M bao uồm nhừnu xác nhận uiữa các truy vấn trên G
và các truy vẩn trên s . Khi nũirời sir dụn« đặt cá c truy vấn trên hộ thốna tích hợp

dữ liệu, họ sè dặt các tru\ van qua G và sau đỏ ánh xạ sẽ xác nhận nhừnu kêt nơi
íiiừa các phần tư iron SI lược đồ toàn cục và các lược dồ nuuồn.
MỘI CSDI, qua một lược dồ dược định nghĩa là một tập hợp các tập. mỗi
tập tương irnu với một quan hệ (tronc; một CSDL quan hệ). CSDI. írn» với lược
do nuuồn s là tập hợp các tập ban ghi cho mỗi nÜIIơn dữ liệu khơn2 dịnu nliât
vã nỏ được íiọi là cơ sớ dừ liệu ngìiơn {source database). CỈ1Ú \ rănu CSDI


13

nạuồn dơn nhất này thực lố có ihè là một tập hợp các C S D I. rời rạc. t'S D I

ứnu

với lược d ơ iriin u íiian a o Cì dược s ọ i là cơ sơ (lữ liệu loàn cục (global

database). C S D I . to à n cục p h a i th o a m à n á n h xạ M d ố i v ớ i C S D I Million. l ính
hợp lệ cùa ánh xạ nà\ phụ thuộc vào tính chài cua sự tươna quan giữa Ci và s .
Có hai p l u r ơ n u pháp phố h iế n de m ơ hình hóa mối tươna qu an này. đó là kh u n g

nhìn tồn cục (G A V ) và khung nhìn cục bộ ( I A V ).

K hung nhìn tồn cục

K hung nhin cục bộ

Hình 3: Mõ lu klìịiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I


Trona CÌAV. hệ thons dược rà no. buộc với tập các ban ghi ánh xạ bưi các

hộ trung íỊian (mediators) trong dó tập các han ghi có thê dược biêu diên qua các
nẹuồn có the là rộ 11ạ hơn và da dạng hơn nhiều. Trong I..AV, hệ thống dược rà nu
buộc với tập các bán ehi trong các nguồn. và dúm li có thê dược biêu diền qua
lược đơ tồn cục có thê là rộniì hơn nhiều. Vi vậy. các hệ thơng I.A V thường
phai dổi phó với các câu trá lời khơng hồn chinh.
Trong CiAV. cơ sở dừ liệu lồn cục dược mơ hinh hóa nlur một tập các
khung nhìn trên
truy vấn trên

s.

s.

I rons trườna hợp này M liên kết mồi phan tử cùa G với một

Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các

liên kết ui ira G và

s đà dược định

nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc

cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết
chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các C S D I. nguồn. Nẻu cỏ
nguồn mới nào dược hổ sunu vào hệ thốn2. thì can phai có sự cập nhật cho bộ
truns íĩian. vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp

các nẹuồn
dừ •liệu khơn ự
tha\« dõi.
w
w tlurịnu xun
r
Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần
trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi


14

imuon thịnií till cua thành pho và sau dó thict kế lược dơ lồn cục xoa\ quanh
các hộ■ trunii
*<_ *—íiian n à \. V í (.III. uia sir một tronu các nmiơn là iranu • v_\vcb
■w
C *—vồ thời
I ici. Khi d ỏ n s ir ờ i t h iế t k ê s è b ô s u n s m ộ t p h â n l ử t ir ơ n g ứ n u v ớ i th ị i tiẽt v à o

lược dơ tồn cục. S a u d ó thi vân tic c h u Ycu lã \ ici mà thích hợ p ch o h ộ iruna
üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành m ột truy vấn trôn iranii

\\ch thời liát. Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên
quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó s è phái đối mật với việc viết mà de

kel hợp một cách dúnti dan các kết quà từ hai Iimion khác nhau.
ỉ rái lại. tronii I-A V . cơ sư tiừ liệu nmiồn dirợc mơ hình hóa như một tập
các khung nhìn trẽn G. Tronii trường hợp nà}. M SC liên kết mồi phẩn tir cua s
với một
• lru>

w vấn trên (i. Ớ dây,
« các liên két chính xác W--SỊĨĨra G và s là kliơnu
w cịn

dược định nuhĩa sần. Như sè mơ tủ trong phần tiếp theo, sự khó khăn cua việc
xác dinh xem làm thể nào để iruy xuất các phần tư từ các nguồn sẽ tập trune ờ

hộ xứ lýr tru\» vấn. I.ợi ích cua mơ hình I.A V là các Million
mới có the dược
w
• bơ
suriii với mội
• lượne
• C / cơntỉ
W v iệ■ c ít hơn nhiều s o với ironü *—hệ thốníi• G A V
w . \ ì vậ\.

phương pháp L A V nên dược áp dụng trong các tnrờnii hợp mà các lược dồ trime
gian là không thường xuyên tliay đối.
Xét phương pháp I.A V dối với hệ thống tích

hợp dìrliệu trong VI dụ ờ phần

trôn, ntiirời thiết kế hệ thống tnrức tiên sẽ thiết kế lược dồ lồn cục và sau dó chì
cần nạp vào các lược dồ lirơnu ửnũ cua cúc nuuồn phố.
(.'ùn wụ wiiiá sứ ràng
I
W một trong
w các n ceu ồn dó là traim

w u c b v ề thời tiết. Nmrời
s—

íhiêt kề sị chi bô sung các phần lư tương ứng với tlùïi Iici vào lược đồ lồn cục
nêu khơng bị trùng với những phàn tứ đang tồn tại. Sau dó một bộ điều hợp hoặc
vó học ch o tran a w e b sẽ dược viết và một hán m ô lã lược dồ của các kết qua từ
tra nil w e b sẽ d ư ợ c h ô s u n u v à o c á c lư ợ c d ô n m io n . S ự p h ứ c t ạ p c ủ a v iệ c b ô siin u

neuôn mới sẽ được chuyên từ ntiirời thiết kể sang hộ \Ư lý tru\ vấn.
l. 4 .2 X tr lý tr u y va n
Lý thuyết v ề xử lý tru\ vắn tron» các hộ thống tích hợp dừ liệu ilurờnụ

(.lược biếu ciiền bàng các truy vẩn nổi tiếp (conjunctive queries). Một cách dơn
uian. có thô hiêu một tru\ vấn nôi liếp như là một hàm logic áp dụnu cho các
quan hệ cua một C S D L . clìăiiũ hạn nhir "f(A,B) tronu dó A< B" . Neu một ban uhi
hoặc tập các han íìhi dược lha\ \ ào quv tac và thỏa mãn nó (C|U\ tac cỏ giá trị


15
I RUI.), thi la coi han tihi lá I11 ỘI thành phần cua lập các càu tru lời irons* tru\
vấn. M ặ c dù c á c ntiôn n iiừ h ìn h lỉú rc nh ir D a ta lo ụ b iêu clicn c á c iruv vân IÙI\

một cách súc tích \ à khơnu c ó nhập nhanti. nhưng các tru\ vân SQL thơim
lliirờnu. non c ó thê. vần nên dược phàn loại nlnr các iruv vân nịi liêp.
Một thuộc tính quan irọtm cua các trus vân nơi tiêp (vê mặt tích hợp dừ
liệu) là chặn tru y vắn (query containment). Một truy van A chửa một truy van li
(k\ hiệu là A d H ) nếu các kct quá cua tru\ vấn lỉ lù một tập con cua các kêt qua
cua tru\ vấn A trên bat kv C S D I. nào. Ilai tru\ vấn dược s ọ i là tương đương nêu
các tập két qua là tirons dươrm trên bất kỳ CSDI


nào. D iều này là quan trọna

hởi vì trona cà các hệ thống CÌAV và L A V . các iruy vấn nối tiếp cua người sử
dụnti dều đ ư ợc dạt ra tlìơna qua một lược dỏ ao dại diện bơi một tập các killing
nhìn, hoặc các iru> Nấn nổi ticp "thật". Mục tiêu cua hệ th on s tích hợp lá \ ici lại

các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là
tương đươna hoặc d ư ợc chứa tối da hởi truy vấn cùa rmười sứ dụnu.
Iro n s các hệ thốníi G A V . một neười thiết kế hệ thổnụ sẽ viết mà hộ trung
nuhĩa
cách viết lại
V—íiian đế định

>_
• truy
1 vấn. Mồi Iphẩn ur tron Wạ truy
tể vân cua nturời
W

SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn. Xư lý truy vấn chi đơn gián lù
m ờ rộ nu các m ục đích con tronu truy van cùa ngirừi sử dụne, llico quy lác dã
dược xác định troua bộ truníi gian và vì và) truy vấn kết q là nan như tươim
dươnc.
Trong các hệ Ihong I .AV . các truy van phài trai qua thèm một thao tác viết
lại cư sứ nữa. bơi vì ở đây khơnu có bộ trunu ụian đê doi chiếu truy vấn cùa
ntiirời sứ ciụnu với một chiến lược mờ rộng dơn aiàn. Hệ ihong tích hợp phai
tien hành tìm kiếm trên khơnu
w cíiian cùa các iru\• van claim
w c ó dè tim ra một
• han

viết lại tốt nhất. Ban viết lại nàv có thể khôniỉ phái là một Iruy vấn tirơim dươnu
nlurim dược ch ử a toi đa, và các bàn ahi két quà có the là khơng hồn chinh.
Thuật tốn M in iC on hiện tại dana là thuật toán viết lại tru\ vấn hàna đầu cho

các hệ thơrm tích hợp dữ liệu I.AV.

2. Tổng quan q u á trình tù' (lữ liệu đến thực hiện ra quyết định
Một
tiêu cot »yéu cùa \ iộc
là nhăm tơnỉi
• troníi
V nhĩrnụ
w - mục

• tích hợp
» I dừ liệu

W
hợp. phân tích các ihơnc. tin từ dữ liệu quá khử và từ dó dưa ra nhfrnu quvêt dịnh


16
theo chiều hướníi có lợi ironu urơnỉi lai. Ọ trình llụre hiện mục tiêu Iià\. bal
tlầu lừ nhĩrtm C SD I

tác Iiũhiệp đơn le ch o tlỏn klii dưa ra dược nlũrim quvci

(.lịnh cần thiết, ckrợc gọi là qiiíi trình tù' dừ liệu (Jen thực hiện ra quyết (.lịnh.
Ọuá trình từ dừ liệu tiến liên hành ra quvỏt dịnh là tlirờna bậc thanu tiồni 3
bậc chính: C S D l. và hạ tân li kỳ thuật, Khai plìá dữ liệu (Data M inina) và Cô nu

cụ tác n ghiệp thông minh (Intelligent Business I ool). Quá trình này dược m ơ ta
qua hình 4. trona dó dừ liệu dơn liian là một giá trị do một sự kiện nào dó. I)ữ
liệu có thê d ược thơ hiện dưới dạnii sơ. vàn han. biêu banu. do thị. ban dị. hình
anh. âm th a n h ... D ừ liệu dạne so và vãn hàn dược sư dụnii phô biến nhất. Trong
CNTT. Ihôna tin d ược tlùra nhận là: th ôn s tin = dừ liệu + kinh n sh iệm (hay kiến
thức c ơ sớ ) và tri thức

thông tin + suy luận.

B ậ c th a n g t h ứ lìliấ t - B ậ c d ữ liệ u . Truníi tâm cua I1Ĩ là xây tkrnii các Kho
dừ liệu (Data w areh ou se) nham phục vụ cho nhiệm vụ Khai phá dừ liệu ớ bước
tiêp theo. Kiến trúc, m ục dich sứ dụnu và kỳ thuật x â \ dựiiỉì các Kho dữ liệu là
ral khác s o với cá c C S D l. tác nghiệp (Operational Database).

Hình 4: Mõ 1(1 (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định


17

Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và dược tlui thập \ ư l\’ dê
phục vụ cônu v iệ c nghiệp \ ụ cua một dơn vị. lô chức được uọi là d ữ liệu lác
n g h iệ p (O p e r a tio n a l D a ta ). CSDI

tác níihiệp phục vụ cho các xir lý g ia o clịclì

trự c tu y ê n (O n lin e T ra n sa ctio n P ro c e ssin g - OI I P), cụ thơ nói chu 11li ch ú n a dêu
hỗ trợ \ iệc chiết \u ấ l. lơnu hợp. tinh lồn tự tlộnụ các dừ liệu irone C SD L : \ â \
dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu. truy vấn tim kiểm thỗrm tin ụr
tlộns. cập nhật và khai thác dược C S D L từ xa ... Nlũrns thông tin. dừ liệu dược
chiếi xuất từ C SD Ỉ


lác nahiệp thường là loại thơna tin. dìr liệu mà n eư ời SU'

dụng cơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và chi dáp
ứn<> cho hoạt độim tác nghiệp, nlnu quyết định m an s íiiá trị "Iiũủn hạn".
Kho dữ liệu trái lại phục vụ ch o các x ư /Ý p h â n tíc h tr ự c tu y ê n {O n L i ne
A n a ly tic a l P r o c e s s in g - O l.A P ). nhàm phát hiện thônu tin. tri thức mới với hàm
lirựim trí tuệ cao. k h o dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu
dị liên quan den tồn hộ hoạt dộna cùa một dơn vị, tơ chức nào đó. Các Kho dữ
liệu lưu trữ dừ liệu lịch sir. phụ thuộc thời gian, khơng thể sưa dối dược, và được
tích hợp từ nhiều hệ thôn» thõng tin. CSD1. tác nehiệp được phát triên dựa trên
nhiều hệ quàn trị C S D L khác nhau. Mơ hình cư hán nhất cùa Kho dữ liệu là
CSD L nhiều chiều.
Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém. Khi Kho dừ

liệu chi tập truim vào một chú dè nào đó thì dược sợi là Cơ sở dữ liệu cliu (lẻ
(D a ta M a rt). Nlnr vậy C ơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ
liệu dược tập trung vào một sô chù dồ dược lựu chọn.
Kho dừ liệu dược ra dời khoảng I0 nãm liần dày. nham khác phục tình
trạntì con nẹười dã có rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa dược hao
nhiêu. Kho dừ liệu dang dược quan tâm xây dựnu ờ các nước tiên tien ca ơ quy
mô quốc uia lần quy m ô các doanh nạhiệp. Thông qua các Kho dữ liệu cù n g với
các c ô n g c ụ k h a i p h á d ừ liệu ( D a ta M in in g T ool), nu ười ta có thê phân tích dơ
nhận dạng tồn diện the mạnh diêm yểu cùa một dơn \ ị. tồ chức (thậm chí có thè
là cùa một quốc sia ). dự báo khá loàn diện. da\ đu và hồ trợ một cách hiệu qua
Iron wạ việc
dinh
chiến lược,
kẻ hoạch
sún xuất kinh doanh cùa đơn vị.• tơ

• hoạch
»

*
4
chức đó.
OAt N 0 C Q u ố c G IA HÀ NỘI
ỴO v ‘> tẳ. m

ĩh

!

Ơ N G TtN ÌHƯ VIEN '

V - L0 /

_ }


18
ỉìậ c th a n " t h ử h a i - H ộc t h ô n g tin . ỉ runu tàm lá khai phủ i/ữ liệ u (D a ta
M in in g ) hu\ x â y d ự n g m õ h ìn h (lự b á o (M o d ellin g ), là giai doạn phức tạp nhái
cua quá trình khai phá tri thức trone, các C SD I. (K I)D ). Một sô kv thuật khai phú
đừ liệu chu you dà. chum và sè clirợc ứnii dụ nu dô tlự báo kinh lố sẽ dược tập
truníĩ giới thiệu ironu một phần ơ dưới.
B ậ c th a n g t h ứ b a - H ộc tr i t h ứ c : I ruiiii tâm cua nó là các H ệ tr ự ỹ ú p
q u y ế t đ ịn h (D e c is io n S ìip o ri S y s te m - D S S ) ha\ các c ô n g cụ tá c n g h iệ p th ô n i’
m in h {In te llig e n t B u sin e ss T o o ls). N ó i chim e dó là phân móm tin học cỏ khíi


nãne SUY luận trên CSDl tri thức dược xây dựnu sau íiiui doạn Khai phá dừ liệu.
Một cách dơn giàn, cơ sứ dừ liệu tri thức là một li ạ ntl cüa C S D L nhầm quán trị
dữ liệu là các câu troníi niiơn ngừ m ệnh đề cồ diên, niiôn ntiừ logic tân lừ cấp I.

cấp 2.... trên dó có xâ\ dựna cơ chế SUY luận tự tlộnu dựa trên một lý thuyết lô
aie nà o đ ó như: logic da trị. loẹ ic x á c suất, louic I11Ờ. loaic kh á n ăn e. lý thuyết
chứng c ớ và niêm tin .... V iệ c su y luận ớ d à \ dược hiêu là han a cách áp d ụ n s cư
chế SUN luận dã dược xác định, từ m ột tập tri thức nào dó tro nu C S D L tri thức có
thể suy ra dược một sỏ tri thức m ới hoặc từ một câu hòi do người sử d une dưa
vào cỏ thổ trà lời dược câu hói dó c ỏ thể suy ra dược hay k h ôn g từ tập tri Ihức dà
ch o bane, cá ch thực h iện cơ ch ế SUY luận trên tập tri thức dó. L ĩn h vự c n à y thuộc

vê Trí tuệ nhân tạo tronu C N T T . Chậm hơn vài năm so với sự xuất hiện cùa
KI)[), một
khác chu »yếu dựa trên nền ta nu
ô lnh vc
.
w cua In' tuã nhõn to d ra
di dược s ọ i là Tác n h â n th õ n g m in h (In te llig e n t A g e n t). Các côn li cụ thịnu
minh tác níihiệp hiện nay d ược x â y dựna chú yếu theo kỹ thuật, c ô n g n eh ệ cua
Tác nhân thỏnu minh. ví dụ như cá c phần mềm tin học ch o robot, phần mỏm
đánh cừ. khám chữa bệnh troniì y học. phần mềm lự d ộn g lái ô tô. máy bay. tàu
h oa... dược xây tlựnii theo cơntì nuhệ như vậy. Tác nhân thông minh dược xem
là bước phát triển mới cúa Trí tuệ nhân tạo.

3. Kho d ữ liệu
/

Khải niệm kho dừ liệu
Kho dừ liệu c u n s càp các kiên trúc và cơníi cụ cỊLian 1} cho doanh nuhiệp de


tô chức, khai thác và sư dụng dừ liệu một cách cỏ hệ ihong nham dira ra nlùnm
quyết dịnh manu tính chiến lược. Níiày nay rất nhiều các tỏ chức đã nhận thấv


19
rail lw.a các hệ• thơnu
w kho dữ liệu là m ột cơnu cụ cạnh tranh rât hữu ích. thúc dày
m
/ sự
phát triơn ch u n g cua the íiiứi. í rong nhiêu năm nân ilâv. 11li ười ta dã chi phi
nhiều triệu đ ô-la ch o \ iộc xâ \ dựníi các kho dừ liệu doanh niíhiệp. N h iêu nuười
dã ch o ranụ. với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp. thi việc x â \ dựng
kho dữ liệu là MÌ khi liếp ihị cuối cù nu bat buộc phai c ó dơ c ó ih ẽ cỉáp i m s dược
các nhu cầu cùa khách hànu.
Khái niệm
kho dừ liệu
ntihĩa
theo nhiịu cách khác nhau, nên

• dà d ư ợ• c dinh

Vkhó có thè dira ra một
ngh
• dinh

C' ĩa chính xác, hồn chỉnh, lliê u một
• cách dơn
íiiân, kho dừ liệu thực chất là tập hợp các C S D L tích hợp. lurớnu chủ dề, được
thiết kế đê hồ trợ ch o cli ứ c n ă n g tr ợ g iú p (/livết (lịnh, mà m ồi dơn vị dừ liệu đều

liên quan tới tronu một khoảng thời ạian cụ thê. C ác hộ th o n s kilo dữ liệu cho
phép tích hợp nhiêu loại hộ thỏnụ ứn g dụnạ khúc nhau. Chúnti hồ trợ v iệ c xư l\'
thỏnu
sứ
w tin b a ncs- cách c u n wẹ7 cap
I một
* môi trườnu
W nền d ồnụ
w nhất và c ó tính lịch

cua dĩr liệu dê phục vụ ch o v iệ c phân tích.
1 h eo W.1 l.ln m o n . cha đe cua các hệ th o ns—s kho dừ liệu,
thi một
.
. kho dừ liệu
.
là một tập hợp dừ liệu cỏ chu dề, tích hợp. gan với thời uiun và bổn v ữ n g nhằm
hồ trợ ch o v iệ c ra quyết định cùa c á c nhà quán lý. Dây là một định Iiíihĩa rmản
uọn nhưng chinh xác, bao hàm dầy tỉú các đặc tinh cùa một kho dữ liệu. Bốn đặc
trima: Inrớnịỉ c h u đ ề { s u b je c t-o rie n te d ), tíc h h ợ p Ụ n te r g r a te d ). g ắ n th ờ i g ia n

(time-variant) và bển v ữ n g ( nonvolatile) là các dấu liiỌu phân biệt các kho dừ
liệu với các hệ thonu dừ liệu khác, ví dụ như các hệ thonu c ơ s ở dữ liệu quan hệ.
các hộ thổní» xứ K ụiao dịch, và cá c hệ thone file.
Kho dừ

liệu
thườnu

*— rất lớn. tới


hànaw irăm ( iib y t e ha>

ihậm ch í liànu• V—

Terabyte. Kho đừ liệu ckrợc \ â \ d ự n g đê tiện lợi ch o v iệ c truy cập dữ liệu theo
nhiều nuuồn.

nhiều kiêu dữ liệu khác

nhau sao ch o có thê kết hợp dược cà

nhìrnẹ im li dụ nu cua các côn <2 nu hộ hiện dại và ke thừa d ư ợ c từ nlùrne hệ thốnu
ihỏnu
c - tin và C S D I . dà có sần lừ trước. K h o d ữ liệ u c ó k iề u trúc, m ụ c đ íc h s ử

dụng và kỷ thuật xây (lựMỊ khác với các CSDL lác nghiệp thơ/lí* thường. Các hệ
thơng
w th ơn cg tin thu thập
• I xứ l\'
* dừ liệu
• theo cỏn u
W imhệ
W ' • kho dừ liệu
• dược s o• i là hệ•
xử 1Ý phân tích trực tuyến (O I.A P).
Tóm lại. kho dừ liộu là nơi lưu trữ các dừ liệu d o n c nhất v ề mặt n e ừ nahĩa
nham phục vụ Iilur một ihê hiện \ ậ t IV của m ô hĩnh hỗ trợ IỊUYCI dịnh và lưu trừ



20
các thịniỉ tin mà một tơ chức can tic dưa ra các (.Ịiivct (.lịnh chiến lược. Một kho
dừ liệu cù nu ilurờnu dư ợc \ c m như một kiến trúc được xây dự rte bần ti cách tích
hợp dừ liệu lừ nhiều nụuồn k h ô n g d ồ n e nhất dô hỗ trự các i m \ Nấn có hoặc
kliơnii c ó cau trúc, các háo cá o phân tích và dưa ra các quvêt định.
V iệc \ â \ dựníi kho dừ liệu c ù n g rât hữu dụnu nêu nhìn từ nóc dộ tích hợp
các cơ s ơ dừ liệu khơng d ồ n g nhất. Rất nhiều lị chức tlìirờna tập hợp nhiu loi
d liỗu hn tp khỏc nhau v duy trỡ các c ơ s ở dử liệu lớn từ nhiêu nguôn thônũ
tin phân tán. tự trị và khônu đồnu nhất. V iệc tích hợp các dữ liệu dó và làm cho
\ ì ệ c tru\ cập vào dừ liệu trơ nên dề dànu và hiệu qua. đén na\ Nần luôn là một
khao khát và thách ihírc to lớn. D à c ó rất nhiều níihiên
cứu và nỗ lực
irons
w

w
nềnh cơn u níihiệp dừ liệu nham tới m ục tiêu này.
Phirơnu pháp liếp cận truyền thốrm ch o v iệ c tích hợp các dừ liệu khònu
dont! nhát là xâv d ự n s các vo

bọc ( w r a p p e r s ) và các b ộ tích h ợ p ( in ten*rcifors)

ha> bộ in m iỊ g ia n ( m e d ia to r s ) ữ phía trên các c ơ s ơ cỉừ liệu hỗn tạp. Khi một
truy van d ư ợc dưa tứi phía một m áy khách, m ột từ diên dặc tà dừ liệu sẽ d ư ợc sir
dụnu dê phiên dịch truy van d ó thành các truy vấn thích hợp c h o các phiu dừ liệu
hỗn tạp khác c ó liên quan. Sau dó những truy vấn này s ẽ d ư ợ c ánh xạ và dược
íúri lới các hộ xử K truy van cục bộ. C ác kết quà tra v ề từ các phía dìr liệu hỗn
lạp sẽ d ư ợc tích hợp tron li một bộ tra lời toàn cục. P h irơ n g p h á p tiế p c ậ n (lịnh
liirớng tr u y v ấ n (q u e r v -d r iv e n a p p r o a c h ) nàv dòi hỏi sự xư lý tích hợp và chắt
lọc thồnu tin rất phức tạp. và dơi hói sự cạnh tranh íiiừa các n eu ồn dừ liệu trong

việc xử lý cụ c hộ lại m ồi nguồn. N ó c ó the sc rat tốn kém và k h ôn g hiệu quả đối
với các truy vun thườn!» xuvên, dặc hiệt là nhừng truy vấn địi hỏi sự tích hợp.
3 .2 N h ữ n g đ ặ c đ iể m c ơ b (in c ủ a k h o (ilĩ liệ u
M ọi kho dừ liệu, lus c ó rất nhiều đặc diêm khúc nhau tùy thuộc vào nội
dunu và m ục clích khai thác, n hư ng nhìn chung (Jeu c ó nhừna, dặc diêm cư ban
sau đây:
T ín h h ư ở n g c h ú d è . Một kho dữ liệu thường d ư ợc tơ ch ứ c theo các chu dề
chính đe eiú p ch o tổ chức có the d ề dàng xác định d ư ợ c nhìrtm thơn» tin cần
thiét tro n g ù r n s hoạt d ộ n g c u a m ìn h , c h a n g hạn n in r k h á c h h à n e . nhà CLII1Ü cấp .

sail phàm \ à bán lìànsỉ. Khơnu chi lưu trừ tập irung các hoạt d ộ n a \ à ttiao dịch
liànu nuà\ cua một tỏ chức, kho d ử liệu cịn c ó kha nănu m ơ hình hóa \ à phân


tích dừ liệu de hồ irợ việc ra quyết dịnh. Vi vậy, các kho dừ liệu tlurớnii cunu
cấp một cái nhìn dim ụian. nụẩn iiọn và súc tích về các sự kiện dặc thủ cùa chú
dề hả nu cách loại trừ các dừ liộu vơ ích tro na q 1rinh xứ lv hồ trợ quyết ilịnh.
Ví dụ. ironu hệ tliốnu quan lý tiền eừi tiêi kiệm cù c ó thê dừ liệu dược tô
ch ứ c theo chirc nănn: cho v a \. quán lv tín dụnũ. quail lv ntiân sách. \

Nmrực

lại, irons K ho dừ liệu về tài chinh, dừ liệu d ư ợc tô ch ứ c theo chu diêm dựa chú
yếu theo các đổi tưọnu: k h á ch hàrỉii. sàn phàm. v . v .. . Hai cách tiểp cận khác
nhau dần đốn sự k h ác nhau \ C nội du ng dừ liệu dược lưu trử irone hệ thốnu.
Kho dữ liệu
• khơng
w lưu trữ dữ liệu
• chi tiêl. chi can lưu trữ nhừnụ
W ilữ liệu

• cỏ
tinh Ions’ hợp p h ụ c vụ ch u yé u ch o q u á trìn h phân tích dể trợ s iú p quyết đ ịn h .

Tin h tíc
\ â \» dựnũ
I l l li hI ợ
» Xp . Một
* kho tlữ liệu
• thườn wạ dược

• w b a nws cách tích hợp
• I
từ nhiều nuuồn dừ liệu khơniì d ồ n Ü nhất, chìm li hạn như các C S D L

C |u a n

hệ, các

tệp phăim \ à các han ghi eiao dịch trực tuyến. D o đỏ kho dữ liệu thư ờng là một
klninu nhìn ih ơ n s tin mức tồn thể (toàn qu ốc ũia. tố chứ c, doanh nuhiệp). thốna
nhút các khung
Sm
* nhìn khác nhau th àn h một
* khuim
w nhìn theo m ột
• chu diêm nào đó.
Ví dụ về v iệ c hợp nhất dìr liệu từ các níìuồn C S D I. tác n ah iệp khác nhau như
vậy tỉirơc mị ta tronu nli 5: Một K ho dừ liệu sị c ó một khuns. nhìn tồn thô về
một đơn vị. bao eồm các phần dừ liệu khác nhau tử các hệ thống phân bố na ân
sách, eiao dịch naân sách và quan lý đơn vị sứ dụng n sân sách.

III. 1 HỎN(i
PHÂN BỚ NGẤN SÁCH
Mil dơn \ ị: I(i8
1én dơn \ ị: lỉệnh \ iộn X
l)ị;i chi: sồ 5S dưõng 1

— ►

r> i
c
o


III. IHỎNG
tilA O DtCH NGÀN SÁCH
Mù dit» \ ị: 168
1ôn dơn vị: Bệnh \ iện X
So tài kho.m: 123456



Tích hợp

sr.
o
3

Chuyến ttịi


3-

T3
III IIIĨNU
OI \ \ 1 Y DON VI N S W
Mà iltm \ ị: líiX
Nuàv cúp mủ: 01 (14 2005
ih.inli lập: 01 01 2005

K H O DỬ LI Kl

ar—

Via dơn vi: 168
rên đơn vị: Bệnh viện X
Địa chi: s ố 58 đường 1
N gà\ ihãnh lập: 01 0 1 2 0 0 5
Ngàv cấp mà: 01 04. 2005
Số lài khốn: 123456

Ệ ầ ịẩ ỉ
mỉ'


Hình 5: Minh lu>11 khỏi Iiiỗin rich hp v chuyờn (tụi iluhn' tin dừ liệu
lừ các ( 'Sí)l ttic nghiệp vào Kho (lữ liựn


l inh rich hợp Ihê liiậi ơ chồ: l)ừ liệu lập họp iront» kho dừ liệu đirợe thu
thập từ n h iề u 111211011 và trộn uhcp vớ i nhau lạo thành một thê ih ỏ n g n liâ l.


D ữ tiê u »lirợne lớn dừ liệu lịch sư. I)ữ liệu được kru trừ thành một loạt cúc (inh c h ụ p d ữ
liệu (sn a p sh o t), mồi bàn íihi phan ánh nhìrnu ụiá trị cua dữ liệu tại một thời diêm
nhất dinh
thô hin
mt
IX)
ã
ã
ã khunu
w nhỡn cua mt
ã chu dicm trong
w mt
* wôèai đoạn.

vậ\ cho phép khơi phục lại lịch sứ và so sánh một cách c h ín h xác các giai đoạn
kh ác nhau.

I)ừ liệu irong CSDI tác nghiệp cần phai chính xác ở chinh thời diêm truy
cập. cịn ơ k h o dữ liệu chi cần có hiệu lực tro nu khoảng thời aian nào dó. irons
khoanu 5 tiên 10 năm hoặc lâu hơn. D ữ liệu cua C S D L tác neh iệp thường sau
một khoáim thời ẹian nhât dinh thì s ẽ trờ thành dữ liệu lịch sir và chúng sẽ dược
chuyên vào Kho dừ liệu. Dó chính là những dữ liệu hợp lý v ề nhừnu chú diêm
cẩn lưu trừ. Sự s o sánh giữa dừ liệu tác nahiệp và dừ liệu troníi Kho dừ liệu
tỉirọc thê hiện trone Báng 1.

BiiHii I : So sànli ( 'SDL tác nghiệp và Klio (lừ liệu
CSDL tác nghiệp
...........


....

Kho d ữ liệu

.........

I)ữ liệu niihiệp vụ

Ánh chụp dừ liệu

Thà Ịỉiuii iiỊỉàn intHỊỉ núm. ihirừnỊi lừ 30-60 HịỊÙy Thời ỊỊiun (lài: 5-10 mĩm lioặc hill hơn

Có thi’ cị veil rị thời íỉian hoặc khơng

Ln có yếu lõ thời gian

D ữỉiặi có the cập nhặt

Khi (lữ liệu <1ũ chrợc chụp lại tliì
k illin g c ặ p

nhật dư ợ c

T in h b ề n vũng;. Một kho dừ liệu luôn liru trừ riônụ rẽ v ề mặt vật K các dừ
liệu ch u â n hỏa từ dữ liệu ứnu dụníỉ tron a môi inrờng vận hành. N h ờ sự riêng rè

này. một kho dừ liệu khơnu dịi hói phái có các c ơ chc xử lý giao dịch, phục hồi
và Hơm sốt dồnu, thời. I)ừ liệu irons Kho dữ liệu là dữ liệu chỉ dọc và chi có
thẻ lược kiêm tra. khỏne dược sửa dồi bởi nmrời sứ tlụna đầu cuối. N ó chi cho

phép llụrc hiệ n hai thao tác c ơ ban: N ạ p (lữ liệu vào kh o ( in itia l lo a d in g o f d a ta )
v à 7/7/1' CỘỊ)

vào các nìii Ị rong kho (lữ liệu {access ofikua).


23
D ữ lie n k h ô n il b iế n (IƠHỊỈ Khi dừ liệu Ironii hộ tlìốiiũ dieu hành tác imhiệp
dtrợc cho là quá cù. nỏ sè dược tai vào Kho dữ liệu, rinh khônu hiến d ộnu thê
hiện
lưu trừ làu dài tronu
M ặc
• ờ chồ: l)ữ liệu
• ilirực

w k h o dử liệu.

• dù c ó them dừ
liệu mới nhập và o nhưnu dữ liệu cũ trona Kilo van khơnu bị \ o á . diều dó ch o

phép cun li cáp thơnu tin vè một khốn a thời uian dài. cuniĩ cấp du số liệu cần
thicl cho các m ơ hình nuhiộp vụ phân tích, dự báo. tù' dó c ó d ư ợ c những quyết
dịnli hợp lý. phù hợp với các quy luật tiến hố cua lự nhiên.
ỉ) ũ liê n c ó íín h tÔHii h o p : Dữ liệu tác nghiệp thuần tuÝ k h ô n e d ư ợc lưu trừ
trone Kho dừ liệu. D ừ liệu tôn» hợp đ ược tích lại qua nhièu aiai đoạn khác nhau
theo các chú d iêm như dà nêu trôn.
3 .3 S ự k h á c n li a u g iữ a c á c h ệ t h ố n g C S D L tá c n g h iệ p và c á c k h o (lữ liệ u
Tác vụ chính của các hệ thống C S D L tác imhiệp là thực hiện giao dịch trực
luyến và xư lý truy vẩn. C ác hệ th o n a nàv đưực tỉọi là các hệ th ổn e x tr lý g ia o
d ịc h tr ự c tr u y ề n (O L T P ). N ó hao qt tồn bộ các hoạt d ộ n s hàn« niiàv cua một

tơ chức, như là: mua hàng, quán lý kho, sán xuất, nuân hàng, chi trà. ký sơ và kế
tốn. Trái lại. các hệ thong kho d ừ liệu lại phục vụ người sư dụng vớ i vai trị
phân lích dừ liệu và dưa ra quyết định. C ác hệ th on g như vậy c ó thể tố chức và
biêu diễn dữ liệu dưới nhiều khuôn dạna khác nhau dể ciáp ứ n g các nhu cầu da
tlạnil cua nhiều n eư ờ i ilium khác nhau. Các hệ thống này đ ư ợc s o i là các hệ
ihonu XII' !ỷ p h â n líc h tr ự c tu y ế n (O L A P ).
N h ữ n g dặc diêm phân hiệt chinh giữa Ol.'l'l* và O I .A P bao gom :
D in h h ir ở tiíĩ h ê Íhố/IỊỈ rà n g ư ờ iỂ ủ ỉĩS .- Một hộ thốnu O L T P là h ư ở n g k h á c h
hàriiỊ (c u s to m e r -o r ie n te d ) và dirực sứ dụníi ch o g ia o dịch và xứ lý truy van do
giao d ịch viên, các khách hàng và c á c ch u yên g ia c ô n g n gh ệ th ô n s tin thực hiện.
CỊI1 m ột hệ thơna O Ỉ.A I’ là hirỞMỊ th ị t n ròn g (m a r k e t-o r ie n te d ) và lUrực sư dụ nu
cho \ iệc phân tích thịng tin d o nhìrne người dùrm c ó trình độ thực hiện như: các
nhà t|iỉàn lý. nhà phân tích, triên khai. v.v...
y ơ i (Itm íỉ (lữ l i e u . Một hệ th o n s O L T P th ư ờn g quan lý cá c dừ liệu rất chi
tiêt dê cỏ thê dề dàng sứ tiụna cho v iệ c ạiao dịch. C òn một hệ thốnti O I.A I’ lại
llurờnu quan lý một khối lượn” lớn các dừ liệu lịch sứ. t u n s cap kha nănu tồng
hợp \ a phân tích, tlồnc thời lưu trừ vù quán l\ thòim tin (V nhiều m ức đ ộ chi tiết
khác nhau nôn rat dề sư dụng ch o v iệ c ra quvết định.


24

T h iế t k c co sò' (lữ l i ệ u . Một hệ thonu OI.TI* thườim áp clụnu một m ơ hình
dừ liệu quan hệ thực thê (E n titie s R e la tio n sh ip ) và m ội thicl kế C S D L luróĩiũ
ứ nu đụim ( a p p lic a lio n -o r ie n tc d ). C òn một hộ thonu O I.A I’ lại tlurờnụ áp dụng
một mơ hình s a o (s ta r ) hoặc m ô liinh b ô n ẹ tu y ế t (s n o w fla k e ) và một thiết kế
CSD1 hướne chu d ề ( s u b je c t- o r ie n te d ).
Một hệ thốnti OI I P thướng chi tập trunu CỈ1 Ú vêu v à o dữ liệu

K h u n g n h ìn


hiện
• ihừi tronu
w khn khơ cua một
• tơ chức dơn lc nào dó mà kh ơng
ì—c ó s ự tham
chiếu đến nhừntt dữ liệu trơna q khứ cùa tơ ch ứ c dó hoặc d ừ liệu cua các tô
chức khác. Trái lại. một hệ thống O L A P thường tiếp nối nhiều phiên hãn cùa
một lược do C S D I. trôna, suốt quá trình phát triền cùa một to chức, đ ồ n g thời
cùn a xem xét den các tlìịnu tin dừ liệu cua các tị ch ứ c khác, tích hợp thông tin
từ nhiều nguồn dữ liệu khác nhau.
C á c k i ê u tr u y c â p : Phương thức truy cập chú y ếu cua một hộ thổnc O LTP
thường là truy cập theo kiêu g ia o dịch. C òn v iệ c truy cập vào các h ệ th o n s
O L A P hầu hết là các thao tác chi d ọc. bởi vì hầu hốt cá c kho d ừ liệu chi lưu trữ
các thơnu tin manii tính lịch sư hơn là các thônu tin cập nhật mới nhất.
N a o à i ra cịn c ó các dặc d iêm phân biệt khác giừa O L T P và O L A P hao
gồm: kích t h ư ớ c C SD I-, lần suất hoạt động và hiệu suất, dược t o n s hợp ironti
Bảnc 2 dưới đâv:
r

Hàng 2: So sánh các hệ lllông O U I ' vit OLAP
O LA P

Đ ặ c đ iể m
Đ ạ c Irư n g

X ư lý lá c nglìiựp

X ir lỷ lliõ iiịi tin


D ịn h h ư ớ n ẹ

G ia o d ịch

P h ân líc h

N m r ờ i d ú n ii

( iia o d ịch viên,
'huyên iỊÌd ( 'SDl.

Q uán

trị

CSD L:

(

N g ư ờ i dùng cao cáp (nhà quan lý,
thi hành, p h án lic itt

Chứcnăne

( 'ác hoụt động hàng ngàv

( 'ác lê n cưu thông tin dự bão Itnniịỉ
/ai, hỗ trự ra I/IIVỜI cỉịiỉh

T h iế t k ế C S D L


D ự a trên mỏ hình F.R. hư ở ng ủng dụng

H ìn h sao/Rơng Iityưi. hướng chu đe

D ữ liệ u

llic n thời, iíúm háo tinh cập nhủi


l.ịc lì sư, (lược duy tri đều đặn theo
th ời \iian

1ỏ n u h ợ p

Thũng tin Ill'll) L'Il lư, rá t c h i liê i

Tón\ỉ lĩự p vù itõtìg nhát

G ó c n h ìn

( 'hi lièi. ilh 'o Í/IIIIIÌ liự ph ăn g

Tõhịỉ hựp, (in chiểu

Dơn

S g á n . ịỊ ia o d ịc h dơ n íỊìó n

Truy ván phứ c tap


D ọ c ( ìh i

/h iu hét lù ch i dọc

V

ị c ô n t ỉ \ iệ c

T ru \ c ậ p


25
1 iẽii liêm

D ữ lien dâu vào

Tỉiị h ịì liu (tân ru

1hũiotiic

index Ihis/ì c iiíi khóa chinh

Oiií'1 n hìcii /in ì

So b;n i*h i

1Lilly! chục

H ìih ịì triựu


Sỏ m ư ờ i d ù n u

l/ù iìí! Iifih bi

HìtHỊi Irìim

K ích thước

n m t h ill'll ( ib

HHKìb (ten Th

Ư u tiín

H iệu qua cao, lin h sun SỊHÌỊ cao

Dạ lin h lìo ạ l cao

1h ưó: đ o

T lìị iiịi h n m íi g ia o dịch

ThõnỊi hrrnií! in iy van. tlìờ i iỊÌan hịi
íĩíi/l

3 .4 K iến tr ú c k h o d ữ H ên
Kiên trúc cua các kho dữ liệu thường bao gồ m 3 lớp, như hình 6 dưới đ â \ :

Qu«iy Repoit


A iulysiĩ

Data Miiuuj
Fiont-Eud Too!'.

OLA?

OLA? Síii

S « IV * I

OLA? EiiỊin«

M omtouui

A d iJ im r .tia tiC ii

D jt.1 Wat «hou*

Dau Stoiij*

M«tacfou K ipo'.itorW ’

Dali c U.MURỊ
and
D.tl.1 In:*;utiou

00
E x i « m u 1 ÍO U IC Í" .


I /ìn h 6: K iế n trú c K h o (/ liỗ u


×