Tải bản đầy đủ (.pdf) (88 trang)

Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (32.74 MB, 88 trang )

0— L
ĐẠI 1IỌC ọ u o c GIA 1IA NỌI
TRƯỜNG d a i h o c ( ô n c n g h é
• •

PHAN NHẢT KIÊN

T ÍC H H O P D Ủ L IÊ U , K H O DŨ L IÉ U VÀ Ử N G D U N G
TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CÔNG
Ngành: Công nghệ thông tin
Ma số: 1.01.10
LUẬN VĂN THẠC sĩ
NGƯÒI HƯỚNG DÁN KHOA HỌC
rs. ĐỎ VÃN THÀNH
DAI H O C Q U Ố C GIA HẢ N Ò
ĨRUNG TÀM THÔNG TIN ÌHƯ VlẺN
V - LO/
1 là Nội - 2008
1
MỤC LỤC
DANII MỤC CÁC KÝ I III l i. c Ác (I lữ VIH'r I A I
3
DANH MỤC CÁC BẠNCì mi I 4
l)ẠNI I MỤC CÁC HÍNII VI'. DÓ TIIỊ 5
M( ) DẢU
.
7
CHƯƠNG l-TÍCII lỉỢPDĨTl II;.u VÀ KHO DƠI.II.U y
1. rích hợp dừ liệu
/. I Khái niệm lích hợp (ỉữ liệu l)
1.2 Lịch sư phát iriên cua licit hợp (lữ liệu


1.3 ì i (iụ minh h ọ a
I I
1.4 Lý ilinycl tic tì hợp dừ liệu 12
2. Tồng quan quá trình từ dữ liệu đến thực hiện ra quyết định 15
3. Kho dữ liệu 18
ỉ. / Khái niệm kho dừ liệu IX
3.2 Những đặc tỉìêm ctr ban CIIU kho dữ liệu 20
3.3 Sự khác nhau ỉỉiừti các hự thong CSDL tác nghiệp vả các kho (lữ liệu

23
3.4 Kiến trúc kho (lữ liệu 25
3.5 Síô hình kho dừ liệu 27
3.6 c 'hiển lược thieí ke, Xíiy thmg kho dừ liệu 31
4. Cơ sớ dữ liệu chu đề (Data Mart) 36
4. ỉ Khái niệm cơ sơ (lừ liệu chu đ ề 36
4.2 Những lý i/o can pliái xây dựng các cơ sớ dừ liệu chu dề 38
5. Khai phá dữ liệu (Data Mininu) 39
5. / Khải niệm 3 y
5.2 c 'ác kỹ ịhuật khai phá dừ Hệu 4 1
6. kết luận 42
CHƯƠNG II - GIỚI THIỆU MỌT SỎ KHO DỮ LIỆU VÀ CSm.CHỦ ĐÈ 43
1. Ớ tron» nước 43
I I Cơ .sớ dừ liệu chú dè về kinh tế vĩ mô 43
1.2 Hẹ cơ sờ dừ liệu phát ỉrièn bển vừttg của l iệt Xam

.

46
2. Ớ ngoài nước 53
3. kct luận 57

CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG cơ SỜ Dfr l.lị:n CHỦ l)Ẻ Độc I.ẠP TRONCi
QUẢN LÝ TẢI CHÍNH CÒN(Ỉ

.
58
1. Cìiới thiệu vân đè 58
2. Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách
58
3. Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân sách 59
J. / Yên cần Ví' liệ tlionịỉ chi tien 59
3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu 59
3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớ rộng, nàng cap

.

60
4. Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách
61
5. Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách 62
5.1 Mò hình phân rà chức nàng 62
5.2 Mỏ hình cỉữ liệu 64
6. Một so chức năng chu yếu cua C SD1. chú đề về thu - chi lìgân sách

65
7. két luận 79
KÍ T I.UẬN CỈIUNG 80
IÀI I ll.iirilIAM KHẢO SI
PIIỤ I ỤC 82
DANH MỤC CÁC KÝ HIẸU, CÁC CHỪ VIÈT TÁT
K\' hiệu

Diễn }>iai
CN 1 1
c omi nghệ ihông tin
cọ
Cơ quan
CSI )I
Cư sơ dừ liệu
l)M
Data Mart Cư sơ dừ liệu chu dê
l)SS
Decision Suport System - ỉ lệ thông hồ trự quvêt định
l)\v
Data Warehouse - Kho dừ liệu
IR
Entities Relationship - Quan hệ thực the
III.
Extract. Transform. Load - Trích chọn. Chuẩn hoá. Nạp
Ill
Cộnụ dồnụ các quốc gia sứ dụnu đồnu tiền chung Châu Âu
CÌAV
Global As View
KBNN
Kho bạc Nhá nước
KDI)
Knowledge Discover) in Databases - Khai phá tri thức từ CSDI
K l-XII
Kinh te - xà hôi
l.AV
Local As View
I.IIỌ

Lien hợp quốc
MDGs
Millenium Development Goals - Các mục liêu phát triên thiên niên ky
MOLAP
Multidimensional-OI.AP - Xứ lý phân tích trực tuyên kiêu đa chiêu
NSNN
Ngân sách Nhà nước
OLAP
Online Analytical Processing - Xư lý phân tích trực tuyến
OI I P
Online Transaction Processinii - Xứ lý giao dịch trực tuyến
PTBV
Phát tricn bền vừng
KOI .AI’
Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ
DANH MỤC CÁC BẢNG BIẾU
Tồn há 11 «Ị
Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu
Bang 2: So sánh các hộ thốnii OI I P và OLAI’
s
DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Tên hình vẽ Trang
I linh I : Biêu dỏ dơn uián cua một kho dừ liệu 9
Hình 2: lỉiêu đỏ niai pháp tích hợp dữ liệu iheo kiêu liên kết lỏng 10
Hinh 3: Mô tá khônu gian ban ụhi cùa các ánh xạ (iAV \á L.AV 13
I lĩnh 4: Mỏ ta quá trình từ dừ liệu don thực hiện ra quyết định 16
Hình 5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu
từ các CSDL tác ntỉhiệp vào Kho dữ liệu 21
Mình 6: Kiến trúc Kho dù liệu 25
I linh 7: Mò ta mô hình Kho dừ liệu trường hợp 3 chiểu 28

I linh 8: Mô tá sơ dồ dừ liệu nhiều chiều theo sơ dồ hình sao 29
I linh 9: Mô tà sơ đồ dừ liệu nhiều chièu theo sơ dồ bông tuyết 30
I lình 10: Mỏ tà sơ đồ dữ liệu nhiều chiều theo sơ dồ chòm sao sự kiện 30
I linh 11 : Mò tả phương pháp triển khai kho dìr liệu 35
ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với kho dữ liệu và
CSDLchuđề 37
I linh 13: I.uồng dữ liệu trong một tỏ chức, cơ quan 38
Hình 14: Mô lã quá trình khai phá dữ liệu 40
I lình 15: Sơ liồ phân rã chức nãng CSDI. chú đề thu - chi NSNN 63
I lình 16: Sơ đồ dữ liệu cua C’SDI. chu đề thu - chi NSNN 64
I linh 17: (Yie khoan mục chi tiẻu thu - chi niĩân sách 65
1 linh IX: Giám sát. theo dõi tình hình thục hiện các mục tiêu chu yếu 66
1 linh 19: I im kiếm, lựa chọn chí liêu theo lĩnh vực và nhóm chi tiêu 67
I lình 20: Tìm kiếm, lựa chọn chi tiêu theo nguồn số liệu 67
I lình 21 : l .ựa chọn khoáng thời gian lấy số liệu cho các chi tiêu 68
I Unh 22: Lựa chọn địa bàn theo địa danh 68
Minh 23: l .ựa chọn địa bàn theo vị tri trên bàn đồ 69
I linh 24: Mán 11 inh liệt kê kết quà truy vấn dìr liệu 69
I lình 25: Màn hình liệt kè <JCr liệu theo kicu phân nhóm 70
I lình 26: Màn hình liệt kê dừ liệu iheo các tiêu chi tliỗnu kê 70
1 linh 27: Các phép toán thong kẽ có thể thực hiện trôn dừ liệu 71
I linh 28: kòt quà phép toán Phần trâm dưởi ílạim lì lo I Aeel 71
I linh 29: kêt qua phép toán 100 dào số dưới dạng file Hxcel 72
Hình 30: kòi qua phép toán Chi sổ hồn hợp dưứi dạnạ file Excel 72
11 inh 3 I : kct qua phép toán C'luiNcn dôi dan \ ị dirới dạng nie l \ e d 73
11 ml) 32: kci qua phép loán tlico cône tlitre ngirới sir dụng tự định nghĩa 73
1 lình 33: I rinh bày dữ liệu dưới dạng báng biếu 74
I linh 34: Trinh bày dừ liệu dirứi dạng dồ thị 74
I hull 35: I rình bày dữ liệu dưới dạng bán dồ 75
I lĩnh 36: Màn hình lựa chọn kct xuất sô liệu 76

I lình 37: Màn hình dừ liệu sau khi kết xuất ra Líxcel 76
Hình 38: I rinh bá\ két quá phân tích trorm PowerPoint 77
I linh 39: Minh hoạ chức năng hướng dẫn sir dụng CSDL chủ dể 78
6
7
MỞ ĐÁU
Níià\ nay. nhân loại lia 11 li dirim trước một nuliịch l>' là có rất nhièu clĩr liệu
nhirnu lại dõi ihônsỉ tin. Quá trình nỗ lực lîiai tjlivct níỉhịch lv nà) dà dần đến
hình thành một xu lurỡnii nghiên cửu và ứng tiụnu dang rat phô bien và sôi ilộníí
troníi the giới CNTT hiện nay. dó là van lie phát hiện Iri thức từ các cơ sờ dừ
liệu (Knowledge Discovery in Databases - KI)D).
Ọuá trình K.DD ạỏm nhiều iiiai đoạn, tronii dó có hai 2 Ìai doạn quan trọnc
nhất, dó là: xâ\ dựnc kho dữ liệu (Data Warehousing) và khai phá dừ liệu (Data
Vlininụ). Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD. Mục
dich cua giai đoạn nàv là \â \ dựnc một loại cơ sở dữ liệu (CSI)I.) khôna chuẩn
hoá, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn,
lừ nhiều CSDL khác nhau. Các CSDL này nói chIInu thirờnẹ dược phát triển
trên nền các hệ quàn trị CSDI. khác nhau. Vì vậy khi xây dựng kho dừ liệu
tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên
quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ. phần mềm và dừ liệu.
Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề I iên quan
đến lích hợp dữ liệu; kiến trúc và các thành phần cơ bản cùa kho dừ liệu: khai
phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\
dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh
vực tài chinh cône ữ Việt Nam.
♦ V» •
l.uận vãn gôm có 3 chương nội dung, không kê các phần mở dầu. kết luận,
lài liệu tham khảo và phụ lục:
• Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu. Trình bày các khái niệm, lý
tluiyết cơ ban và các van đề liên quan dến tích hợp dữ liệu và kho dữ liệu.

• Chương // - Giới thiệu một số kho (lữ liệu và CSDL chú dề. (ìiới thiệu
khái quát về mục liíclì, dặc điểm, chức năn ti cùa một số kho dừ liệu,
CSDL chu để tiêu biêu ơ tronụ và ngoài nước hiện nay.
c * ụ
• Chương lỉl - ủhg dụng xây dựng CSDL ch ti đề độc lập trong quản lý
Tài chính công. Trình bà\ việc ứ ne dụ nu l\' thuvết Kho dừ liệu de \â\
dựĩiíĩ ihứ nchiệm một CSDI chù dê phục vụ phân tích, dự háo vê tình
hình thu chi nuàn sách áp dụnu tro nu lĩnh vực l ài chính cônư.
lác giá xin íuri lời irân trọn li cam ơn đèn I hâ\ ui áo hirớnii dần IS. I)ồ
Văn I hành cùníì toàn the các bạn hè. dồng niihiệp dà nhiệt tinh aiúp dỡ. cu 112
cáp nluìnu thônạ tin. tư liệu quv háu dè hoàn thành luận vãn này. Do khuôn khô
thời gian có hạn nên nội ilium luận văn chắc chăn SC còn nhiều thiếu SÓI. tác già
rat nions, nhận dược sự íiỏp tham eia V kiến của các thav cỏ ui áo. bạn bò dônti
nuhiệp dê eôns trình ìiỉihiên cứu nù\ neà\ cànu tlirợc hoàn thiện hơn nữa.
Xin chân thành cám ơn!
CHƯƠNG I - TÍCH HỢP DỮ LIẸU VÀ KHO DỮ LIẸU
I. Tích họp (lũ liệu
/. / Khái niệm tícli hợp (lũ liệu
Tích hợp dừ liệu lù quá trình ket hợp các loại dữ liệu lừ nhiều nỉỉUÔn khác
nhau và CIII1Ü cấp cho niurời sư dụng một cái nhìn dồna nhất về các dừ liệu dó.
Vấn đề quan trọng này đà và claim xuất hiện ngày càna nhiều tronti các lĩnh vực
I • w
t ỉ
s— • •
m
»— c •
khác nhau cua dời sốnu \ã hội. chãns hạn trong lĩnh vực thương mại khi các
cỏn ạ IV tương tự nhau can hợp nliẩl dừ liệu cua họ. hoặc tro nu lĩnh vực khua học
nhằm kết hợp các két quà million cửu từ các kho tri thức khác nhau. Tích hợp dừ
liệu xuai hiện với cườnạ độ ngà\ càns tãnu và làm bùna nô nhu cầu chia se dữ

liệu. Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn
can dược uiai íỊUvet. Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích
hợp thâmỉ tin doanh nghiệp {Enterprise information Integration).
1.2 Lịcli sử phát irìên cua tích họp dữ liệu
Ngà) nay. tích hợp dữ liệu khônu còn là van đe mới me. l ừ những năm
1960. sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi.
dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL. Việc tích hợp có thề dược
thực hiện ở nhiều cấp độ trong kiến trúc của CSDL. và một trong nhữ na phươnii
pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ). Ở đó.
dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract,
Transform, Load ~ gọi tat là tiến trình ETL) vào một imuồn. và có thế được truv
vấn với một lược dồ dơn lé.
ỉ/ình I : Bien
i1ồ
(lơn gian cua một kho dữ liệu.
Thông Ún từ các c 'SOI. nịỉitòn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu
Vê mặt kiến trúc. ílà\ cô thô dược \C111 Iilur một pluronu pháp liên kôt chặl
bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy
vấn. Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược
tinh cập nhật tức thòi cua dừ liệ u (\í dụ khi một I1ÜUÔI1 dữ liệu UOC được cập
nhật mới. nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình
í: I I cần phai dược thi hành lại nhiều lần. Niioài ra. cũna khó có thê xây tiựnu
các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiòn dữ liệu
mà khônu truy cập tới dừ liệu dầy dù.
Tronu nlũrna năm aần đây. việc tích hợp dữ liệu có xu hướng nới lòna liên
kết aiừa các dừ liệu. Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons
nhài thôn*! qua một lược đo trung gian hay còn uọi là CSDL ào (xem hình 2).
10
Vò bọc
Vó bọc

Hình 2: Biêu (tồ ỊỊiái pháp lích hợp (lữ liựn theo kiên liên két lòng.
Xây tlựiHỉ một lược ito Inins’ Ịỉitm mil qua đó người sư tỉụnỊĩ có thê đưa ra các truy vail.
I heo mô hình tích hợp này. các truy van dong nhất sau khi di qua lược đồ
trung iỊÍan (Mediated Schema) và các vo bọc ( Wrappers) sẽ được chuân hóa
thành các truy vấn cơ sở trên các CSDL nuuồn. Quá trình này cũnu có thể dược
gợi là quá trinh hói đáp dựa trên khuna nhìn ( View), bời vì chúng ta có thê xem
mồi Iiiiuòn dừ liệu như là một khunii nhìn trên lược do trung aian. Plurơnụ pháp
tiếp cận nlur \ ậ\ dược aọi là plurơnu pháp kìumsi nhìn cục bộ (Local /l.s l ieu -
LAV). C'ùnt» có một mô hình lích hợp khác tron 12 dó lược dồ trung aian dược
thièt kê như là một khunu nhìn trên các dừ liệu rmuồn. IMiươim pháp tiôp cận này
dược íiọi là phương pháp killing n hìn toàn cụ c (G lob a l A s I'/Vu- - GAV). ihirônt»
dược sir đụim khi CỎ nlnrmi rac roi phái sinh khi tra lời các till) \an qua lược dô
truim uian. I u\ nhiên, nhược diêm cùa phương pháp này là sẽ phai sưa lại
kliunu nhìn cho lược dồ trunu uian mồi khi có them một nuuôn dữ liệu mới dược
k . • w W * • *
lich hợp hoặc khi một n Lí lion hiện tại tha\ dối lược dồ cùa nó.
Hiện nay. một sổ nahiên cứu vè vẩn đò lích hợp dừ liệu còn có liên quan
Jell vắn dò lích liợp ngữ lìiỉliui (Semantic Integration), vần dò nàv khônu chi ra
làm the nào dc \à\ dựna kiên trúc tích hợp. mà là làm thế nào dê uiui quyêt các
\unii dột nạừ niihĩa eiừa các nguồn dừ liệu không, dônu nhât. Ví dụ nếu hai cô nu
1\ hợp nhất CSDI. cùa họ lại. thì các khái niệm và định nahìa nào đỏ tronu các
lược dồ riêne cùa họ. chăn a hạn "lợi nhuận", sẽ có nhìrng V nghĩa khác nhau.
Ironụ một CSDI nó có thê cỏ nuhĩa là lợi nhuận barm đông dô-1 a (dưới dạnu sô
ilụrc dấu phây tlộnu). ironạ khi ironti CSDI. kia. nó lại có nghĩa là số lirợnu hàna
hán dược (dưới dạna số nạuyên). Một chiến lược aiài pháp chuim cho các ván
dề nlitr vậy là sứ dụng các bàn thê (ontologies) troniì đó dịnh nghĩa mội cách rõ
rànu các thuật nu ừ cùa lược dô và từ đó giúp aiài quvét dược các xunu đột ngừ
nghĩa.
/ ? Vi dụ minh họa
(ìiá SƯ có một ưnu dụnu vvch tronc đó nmrời sư dim ü có thê tru\ \â n các

* w • w w W • c
<r
Ihôrm tin khác nhau về các thành phố như: ihốns kè tội phạm, thời tiết, khách
sạn. nhân khâu, v.v Theo cách truyền thống, thì các thông tin pliai tồn tại iront»
một CSDL dơn nhất với một lược đồ đơn nhất. Tuy nhiên, một số lirợnu Ihônu
tin đa dạnu nhir vậy rat khó và rất tốn kém đê cỏ thê tập hợp tronụ một tô chức
dơn nhất. Thậm chí nếu có ton tại các nuuon thôíiíi tin dể tập hợp dìr liệu, thi
cũ nu sò dẫn đến cỏ thè bị trùnii lập dữ liệu trong các CSDI. tội phạm, các trang
uch vè thời tiết, và các dừ liệu dân số.
Một eiái pháp tích hợp dừ liệu cho van de nàv lù coi các nguồn dừ liệu bên
ngoài đó như là các khunu nhìn thông qua một lược dồ trune Ilian ào. Diều nà>
có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mô
hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu
muốn. Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema). ! icp
tlico. họ sẽ thiết ke các vo bọc (wrappers) hoặc các bộ điẻii hợp (adapters) cho
mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt. Các hộ
dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè
bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunu
w c > s-
y
*—
tàm lích hợp dừ liệu (\cni hình 2). Khi một iiLurời sư dụng irne dụnu tru\ vân
lược dỏ Irunu tiian. Irung tâm tích hợp dữ liệu sẽ chuân hóa iruy vân nàv thành
các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè. Và cuôi cùng, các kct
qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa
nmrời sử dụnụ.
Một lợi ích cua íiiái pháp nà\ lù các nuuôn dữ liệu mới có thê được hô SUI1Ỉ2
một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium. Điều này
Iirơna phan với các hệ thonu I I I. hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ
toàn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu.

1.4 LÝ thuyết tích hợp ilũ liệu
LÁ thuyết tích hợp dữ liệu là một tập hợp C O I 1 cua lý thuyết CSDL. Các kếl
qua cua nỏ cho chúng ta biết rana dừ liệu có thê tích hợp dược hay khò nu và có
nhữnỉi khó khàn ui khi thực hiện. Tuy ra nu nhĩrnu dịnli nuhĩa van còn khá trừu
W. w • • •* w w • W
lirợnu. nhưna nhìn chunti chúng cũn ụ là dù dế hiên điền được tat cả nhừnii thê
loại cùa các hệ thống tích hợp.
1.4.1 Các (tịnh nghĩa
Các hệ thônu lích hợp dừ liệu dược định nuliĩa một cách chính tăc như một
hộ ha <G,S,M> iront» dó Ci là lược dồ toàn cục (hoặc truim íiian). s là tập hợp
các lược đồ nmiồn khônu dont» nhất, và M là phép ánh xạ các lim vân eiừa các
lược dồ nuuồn và lược đồ toàn cục. Cu (ì và s đều được biếu diền trong các
nuỏn ntĩừ thông qua các hanư chừ cái hao gom các biêu tượng cho các quan hệ
ricnii cua cliủtm. Ảnh xạ M bao uồm nhừnu xác nhận uiữa các truy vấn trên G
và các truy vẩn trên s. Khi nũirời sir dụn« đặt các truy vấn trên hộ thốna tích hợp
dữ liệu, họ sè dặt các tru\ van qua G và sau đỏ ánh xạ sẽ xác nhận nhừnu kêt nôi
íiiừa các phần tư iron SI lược đồ toàn cục và các lược dồ nuuồn.
MỘI CSDI, qua một lược dồ dược định nghĩa là một tập hợp các tập. mỗi
tập tương irnu với một quan hệ (tronc; một CSDL quan hệ). CSDI. írn» với lược
do nuuồn s là tập hợp các tập ban ghi cho mỗi nÜIIôn dữ liệu khôn2 dònu nliât
vã nỏ được íiọi là cơ sớ dừ liệu ngìiôn {source database). CỈ1Ú \ rănu CSDI
12
nạuồn dơn nhất này thực lố có ihè là một tập hợp các CSDI. rời rạc. t'SDI ứnu
với lược dô iriinu íiian ao Cì dược sọi là cơ sơ (lữ liệu loàn cục (global
database). C SDI. toàn cục phai thoa màn ánh xạ M dối với C SDI Million. l ính
hợp lệ cùa ánh xạ nà\ phụ thuộc vào tính chài cua sự tươna quan giữa Ci và
s.
Có hai
p lu r ơ n u
pháp phố hiến de mô hình hóa mối tươna quan này. đó là khung

nhìn toàn cục (GA V) và khung nhìn cục bộ ( I A V ).
13
Khung nhìn toàn cục Khung nhin cục bộ
Hình 3: Mõ lu klìòiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I
Trona CÌAV. hệ thons dược rà no. buộc với tập các ban ghi ánh xạ bưi các
hộ trung íỊian (mediators) trong dó tập các han ghi có thê dược biêu diên qua các
nẹuồn có the là rộ 11 ạ hơn và da dạng hơn nhiều. Trong I AV, hệ thống dược rà nu
buộc với tập các bán ehi trong các nguồn. và dúm li có thê dược biêu diền qua
lược đô toàn cục có thê là rộniì hơn nhiều. Vi vậy. các hệ thông I.AV thường
phai dổi phó với các câu trá lời không hoàn chinh.
Trong CiAV. cơ sở dừ liệu loàn cục dược mô hinh hóa nlur một tập các
khung nhìn trên s. I rons trườna hợp này M liên kết mồi phan tử cùa G với một
truy vấn trên s. Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các
liên kết ui ira G và s đà dược định nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc
cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết
chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các CSD I. nguồn. Nẻu cỏ
nguồn mới nào dược hổ sunu vào hệ thốn2. thì can phai có sự cập nhật cho bộ
truns íĩian. vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp
các nẹuồn dừ liệu khôn ự tlurònu xuyên tha\ dõi.
w • w r «
Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần
trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi
imuon thònií till cua thành pho và sau dó thict kế lược dô loàn cục xoa\ quanh
các hộ trunii íiian nà\. Ví (.III. uia sir một tronu các nmiôn là iranu \vcb vồ thời
■ *<_ *— • v_ ■ w C *—
Iici. Khi dỏ nsirời thiết kê sè bô sun s một phân lử tirơng ứnu với thòi tiẽt vào
lược dô toàn cục. Sau dó thi vân tic chu Y cu lã \ ici mà thích hợp cho hộ iruna
üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành một truy vấn trôn iranii
\\ch thời liát. Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên
quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó sè phái đối mật với việc viết mà de

kel hợp một cách dúnti dan các kết quà từ hai Iimion khác nhau.
ỉ rái lại. tronii I-A V. cơ sư tiừ liệu nmiồn dirợc mô hình hóa như một tập
các khung nhìn trẽn G. Tronii trường hợp nà}. M SC liên kết mồi phẩn tir cua s
với một lru> vấn trên (i. Ớ dây, các liên két chính xác SỊĨĨra G và s là kliônu còn
• w
« W w
dược định nuhĩa sần. Như sè mô tủ trong phần tiếp theo, sự khó khăn cua việc
xác dinh xem làm thể nào để iruy xuất các phần tư từ các nguồn sẽ tập trune ờ
hộ xứ lý tru\ vấn. I.ợi ích cua mô hình I.A V là các Million mới có the dược bô
r » w •
suriii với mội lượne côntỉ việc ít hơn nhiều so với ironü hệ thốníi GAV. \ì vậ\
• • C/ W ■ *— • w .
phương pháp LA V nên dược áp dụng trong các tnrờnii hợp mà các lược dồ trime
gian là không thường xuyên tliay đối.
Xét phương pháp I.AV dối với hệ thống tích hợp dìr liệu trong VI dụ ờ phần
trôn, ntiirời thiết kế hệ thống tnrức tiên sẽ thiết kế lược dồ loàn cục và sau dó chì
cần nạp vào các lược dồ lirơnu ửnũ cua cúc nuuồn <Jìr liệu thônu tin VC thành
phố. (.'ùn ụ iiiá sứ ràng một trong các neuồn dó là traim ucb về thời tiết. Nmrời
I w w W w c w s—
íhiêt kề sò chi bô sung các phần lư tương ứng với tlùïi Iici vào lược đồ loàn cục
nêu không bị trùng với những phàn tứ đang tồn tại. Sau dó một bộ điều hợp hoặc
vó học cho tran a web sẽ dược viết và một hán mô lã lược dồ của các kết qua từ
tra nil w eb sẽ dược hô sunu vào các lược dô nmion. Sự phức tạp của việc bô siinu
neuôn mới sẽ được chuyên từ ntiirời thiết kể sang hộ \Ư lý tru\ vấn.
l. 4.2 Xtr lý tru y van
Lý thuyết về xử lý tru\ vắn tron» các hộ thống tích hợp dừ liệu ilurờnụ
(.lược biếu ciiền bàng các truy vẩn nổi tiếp (conjunctive queries). Một cách dơn
uian. có thô hiêu một tru\ vấn nôi liếp như là một hàm logic áp dụnu cho các
quan hệ cua một C SD L. clìăiiũ hạn nhir
"f(A,B)

tronu dó
A<B"
. Neu một ban uhi
hoặc tập các han íìhi dược lha\ \ ào quv tac và thỏa mãn nó (C|U\ tac cỏ giá trị
14
I RUI.), thi la coi han tihi lá I11ỘI thành phần cua lập các càu tru lời irons* tru\
vấn. M ặc dù các ntiôn niiừ hình lỉúrc nhir D ataloụ biêu clicn các iruv vân IÙI\
một cách súc tích \à khônu có nhập nhanti. nhưng các tru\ vân SQL thôim
lliirờnu. non có thê. vần nên dược phàn loại nlnr các iruv vân nòi liêp.
Một thuộc tính quan irọtm cua các trus vân nôi tiêp (vê mặt tích hợp dừ
liệu) là
chặn truy vắn (query containment).
Một truy van A chửa một truy van li
(k\ hiệu là A d H ) nếu các kct quá cua tru\ vấn lỉ lù một tập con cua các kêt qua
cua tru\ vấn A trên bat kv CSDI. nào. Ilai tru\ vấn dược sọi là tương đương nêu
các tập két qua là tirons dươrm trên bất kỳ CSDI nào. Diều này là quan trọna
hởi vì trona cà các hệ thống CÌAV và LAV. các iruy vấn nối tiếp cua người sử
dụnti dều được dạt ra tlìôna qua một lược dỏ ao dại diện bơi một tập các killing
nhìn, hoặc các iru> Nấn nổi ticp "thật". Mục tiêu cua hệ thons tích hợp lá \ ici lại
các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là
tương đươna hoặc dược chứa tối da hởi truy vấn cùa rmười sứ dụnu.
Irons các hệ thốníi GAV. một neười thiết kế hệ thổnụ sẽ viết mà hộ trung
íiian đế định nuhĩa cách viết lại truy vấn. Mồi phẩn ur tron ạ truy vân cua nturời
V— ■ >_ •
1
I W
tể
W
SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn. Xư lý truy vấn chi đơn gián lù
mờ rộ nu các mục đích con tronu truy van cùa ngirừi sử dụne, llico quy lác dã

dược xác định troua bộ truníi gian và vì và) truy vấn kết quá là nan như tươim
dươnc.
Trong các hệ Ihong I .AV. các truy van phài trai qua thèm một thao tác viết
lại cư sứ nữa. bơi vì ở đây khônu có bộ trunu ụian đê doi chiếu truy vấn cùa
ntiirời sứ ciụnu với một chiến lược mờ rộng dơn aiàn. Hệ ihong tích hợp phai
tien hành tìm kiếm trên khônu íiian cùa các iru\ van claim có dè tim ra một han
w c • w

viết lại tốt nhất. Ban viết lại nàv có thể khôniỉ phái là một Iruy vấn tirơim dươnu
nlurim dược chửa toi đa, và các bàn ahi két quà có the là không hoàn chinh.
Thuật toán MiniCon hiện tại dana là thuật toán viết lại tru\ vấn hàna đầu cho
các hệ thôrm tích hợp dữ liệu I.AV.
2. Tổng quan quá trình tù' (lữ liệu đến thực hiện ra quyết định
Một troníi nhĩrnụ mục tiêu cot yéu cùa \ iộc tích hợp dừ liệu là nhăm tônỉi
• V w- • » • » I • W
hợp. phân tích các ihônc. tin từ dữ liệu quá khử và từ dó dưa ra nhfrnu quvêt dịnh
15
theo chiều hướníi có lợi ironu urơnỉi lai. Ọuá trình llụre hiện mục tiêu Iià\. bal
tlầu lừ nhĩrtm CSDI tác Iiũhiệp đơn le cho tlỏn klii dưa ra dược nlũrim quvci
(.lịnh cần thiết, ckrợc gọi là qiiíi trình tù' dừ liệu (Jen thực hiện ra quyết (.lịnh.
Ọuá trình từ dừ liệu tiến liên hành ra quvỏt dịnh là tlirờna bậc thanu tiồni 3
bậc chính: CSD l. và hạ tân li kỳ thuật, Khai plìá dữ liệu (Data Minina) và Cô nu
cụ tác nghiệp thông minh (Intelligent Business I ool). Quá trình này dược mô ta
qua hình 4. trona dó dừ liệu dơn liian là một giá trị do một sự kiện nào dó. I)ữ
liệu có thê dược thô hiện dưới dạnii sô. vàn han. biêu banu. do thị. ban dò. hình
anh. âm thanh Dừ liệu dạne so và vãn hàn dược sư dụnii phô biến nhất. Trong
CNTT. Ihôna tin dược tlùra nhận là: thôns tin = dừ liệu + kinh nshiệm (hay kiến
thức cơ sớ) và tri thức thông tin + suy luận.
B ậ c th an g th ứ lìliất - B ậc d ữ liệu . Truníi tâm cua I1Ó là xây tkrnii các Kho
dừ liệu (Data warehouse) nham phục vụ cho nhiệm vụ Khai phá dừ liệu ớ bước

tiêp theo. Kiến trúc, mục dich sứ dụnu và kỳ thuật xâ\ dựiiỉì các Kho dữ liệu là
ral khác so với các CSDl. tác nghiệp (Operational Database).
16
Hình 4: Mõ
1(1
(/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định
Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và dược tlui thập \ư l\’ dê
phục vụ cônu việc nghiệp \ụ cua một dơn vị. lô chức được uọi là d ữ liệu lác
nghiệp (O p eratio nal Data). CSDI tác níihiệp phục vụ cho các xir lý g ia o clịclì
trực tuyên (O nline Transaction P rocessing - OI I P), cụ thô nói chu 11 li chúna dêu
hỗ trợ \ iệc chiết \uấl. lônu hợp. tinh loàn tự tlộnụ các dừ liệu irone CSDL: \â\
dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu. truy vấn tim kiểm thỗrm tin ụr
tlộns. cập nhật và khai thác dược CSDL từ xa Nlũrns thông tin. dừ liệu dược
chiếi xuất từ CSDỈ lác nahiệp thường là loại thôna tin. dìr liệu mà neười SU'
dụng cơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và chi dáp
ứn<> cho hoạt độim tác nghiệp, nluìnu quyết định mans íiiá trị "Iiũủn hạn".
Kho dữ liệu trái lại phục vụ cho các x ư /Ý p h ân tích trực tuyên {O n Li ne
A nalytical P rocessing - Ol.AP). nhàm phát hiện thônu tin. tri thức mới với hàm
lirựim trí tuệ cao. kho dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu
dò liên quan den toàn hộ hoạt dộna cùa một dơn vị, tô chức nào đó. Các Kho dữ
liệu lưu trữ dừ liệu lịch sir. phụ thuộc thời gian, không thể sưa dối dược, và được
tích hợp từ nhiều hệ thôn» thõng tin. CSD1. tác nehiệp được phát triên dựa trên
nhiều hệ quàn trị CSDL khác nhau. Mô hình cư hán nhất cùa Kho dữ liệu là
CSDL nhiều chiều.
Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém. Khi Kho dừ
liệu chi tập truim vào một chú dè nào đó thì dược sợi là Cơ sở dữ liệu cliu (lẻ
(D ata M art). Nlnr vậy Cơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ
liệu dược tập trung vào một sô chù dồ dược lựu chọn.
Kho dừ liệu dược ra dời khoảng I0 nãm liần dày. nham khác phục tình
trạntì con nẹười dã có rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa dược hao

nhiêu. Kho dừ liệu dang dược quan tâm xây dựnu ờ các nước tiên tien ca ơ quy
mô quốc uia lần quy mô các doanh nạhiệp. Thông qua các Kho dữ liệu cùng với
các côn g cụ khai p h á d ừ liệu (D ata M ining Tool), nu ười ta có thê phân tích dô
nhận dạng toàn diện the mạnh diêm yểu cùa một dơn \ ị. tồ chức (thậm chí có thè
là cùa một quốc sia). dự báo khá loàn diện. da\ đu và hồ trợ một cách hiệu qua
Iron ạ việc hoạch dinh chiến lược, kẻ hoạch sún xuất kinh doanh cùa đơn vị. tô
w • » ♦ * 4 •
chức đó.
OAt N 0C Q u ố c GIA HÀ NỘI !
ÎO v ‘> tẳ.m ĩ h Ô N G TtN ÌHƯ VIEN '
V - L 0 / _ }
17
ỉìậ c th a n " th ử h a i - H ộc th ô n g tin. ỉ runu tàm lá khai phủ i/ữ
liệu (D ata

M ining) hu\ x â y dựn g m õ h ình (lự báo (M odelling), là giai doạn phức tạp nhái
cua quá trình khai phá tri thức trone, các CSDI. (KI)D). Một sô kv thuật khai phú
đừ liệu chu you dà. chum và sè clirợc ứnii dụ nu dô tlự báo kinh lố sẽ dược tập
truníĩ giới thiệu ironu một phần ơ dưới.
B ậ c th a n g th ứ ba - Hộc tri th ứ c : I ruiiii tâm cua nó là các Hệ trự ỹ ú p
qu yết định (D ecision Sìip ori S y stem - DSS) ha\ các công cụ tác ng h iệ p thôni’
m inh {Intelligent B usiness T ools). Nói chime dó là phân móm tin học cỏ khíi
nãne SUY luận trên CSDl tri thức dược xây dựnu sau íiiui doạn Khai phá dừ liệu.
Một cách dơn giàn, cơ sứ dừ liệu tri thức là một li ạ ntl cüa CSDL nhầm quán trị
dữ liệu là các câu troníi niiôn ngừ mệnh đề cồ diên, niiôn ntiừ logic tân lừ cấp I.
cấp 2 trên dó có xâ\ dựna cơ chế SUY luận tự tlộnu dựa trên một lý thuyết lô
aie nào đó như: logic da trị. loẹic xác suất, louic I11Ờ. loaic khá năne. lý thuyết
chứng cớ và niêm tin Việc suy luận ớ d à\ dược hiêu là han a cách áp dụns cư
chế SUN luận dã dược xác định, từ một tập tri thức nào dó tro nu CSDL tri thức có
thể suy ra dược một sỏ tri thức mới hoặc từ một câu hòi do người sử dune dưa

vào cỏ thổ trà lời dược câu hói dó cỏ thể suy ra dược hay không từ tập tri Ihức dà
cho bane, cách thực hiện cơ chế SUY luận trên tập tri thức dó. L ĩn h vự c này thuộc
vê Trí tuệ nhân tạo tronu CNTT. Chậm hơn vài năm so với sự xuất hiện cùa
KI)[), một lĩnh vực khác chu yếu dựa trên nền ta nu cua In' tuệ nhân tạo dà ra
« . » w •
dời dược sọi là Tác nh ân th õ n g m in h (In telligent Agent). Các côn li cụ thònu
minh tác níihiệp hiện nay dược xây dựna chú yếu theo kỹ thuật, công nehệ cua
Tác nhân thỏnu minh. ví dụ như các phần mềm tin học cho robot, phần mỏm
đánh cừ. khám chữa bệnh troniì y học. phần mềm lự dộng lái ô tô. máy bay. tàu
hoa dược xây tlựnii theo côntì nuhệ như vậy. Tác nhân thông minh dược xem
là bước phát triển mới cúa Trí tuệ nhân tạo.
3. Kho dữ liệu
/ Khải niệm kho dừ liệu
Kho dừ liệu cuns càp các kiên trúc và côníi cụ cỊLian 1} cho doanh nuhiệp de
tô chức, khai thác và sư dụng dừ liệu một cách cỏ hệ ihong nham dira ra nlùnm
quyết dịnh manu tính chiến lược. Níiày nay rất nhiều các tỏ chức đã nhận thấv
18
rail a các hệ thônu kho dữ liệu là một cônu cụ cạnh tranh rât hữu ích. thúc dày sự
lw. • w
m/
phát triôn chung cua the íiiứi. í rong nhiêu năm nân ilâv. 11 li ười ta dã chi phi
nhiều triệu đô-la cho \ iộc xâ\ dựníi các kho dừ liệu doanh niíhiệp. Nhiêu nuười
dã cho ranụ. với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp. thi việc xâ\ dựng
kho dữ liệu là MÌ khi liếp ihị cuối cù nu bat buộc phai có dô có ihẽ cỉáp im s dược
các nhu cầu cùa khách hànu.
Khái niệm kho dừ liệu dà dược dinh ntihĩa theo nhiòu cách khác nhau, nên
• • • • V-
khó có thè dira ra một dinh nghĩa chính xác, hoàn chỉnh, lliêu một cách dơn
• • C'


íiiân, kho dừ liệu thực chất là tập hợp các CSDL tích hợp. lurớnu chủ dề, được
thiết kế đê hồ trợ cho cli ức n ă n g trợ giúp (/livết (lịnh, mà mồi dơn vị dừ liệu đều
liên quan tới tronu một khoảng thời ạian cụ thê. Các hộ thons kilo dữ liệu cho
phép tích hợp nhiêu loại hộ thỏnụ ứng dụnạ khúc nhau. Chúnti hồ trợ việc xư l\'
thỏnu tin bans cách cunẹ cap một môi trườnu nền dồnụ nhất và có tính lịch sứ
w c- w 7 I * W w •
cua dĩr liệu dê phục vụ cho việc phân tích.
1 heo W.1 l.lnmon. cha đe cua các hệ thons kho dừ liệu, thi một kho dừ liệu
s— . . .
là một tập hợp dừ liệu cỏ chu dề, tích hợp. gan với thời uiun và bổn vững nhằm
hồ trợ cho việc ra quyết định cùa các nhà quán lý. Dây là một định Iiíihĩa rmản
uọn nhưng chinh xác, bao hàm dầy tỉú các đặc tinh cùa một kho dữ liệu. Bốn đặc
trima: Inrớnịỉ ch u đ ề {su bject-o riente d), tích h ợ p Ụ ntergra te d ). gắn th ờ i gian
(time-variant) và bển vữ ng (nonvolatile) là các dấu liiỌu phân biệt các kho dừ
liệu với các hệ thonu dừ liệu khác, ví dụ như các hệ thonu cơ sở dữ liệu quan hệ.
các hộ thổní» xứ K ụiao dịch, và các hệ thone file.
Kho dừ liệu thườnu rất lớn. tới hàna irăm (iibyte ha> ihậm chí liànu
• *— w • V—
Terabyte. Kho đừ liệu ckrợc \â \ dựng đê tiện lợi cho việc truy cập dữ liệu theo
nhiều nuuồn. nhiều kiêu dữ liệu khác nhau sao cho có thê kết hợp dược cà
nhìrnẹ im li dụ nu cua các côn <2 nu hộ hiện dại và ke thừa dược từ nlùrne hệ thốnu
ihỏnu tin và CSDI. dà có sần lừ trước. K ho d ữ liệu có kiều trúc, m ụ c đích s ử
c-
dụng và kỷ thuật xây (lựMỊ khác với các CSDL lác nghiệp thô/lí* thường. Các hệ
thông thông tin thu thập xứ l\' dừ liệu theo cỏnu imhệ kho dừ liệu dược soi là hệ
w c • I * • W W' • • • •
xử 1Ý phân tích trực tuyến (OI.AP).
Tóm lại. kho dừ liộu là nơi lưu trữ các dừ liệu donc nhất về mặt neừ nahĩa
nham phục vụ Iilur một ihê hiện \ật IV của mô hĩnh hỗ trợ IỊUYCI dịnh và lưu trừ
19

các thòniỉ tin mà một tô chức can tic dưa ra các (.Ịiivct (.lịnh chiến lược. Một kho
dừ liệu cù nu ilurờnu dược \cm như một kiến trúc được xây dự rte bần ti cách tích
hợp dừ liệu lừ nhiều nụuồn không dồne nhất dô hỗ trự các im \ Nấn có hoặc
kliônii có cau trúc, các háo cáo phân tích và dưa ra các quvêt định.
Việc \â \ dựníi kho dừ liệu cùng rât hữu dụnu nêu nhìn từ nóc dộ tích hợp
các cơ sơ dừ liệu không dồng nhất. Rất nhiều lò chức tlìirờna tập hợp nhiều loại
dừ liçu hồn tạp khác nhau và duy trì các cơ sở dử liệu lớn từ nhiêu nguôn thônũ
tin phân tán. tự trị và khônu đồnu nhất. Việc tích hợp các dữ liệu dó và làm cho
\ìệc tru\ cập vào dừ liệu trơ nên dề dànu và hiệu qua. đén na\ Nần luôn là một
khao khát và thách ihírc to lớn. Dà có rất nhiều níihiên cứu và nỗ lực irons
w • w
neành cônu níihiệp dừ liệu nham tới mục tiêu này.
Phirơnu pháp liếp cận truyền thốrm cho việc tích hợp các dừ liệu khònu
dont! nhát là xâv dựns các vo bọc (w ra p p ers) và các bộ tích h ợ p (inten*rcifors)
ha> bộ in m iỊ g ia n (m e d ia to rs) ữ phía trên các cơ sơ cỉừ liệu hỗn tạp. Khi một
truy van dược dưa tứi phía một máy khách, một từ diên dặc tà dừ liệu sẽ dược sir
dụnu dê phiên dịch truy van dó thành các truy vấn thích hợp cho các phiu dừ liệu
hỗn tạp khác có liên quan. Sau dó những truy vấn này sẽ dược ánh xạ và dược
íúri lới các hộ xử K truy van cục bộ. Các kết quà tra về từ các phía dìr liệu hỗn
lạp sẽ dược tích hợp tron li một bộ tra lời toàn cục. Phirơng p h á p tiếp cận (lịnh
liirớng tru y vấn (querv -driven ap p ro ach ) nàv dòi hỏi sự xư lý tích hợp và chắt
lọc thồnu tin rất phức tạp. và dôi hói sự cạnh tranh íiiừa các neuồn dừ liệu trong
việc xử lý cục hộ lại mồi nguồn. Nó có the sc rat tốn kém và không hiệu quả đối
với các truy vun thườn!» xuvên, dặc hiệt là nhừng truy vấn đòi hỏi sự tích hợp.
3.2 N h ữ n g đặc đ iể m c ơ b(in c ủ a k h o (ilĩ liệ u
Mọi kho dừ liệu, lus có rất nhiều đặc diêm khúc nhau tùy thuộc vào nội
dunu và mục clích khai thác, nhưng nhìn chung (Jeu có nhừna, dặc diêm cư ban
sau đây:
T ín h h ư ở n g c h ú d è. Một kho dữ liệu thường dược tô chức theo các chu dề
chính đe eiúp cho tổ chức có the dề dàng xác định dược nhìrtm thôn» tin cần

thiét trong ù rn s hoạt dộng cua m ình , chang hạn ninr khách hàne. nhà CLII1Ü cấp.
sail phàm \à bán lìànsỉ. Khônu chi lưu trừ tập irung các hoạt dộna \ à ttiao dịch
liànu nuà\ cua một tỏ chức, kho dử liệu còn có kha nănu mô hình hóa \ à phân
20
tớch d liu de h ir vic ra quyt dnh. Vi vy, cỏc kho d liu tlurnii cunu
cp mt cỏi nhỡn dim ian. nn iin v sỳc tớch v cỏc s kin dc th cựa chỳ
d h nu cỏch loi tr cỏc d liu vụ ớch tro na quỏ 1 rinh x lv h tr quyt ilnh.
Vớ d. ironu h tlinu quan lý tin ei tiời kim cự cú thờ d liu dc tụ
chc theo chirc nnn: cho va\. quỏn lv tớn dn. quail lv ntiõn sỏch. \ Nmrc
li, irons Kho d liu v ti chinh, d liu dc tụ chc theo chu diờm da chỳ
yu theo cỏc i tnu: khỏch hrii. sn phm. v.v Hai cỏch tip cn khỏc
nhau dn n s khỏc nhau \ C ni dung d liu dc lu tr irone h thnu.
Kho d liu khụng lu tr d liu chi tiờl. chi can lu tr nhn il liu c
w W
tinh Ions hp phc v chu yộu cho quỏ trỡnh phõn tớch d tr s iỳ p quyt nh.
Tinh tớcli h p . Mt kho tl liu thn dc \õ \ dn bans cỏch tớch hp
Ill I ằ X * w ằ w w I
t nhiu nuun d liu khụniỡ dnĩ nht, chỡm li hn nh cỏc CSDL C|uan h, cỏc
tp phim \ cỏc han ghi eiao dch trc tuyn. Do kho d liu thng l mt
klninu nhỡn ihụns tin mc ton th (ton quc ia. t chc, doanh nuhip). thna
nhỳt cỏc khung nhỡn khỏc nhau thnh mt khuim nhỡn theo mt chu diờm no ú.
Sm*
* w
Vớ d v vic hp nht dỡr liu t cỏc nớỡun CSDI. tỏc nahip khỏc nhau nh
vy tirc mũ ta tronu Uỡnli 5: Mt Kho d liu sũ cú mt khuns. nhỡn ton thụ v
mt n v. bao em cỏc phn d liu khỏc nhau t cỏc h thng phõn b na õn
sỏch, eiao dch naõn sỏch v quan lý n v s dng nsõn sỏch.
III. 1 HN(i
PHN B NGN SCH
Mil dn \ : I(i8

1 ộn dn \ : lnh \ in X
l);i chi: s 5S dừng 1

c
r > i
III. IHNG
tilA O DtCH NGN SCH
o

a
r
Tớch hp
KH O D LI Kl
Via dn vi: 168
Mự ditằ \ : 168
1 ụn dn v: Bnh \ in X
So ti kho.m: 123456

sr.
o
3
<a
3-
Chuyn ttũi
rờn n v: Bnh vin X
a chi: s 58 ng 1
Ng\ ihónh lp: 01 012005
Ngv cp m: 01 04. 2005
S li khoỏn: 123456
III IIIểNU

OI \ \ 1 Y DON VI N SW
T3

M iltm \ : lớiX
Nuv cỳp m: 01 (14 2005
ih.inli lp: 01 01 2005

m'
Hỡnh 5: Minh lu
>11
khỏi Iiiỗin rich hp v chuyờn (tụi iluhn' tin d liu
l cỏc ( 'Sớ)l ttic nghip vo Kho (l lin
l inh rich hợp I hê liiậi ơ chồ: l)ừ liệu lập họp iront» kho dừ liệu đirợe thu
thập từ nhiều 111211011 và trộn uhcp với nhau lạo thành một thê ihỏng nliâl.
D ữ tiêu »</// th ờ i gian \'à có tínli lich MÌ'. Kho dừ liệu bao hàm một khôi
lirợne lớn dừ liệu lịch sư. I)ữ liệu được kru trừ thành một loạt cúc (inh chụ p d ữ
liệu (snapshot), mồi bàn íihi phan ánh nhìrnu ụiá trị cua dữ liệu tại một thời diêm
nhất dinh thô hiện một khunu nhìn cua một chu dicm trong một «ỊÌai đoạn. IX)
• • • w • w * w •
vậ\ cho phép khôi phục lại lịch sứ và so sánh một cách ch ính xác các giai đoạn
khác nhau.
I)ừ liệu irong CSDI tác nghiệp cần phai chính xác ở chinh thời diêm truy
cập. còn ơ kho dữ liệu chi cần có hiệu lực tro nu khoảng thời aian nào dó. irons
khoanu 5 tiên 10 năm hoặc lâu hơn. Dữ liệu cua CSDL tác nehiệp thường sau
một khoáim thời ẹian nhât dinh thì sẽ trờ thành dữ liệu lịch sir và chúng sẽ dược
chuyên vào Kho dừ liệu. Dó chính là những dữ liệu hợp lý về nhừnu chú diêm
cẩn lưu trừ. Sự so sánh giữa dừ liệu tác nahiệp và dừ liệu troníi Kho dừ liệu
tỉirọc thê hiện trone Báng 1.
BiiHii I : So sànli ( 'SDL tác nghiệp và Klio (lừ liệu
CSDL tác nghiệp




Kho dữ liệu
I)ữ liệu niihiệp vụ
Ánh chụp dừ liệu
Thà Ịỉiuii iiỊỉàn intHỊỉ núm. ihirừnỊi lừ 30-60 HịỊÙy
Thời ỊỊiun (lài: 5-10 mĩm lioặc hill hơn
Có thi’ cò veil rò thời íỉian hoặc không Luôn có yếu lõ thời gian
Dữỉiặi có the cập nhặt Khi (lữ liệu <1ũ chrợc chụp lại tliì
k illin g cặp nhật dược
T in h bền vũng;. Một kho dừ liệu luôn liru trừ riônụ rẽ về mặt vật K các dừ
liệuchuân hỏa từ dữ liệu ứnu dụníỉ tron a môi inrờng vận hành. Nhờ sự riêng rè
này. một kho dừ liệu khônu dòi hói phái có các cơ chc xử lý giao dịch, phục hồi
và Hôm soát dồnu, thời. I)ừ liệu irons Kho dữ liệu là dữ liệu chỉ dọc và chi có
thẻ lược kiêm tra. khỏne dược sửa dồi bởi nmrời sứ tlụna đầu cuối. Nó chi cho
phép llụrc hiện hai thao tác cơ ban: N ạp (lữ liệu vào kho ( in itia l loa ding o f data)
và 7/7/1' CỘỊ) vào các YÌnìii Ị rong kho (lữ liệu {access ofikua).
D ữ lie n kh ô nil b iến (IÔHỊỈ Khi dừ liệu Ironii hộ tlìốiiũ dieu hành tác imhiệp
dtrợc cho là quá cù. nỏ sè dược tai vào Kho dữ liệu, rinh khônu hiến dộnu thê
hiện ờ chồ: l)ữ liệu ilirực lưu trừ làu dài tronu kho dử liệu. Mặc dù có them dừ
• • • w • •
liệu mới nhập vào nhưnu dữ liệu cũ trona Kilo van khônu bị \oá. diều dó cho
phép cun li cáp thônu tin vè một khoán a thời uian dài. cuniĩ cấp du số liệu cần
thicl cho các mô hình nuhiộp vụ phân tích, dự báo. tù' dó có dược những quyết
dịnli hợp lý. phù hợp với các quy luật tiến hoá cua lự nhiên.
ỉ)ũ liên có íín h tÔHii h o p : Dữ liệu tác nghiệp thuần tuÝ khône dược lưu trừ
trone Kho dừ liệu. Dừ liệu tôn» hợp được tích lại qua nhièu aiai đoạn khác nhau
theo các chú diêm như dà nêu trôn.
3.3 S ự k h á c n lia u g iữ a các h ệ th ố ng C SD L tác n g h iệ p và c á c k h o (lữ liệu

Tác vụ chính của các hệ thống CSDL tác imhiệp là thực hiện giao dịch trực
luyến và xư lý truy vẩn. Các hệ thona nàv đưực tỉọi là các hệ thổne x tr lý g iao
dịch trự c tru yền (O L T P ). Nó hao quát toàn bộ các hoạt dộns hàn« niiàv cua một
tô chức, như là: mua hàng, quán lý kho, sán xuất, nuân hàng, chi trà. ký sô và kế
toán. Trái lại. các hệ thong kho dừ liệu lại phục vụ người sư dụng với vai trò
phân lích dừ liệu và dưa ra quyết định. Các hệ thong như vậy có thể tố chức và
biêu diễn dữ liệu dưới nhiều khuôn dạna khác nhau dể ciáp ứng các nhu cầu da
tlạnil cua nhiều neười ilium khác nhau. Các hệ thống này được soi là các hệ
ihonu XII' !ỷ p h â n lích trự c tuyến (O LA P ).
Những dặc diêm phân hiệt chinh giữa Ol.'l'l* và OI.AP bao gom:
D in h h irởtiíĩ h ê Íhố/IỊỈ rà n g ư ờ iỂ ủỉĩS Một hộ thốnu OLTP là h ư ở n g khá ch
hàriiỊ (custo m er-orien ted ) và dirực sứ dụníi cho giao dịch và xứ lý truy van do
giao dịch viên, các khách hàng và các chuyên gia công nghệ thôns tin thực hiện.
CÒI1 một hệ thôna OỈ.AI’ là hirỞMỊ th ị tn ròn g (m arket-o rien te d ) và lUrực sư dụ nu
cho \ iệc phân tích thòng tin do nhìrne người dùrm có trình độ thực hiện như: các
nhà t|iỉàn lý. nhà phân tích, triên khai. v.v
y ô i (Itm íỉ (lữ lie u . Một hệ thons OLTP thường quan lý các dừ liệu rất chi
tiêt dê cỏ thê dề dàng sứ tiụna cho việc ạiao dịch. Còn một hệ thốnti OI.AI’ lại
llurờnu quan lý một khối lượn” lớn các dừ liệu lịch sứ. tuns cap kha nănu tồng
hợp \a phân tích, tlồnc thời lưu trừ vù quán l\ thòim tin (V nhiều mức độ chi tiết
khác nhau nôn rat dề sư dụng cho việc ra quvết định.
23
Thiết kc co sò' (lữ liệ u . Một hệ thonu OI.TI* thườim áp clụnu một mô hình
dừ liệu quan hệ thực thê (E n tities R ela tionsh ip ) và mội thicl kế CSDL luróĩiũ
ứ nu đụim (a p p lic alio n -o rien tcd ). Còn một hộ thonu OI.AI’ lại tlurờnụ áp dụng
một mô hình sa o (star) hoặc mô liinh b ô n ẹ tuyết (sn o w flak e) và một thiết kế
CSD1 hướne chu dề (su b je ct-o rie n te d ).
K hu n g n h ìn Một hệ thốnti OI I P thướng chi tập trunu CỈ1 Ú vêu vào dữ liệu
hiện ihừi tronu khuôn khô cua một tô chức dơn lc nào dó mà không có sự tham
• w •

ì—
chiếu đến nhừntt dữ liệu trôna quá khứ cùa tô chức dó hoặc dừ liệu cua các tô
chức khác. Trái lại. một hệ thống OLAP thường tiếp nối nhiều phiên hãn cùa
một lược do CSDI. trôna, suốt quá trình phát triền cùa một to chức, đồng thời
cùn a xem xét den các tlìònu tin dừ liệu cua các tò chức khác, tích hợp thông tin
từ nhiều nguồn dữ liệu khác nhau.
C ác k iê u tru y c â p : Phương thức truy cập chú yếu cua một hộ thổnc OLTP
thường là truy cập theo kiêu giao dịch. Còn việc truy cập vào các hệ thons
OLAP hầu hết là các thao tác chi dọc. bởi vì hầu hốt các kho dừ liệu chi lưu trữ
các thônu tin manii tính lịch sư hơn là các thônu tin cập nhật mới nhất.
Naoài ra còn có các dặc diêm phân biệt khác giừa OLTP và OLAP hao
gồm: kích thước CSDI-, lần suất hoạt động và hiệu suất, dược tons hợp ironti
Bảnc 2 dưới đâv:
24
r
Hàng 2: So sánh các hệ lllông OU I' vit OLAP
Đ ặ c đ i ể m
O L A P
Đ ạ c Irư n g
X ư lý lác nglìiựp
X ir lỷ lliõiiịi tin
D ịn h h ư ớ n ẹ
G iao dịch Phân lích
N m rờ i d ú n ii
(iia o dịch viên, Quán trị C SD L:

(
'huyên iỊÌd ( 'SDl.
Người dùng cao cáp (nhà quan lý,


thi hành, phán licitt
C h ứ c n ă n e
( 'ác hoụt động hàng ngàv
(
'ác lên cưu thông tin dự bão Itnniịỉ

/ai, hỗ trự ra I/IIVỜI cỉịiỉh
T h iế t k ế C S D L
Dựa trên mỏ hình F.R. hưởng ủng dụng
Hình sao/Rông
Iityưi.
hướng chu đe
D ữ liệ u
llic n thời, iíúm háo tinh cập nhủi

l.ịclì sư, (lược duy tri đều đặn theo

thời \iian
1 ỏn u h ợ p
Thũng tin
Ill'll) L'Il
lư, rát chi liêi
Tón\ỉ lĩựp vù itõtìg nhát
G ó c n h ìn
(
'hi lièi. ilh'o Í/IIIIIÌ liự phăng
Tõhịỉ hựp, (in chiểu
D ơ n V ị c ô n tỉ \ iệc S g á n . ịỊia o d ịch dơn íỊìó n
Truy ván phức tap
T ru \ c ậ p

D ọ c (ìh i /hiu hét lù chi dọc
25
1 iẽii liêm Dữ lien dâu vào Tỉiòh ịì liu (tân ru
1 hũiotiic
index Ihis/ì ciiíi khóa chinh Oiií'1 nhìcii /in ì
So b;n i*h i 1 Lilly! chục
Hìih ịì triựu
Sỏ m ư ờ i dù nu
l/ùiìí! Iifihbi
HìtHỊi Irìim
K ích thước
n m t h ill'll ( ib HHKìb (ten Th
Ưu tiín Hiệu qua cao, linh sun SÒHÌỊ cao Dạ linh lìo ạl cao
1 h ưó: đo T lìòiiịi hnm íi giao dịch ThõnỊi hrrnií! in iy van. tlìời iỊÌan hòi
íĩíi/l
3.4 K iến trú c k h o d ữ H ên
Kiên trúc cua các kho dữ liệu thường bao gồm 3 lớp, như hình 6 dưới đâ\ :
Qu«iy Repoit
Aiulysiĩ Data Miiuuj
Fiont-Eud Too!'.
OLA? S « IV * I
OLA? SíiYíi
OLA? EiiỊin«
Dau Stoiij*
00
Dali c U.MURỊ
and
D.tl.1 In:*;utiou
E x i « m u 1 ÍO U ICÍ".
Momtouui A d i J i m r. t i a t iC ii

D jt.1 Wat «hou*
M«tacfou Kipo'.itorW ’
I/ình 6: K iế n trúc Kh o (/ữ liç u

×