Tải bản đầy đủ (.pdf) (110 trang)

Một số vấn đề cơ bản về thiết kế và xây dựng mô hình Datawarehouse

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (40.57 MB, 110 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ

0 O 0

NGUYỄN XUÂN TÙNG
Những vấn đề cơ bản về thiết kế và
xây dựng mô hình Datawarehouse
LUẬN VÃN THẠC s ĩ
Chuyên ngành : Công Nghệ Thông Tia
Mà số: 010110

____
___
/
Người hướng dán khoa học: TS Đặng Quang A
Hà Nội - Năm 2003
Chương I
ĐỂ MỤC
KHO D ữ LIỆU - LỊCH s ử PHẮT TRIEN VÀ
Trang
M ỘT SỐ KHẢI NIÊM c ơ BẢN
1
L.í. Lịch sử phát triển 1
1.2.
Các yêu cầu cơ bủn của một hệ thông DVVH 7
1.2.1.
Hướng chủ đề 7
1.2.2. Sò liệu có tính lịch sử 7
1.2.3.
Sò liệu chỉ cỉẻ đọc 7


1.2.4. Sô liệu không biến động 7
1.3.
Kiến trúc tham chiếu của một DVVH 8
1.3.1. Khối các nguồn dữ liệu 8
1.3.2.
Khối tạo dựng kho dữ liệu
9
1.3.3.
Khối tạo dựng kho dữ liệu cục bộ
10
1.3.4.
Khối truy nhập và sử dụng
10
1.3.5
Lứp quản lý dữ liệu II
1.36 Lớp quăn lý siêu dữ liệu
12
1.3.7.
Lớp chuyên tải dừ ỉiệu 13
1.3 8 Lớp kết cấu hạ tầng
14
1 4.
Các DWH trong một số lĩnh vực
15
ÌA A . DVVH trong lĩnh vực tài chính
16
1.4.2.
DWH trong lĩnh vực bảo hiểm
17
1.4.3.

DYVH trong lình vực điều khiển nguồn nhãn lực
17
1.4.4.
DYVH diện rộng
18
1.4.5.
DVVH với tính năng Data niỉning
19
1.4.6.
DVVH trong lĩnh vực viễn thông
CẤU TRÚC KHO D ữ LIỆU VÀ
19
Chirưng II
MÔ HÌNH D ữ LIỆU
21
2.1. Các lựa chọn vế cáu trúc
22
2.1.1.
Cấu trúc kho dừ liệu tổng thể
23
2.1.2.
Cáu trúc Data Iìiart độc lập
24
2.1.3.
Cáu trúc Data mart liên kết với nhau
25
-> J
Các lựa chon thực hiên
26
? 1 \

Thực liièn từ trẽn xuống
27
1 -> J
Thực hiện từ dưới lèn
28
2.2.3.
Phương thức kết hợp 29
2.3.
Mò hình dữ liệu cho kho dữ liệu
30
2.3.1. Tại sao việc xủy í lưng mó hình dữ liệu IÌ1 quan trọng 31
•) 3 7
Các kỹ thuật xây dựng mõ hình dữ liệu
32
2 3 3 . Xày dựng mò hình ER 32
2.3.4. Xây dựng mỏ hình theo chiều 39
Chương III THIẾT KẾ KHO DỮ LĨỆU 46
3.1. Các pha trong quá trình thiết kẻ DVVH 46
, . Pha 1 và pha 2: Xây dựng mô hình kinh doanh và
mổ hình logic
3.2.1. Pha 3: Tạo mò hình chiều (mô hình sao) 51
3.3.1. Pha4: Xây dựng mỏ hình vật lý 67
THU TĨIẬP SỐ LIỆU T ừ CÁC NGUỔN KHÁC
Chương IV N H A U p H ụ C y ụ CH;VM SÓC KHÁCH HÀNG 79
82
83
4.1. Mô tả thực trạng dữ liệu
, - Dữ liệu phát triển thuê bao tại Trung tâm Dịch vụ
Khách hàng BĐHN
4.1.2. Dử liệu phát triển tluiè bao tại các Bưu điện huyện 85

, 7 IVĨỒ tả quá trình thiết kẽ và xây dựng kho dữ liệu
chăm sóc khách hàng của BĐHN
Một sô cụm từ tiếng Anh vfi viết tát 106
Tài liêu tham kháo 107
CHƯƠNG 1
KHO DỮ LIỆU - LỊCH sử PHÁT TRIEN VẢ MỘT s ố
KHÁI NIỆM Cơ BẢN
1.1. LỊCH SỬ PHÁT TRIỂN
Chương này sẽ Lrình bày sự hình ihành khái niệm DYVH và các dặc điểm
của một hệ Ihống DWH (.liến hình.
Máy tính từ khi ra dời dã đóng vai trò vổ cung quan trọng irong lịch sử
phát triển của nhàn loại. Các máy tính đấu tiên là những công cụ tính toán
mạnh mẽ, cho phép con người giái được các bài toán có số lượng tính toán
khổng lổ mà trước dó không thể ihực hiện dược bằng tay. Trong thời gian đầu
các máy tính chủ yếu tập trung giãi quyết các bài toán như giải hệ phương
trình, tính toán kết cấu cồnâ irình, tính toán xây đựng kế hoạch quốc gia,
thống kê diều tra dàn số, luyen sinh , là những bài toán lớn, có thuật toán xấc
định.
Từ cuối những nãm 70, (lầu những năm 80, cùng với sự xuấl hiện của
dòng máy PC với năng lực lương Lự máy tính lớn của Ihời kỳ đầu và với má
thành ngày càng ré, máy vi Lính dã iham gia vào mọi mặt của dời sống xã hội.
Rất nhiêu lĩnh vực tnrớc dây được thực hiện Ihử công như giao dịch bấn hàng,
quàn lý vật lư, nhàn sự , dược vi tính hoá.Góp phần tích cực vào quá trình
này !à sự xuất hiện của những ngôn ngữ lập trình hướng cấu trúc, phần mềm
được coi Lì một nghé và có quỵ trình phái trien tuân thủ các quy trình rmhiêrn
ngặt. Các còng tỵ phần mém bán trên thị trường những CSDL quan hệ chạy
trên các máy dể bàn như DBASE,ACCESS, FOXPRO, SQL Server , tạo diều
kiện vố cùnii thuận lợi cho nguời phát triên. Dường như máy tính và những
chương ninh cứa nó dã giai tjuyêi (lược háu hết các vân đè irong lĩnh vực quán
lý. Tuy nhiên vấn cté có lẽ khỏnn đơn gián như vậy.

Trên thực tế, các công ty muốn thành công irên thị trường, ngoài việc tổ
chức bán hàng lốt (giao dịch dơn gián, thuận liên cho người mua và nsười
quán !ý bán lùm“ ), neưòi lãnh dạo công ty phái nám được thực chát các quá
trình diễn ra irons» đơn vị mình và irong mỏi trườnií kỉnh doanh mà đưn vị đó
hoạt động. Thèm nữa, sự hiếu biết đó khôn 14 chỉ đặi ru khi corta: ty đang ỉặp
khó khăn mà ìmav cá trong iiiai đoạn cõny việc phát Iriên tốt . Phương pháp
được coi là tối ưu dế dieu hành là phàn lích mội cách phổ phán hoạt động của
xí riühiçp mình, tlặl ra cáu hôi vé nhữnu vốn ló anh lì ƯỚM‘2 (lốn CỊIIÚ trình sán
xuài va lìm ra càu nã lòi chính xac [rong thời iiiun imán nhàm dại !ựi nhuận
cao nhất.
Đè thực hiện các cỏn li việc của một cônn ly. niiirời la có nhiều hộ ch ươn ti
Irình lự (-lộng hoá các tĩnh vực quan trọn» như ke loán. lập kế hoạch, iĩiao dịch
khách liànu. lập hoii dơn Tuy nhiên, mỏi hệ điươnií Irình này chí phục vụ
chủ yếu cho sự hoạt độntĩ của côiiiĩ ty nong mội lĩnh vực nào dó.Vì vậy các
mẩu tin trong các hệ ihống ctó, vé hán chất phan ánh một hoặc mội vài khía
cạnh của một giao dịch. Chính vì lý do đó những hộ ihốiiiì này có một cái tồn
cố điên là hệ thống xử lý sitio dịch (OLTP- online transaction processing).
Sau ctûv là sơ đổ một hệ thống OLTP diên hình.
H ìn h l. M ỏ h ìn h m ột hệ thoiiỊỊ O Í.T Ỉ’
Minh I irình bấy mỏ hình 1 hộ thởuíi OLTP, hệ thống này cho phép các
giao dịch ihay dổi dữ liệu trona biins (ví dụ bang các lệnh inserí, update,
delete,join.,.) irong quá irình xứ lv. Tron tì hình I ớ irèn, 3 ứ nu dụng trinh
khách dang truy cập dữ liệu từ cơ sỏ' dữ liệu quan hệ với các Ihiio tác insert,
update Hộ thông cho phcp nhiêu Ứ1V.Ĩ dụng truy cập dữ liệu cùim một thời
gian.
Các ứiiii (June Irền cliciii hao gồm lúi cá các loại ứng dụng như ngân
hàng, bán vé trực luyến, bán vé hàng không, Ihanh toán cước phí Sứ (lụnti hệ
thống OLTP có các ưu cticm sau:
- Xứ íý các chuyển lác tươns tác.
- Dẻ báo trì và khống chế dữ liệu thừa.

- Thiết lập dữ liệu quan hệ trọn vẹn.
- Tính hiệu quá cao.
- Giám thời gian cùa khách hàng.
Các CSDL trong các hệ OLTP thường dược thiết kế theo chuan 3 hoác tốt
hơn.
Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ liệu '’thô", có nghĩa là
mức độ tổng quát, trừu tượng của dữ liệu này rất ihítp. Nói cách khác OLPT
rất có ích để lìm Irả lời những càu truy víín dạng: Tổng sán lượng sàn pham X
do công ty bán được trong 6 tháng đáu năm,mặt hàng nào bán chạy nhất tại
địa phương Y trong tháng vừa qua Trong khi đó các nhà quan lý ở mức cao
của công ty rất ít khi quan tâm đến những câu hòi loại đó. Điểu họ cần chú ý
là những càu hỏi trừu tượng hơn như: Tiêu thụ A tại B dang giam, nếu thay đối
3%~5% giá của san phẩm A lại khu vực B, tình trạns tiêu thụ sẽ thay đổi ra
sao trong 6 tháng cuối năm và tại sao?
Rõ I'àng là các hệ thống OLTP hiện nay Irã lời rất lốt câu hỏi ỉ bồng các
công cụ của hệ CSDL quan hệ nhưng dể lìm đáp án cho những câu hỏi dạng 2
là không đơn gian. Crin phái xem xél 1 loạt các yếu tố ánh hướng đến việc liêu
thu san phẩm A, các yếu lốt dó có thế là:
+ Chương trình quáng cáo khống hiệu LỊuá
+ Việc tìm hiếu thị trường không lốt
+ Việc tổ chức bán hàng ớ B kém
+ Việc bảo dám chất lượng của sân phfim A khô im tôt
+ Sự ihay đối cúa mức sống tại địa bàn B
Bán Ihùn việc tìm ra nhữniĩ nhân lố có ánh lurớnũ đến quá trình dã là một
vìỌy cú tính irừu tượnũ cao và có nhicu yếu lố của trí tuệ nhàn lạo. Sau khi xác
■>
ì
định sơ bộ dược c;íc you tố náy can xây ilựniỉ các chươnụ Irình nhăm xác (.tịnh
mối quan hệ cú a you lố (.10 với quá Iiình liêu (hụ săn plũiiìi. Dày là một cõng
việc không hể dơn gián bới các sỏ liệu cúa các võ LI lò can xem xél nám ớ

nhún« CSDL khác nhau. Nhữnií yếu lố căn hãn cán trớ việc sứ đụiì‘j tlữ liệu
của các hệ thổn'2 OLPT trorìíỉ việc phàn tích (lữ liệu là:
+ Các số liệu ớ mức quá chi tiếl
+ Các số liệu được phân bố ớ nhữnu hệ Ihốntí khúc nhau, cổ các ihủ lục
Iruy cập khác nhau và ớ những CSDL hoàn toàn khác nhau.
+ Các số liệu không dược cập nhập cù 112 mội chu kv dẫn đến sự mất
dồng bộ.
+ Việc lố chức truy cập lừ rất nhiều bán ự; dữ liệu khúc nhau có ảnh
hưởng rất xấu lới hiệu suất cùa các hệ Ihống VI mục đích của các hộ thống này
là nhằm phục vụ cấc giao dịch trực luyến.
Vào giữa nhữnu năm 80, nsiười la bát đáu dề cập tiến khái niệm khủng
hoang phàn tích số liệu tác níihiộp.Niĩiiyên nhãn của tình trạriíĩ này tương đối
kỳ lạ: Trong môi irường thừa thãi số liệu, nhà phân tích không thể tìm ra cho
mình thông tin cắn ihiêì nhằm, có được sự hiếu biết Ihấu dáo vổ những quá
trình xáy ra xung qiuml). Tình trạns số liệu quá chi tiết và khôn« có dược sự
liên kết với nhau của các số liệu phàn ánh các quá I rì nil lươn li dôi độc lập cúa
một thực thể là lý d o trực tiếp dẫn đốn sự khủng hoủnỉĩ này .Tinh trạng thừa
Ihỏng tin,thiếu tri ihức dược John Naisbeli cánh báo:”Chímỉỉ ta dang chìm
ngập trong dữ liệu mà vần đói tri thức."
Từ nlìừnỉĩ haì cập cùa các hệ !hô'rm xử lý lỉiao dịch trong việc cung cấp
các thông tin hỗ trự việc ra quyết định, từ nhữnỉĩ nãm 1983 các nhà nghiên
cứu dặt ra một vài giai pháp nham vượi qua các bế lác vừa dinh bày ờ trên.
Giái pháp đầu liên là lích hợp các hệ Ihốnii OLTP tie tạo ra mộl hệ thống chứa
dẩy ti ủ I h ò n SI Ún. Giãi pháp dó có hai nhược điếm lớn:
11. Phái liên kết các hệ ihôYig có xuất xứ khác nhau ve phan cứng và phán
mồm hệ (lìóne.Các chươnu trình cần có sự thốn« nhà! ve định nuhìa dữ liệu
cũ nạ như phương pháp biếu diễn dữ liệu. Vấn đc này rãi phức lạp thậm chí đối
với các hệ 1'hốniĩ có thiết kế phan lích tốt và hoàn toàn không khá itii dối với
nhữna hệ (hống dược mô lá kém.
I).Việc truy vàn de lạo báo cáo 1 hường xu vòn phái khua rát nhiều bán Li,

cán trớ sự truy xuàì của nhũn viên khai Ihác ironu quá Irình làm việc hàng
ngày và làm ánh hướng lrực liếp den khách hàim.
Mội cácl'1 tiếp cạn khác dược <JỔ xướng hơi B.lnmon vào cuối những nãni
90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data
W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH
(kho dữ liệu) được dịnh nghía như một tập hợp cúc phiíơniĩ liệu cho phép hình
đung dữ liệu một cách tổng thế, lurớnu (-tối lirựiiũ dế ui úp cho việc phân tích và
ra quyêì định.
Những người dầu tiên dưa ra ý urởng vể DVVH xác (tịnh rằng tiến hành
phân tích trực tiếp irên dừ liệu của các hộ xử !ý aiao dịch vù không hiệu qua
và cío đó không được khuyến khích. Thay vào đỏ dữ liệu từ một vài OLTP
được biển đối và sau dó dưa vào một nguồn dữ liệu duy nhất là DWH. Quá
Irình này được gọi là đưa dữ liệu vào DWH, gồm các công đoạn chính sau:
+ Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)
ì- Liên kết các số liệu (Tính trước số liệu tích, tổn«, trung bình )
+ Biến dổi dữ liệu: số liệu dược biến dổi thành dạng thích hợp, tổ chức
lại phù hựp với DVVH
+ Tích hợp số liệu lừ các nguồn khác nhau.
+ Đổng bộ lioá số liệu ớ mội ihời điếm xác định.
DWH là hệ thống dữ liệu dã được ch nấn bị đế xây (ỉựnsi hệ hỗ irự quyối
định (DSS-Decision Support Systems) và hệ phàn tích trực tuyến (C)LAP-
Online Analysis Processing) vì rang dữ liệu troniz DWH ihoá mãn tính châì
loàn vẹn và có sự liên kết nội lại : Mặc dù dữ liệu được cuna cấp lừ nhiéu
OLTP, chúng được liên kết bằn ũ sự thốnu nhài tro nu quy lắc dặt tôn, (lơn vị
do, hệThốns các thuộc tính chunụ Điều này có ỊỊÌá irị dặc hiệt khi xí nghiệp
vận hành một lúc vài hệ [hống, trone dó các dữ ỉ ICII íitrọc biếu dien bàn»
nhữnu dơn vị khác nhau(Ví dụ như các cách bicu dien Iiìỉày, tháng khác nhau
hoặc biếu dien logic khác nhau.) Các chỉ số quan trọiiiĩ có như tổntĩ số, »iii irị
trung hình trong các lĩiai đoạn kluic nhau, Irunự hình cọn II cũng được biêu
dien ral đa clans ớ các hệ khác nhau.

Khi dưa số liệu vào DWH. mọi chí số khỏnii urơng ihícli được chuyến
dổi, tránh các lỏi tiềm làng Imnụ hệ ihống.
Sau dây chima ta sẽ xem xét các khác biệt cơ bán giữa OLPT và DWH để
dẻ dàng phàn biêi DVVH với các OLIrr vốn đã tlươe xày đuìm khá nhiều
OLPT
- Hướng phục vụ giao dịch
- Phục vụ hàng ngàn người dùng
- Kích thước nhỏ
(Từ vài trảm MB->vài GB)
- Dữ liệu lức thời
- Dữ liệu chuẩn hoá
(Nhiều báng,ít dòng)
- Cập nhạt lên lục
- Đáp úng các câu hói ciưon tỉiàn
DWH
- Hướng chủ đé
- Thirànsz có ít hơn 100 ngườiđùng
- Kích thước lớn
(Từ vài trâm GB->vài TB)
- Dữ liệu có tính lịch sử
- Dữ liêu không chuẩn hoá
(Nhiều dòng,ít bang)
- Cập nhạt theo chu kỳ
- Đáp ứng các câu hỏi râì phức tạp
<1
1.2. CÁC YÊU CẦU CO BẢN CỦA MỘT HỆ THỐNG DHW
DWH là sự lích hợp các (lũ liệu lừ các OLPT khác nhau nhằm tạp hợp dữ
liệu phục vụ quá trình phân tích hoại dộng kinh doanh nên dữ liệu Irong ỉ hệ
thông DWH cẩn ihoá mãn một số yèu cáu chính sau.
1.2.1. Hướng chủ (lè:

Các hệ thống OLTP có the chứa hàng trám Gb số liệu, tuy nhiên những
số liệu này có thế hoàn toàn vô ích trong việc phàn tích trực tuyến (VD: Địa
chi, ID khách hàng ) Các dữ liệu kiểu này thường không dược đưa vào DWH
để hạn chế dữ liệu cần xem xét xuống mức tối thiếu nhưng cũng báo đám các
thông tin theo từng SA(vùng chủ để- Subject area)
Mội vùng chủ để là một chú để dược tách ra từ một tập hợp lớn các chủ
dề mà người sử dụng quan tâm trong công việc kinh doanh, (Ví dụ khách
hàng,thời gian hay sản phẩm.)
1.2.2. Số liệu có tính lịch sử:
Các hệ OLTP thường bao quát một khoáng thời gian không lớn và chúng
được kru trữ theo chu kỳ. Ngưực lại trong DWH, dữ liệu của hàng chục năm
dược !ưu trữ nhằm phát hiện sự liên hệ của các yêu tố có thể ánh hưởng đến
những chi tiêu cán quan tủm trong một thời gian dài.
1.2.3. Sô liệu chỉ đè đọc
Dữ liệu đưa vào DWH chí dể đọc, việc sửa dữ liệu hầu như không được
liến hành vì (.tiều này có thể ciãn tiến phú vỡ sự toàn vẹn. Thông thường người
ta không yêu cầu giảm thời gian dưa dữ liệu vào DWH xuống mức tối thiểu,
nhưng cẩn tối ưu hoá DWI-I sao cho các truy vấn phục vụ cho việc phân tích
đại lốc độ tốt nhiít. Các sơ đồ quan hệ sẽ lạo ra các Index hợp lý cũng như tạo
ra sẩn các dữ liệu kết hợp.
1.2.4. Sò liệu không biến động
Thông till tronc DW được lai vào sau khi dữ liệu trong hệ thống điều
hành được cho lù quá cũ. Không biến động thể hiện ớ chỗ: Dữ liệu được [ưu
trữ làu dại trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ
liệu cũ trong kho vần không bị xoá, điều dó cho phép cung cấp ihởng tin về
một khoàng thời gian dài, cunạ cấp đủ số liệu cấn ihiết cho các mô hình
nahiệp vụ phân lích, dự báo.
7
1.3. KIẾN TRÚC THAM CHIẾU CỦA MỘT DYVH
Kiến !rúc tham chiếu cua một DYVH cho phép người xây dựng và người

khai thác cỏ cái nhìn tổng quát vế các bộ phận cấu thành nên DYVH.Sau đay là
kiến trúc tham chiếil điển hình
Lớp quán lý dữ liệu
Cầc
nguồn
dữ liệu
Khối tạo
dựng DW
Khối tạo
dựng
Daiamart
Truy
nhập và
sử dụng
Lớp quán lý Metadata
Lớp chuyển tài dữ liệu
Lớp kết cấu hạ lầng
Trong dó Data Mart ỉà các kho dữ liệu cục bộ và MelaData là siêudữ liêu
nhằm mô tá cấu trúc và nguồn gốc dữ liệu trong DWH
1.3.1. Khối các nguồn dữ liệu
Bao gồm các phần sau:
• Dữ liệu sán phẩm. Đó la dữ liệu được chái lọc từ các phán mềm ứng
dụng và các hệ CSDL tách nghiệp đủ loại.
• Dữ liệu kế chừa. Vể cơ bán loại dữ liệu này có tính lịch sử. Chúng
phục vụ cho quá trình phàn' tính dữ liệu. Mặc khác các phương pháp
khai thác dữ liệu cũng ihường xứ lý trôn các dữ liệu.
• Các hệ ihống dữ liệu bên trong.
• Các hệ thốn2 dữ liệu bên ngoài,
• Hệ quán lý siêu dữ liệu cho khối này.
X

Bao gồm các khối con:
K h ố i con linh chư: Liên quan tiến việc nànu cao clùil lượng cùa dữ liệu.
Có các chức nâng chính sau dối với các dữ liệu:
• Chuẩn hoá
• Làm sạch
• Sàng lọc
• Tương hợp
• Phàn định thời gian cho các thông tin nguồn
• Cơ chế quản lý siêu dữ liệu cho khối con này.
K hô i co/1 íiia cô)IX la i: Có các chức năng sau:
• Tích hợp các dữ liệu khác từ cấc hệ thống để tạo ra dữ liệu mới.
• Phân dữ liệu thành ra các loại cho de xử lý.
• Tính loán sơ bộ, lốntĩ hợp và kết xuất dữ liệu theo yêu cáu của người
sử dụng.
• Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau,
kết hợp trong cùng một dạng.
• Biến đổi và gia côn lĩ lại dữ liệu lưu irừ thành các nguồn cỉữ liệu gốc.
• Cơ chế quàn lý các siêu dữ liệu.
K hố i coII Data Warehouse': hao gồm cúc chức năng chính sau
• Mô hình hoá, lổn« hợp và kết nối mức độ cao các dữ liệu.
• Tăng chấl lượng eiá trị của dữ liệu.
• Tạo ra các duníĩ hoà các loại dữ liệu trorm Data Warehouse .
• Mồ tà các loại cơ sở dữ liệu.
• Xây dựng các từ (liến thuật ngữ lác nghiệp
• Vé cơ hán các dử liệu dược xử lý à đây được lấy irực tiếp từ khối các
nguồn ilữ liệu
1.3.2. Khối tạo dựng kho (lữ liệu
1.3.3. Khối tạo dựng kho dữ liệu cục hộ
Dùriũ đê lạo ra Dalumart từ các nội (.luna của Data Warehouse. Cũng
giống như khối tạo dựng Data Warehouse, trong khối này cũng có những chức

năng như khối Irèn nhưng ilurờng ớ mức cao hơn và có hướníi chủ dể rõ ràng.
Các chức năng chính có trono; khối này là:
• Tinh chê và gia công lại như khối lạo dựng Dala Warehouse bằng
các phương pháp:
- Sàng lọc các dữ liệu đã chất lọc từ khối tạo dựng Data Warehouse
- Tích hợp các dữ liệu vào các ỉĩnh vực có chủ để cụ thể.
~ Tạo ra các dữ liệu tổng hợp
• Kiến tạo các kho dữ liệu chuyên dùng băng các phương pháp mỏ
hình hoá, tổng hợp, kết nối, dung hoà và ní\ng cao giá trị chẩt lượng
dữ liệu.
• Cơ chế quan !ý các siêu dữ liệu dùng trong khối này.
1.3.4. Khối truy nhập và sử dụng
Khối này bao gồm hai khối con chính là khối con truy nhập và khối con
phân tích và tạo báo cáo.
Khối con 1 có những chức nâng chính sau:
• Truy nhập irực tiếp vào khối tạo dim a Data Warehouse .
• Truy nhập vào các Datamart.
• Gia công ỉại và biến đổi dữ liệu ihành các loại dữ liệu có cấu trúc
phức lạp hưn.
Khối con 2 chứa các chức năng chính sau:
• Tạo ra các cổng cụ chu ấn đe tạo báo cáo, phàn lích, mò hình hoá tác
nghiệp.
• Tạo ra các phán mềm trợ iziúp ra quyết định, các phần mềm khai
thác dữ liệu.
10
Cá hai khối con này ctéu có cơ chế quán lý sicu dữ liệu của chúng.
Ngoài ra người ta có thể cát ngang một hệ thống DWH Ihành các
lớp,phạm vi các lớp nàyclược xác dinh dựa vào kỹ nans của đội ngũ cài đặt
nhàm dưa ra được những lựa chọn về sán phàm và dối tấc.Các lớp này bao
gồm:

1.3.5. Lớp quản lý dữ liệu
Bản thân kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống
như các hệ quản trị cơ sở dữ liệu tác nghiệp thống thường việc quán lý dữ liệu
đóng một vai trò rất quan trọng, nhít là khi phải quản lý một khối lượng rất
lớn các dữ liệu lịch sử và hiện tại, với nhiều kiểu loại khác nhau rất phong phú
và đa dạng dược lưu trữ lĩung nhiều loại hình vật mang thông tin. Việc quản lý
dữ liệu này tạo môi trường hoạt dộng cho chính các khối chức năng. Có thể
thấy rằng những chức năng như nhập vào, nạp lại, trích đoạn dữ liệu, tuân thú
an toàn, lưu trữ, khỏi phục dữ liêu có trong Data Warehouse là riliờ lớp quản !ý
dữ liệu.
Những chức năng chính ở lớp quán Ịý dữ liệu là:
- Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho
việc tinh chế và gia công lại dữ íiệu trong Data Warehouse.
- Giám sál và đáp ứng các đòi hói cho các dữ liệu mới rút từ các
nguồn dữ liệu khác nhau.
- Báo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại
hoặc cập nhật và làm sạch dữ liệu.
Mặt khác, có thể thấy lớp quán lý dữ liệu sẽ Ihống nhài các phương pháp
quán lý dữ liệu, các tlìú lục, các phép loán phục vụ cho việc an toàn, phàn
quyển truy nhập, 1 ưu trữ và khôi phục dữ liệu. Việc thực hiện các xử lý song
song cấc chất vấn và phục hổi việc sú dụng các xử lý song song cho việc iruy
nhẠp dữ liệu cung được quán lý irons lớp này.
Chúng la có thể thấy lớp quán lý dừ liệu có những chức nũng quản ]ý mới
khác với các chức nàng của hệ quán trị cơ sớ dữ liệu thông thường.
Vì lính da (lạníi của Cite kiếu loại dữ liệu và các phươniĩ pháp quán !ý dữ
liệu mới khác so với các hệ CỊUÚn trị CSDL tác ntỉhiệp, việc sứdụna các dữ liệu
dùng dế dịnh rmhìa và xác định các loại dừ liệu, các phươrm pháp xứ lý, các
phương pháp quán lý dữ liêu, các biếu báng trong kho dữ liệu tăng lên rất
lớn, cho nên phái tính đến việc quán lý dữ liệu này. Vì thế trong kho dữ liệu
phái hình thành lớp quan lý siêu dữ liệu phục vụ cho công việc lưu irữ, xử lý

các dữ liệu này.
Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ớ khắp nơi.
Các nguồn dữ liệu dược dặc trims bởi định nghĩa của các dữ liệu nhập vào.
Việc bổ xung các nhãn ihời gian đòi hỏi phải định nghĩa các nhãn thời gian
dùng trong siêu dữ liệu Lớp quan lý siêu dữ liệu cũng quan lý các dữ liêu
mô tả đầy dủ và hoàn chính các dữ liệu được Um trữ trong DW.
Các chức năng chính của Ịớp này là sao chép, tạo mới, lưu trữ, phục hồi,
làm sạch và cập nhật các siêu dữ liệu sau dày:
• Các mô hình dữ liệu vật lý, logic của Data Warehouse và Datarnart;
Các sơ đổ iương ứng cũng như các hàng chú giái về kỷ thuật, nghiệp
vụ ctirợc lưu và quán lý troníĩ dó.
• Các định nghĩa dữ liệu chuán (bao gổm ca định nghĩa kỹ thuật và
miêu úi nghiệp vụ) của các dữ liệu lưu trữ trong DW.
• Các siêu dữ liệu được báo quan và lạo ru Irong các khối linh chế và
gia công lại.
• Các siêu dừ liệu có trong các quá trình phàn {loạn, kếi nối . tổng
hợp,
• Các siêu dữ liệu (ỉế mỏ lá các báo cáo và cấc cáu hỏi/tru cứu.
• Các siêu dữ liệu mò tá các chi số, các chú giái dùne dế truy nhập dữ
liệu.
• Các siêu dữ liệu mỏ tá các ỈLiật xác định ihời aian sao chép, cập nhậl
và nạp lại dữ liệu
1.3.6. Lóp (ỊUiin íỷ sicu (lữ iiộu
i:
Nhiêm vụ chuyến tái dữ liệu giữa các khối (lo lớp này thực hiện. Lớp nay
sử dụng các chức lúíim cập nhật, sao chép, chuyên lái dữ liệu và cấc hệ thống
mạng, các phán mềm lớp Iruim gian (Middleware tools), báo đàm tính an toàn
vù phân quyền cho các nhu cầu chuyến tái dữ liệu.
Lớp chuyển lái xác định các cầu nối ưưyền thôn Li cần thiết giữa các trang
Ihiết bị phấn cứng và phần mểm của Data Warehouse.

Lớp này có thành phần chuyến tải cỉữ liệu và mạns bao gồm các loại hệ
thống sau:
• Các giao tác mạng như TCP/IP (Đó là các quy định chung cho irao
đổi dữ liệu).
• Các cơ chế quản lý mạng: Ví dụ như IBM Net View, Sun soft’Sunnet
manager
• Các hệ diều hành mạng.
• Các ỉoại mạng ví dụ Ethernet, Tokenring
Lớp này chứa các loại thiết bị SLiu:
• Các cổng kết nối cơ sớ dữ liệu (Database gateways), các Ihiết bị
chuyển lải giữa các giao thức.
• Các phần mềm lớp trung gian hướng thòng háo (Message oriented
Middleware) ví dụ như IBM MOSeries.
• Các hệ sao chép và truyền bá như hệ [BM truyền bá đữ liệu quan hệ.
Các yêu cáu về an toàn (lữ liệu và phủn quyền iruy nhập cũng được thực
hiện ứ Ironu lớp này.
1.3.7. Lớp chuyên tài dữ liệu
1.3.8. Lớp kết cáu hạ táng
Bao 1'ồm các Ihành phẩn sau:
Thành phấn LỊ min lý các hệ ihốns: cung cấp các khá năng tìm kiếm, quán
lý và xác định các phấn mềm chuẩn và các phấn mồm ứne dụng cho nỵười
thiết kế hệ thốn« và người sử dụng niĩhiệp vụ.
Thành phíìn thứ hai của lớp này sẽ trợ giúp cho Lị LI á trình tích hợp, quán
lý các phần mém chuán, các phần mồm ứng dụng và hoạt dộng khác để sao
chép, cập nhật, kết nối, lổng hựp dữ liệu trone các khối tạo dựng Data
Warehouse và Datamart nhằm nâng cao hiệu quà và năng suất làm việc cho
người thiết kế hệ ihống và xử dụng nghiệp vụ.
Thành phán tiếp theo phục vụ cho cổng việc lưu Irữ. Thành phần này
cững cung cấp các dịch vụ quan lý cho khối các nguồn dữ liệu, các khối tạo
dựng Data Warehouse và Datamart, cấc lưu trừ cục bộ và nhiều chiểu cho khối

truy nhập và sử dụng.
Thành phẩn cuối cùng của lớp này bao gồm các hệ thống xử lý. Chúng
tạo ra các môi trường làm việc cho các khối chính như: Các nguồn dữ liệu, tạo
dựng Data Warehouse, tạo dựng Datamart. Ngoài ra, [ớp kết cấu hạ tầng còn
bao gồm các hệ Ihống sau:
Các hệ quán

cấu hình trang thiết bị.
Các hệ
quàn

việc lưu trữ
Các
hệ
quán

an loàn dữ liệu
Các hộ
quản

phân phối cúc phán mém
Các hệ
quán

các liccnce
1.4. CÁC DVVH TRONG MỘT số LÌNH vự c
Trong thời kỳ dầu (.lịnh nghĩa DWH lương dối đơn uiãn. Đến hiện nav
DVVH vấn được hiếu là lập hợp <Jữ liệu ihoâ mãn 4 diếu kiện cơ bán:
- Hướng dối urợnsi.
- Tích hựp.

- Thay dổi theo thời gian.
- Lưu trữ hiu dài.
Nhiệm vụ chính của DWH là phục vụ cho các hệ hỗ irợ quyết định. Các
dữ liệu cơ sớ irong DWH có thể được biếu diễn dưới vài khuỏn dạng khác
nhau nhằm đáp ứng không chí các câu hỏi cho trước mà cho cá các câu hỏi
chưa xác định.
DWH có kích thước ml lớn vì nó chứa toàn bộ dừ liệu lịch sử. Chính vì lý
do kích thước, dử liệu trong DW dược phán chia làm hai loại: tích cực và
không tích cựe.DVVỊ I chứa các dữ liệu tích hựp ớ nhiều mức.
M ứ c ỉìiỊttỵên tử (mức ỉ hấp nỉìẩỉ) chứa cốt lõi căn bàn nhất và là một
snapshot (dữ liệu được ghi lại ở một thời điếm) đúng lúc của dữ liệu. Dữ liệu
được tống kếl theo các giai đoạn thời gian như theo từng giờ, theo nửa ngày,
theo ngày hoặc Iheo lừng tuần. Mức theo (ừng giờ là xứ lý phức tạp nhất.
M ức ỉd/ìiị thế thấp: Thông lin dược tổng kết lại là các thông tin được lốm
lái và kêì hợp lại chơ một mục đích kinh doanh cụ ihế. Điển hình là dữ liệu
được tổng kết theo thời gian như íheo ngày, tuần, 2 luẩn hoặc một tháng.
M ức toiìíỊ ỉìiâ cao: Thôn lì Ún (.lược tổng kêl lại ớ mức cao là những thông
1 ìn được lỏm lát và kết hợp theo mội lý đo nào dó rấỉ .cụ thể. Điển hình là dữ
liệu dược lổn í» kết sau mội thời Siian dài ví dụ như hàn.» ihán.ỉỉ, hàng quí hoặc
hàng năm.
Các dữ liệu này được xử lý một cách thôn 12 nhấi trong DWH dể phục vụ
cho quá trình khai thác san này.
Các dặc Lính này là chung cho mọi DVVH.Troniỉ ý nviliĩa đó, mọi DWH
tiếu cỏ cấu Irúc như nhau. Tuy vậy các DVVỊ-Ị iron lĩ các lình vực khác nhau
(leu có các dặc (liếm riònii.Chúnii la có I lie xem XÓI mội vài loại liêu biếu
Đây là những DW được xúy dựng sớm nhất hỡi lẩm quan trọng của nó.
Nguyên nhàn của điéu này là:
- Dữ liệu tài chính luôn có tầm quan trọng sống còn trong một tổ
chức. Chính vì vậy việc khai thác dữ liệu này dưới nhiều khía cạnh
khác nhau luôn là một vấn đề hấp dẫn.

- Dữ liệu tài chính có mức ổn định cao.
- Dữ liêu tài chính liên quan đến mọi lĩnh vực hoạt động của công ty
và có độ đo (ương đối rõ ràng (các đơn vị liền tệ).
- Các dữ liệu về tài chính về bản chất đã được phân loại theo cấu trúc
tài khoản, điều này ành hưởng trực tiếp lên quá trình xử lý và khai
ihác dữ liệu.
Các nguyên nhAn kê’ trên trở thành một lý do chính để xAy dựng các
DWH phục vụ công tác phán tích hoạt động tài chính. Tuy nhiên xây dựng các
DWH từ các dữ liệu tài chính có những khó khàn rất đáng kể, đạc ihù cho
những dữ liệu loại này. Điều đầu tiên là người ta thường yêu cáu clữìiệu trong
DWH phải chính xác tuyệt đối với các dữ liệu từ các nguổn OLTP. Điều này
rõ ràng là không tưởng vì dữ liệu từ OLTP phải qua quá trình chuyển đổi và có
thổ thay đổi các độ đo theo yêu cáu của DWH. Các thay đổi này có thể rơi vào
một số trường hợp như sau:
- Thay đổi chu trình thu thạp dữ liệu (Theo yêu cáu phân tích dữ liệu,
quá trình thu thập không chí trong mội tháng mà theo các tiêu chí
phục vụ quá trình phùn tích,ví dụ theo năm tài chính).
- Các dữ liệu có thế được nhóm theo các tiêu chí khác nhau, khôns
nhất thiết phủi giống các háo cáo lài chính.
- Các dữ liệu được phAn chia theo các tiêu chí khác nhau, theo các ctơn
vị đo khác nhau (VND,USD ) đặc biệt là các đơn vị tiền tệ thay dổi
trong nhiều hộ thống OLTP và DWH.
Đày Ịà những lý do chú yếu khiến cho tiữ liệu trong các DWH tài chính
khác với các hệ xử lý iĩiao dịch. ĐAy là đặc điểm mấu chốt cán làm rõ trong
quá Iiinb xây I lụn lĩ DWH.

1.4.1. DYVH trong lĩnh vực tài chính.
Các DWH phục vụ bảo hiếm có vài nét khác biệt so với các hệ thống
khác. Điểm khác biệt đầu tiên nằm ở chồ dữ liệu trong lĩnh vực này được lưu
trữ trong một thời gian râì dài. Hoàn toàn lự nhiên nếu chúng ta cần phùn tích

các dữ liệu báo hiểm trong vòng 50 năm hoặc 100 nãrn. Vấn dể cần giai quyết
là đưa những dữ liệu có nguồn gỗc rấi xa xưa đó (khi chưa tổn tại các hệ thống
máy tính) vào hẹ ihống DWH.
Vấn đề Ihứ hai là sự đa dạng của dữ liệu. Các hệ thống bảo hiểm có mức
độ phong phú về dữ liệu hơn hần các hệ thống khác do bản chất bảo hiểm bao
trùm mọi lĩnh vực hoạt động xã hội. Việc chuẩn hoá cấc đơn vị là vấn đề cần
giải quyết khi xây dựng DWH.
Một vấn để nữa cần giải quyết là chu trình dữ liệu trong các hệ thống bảo
hiểm hoàn loàn khóc với các hệ thống mà chúng la thường làm quen. Trong
lĩnh vực bảo hiểm có thể có những yêu cầu bảo hiểm cần thiết thực hiện sau 5
năm hoặc sau một thời gian thoá thuận nào đó. Có thể nói rằng tốc độ biến
dổi đặc trung cho báo hiểm sẽ khác với tốc độ đặc trimg cho các lĩnh vực
khác.
Sự khác biệt tốc độ dược phản ánh trong DYVH.Trong các DWH khác các
giao dịch đơn giản được gom góp lại và xử lý. Trong lĩnh vực bao hiểm giao
dịch có thể được tích luỹ với thời hạn không xác định, các thành phán khác
nhau của nó được thể hiện trong DWH. Kết quá dó là sự tiếp cận hoàn toàn
dạc biệt với sự thiết kế và ứng dụng các DWH như vậy.
L.4.3. DYVH tronịỊ lĩnh vực điều khicn nguồn nhân lực.
DWH dùng điều khiến nguồn nhân lực có những khác biệt rất cơ bán
với DWH khác . Thứ nhất là số lưựng các lình vực đối tượng. DYVH này chỉ có
một đối tượng tối quan trọng là công nhân, tất cá những cỉiéu còn lại chí là thứ
yếu. Trong khi đố,phẩn lớn các DWH khác có nhiều đối tượng cơ sở.
Tuy nhiên, sự khác biệt cơ bãn của DWH dùng cho quán lý nguồn nhân
lực là ớ chỗ các DWH đó SỪ dụng râì ít giao dịch. Có dữ liệu thể hiện đối
tưựng là công nhủn, có dữ liệu thế hiện khi có người thôi việc, những bố sung
phát triển hàng năm. Nhưng ngoài quỹ tiền lưưnu và một vài yếu tố liên quan
đến công nhân khác, thực tế trong DWH đó chán« còn gì hơn. So sánh mỏi
(rường quàn lv nhàn lực với mỏi trường ngàn hàng chẳng hạn sự khác biệt về
số lượng íỊÍao dịch rã! rõ rà nu.

1.4.2. DYVH trong fililí vực bao hiểm.
17
Sự khác biệt VC tốc độ giao dịch giữa mỏi irườnỉỉ trên với những mòi
Irường hoạt động khác là nguyên nhân xuất hiện sự phức tạp nhất ctịnh, đó là
trong lĩnh vực quán lý iiũU ồn nhân lực có xu hướim đua việc dieu chính lực
lượng lao dộng chân tay và những nhàn lực trong hệ thống tiếp nhận quyci
định vào một môi trường thống nhất. Trons các lĩnh vực khác việc thực hiện
những chỉnh lý kiến trúc như vậy rất ít.
1.4.4. DYVH diện rộng
DWH diện rộng dược sứ dụng cho việc mò là bao quát các tập đoàn lớn.
Phân biệt 3 loại DWH :
- Xử ỉý dữ liệu theo cấu trúc địa lý: Ví dụ: cần thiết phải tích hợp các
hoạt động kinh doanh tại Hồng công với những hoạt động kinh
doanh tại Paris, mà nó đến lượt mình lại cần tích hợp với Rio de
Janero, và thành phố này lại tích hợp với Nevv-yok.
- Xử lý dữ liệu theo chức năng: hoạt động san xuất cần được tích hợp
với các hoạt độn" cung ứng, hoạt động này lại tích hợp với kinh
doanh, và công việc này đến lượt minh lại cần tích hợp với các hoạt
đồng nghiên cứu V V.
- Xử lý dữ liệu iheo lĩnh vực: Ví dụ tích hợp lĩnh vực dược phám, mà
nó lại nằm trong việc tích hợp với việc kinh doanh các thiết bị y lế,
lĩnh vực này lại liên quan đến cung ứng theo các chuyên nghành
Điều đặc biệt của DWH diện rộng là ờ chỗ ớ mức độ tổng thể có rất ít
điểm chung. Điéu chung duy nhất là tiền. Và sự tích hợp việc kinh doanh chí
đạt dược với sự trợ giúp của nó. Những điểu khác có Ihể có hoậc không có ý
nghĩa trên mức độ tổng thể. Ví như khách hàng, sán phấm, người cung cấp,
tất cá các yếu tố này cổ thể có mạt hoặc không ớ mòi trường (ích hợp diện
rộng đó là các DWH diện rộng.
IX
Nếu như trong các DWH khác sự thay đối các dữ liệu cơ sớ xáy ra 1'âì ít

ihì với dạn" DWH này xảy ra thường xuyên và thậm chí lận gốc rỗ. Ví dụ vào
thời điểm bất kỳ nào đó có thể tìm thấy giếne dầu mới, ví dụ tại Vênèxucla.
Mội phút sau đó ớ Peru lại xúy ra cuộc cách mạng. Và những diều đó ánh
hướng tới OPEC. Hoặc ở Mexico hệ thốn" luật pháp bị thay dối V V. Nếu
như xét trên phương diện tổng thế thì những thay đối đó mang tính chất
thường xuyên. Vì vậy cấu trúc và công nghệ được áp dụng cho DWH dạng
diện rộng cần cho phép đáp ứng các thay đối liên tục này.
1.4.5. DWH với tính nâng Data mining
DWH với công nghệ Data mining (khai phá dữ liệu) là các biến thể của
các DWH truyền thông. Những DWH này sử dụng dể thực hiện các hiệu chỉnh
các dừ liệu thống kê lớn. Những đặc điểm của DWH loại này là :
- Rất chi tiết
- Có quan hệ lịch sử sâu xa
- Được thiết kế tối ƯU để phàn tích Ihống kê
Ngoài ra các DWH này còn định hướng tới một dự án nào dó. Điều dó có
nghĩa là khác với các DWH khác nó được sử dụng ngay lộp tức đế thực hiện
các phân tích cán thiết cho dự án.
Một khác biệt quan trọng nữa cúa DWH với công nghệ Data mining là
chúng rất thường xuyên [fl'y thêm các dữ liệu bên ngoài. Những dữ liệu đó rất
có ích xét theo quan điểm đám bảo liềm năng kinh doanh mà (tiều này rất khó
nếu thiếu thiếu các dữ liệu mới nhất.
1.4.6. DWH trong lĩnh vực viễn thông
Điều đặc biệi của các DWH ớ chỗ chúng được xây đựng phục vụ nhu cáu
phíìn tích. Tất nhiên trong lình vực viễn ihổng có rất nhiều dạng dữ liệu khác
nhau. Nhung chúng đều dược xác định ớ mức độ rất lớn bời cấc chi liêì ử mức
đô cuỏc «oi.
«-<• •
• Lưu trữ chi tiết trong một vài tháng;
• Lưu trữ nhiều chi tiết trên những phương liện lưu trữ khác nhau;
• L ưu trữ chỉ những chi liết chọn lọc .V V.

Rất tiếc, tuy có nhiều phương pháp xứ lý khác nhau nhưng đối với dạng
DYVH này chí xử lý trên các chi tiết ở mức độ cuộc gọi,rất ít các dữ liệu tổng
hợp hoặc tích hợp.
Như vậy, chúng ta đã xem xét những khác biệt chính của các dạng DWH
khác nhau.
• Dữ liêu của DWH tài chính - (hường được thiết lập trước tiên và
không có sự chính xác tuyệt dối với các thông tin trong môi trường
tài chính đặc dụng.
• DWH trong lĩnh vực bảo hiểm với sự giống nhau rất ít với các DWH
khác: thời gian tồn tại của những DWH này, những dữ liệu khác biệt
và thời gian của các chu kỳ kinh tế.
• DWH dể quán lý nguồn nhân lực khác với các DWH khác ,với
chúng đặc tnmg là chí có một lĩnh vực đối tượng cư bản duy nhất.
• DWH với các chức nang Data mining, chúng được sử dụng để thực
hiện việc xử lý những dư liệu thống kê rấi lớn, là biến thể của những
DWH truyền ihốns.
• Điều khác biệt cùa DWH trong lĩnh vực viễn thông là ở chồ chúng
dược xác định ớ mức (!ộ rất lớn bời các dữ liệu chi tiết với tính lổng
quát thấp.
Và tất nhicn, ngoài những DWH này còn có các dạng DVVH khác. Mỗi
một dạng mang những nét khác biệt riêng.Naười triển khai một hệ thống
DYVH phái xem xét các yếu tố đạc thù này dế báo đâm việc xử dụng hệ thống
có hiệu qua.
Có nhiều phương pháp lưu trữ chi tiết ớ mức cuộc gọi:
20
CHƯƠNG 2.
CẤU TRÚC KHO DỮ LIỆU VẦ MÔ HỈNH DỮ LIỆU.
Chương này sẽ trình bầy về cấu trúc và các cách lựa chọn dế tiến hành
xây dựng kho dữ liệu. Một thuật ngữ sẽ thường xuyên dược xử dụng là data
mart. Datamarts hiểu một cách dơn giản là các kho cỉữ liệu nhó hơn có chức

năng độc lạp hoặc có thể kết nối với nhau để tạo thành một kho dữ liệu lích
hợp tổng thế
Mặc dù không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc
cho kho dữ liệu trước khi bát đẩu tiến hành. Cấu trúc cũng có thể được quyết
định hoặc sửa đổi sau khi bắt đầu tiến hành. Tuy nhiên, nếu chậm trễ hơn thì
cũng có nghĩa là làm tăng khá năng phải làm lại. Việc lựa chọn đúng cấu trúc
là một quyết dịnh có tính chất quán lý diều hành dựa trèn các nhân tố như cơ
sờ hạ tầng hiện tại, mỏi trường kinh doanh, cấu trúc quản lý và điều hành
mong muốn, cam kết và phạm vi thực hiện, năng lực môi trường kỹ thuật mà
tổ chức dùng, và các nguồn sẩn có.
Lựa chọn phương pháp thực hiện cũng là yếu tố quyết định và có tác
động ỉớn tới sự thành công của việc xây dựng kho dữ liệu.Sự lựa chọn này tác
dộng tới thời gian hoàn thành, hoàn vốn dầu lơ, tốc tlộ thu lợi nhuận, mức độ
hài lòng của người sử dụng, khá năng phai liến hành lại công việc, các yêu càu
về nguồn cán vào bâì cứ ihời điếm nào, và cấu trúc kho dữ liệu được lựu chọn.
2.1. CÁC CHON LỰA VỂ CẤU TRÚC
Việc lựa chọn cấu irúc sẽ quyết định, hoặc dược quyết định tụi những nơi
tạp trung các kho dữ liệu và các data marts và ớ những nơi tập trung sự quản
lý. Ví dụ như, dữ liệu có thể tập trung ở phần truns tâm có sự quan \ý trung
tâm. Hoặc, dữ liệu có thể phân bố ở các nơi và/hoặc các nơi xa trung tâm mà
có sự quán lý cứa trung tủm hoác quan [ý độc lập.
Việc lựa chọn cấu trúc ở đay có thể là tổng thể, dộc lập, kết nối với nhau
hoặc tà sự kết hợp của củ ba yếu tố. Việc lựa chọn dế thực hiện được cồn nhác
lới là từ trên xuống dưới, từ dưới lên hoặc kết hợp cả hai. Các lựa chọn cấu
trúc và lựa chọn phương pháp thực hiện cũng có thế được sử dụng kết hợp. Ví
dụ, cấu trúc kho dữ iiệu có thể phàn bổ về mặt vật lý, nhưng được quản lý tập
trung và được thực hiện Lừ dưới lên bất đẩu với các data marts chuyên phụ
trách cho từng nhóm, phòng ban, lĩnh vực kinh doanh riêng biệt.
2.1.1. Cấu trúc kho dữỉiệu tổng thể
Cấu trúc kho dữ liệu lổng thể dược trình bẩy ờ dây là một cấu trúc hỗ trợ

cho tất cả, hoặc một phẩn lớn của một Tổng Công ty có nhu cổu về một kho
dữ liệu tích hợp đáy đủ với mức độ truy nhập cao và được sử dụng xuyên suốt
các ban ngành hoặc ngành nghề kinh doanh. Có nghĩa là, nó được thiết kế và
xAy đựng dựa trên các nhu càu của toàn bô doanh nghiệp. Nó cũng có thể
dược coi như là một kho chứa chung cho các dữ liệu hỗ trợ quyết định luôn có
sán và xuyên suốt toàn doanh nghiệp hoặc phán lớn doanh nghiệp.
Có một sự nhầm lẩn về khái niệm hay xảy m là kho dữ liệu lống thể ctược
tập trung hóa. Thuật ngừ tống thế được sử dụng ở dày đế phán ánh về phạm vi
truy cập và sử dụng số liệu, chứ không phái là vể cấu trúc vật lý. Kho dữ liệu
tổng thế có thế được tập trung hóa vé mặt vật lý hoặc được phàn bố xuyên suốt
lố chức doanh nghiệp. Một kho dữ tiệu tập trung tống thể về mặt vật lý sẽ
dược một doanh nghiệp mà toàn bộ doanh nghiệp dó chí đổng trên một địa
bàn ihống nhất sử dựng và được một hộ phận gọi ià Phòng Hệ thống thông tin
(ỈS Department; quán lý. Một Kho dữ liệu phiìn bô' tóng thế cũng có thể được
một doanh nghiệp llìống nhất dùng, nhưng nó sẽ phủn bố dữ liệu chông qua
các địa điếm vật lý khác nhau trong doanh nghiệp và được Phòng Hệ thống
thông tin (IS Department) quàn lý.

×