Tải bản đầy đủ (.pdf) (94 trang)

Xây dựng kho dữ liệu (Data warehousing)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (34.05 MB, 94 trang )

DÂNG VÀN NINH
DAI HOC QUÔC GÎA HÀ NÔI
K H O A C Ô N G N G H Ê
XÂY DUNG KHO DU* LIEU
• »
(DATA WAREHOUSING)
LUÂN VAN THAC SI
Hà Nôi-2004
DANH MỤC HÌNH VẼ, Đ ổ THỊ
Hình số 1 : tính chấc ít thay đổi của dữ Uậu trone kho dữ ỉiệu
Hình sỏ' 2; nguyên ỉý cơ bản của kho dữ iiệu
Hình số 3: Hệ hỗ trợ ra quyết định
Hình số 4: Yêu cầu chức năng kho đữ liệu
Hình số 5: Mõ hình kiến trúc dữ liệu ba tầng
Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu
Hình số 7: Kiến trúc dữ iiệu ờ mức cao
Hình số 8: Kiến trúc siêu dữ liệu
Hình số 9: Quan niệm kho dữ liệu ờ mức doanh nghiệp
Hình số 10: Luồng đữ liệu trong kho dữ liệu
Hình số 11: Tiếp cận theo mô hình thác nước
Hình sô' 12: Tiếp cận theo mô hình xoắn trôn ốc
Hình sổ 13: Mổi trường vừa tập trung vừa phân tán
Hình số 14: Mô hình đữ liệu nhập xuất tồn
Hình số 15: Thuộc tính của bảng CUBNXT
Hình số ỉ6: Kết quả của tiến trình sinh mã-Generation
Hình sổ 17: Kết quả của tiến trình thực hiện — Deploy
Hình số 18: Trang nhập hàng hoá (Sheet Nhap)
Hình số 19: Biểu đồ của trang nhập hàng hoá (Sheet Nhap)
Hình số 20: Trang xuất hàng hoá (Sheet Xuat )
Hình số 21: Biểu đổ của trang xuất hàng hoá (Sheet Xuat)
Hình số 22: Trang tồn hàng hoá (Sheet TON)


Hình số 23: Biểu đồ của trang tồn hằng hoá (Sheet TON)
M Ụ C L Ụ C
MỞ ĐẨU
5
PHẦN 1. C ơ SỞ XÂY DỤNG KHO DỮ L IỆ U
6
CHƯƠNG 1. GIỚI THIỆU CHUNG VỂ KHO DỮ LIỆU
.

.

6
1. Định nghĩa Kho đữ liệu — Data Warehouse 6
2. Đặc điểm dữ liệu trong kho dữ liệu 6
3. Nguvên lý cơ bẳn (Basic Elements) 8
4. Kho dữ liệu cục bộ - Đatamart
.

9
5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS) 10
6. Phân biệt Kho dữ liệu với những hệ cơ sờ dữ liệu tác nghiệp 11
7. Các yêu cầu chức năng kho đữ liệu (Desirable Warehouse Functionality). 12
Kết luận 13
CHƯƠNG 2. KIẾN TRÚC KHO DỮ LIỆU



.

15

I. MỘT SỐ KHÁI NIỆM C ơ BẢN 15
1. Dữ iiệu nghiệp vụ 15
1.1. Dữ liệu thời gian thực (real-time đata) 15
1.2. Dữ liệu dãn xuất (derived data) 15
1.3. Dữ liệu tương thích (reconciled data) 15
2. Siêu dữ liệu (Metadata) 15
2.1. Siẻu dữ liệu trong giai đoạn xây đựng
16
2.2. Sìôu dữ liệu kiểm soát

', 7 16
2.3. Siêu dữ liệu vận dụng: 16
II. KIẾN TRỦC D ữ LIỆU MỨC KHÁI NIỆM

.

17
1. Kiến trúc dữ liệu nghiệp vụ 17
2. Kiến trúc siêu đữ liệu 21
3. Quan hộ và nguén của siêu đữ liệu 22
3.1. Siêu dữ liệu trong giai đoạn xây dựng
22
3.2. Siêu dữ ỉiệu kiểm soát

.


23
3.3. Siêu dữ liệu vận dụng 25
4. Kiến trức Logic Kho dữ liệu 25

4.1. Dữ liệu nghiệp vụ trong kho dữ ỉiệu 26
4,2- Kiến trúc Siêu dữ liệu trong kho đữ liệu 31
4.3. Chỉ mục kho dữ liệu (catalog) 34
III. PHƯƠNG PHÁP XAY DỤNG KHO DỮ LIỆ U

34
1. Kế hoạch cơ bản (The Basic pìan)

.

34
2. Quan niệm ờ mức doanh nghiệp (The Enterprise View)

35
3. Luồng dữ liệu qua kho dữ liệu (Flow of Data Through the Warehouse)

3Ố
4. So sánh mô hình phát triển (Development Models Compared)

37
4 .1 Mô hình thác nước (Waterfall)
.
37
4.2. Mô hình xoắn trôn ốc (spiral) 38
4.3. Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc

39
5. Các giai đoạn thiết kế kho dữ liệu (ĐW Database Design Phases)

40

5.1. Xác định mó hình nghiệp vụ (Defining the business model)

40
5.2. Xác định mò binh logic (Defininc the logical model)

40
5.3. Xác định mỏ hình Dimensnional (Defining the dimensional model) 40
5-4. Xác định mỏ hình vật lý (Defining the physical model)

40
KẾT LU ẬN
.



.



.

41
CHƯƠNG 3. THIẾT KẾ KHO DỮ LIỆU

43
I. XÁC ĐỊNH MÒ HÌNH NGHIỆP v ụ VÀ MÔ HÌNH LOGIC
(DEFINING THE BUSINESS AND LOGICAL M OD ELS) 43
1. Xác định mô hình nghiệp vụ 43
l.í. Phản tích chiến lược (Strategic Analysis) 44
1.2. Tạo mô hình nghiệp vụ (Business models creation) 47

1.3. Tạo siêu dữ liệu
.
52
2. Xác định mô hình logic (Defining the Logical Models) 52
II. TẠO MÔ HÌNH DIMENSIONAL (CREATING THE
DIMENSIONAL M ODEL)

.
53
1. Giản đồ hình sao 53
2. Các thành phần của giản đổ hình sao 53
3. Đặc điểm của giản đồ hình sao 54
4. Vấn để đánh chỉ sỏ' (Index) 55
III. TẠO MÔ HÌNH VẬT LÝ (CREATING THE PHYSICAL MODEL)

.

5 6
1. Kế hoạch thực hiện 57
2. Mỏi trường thực hiện (vừa tập trung vừa phản tán) 57
3. Lựa chọn hạ tầng
59
KẾT LUẬN 1 60
PHẨN II: XÂY DỤNG KHO DỮ LIỆU THỬ NGH IỆM 62
CHƯƠNG 4. GIỚI THIỆU CÔNG c ụ XẢY DỤNG KHO D ữ LIỆU
(ORACLE WAREHOUSE B U IL D E R ) 62
I. KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHẨM (PRODUCT
ARCHITECTURE AND CAPABILITIES) 62
1. Thành phần thiết kế (The Design Component) 62
2. Thành phđn thực thi (The Runtime Component) 63

3. Các thành phần của Warehouse Builder 64
3.1. ứng dụng máy khách (Warehouse Builder Client Application) 64
3.2. Dịch vụ nền thực hiện Warehouse Builder (Runtime Platform Service)


* 1

!

.
65
3.3. Thành phần thiết kế Repository (WB Design Repository) 65
3.4. Repository WB thực thi (Warehouse Builder Runtime Repository) 65
3.5. Báo cáo kiểm toán (Audit Reporting Browser)
65
3.6. Báo cáo siêu dữ liệu (Metadata Reporting Browser) 66
4. Đối urựng trong WB (Warehouse Builder Objects) 66
5. WB thực hiện hệ thống dích (Warehouse Builder Deployment Targets) 66
4
II. SO L ư ợ c QUÁ TRĨNH TẠO HỆ THỐNG NGHIỆP v ụ THÔNG
MINH (OVERVIEW OF CREATING A BUSINESS INTELLIGENCE
SYSTEM )
.





.
66

1. Bước 1: Tạo Project {Creating a Project) 67
2. Bước 2: Khai báo các module nguồn và đích (Defining Source and Target
Modules)


67
Khai báo nguồn (Defining Sources) ,.

.
67
3. Bước 3: Khai báo quá trình chuyển đổi và vận chuyển dữ liệu

68
4. Bước 4: Kiểm tra hợp lệ và sinh mã (Validating and Generating) 69
5. BướeS: Tạo và thực hiện (Deploying and Executing) 69
KẾT LUẬN
.
I

Z

71
Kiến trúc và khả năng của sản phẩm 71
CHƯƠNG 5: XÂY DựSỈG KHO D ữ LIỆU TẠI PETROLIM EX

72
1. Bài toán xây dựng kho dữ liệu tại Petrolimex
72
2. Lựa chọn phạm vi xây dựng kho dữ liệu thử nghiệm 73
3. Thiết kế và thực hiện kho đữ liệu thử nghiệm kho dữ liệu


75
4. Khai thác kho dữ liệu

!


.
82
4.!. Trang nhập hàng hoá (Sheet-NHAP) 83
4.2. Trang xuất hằng hoá (Sheet-XƯAT) 85
4.3. Trang tổn hàng hoá (Sheet-TON)
87
KẾT LUẬN

.1


.

.

.

89
TÀI LIỆU THAM KHẢO 92
MỜ ĐẨU
Trong những năm qua cùng với sự phát triển CNTT, các hệ thống thòng tin đă
được phát triển mạnh cả vể số lượng, chất lương. Đặc biệt trong một doanh nghiệp
cùng tổn tại nhiều hệ thống thôna tin đa dạng và phong phú. Các nhà lãnh đạo thì

ỉuõn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch
thậm chí mâu thuẫn về cùng một sự việc trong khi đang sờ hữu một khối lượng dữ
liệu khổng lồ
Đến thời điểm hiện nay, phương pháp xây dựng kho đữ liệu (Data
Warehousing) đã phát triển cả về lý thuyết cũng như thực tế. Lý thuyết xây dựng
kho dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm
cũng đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu, Một kho
đữ liệu sẽ giúp doanh nghiệp có khả năng quản iý dữ liệu, khai thác thống tin phục
vụ việc điều hành kính đoanh phù hợp hơn.
Cũng như các doanh nghiệp khác, Petrolimex đang có một mạng lưới các ứng
dụng nghiệp vụ cục bộ tại từng đơn vị thành viên. Việc tập hợp và quản trị đữ liệu
trên phạm vi toàn ngành để cung cấp thỏng tin cho "quá trình phản tích, hoạch định
chiến lược, hỗ trợ ra quyết định" Irong mòi trường cạnh tranh và hội nhập là một
thách thức lớn mà Petrolimex đang tìm hướng giải quyết. Đề tài này nghiên cứu lý
thuyết, nắm chắc phương pháp iuận và một còng cụ xây dựng kho dữ liệu cụ thể, tạo
nền tảng triển khai xây đựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu cùa
bài toán nói trên,
Luận vãn bao gồm hai phần. Phần í, trình bày cơ sở xây dựng kho dữ liệu, giới
thiệu lý thuyết cơ bản về xây dựng Kho dữ liệu. Phần n, trình bày nội dung xây
dựng kho dữ liệu thử nghiệm, giới thiệu cồng cụ xây dựng kho dữ liệu Oracle
Warehouse Builder và bài toán kho dữ liệu của Petrolimex.
Tôi xin trân trọng cảm ơn sự hướng dản của Tiến sĩ Nguyễn Tuệ. Cảm ơn các
thầy cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oracle Việt Nam và đồng
nghiệp đă nhiệt tình giúp tôi thực hiện đề tài này.
6
PHẦN 1. C ơ SỞ XÂY DỤNG K HO D ữ LIỆU
« *
CHƯƠNG 1. G IỚ I TH IỆU CHUNG VỂ KHO DỮ LIỆU
1. Địẳìh n gh ĩa K ho d ữ liệu - D ata W are h o use
Có nhiều định nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ

liệu của Bili Inmon: ”Kho đữ liệu là tập hợp dữ ỉiệu hướng chủ đề, mang tính tích
hợp, ít thay đổi, và mỗi đơn vị dữ ỉiệu đều gắn với một khoảng thời gian cụ thể. Kho
dữ liệu được thiết kế để hỗ trợ quản trị hê hỗ trợ quyết định".
2. Đ ặc đ iểm d ữ liệu tro n g kh o d ữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm: Hướng
chủ đề (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời
gian cụ thể (Time-variant). Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm
tính chất Kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp.
2.1. Hướng chủ dề (Subject-oriented)
Dữ liệu được tập hợp, phân iớp, lưu trữ và xử lý theo từng chủ để. Các dữ liậu
của mỗì chủ dề chính trong tổ chức được liên kết bởi các khoá đại diện và đưa vào
cùng một vị trí, Ví dụ đữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán
hàng
2.2. Tích hợp (Integrated)
Trong một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau. Việc hợp
nhất các dữ liêu này trờ thành một tập hợp dữ liệu có nghĩa cho việc phân tích ỉà rất
khó khăn. Một trong các tính chất chính của Kho dữ liệu là hoằn thành quá trình hợp
nhất hay tích hợp này.
Cấu trúc dữ liệu theo một cách thức chung được chấp nhận mặc đù xuất phát từ
rất nhiều cấu trúc dữ liệu nguồn khác nhau. Dữ liệu tích hợp phải đảm bảo tính nhất
quán, đôi khi chấp nhận tính dư thừa để tăng tính hiệu quả của các truy vấh.
7
Dü ii6u trong Kho dir li6u la d& lieu chi doc.
2.3. it thay ddi (nonvaiatile)
Operational
Load
Insert
Update
Delete
Warehouse

■rfy
Read
Hmh s6 1: tinh chät it thay d6i cüa dü lieu trong kho dü lieu
Dü lieu diroc tai (load) väo kho dir lieu o Idn däu ti£n dirdi dang ban sao tai
möt thdi di^m (snapshot) vä sau do thuöng xuy6n duoc lam tuoi (Refresh). Chu ky
läm tiroi duoc xäc dinh tuy theo y£u cäu nghiSp vu, cö nhung kho d£r liSu döi höi
duoc läm tircri häng ngäy trong khi cö nhiing kho dü li6u chi cän duoc läm urcfi häng
thäng.
Thöng tin trong Kho dü lieu duoc täi väo sau khi dur lieu trong hS thöng di£u
hänh täc nghiep duoc xäc dinh. Tinh it bi6n döi th6 hiön er chö: Du lieu duoc liru trü
läu däi trong kho dir liöu, mac dü cö thäm dü li£u mcfi nhäp väo nhtmg dö li£u cö
trong kho vän khöng bi xoä, dilu dö cho ph^p cung cäp thöng tin ve möt khoäng
thöi gian däi, cung cäp dü so lieu cän thiö't cho cäc mö hinh nghiep vu phän tfch, dir
bäo.
2.4. Tinh thoi gian cu th^ (Time-variant)
Möt kho chüa dü lidu bao häm möt khö'i luong lön dir lieu lieh sir. Dü liSu
duoc liru trü thänh möt Ioat cäc bän sao(snapshort), möi bän sao phän änh nhüng giä
tri cüa dur li£u tai möt thöi di&n nhä't dinh, th£ hien möt khung nhin cüa möt vüng
chü dl trong möt giai doan. Do väy cho phep khöi phuc lai dü lieu lieh sir vä so sänh
8
mộí cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một
phần cùa khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời
gian cho dữ íiộu.
2.5. Dữ (iệu chi tiết và dữ ỉiệu tổng hợp
Dữ liệu chi tiết là thòng tin mức thấp nhất được lưu trữ trong Kho dữ ỉiệu. Dữ
liệu tác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp. Dữ liệu tác nghiệp
thuần tuý không được lưu trữ trong Kho dữ liệu. Dữ liêu tổng hợp là dữ liệu được
kết hợp từ dữ liệu chi tiết và lưu qua nhiều giai đoạn khác nhau.
3. Nguyên lỷ


bản (Basic Eỉements)
ỮJ50 W0ftfws*
«toitgtoM
• ĩìm*-voítoni
* Nonvùtohi«
Hình số 2: nguyên lý cơ bản của kho dữ liêu
Cơ sở dữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm đữ
liệu, hệ thống sắn có, làm đầu vào cho vùng định cư dữ liệu.
Vùng định cư đữ liệu (Data Staging Area): Vùng lưu trữ dữ liệu bình
thường, đữ liệu có thể ở dạng thô hoặc dạng tổng hợp. Quá trình định cư sử đụng
một số cổng cụ di trú (migration), công cụ làm sạch (clean), chuyển tải đữ liệu
(transformation). Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đẩu vào cho một
hoặc nhiều kho dữ liệu.
Cptỉotìcnaỉ
QữV0
DcJO yrhqợta
____
u
• Ẹaroa
• Mk
• Ticnitonn
«toieorai«
*Ckãtft
• SummóoỉÉ
9
Đích (target): Nơi phát hiện, lưu trữ dừ liệu cho các truy vấn trực tiếp của
người sử dụng cuối, tạo báo cáo và các ứn2 dụng khác khai thác kho dữ liệu hoặc
kho dữ liệu cục bộ.
4. Kho đữ liệu cục bộ - Data mart
Kho dừ liệu cục bộ (Datamart) ià CSDL có những đậc điểm giống với Kho đữ

liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên
nsành. Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu
hoăc cũng có thể được xây đựng độc lập và sau khi xây dựng xong, các Datamart có
thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây đựng
kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xày dựng kho
dữ liệu trước sau đó tạo ra các Datamart.
Datamarí là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu.
Đatamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề,
được tạo ra đành cho một nhóm người sử đụng. Dữ liệu trong Datamart cho thồng
tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang
diễn ra trong một tổ chức. Thể hiện thường xuyên nhất cùa Datamart là một kho dữ
liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng,
trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Đôi khi Datamart
kế? hợp một cách đơn giàn với công nghệ OLAP theo các quan hệ hình sao đặc biệt
tạo ra những siêu khối (hypercube) đữ liệu cho việc phân tích của một nhóm người
có cùng mối quan tâm trên một phạm vi dữ liệu.
Có thể chia ra làm 2 loại: Datamart độc lập và Daíamart phụ thuộc
Datamart phụ thuộc, chứa những dữ liệu được ỉấy từ Kho dữ liệu và những đữ
liệu này sẽ được trích lọc và làm sạch, tích hợp ỉại ờ mức cao hơn để phục vụ một
chủ đề nhất định của Datamart.
Datamart độc lập: không giống như Datamart phụ thuộc, DM loại này được
xây đựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn. Phương pháp này đem
giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi Kho dữ liệu độc
1 0
lập có cách tích hợp riêns, đo đó đữ liệu từ nhiều Datamart khó đồng nhất với
nhau. Datamart thể hiện hai vấn đề: thứ nhấc là lính ổn định trong các tinh huống từ
một Data mart nhó ban đầu lớn ỉèn nhanh chóne cheo nhiều chiều và thứ hai là sự
lích hợp dữ liệu. Vì vậy khi thiết kế Datamart phải chú ý kĩ tớí tính ổn định của hệ
thống, sự đồng nhất cua dữ liệu và vấn đề về khả năng quản lí.
5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)

Decision Support System (DSS)
( A
DSS
ODS DW
V .

OLAP
V
DM
)
storage Analytic
Profile of DSS Q ueries
Hình số 3: Hê hỗ trơ ra quyết đinh
DSS cung cấp một hệ thống có khả nãng trợ giúp việc tạo ra các quyết định,
mọi kho dữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xừ lý
để người dùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn
khác nhau. Tuỳ theo yêu cầu của nghiệp vụ, công cụ có thể đơn giản chỉ là công cụ
lập báo cáo, cũng có thể phức tạp hơn. Sau đây là các thành phần mở rộng của DSS:
Hệ tác nghiệp (ODS): là cư sờ dữ liệu cùa tlữ liệu diều hành, (iừ liệu có cấu
trúc {định dạng-formatted) tĩnh. Hệ tác nshiệp không như kho dữ íiồu, không có
tính chát "ít biến đổi", chúng được naười dùna thay đổi cập nhật thường xuyên.
Kho dừ liệu (DW) tập hợp dữ liệu giúp quản lý quá trình ra quyết định.
Hệ phân tích trực tuyến (Online analytical processing-OLAP) định nshĩa một
cách lỏng ỉẻo (loosely) tập hợp các nguyên tố cơ bản (prineiples) nhằm cung cấp các
khung nhìn cho việc hỗ trợ quyết định. OLAP phồn tích dữ liệu nhằm chỉ ra định
hướng nghiệp vụ, có tính chất tĩnh khỏng đòi hòi tính hiện thời như đữ liệu tác
nghiệp.
Khai phá đữ liệu (Data mỉning - ĐM): là kỹ thuật khai phá ra các mẫu, tri
thức mới chưa từng xuất hiện trước đó.
Hình trẽn cho thấy mâu của một hệ hỗ trợ ra quyết định được phũn chia thành

hai phần, phần ỉưu trữ (bao gồm ODS, DW) vằ phần phân tích (OLAP, DM).
6. Phàn biệt Kho dữ liệu với những hệ cư sở đữ liệu íác nghiệp
Có một số điểm khác biệt chính khi thiết kế hê thống tác nghiệp và khi thiết kế
Kho đữ liệu, chúng ta phải quan tủm cách tiếp cận và tiến trình thực hiện:
Thiết kế Kho dữ liệu phải quan lâm tới vấn đề tối ưu hoá truy vấn dữ liệu,
trong khi thiết kế hệ tác nghiệp quan tâm tới vấn đề tối ưu hoá thao tác dữ íiệu
(insert, update, delete ).
Tính phát triển của Kho đữ liệu, chúng ta không thể hoàn thành sự phát triển
của Kho đữ liệu ngay khi thiết lập, mà quá trình phát triển của kho dữ liệu phải tính
đến trong một thời gian dài. Thường dẫn tới kết quả sử dụng cấu trúc dữ liệu động
hơn là sử dụng cấu trúc dữ liệu tĩnh như hệ tác nghiệp.
Kho đữ liệu Uru trữ dữ liệu lịch sử, dữ liệu cho từng đcm vị thời gian trong khi
hệ tác nghiệp xử lý các giao dịch hiện thời.
7. Các Yẻu cẩu chức năng kho dừỉỉệu (Desirable Warehouse Functionality).
Desirable Warehouse Functionality
Ị Scalability
¡Manageability
Availability
Extensibility
Flexibility
integrated
Accessibility
Reliability


- J
Hình SỐ 4: Yêu cẩu chức nàng kho d ữ lieu
Khả năng càn bằng (Scalable): Kho dữ liệu có khả năng lưu trữ và quản lý
một số lượng khổng lổ các giao dịch và dữ liệu tổns hợp. Kho dữ liệu có thể lớn lên
theo thời gian, có thèm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đàì

mà không bị quá tai, vẫn đảm bảo tính ổn định hoạt động.
Khả năng quản trị (Manageable): Kho dữ ỉiệu có khả nãng quản trị viêc tao
quyết định.
Khả nâng sẵn sàng (Available): Kho dữ liệu luôn sẵn sàng bất kỳ khi nào
cần.
Khả nâng mở rộng (Extensible): Thực hiện một cách dễ dàng khi thêm các
loại đữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp vào kho đữ liệu.
Design
d ã
Load 11 Data ị Access
Motad ata
]
Architecture
Tuning and optimization
Management and revision
Operation
and
management
Capacity planning and sizing
13
Khả nàng mém dẻo (Flexible): Hỗ trợ nhiều cách truy củp dữ liệu chi tiết, dữ
liệu tone hợp theo phàn tích nhiểu chiều, khoan dữ liệu và truy vấn khôna xác định
(analysis, drilldown, and true ad hoc querying).
Khả năng tích hợp (Integrated): Kho đữ liệu phải có khả mìng tích hợp đẩy
đủ với các hệ thốníĩ sẩn có, môi trường tác nghiệp. Do vậy, có thể tải (load) dữ liệu
từ nhiều nguồn.
Khả năng truy cập sử dạng được (Accessible): Kho dữ liệu phải cổ khả năng
truy cập sử dụng được, từ các công cụ mềm dẻo tới phạm vi rộng dãi người sừ đụng.
Khả nâng tin cậy (Reliable): Dữ liệu tải từ nhiểu nguồn khác nhau phải được
họp nhất, chuẩn hóa bảo đảm tính toàn vẹn dữ liệu và hợp lệ tại một thòi điểm bất

kỳ.
Kết luận
Chương I giới thiêu chung về kho dữ liệu, bao gồm các nội dung:
Định nghĩa kho dữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu,
định nghĩa của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính
tích hợp, ít thay đổi, và mổi đơn vị dữ liệu đểu gán với một khoảng thòi gian cụ thể.
Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định".
Bốn đặc tính cơ bản của kho dữ liệu. Theo định nghĩa của Bill Inmon Kho dữ
liệu có 4 đặc tính cơ bản gốm: Hướng chủ đê' (Subject-oriented), Tích hợp
(Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ thể (Time-variant). Một số
định nghĩa khác vể Kho dữ liệu có bổ sung thêm tính chất Kho dữ ỉiệu bao gổm cả
dữ liệu chi tiết và dữ liệu tổng hợp.
Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguổn (Source Database)->
Vùng định cư dữ liệu (Data Staging Area)-> Kho dữ liệu đích (target).
Kho đữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho đữ liệu cục bộ là tập
con của kho dữ liệu, dùng trung một lĩnh vực cụ thể. Có thể xây đựng kho dữ liệu
1 4
cục bộ trước rồi hợp thành kho dư liệu chung hoặc ngược iại có thể xây dựng kho dữ
liệu rrước rồi tổ chức khai thác sử dụng theo các kho dữ liệu cục bộ.
Hệ hỗ trợ ra quvết định có hai thành phần: I. thành phán lưu trữ - storage: hệ
tác nghiệp — ODS và kho dữ liệu-DW; 2. thành phán phàn tích — analytic: hệ
phàn tích trực tuyến — OLAP, khai phá dữ liệu — DM.
Phân biệt kho dữ liệu với hệ thống tác nghiệp: Thiết kế Kho dữ liệu phải quan
tàm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm
tới vấn để tối ưu hoá thao tác dữ liệu (insert, update, delete ). Phân biệt vể tính chất
dữ liệu lịch sử của kho dữ liệu và tính chất dữ liệu của hệ tác nghiệp.
Các yêu cầu chức năng kho đữ liệu phải đảm nhận: khả nãng cần bằng, quán
trị, sẵn sàng, mở rộng, mềm dẻo, tích hợp» truy cập sử dụng, và khả năng tin cậy.
15
CHƯƠNG 2. KIẾN TRÚC KHO DỮ LIỆU

I. MỘT SỐ KHÁI NIỆM C ơ BẢN
1. Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business data) là dữ liệu dùng để vận hành và quản lý của
một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh
nghiệp và những đối tượng trong thế giói thực như ỉà khách hàng, địa điểm, sản
phẩm V.V Nó được tạo ra và sử dụng bời các hệ thống xừ iý giao địch cũng như các
hệ thống hỗ trợ quyết định.
Dữ liệu nghiệp vụ bao gồm dữ liêu cấu trúc và dữ liệu phi cấu trúc. Dựa vào
các tiêu chí sử dụng trong nghiệp vụ, phạm vi dữ liệu, tính chất đọc/ghi của dữ liệu,
thời gian phát sinh dữ liệu người ta chia dữ liệu có cấu trúc ỉàm ba loại:
1.1. Dữ liệu thời gian thực (real-time data)
Dữ liệu chi tiết mới nhất được dùng để vận hành cỏng việc và được truy xuất
theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước.
1.2. Dữ liệu dần xuất (derived data)
Dữ liệu tại một thời điểm hoặc dữ liệu định kỳ, ờ mức chi tiết hoặc tổng hợp,
thuộc chế độ chỉ đọc, nhận được từ việc xử lỷ dữ liệu thòi gian thực và dùng để quản
lý còng tác nghiệp vụ.
1.3. Dữ liệu tương thích (reconciled data)
Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ
liệu. Đây là quá trình thực hiện trên dữ liệu thời gian thực ờ mức chi tiết. Khía cạnh
thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sử. Do đó có thể
coi dữ liệu tương thích là một ỉoạí đặc biệt của dữ liệu dẫn xuất.
2. Siêu dữ liệu (M etadata)
Siêu đữ liệu (Metadata ) là dữ liệu về dữ liệu, được sử đụng trong DW để mô tả
cũng như sử dụng đữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ.
16
Nó dược tạo ra, duy trì và truy cập trong suốt quá trình xừ lý nghiệp vụ {được thực
hiện thòng qua các ứng dụng).
Dựa vào hai tịêu chuẩn cơ bản là: Vị trí của siêu dữ liệu trong ứng dụng và
chúng được sừ đụng theo cách thức chủ động hay bị động. Người ta chia siêu dữ liệu

ra thành ba loại: Siêu dữ liệu trong giai đoạn xây dựng, siêu dữ liệu kiểm soát và
siêu dữ liệu vận dụng.
2 .Ỉ. Siêu dữ liệu trong giai đoạn xáy dựng
Là siêu dữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ
sở dữ liệu. Thông thưcmg, chứng được tạo ra và lưu trữ trong các mố hình đữ liệu và
công cụ thiết kế ứng dụng (bộ công cụ CASE).
2.2. Siêu dữ liệu kiểm soát
Là siêu đữ liệu được sử dụng chủ động trong hoạt động của kho dữ liệu, trong
đó siêu đữ liệu hiện hành và siêu dữ ỉiệu sử đụng đóng vai trò quan trọng trong việc
quản lý và xây đựng kho dữ liệu.
Siêu dữ liệu hiện hành: mô tả thông tin chính xác về tính hiện thời hay vị trí
của dữ liệu nghiệp vụ theo thời gian.
Sièu đữ liệu sử đụng: gắn chặt vói vấn đề an ninh và các chức năng xác định
thẩm quyển, kiểm soát việc truy cập tới kho dữ liệu. Hơn nữa chúng cung cấp các
phương tiện nhằm giám sát dữ liệu và các chức năng này được sử dụng trong kho dữ
liệu như thế nào, và do đó xác định được giá trị của dữ liệu đối với người sò dụng
cuối.
2.3. Siêu dữ liệu vận dụng:
Là siêu dữ liệu quan trọng nhất đối với người sử đụng đữ liệu nghiệp vụ, đặc
biệt trong môi trường thông tin. Với chúng người đùng có thể đạt được những lợi ích
trong nghiệp vụ và nâng cao hiệu quả cỏng việc.
1 7
Siêu dữ liệu vận dụng có nguồn 200 vù nội dung tương tự siêu dữ liệu trong
giai đoạn xảy dựng. Sự khác biệt ờ chỗ siêu dừ liệu này được cấu trúc nhằm dảm bảo
hiệu quả khả nans tìm kiếm của ncười sử đụn«.
II. KIẾN TRÚC D ữ LIỆU MỨC KHÁI NIỆM
1. Kiến trúc dữ liệu nghiệp vụ
Một trong các bước đầu tiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc
tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi. Thông thường, mục
tiêu của hệ tác nghiệp là thực hiện các chức năng người sử đụng yêu cầu, và chúng

có phạm vi dừ liệu khá hẹp, nên việc thiết kế các hệ thống tác nghiập thường bắt đầu
với kiến trúc ứng dụng. Tuy nhiên, đối với kho dữ liệu tính hợp nhất dữ liệu quan
trọng hơn, đo đó điểm khởi đầu trong kiến trúc kho dữ liệu phải là đữ ỉiệu tác nghiệp
và siêu đữ liệu.
Dựa vào thực tế xây đựng kho dữ liệu người ta đưa ra ba mô hình kiến trúc dữ
liệu, các tầng dữ liệu được xem xét dưới mức độ khái niệm hơn là mức vật lý của
nó. Mặc dù người ta có thể quyếí định trực tiếp vị trí dữ liệu bằng cách xem xét các
dặc điểm kiểu dữ liệu, ba kiến trúc dữ liệu nầy đưa ra một nền tảng đễ hiểu hơn cho
vị trí dữ liệu.
Mô hình kiến trúc dữ iiệu ba tẩng đã bao hàm các thành phần của mô hình kiến
trúc hai tầng và một tầng. Do vậy chúng ta sẽ xem xét mỏ hình kiến trúc dữ liệu ba
tầng, sau đó chỉ ra nhũng thành phần khác biệt so với kiến trúc dữ ỉiệu hai tẩng và
tương tự vói kiến ỉrúc một tầng.
•18
Dữ liệu dẫn xuất
Hệ thống
thông tin
A
Dữ liệu tương thích
Hình số 5: Mô hình kiến trúc dữ liêu ba táng
Vổi md hình kiến trúc dữ liệu ba tầng: tiến trình từ dữ liệu thời gian thực tới dữ
liệu dẫn xuất thông qua đữ liệu tương thích.
Tương thích dữ liệu từ nhiều cơ sờ đữ liệu trong thời gian thực.
Dẫn xuất dữ liệu do người sử đụng yêu cầu từ dữ liệu vừa được tương thích.
Trong kiến trúc này tẩng dưới cùng là dữ liệu thời gian thực, tầng trên cùng là
dữ liệu đẫn xuất và tầng giữa íà tầng dữ liệu tương thích.
19
Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời
gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của
chúng trong nghiệp vụ. Trèn thực tế quá trình nắm bất này dược xác định qua tiến

trình lập mò hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hcm là ở mức
ứng dụng riêng lẻ. Mối quan hệ giữa tầng dữ liệu tương thích và mô hình đữ iiệu
doanh nghiệp là yếu tô' quan trọng để hiểu được hoạt động của kiến trúc ba tầng.
Mục đích của tầng dữ ỉiệu tương thích: Bước này ỉấy dữ liệu từ nhiều loại hê
tác nghiệp khác nhau, hỗn tạp, phân tán về mặt địa ỉý, sau đó kết hợp và xử lý chúng
để trờ thành hình ảnh mô hình dữ liệu doanh nghiệp duy nhất và logic. Chức năng
của tầng này trờ thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng
của hệ thống thông tin quản lý hay hệ hỗ trợ quyết định đòi hỏi. Từ tầng này có thể
dẫn xuất ra bất kỳ tổ hợp dữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại
hay tương lai.
Trong tiến trình sao chép tới tầng dữ iiệu tương thích, các tập hợp dữ liệu trong
tầng thời gian thực phải được làm tương thích với nhau bời yêu cầu làm sạch dữ liệu
thời gian thực để loại bò những điểm không nhất quán và bất qui tắc trong dữ liệu.
Khống có đữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính
tầng tương thích.
Trong bước thứ hai, dữ liệu dẫn xuất mà người đùng đòi hòi để đáp ứng yêu
ciỉu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp,
biến đổi trên đữ liệu tương thích. Bước này được định hướng bởi nhu cầu thông tin
của ngưởì dùng đựa trên nguồn đữ liệu đuy nhất, đáng tin cậy. Thông tín mới có giá
trị với nghiệp vụ chỉ được tạo ra trong bước này.
Người dùng cuối hiếm khi truy nhập trực tiếp tới tầng dữ liệu tương thích vì
cấu trúc đã được lập mô hình và chuẩn hoá của tầng này nói chung không phù hợp
với người dùng cuối. Phần lớn các tiến trình hỗ trợ quyết định đòi hỏi dữ liệu được
kết hợp từ nhiều thực thể khác nhau (hay các bảng đã chuẩn hoá). Tiến trình kết nối
này là một trong những công việc không thuân ỉợi
với người sử đụng, bời vì nó đòi
hỏi một phương pháp hình thức để đảm bào tính hợp lệ. Hơn nữa dữ liệu trong tầng
2 0
này bao trùm toàn bộ fổ chức và như vậy có phạm vị rộng hơn mà hầu hết người
đùng đòi hỏi. Những lý do nghiệp vụ này hạn chế việc sử dụng trực tiếp tầng dữ liệu

tương thích cho các hệ thống thông tin quản lý. Việc truy nhủp trực tiếp tới tầng dữ
liệu tương thích chì hạn chế trong một số Iượna giới hạn nhố những người phân tích
nghiệp vụ thông thạo kỹ thuật, cần xem nghiệp vụ một cách tổng thể. Hầu hết người
đùng cuối thoả mãn nhu cầu đữ liệu của mình qua tầng dẫn xuất.
Mối quan hệ giữa đữ liệu trong tầng tương thích và trong tầng dẫn xuất tương
tự vai trò của truy vấn đặc biệt (ad-hoc) và truy vấn đã xác định. Tầng dữ liệu tương
thích đáp ứng các truy vấn đặc biệt. Tầng dẫn xuất đáp ứng cho các truy vấn đă xác
định, có thể xem tầng đẫn xuất lưu trữ các kết quả của một tạp truy vấn đã xác định.
Do đó, tầng dữ liệu đẫn xuất chứa tập dữ liệu được tối ưu hoá để thoả mãn nhu
cẩu của các bộ phận, nhóm người đùng hay thậm chí những cá nhân riêng biệt, Bên
trong mỗi tập hợp đữ liệu nhò và cấu trúc kém hình thức hơn, người đùng có thể
thực hiên các báo cáo thường kỳ hay phát triển các truy vấn cần thiết.
Một lý do cho sự thành công của việc tách dữ liệu tương thích khỏi đữ liệu
dản xuấc là nhiều yẻti cầu thông tin quản lý đã được xác định trước và thường được
lặp lại. Lý do đơn giản này cũng làm giảm mạnh tàí nguyên tính toán cần thiết hổ
trợ kho dữ liệu. Các hoạt động tính toán hay phải iàm hoàn toàn được xác định như
liên kết và tách dữ liệu tương thích- thường được thực hiện khi đi chuyển dữ liệu từ
tầng tương thích tới tầng dữ liệu dẫn xuất trên cơ sở hàng ngày hơn là mỗi khi người
dùng cuối truy vấn.
Mô hình kiến trúc dữ liêu ba tầng không có tầng giữa (tầng dữ liệu tương
thích) cho ta hình ảnh về kiến trúc đữ liệu hai tầng, tuy nhiên khi khồng có sự tham
gia của tẩng tương thích thì kho dữ liệu cũng sẽ gặp một số vấn đề mà tầng dữ liệu
tương thích đảm nhận. Kiến trúc hai tầng thường thấy xuất hiện trong các tổ chức
nhỏ hoặc trong các giai đoạn đầu của quá trình xây dụng một kho dữ liệu qui mô
doanh nghiệp. Tuy nhiên, nó có nhiều vấn đề liên quan đến kiểm soát và bảo trì dài
hạn.
2!
Mò hình kiến trúc dữ liệu hai tầng khi khỏng có tầng dữ liệu dẫn xuất cho ta
mỏ hình kiến trúc dữ tiêu một táng. Kiến trúc một táng sẽ gặp một số vấn đề mà
tầng dẫn xuất đảm nhiệm. Kiến trúc một tầng hiếm khi xuất hiện bời nó tạo ra xung

độí khi nhiều người dùng cùng truy cập tới một dữ liệu.
Kiến trúc ba tầng là tiếp cận mạnh nhất. Nó được khuyến cáo trong khi nghiệp
vụ cần những đữ liệu trên qui mô toàn tổ chức. Sức mạnh và sự thành công của kiến
trúc ba tầng xuất phút từ sự nhận thức vai trò mấu chốt cùa mó hình dữ liệu doanh
nghiệp và sự thực hiện vật lý tầng dữ ỉiệu tươna thích.
2. Kiến trúc siêu dữ liệu
Tương tự dữ liệu nghiệp vụ, siêu đữ liệu cũng được kiến trúc hoá theo định
nghĩa cùa siêu dữ liệu trong mục 1. Với dữ liệu nghiệp vụ, sự phản ỉoại rất phù hợp
với kiến rrúc ba tầng. Với siêu dữ liệu kiến trúc cũng gồm ba phần. Tuy các phần
không được phân tầng như chúng có quan hệ với nhau (hình vẽ), cho phép siêu dữ
liệu thời gian thực cung cấp dữ liêu trực tiếp cho cả siêu dữ liệu kiểm soát lẫn siêu
dữ liệu vận dụng.
T ruy cập hạn c h ế ghi
Người sử dụng
Truy cũp chĩ đọc
dụng A
■Siêu đữ liệu yấn
CỊ)

©
Dữ liệu nghiệp vụ
Siêu dữ liệu kiểm soát -4
m s sm m ss m
ãrS M
Hình số 6 : Kiến trúc dữ liêu cho siêu dữ iiẻu
•??
Nếu cấu trúc dữ liệu nghiệp vụ ba tầng có thể sụp đổ thành kiến trúc hai hay
thậm chí một táng, thì cáu trúc cùa siêu dữ liệu <Sn định hcm. Đó là vì phạm vi và sự
sử duna siêu dữ liệu hạn chế hơn khi so sánh với dữ liệu nghiệp vụ. Hơn nữa siêu đữ
liệu là khái niệm mới hơn, do đó khi xây dựng kho đữ liệu tổ chức siêu đữ liệu với

cấu trúc đã chỉ ra trong hình vẽ trên đơn giản hơn kiến trúc ba tầng cho dữ ỉiệu
nghiệp vụ.
Siẻu dữ iiộu trong giai đoạn xây dựng và siêu đữ liệu trong giai đoạn kiểm soát
tồn tại trong nhiểu vị trí khác nhau, được tạo ra và quản lý thồng qua nhiều thành
phần. Thực sự, các xác định và sử đụng những siêu ứng dụng này trong các môi
trường ngày nay ỉà không rõ ràng. Mặt khác hiện nay, siêu dữ liệu vận dụng hỉếm
khi được nhận thức rõ ràng, và bời vì người dùng cuối sử dụng nó ỉà chủ yếu nên
siêu dữ liệu vận dụng là thành phần siêu đữ liệu quan trọng nhất trong kho dữ liệu.
3. Quan hệ và nguồn của siêu dữ liệu
Chúng ta có thể thấy rõ mối quan hệ giữa ba loại siẽu dữ liệu và tầm quan
trọng của siêu đữ liệu vận đụng bằng cách xem xét vị trí của mỗi loại siêu dữ liệu và
cách thức tạo ra chúng.
3.1, Siêu dữỉiệu trong giai đoạn xây đựng.
Tất cả các cỏng cụ thu thập ý nghĩa, logic nghiệp vụ và biểu diễn những thông
tin này một cách có ý nghĩa được sử đụng để tạo ra và quản lý siêu dữ liệu trong giai
đoạn xây dựng, ví dụ như các công cụ lập mô hình dữ liệu và các công cụ CASE.
Siêu dữ liệu mức nghiệp vụ này được bổ sung các thông tin vể cấu trúc vật lý, sự ỉưu
trữ và thời gian. Siêu đữ liệu trong giai đoạn xày dựng được sỏ đụng trong quá trình
phát triển ứng dụng.
Nguổn của siêu đữ liêu trong giai đoạn xây đụng cho các hệ thống cũ đã thay
đổi nhiều. Các tư liệu về yêu cầu và thiết kế-nếu tổn tại là nguồn trên văn bản duy
nhất của siêu dữ liệu ở mức nghiệp vụ. ờ mức vật lý thì ngược lại, từ bản thiết kế cơ
sờ dữ liệu, file, và các ứng dụng phải tạo ra tư liệu thiết kế. Trong những trường hợp
23
như vậy, mối quan hồ với ý nghĩa rmhiệp vụ cỏ thỏ phải điều chinh lại dựa trên cách
sù đụns hiện tại của hộ thống.
Tạo quyền sở hữu siêu dữ liệu thực tế ià một vân đề đặc biệt. Trong khi các chỉ
dẫn và lưu đổ tổ chức tạo thành tư liệu cấu trúc tổ chức, mối liên kẽ( giữa cấu trúc
nàv và dữ Iiệu-biểu diễn quyển sò' hữu-bị hạn chế. ít tổ chức có tiến trình chính thức
qua đó các bộ phận nghiệp vụ nắm lấy quyền sờ hừu dữ liệu. Thưcmg quvền sờ hữu

dược xác định trên úng dung hon là trên dữ liệu, Hcm nữa quyền sờ hữu dữ liêu ợ
mức cá nhủn hiếm khi xuất hiận. Chỉ giải quyết được các vấn đề về chất lượng dữ
liệu một cách hiệu quả khi xác định được cả hai quyền sờ hữu-của tổ chức và của cá
nhân đổng thời công ty phải kiểm soát được các tiến trình duy trì tính hợp lệ và
quyền sờ hữu hiện tại của siêu đữ ỉiệu.
Cấu trúc siêu dữ liệu trong giai đoạn xây dụng phản ánh nhu cẩu của người
thiết kế, người phát triển ứng dụng và cơ sờ đữ liệu, do đó không thích hợp sử dụng
khi hộ thổng đưa vào hoạt động. Người ta không sử đụng trực tiếp siôu dữ liệu này
trong quá trình kiểm soát các hoạt động íhời gian thực của hệ thống vì các lí do hiệu
quả và đo đó siêu dữ liệu trong giai đoạn xây dựng được sao chép vào môi trường
hoạt động dưới dạng kiểm soát. Cấu trúc cùa dữ liệu kiểm soát này được tối ưu cho
hiệu quả trong thời gian hoạt đông.
Tương tự, khả năng người dùng cuối sử đụng hiệu quả siêu đữ liệu trong giai
đoạn xây dựng cũng hạn chế. Sièu đữ liệu trong giai đoạn xây dựng và các công cụ
CASE thao tác trên chúng được thiết kế để chuyẻn gia trong bộ phận thông tin -
thường phải cập nhật siêu đữ liệu-sử dụng. Người dùng cuối có kỹ năng khác nhau
và nhu cầu cập nhật siêu đữ liệu trong giai đoạn xây dựng được sao chép vào kho dữ
liệu dưới dạng siêu dữ liệu vận dụng.
3.2. Siêu dữ liệu kiểm soát
Trong kho dữ liệu mục đích cùa siêu dữ liệu kiểm soát là mỏ tả sự hiện hành
và cách sử đụng dữ liệu nghiệp vụ. Nguồn của những siêu dữ liệu này không phải ià
siêu đữ liệu trong giai đoạn xây dựng. Với siêu đữ liệu hiên hành, nguồn là các ứng
dụng hay các công cụ tạo ra và cập nhật dữ liệu nghiệp vụ vể mặt vật lý. Với siêu đữ
liệu sừ dụng, nguồn ỉà các còng cụ mà qua đó người dùng cuối cộp nhật kho dữ íiệu.
Siêu đữ liệu hiện hành tổn tại ờ nhiều mức chi tiết, ở mức thấp nhất, thông tin
hiện hành vể dữ iiệu được lưu ờ mức bảng hay file. Trong trường hợp này, siêu dữ
liệu mô tà sự hợp lệ về mặt thời gian của toàn bộ tập dữ liệu. Theo thuật ngữ vật lý,
mỗi bản ghi hay hàng trong file huy bảng có khoảng hợp iệ của chính nó. Cuối cùng,
sự hợp lệ có thẻ được xác định ờ mức các trường riêng lẻ trong mồi bàn ghi. Mức chí
tiết này gần như không được quan tâm bởi vì nếu được thực hiện, khối lượng siêu dữ

liệu sẽ vượt quá dữ liệu nghiệp vụ mà nó kiểm soát.
ờ hai mức chi tiết file/bang và bản ghi/hàng cẩn có nhiều phương pháp khác
nhau để lưu trữ siêu dữ liệu:
ờ mức file/bảng, siêu đữ liệu hiện hành được lưu trữ trong các cấu trúc vật iý
cơ sở là các file hay các bảng. Do đó nó phân biệt với dữ liệu nghiệp vụ. Để người
dùng cuối có thể truy cập tới, siêu đữ liệu này phải được sao chép vào siêu dữ ỉiệu
vận dụng.
ờ mức bản ghi/hàng, siêu dữ liệu hiện hành hầu hết được lưu trữ dưới dạng
nhãn thòi gian. Nó nằm cùng vị trí với dữ liệu nghiệp vụ mà nó mô tả, chứ không
tách biệt như các kiểu siêu dữ liệu khác. Do đó siêu dữ liệu hiện hành à mức bản
ghi/hàng không được sao chép vào siêu dữ liệu cách sử dụng, nhưng được truy cập
trực tiếp bởi những người sử dụng tuỳ từng tình huống. Do đố người đùng cuối hiếm
khi phân biệt siêu dữ liệu kiểm soát với dữ liệu nghiệp vụ.
Ngày nay trong hẩu hết các mồi trường, siêu dữ liệu hiện hành hiếm khi được
luu trữ theo bất hình thức nào. Những người quản lý bộ phận thông tin nhận trách
nhiệm đảm bảo rằng dữ liệu trong các hệ thống thồng tin quản lý được tạo đúng giò
và cho người dùng biết các vấn đề nảy sinh khi nào. Môi trường kho dữ liệu yêu cầu
cách tiếp cận một cách hình thức hơn để bảo trì siêu dữ liệu này, bởi VI số lương
người dùng và sự phong phú của dữ liệu trong kho. Nó đòi hỏi rằng các công cụ
định cư và bảo trì kho dữ liêu phải tạo ra và bảo trì siêu dữ liệu môt cách tự đỏng.

×