Tải bản đầy đủ (.pdf) (107 trang)

Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 107 trang )



1
ĐẠI HỌC QUỐC GIA HÀ NỘI
***



TRẦN THỊ THÚY NGA


XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
VÀ ỨNG DỤNG TRONG KHAI THÁC KHO DỮ LIỆU



LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN



Chuyên ngành:
Mã số: 1 .01 .10




Hướng dẫn khoa học: PGS.TS Đoàn Văn Ban










hµ néi - 2007


- 2 -
MỤC LỤC

LỜI CẢM ƠN 1
MỤC LỤC 2
CÁC THUẬT NGỮ VIẾT TẮT 5
MỞ ĐẦU 6
CHƯƠNG 1. KHO DỮ LIỆU 9
1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE) 9
1.1.1 SỰ RA ĐỜI VÀ PHÁT TRIỂN CÔNG NGHỆ KHO DỮ LIỆU 9
1.1.2 KHO DỮ LIỆU LÀ GÌ? 11
1.1.3 MÔ HÌNH CHUNG CỦA CÔNG NGHỆ KHO DỮ LIỆU 12
1.1.4 ĐẶC TÍNH CỦA DỮ LIỆU TRONG KHO DỮ LIỆU 13
1.1.5 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC
NGHIỆP 14
1.1.6 MỘT SỐ KHÁI NIỆM CƠ BẢN 15
1.1.6.1 KHO DỮ LIỆU CỤC BỘ - DATAMART 15
1.1.6.2 KHO DỮ LIỆU TÁC NGHIỆP, CƠ SỞ DỮ LIỆU THAO TÁC16
1.1.6.3 KHO DỮ LIỆU ẢO 18
1.2 CÁC KIỂU DỮ LIỆU 18
1.2.1 DỮ LIỆU NGHIỆP VỤ 18
1.2.2 DỮ LIỆU NGHIỆP VỤ PHI CẤU TRÚC 19

1.2.3 SIÊU DỮ LIỆU (METADATA ) 19
1.3 KIẾN TRÚC DỮ LIỆU DW 20
1.3.1 KIẾN TRÚC THAM CHIẾU CƠ BẢN VÀ MỘT SỐ NGUYÊN LÝ
HOẠT ĐỘNG CỦA KHO DỮ LIỆU 20
1.3.1.1 KHỐI CÁC NGUỒN DỮ LIỆU 21
1.3.1.2 KHỐI TẠO DỰNG KHO DỮ LIỆU 21
1.3.1.3 KHỐI TẠO DỰNG DATA MART 22
1.3.1.4 KHỐI TRUY NHẬP VÀ SỬ DỤNG 22
1.3.1.5 LỚP QUẢN LÝ DỮ LIỆU 23
1.3.1.6 LỚP QUẢN LÝ SIÊU DỮ LIỆU 23
1.3.1.7 LỚP CHUYỂN TẢI DỮ LIỆU 23
1.3.1.8 LỚP KẾT CẤU HẠ TẦNG 23
1.3.2 KIẾN TRÚC LOGIC CỦA DW 24
1.4 MÔ HÌNH DỮ LIỆU 25
1.4.1 NỀN TẢNG CỦA VIỆC HÌNH THÀNH MÔ HÌNH 25
1.4.2 SƠ ĐỒ HÌNH SAO - STAR SCHEMA 26
1.4.3 SƠ ĐỒ HÌNH TUYẾT RƠI - SNOWFLAKE 28
1.4.4 SƠ ĐỒ KẾT HỢP 29
1.5 KẾT LUẬN CHƯƠNG 1 29
CHƯƠNG 2 31
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 31


- 3 -
2.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 31
2.2 ĐỊNH NGHĨA OLAP 32
2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI 33
2.3.1 TỔNG QUAN 33
2.3.2 ĐỊNH NGHĨA KHỐI 34
2.3.3 LÁT CẮT 34

2.3.4 KHOÁ CỦA KHỐI 35
2.3.5 HIỂN THỊ KHỐI TRÊN MÀN HÌNH MÁY TÍNH 36
2.4 KIẾN TRÚC KHỐI OLAP 38
2.4.1 KHỐI (CUBE) 38
2.4.2 CHIỀU (DIMENSION) 39
2.4.3 CÁC ĐƠN VỊ ĐO LƯỜNG 40
2.4.4 CÁC PHÂN HOẠCH (PARTITIONS) 40
2.5 SỰ PHÂN LOẠI OLAP 40
2.5.1 MOLAP (MULTIDIMENSIONAL OLAP) 40
2.5.2 ROLAP (RELATIONAL OLAP) 43
2.5.3 HOLAP (HYBRID OLAP) 43
2.6 KẾT LUẬN CHƯƠNG 2 46
CHƯƠNG 3 47
PHÂN TÍCH THIẾT KẾ 47
KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 47
3.1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 47
3.1.1 TỔNG QUAN 47
3.1.2 CÁC THÀNH PHẦN CHÍNH CỦA HỆ THỐNG THƯƠNG MẠI
ĐIỆN TỬ 47
3.2. PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU 49
3.2.1 PHƯƠNG PHÁP LUẬN CHUNG 49
3.2.2 PHƯƠNG PHÁP THIẾT KẾ TRUYỀN THỐNG 49
3.2.3 PHÂN TÍCH CÓ CẤU TRÚC 50
3.2.4 PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU 52
3.2.4.1 XÁC ĐỊNH CÁC YÊU CẦU 52
3.2.4.2 GIAI ĐOẠN MÔ TẢ 52
3.2.4.3 GIAI ĐOẠN XÂY DỰNG KHO 52
3.2.4.4 GIAI ĐOẠN NHẬP VÀ QUẢN TRỊ DỮ LIỆU 53
3.3 ĐÔI NÉT VỀ CÔNG CỤ THỰC HIỆN 53
3.3.1 HỆ QUẢN TRỊ CSDL SQL SERVER 53

3.3.2 BỘ CÔNG CỤ MICROSOFT SQL SERVER 54
3.3.3 NGÔN NGỮ TRUY VẤN ĐA CHIỀU MDX 54
3.3.3.1 KHÁI QUÁT CHUNG 54
3.3.3.2 SO SÁNH SỰ KHÁC NHAU GIỮA NGÔN NGỮ SQL VÀ
NGÔN NGỮ MDX 56
3.4 PHÂN TÍCH, THIẾT KẾ KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 57
3.4.1 NHÌN LẠI HỆ THỐNG THIẾT KẾ OLTP 57


- 4 -
3.4.1.1 PHÂN TÍCH DỊCH VỤ MUA BÁN HÀNG HOÁ HỮU HÌNH
VÀ PHI VẬT THỂ 59
3.4.1.2 PHÂN TÍCH DỊCH VỤ MUA BÁN MỘT SỐ DỊCH VỤ DU
LỊCH 61
3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ
62
3.4.2.1 PHÂN TÍCH CÁC CHỨC NĂNG 63
3.4.2.2 PHÂN TÍCH VỀ DỮ LIỆU 65
3.4.2.3 XÁC ĐỊNH CÁC BẢNG SỰ KIỆN (FACT TABLE -FT) VÀ
CÁC BẢNG CHIỀU (DIMENSION TABLE) CỦA KHO DỮ LIỆU 66
3.4.3 THIẾT KẾ HỆ THỐNG 67
3.5 KẾT LUẬN CHƯƠNG 3 72
CHƯƠNG 4 74
XÂY DỰNG KHO DỮ LIỆU TMĐT VÀ 74
GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 74
4.1 TRÍCH CHỌN, XỬ LÝ, NẠP DỮ LIỆU VÀO KHO 74
4.1.1 TỔ CHỨC HỆ THỐNG 74
4.1.2 THU THẬP VÀ TẠO LẬP DỮ LIỆU CHO KHO DỮ LIỆU 75
4.1.2.1 TRÍCH CHỌN, CHUYỂN TẢI VÀ NẠP DỮ LIỆU 75
4.1.2.2 LỌC, TINH CHẾ DỮ LIỆU 75

4.1.2.3 THẨM ĐỊNH VÀ CHUYỂN ĐỔI DỮ LIỆU 76
4.1.2.4 TÍCH HỢP DỮ LIỆU 76
4.1.2.5 TẢI DỮ LIỆU VÀO KHO 76
4.2 XÂY DỰNG CÁC KHỐI VÀ CHIỀU CHO GIẢI PHÁP OLAP 77
4.2.1 TIẾN TRÌNH TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU 77
4.2.2 XÂY DỰNG CÁC KHỐI OLAP 78
4.2.2.1 KHỐI (CUBE) 78
4.2.2.2 CHIỀU (DIMENSION) 80
4.2.2.3 CÁC ĐƠN VỊ ĐO LƯỜNG (MEASURE) 81
4.2.2.4 CÁC PHÂN HOẠCH (PARTITION) 82
4.2.2.5 KHỐI ẢO 82
4.3 PHÂN TÍCH VÀ HIỂN THỊ DỮ LIỆU 82
4.3.1 HIỂN THỊ DỮ LIỆU CỦA KHỐI 82
4.3.2 TRUY VẤN DỮ LIỆU 83
4.4. CÀI ĐẶT MINH HOẠ 83
4.4.1 TẠO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 83
4.4.1.1 TẠO LẬP BẢNG CHIỀU 83
4.4.1.2 TẠO BẢNG SỰ KIỆN 85
4.4.2 TẠO KHỐI 89
4.5 KẾT LUẬN CHƯƠNG 4 102
KẾT LUẬN 104
TÀI LIỆU THAM KHẢO 107


- 5 -

CÁC THUẬT NGỮ VIẾT TẮT

Tên viết tắt
Tên khoa học

Giải nghĩa
BD
Business Data
Dữ liệu nghiệp vụ
BIW
Business Information Warehouse
Kho thông tin tác nghiệp
CNTT

Công nghệ thông tin
DB
Database
Cơ sở dữ liệu
DM
DataMart
Kho dữ liệu cục bộ
DSS
Decision Support System
Hệ hỗ trợ quyết định
DW
DataWarehouse
Kho dữ liệu
EDM
Enterprise Data Model
Mô hình dữ liệu mức xí nghiệp
FT
Fact Table
Bảng thực
HQT


Hệ quản trị
LS
Legacy System
Hệ thống đã có trước
MDX
MultiDimension Express
Biểu thức (truy vấn) đa chiều
NSD
User
Người sử dụng
OAS
Operational Application System
Hệ tác nghiệp
ODS
Operational Database Store
Kho dữ liệu tác nghiệp
OLAP
On-Line Analysis Processing
Xử lý phân tích trực tuyến
OLTP
On-Line Transaction Prcessing
Xử lý giao dịch trực tuyến
OM
Operational Metadata
Siêu dữ liệu tác nghiệp
OS
Operational System
Hệ thống tác nghiệp
SA
Subject Area

Vùng chủ đề
TMĐT

Thương mại điện tử
VDW
Virtual Data Warehouse
Kho dữ liệu ảo


- 6 -
MỞ ĐẦU
1. Đặt vấn đề
Trong thời đại của nền kinh tế tri thức mà chúng ta đang sống, mọi hoạt
động của chúng ta muốn đạt hiệu quả cao thì nhất thiết phải có được thông tin,
tri thức cần thiết một cách nhanh chóng và chính xác. Thông tin có thể có được
ở mọi nơi, mọi thời điểm và từ nhiều dạng khác nhau.
Mục tiêu của các tổ chức, các xí nghiệp là phải phục vụ tốt theo yêu cầu
của khách hàng, giành được ưu thế trong cạnh tranh để phát triển. Để có thể
quản lý được các hoạt động của xí nghiệp, người quản lý không chỉ cần biết cái
gì đang xảy ra mà còn phải biết được lý do tại sao. Trong giai đoạn xử lý dữ liệu
tự động nhờ những kỹ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng
được nhiều ứng dụng để trả lời nhanh các câu hỏi "Những cái gì đã xảy ra?".
Các hệ thống thông tin hiện tại sẽ giúp cho các nhà quản lý hiểu được "tại sao
những điều đó lại xảy ra?" và để giành được lợi thế trong cạnh tranh, đáp ứng
yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán
biết được "Những gì có thể sẽ xảy ra tiếp theo?". Để có thể trả lời những câu hỏi
trên thì cần có các phương pháp, công cụ để tổ chức, xử lý khai thác tốt dữ liệu.
Những mục tiêu trên không dễ gì có được bởi vì dữ liệu ngày một nhiều,
lưu trữ ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng
phi cấu trúc. Người sử dụng thường xuyên gặp phải những khó khăn như:

không tìm thấy hoặc không lấy ra được dữ liệu cần thiết, không thể hiểu và sử
dụng được dữ liệu tìm thấy, tổng hợp dữ liệu rất khó khăn và chậm chạm, mất
nhiều thời gian, v.v
Ngày nay, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh
nghiệp, cung cấp cho chúng ta nhiều phạm trù thông tin phong phú, rất cần thiết
cho các hoạt động. WWW cung cấp đủ các thông tin về mọi lĩnh vực của xã hội
loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo,
du lịch, thương mại điện tử,v.v Tuy nhiên, một vấn đề đặt ra là làm thế nào để
tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó.
Sự phát triển nhanh chóng của Internet không chỉ cung cấp cho chúng ta
một lượng thông tin khổng lồ mà Internet ngày càng gắn liền với nhiều hoạt


- 7 -
động của con người. Rất nhiều hoạt động của chúng ta có thể thực hiện được
một cách thuận tiện và nhanh chóng hơn thông qua Internet. Thương mại điện tử
là một trong những hoạt động điển hình. Việc mua bán, trao đổi hàng hoá và
nhiều dịch vụ khác được thực hiện trên Internet đã đem lại rất nhiều thuận tiện
cho cả người mua và người bán. Hoạt động này đã và đang phát triển trên thế
giới và chắc chắn sẽ phát triển mạnh mẽ tại Việt Nam trong một tương lai không
xa.
Qua thực tế nhận thấy cần phải có một công nghệ cơ sở dữ liệu mới nhằm
giải quyết được những bất cập mà phương pháp truyền thống hiện tại không thoả
mãn được. Công nghệ mới này không chỉ đáp ứng được các nhu cầu của người
dùng mà còn đòi hỏi phải tạo ra một môi trường dùng chung, tích hợp được các
hệ thống CSDL đã có.
Xuất phát từ những đặc điểm chung và tính thời sự nêu trên, tôi đã chọn
đề tài "Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ
liệu" mong được đóng góp một phần nhỏ bé trong việc nghiên cứu giải pháp tích
hợp dữ liệu từ nhiều nguồn khác nhau về lưu trữ trong một kho dữ liệu và sử

dụng công cụ xử lý phân tích trực tuyến OLAP để khai thác thông tin một cách
có hiệu quả và nhanh chóng, trợ giúp các nhà quản lý, các nhà lãnh đạo đưa ra
những quyết định đúng đắn, kịp thời cho các chiến lược phát triển của họ.
2. Mục tiêu của luận văn
Mục tiêu của đề tài là nghiên cứu công nghệ kho dữ liệu và xử lý phân
tích trực tuyến OLAP để khai thác kho nhằm cung cấp thông tin nhanh chóng và
chính xác cho các nhà lãnh đạo và quản lý, bao gồm các vấn đề chính sau đây:
- Nghiên cứu công nghệ kho dữ liệu, giải pháp tích hợp và tận dụng các
nguồn dữ liệu có sẵn để tạo thành kho, các khái niệm cơ bản của kho dữ liệu,
các kiểu dữ liệu, mô hình và kiến trúc kho dữ liệu.
- Nghiên cứu một phương pháp khai thác kho dữ liệu - xử lý phân tích
trực tuyến OLAP, sử dụng mô hình khối dữ liệu đa chiều để xây dựng và lưu trữ
dữ liệu đã được tổng hợp phục vụ cho việc khai thác được nhanh chóng và thuận
tiện.


- 8 -
- Ứng dụng lý thuyết đã nghiên cứu để xây dựng kho dữ liệu thương mại
điện tử và các khối dữ liệu đa chiều để phân tích, xử lý và lưu trữ các dữ liệu
tổng hợp, phục vụ cho việc khai thác thông tin nhanh chóng và hiệu quả.
- Nghiên cứu cách khai thác thông tin trong khối dữ liệu đa chiều bằng
cách tạo lập và thực hiện truy vấn trên khối; hiển thị kết quả phân tích dưới
nhiều hình thức trực quan, sinh động, uyển chuyển nhằm hỗ trợ có hiệu quả cho
công tác quản lý, điều hành của ban lãnh đạo.
3. Bố cục của luận văn
Luận văn gồm 4 chương:
Chƣơng 1: Trình bày khái quát chung về công nghệ kho dữ liệu: các khái
niệm cơ bản, các kiểu dữ liệu, kiến trúc và mô hình kho dữ liệu.
Chƣơng 2: Trình bày một công cụ khai thác kho dữ liệu - xử lý phân tích
trực tuyến OLAP: khái niệm chung về OLAP, mô hình và kiến trúc khối OLAP,

sự phân loại OLAP.
Chƣơng 3: Giới thiệu khái quát hệ thống thương mại điện tử, tìm hiểu
yêu cầu, phân tích, thiết kế kho dữ liệu thương mại điện tử; đưa ra giải pháp và
giới thiệu công cụ để xây dựng và khai thác kho dữ liệu.
Chƣơng 4: Trình bày các bước thực hiện việc xây dựng, cài đặt kho dữ
liệu và tạo dựng khối OLAP nhờ công cụ Enterprise Manager và Analysis
Services được tích hợp trong Microsoft SQL Server 2000; khai thác và hiển thị
dữ liệu của khối bằng MDX và OLAPBrowserPro.



- 9 -
CHƢƠNG 1. KHO DỮ LIỆU

1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE)
1.1.1 Sự ra đời và phát triển công nghệ kho dữ liệu
Ngày nay thông tin đóng vai trò rất quan trọng trong môi trường nghiệp
vụ, sự thành công hay thất bại của nghiệp vụ liên quan đến việc có thể sử dụng
hiệu quả thông tin được hay không. Sự thay đổi nhanh chóng trong môi trường
hoạt động nghiệp vụ đòi hỏi phải truy cập được ngay thông tin cần thiết.
Rất ít tổ chức có đủ lượng thông tin cần thiết, thậm chí vẫn thiếu những
thông tin cơ bản nhất, mặc dù họ đang “chìm ngập trong dữ liệu”. Vấn đề đặt ra
là làm thế nào để có được những thông tin cần thiết từ các dữ liệu đó? Trước hết,
chúng ta cần phân biệt được điểm khác biệt cơ bản giữa dữ liệu và thông tin. Dữ
liệu bao gồm các sự kiện, văn bản đồ hoạ, âm thanh, đoạn phim có một giá trị
nào đó đối với người sử dụng chúng và được lưu trữ xử lý trong máy tính.
Thông tin là dữ liệu đã được xử lý theo cách mà chúng ta có thể làm tăng hàm
lượng tri thức cho người sử dụng nó [5].
Do các doanh nghiệp tự chuyển đổi để có thể cạnh tranh trong môi trường
biến đổi liên tục, thế giới thông tin trong con mắt những nhà quản lý và lãnh đạo

cũng thay đổi theo. Trong thế giới thực, các ranh giới luôn biến đổi, bị xoá bỏ
và xây dựng lại. Trước kia mục tiêu chính là phân lớp, cấu trúc thì ngày nay là
tính năng động, chuyển đổi.
Cùng với sự phát triển của công nghệ thông tin, các hệ thống tác nghiệp
ngày càng phát triển cả về chất lượng và số lượng, hỗ trợ đắc lực trong công tác
quản lý và điều hành trên từng lĩnh vực khác nhau. Mỗi hệ thống được xây dựng
độc lập trên một lĩnh vực, phục vụ một mục đích nào đó của người sử dụng.
Trong các hệ thống đó, đa phần cơ sở dữ liệu (CSDL) được lưu trữ dưới dạng
mô hình CSDL quan hệ và dữ liệu không được lưu trữ dưới dạng tổng hợp.
Một thực tế đặt ra và cũng là một bức xúc của người lãnh đạo là khi lượng
thông tin lưu trữ ngày càng lớn nhưng sự phát triển lại theo những chủ đề,
những lĩnh vực rất khác nhau nên gây ra nhiều khó khăn trong công tác phân
tích, tổng hợp số liệu hỗ trợ kịp thời trong công tác quản lý và điều hành. Thông


- 10 -
tin quản lý cung cấp đến lãnh đạo từ nhiều nguồn khác nhau, có khi cùng một
chỉ tiêu qua mỗi bộ phận xử lý lại cho những kết quả hoàn toàn trái ngược nhau
gây khó khăn cho các nhà lãnh đạo trong việc đưa ra các quyết định một cách
kịp thời.
Dữ liệu lưu trữ trong các CSDL thường theo hạn định nên thường không
có tính lịch sử, gây ra nhiều khó khăn trong việc đối chiếu, so sánh số liệu, từ đó
đưa ra các đánh giá đúng sự phát triển và kịp thời để có những điều chỉnh hoặc
bổ sung kế hoạch.
Như vậy, vấn đề đặt ra đòi hỏi phải có một mô hình dữ liệu nào đó cho
phép lưu trữ dữ liệu lớn có tính lịch sử và theo thời gian; đồng thời, cung cấp
phương pháp truy nhập nhanh, phân tích dữ liệu theo nhiều chiều khác nhau sẵn
sàng đáp ứng những câu hỏi theo bất kỳ tình huống nào của người lãnh đạo.
Việc xây dựng lại từ đầu một ứng dụng để đáp ứng được yêu cầu trên là
không đơn giản và khó chấp nhận vì dữ liệu hiện tại đã có và đang trợ giúp hoạt

động quản lý trên nhiều lĩnh vực vì vậy cần có một công nghệ nào đó ra đời đáp
ứng được yêu cầu trên đồng thời sử dụng lại được số liệu của các CSDL sẵn có
để kết hợp lại thành một kho dữ liệu mang tính chiến lược, trở thành tài sản quý
báu của doanh nghiệp. Ngoài ra, khi lượng dữ liệu tăng lên thì việc tìm kiếm, tra
cứu, tổng hợp dữ liệu sẽ gặp rất nhiều khó khăn và mất nhiều thời gian nên
cũng đòi hỏi một giảp pháp cho phép tính toán trước số liệu sẵn có.
Trước yêu cầu thực tế đặt ra, công nghệ kho dữ liệu (DataWarehouse-
DW) ra đời đáp ứng và thoả mãn những yêu cầu trên, trợ giúp đắc lực cho các
nhà quản lý, lãnh đạo khi đứng trước những bài toán mang tính chiến lược.
Như vậy, kho dữ liệu nảy sinh từ hai vấn đề [3]:
- Nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn xí nghiệp.
- Sự cần thiết có hệ thống thông tin để quản lý hiệu quả dữ liệu của các tổ chức.
Hai điều này tuy không liên quan đến nhau nhưng kết hợp lại sẽ tạo ra
những quan điểm và giải pháp mới. Nếu xác định được các nhu cầu của hệ thống
thông tin để quản lý dữ liệu thì nhu cầu nghiệp vụ về cách nhìn thông tin trên
quy mô toàn xí nghiệp sẽ dễ dàng đạt được. Tương tự, nhu cầu thứ nhất cũng
như những lợi ích nghiệp vụ mà nó đem lại sẽ là những biện hộ cần thiết cho


- 11 -
việc giải quyết vấn đề quản lý dữ liệu. Chính sự kết hợp này làm cho khái niệm
kho dữ liệu phát triển.
Đôi nét về quá trình phát triển công nghệ kho dữ liệu [3]:
- Cuối những năm 80, kho dữ liệu bắt đầu xuất hiện.
- Năm 1988, có một bài báo đầu tiên mô tả cấu trúc kho dữ liệu. Bài báo
này mô tả những công việc đã thực hiện để thiết kế kho dữ liệu phục vụ
chi nhánh IBM tại châu Âu.
- Đầu thập niên 90, cuộc cách mạng về xử lý dữ liệu không chỉ là phổ cập
kho dữ liệu mà còn tạo điều kiện để mở rộng khái niệm kho dữ liệu ra
ngoài những kiểu dữ liệu truyền thống, bắt đầu kết hợp tất cả các khía

cạnh về cách thức người dùng thực thi nhiệm vụ của mình.
-Thế kỷ 21 - kỷ nguyên của quản lý dựa trên thông tin.
Ngày nay, chúng ta chờ đợi và dự đoán tương lai dựa trên những phác
thảo quá khứ. Điểm mấu chốt của sự dự đoán này là nhu cầu tăng lợi thế cạnh
tranh đã khiến nền tảng hỗ trợ việc ra quyết định chuyển từ dữ liệu sang thông
tin. Định hướng này có thể được mô tả bởi thuật ngữ quản lý dựa trên thông tin
(information-based management).
1.1.2 Kho dữ liệu là gì?
Có thể gói gọn ngành tin học trong ba từ là lưu trữ, xử lý và khai thác
thông tin. Về mặt lưu trữ, các hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt. Tuy
nhiên, khi lượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt
trong những ngành như ngân hàng, tài chính, đã làm nảy sinh khái niệm
DataWarehouse hay kho dữ liệu.
Kho dữ liệu là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế
để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên
quan tới một khoảng thời gian cụ thể [1].
Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng trăm
GB hay thậm chí hàng Terabyte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ
và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới
nghiệp vụ hệ thống.


- 12 -
Mục tiêu chính của kho dữ liệu là giải quyết những vấn đề cơ bản sau:
1. Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau.
2. Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và
tinh lọc dữ liệu theo những hướng chủ đề nhất định.
3. Tổng hợp và kết nối dữ liệu.
4. Đồng bộ hoá các nguồn dữ liệu với DW.
5. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như

là các công cụ chuẩn để phục vụ cho DW.
6. Quản lý những siêu dữ liệu.
7. Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, được
tổ chức theo các chủ đề.
8. Dùng trong các hệ thống hỗ trợ quyết định (DSS), các hệ thống
thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt.
1.1.3 Mô hình chung của công nghệ kho dữ liệu
Có thể khái quát mô hình chung của công nghệ kho dữ liệu được chia làm
3 khối sau [2]:
1. Khối thiết kế CSDL kho dữ liệu: Làm nhiệm vụ thu thập các yêu cầu
của người sử dụng, xây dựng mô hình khái niệm, mô hình logic và mô hình vật
lý cho kho dữ liệu.
2. Khối thiết kế kiến trúc kho dữ liệu, được chia thành 3 phần:
- Kiến trúc tải dữ liệu: Có nhiệm vụ thu thập dữ liệu từ các nguồn dữ
liệu khác nhau, chuyển đổi, làm sạch và nạp vào CSDL dự trữ trước
khi đưa sang CSDL kho dữ liệu.
- Kiến trúc dữ liệu: làm nhiệm vụ lưu trữ các dạng dữ liệu trong kho dữ
liệu.
- Kiến trúc truy cập: Cung cấp cho các đối tượng sử dụng thông qua các
công cụ phân tích, khai phá dữ liệu.
3. Khối vận hành và quản trị kho dữ liệu: Khối này làm nhiệm vụ: quản
lý về an toàn, bảo mật và độ ưu tiên; quản lý sự cập nhật dữ liệu từ các


- 13 -
nguồn khác nhau; kiểm tra chất lượng dữ liệu; tái tạo dữ liệu; chia nhỏ và
phân tán dữ liệu; lưu trữ các bản sao và phục hồi dữ liệu.
1.1.4 Đặc tính của dữ liệu trong kho dữ liệu
1. Tính tích hợp
Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các

khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó. Tính
tích hợp trong DW được chia theo nhiều cách phù hợp với quy ước về tên gọi,
số đo, cấu trúc mã hoá và những thuộc tính vật lý của dữ liệu Các tên gọi, biến,
thuộc tính có thể được mô tả khác nhau trong các ứng dụng, song chúng sẽ
được tích hợp lại trong kho dữ liệu ở dạng chung nhất.
Như vậy, tính tích hợp trong kho thể hiện ở chỗ: dữ liệu tập hợp trong kho
dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể
thống nhất.
2. Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ
chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của
mình. Do đó, cách tổ chức của kho dữ liệu dựa vào dữ liệu là chính. DW không
lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ
chủ yếu cho quá trình phân tích để trợ giúp quyết định.
3. Dữ liệu có tính lịch sử
Dữ liệu trong hệ thống tác nghiệp cần phải chính xác ở chính thời điểm
truy cập, còn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó. Dữ liệu
của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành
dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những
dữ liệu hợp lý về những chủ điểm cần lưu trữ.
4. Dữ liệu gắn thời gian
Một kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Các dữ liệu
này chỉ cần chính xác trong khoảng thời gian nào đó, không yêu cầu phải chính
xác tại thời điểm truy nhập. Dữ liệu trong kho dữ liệu khi đã chính xác thì được
ghi lưu lại, không cho phép cập nhật và nó được sử dụng như bức ảnh chụp. Do


- 14 -
vậy, nó cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai
đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo

đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu.
5. Dữ liệu có tính ổn định
Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể được kiểm tra,
không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai
thao tác cơ bản là nạp dữ liệu vào kho và truy cập vào các vùng trong kho dữ
liệu (Load and Access ).
6. Dữ liệu không biến động
Tính không biến động thể hiện ở chỗ dữ liệu được lưu trữ lâu dài trong
kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho
vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian
dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo,
từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự
nhiên.
7. Dữ liệu tổng hợp
Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong kho dữ liệu. Kho
dữ liệu chỉ lưu những dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác
nhau theo các chủ điểm.
Tóm lại, dữ liệu được lọc ra từ nhiều môi trường tác nghiệp, được xây
dựng tổ chức thành kho dữ liệu. Đó là những dữ liệu cần thiết cho việc xử lý để
có được những thông tin đầy đủ và chính xác cho các nhà quản lý, các tổ chức xí
nghiệp hoạt động có hiệu quả và phát triển được trong môi trường cạnh tranh.
1.1.5 Phân biệt DW với những hệ cơ sở dữ liệu tác nghiệp
Dựa trên những đặc trưng của DW, ta nhận thấy thực ra nét khác biệt của
DW so với CSDL chỉ là ở quan niệm, cách nhìn vấn đề [7]:
- Trước tiên DW là CSDL rất lớn. DW về bản chất cũng là một CSDL bình
thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các CSDL
thông thường tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn.
- CSDL hướng về xử lý thời gian thực, DW hướng về tính ổn định.



- 15 -
- CSDL phục vụ xử lý giao dịch, cập nhật. DW thường chỉ đọc, phục vụ cho
những nhu cầu báo cáo, ra quyết định.
- DW lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQL
server thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu
trúc của nó - đó là VLDB (Very Large Database). Dữ liệu từ CSDL tác
nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi trường kho dữ liệu.
Rất nhiều dữ liệu khác không được chuyển về kho dữ liệu, chỉ những dữ liệu
cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển sang
kho dữ liệu.
- Kho dữ liệu phải được xác định theo hướng chủ đề. Nó được thực hiện
theo ý đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp
dùng để phục vụ các mục đích áp dụng chung. Kho dữ liệu rất lớn nên muốn
cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác
thông tin dễ dàng thì bản thân kho dữ liệu phải được chuyên hoá, phân ra
thành những chủ đề. Những chủ đề chuyên môn hóa đó tạo thành một CSDL
chuyên biệt - đó là Data Mart (DM).
- Một điểm quan trọng là CSDL thường được chuẩn hóa để tiện cho việc
khai thác. DW thì lại phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo
giản đồ hình sao trong DM, nghĩa là kho dữ liệu sẽ trùng lặp thông tin. Điều
này là hiển nhiên vì mục đích của chuẩn hoá nhằm tránh sự trùng lặp dữ
liệu, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa. Trong khi đó,
DW là CSDL rất lớn phục vụ chủ yếu cho báo cáo truy vấn chỉ đọc nên việc
trùng lặp thông tin sẽ giúp tìm kiếm nhanh hơn.
1.1.6 Một số khái niệm cơ bản
1.1.6.1 Kho dữ liệu cục bộ - Datamart
Kho dữ liệu cục bộ (DataMart -DM) là CSDL có những đặc điểm giống
với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực,
một chuyên ngành. DM là kho dữ liệu hướng chủ đề. Các DM có thể được hình
thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng

độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với
nhau tạo thành kho dữ liệu. Vì vậy, có thể xây dựng kho dữ liệu bắt đầu bằng


- 16 -
việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra
các DM.
DM hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề
(Subject Area -SA) được tạo ra và dành cho một nhóm người sử dụng. Dữ liệu
trong DM cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt
động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường xuyên nhất của
DM là một kho dữ liệu riêng rẽ theo phương diện vật lý, thường được lưu trữ
trên một Server riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất
định.
Có thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc.
 DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ
liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ
một chủ đề nhất định của DM.
 DM độc lập: không giống như DM phụ thuộc, DM loại này được xây
dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn khác nhau.
Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm
yếu. Mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều DM khó
đồng nhất với nhau.
1.1.6.2 Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác
Kho dữ liệu tác nghiệp (Operational Database Store- ODS) là hệ thống tác
nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp quyết
định và phân tích trên dữ liệu giao dịch tác nghiệp. Nói một cách khác, kho dữ
liệu tác nghiệp là một khái niệm có kiến trúc để hỗ trợ cho việc tạo quyết định
tác nghiệp hàng ngày lưu trữ những dữ liệu có giá trị hiện thời được chuyển đến
từ các ứng dụng tác nghiệp. Điều đó khiến cho dữ liệu lưu trữ trong kho dữ liệu

tác nghiệp biến động thường xuyên khi những dữ liệu liên quan trong các hệ
thống tác nghiệp có sự thay đổi. Kho dữ liệu tác nghiệp cung cấp một sự lựa
chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một
cách trực tiếp từ các hệ thống xử lý các giao dịch trực tuyến.
Kho dữ liệu tác nghiệp cần phải được xây dựng riêng biệt và là một phần
của kho dữ liệu.

ODS
A

B
DW
DSS
EIS


- 17 -






Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và
các cấu trúc dữ liệu được lưu trữ. Kho dữ liệu tác nghiệp chứa những dữ liệu có
giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn kho dữ liệu chứa những dữ
liệu lịch sử, có giá trị trong một quá khứ gần. Kho dữ liệu tác nghiệp có thể cập
nhật còn kho dữ liệu không cập nhật được [1].
Một sự khác nhau nữa là công nghệ hỗ trợ cho hai hệ thống đó. Kho dữ
liệu tác nghiệp đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi

được những dữ liệu cần thiết để cho phù hợp với nghiệp vụ và nhanh chóng trả
lời được các yêu cầu của người sử dụng, kho dữ liệu thì ngược lại, chỉ yêu cầu
đơn giản là nạp và truy cập.
Về mặt chức năng, kho dữ liệu tác nghiệp cung cấp một khung nhìn tập
trung về dữ liệu gần với thời gian thực từ các hệ thống tác nghiệp.
Trong mối quan hệ với kho dữ liệu, kho dữ liệu tác nghiệp có thể được sử
dụng như kho dữ liệu dùng cho việc tập hợp dữ liệu từ các nguồn khác nhau.
Ngược lại, kho dữ liệu tác nghiệp không hoạt động như là một kho dữ liệu trung
gian cho kho dữ liệu, đặc biệt trong trường hợp kho dữ liệu cần dữ liệu từ những
nguồn bên ngoài, không nằm trong kho dữ liệu tác nghiệp. Trong trường hợp đó,
kho dữ liệu có thể lấy dữ liệu một cách riêng rẽ từ kho dữ liệu tác nghiệp hoặc
một nguồn dữ liệu bên ngoài được thêm vào thành phần tinh chế dữ liệu của kho
dữ liệu.
Như vậy kho dữ liệu tác nghiệp là hệ thống:
 Hướng theo chủ đề.
 Tích hợp.
Hình 1.1 Sự phân cách giữa ODS với DW


- 18 -
 Có thể thay đổi được, có thể cập nhật.
 Tuyển tập các dữ liệu hiện tại hoặc gần với hiện tại hỗ trợ cho
những quyết định tác nghiệp hàng ngày.
Do đó có thể nói kho dữ liệu tác nghiệp khác chủ yếu với kho dữ liệu ở
hai điểm cuối. Dữ liệu từ nhiều ứng dụng hiện tại cần được chuyển đổi để lưu
vào kho dữ liệu tác nghiệp.
1.1.6.3 Kho dữ liệu ảo
Khi xây dựng và khai thác DW, người ta còn hay sử dụng khái niệm kho
dữ liệu ảo (Virtual Data Warehouse - VDW) như là một cách để cài đặt nhanh
chóng DW mà không cần sao chép lại nhiều bộ dữ liệu.

VDW là một kho dữ liệu logic mà ở đó NSD được quyền truy nhập trực
tiếp vào nhiều nguồn dữ liệu thao tác khác nhau thông qua những công cụ trung
gian.
VDW được sử dụng để nâng cấp khả năng của mạng đối với mọi công cụ
của NSD, ở mọi nơi trên mạng đều có thể truy cập vào các dữ liệu thời gian thực
và các dữ liệu dẫn xuất cần thiết.
1.2 CÁC KIỂU DỮ LIỆU
1.2.1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business Data – BD) là dữ liệu dùng để vận hành và
quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của
doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa
điểm, sản phẩm,v.v Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác
cũng như các hệ thống hỗ trợ quyết định (DSS).
Dựa trên dữ liệu có cấu trúc, dữ liệu nghiệp vụ được chia làm 3 loại sau:
 Dữ liệu thời gian thực (real- time data): Dữ liệu chi tiết, tức thời, dùng
để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua
các giao dịch đã được xác định trước.
Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các
ứng dụng thao tác hay sản xuất. Chúng có thể tổ chức thành các files hay
CSDL.


- 19 -
 Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm hoặc
dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận
được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc
nghiệp vụ.
 Dữ liệu tƣơng hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là
một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế
nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này

thực hiện dựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo
ra các dữ liệu lịch sử.
1.2.2 Dữ liệu nghiệp vụ phi cấu trúc
Ngược lại với dữ liệu có cấu trúc, dữ liệu phi cấu trúc là những dữ liệu
không thuần nhất, ví dụ hình ảnh, âm thanh hay đoạn phim. Tầm quan trọng của
dữ liệu phi cấu trúc ngày càng tăng lên trong công việc nghiệp vụ cũng như
trong các hệ thống thông tin.
Dữ liệu phi cấu trúc có kích thước lớn, khó thao tác và không được hỗ trợ tốt
trong các cơ sở dữ liệu và các công cụ khác. Tuy vậy, một kho chứa thông
thường không thể không có dữ liệu loại này, nhưng nó chỉ được đưa vào kho sau
khi đã hoàn thành việc đưa dữ liệu có cấu trúc vào kho.
1.2.3 Siêu dữ liệu (Metadata )
Metadata (hay gọi là siêu dữ liệu) là dữ liệu về dữ liệu được sử dụng trong
kho dữ liệu trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu.
Nó được sử dụng cho việc xây dựng, duy trì, quản lý và sử dụng kho dữ liệu.
Metadata được chia thành 3 loại: siêu dữ liệu nghiệp vụ, siêu dữ liệu kĩ
thuật và siêu dữ liệu tác nghiệp.
1. Siêu dữ liệu nghiệp vụ (Business Metadata): chứa đựng những thông
tin giúp cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin
được lưu trữ trong kho dữ liệu. Nó chứa đựng những thông tin cho tất cả
những người sử dụng đầu cuối.


- 20 -
2. Siêu dữ liệu kỹ thuật (Technical Metadata): chứa đựng những thông
tin về dữ liệu trong kho dữ liệu của những người thiết kế và quản trị khi
tiến hành công việc phát triển và quản lý.
3. Siêu dữ liệu tác nghiệp (Operational Metadata - OM)
 Siêu dữ liệu tác nghiệp giúp cho việc duy trì và triển khai kho dữ
liệu và mô tả thông tin chứa đựng trong các bảng đích.

 Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích (tạo ra bảng và
thông tin dưới dạng liệt kê), thông tin được lưu trữ hay trực tuyến, ngày
làm tươi mới dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc
và những người sử dụng có khả năng truy nhập vào dữ liệu.
Metadata cung cấp cho người sử dụng sự truy nhập tương tác để giúp cho
họ có thể hiểu được nội dung và tìm thấy được dữ liệu cần thiết. Tất cả các
thành phần của kho dữ liệu đều cần và có thể lấy dữ liệu từ Metadata. Metadata
được lưu trữ ở khu vực trung tâm.
1.3 KIẾN TRÚC DỮ LIỆU DW
1.3.1 Kiến trúc tham chiếu cơ bản và một số nguyên lý hoạt động của kho
dữ liệu
Kiến trúc của kho dữ liệu dưới đây mô tả các thành phần của kho:










LỚP QUẢN LÝ DỮ LIỆU
KHỐI
CÁC
NGUỒN
DỮ
LIỆU
KHỐI
TẠO

DỰNG
KHO
DỮ
LIỆU
KHỐI
TẠO
DỰNG
DATA
MART
KHỐI
TRUY
NHẬP
VÀ SỬ
DỤNG
LỚP QUẢN LÝ SIÊU DỮ LIỆU
LỚP CHUYỂN TẢI DỮ LIỆU
LỚP KẾT CẤU HẠ TẦNG


- 21 -

Hình 1.2 Kiến trúc thành phần kho dữ liệu
1.3.1.1 Khối các nguồn dữ liệu
Khối này bao gồm các phần sau:
 Dữ liệu sản phẩm: Đó là dữ liệu được chắt lọc từ các phần mềm ứng
dụng và các hệ CSDL tác nghiệp đủ loại.
 Dữ liệu kế thừa: Về cơ bản loại dữ liệu này có tính lịch sử. Chúng
phục vụ cho quá trình phân tích dữ liệu.
 Các hệ thống dữ liệu bên trong.
 Các hệ thống dữ liệu bên ngoài.

 Hệ quản lý siêu dữ liệu cho khối này.
1.3.1.2 Khối tạo dựng kho dữ liệu
Khối này bao gồm các khối con [2]:
1. Khối con tinh chế:
Liên quan đến việc nâng cao chất lượng của dữ liệu, có các chức năng
chính sau: Chuẩn hoá, làm sạch, sàng lọc, tương hợp dữ liệu, phân định thời
gian cho các thông tin nguồn.
2. Khối con gia công lại: Có các chức năng chính sau:
 Tích hợp các dữ liệu khác từ các hệ thống để tạo ra dữ liệu mới.
 Phân dữ liệu thành ra các loại cho dễ xử lý.
 Tính toán sơ bộ, tổng hợp và kết xuất dữ liệu
 Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau
 Biến đổi và gia công lại dữ liệu
3. Khối con Data Warehouse: Bao gồm các chức năng chính sau:
 Mô hình hoá, tổng hợp và kết nối mức độ cao các dữ liệu.
 Tăng chất lượng giá trị của dữ liệu.
 Tạo ra sự dung hoà các loại dữ liệu trong DW.


- 22 -
 Mô tả các loại cơ sở dữ liệu.
 Xây dựng các từ điển thuật ngữ tác nghiệp,
Về cơ bản các dữ liệu được xử lý ở đây được lấy trực tiếp từ khối các
nguồn dữ liệu.
1.3.1.3 Khối tạo dựng Data Mart
Khối này dùng để tạo ra DM từ các nội dung của kho dữ liệu. Cũng giống
như khối tạo dựng DW, trong khối này cũng có những chức năng như khối trên
nhưng thường ở mức cao hơn và có hướng chủ đề rõ ràng. Các chức năng chính
có trong khối này là:
 Tinh chế và gia công lại như khối tạo dựng DW.

 Sàng lọc các dữ liệu đã chắt lọc từ khối tạo dựng DW.
 Tích hợp các dữ liệu vào các lĩnh vực có chủ đề cụ thể.
 Tạo ra các dữ liệu tổng hợp
 Kiến tạo các kho dữ liệu chuyên dùng.
1.3.1.4 Khối truy nhập và sử dụng
Khối này bao gồm hai khối con chính là khối con truy nhập và khối con
phân tích và tạo báo cáo.
Khối con truy nhập có những chức năng chính sau:
 Truy nhập trực tiếp vào khối tạo dựng DW.
 Truy nhập vào các Data Mart.
 Gia công lại và biến đổi dữ liệu thành các loại dữ liệu có cấu trúc
phức tạp hơn.
Khối con phân tích và tạo báo cáo có các chức năng chính sau:
 Tạo ra các công cụ chuẩn để tạo báo cáo, phân tích, mô hình hoá tác
nghiệp.
 Tạo ra các phần mềm trợ giúp ra quyết định, các phần mềm khai thác
dữ liệu.
Cả hai khối con này đều có cơ chế quản lý siêu dữ liệu của chúng.


- 23 -
1.3.1.5 Lớp quản lý dữ liệu
Kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ
quản trị cơ sở dữ liệu tác nghiệp thông thường, việc quản lý dữ liệu đóng một
vai trò rất quan trọng, nhất là phải quản lý một khối lượng rất lớn các dữ liệu
lịch sử và hiện tại, mà các dữ liệu này bao gồm nhiều kiểu loại khác nhau rất
phong phú và đa dạng được lưu trữ trong nhiều loại hình mang thông tin. Các
chức năng chính của lớp quản lý dữ liệu là:
 Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho
việc tinh chế và gia công lại dữ liệu trong kho dữ liệu.

 Giám sát và đáp ứng các yêu cầu cho các dữ liệu mới rút từ các
nguồn dữ liệu khác nhau.
 Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại
hoặc cập nhật và làm sạch dữ liệu.
Như vậy có thể thấy lớp quản lý dữ liệu có những chức năng quản lý mới
khác với các chức năng của hệ quản trị cơ sở dữ liệu thông thường.
1.3.1.6 Lớp quản lý siêu dữ liệu
Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ở khắp nơi.
Các nguồn dữ liệu được đặc trưng bởi định nghĩa của các dữ liệu nhập vào. Việc
bổ sung các nhãn thời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng
trong siêu dữ liệu. Lớp quản lý siêu dữ liệu cũng quản lý các dữ liệu mô tả đầy
đủ và hoàn chỉnh các dữ liệu được lưu trữ trong DW.
1.3.1.7 Lớp chuyển tải dữ liệu
Nhiệm vụ chuyển tải dữ liệu giữa các khối do lớp này thực hiện. Lớp này
thực hiện nạp, sao chép, chuyển tải dữ liệu và sử dụng các hệ thống mạng, các
phần mềm lớp trung gian. Nó bảo đảm tính an toàn và phân quyền cho các nhu
cầu chuyển tải dữ liệu.
Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang
thiết bị phần cứng và phần mềm của DW.
1.3.1.8 Lớp kết cấu hạ tầng
Lớp này bao gồm các chức năng chính sau:


- 24 -
 Quản lý các hệ thống: tìm kiếm, quản lý và xác định các phần mềm
chuẩn và các phần mềm ứng dụng .
 Trợ giúp cho quá trình tích hợp và các hoạt động khác để sao chép,
cập nhật, kết nối, tổng hợp dữ liệu.
 Thực hiện công việc lưu trữ.
 Hệ thống xử lý: tạo ra các môi trường làm việc cho các khối chính.

1.3.2 Kiến trúc logic của DW
Như trên đã phân tích, dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời
gian thực, dữ liệu tương hợp và dữ liệu dẫn xuất. Mỗi loại dữ liệu này có thể ở
các tầng khác nhau và mỗi tầng có cấu trúc vật lý riêng. Kiến trúc dữ liệu logic
cho DW có thể xây dựng như sau [1]:













Hình 1.3 Kiến trúc ba tầng của DW
 Hệ thống tác nghiệp (Operational System - OS)
Hệ thống tác nghiệp

Dữ liệu dẫn
xuất

Dữ liệu tƣơng
hợp

Dữ liệu thời
gian thực







Kho thông tin nghiệp vụ
Kho dữ liệu
=
=
=





Kho dữ liệu nghiệp vụ


- 25 -
Là chương trình ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được
lưu ở hệ thống tệp hay CSDL.
Hệ thống thao tác bao gồm các nguồn dữ liệu của DW, dữ liệu được tạo
ra trong các hệ thống xử lý giao tác hàng ngày của xí nghiệp.
 Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)
Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu tổng hợp
được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD
đầu cuối.
BDW rất ít khi được NSD khai thác trực tiếp. Nó là nguồn cung cấp dữ liệu
cho kho dữ liệu thông tin tác nghiệp.

 Kho thông tin tác nghiệp (Business Information Warehouse - BIW)
Đây là hệ thống thông tin được sử dụng để làm báo cáo, phân tích, hay dự
đoán về nghiệp vụ. Nó bao gồm những thông tin quản lý, trợ giúp quyết định và
các hệ thống thông tin thực thi như các hệ thống phân tích thị trường, các
chương trình ứng dụng khai thác thông tin.
1.4 MÔ HÌNH DỮ LIỆU
1.4.1 Nền tảng của việc hình thành mô hình
Mô hình DW được phát sinh từ một mô hình dữ liệu tổng thể (mô hình dữ
liệu mức xí nghiệp) (Enterprise Data Model - EDM). EDM được tổ chức thành
các vùng theo chủ điểm SA. SA là phần chính của sự chia nhỏ các công việc cần
được quan tâm nhằm đáp ứng nhu cầu người sử dụng tốt hơn. Nếu một tổ chức
không có sẵn EDM thích hợp, EDM cũ được phép dùng tiếp và bổ sung các SA
mới [1].
Để bắt đầu việc thiết lập mô hình, cần quan tâm tới khung nhìn hiện tại và
trong tương lai sắp tới, nghĩa là mô tả và hiểu dữ liệu được chứa trong những hệ
thống kế thừa.
Mô hình dữ liệu DW có tính chủ đề, phụ thuộc vào công việc nghiệp vụ
và các vấn đề nảy sinh. Nó có thể được thiết lập theo:
 Sơ đồ hình sao (Star Schema)

×