Tải bản đầy đủ (.pdf) (81 trang)

Ứng dụng công nghệ kho dữ liệu trong công tác quản lý nguồn vốn tại ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.21 MB, 81 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
––––––––––oOo––––––––––





TẠ LIÊN DUNG




ĐỀ TÀI
ỨNG DỤNG CÔNG NGHỆ KHO DỮ LIỆU
TRONG CÔNG TÁC QUẢN LÝ NGUỒN VỐN
TẠI NGÂN HÀNG


Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10





LUẬN VĂN THẠC SĨ



Người hướng dẫn khoa học:


PGS.TS Nguyễn Đình Hoá





HÀ NỘI 2007

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
2
MỤC LỤC
LỜI CÁM ƠN 5
CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU 6
I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU 6
1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP) 6
2. Hệ thống Kho dữ liệu 9
3. Chợ dữ liệu (Data Mart) 12
4. Kiến trúc của một Kho dữ liệu 13
II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU 14
1. Rút trích dữ liệu (ETL – Extract Transformation Loading) 15
a. Trích dữ liệu - Extract 16
b. Chuyển đổi dữ liệu - Transform 16
c. Nạp dữ liệu (Load) 17
d. Làm mới dữ liệu 18
2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP 20
a. Dạng nhiều chiều (Multidimensional) - MOLAP 21
b. Dạng quan hệ (relational) - ROLAP 21
c. Dạng lai (Hybird) - HOLAP 21
3. Phân phối dữ liệu lƣu trữ (báo cáo) tới ngƣời sử dụng. 22

4. Mô hình khái niệm và các công cụ đầu cuối 23
a. Mô hình khái niệm 23
b. Các công cụ đầu cuối 24
5. Các phƣơng pháp thiết kế cơ sở dữ liệu 26
CHƢƠNG 2. CẤU TRÚC CỦA KHO DỮ LIỆU TẠI BIDV 29
I. HỆ ĐIỀU HÀNH VÀ CƠ SỞ DỮ LIỆU NGUỒN: 29
1. Dữ liệu tập trung: 29
2. Giao dịch online: 30
3. Batchrun offline 30
II. HỆ THỐNG KHO DỮ LIỆU 31
1. Mô hình kho dữ liệu của BIDV 31
2. Cách thức hoạt động của kho dữ liệu tại BIDV 33
III. CÁC VẤN ĐỀ ĐANG TỒN TẠI CỦA KHO DỮ LIỆU TẠI BIDV 35
1. Rút trích dữ liệu (ETL). 35
2. Kho dữ liệu OLAP 36
3. Các vấn đề về phân phối báo cáo tới ngƣời sử dụng cuối. 36
1. Mô hình ngân hàng 37
2. Hệ thống thông tin tại Hội sở chính của BIDV 38
3. Sự cần thiết của kho dữ liệu trong ngân hàng. 39
CHƢƠNG 3. YÊU CẦU CHUNG CỦA HỆ THỐNG CHUYỂN VỐN NỘI BỘ 40
I. YÊU CẦU CHUNG 40
II. GIẢI THÍCH MỘT SỐ TỪ NGỮ ĐƢỢC SỬ DỤNG TRONG TÀI
LIỆU 41
III. CÁC YÊU CẦU CỤ THỂ: 42

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
3
1. Kỳ hạn chuyển vốn 42
2. Giá chuyển vốn: 43

3. Đồng tiền giao dịch: 44
4. Thu nhập: 44
5. Đánh giá hiệu quả của đơn vị kinh doanh: 45
6. Điều chỉnh chi phí: 47
7. Điều chỉnh thu nhập 49
CHƢƠNG 4. PHÂN TÍCH THIẾT KẾ HỆ THỐNG CHUYỂN VỐN NỘI BỘ 51
I. SƠ ĐỒ LUỒNG DỮ LIỆU 51
II. MÔ TẢ HOẠT ĐỘNG CỦA HỆ THỐNG 53
III. MÔ TẢ CÁC BẢNG DỮ LIỆU THỰC THỂ CỦA CƠ SỞ DỮ LIỆU
SQL - KHO DỮ LIỆU 54
1. Atmftpday 54
2. Atmftpday_R 55
3. Amtftpmonth 56
4. Contract_ftp 57
5. Cdmast_FTP 57
6. DDmast_Ftp 58
7. Glmast_ftp 59
8. Lnmast_ftp 59
9. kiemtralechPH_GL 60
10. Thunhapftp 61
11. Ssfxhs 61
12. Zbranch 61
13. zcurtyp 62
14. Zftpday 62
15. Zftpmat 62
16. Zftpmat_R 63
17. Zgl0 63
18. Zgl1 63
19. Zgl2 64
20. Zgl3 64

21. Zgl4 64
22. Zgltncp 64
23. Zngayhethong 65
24. Zprod0 65
25. Zprod1 65
26. Zprod2 66
27. Zprod3 66
28. Zprod4 66
IV. MÔ TẢ PACKAGE CỦA CHƢƠNG TRÌNH 67
V. MÔ TẢ CÁC KHỐI OLAP 67
1. FTPday_08: 67

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
4
2. FTPday_TH 69
3. FTPMonth 70
4. TNCP 71
5. GL_POS 72
6. Ktralech 73
VI. CHƢƠNG TRÌNH BÁO CÁO ĐỊNH GIÁ CHUYỂN VỐN NỘI BỘ 75
VII. CHƢƠNG TRÌNH THAM SỐ 80
VIII. KẾT LUẬN 81


Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
6

CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU

I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU
Máy tính từ khi ra đời đã đóng vai trò vô cùng quan trọng trong lịch sử phát
triển của nhân loại. Các máy tính cung cấp những công cụ tính toán mạnh, cho
phép con người giải được các bài toán có số lượng tính toán khổng lồ mà trước
đó không thể thực hiện được bằng tay. Máy tính cũng góp phần làm đẩy nhanh
tốc độ phát triển của nền khoa học kỹ thuật trên toàn thế giới.
Cùng với sự phát triển như vũ bão của công nghệ phần cứng trong lĩnh vực
công nghệ thông tin, công nghệ phần mềm cũng có những bước tiến dài trong
lĩnh vực quản lý dữ liệu. Ban đầu là sự xuất hiện của những CSDL quan hệ chạy
trên các máy để bàn như DBASE, ACCESS, FOXPRO, SQL Server , tạo điều
kiện vô cùng thuận lợi cho nguời phát triển. Dường như máy tính và những
chương trình của nó đã giải quyết được hầu hết các vấn đề trong lĩnh vực quản
lý. Tuy nhiên, trong thực tế, các công ty, tổ chức muốn thành công trên thị
trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho
người mua và người quản lý bán hàng ), người lãnh đạo công ty phải nắm được
thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường kinh
doanh mà đơn vị đó hoạt động để đưa ra các quyết định điều hành đúng đắn, kịp
thời.
Các hệ phần mềm kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá
đơn mới chỉ có thể tự động thực hiện các chức năng giao dịch cơ bản của một
đơn vị kinh doanh. Chính vì lý do đó những hệ thống này có một cái tên cổ điển
là hệ thống xử lý giao dịch (OLTP- online transaction processing).
1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP)
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng (thông
qua các lệnh insert, update, delete, join ) trong quá trình xử lý. Hệ thống cho
phép nhiều ứng dụng cùng truy cập dữ liệu tại một thời điểm.
Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng,
bán vé trực tuyến, bán vé hàng không, thanh toán cước phí Sử dụng hệ thống
OLTP có các ưu điểm sau:


Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
7
- Xử lý các chuyển tác tương tác.
- Dễ bảo trì và khống chế dữ liệu thừa.
- Thiết lập dữ liệu quan hệ trọn vẹn.
- Tính hiệu quả cao.
- Giảm thời gian giao dịch của khách hàng.
Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third
Normal Form) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ
liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Nói
cách khác OLPT rất có ích để tìm trả lời những câu truy vấn dạng: Tổng sản
lượng sản phẩm X do công ty bán được trong 6 tháng đầu năm, mặt hàng nào
bán chạy nhất tại địa phương Y trong tháng vừa qua Trong khi đó các nhà
quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó.
Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ A tại B đang
giảm, nếu thay đổi 3%-5% giá của sản phẩm A tại khu vực B, tình trạng tiêu thụ
sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao?
Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi dạng 1 bằng các công cụ
của hệ CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không
đơn giản. Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống
OLPT trong việc phân tích dữ liệu là:
+ Các số liệu ở mức quá chi tiết
+ Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục
truy cập khác nhau và ở những CSDL hoàn toàn khác nhau.
+ Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng
bộ.
+ Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng
rất xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm
phục vụ các giao dịch trực tuyến.

Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho
mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
8
xảy ra xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết
với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực
thể là lý do trực tiếp dẫn đến sự khủng hoảng này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra
một hệ thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm
lớn:
- Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần
mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu
cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối
với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với
những hệ thống được mô tả kém.
- Việc truy vấn để tạo báo cáo thường xuyên phải khoá rất nhiều bảng, cản
trở sự truy xuất của nhân viên khai thác trong quá trình làm việc hàng ngày và
làm ảnh hưởng trực tiếp đến khách hàng.
Với sự phát triển như vũ bão của các ngành công nghệ, nhu cầu sử dụng cơ
sở dữ liệu hiện nay cũng đã thay đổi rất nhiều, từ việc quản lý, phân tích dữ liệu
truyền thống tiến tới nhu cầu phân tích xử lý dữ liệu trực tuyến, nhất là nhu cầu
hỗ trợ quyết định.
Vào những năm 90 của thế kỷ trước, B.Inmon đề xướng một giải pháp kỹ
thuật gọi là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Data
Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập hợp các
phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để
giúp cho việc phân tích và ra quyết định.
Những người đầu tiên đưa ra ý tưởng về DWH xác định rằng tiến hành

phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch và không hiệu quả.
Các dữ liệu từ một vài OLTP được biến đổi và sau đó đưa vào một nguồn dữ
liệu duy nhất là DWH. Quá trình này được gọi là đưa dữ liệu vào DWH, gồm
các công đoạn chính sau:
+ Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)
+ Liên kết các số liệu (Tính trước số liệu tích, tổng, trung bình )

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
9
+ Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại
phù hợp với DWH
+ Tích hợp số liệu từ các nguồn khác nhau.
+ Đồng bộ hoá số liệu ở một thời điểm xác định.
DWH là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ quyết
định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-Online
Analysis Processing) vì rằng dữ liệu trong DWH thoả mãn tính chất toàn vẹn và
có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được
liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc
tính chung Điều này có giá trị đặc biệt khi xí nghiệp vận hành một lúc vài hệ
thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ
như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau).
Các chỉ số quan trọng có như tổng số, giá trị trung bình trong các giai đoạn khác
nhau, trung bình cộng cũng được biểu diễn rất đa dạng ở các hệ khác nhau.
Khi đưa số liệu vào DWH, mọi chỉ số không tương thích được chuyển đổi, tránh
các lỗi tiềm tàng trong hệ thống.
Kho dữ liệu và xử lý phân tích trực tuyến (OLAP) là những yếu tố cần thiết
của hệ hỗ trợ quyết định, hiện đang trở thành tâm điểm chú ý của ngành công
nghiệp cơ sở dữ liệu. Rất nhiều dịch vụ, sản phẩm thương mại cũng như tất cả
các hệ quản trị cơ sở dữ liệu hiện nay cũng hỗ trợ các lĩnh vực này. Hệ hỗ trợ

quyết định đặt ra một số yêu cầu khá khác biệt cho công nghệ cơ sở dữ liệu so
với các ứng dụng xử lý giao dịch trực tuyến truyền thống.
2. Hệ thống Kho dữ liệu
Một kho dữ liệu là một tập hợp dữ liệu ổn định, hướng đối tượng, tích hợp
và biến thiên theo thời gian, nó dược sử dụng chủ yếu trong việc ra quyết định
có tổ chức. Kho dữ liệu được cài đặt độc lập so với cơ sở dữ liệu thao tác ban
đầu do nó hỗ trợ quá trình xử lý phân tích trực tuyến (OLAP), vì thế, các yêu
cầu về hiệu năng và chức năng của nó khá khác biệt so với các yêu cầu của các
ứng dụng xử lý giao dịch trực tuyến (OLTP) truyền thống trong cơ sở dữ liệu
tương tác. Các đặc tính của kho dữ liệu thông thường là:

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
10
Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm Gbyte số liệu,
tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực
tuyến (VD: Địa chỉ, ID khách hàng ). Các dữ liệu kiểu này thường không được
đưa vào DWH để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng
bảo đảm các thông tin theo từng SA (vùng chủ đề- Subject area). Một vùng chủ
đề là một chủ đề được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng
quan tâm trong công việc kinh doanh, (Ví dụ khách hàng, thời gian hay sản
phẩm).
Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian
không lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong DWH, dữ liệu
của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể
ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài.
Số liệu chỉ để đọc: Dữ liệu đưa vào DWH chỉ để đọc, việc sửa dữ liệu hầu
như không được tiến hành vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông
thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào DWH xuống
mức tối thiểu, nhưng cần tối ưu hoá DWH sao cho các truy vấn phục vụ cho việc

phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng
như tạo ra sẵn các dữ liệu kết hợp.
Số liệu không biến động: Thông tin trong DW được tải vào sau khi dữ liệu
trong hệ thống điều hành được cho là quá cũ. Không biến động thể hiện ở chỗ:
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp
thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô
hình nghiệp vụ phân tích, dự báo.
Các ứng dụng OLTP tiêu biểu thường tự động hoá các tác vụ xử lý dữ liệu
văn phòng, chẳng hạn như nhập đơn đặt hàng hoặc các giao dịch ngân hàng. Các
tác vụ này là các thao tác cơ bản lặp đi lặp lại hằng ngày một cách có tổ chức.
Các tác vụ này thường là các giao dịch có cấu trúc và được lặp lại, ngắn gọn, cơ
bản, và phân lập. Các giao dịch này yêu cầu dữ liệu chi tiết, cập nhật, đồng thời
đọc hoặc cập nhật một số bản ghi được truy cập đặc biệt qua các khoá chính của
chúng. Các cơ sở dữ liệu tương tác thường có kích cỡ khoảng hoàng trăm
megabytes cho đến vài gigabytes. Tính ổn định và khả năng khôi phục lại của cơ
sở dữ liệu là có giới hạn, và việc tối đa hoá thông lượng giao dịch là việc đo

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
11
lường hiệu năng then chốt. Do đó, cơ sở dữ liệu được thiết kế để phản ánh các
ngữ nghĩa quản trị của các ứng dụng tri thức và, đặc biệt là, để tối thiểu hoá các
xung đột đồng thời.
Trái ngược với các ứng dụng OLTP, kho dữ liệu được thiết kế cho mục
đích hỗ trợ quyết định. Các dữ liệu hợp nhất, tổng hợp và lịch sử quan trọng hơn
là các bản ghi độc lập, chi tiết. Vì kho dữ liệu chứa các dữ liệu đồng nhất, có thể
được lấy từ một số cơ sở dữ liệu thao tác, qua các giai đoạn thời gian khá dài,
chúng được sắp xếp để có thể chứa được khối lượng dữ liệu lớn hơn các cơ sở
dữ liệu thao tác thông thường. Các kho dữ liệu doanh nghiệp được xây dựng để

có thể chứa tới hàng trăm gigabyte cho tới hàng terabyte dữ liệu. Khối lượng
công việc thường là truy vấn ad hoc, các truy vấn phức tạp (các truy vấn này có
thể truy cập tới vài triệu bản ghi và thực hiện rất nhiều các thao tác quét, kết nối
và tập hợp). Thông lượng truy vấn và thời gian đáp ứng trong kho dữ liệu quan
trọng hơn nhiều so với thông lượng giao dịch.
Để làm cho công việc phân tích và hình dung dữ liệu trở nên dễ dàng hơn,
dữ liệu trong kho thường có mô hình nhiều chiều. Ví dụ, trong kho dữ liệu bán
hàng, thời gian bán hàng, người bán, sản phẩm có thể là một số chiều dữ liệu.
Thông thường, những chiều này được phân thành các cấp độ; thời gian bán hàng
có thể được tổ chức dưới dạng cấp độ như ngày - tháng - quý - năm, sản phẩm
có thể được tổ chức dưới dạng sản phẩm - danh mục - công nghiệp.
Nếu ta cố gắng thực thi các truy vấn xử lý phân tích trực tuyến (OLAP)
phức tạp trên cơ sở dữ liệu thao tác thì kết quả thu được là hiệu suất rất thấp
(thời gian trả lời truy vấn rất lâu), thậm chí là không thể chấp nhận được. Hơn
nữa, việc hỗ trợ quyết định đòi hỏi dữ liệu có thể không có từ cơ sở dữ liệu thao
tác, ví dụ như, để hiểu các xu hướng hoặc đưa ra tiên đoán yêu cầu phải có dữ
liệu lịch sử, trong khi đó, cơ sở dữ liệu tương tác chỉ lưu dữ liệu hiện tại. Việc
hỗ trợ quyết định thường đòi hỏi dữ liệu hợp nhất từ nhiều nguồn dữ liệu hỗn
tạp: những nguồn dữ liệu này có thể là các nguồn dữ liệu mở rộng và một số cơ
sở dữ liệu tương tác. Các nguồn khác nhau có chất lượng dữ liệu khác nhau,
hoặc sử dụng các đại diện, mã hoá và định dạng trái ngược với nhau.
Ngoài ra, việc hỗ trợ các mô hình dữ liệu nhiều chiều và các thao tác cơ
bản của OLAP (mở rộng mức độ tổ hợp, thu nhỏ mức độ tổ hợp hoặc mở rộng
chi tiết) yêu cầu cách tổ chức dữ liệu, các phương pháp truy cập dữ liệu cũng

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
12
như các phương pháp cài đặt cụ thể, đặc biệt khác với mục đích thương mại của
OLTP. Đó là những lý do mà kho dữ liệu khác biệt hoàn toàn so với cơ sở dữ

liệu quan hệ.
3. Chợ dữ liệu (Data Mart)
Do việc xây dựng một kho dữ liệu doanh nghiệp chiếm nhiều thời gian và
phức tạp, có thể kéo dài nhiều năm và khá tốn kém. Một số tổ chức đang sắp xếp
sử dụng các chợ dữ liệu (data mart) thay cho kho dữ liệu.
Chợ dữ liệu (data mart) là nơi chứa dữ liệu được tập hợp từ các dữ liệu thao
tác và các nguồn dữ liệu khác được thiết kế để phục vụ cho một nhóm công
nhân tri thức (knowledge workers). Dữ liệu có thể được lấy từ một cơ sở dữ liệu
doanh nghiệp lớn hoặc một kho dữ liệu hoặc một nguồn cụ thể và nạp vào chợ
dữ liệu. Chợ dữ liệu đặc biệt chú trọng tới các yêu cầu đặc thù của một nhóm
người sử dụng tri thức cụ thể theo các lĩnh vực phân tích, nội dung, cách thể
hiện và tính dễ sử dụng. Những người sử dụng chợ dữ liệu có thể muốn thể hiện
dữ liệu một cách thân thiện hơn.
Trên thực tế, chợ dữ liệu là một phiên bản đặc biệt của kho dữ liệu. Hầu hết
các nhà khoa học nhất trí rằng thiết kế của chợ dữ liệu nghiên về hướng khởi
động từ một phân tích nhu cầu của người sử dụng và thiết kế của kho dữ liệu
thiên về phân tích những dữ liệu nào đã tồn tại và cách thức nó được tập hợp lại
theo một thể thống nhất ra sao. Nhìn chung, một kho dữ liệu có tính chiến lược
nhưng thỉnh thoảng vẫn có những khái niệm không kết thúc; một chợ dữ liệu có
tính chiến lược và nhắm đến việc đáp ứng những nhu cầu trước mắt.
Giống như DWH, chợ dữ liệu cũng chứa một ảnh chụp của dữ liệu thao tác
nhằm giúp các nhà kinh doanh xây dựng các chiến lược dựa trên việc phân tích
các xu hướng và kinh nghiệm trong quá khứ. Điểm khác biệt chủ yếu là chợ dữ
liệu được tạo ra dựa trên các nhu cầu đặc thù được định nghĩa trước của một
nhóm dữ liệu được lựa chọn. Một cấu hình chợ dữ liệu nhấn mạnh đến tính dễ
truy cập thông tin có liên quan.
Một tổ chức có thể có nhiều chợ dữ liệu, mỗi chợ dữ liệu có thể được thiết
kế cho một hoặc nhiều đơn vị kinh doanh. Một chợ dữ liệu có thể độc lập hoặc
phụ thuộc vào các chợ dữ liệu khác trong tổ chức.


Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
13
Các lý do mà chợ dữ liệu được sử dụng thay cho kho dữ liệu:
- Dễ truy cập tới các dữ liệu cần thiết một cách thường xuyên
- Một nhóm người sử dụng có thể tạo ra một khung nhìn chung
- Cải tiến thời gian đáp lại người dùng cuối
- Dễ cài đặt
- Chi phí thấp hơn cài đặt một kho dữ liệu đầy đủ
- Người dùng tiềm năng được định nghĩa rõ ràng hơn so với kho dữ liệu
đầy đủ.
4. Kiến trúc của một Kho dữ liệu
Kiến trúc tham chiếu của một kho dữ liệu cho phép người xây dựng và
người khai thác có cái nhìn tổng quát về các bộ phận cấu thành nên kho dữ liệu.
Hình 1 thể hiện kiến trúc cơ bản của một kho dữ liệu.

Hình 1. Kiến trúc cơ bản của kho dữ liệu
Các thành phần của kho dữ liệu được thể hiện trên Hình 1 bao gồm:
Kho dữ liệu
Rút trích
Chuyển đổi
Nạp
Làm mới
OLAP Engine
Phân tích
Truy vấn
Báo cáo
Khai thác dữ liệu
Theo dõi
và tích hợp


Metadata
Các nguồn dữ liệu
Các công cụ đầu cuối
Serve
Chợ dữ liệu
Cơ sở dữ liệu
thao tác
Các nguồn
khác
Lƣu trữ dữ liệu
OLAP Server

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
14
- Các nguồn dữ liệu: Các nguồn dữ liệu có thể là các cơ sở dữ liệu thao tác,
hoặc các nguồn khác.
- Thành phần lưu trữ dữ liệu: Sau khi dữ liệu được rút trích và nạp vào kho
dữ liệu, nó sẽ được đặt ở thành phần lưu trữ dữ liệu.
- OLAP Engine: Dữ liệu được tổng hợp và đưa vào các OLAP Engine dưới
dạng bảng nhiều chiều để tiện cho người sử dụng khai thác.
- Các công cụ đầu cuối: Người sử dụng có thể khai thác thông tin thông qua
các công cụ đầu cuối
Ngoài ra, ta thấy các thao tác cơ bản được thực hiện trong kho dữ liệu là:
- Rút trích
- Chuyển đổi
- Nạp
- Làm mới
- Khai thác dữ liệu

Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển
khai các hệ thống DWH trên thực tế. Tuỳ nhu cầu và khả năng tài chính, chúng
ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các Datamart) trước
để có thể khai thác ngay số liệu theo từng chủ đề. Một cách xây dựng khác là tổ
chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart. Mỗi phương án
đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ điều kiện cụ thể,
chúng ta có thể chọn giải pháp triển khai thích hợp.
Ngoài ra, các DWH trên từng lĩnh vực khác nhau cũng có nhiều đặc điểm
riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng.
II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU
Hình 1 thể hiện cấu trúc cơ bản của kho dữ liệu, ở phần này, tôi xin trình
bày cụ thể các thành phần, các tiến trình cơ bản của kho dữ liệu.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
15
1. Rút trích dữ liệu (ETL – Extract Transformation Loading)
Tiến trình ETL trong kho dữ liệu gồm có 3 bước chính: trích dữ liệu từ các
nguồn dữ liệu bên ngoài (Extract), chuyển đổi nó cho phù hợp với yêu cầu của
công việc (Transform), sự chuyển đổi này có nhiều mức độ khác nhau và không
cố định (ultimately), và cuối cùng là nạp dữ liệu vào nơi chứa cuối cùng - chẳng
hạn kho dữ liệu (Load).







Hình 2. Module rút trích dữ liệu

ETL phần cốt lõi của kho dữ liệu, nó cho phép lấy dữ liệu từ các nguồn
khác nhau như tệp excel, tệp *.dbf, tệp *.mdb… theo các tiêu chí cần thiết để
đưa về một chuẩn chung. Module Rút trích dữ liệu được mô tả trong Hình 2.
Mỗi kho dữ liệu của các hãng khác nhau có một công cụ ETL riêng, đặc thù của
hãng đó, nhưng dù có đặc thù như thế nào đi chăng nữa thì ETL phải đáp ứng
được các yêu cầu sau:
- Lấy được dữ liệu từ mọi định dạng khác nhau.
- Đưa dữ liệu về định dạng chung
- Dễ dàng chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ liệu
Thực vậy, hai tiêu chí đầu là bắt buộc đối với tất cả các công cụ ETL, nếu
không thoả mãn được hai tiêu chí này, dữ liệu trong kho sẽ không đầy đủ, không
đáp ứng được các tiêu chí do người sử dụng đặt ra, do đó kho dữ liệu sẽ không
thể tồn tại. Tiêu chí thứ ba có tính chất định tính, do đó, tùy theo nhà cung cấp,
mỗi công cụ ETL cho phép mức độ chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ
Cơ sở dữ liệu
DB2
Cơ sở dữ liệu
ORACLE
MS
SQLSERVER
Các loại
CSDL khác




Tầng Rút
trích dữ liệu
(ETL)






Kho dữ liệu


Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
16
liệu khác nhau đối với người sử dụng. Tuy nhiên, để có thể chỉnh sửa hoặc bổ
sung các tiêu chí này, người sử dụng cũng phải nắm vững nghiệp vụ và phải
được đào tạo kỹ về các cấu trúc logic của công cụ ETL.
Module ETL là cấu phần quan trọng trong mô hình Kho dữ liệu, sự tối ưu
hoá module này giúp cho các báo cáo của kho dữ liệu có thông tin đúng đắn,
không bị dư thừa dữ liệu, tốc độ xử lý của kho ổn định, thời gian xử lý ngắn.
Ta sẽ đi sâu phân tích các cấu phần của ETL.
a. Trích dữ liệu - Extract
Cấu phần đầu tiên của ETL là trích dữ liệu từ các nguồn dữ liệu khác nhau.
Hầu hết các kho dữ liệu đều phải lấy dữ liệu từ nhiều nguồn dữ liệu có định
dạng hoặc tổ chức khác nhau. Hầu hết các nguồn dữ liệu thông thường đều ở
dạng cơ sở dữ liệu quan hệ hoặc các cơ sở dữ liệu "phẳng" (không có quan hệ
giữa các bản ghi và các bảng) còn gọi là flat files database, nhưng cũng có thể
chứa các cấu trúc cơ sở dữ liệu như IMS hoặc các cấu trúc dữ liệu khác chẳng
hạn như VSAM hoặc ISAM. Quá trình trích dữ liệu sẽ chuyển đổi dữ liệu từ các
nguồn trên thành một định dạng chung để sử dụng trong quá trình chuyển đổi dữ
liệu (transformation).
b. Chuyển đổi dữ liệu - Transform
Quá trình chuyển đổi dữ liệu áp dụng một loạt các quy tắc hoặc các hàm
cho các dữ liệu đã được trích ở bước trước, sau đó nó chuyển dữ liệu trên cho

quá trình nạp dữ liệu tới đích định trước, trong thực tế, quá trình chuyển đổi
chính là quá trình làm sạch dữ liệu. Một số nguồn dữ liệu không đòi hỏi hoặc
đòi hỏi rất ít thao tác của dữ liệu. Trong các trường hợp khác, để đáp ứng các
yêu cầu về mặt kỹ thuật hoặc nghiệp vụ thì quá trình chuyển đổi dữ liệu có thể
thực hiện các tác vụ sau:
- Chỉ chọn một số cột nhất định, hoặc không chọn các cột null cho quá trình
nạp.
- Chuyển đổi mã hoá các giá trị (ví dụ: trong dữ liệu nguồn, ở cột giới tính,
người ta sử dụng 1 đại diện cho nam, 2 đại diện cho nữ, nhưng trong kho dữ liệu
người tại lại sử dụng M cho giới tính nam, F cho giới tính nữ), quá trình này gọi

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
17
là tự động làm sạch dữ liệu. Trong suốt quá trình ETL, không có sự can thiệp
làm sạch dữ liệu thủ công.
- Mã hoá các giá trị ở dạng "tự do" (nhập text). Chuyển các giá trị tự do này
về các giá trị quy định.
- Tạo ra các giá trị tính toán dựa trên các trường có sẵn, ví dụ thành tiền =
đơn giá x số lượng.
- Liên kết các dữ liệu với nhau từ các nguồn. VD: trong Excel có các
trường giá trị được tính toán bằng các công thức lookup, merge thì phải tính
lại các giá trị thực của trường đó.
- Tính tổng của các dòng dữ liệu. (vd: tính tổng doanh số của mỗi nhân
viên bán hàng, )
- Tạo ra các giá trị khoá surrogate - khoá này là giá trị định danh duy nhất
của các thực thể mô hình hoặc các đối tượng trong CSDL.
- Chuyển đổi dữ liệu theo chiều ngang hoặc dọc.
- Tách dữ liệu từ một cột thành nhiều cột. (Vd: họ tên tách rời thành họ, họ
đệm, tên )

- Ngoài ra, quá trình chuyển đổi dữ liệu có thể áp dụng một hoặc tổ hợp các
quy tắc chuẩn hoá dữ liệu trên để chuyển đổi dữ liệu cho phù hợp.
c. Nạp dữ liệu (Load)
Sau khi rút trích, làm sạch và chuyển đổi, dữ liệu phải được nạp vào kho dữ
liệu. Quá trình này có thể cần phải có một tiến trình tiền xử lý: kiểm tra tính ràng
buộc toàn vẹn, sắp xếp, tính tổng và các tính toán khác để xây dựng các bảng kết
quả tính toán được lưu trữ trong kho dữ liệu; xây dựng chỉ mục và các đường
dẫn truy cập khác; và phân nhỏ thành nhiều vùng lưu trữ đích. Tiêu biểu là các
ứng dụng nạp theo lô được sử dụng cho mục đích này. Ngoài ra, để đưa dữ liệu
vào trong kho, một ứng dụng nạp phải cho phép quản trị hệ thống theo dõi trạng
thái, hủy, treo và tiếp tục tiến trình nạp, đồng thời cho phép khởi động lại tiến
trình nếu bị lỗi mà không mất toàn vẹn dữ liệu.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
18
Ứng dụng nạp của kho dữ liệu phải đối đầu với lượng dữ liệu rất lớn (lớn
hơn nhiều so với dữ liệu của cơ sở dữ liệu thao tác). Chỉ có một khoảng thời
gian nhỏ (thường là về đêm) để nạp dữ liệu, thường là vào ban đêm, khi kho dữ
liệu offline để làm mới dữ liệu. Việc nạp dữ liệu liên tiếp có thể mất nhiều thời
gian, ví dụ như nạp một terabyte dữ liệu có thể mất hàng tuần hoặc hàng tháng!
Hơn nữa, Việc nạp có thể ứng dụng theo hình thức tuần tự hoặc song song. Việc
nạp toàn bộ dữ liệu có một lợi ích là nó có thể được xử lý như một giao dịch lô
lớn, nó sẽ xây dựng một cơ sở dữ liệu mới. Trong khi hệ thống đang thực hiện
việc nạp dữ liệu trên cơ sở dữ liệu mới này, cơ sở dữ liệu hiện tại vẫn hỗ trợ các
truy vấn; khi thao tác nạp thành công, cơ sở dữ liệu hiện tại được thay thế bởi cơ
sở dữ liệu mới. Việc sử dụng các điểm kiểm tra định kỳ đảm bảo rằng nếu có lỗi
xảy ra trong quá trình nạp, quá trình có thể được bắt đầu lại từ điểm kiểm tra
cuối cùng.
Tuy nhiên, thậm chí khi sử dụng phương pháp nạp song song, một quá

trình nạp đầy đủ có thể vẫn mất rất nhiều thời gian. Hầu hết các ứng dụng
thương mại sử dụng việc nạp bổ sung trong quá trình làm mới dữ liệu để giảm
thiểu khối lượng dữ liệu phải đưa vào kho dữ liệu. Chỉ những dữ liệu cập nhật
mới được bổ sung vào kho. Tuy nhiên, quá trình nạp hiện tại khá khó quản lý.
Việc nạp bổ sung thường hay xung đột với các truy vấn đang được thực hiện, vì
thế nó được xử lý như một chuỗi các giao dịch ngắn tuần tự (áp dụng xác nhận
liên tục, ví dụ: sau mỗi 1000 bản ghi hoặc một ít bản ghi lại xác nhận một lần),
nhưng hiện tại chuỗi giao dịch tuần tự này được sử dụng kết hợp để đảm bảo
tính nhất quán của dữ liệu tính toán và chỉ mục với dữ liệu gốc.
d. Làm mới dữ liệu
Làm mới dữ liệu bao gồm việc cập nhật lan truyền trên dữ liệu nguồn, do
đó cập nhật trên dữ liệu cơ bản và dữ liệu tính toán được lưu trữ trong kho. Có
hai nhóm vấn đề cần phải quyết định: khi nào phải làm mới dữ liệu và làm mới
dữ liệu như thế nào. Thông thường, kho dữ liệu được làm mới theo định kỳ (ví
dụ: hàng ngày hoặc hàng tuần). Chỉ khi các truy vấn OLAP cần dữ liệu mới nhất
(ví dụ: số lượng hàng hoá trong kho tính đến thời điểm truy vấn, chính xác đến
từng phút), ta cần phải lan truyền mọi cập nhật. Chính sách làm mới dữ liệu
được thiết lập bởi người quản trị kho dữ liệu, dựa trên các yêu cầu của người sử
dụng và có thể khác nhau đối với các nguồn dữ liệu khác nhau.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
19
Các kỹ thuật làm mới dữ liệu cũng dựa trên đặc thù của dữ liệu nguồn và
khả năng chứa của máy chủ cơ sở dữ liệu. Việc rút trích tệp hoặc cơ sở dữ liệu
hiện tại thường có chi phí cao, nhưng có thể là chọn lựa duy nhất đối với các
nguồn dữ liệu di sản. Hầu hết các hệ thống cơ sở dữ liệu đương thời đều cung
cấp các máy chủ thứ bản (replication) để hỗ trợ các kỹ thuật bổ sung cho các cập
nhật lan truyền từ một cơ sở dữ liệu chính tới một hoặc nhiều bản sao. Những
máy chủ thứ bản như vậy có thể được sử dụng để làm mới bằng cách bổ sung dữ

liệu cho kho khi dữ liệu nguồn thay đổi. Có hai kỹ thuật sao chép cơ bản:
chuyển giao dữ liệu và chuyển giao giao dịch.
Ở kỹ thuật chuyển giao dữ liệu (ví dụ, được sử dụng trong máy chủ thứ bản
Oracle, Praxic OmniReplicator), một bảng trong kho dữ liệu được xử lý như một
ảnh chụp từ xa của một bảng trong cơ sở dữ liệu nguồn. Các trigger after_row
được sử dụng để cập nhật một bảng log ảnh khi bảng nguồn thay đổi; và một
lịch tự động làm mới (hoặc một thủ tục làm mới) sẽ được thiết lập để lan truyền
dữ liệu đã cập nhật tới ảnh ở xa.
Ở kỹ thuật chuyển giao giao dịch, log giao dịch chính qui được sử dụng
thay cho các trigger và một bảng log ảnh đặc biệt. Tại địa chỉ nguồn, log giao
dịch được sử dụng để phát hiện các cập nhật trên các bảng được sao chép, và
những bản ghi log này được chuyển cho một máy chủ thứ bản, tại đây các giao
dịch tương ứng được đóng gói để cập nhật các bản sao. Chuyển giao giao dịch
có lợi là nó không đòi hỏi sử dụng các trigger mà thường có thể làm tăng tải trên
cơ sở dữ liệu thao tác nguồn. Tuy nhiên, ta không thể luôn sử dụng dễ dàng
phương thức này trên các hệ quản trị cơ sở dữ liệu của các hãng khác nhau, vì
không có API chuẩn nào để truy cập log giao dịch. Những máy chủ thứ bản như
vậy được sử dụng để làm mới kho dữ liệu. Ngoài ra chu trình làm mới dữ liệu
cũng thường được lựa chọn sao cho lượng dữ liệu không làm quá tải tiện ích nạp
bổ sung.
Ngoài các thay đổi lan truyền từ dữ liệu cơ bản trong kho, dữ liệu tính toán
cũng được cập nhật tương ứng. Vấn đề xây dựng các cập nhật chuẩn logic để
cập nhật bổ sung dữ liệu tính toán (các khung nhìn vật chất hoá) là chủ đề của
nhiều nghiên cứu. Đối với kho dữ liệu, các lớp quan trọng nhất của dữ liệu tính
toán là các bảng tổng cộng, các chỉ mục bảng đơn và chỉ mục kết nối.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
20
2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP

Từ dạng dữ liệu nguồn ban đầu, sau khi được rút trích, dữ liệu được lưu trữ
dưới dạng dữ liệu thuần nhất và được phân tích, tổng hợp lại để tạo ra các báo
cáo nhiều chiều (multi dimensions) - kho dữ liệu OLAP. Module tổng hợp phân
tích dữ liệu được thể hiện như Hình 3.







Hình 3. Module tổng hợp, phân tích dữ liệu và tạo báo cáo nhiều chiều
Một trong những ưu điểm nổi bật của kho dữ liệu là tạo được các báo cáo
đa chiều. Công cụ để tạo được các báo cáo nhiều chiều này chính là OLAP
(Online Analytical Processing). Hầu hết các hệ quản trị cơ sở dữ liệu lớn như
DB2, MSSQL của Microsoft, Oracle của hãng Oracle đều xây dựng công cụ
cơ sở dữ liệu OLAP.
Online Analytical Processing viết tắt là OLAP cho phép trả nhanh các truy
vấn phân tích mà trên thực tế là phải dựa vào nhiều chiều dữ liệu mới trả lời
được. OLAP được ứng dụng chủ yếu trong các lĩnh vực báo cáo bán hàng,
marketing, báo cáo điều hành, báo cáo budgeting và dự đoán, báo cáo tài chính
và các lĩnh vực tương tự.
Cơ sở dữ liệu OLAP hơi có khác biệt so với cơ sở dữ liệu xử lý giao dịch
trực tuyến thông thường (OLTP). Cơ sở dữ liệu OLAP có mô hình dữ liệu nhiều
chiều cho phép xử lý các truy vấn ad-hoc và truy vấn phân tích phức tạp trong
thời gian rất nhanh. Đầu ra của cơ sở dữ liệu OLAP thường được thể hiện ở
dạng ma trận hoặc pivot. Các chiều của cơ sở dữ liệu OLAP được thể hiện ở
dạng dòng và cột của ma trận, các đơn vị đo (measures), các giá trị.




Tầng phân
tích, tổng
hợp dữ liệu
và tạo báo
cáo nhiều
chiều

Kho dữ liệu
OLAP






Kho dữ liệu


Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
21
Bất kỳ hệ thống cơ sở dữ liệu OLAP nào cũng đều chứa một OLAP cube
hay còn gọi là cube nhiều chiều (multidimensional cube) hay hypercube. Nó bao
gồm một số yếu tố gọi là measures - được thể hiện thành dimension (chiều).
Siêu dữ liệu cube thường được tạo thành từ các bảng trong một cơ sở dữ liệu
quan hệ, các bảng này có dạng sơ đồ hình sao hoặc sơ đồ hình bông tuyết. Các
measure được tạo thành từ các bản ghi trong fact table và các dimensions được
tạo thành từ các bảng dimension.
Nhiều khảo sát chỉ ra rằng đối với các câu lệnh truy vấn phức tạp, các

OLAP cube có thể trả về câu trả lời trong một khoảng thời gian chỉ bằng 0.1%
so với các cơ sở dữ liệu quan hệ OLTP. Cơ chế đơn độc quan trọng nhất trong
OLAP cho phép nó đạt được hiệu quả như vậy là cách sử dụng các tập hợp
(aggregations). Các tập hợp này được xây dựng từ các bảng nhân tố (fact table)
bằng cách thay đổi các tính chất chủ chốt của các dimension đặc trưng và tập
hợp dữ liệu theo những dimension này. Số lượng các tập hợp thích hợp được
quyết định bởi từng tổ hợp thích hợp của các dimension.
Cơ sở dữ liệu OLAP thông thường sẽ có các dạng sau:
a. Dạng nhiều chiều (Multidimensional) - MOLAP
MOLAP là dạng 'truyền thống' của OLAP và đôi khi người ta coi nó là
OLAP. MOLAP thường sử dụng cấu trúc dữ liệu tối ưu đối với các thuộc tính
như khoảng thời gian, địa điểm, sản phẩm hoặc mã tài khoản. Cách thức mà mỗi
dimension sẽ được tập hợp sẽ được xác định trước theo một hoặc nhiều cấp bậc.
b. Dạng quan hệ (relational) - ROLAP
ROLAP làm việc trực tiếp với các cơ sở dữ liệu quan hệ. Các bảng dữ liệu
cơ bản và các bảng dimension được lưu trữ như các bảng quan hệ. Các bảng mới
được tạo ra để lưu trữ các thông tin tập hợp. ROLAP phụ thuộc vào thiết kế sơ
đồ xác định.
c. Dạng lai (Hybird) - HOLAP
HOLAP là một dạng database sử dụng kết hợp cả hai cách lưu trữ dữ liệu
quan hệ và lưu trữ dữ liệu đặc thù. Hiện tại các chuyên gia tin học trên thế giới
vẫn không thống nhất về cách định nghĩa của HOLAP.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
22
Nhìn chung mỗi loại cơ sở dữ liệu OLAP đều có ưu điểm riêng. Các cơ sở
dữ liệu MOLAP thiên về việc bùng nổ cơ sở dữ liệu. Bùng nổ cơ sở dữ liệu là
một thuật ngữ chỉ việc một khối lượng rất lớn khoảng lưu trữ được sử dụng bởi
cơ sở dữ liệu MOLAP khi nó đạt đến một số điều kiện thông thường nào đó

như: số lượng dimension lớn, số lượng kết quả trước tính toán và dữ liệu nhiều
chiều ít. Kỹ thuật làm giảm sự bùng nổ cơ sở dữ liệu tiêu biểu thì không được áp
dụng cho tất cả các tập hợp thích hợp mà chỉ áp dụng cho một số tập hợp con tối
ưu dựa trên hiệu năng mong muốn.
Thông thường, MOLAP cho hiệu năng tốt hơn bởi vì nó tối ưu hoá cách
thức lưu trữ và đánh chỉ mục. MOLAP cũng cần ít khoảng không lưu trữ hơn so
với ROLAP vì cách lưu trữ đặc thù đã bao gồm cả kỹ thuật nén.
ROLAP thường mềm dẻo hơn. Tuy nhiên, việc tiền xử lý một khối lượng
lớn là khó thực hiện một cách có hiệu quả, vì thế nó thường bị bỏ qua. Hiệu
năng truy vấn của ROLAP vì thế có thể tệ hơn.
Vì ROLAP chủ yếu dựa vào cơ sở dữ liệu để thực hiện các phép tính, nó có
thể gặp nhiều giới hạn về các chức năng đặc thù.
HOLAP có ưu điểm được thừa kế cả của ROLAP lẫn HOLAP. Nó có thể
thực hiện tiền xử lý một cách nhanh chóng, có độ mềm dẻo tốt và hỗ trợ tốt các
chức năng.
3. Phân phối dữ liệu lƣu trữ (báo cáo) tới ngƣời sử dụng.
Một trong những phần quan trọng của kho dữ liệu là phần phân phối thông
tin tới người sử dụng cuối. Để khai thác được kho dữ liệu một cách có hiệu quả,
cấu phần phân phối thông tin tới người sử dụng phải đáp ứng được những đặc
điểm sau:
- Cho phép người sử dụng dễ dàng, chủ động khai thác và tạo ra các câu
truy vấn (query), tạo lập báo cáo, tạo lập các bản phân tích một cách nhanh
chóng với độ chính xác cao mà không cần yêu cầu kiến thức về cơ sở dữ liệu.
Đây chính là tính thân thiện với người sử dụng. Tính năng này sẽ giúp cho
người sử dụng kho dữ liệu dễ dàng thao tác, sử dụng chương trình mà không cần
phải qua đào tạo thêm về kiến thức cơ sở dữ liệu, tiết kiệm được chi phí triển
khai, đào tạo.

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3

23
- Cho phép xoay chiều và tạo các báo cáo theo nhiều dạng khác nhau như
dạng bảng ngang (horizontal), bảng dọc (vertical), bảng kết hợp (across), cũng
như các dạng đồ thị khác nhau.
- Cho phép định dạng báo cáo
- Cung cấp các công cụ thực hiện các thao tác với dữ liệu như: Drill (phân
tích dữ liệu theo chiều sâu), Slice (cắt lát dữ liệu), Dice (phân tích theo ô) và
xoay chiều dữ liệu (Graphical Pivot).
- Có các công cụ hỗ trợ quản lý người sử dụng, an toàn, bảo mật dữ liệu
báo cáo theo thẩm quyền khai thác, phân quyền sử dụng, theo dõi và giám sát
toàn bộ hệ thống một cách chuyên nghiệp (Enterprise Management)
- Hỗ trợ phương thức kết xuất các báo cáo ở dạng Excel, Word, Acrobat,
Web lên cổng thông tin chung để tăng cường tính linh hoạt của hệ thống, cho
phép chia sẻ với người dùng khác không sử dụng công cụ báo cáo.
4. Mô hình khái niệm và các công cụ đầu cuối
a. Mô hình khái niệm
Một mô hình khái niệm có ảnh hưởng tới các công cụ đầu cuối, thiết kế cơ
sở dữ liệu và các engine truy vấn của OLAP là khung nhìn nhiều chiều của dữ
liệu trong kho. Trong một mô hình dữ liệu nhiều chiều, có một tập các thước đo
số học là các đối tượng phân tích. Ví dụ như doanh số, ngân sách, thu nhập, bản
kê tài sản, thu nhập từ vốn đầu tư. Mỗi thước đo số học phụ thuộc vào một tập
các chiều, các chiều này cung cấp các tình huống của thước đo. Ví dụ, các chiều
được liên kết với doanh số bán hàng có thể là thành phố, tên sản phẩm và ngày
bán hàng. Các chiều tập hợp với nhau để đưa ra một thước đo xác định duy nhất.
Vì thế, dữ liệu nhiều chiều sẽ xem một thước đo như một giá trị trong không
gian đa chiều. Mỗi chiều được mô tả bởi một tập các thuộc tính. Ví dụ, chiều
Sản phẩm có thể chứa bốn thuộc tính: loại và ngành công nghiệp của sản phẩm,
năm tung ra thị trường và số dư lợi nhuận bình quân. Ví dụ, nước soda Surge
thuộc loại đồ uống và ngành công nghiệp thức ăn, nó được giới thiệu vào năm
1996 và có số dư lợi nhuận bình quân là 80%. Các thuộc tính của một chiều có

thể chia thành nhiều cấp bậc quan hệ. Trong ví dụ trên, tên sản phẩm được liên

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
24
kết với thuộc tính loại và ngành công nghiệp của nó thông qua một quan hệ thứ
bậc như vậy.
Một đặc điểm phân biệt khác của mô hình khái niệm OLAP là nó nhấn
mạnh đến tập hợp của các thước đo bởi một hoặc nhiều chiều như một trong
những thao tác chính; ví dụ, tính toán và xếp hạng tổng doanh số theo mỗi vùng
(hoặc theo mỗi năm). Các thao tác thông thường khác là so sánh hai thước đo (ví
dụ: doanh số và ngân quỹ được kết hợp bởi cùng các chiều. Thời gian là một
chiều quan trọng thông thường khác để hỗ trợ quyết định (ví dụ: phân tích xu
hướng). Nhìn chung, người ta thường muốn có các kiến thức xây dựng sẵn về
lịch và các khía cạnh khác của chiều thời gian.
b. Các công cụ đầu cuối
Mô hình dữ liệu nhiều chiều phát triển vượt ra ngoài sự hình dung của dữ
liệu kinh doanh được chứa trong các chương trình bảng tính PC hiện đang được
sử dụng rộng rãi bởi các nhà phân tích kinh doanh. Bảng tính vẫn là ứng dụng
đầu cuối hấp dẫn nhất đối với OLAP. Bài toán đặt ra trong việc hỗ trợ một môi
trường truy vấn của OLAP có thể tóm tắt sơ lược như là việc hỗ trợ các thao tác
bảng tính có hiệu quả trên cơ sở dữ liệu lớn (lên tới vài gigabyte). Thêm vào đó,
sản phẩm Essbase của hãng Arbor sử dụng MS Excel như một công cụ đầu cuối
cho engine nhiều chiều của nó.
Chúng ta sẽ thảo luận nhanh về một số thao tác thông thường được hỗ trợ
bởi các ứng dụng bảng tính nhiều chiều. Một trong những thao tác đó là xoay dữ
liệu. Xem xét sơ đồ dữ liệu nhiều chiều trong Hình 4, nó thể hiện một bảng tính
mà mỗi hàng tương ứng với một sản phẩm. Mỗi cột tương ứng với một quý và
một cột mở rộng thể hiện quốc gia. Khung nhìn đơn giản nhất của xoay chiều dữ
liệu là lựa chọn 2 chiều được sử dụng để tập hợp thành một thước đo, ví dụ: số

lượng của mỗi sản phẩm bán được tại mỗi quốc gia trong ví dụ ở trên. Các giá
trị tập hợp thường được thể hiện trong một lưới mà mỗi giá trị tại toạ độ (x,y)
tương ứng với một giá trị tập hợp của thước đo khi chiều đầu tiên có giá trị x và
chiều thứ 2 có giá trị y. Như vậy, trong ví dụ của chúng ta, nếu các chiều được
lựa chọn là Quốc gia và thời gian, thì trục x có thể thể hiện tất cả các giá trị của
Quốc gia và trục y thể hiện tất cả các quý. Điểm (x,y) sẽ thể hiện tổng số lượng
hàng (tất cả các sản phẩm) bán được của quốc gia x và quý y. Do đó, những gì

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
25
mà các giá trị này có trong bảng tính ban đầu bây giờ trở thành các tiêu đề dòng
và cột trong bảng tính xoay chiều.

Hình 4. Khối dữ liệu bán hàng
Một số thao tác khác có liên quan đến việc xoay chiều dữ liệu là cuộn
(rollup) và đào sâu (drill - down). Cuộn tương ứng với việc lấy đối tượng dữ liệu
hiện tại và thực hiện thêm các thao tác nhóm theo một trong những chiều dữ
liệu. Do đó, ta có thể cuộn dữ liệu về số lượng bán hàng được tổng hợp theo
thành phố, thêm vào đó là theo sản phẩm. Thao tác đào sâu ngược lại với cuộn.
Trượt và cắt tương ứng với làm giảm chiều của dữ liệu, ví dụ: lấy một đối tượng
dữ liệu trong một tập con của các chiều và chọn các giá trị của các chiều đó. Ví
dụ, ta có thể trượt và cắt dữ liệu về số lượng hàng bán của một sản phẩm cụ thể
để tạo ra một bảng bao gồm các chiều thành phố và ngày bán. Các thao tác
thông dụng khác gồm có xếp hạng, lựa chọn và định nghĩa các thuộc tính tính
toán.
Cho dù bảng dữ liệu nhiều chiều đã thu hút nhiều sự quan tâm từ khi nó
được giới thiệu với người dùng cuối để phân tích dữ liệu kinh doanh, nó cũng
không thay thế được cách phân tích dữ liệu truyền thống ở khía cạnh quản lý
môi trường truy vấn. Những môi trường này sử dụng các thủ tục được lưu trữ và

các truy vấn phức tạp được định nghĩa trước để đưa ra các công cụ phân tích
đóng gói sẵn. Những công cụ như vậy thường được cung cấp sẵn cho người sử
Thời gian
Sản phẩm
Quốc
gia
sum
Tổng cộng

TV
VCR
PC
Quý I
Quý 2
Quý 3
Quý 4
U.S.A
Canada
Mexico
Tổng
cộng

Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tạ Liên Dung - K10T3
26
dụng cuối dùng để truy vấn trong trường hợp dữ liệu kinh doanh cụ thể - định
địa chỉ. Những ứng dụng này thường sử dụng các công cụ truy vấn dữ liệu thô
và tối ưu hoá các mẫu truy cập dựa trên máy chủ cơ sở dữ liệu cơ sở. Ngoài ra,
có những môi trường truy vấn (ví dụ: MS Access) trợ giúp việc xây dựng các
truy vấn SQL ad-hoc bằng cách "trỏ và nháy". Cuối cùng, có rất nhiều công cụ

khai thác dữ liệu mà thường được sử dụng như các công cụ đầu cuối trong kho
dữ liệu.
5. Các phƣơng pháp thiết kế cơ sở dữ liệu
Mô hình dữ liệu nhiều chiều được mô tả ở trên được cài đặt trực tiếp trên
máy chủ MOLAP. Tuy nhiên, khi một máy chủ ROLAP quan hệ được sử dụng,
mô hình nhiều chiều và các thao tác của nó được lập sơ đồ trong mối quan hệ và
các truy vấn SQL. Phần này mô tả thiết kế của sơ đồ cơ sở dữ liệu quan hệ phản
ánh các khung nhìn nhiều chiều của dữ liệu. Các mô hình quan hệ thực thể và
các kỹ thuật thông thường hay được sử dụng trong thiết kế cơ sở dữ liệu ở môi
trường OLTP. Tuy nhiên, các thiết kế cơ sở dữ liệu do mô hình quan hệ thực thể
đưa ra không thích hợp đối với hệ trợ giúp quyết định, nơi mà hiệu quả của truy
vấn và nạp dữ liệu (bao gồm các phương pháp nạp bổ sung) được đặt lên hàng
đầu.

Hình 5. Sơ đồ hình sao

Mã_thời_gian
Ngày
Thứ
Tháng
Quý
Năm
Thời gian
Mã địa điểm
Phố
Thành phố
Tỉnh
Nước
Địa điểm
Bảng yếu tố bán hàng

Mã thời gian
Mã mục
Mã chi nhánh
Mã địa điểm
Đơn vị bán
Số tiền bán
Doanh số trung
bình
Các thước đo
Mã mục
Tên mục
Nhãn
Loại

Danh mục
Mã chi nhánh
Tên chi nhánh
Loại chi nhánh
Chi nhánh

×