Tải bản đầy đủ (.doc) (47 trang)

ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.42 MB, 47 trang )

1
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ
PHÁT TRIỂN NÔNG THÔN VIỆT NAM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2013
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ
PHÁT TRIỂN NÔNG THÔN VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: Chức danh khoa học và Họ tên
3
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết luận được đưa ra trong luận văn là trung thực,
có nguồn gốc rõ ràng.
Tác giả luận văn
Lê Mạnh Tuấn
4
LỜI CẢM ƠN
Để hoàn thành được hoàn thành được công trình nghiên cứu này, ngoài sự nỗ


lực của bản thân, tác giả còn nhận được sự giúp đỡ rất lớn từ PGS.TS ……………,
người đã luôn quan tâm, trách nhiệm và nhiệt tình hướng dẫn, giúp đỡ, động viên tác
giả trong quá trình thực hiện nghiên cứu của mình. Tác giả xin gửi lời cảm ơn chân
thành tới PGS.TS …………………
Tác giả cũng xin trân trọng cảm ơn các thầy, cô trong Viện Cộng nghệ thông tin
– Đại học Quốc Gia Hà Nội, các bạn đồng nghiệp, lãnh đạo và cán bộ nhân viên Ngân
hàng Nông nghiệp và phát triển Nông thôn Việt Nam và các bạn lớp Cao học CIO2 đã
giúp đỡ tác giả trong suốt thời gian học tập và nghiên cứu luận văn của mình.
Để đạt được những kết quả nghiên cứu tốt hơn trong tương lai, tác giả rất mong
tiếp tục nhận được sự hướng dẫn, giúp đỡ của các nhà chuyên môn, của các thầy cô
trong Viện Công nghệ thông tin – Đại học Quốc Gia Hà Nội về phương pháp luận,
cách thức tiếp cận khoa học và hợp lý.
Tác giả luận văn
Lê Mạnh Tuấn
5
MỤC LỤC
PHẦN MỞ ĐẦU 11
CHƯƠNG I. HIỆN TRẠNG VỀ HỆ THỐNG CSDL VÀ HỆ THỐNG BÁO CÁO
HIỆN TẠI NHNo&PTNT VIỆT NAM 13
1.1. Tổng quan NHNo&PTNT Việt Nam 13
1.1.1. Sơ lược về NHNo&PTNT Việt Nam 13
1.1.2. Lịch sử hình thành, phát triển của NHNo&PTNT Việt Nam 13
1.2. Đánh giá hệ thống báo cáo và khai thác dữ liệu tại NHNo&PTNT Việt Nam
14
1.3. Tại sao cần xây dựng DW&BI tại NHNo&PTNT Việt Nam 15
CHƯƠNG II. GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA
QUYẾT ĐỊNH (DATA WAREHOUSE & BI) 16
1.4. Các khái niệm cơ bản 16
2.1.1. Data Warehouse và BI là gì? 16
Data Sources (Dữ liệu nguồn): bao gồm các CSDL của các hệ thống tác nghiệp,

các dữ liệu dạng file,… 17
Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các CSDL
chủ đề 17
BI:tầng ứng dụng khai thác và phân tích thông tin hỗ trợ quyết định; các end-user
tương tác với hệ thống qua tầng BI này 17
Administration: Metadata và quản trị hệ thống 17
2.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI 17
2.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS 18
1.5. Các phương pháp luận xây dựng hệ thống DW&BI 18
2.2.1. Phương pháp luận Top-down 19
2.2.2. Phương pháp luận Bottom-up 19
2.2.3. Phương pháp luận Spiral 19
2.2.4. Ưu/Nhược điểm của từng phương pháp 20
2.2.5. Cơ sở lựa chọn phương pháp luận 21
CHƯƠNG III. THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI 22
1.6. Thiết kế logic một hệ thống DW và BI 22
3.1.1. Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết kế logic
22
3.1.2. Thiết kế tổng thể 23
DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở dạng 1:1 về nội
dung và cấu trúc, phạm vi dữ liệu là một phiên 24
DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ liệu là một
phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữ liệu vào CSDL tích
hợp 24
3.1.3. Thiết kế chi tiết từng thành phần 25
Các trường thông tin tổng hợp (aggregate data): các giá trị tổng hợp và tính sẵn
(ví dụ: tổng số lượng, tổng tiền, số lượng lớn nhất, số lượng nhỏ nhất, số lượng
trung bình,…) 26
Các trường thông tin dẫn xuất (derived data): các giá trị được tính theo công thức
dựa trên các trường thông tin tổng hợp đã có 26

Các measure: các giá trị số (những con số nghiệp vụ như: Số lượng bán, Giá trị
bán thể hiện chủ đề Tình Hình Bán Hàng) 28
6
Các dimension: các chiều phân tích thông tin (ví dụ: sản phẩm, cửa hàng, thời
gian,…) 28
Vẽ sơ đồ thực thể quan hệ (ERD, mô hình sao) 28
Thiết kế các bảng dimension 28
Thiết kế bảng fact (mỗi DM chỉ có một bảng fact) 29
Thiết kế Slave Table (nếu cần lưu thông tin bổ sung, không phải kiểu số, như đã
mô tả ở trên) 29
Thiết kế các hierarchy (cho từng dimension): như đã mô tả ở trên 29
Thiết kế các partition 29
Thiết kế các index 29
Thiết kế giải pháp phi chuẩn: 29
Mỗi DM có một tập hợp các bảng dimension, mỗi bảng này cần được chuẩn hóa
(tách bảng) thành các bảng quan hệ theo dạng chuẩn 3 để không bị dư thừa dữ liệu.
30
Sau khi chuẩn hóa, những bảng danh mục nào tương đương nhau (cùng ý nghĩa
nghiệp vụ, cùng primary key,…) thì tích hợp thành một bảng (primary key là chung,
các trường thuộc tính là hợp từ hai bảng); những bảng dimension còn lại được giữ
nguyên cấu trúc và nếu có quan hệ thì tạo Foreign Key với các bảng dimension
khác 30
Mỗi DM có một bảng fact, mỗi bảng fact bao gồm một số hoặc tất cả các trường
thông tin của một loại dữ liệu nghiệp vụ cụ thể (ví dụ: dữ liệu hóa đơn bán hàng).
Những bảng fact nào lưu thông tin về cùng một loại dữ liệu (và cùng primary key)
thì tích hợp thành một bảng (primary key là chung, các foreign key và các trường
measure là hợp từ hai bảng); những bảng fact còn lại được giữ nguyên cấu trúc 30
Tích hợp các bảng slave (nếu có): tương tự và đi kèm với bảng fact 31
Riêng với bảng dimension quan hệ trực tiếp với bảng fact: Primary Key phải là
kiểu số (có thể dùng Surrogate Key nếu cần) 31

Không cần các trường aggregate, derived 31
Primary Key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời chưa phải
là kiểu số 31
Foreign Key: sang các bảng dimension 31
Các trường measure 31
Với bảng fact: thường chia partition theo chiều thời gian (tức là chia theo trường
FK link sang bảng dimension thời gian) 31
Với các bảng dimension lớn, có sự tăng trưởng dữ liệu: chia partition theo trường
có nhu cầu tìm kiếm chủ yếu (nếu xác định được) 31
Thiết kế các index 31
Thiết kế giải pháp phi chuẩn: 31
là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), là nơi chứa
dữ liệu kết quả cuối cùng của giai đoạn xử lý, làm sạch và tích hợp trước khi đưa
vào EM 32
chỉ có một DSA đích 32
là CSDL có cấu trúc tương đương với dữ liệu nguồn (mô hình CSDL quan hệ
thông thường) và chứa dữ liệu nguyên bản của nguồn (sau đó mới xử lý, làm sạch).
32
Có nhiều DSA nguồn: ứng với mỗi dữ liệu nguồn cần một DSA nguồn 33
7
Vẽ sơ đồ ERD cho DSA đích giống với ERD của EM (nên tạo các bảng trùng tên
với bảng tương ứng trong EM) 33
Thiết kế các bảng dimension, các bảng fact, các bảng slave giống như trong EM
33
Thiết kế các index: tương như index EM 33
Mục tiêu của thiết kế các DSA nguồn: 33
Dựa trên tài liệu khảo sát dữ liệu nguồn, xác định danh sách các nguồn dữ liệu
cần đưa vào kho dữ liệu tập trung, với mỗi nguồn dữ liệu thiết kế một DSA nguồn:
33
Làm sạch: chuẩn hóa hoặc loại bỏ các dữ liệu không hợp lệ, không toàn vẹn. 34

Tích hợp: tích hợp dữ liệu từ nhiều DSA nguồn về một DSA đích, tích hợp các
bảng dữ liệu tương đương nhau thành một bảng 34
từ DSA đích sang EM 34
từ EM sang các DM 34
từ EM sang các DM 34
từ DSA đích sang EM 34
từ các DSA nguồn sang DSA đích 34
Làm sạch và bổ sung dữ liệu tại DSA nguồn 34
Làm sạch và bổ sung dữ liệu tại DSA đích 34
Cấu trúc của cube: các Measure, các Dimension 36
Thủ tục chuyển dữ liệu từ DM vào cube 36
Là một cấu trúc lưu trữ xác định mối quan hệ tham chiếu giữa các thuật ngữ
nghiệp vụ (của người dùng cuối) với các đối tượng dữ liệu tin học (các bảng, các
trường) 36
Đóng vai trò cầu nối để người dùng cuối có thể khai thác được dữ liệu của các
CSDL trong DW bằng cách lựa chọn và kéo thả các thông tin nghiệp vụ mình cần
thay vì việc viết các câu lệnh truy vấn SQL 36
Là tập hợp các file kết quả báo cáo, phân tích,… của người dùng và được lưu tại
các thư mục xác định 36
Là các chương trình ứng dụng để người dùng phân tích, lập báo cáo và chia sẻ
các thông tin 36
Là giao diện để người dùng truy cập hệ thống và lấy các thông tin kết quả 37
Ví dụ: web portal, ms office,… 37
1.7. Thiết kế vật lý một hệ thống DW và BI 37
3.2.1. Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết kế vật lý
37
Các CSDL DSA nguồn 37
CSDL DSA đích 37
CSDL EM 37
Các CSDL DM 37

Các OLAP cube 37
Với mỗi CSDL, cần thiết kế: 38
từ Data Source sang DSA 38
từ các DSA nguồn sang DSA đích 38
từ DSA đích sang EM 38
từ EM sang các DM 38
Lớp dữ liệu tham chiếu 38
8
Các thông tin kết quả 38
Các công cụ khai thác, cổng thông tin. 38
3.2.2. Thiết kế mô hình vật lý của hệ thống 38
3.2.3. Thiết kế vật lý các CSDL trong DW 39
Mức 1 – Disk to Disk: backup dữ liệu từ đĩa của hệ thống ra đĩa backup 40
Mức 2 – Disk to Tape: chuyển dữ liệu từ đĩa backup ra tape (có thể lấy tape ra và
mang đi chỗ khác được) 40
3.2.4. Thiết kế chi tiết tiến trình ETL 40
Nếu bảng được thiết kế ở dạng có lưu vết các thay đổi dữ liệu: Căn cứ vào lưu
vết để lọc ra những bản ghi mới hoặc thay đổi trong khoảng thời gian chu kỳ 41
Nếu bảng không có lưu vết (chỉ có dữ liệu mới nhất): Sử dụng phương pháp so
sánh giữa bảng dữ liệu nguồn với bảng dữ liệu tương ứng trong DW để tìm ra các
bản ghi mới hoặc có thay đổi 41
Với các bảng chi tiết giao dịch 41
Các bảng giao dịch chi tiết luôn có trường thời gian thể hiện thời điểm giao dịch
hoặc thời điểm lưu bản ghi giao dịch, căn cứ vào trường này xác định các bản ghi
được thêm mới trong khoảng thời gian của chu kỳ 41
Làm sạch: 41
Bổ sung: 41
Cập nhật trực tiếp: Cập nhật giá trị mới cho các bản ghi được xác định là thay đổi
ở bảng dimension tương ứng. Trong trường hợp này, kể từ thời điểm cập nhật, kết
quả truy vấn sẽ thay đổi theo giá trị mới nhất. Ví dụ: một doanh nghiệp chuyển đổi

loại hình sở hữu thì các kết quả truy vấn tổng hợp theo chiều loại hình sơ hữu sẽ
thay đổi và luôn trả về theo giá trị mới nhất 43
SUBPLIER 43
 43
SUBPLIER 43
Lưu vểt thay đổi: Với mỗi bảng dimension cần lưu vết, thiết kế một bảng lưu vết
(history table) tương ứng. Trong đó: 43
SUBPLIER 43
43
SUBPLIER_HISTORY 43
3.2.5. Thiết kế vật lý tầng BI 44
Theo các nhóm người dùng 44
Theo sự phân loại các báo cáo về mặt nghiệp vụ 44
Theo sự phân loại các báo cáo về kiểu báo cáo: báo cáo trên web, báo cáo dạng
in, dạng file văn bản office,… 45
Xây dựng sơ đồ chức năng của cổng thông tin; mô tả từng chức năng 45
Xác định danh sách các đối tượng người dùng, phân quyền truy cập, quyền xem
các loại thông tin kết quả 45
Công cụ tạo báo cáo, phân tích thông tin trên giao diện Web 45
Công cụ tạo báo cáo, phân tích thông tin trên giao diện Desktop 45
Công cụ tạo báo cáo, phân tích thông tin nhúng trong bộ sản phẩm Office 45
Các công cụ chuyên dụng để phân tích 45
3.2.6. Dự báo tăng trưởng dữ liệu 45
DSA là lưu trữ dữ liệu tạm thời nên có chỉ cần dung lượng đủ cho các phiên
ETL, có thể bỏ qua việc dự báo tăng trưởng dữ liệu 45
9
Dự báo tăng trưởng dữ liệu cho EM và từng DM: 45
Ước tính số lượng các kết quả đầu ra, dung lượng của từng file 46
Dự báo tăng trưởng không gian lưu trữ các file kết quả (theo từng năm), không
gian lưu trữ cho các thành phần vật lý khác của hệ thống BI (system, log…) 46

Tổng hợp từ các thành phần đã tính ở trên 46
3.2.7. Lập yêu cầu về cấu hình phần cứng 46
Số lượng người sử dụng, số lượng session truy cập đồng thời 46
Tính sẵn sàng của hệ thống, thời gian tối đa dừng hệ thống trong giờ, ngoài giờ46
Thời gian tối đa cho một lần tra cứu thông tin, báo cáo,… 46
Đảm bảo toàn vẹn dữ liệu 46
Các yêu cầu khác 46
Lưu trữ dữ liệu 46
Hệ điều hành và hệ quản trị CSDL 47
Dự phòng 47
Sao lưu 47
CHƯƠNG IV. PHÂN TÍCH THIẾT KẾ DATA WAREHOUSE VÀ BI TẠI
NHNo&PTNN VIỆT NAM 48
1.8. Phân tích hệ thống 48
4.1.1. Kiến trúc vật lý hệ thống CSDL tại NHNo&PTNT Việt Nam 48
4.1.2. Kiến trúc logic CSDL phần nghiệp vụ tín dụng 48
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 50
PHỤ LỤC 51
10
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Stt Từ, cụm từ Nội dung Ghi chú
1 NHNo&PTNN Ngân hàng Nông nghiệp và Phát triển
Nông thôn Việt Nam
2 CN Chi nhánh
3 CNTT Công nghệ thông tin
4 DW Kho dữ liệu (Data Warehouse)
5 BI Hệ thống hỗ trợ ra quyết định (Business
Intelligence)
6 DW&BI Data Warehouse và Business Intelligence

7 CSDL Cơ sở dữ liệu
8 OLTP On Line Transaction Processing
9 OLAP On Line Analytical Processing
10 DM Data Mart
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 2.1.1: Vai trò của DW&BI 16
Hình 2.1.2: Các thành phần chính của DW&BI 17
Hình 2.2.3: Các phương pháp luận xây dựng DW&BI 19
Hình 3.1.4: Mô hình logic tổng thể của hệ thống DW&BI 23
Hình 3.1.5: Star schema (CSDL hình sao) 25
Hình 3.1.6: Snowflake schema (CSDL hình bông tuyết) 26
Hình 3.1.7: Một ví dụ về Data Mart 30
Hình 3.1.8: Một ví dụ về Enterprise Model 32
11
PHẦN MỞ ĐẦU
1. Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh
nghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến
lược kinh doanh cho mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu
quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều
và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý.
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng
lớn. Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu để
cung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh
trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh
doanh có chất lượng cao và ổn định.
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý
phân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến

lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu.
Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam việc xây dựng
kho dữ liệu và hệ thống hỗ trợ ra quyết định về hoạt động tín dụng là rất cần thiết. Kho
dữ liệu sẽ thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho
các nhà quản lý có thể có những thông tin chính xác, nhanh chóng, hỗ trợ cho việc ra
các quyết định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo. Ngoài ra,
kho dữ liệu còn hỗ trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức
quan trọng trong bối cảnh khó khăn hiện tại của các ngân hàng.
Xuất phát từ nhu cầu thực tế tại NHNo, luân văn sẽ thực hiện “Áp dụng kho dữ
liệu và hệ thống hỗ trợ ra quyết định trong hoạt động tín dụng tại Ngân hàng Nông
nghiệp và phát triển Nông thôn Việt Nam” bằng công cụ Oracle Warehouse Builder
với mong muốn xây dựng kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý và ra quyết
định tại NHNo.
2. Mục tiêu đề tài
Xây dựng kho dữ liệu, hệ thống hỗ trợ ra quyết định cho việc quản lý các hoạt
động tín dụng tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam. Đề tài sẽ
sử dụng các công cụ của Oracle để xây dựng kho dữ liệu từ dữ liệu tín dụng hiện tại
của NHNo, quản lý kho dữ liệu và xây dựng các báo cáo cho người dùng có thể xem
qua web.
3. Phạm vi và Đối tượng của đề tài:
- Đối tượng nghiên cứu: Các văn bản, dữ liệu có liên quan đến hoạt động tín
dụng tại NHNo.
12
- Phạm vi áp dụng: đề tài được áp dụng cho hoạt động tín dụng tại NHNo.
4. Kết quả của đề tài
Bản thiết kế logic, thiết kế vật lý kho dữ liệu và hệ thống hỗ trợ ra quyết định
về các hoạt động tín dụng của NHNo. Xây dựng kho dữ liệu với mẫu dữ liệu thực tế,
đưa ra các báo cáo cho người dùng cuối.
5. Kết cấu của đề tài
Đề tài được kết cấu gồm 5 phần (chương) chính trong đó:

Phần mở đầu:
Giới thiệu các yêu cầu khách quan, chủ quan, cơ sở thực tiễn nghiên cứu và xây
dựng đề tài.
Chương I: Hiện trạng về hệ thống cơ sở dữ liệu và hệ thống báo cáo hiện
tại của Ngân hàng Nông nghiệp và Phát triển Nông thôn Việt Nam.
Mục tiêu của chương này nhằm trình bầy tổng quan NHNo, hiện trạng và
những vấn đề của hệ thống CSDL và hệ thống báo cáo về hoạt động tín dụng tại
NHNo. Tại sao cần xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định tại NHNo.
Chương II: Giới thiệu về kho dữ liệu và hệ thống hỗ trợ ra quyết định.
Nội dung chính của chương này trình bầy các khái niệm cơ bản về kho dữ liệu
và hệ thống hỗ trợ ra quyết định, các phương pháp luận và cơ sở lựa chọn phương
pháp luận để xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định.
Chương III: Thiết kế một hệ thống Data Warehouse và BI.
Nội dung chính của chương này là đưa ra các bước cụ thể trong việc thiết kế
logic và thiết kế vật lý một kho dữ liệu và hệ thống hỗ trợ ra quyết định.
Chương IV: Phân tích thiết kế hệ thống DW&BI tại Ngân hàng Nông
nghiệp và phát triển Nông thôn Việt Nam.
Mục tiêu của chương này là đưa ra bản thiết kế logic, bản thiết kế vật lý để xây
dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định trong các hoạt động tín dụng tại
NHNo.
Phần kết luận: Kết luận tổng thể về luận văn.
Đưa ra những điều làm được, những điều chưa làm được và hướng phát triển
của luận văn.
13
CHƯƠNG I. HIỆN TRẠNG VỀ HỆ THỐNG CSDL VÀ HỆ THỐNG BÁO
CÁO HIỆN TẠI NHNo&PTNT VIỆT NAM.
1.1. Tổng quan NHNo&PTNT Việt Nam
1.1.1. Sơ lược về NHNo&PTNT Việt Nam
Tên tiếng Việt: Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam
Tên giao dịch quốc tế: Vietnam Bank for Agriculture and Rural Development

Tên viết tắt: Agribank (AGR)
Vốn điều lệ: 29,605,000,000,000 VND (Hai mươi chín nghìn sáu trăm linh năm
tỷ đồng Việt Nam)
Trụ sở hoạt động
Địa chỉ: số 18 Trần Hữu Dực, khu đô thị mới Mỹ Đình I, huyện Từ Liêm, TP
Hà Nội.
Điện thoại: (84-4) 3.8313.717
Fax: (84-4) 3.8313.719
Website: />1.1.2. Lịch sử hình thành, phát triển của NHNo&PTNT Việt Nam
Năm 1988, Ngân hàng Phát triển nông nghiệp Việt Nam được thành lập theo
Nghị định số 53/HĐBT ngày 26/3/1988 của Hội đồng Bộ trưởng (nay là Chính phủ) về
việc thành lập các ngân hàng chuyên doanh, trong đó có Ngân hàng Phát triển nông
nghiệp Việt Nam hoạt động trong lĩnh vực nông nghiệp, nông thôn.
Ngày 14/11/1990, Chủ tịch Hội đồng Bộ trưởng (nay là Thủ tướng Chính phủ)
ký Quyết định số 400/CT thành lập Ngân hàng Nông nghiệp Việt Nam thay thế Ngân
hàng Phát triển nông nghiệp Việt Nam. Ngân hàng Nông nghiệp Việt Nam là ngân
hàng thương mại đa năng, chuyển hẳn sang kinh doanh tiền tệ, tín dụng và dịch vụ
ngân hàng đối với các thành phần kinh tế, chủ yếu trong lĩnh vực nông, lâm, ngư, diêm
nghiệp; là một pháp nhân, hạch toán kinh tế độc lập, tự chủ, tự chịu trách nhiệm về
hoạt động của mình trước pháp luật. Vốn điều lệ của Ngân hàng Nông nghiệp Việt
Nam thời điểm này là 200 tỷ đồng; thời gian hoạt động 99 năm.
Ngày 15/11/1996, được Thủ tướng Chính phủ ủy quyền, Thống đốc Ngân hàng
Nhà nước Việt Nam ký Quyết định số 280/QĐ-NHNN đổi tên Ngân hàng Nông
nghiệp Việt Nam thành Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam.
Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam hoạt động theo mô
hình tổng công ty 90, là doanh nghiệp nhà nước hạng đặc biệt, hoạt động theo Luật các
14
tổ chức tín dụng và chịu sự quản lý trực tiếp của Ngân hàng Nhà nước Việt Nam. Với
tên gọi mới, ngoài chức năng của một ngân hàng thương mại, Ngân hàng Nông nghiệp
và Phát triển nông thôn Việt Nam được xác định thêm nhiệm vụ đầu tư phát triển đối

với khu vực nông thôn thông qua việc mở rộng đầu tư vốn trung, dài hạn để xây dựng
cơ sở vật chất kỹ thuật cho sản xuất nông, lâm nghiệp, thủy hải sản góp phần thực hiện
thành công sự nghiệp công nghiệp hóa - hiện đại hóa nông nghiệp nông thôn.
Năm 2011, thực hiện Quyết định số 214/QĐ-NHNN, ngày 31/01/2011, của
Thống đốc Ngân hàng Nhà nước Việt Nam, Ngân hàng Nông nghiệp và Phát triển
nông thôn Việt Nam (Agribank) chuyển đổi hoạt động sang mô hình Công ty trách
nhiệm hữu hạn một thành viên do Nhà nước làm chủ sở hữu 100% vốn điều lệ. Tháng
11/2011, Agribank được Chính phủ phê duyệt cấp bổ sung 8.445,47 tỷ đồng, nâng
tổng số vốn điều lệ của Agribank lên 29.605 tỷ đồng, tiếp tục là ngân hàng thương mại
có vốn điều lệ lớn nhất Việt Nam.
Năm 2012, vượt lên khó khăn của tình hình kinh tế thế giới và trong nước, hoạt
động kinh doanh của Agribank tiếp tục phát triển ổn định. Tổng tài sản có của
Agribank đạt 617.859 tỷ đồng (tương đương 20% GDP), tăng 10% so với năm 2011,
là Ngân hàng Thương mại có quy mô tổng tài sản lớn nhất, các tỷ lệ an toàn hoạt động
kinh doanh được đảm bảo, tỷ lệ nợ xấu được kiểm soát giảm dần.
Trong năm 2012, Agribank được trao tặng các giải thưởng: Top 10 doanh
nghiệp lớn nhất Việt Nam - VNR500; Doanh nghiệp tiêu biểu ASEAN; Thương hiệu
nổi tiếng ASEAN; Ngân hàng có chất lượng thanh toán cao; Ngân hàng Thương mại
thanh toán hàng đầu Việt Nam.
1.2. Đánh giá hệ thống báo cáo và khai thác dữ liệu tại NHNo&PTNT Việt Nam
Hệ thống cơ sở dữ liệu hiện tại của NHNo là cở sở dữ liệu tập trung. Sau một
thời gian hoạt đông từ sau khi triển khai hệ thống IPCASII (năm 2009) tới nay, dữ liệu
của hệ thống ngày một gia tăng. Hiện tại hầu hết các bảng nghiệp vụ đều có hơn 20
triệu dòng dữ liệu. Với lượng dữ liệu lớn như vậy, việc khai thác dữ liệu gặp một số
khó khăn:
- Do dữ liệu ngày càng gia tăng vì thế tốc độ xử lý các truy vấn để
tạo báo cáo bị chậm.
- Tổ chức dữ liệu theo mô hình cơ sở dữ liệu quan hệ khiến cho
việc truy vấn dữ liệu không linh hoạt. Với những câu hỏi nghiệp vụ phức tạp
việc truy vấn là rất khó khăn và thời gian xử lý chậm.

- Một số báo cáo đang tổng hợp dữ liệu trực tiếp từ hệ thống, đấy
là dữ liệu nghiệp vụ chưa qua xử lý, còn dư thừa nhiều, không phù hợp với một
hệ thống báo cáo và phân tích số liệu.
15
Ngoài hệ thống cơ sở dữ liệu tác nghiệp, NHNo còn xây dựng một cơ sở dữ liệu
phục vụ riêng cho công việc tạo báo cáo. Hệ thống này được gọi là MIS (hệ thống
thông tin báo cáo tập trung). Cuối mỗi ngày hệ thống tác nghiệp thực hiện các tác vụ
tự động đẩy dữ liệu sang hệ thống MIS. Các báo cáo sẽ tổng hợp dữ liệu từ hệ thống
MIS để tránh ảnh hưởng đến hoạt động của hệ thống tác nghiệp trong giờ hành chính.
Ta có thể thấy hệ thống báo cáo như vậy gặp một số vấn đề như sau:
- Dữ liệu của hệ thống MIS vẫn là dữ liệu thô, chưa qua xử lý.
- Dữ liệu không phải là dữ liệu mới nhất trên hệ thống tác nghiệp,
do cuối mỗi ngày mới đẩy dữ liệu từ hệ thống tác nghiệp sang hệ thống MIS.
- Dữ liệu của hệ thống MIS sẽ ngày một nhiều, gây khó khăn cho
công việc tạo báo cáo.
1.3. Tại sao cần xây dựng DW&BI tại NHNo&PTNT Việt Nam
Qua đánh giá sơ bộ về hệ thống cơ sở dữ liệu và hệ thống báo cáo hiện tại của
NHNo có thể nhận thấy:
- Hệ thống báo cáo hiện tại là một hệ thống mang tính giải pháp
tình thế, nhằm giảm tải cho hệ thống tác nghiệp.
- Chưa đáp ứng được nhu cầu phân tích số liệu của NHNo ví dụ
như phân tích tình hình nợ xấu hàng năm, dự báo tình hình nợ xấu của năm sau.
- Chưa hỗ trợ được các nhà quản lý trong việc đưa ra quyết định
kinh doanh.
Do đó việc xây dựng kho dữ liệu tại NHNo là hoàn toàn cần thiết. Đáp ứng nhu
cầu thực tế, giải quyết các khó khăn hiện tại trong công việc phân tích dữ liệu và hỗ
trợ lãnh đạo đưa ra những quyết định có lợi cho NHNo.
16
CHƯƠNG II. GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA
QUYẾT ĐỊNH (DATA WAREHOUSE & BI).

1.4. Các khái niệm cơ bản
2.1.1. Data Warehouse và BI là gì?
1.1.1.1. Data Warehouse
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là hệ thống tập trung
dữ liệu nhằm mục đích khai thác, phân tích thông tin và hỗ trợ quyết định, với các đặc
trưng về mặt dữ liệu là: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến.
1.1.1.2. Business Intelligence (BI)
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai thác dữ liệu và phân
tích thông tin từ các nguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DW
với thiết kế CSDL đa chiều (OLAP). Tầng ứng dụng BI này bao gồm các dữ liệu
metadata, các chương trình ứng dụng, các công cụ phần mềm… nhằm mục đích đưa
các kết quả báo cáo, phân tích nghiệp vụ,… đến trực tiếp các người dùng cuối (những
cán bộ nghiệp vụ, các lãnh đạo,…).
1.1.1.3. Vai trò của DW&BI
Vai trò của DW&BI trong việc cung cấp thông tin hỗ trợ quyết định được minh
họa như dưới đây:
Hình 2.1.1: Vai trò của DW&BI
17
1.1.1.4. Các thành phần chính của một hệ thống DW&BI
Các thành phần chính của một hệ thống DW&BI được minh họa ở hình 2.1.2,
bao gồm:
- Data Sources (Dữ liệu nguồn): bao gồm các CSDL của các hệ thống tác nghiệp,
các dữ liệu dạng file,…
- Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các
CSDL chủ đề.
- BI:tầng ứng dụng khai thác và phân tích thông tin hỗ trợ quyết định; các end-
user tương tác với hệ thống qua tầng BI này.
- Administration: Metadata và quản trị hệ thống.
Hình 2.1.2: Các thành phần chính của DW&BI
2.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI

Một hệ thống DW bao gồm 4 đặc trưng về mặt dữ liệu, bao gồm: tích hợp,
hướng chủ đề, tích lũy theo thời gian, bất biến.
- Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn khác
nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu,…
- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ
theo các chủ đề nghiệp vụ mà người khai thác quan tâm.
- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theo
dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ
liệu sẽ phát sinh trong tương lai.
18
- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng read-
only và rất hiếm khi thay đổi (không update, không delete). DW chính là những
CSDL được thiết kế cho mục đích Khai thác và Phân tích thông tin (query, truy
vấn) chứ không phải mục cập nhật (update, delete) như trong CSDL của các
ứng dụng tác nghiệp.
2.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS
- OLTP (OnLine Transaction Processing): Hệ thống xử lý giao dịch trực tuyến.
Đặc trưng của các ứng dụng OLTP là các tác vụ tự động ghi chép dữ liệu để xử
lý các nghiệp vụ của một tổ chức như ghi nhận đơn đặt hàng hoặc các giao dịch
ngân. Các tác vụ này thường đọc hoặc cập nhật một vài dòng dữ liệu dựa trên
khoá chính của chúng. Những tác vụ đó có cấu trúc, được lặp lại, bao gồm các
giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới nhất. Các
cơ sở dữ liệu tác nghiệp có kích thước từ vài trăm megabyte đến hàng gigabyte
và chỉ lưu trữ các dữ liệu hiện hành (vòng đời dữ liệu ngắn). Cơ sở dữ liệu có
tính nhất quán, khả năng phục hồi cao.
- DSS (Decision Support System): Hệ thống hỗ trợ quyết định.
Phân biệt giữa Hệ thống OLTP và Hệ thống DSS:
Đặc điểm OLTP DWHS
Thời gian đáp ứng
một thao tác người

dùng
Dưới 1 giây đến hàng giây Từ hàng giây đến hàng giờ
Loại thao tác với
dữ liệu
Cập nhật (thêm, sửa, xóa)
và tra cứu
Chủ yếu là đọc dữ liệu
(read-only)
Phạm vi dữ liệu 30 - 60 ngày Tích lũy theo thời gian
Tổ chức dữ liệu Theo chương trình ứng
dụng
Theo thời gian, theo chủ đề
Quy mô dữ liệu Nhỏ đến lớn Lớn đến rất lớn
Nguồn dữ liệu Dữ liệu tác nghiệp, dữ liệu
bên trong
Dữ liệu tác nghiệp, dữ liệu
bên trong, bên ngoài
Hoạt động Xử lý, tác động lên dữ liệu Phân tích trên dữ liệu
1.5. Các phương pháp luận xây dựng hệ thống DW&BI
Có nhiều phương pháp tiếp cận đã được sử dụng và phổ biến trên thế giới.
Nhưng thông dụng nhất là 3 phương pháp sau:
- Business-Wide Data Warehouse (hay còn gọi là Top-down)
- Independent Data Marts (hay còn gọi là Bottom-up)
19
- Interconnected Data Marts (hay còn gọi là Spiral)
Hình 2.2.3: Các phương pháp luận xây dựng DW&BI
2.2.1. Phương pháp luận Top-down
Xây dựng kho dữ liệu theo phương pháp luận Top-down là xây dựng kho dữ
liệu “đầy đủ”, xây dựng ngay và một lần kho dữ liệu đáp ứng được tất cả hoặc phần
lớn những nhu cầu khai thác thông tin, phân tích và lập dự báo chiến lược của mọi đối

tượng sử dụng. Một lần thiết kế cho toàn bộ hệ thống và thực hiện xây dựng toàn bộ
như thiết kế.
2.2.2. Phương pháp luận Bottom-up
Phương pháp Bottom-up xây dựng từng kho dữ liệu cho mỗi chủ đề riêng biệt
và độc lập, đáp ứng được nhu cầu khai thác thông tin, phân tích và lập dự báo chiến
lược của một hoặc một số phòng ban cụ thể trong tổ chức / doanh nghiệp. Với mỗi chủ
đề thông tin nghiệp vụ phát sinh là một lần thiết kế và xây dựng riêng biệt.
2.2.3. Phương pháp luận Spiral
Phương pháp Spiral là phương pháp xây dựng dần từng kho dữ liệu cho mỗi
chủ đề dựa trên mô hình xoáy trôn ốc, mỗi kho dữ liệu chủ đề có khả năng tích hợp lại
thành một Kho dữ liệu đầy đủ.
Sau khi phân tích nghiệp vụ mức tổng thể của toàn bộ doanh nghiệp, liệt kê
danh sách các chủ đề thông tin cần xây dựng kho. Sau đó sẽ thiết kế và xây dựng dần
cho từng kho chủ đề dựa trên thiết kế tổng thể của toàn tổ chức / doanh nghiệp. Thứ tự
20
của việc xây dựng các kho chủ đề sẽ được dựa trên tính quan trọng của nghiệp vụ và
tính hiệu quả.
2.2.4. Ưu/Nhược điểm của từng phương pháp
Dưới đây là bảng phân tích những ưu điểm và nhược điểm của từng phương
pháp xây dựng hệ thống DW&BI.
Phương pháp
tiếp cận
Ưu điểm Nhược điểm
Business-wide
data
warehouse
(Top-Down)
- Hệ thống được xây dựng với
định hướng là đáp ứng được
các nhu cầu về thông tin

nghiệp vụ tổng hợp của mọi
đối tượng sử dụng.
- Rủi ro cao do thời gian thực
hiện dự án lâu (2-4 năm) và
chi phí ban đầu rất lớn và
nghiệp vụ bị thay đổi ngay
trong quá trình triển khai dự
án
- Đòi hỏi tài nguyên và cơ sở
hạ tầng tốt
- Đòi hỏi trình độ của người
sử dụng và kỹ thuật cao và
đồng đều
Independent
Data Marts
(Bottom_Up)
- Đáp ứng nhanh các nhu cầu
khai thác thông tin của một
hoặc một số đối tượng sử
dụng. Nên rất dễ nhìn thấy
hiệu quả đầu tư
- Chi phí ban đầu cho việc
xây dựng từng kho dữ liệu
thấp
- Không đáp ứng được nhu
cầu khai thác thông tin mức
tổng thể của tổ chức / doanh
nghiệp
- Dữ liệu bị dư thừa nhiều do
đó tính nhất quán không cao

- Chi phí bảo trì vận hành
hàng năm lớn
- Chi phí cho việc “tích hợp”
thành một hệ thống tổng thể
là rất lớn
Interconnecte
d Data Marts
(Spiral)
- Tính hiệu quả và khả thi cao
- Độ rủi ro thấp
- Đáp ứng dần từng nhu cầu
khai thác thông tin của đối
tượng sử dụng theo mức độ
ưu tiên
- Đáp ứng được nhu cầu khai
- Cần thời gian cho việc phân
tích tổng thể trong giai đoạn
đầu của dự án
- Cần có sự đánh giá đúng về
thứ tự ưu tiên và phạm vi
trong tứng giai đoạn phát
triển
21
thác thông tin mức tổng thể
của tổ chức / doanh nghiệp
- Tính nhất quán của dữ liệu
cao
- Cần có sự giám sát chặt chẽ
sự đồng bộ giữa thiết kế của
từng Kho dữ liệu thành viên

và Kho dữ liệu tổng thể
2.2.5. Cơ sở lựa chọn phương pháp luận
Việc lựa chọn phương pháp tiếp cận để xây dựng một hệ thống Kho dữ liệu là
một quyết định quan trọng. Ngoài việc dựa vào những phân tích ưu điểm, nhược điểm
như đã nêu ở trên, quyết định lựa chọn cần dựa trên các yếu tố khác như:
- Nhu cầu khai thác thông tin, phân tích, lập báo cáo chiến lược của từng loại đối
tượng sử dụng - mức độ ưu tiên đối với từng loại đối tượng và từng loại yêu cầu
- Kiến trúc hạ tầng / cơ sở vật chất hiện tại
- Kinh phí
- Công nghệ
- Khả năng hỗ trợ, cung cấp dịch vụ của đối tác
- Khả năng của đội ngũ nội tại (người sử dụng và nhân viên kĩ thuật)
Thông thường các doanh nghiệp / tổ chức có quy mô vừa và nhỏ và có nghiệp
vụ ổn định hay chọn phương pháp tiếp cận Top-Down (hay Business-Wide Data
Warehouse). Với các doanh nghiệp và tổ chức lớn có nhiều phòng ban, chi nhánh khác
nhau và có nhu cầu khai thác thông tin rộng lớn của người sử dụng bên ngoài thường
chọn phương pháp tiếp cận Spiral (hay Interconnected Data Marts). Phương pháp
Independent Data Marts rất ít được sử dụng. Đối với các ngân hàng và tổ chức tài
chính lớn, nên chọn theo phương pháp tiếp cận Spiral.
Trong khuôn khổ luận văn, tôi sử dụng phương pháp tiếp cận Spiral để nghiên
cứu, xây dựng kho dữ liệu với chủ để tín dụng. Sau này nếu có điều kiện, tôi sẽ tích
hợp các phần nghiệp vụ khác để tạo thành một kho dữ liệu hoàn chỉnh. Phục vụ công
việc khai thác dữ liệu và hỗ trợ ra quyết định tại NHNo&PTNT Việt Nam.
22
CHƯƠNG III. THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI
1.6. Thiết kế logic một hệ thống DW và BI
3.1.1. Phạm vi công việc và phương pháp thực hiện của giai đoạn Thiết
kế logic
2.1.1.1. Phạm vi công việc
Thiết kế logic đưa ra mô hình tổng thể và chi tiết các thành phần của hệ thống

nhưng ở mức logic (chưa gắn với các công nghệ cụ thể), mô tả cấu trúc của các bảng
dữ liệu, quan hệ dữ liệu giữa các bảng, quan hệ giữa các thành phần trong hệ thống,…
với mục tiêu là hệ thống sẽ đáp ứng được các nhu cầu thông tin của người dùng đã xác
định ở giai đoạn khảo sát và phân tích.
Đầu vào của giai đoạn thiết kế logic là bộ tài liệu kết quả của những giai đoạn
trước: Khảo sát, Phân tích. Những tài liệu đầu vào chính cho giai đoạn thiết kế logic
bao gồm:
- Báo cáo khảo sát:
o Hiện trạng của việc cung cấp thông tin
o Các nhu cầu thông tin trong tương lai
o Hiện trạng dữ liệu nguồn
o Hiện trạng hạ tầng thông tin
- Tài liệu phân tích
o Mức độ đáp ứng các nhu cầu thông tin: về nội dung và về phương thức cung
cấp
o Mức độ ưu tiên của thông tin (dựa trên tầm quan trọng, tính cấp thiết,…)
o Tổng hợp thành các chủ đề thông tin mà hệ thống mới sẽ đáp ứng, thống
nhất phạm vi xây dựng hệ thống.
Nội dung công việc của giai đoạn thiết kế logic:
- Thiết kế mô hình tổng thể của hệ thống (ở mức logic, chưa gắn với các công
nghệ cụ thể).
- Thiết kế chi tiết từng thành phần (ở mức logic, chưa gắn với các công nghệ cụ
thể.
Các kết quả của giai đoạn thiết kế logic:
- Tài liệu thiết kế logic của hệ thống với các nội dung chính
o Mô hình tổng thể
o Thiết kế chi tiết từng thành phần (các sơ đồ quan hệ ERD, cấu trúc logic các
bảng, các mapping, các thủ tục chuyển đổi dữ liệu,…).
23
2.1.1.2. Phương pháp thực hiện

Giai đoạn thiết kế logic được thực hiện theo trình tự sau:
- Thiết kế mô hình tổng thể
- Thiết kế các CSDL chủ đề (DM)
- Thiết kế CSDL tích hợp (EM)
- Thiết kế CSDL trung chuyển (các DSA nguồn và DSA đích)
- Thiết kế Metadata
- Thiết kế các tiến trình ETL:
o Chuyển dữ liệu từ Data Source sang DSA
o Chuyển dữ liệu từ DSA sang EM
o Chuyển dữ liệu từ EM sang các DM
- Thiết kế tầng khai thác và phân tích thông tin
o Thiết kế CSDL đa chiều (OLAP)
o Thiết kế tầng dữ liệu người dùng (End_User Layer)
3.1.2. Thiết kế tổng thể
2.1.2.1. Mô hình logic tổng thể của hệ thống
Tùy theo từng dự án cụ thể, mô hình logic tổng thể có thể khác nhau, nhưng
nhìn chung một hệ thống DW và BI điển hình sẽ được thể hiện như hình dưới đây:
Hình 3.1.4: Mô hình logic tổng thể của hệ thống DW&BI
24
2.1.2.2. Dữ liệu nguồn (Data source)
Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sách
nguồn dữ liệu được lựa chọn để đưa vào kho dữ liệu tập trung. Dữ liệu nguồn điển
hình của DW là các CSDL tác nghiệp bên trong tổ chức, cung cấp số liệu chi tiết về
các giao dịch phát sinh hàng ngày; các CSDL này có thể được xây dựng trên các công
nghệ khác nhau (Oracle, SQL Server, Foxpro,…).
Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file (text, xml, excel, …);
có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chức liên kết, các cơ quan
nhà nước,…)
2.1.2.3. Kho dữ liệu tập trung (Data Warehouse)
Kho dữ liệu tích hợp là thành phần trung tâm của hệ thống, là nơi lưu trữ dữ

liệu tập trung từ các nguồn về, DW bao gồm một tập hợp các CSDL quan hệ được thiết
kế nhằm đảm bảo lưu trữ khối lượng lớn dữ liệu đồng thời đáp ứng tốt nhất các nhu
cầu tra cứu, khai thác dữ liệu. Trong DW có các CSDL sau:
- DSA: CSDL trung chuyển, chứa dữ liệu tạm thời của một phiên
chuyển dữ liệu, phục vụ công việc xử lý, làm sạch trước khi đưa vào CSDL
chính. DSA có hai loại:
o DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở
dạng 1:1 về nội dung và cấu trúc, phạm vi dữ liệu là một phiên
o DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ
liệu là một phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữ
liệu vào CSDL tích hợp.
- EM: CSDL tích hợp, chứa dữ liệu của toàn bộ các nguồn, đó là
các dữ liệu đã được xử lý, làm sạch và tích hợp. EM cần đảm bảo cung cấp đủ
dữ liệu cho tất cả các DM.
- DM: CSDL chủ đề, chứa dữ liệu về một chủ đề thông tin xác
định, phục vụ một lớp đối tượng người dùng cụ thể. Tất cả các DM đều có dữ
liệu nguồn là EM.
- OLAP: CSDL chủ đề đã được tổng hợp sẵn, được tổ chức ở dạng
đa chiều nhằm mục đích đáp ứng nhanh nhất việc khai thác thông tin. Nguồn dữ
liệu cho OLAP là từ EM hoặc các DM.
Bên trong DW có tiến trình ETL: thu thập, làm sạch, tích hợp dữ liệu; chuyển
dữ liệu từ nguồn vào các CSDL bên trong DW
2.1.2.4. BI: Tầng ứng dụng khai thác và phân tích thông tin
BI là một môi trường thuận tiện để người dùng nghiệp vụ làm việc với hệ
thống, cho phép người dùng chủ động khai thác, phân tích, tạo báo cáo, chia sẻ thông
tin,… Thành phần BI này bao gồm:
25
- Lớp dữ liệu nghiệp vụ: các thuật ngữ/tên gọi dành cho người
dùng nghiệp vụ, mỗi thuật ngữ tương ứng với các trường dữ liệu trong các DM.
- Nơi chứa các kết quả phân tích, báo cáo.

- Các chương trình ứng dụng, các công cụ dùng để khai thác và
phân tích.
- Cổng giao tiếp với end-user (ví dụ: web portal, office, …).
2.1.2.5. Administration: Quản trị hệ thống
Administration là thành phần dành cho các chuyên gia kỹ thuật thực hiện việc
quản trị, vận hành hệ thống, đảm bảo hệ thống hoạt động ổn định, an toàn và các dữ
liệu được làm mới định kỳ. Thành phần này bao gồm:
- Metadata: lưu thông tin về các nguồn dữ liệu, thông tin của các
CSDL thành phần trong kho dữ liệu tập trung; thông tin quản lý các tiến trình
ETL.
- Các công cụ quản trị, vận hành hệ thống (quản trị, vận hành các
tiến trình, các job tự động, các công việc backup/recovery…).
3.1.3. Thiết kế chi tiết từng thành phần
2.1.3.1. Data Warehouse (Kho dữ liệu tập trung)
a. Các mô hình CSDL trong thiết kế Data Warehouse
Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó
là: mô hình sao và mô hình bông tuyết:
Star Schema (CSDL hình sao): là CSDL quan hệ được thiết kế logic dạng hình
sao bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu
danh mục xung quanh (kiểu 1:N). Mỗi bảng danh mục đều là bảng duy nhất của
nhánh, không có quan hệ với bảng danh mục nào khác. Ví dụ, trong mô hình star sau
đây, bảng dữ liệu trung tâm thể hiện sản lượng và doanh số, các bảng danh mục xung
quanh là: khách hàng, sản phẩm, kênh phân phối, thời gian. Mục tiêu của mô hình sao
là truy vấn dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục.
Hình 3.1.5: Star schema (CSDL hình sao)

×