Tải bản đầy đủ (.pdf) (66 trang)

Xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.05 MB, 66 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN ĐỨC

Xây dựng kho dữ liệu đảm bảo hiệu năng cho
ngân hàng BIDV và thử nghiệm với hệ thống báo
cáo phân tích khách hàng

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà nội - 2015
HÀ NỘI 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN ĐỨC

Xây dựng kho dữ liệu đảm bảo hiệu năng cho
ngân hàng BIDV và thử nghiệm với hệ thống báo
cáo phân tích khách hàng

Ngành

: CÔNG NGHỆ THÔNG TIN

Chuyên ngành : KỸ THUẬT PHẦN MỀM
Mã số


: 60480103

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học:
PGS. TS. TRƯƠNG ANH HOÀNG
Hà nội - 2015
HÀ NỘI 2015


1
LỜI CẢM ƠN
Trước tiên tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với PGS. TS. Trương
Anh Hoàng, Giảng viên Khoa Công nghệ thông tin - Trường Đại học Công nghệ ĐHQGHN. Trong thời gian học tập và làm luận văn tốt nghiệp, thầy đã dành nhiều thời
gian quý báu, tận tình chỉ bảo và hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn.
Tôi xin được cảm ơn các GS, TS, các thầy cô giáo đã giảng dạy tôi trong quá trình
học tập và làm luận văn. Các thầy cô đã giúp tôi hiểu sâu sắc và thấu đáo hơn lĩnh vực mà
mình nghiên cứu để có thể vận dụng các kiến thức đó một cách hiệu quả nhất vào trong
công tác của mình.
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo
mọi điều kiện tốt nhất, giúp đỡ, động viên, ủng hộ và cổ vũ tôi trong suốt quá trình học tập
và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này.

Tác giả

Nguyễn Văn Đức


2
LỜI CAM ĐOAN


Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp đỡ
rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu và kết
quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt
kê tại phần Tài liệu tham khảo ở cuối luận văn.

Hà Nội, ngày……tháng……năm 2015
Tác giả

Nguyễn Văn Đức


3
MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................ 6
DANH MỤC BẢNG BIỂU ................................................................................... 7
DANH MỤC HÌNH VẼ, ĐỒ THỊ ......................................................................... 8
MỞ ĐẦU.............................................................................................................. 10
Chương 1. HỆ THỐNG KHO DỮ LIỆU ................................................................ 12
1.1 Tổng quan kho dữ liệu ................................................................................... 12
1.2 Kiến trúc chung của kho dữ liệu .................................................................... 13
1.3 Mô hình logic của kho dữ liệu ....................................................................... 14
1.4 Mô hình dữ liệu đa chiều ............................................................................... 14
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng ......................................... 15
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng ......................................... 15
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng ............................................. 15
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại .................. 17
1.5.3.1 Cơ sở dữ liệu dùng cho bài toán kho dữ liệu................................... 17

1.5.3.2 Công cụ trích lọc dữ liệu ................................................................. 17
1.5.3.3 Công cụ phân phối báo cáo ............................................................. 18
1.5.3.4 Mô hình thiết kế kho dữ liệu ........................................................... 18
Chương 2. XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG
XỬ LÝ CHO NGÂN HÀNG ............................................................................................. 20
2.1 Mục tiêu ......................................................................................................... 20
2.2 Một số giải pháp công nghệ về kho dữ liệu ................................................... 20
2.3 Thiết kế, xây dựng mô hình hệ thống kho dữ liệu mới .................................. 21


4
2.4 Các thành phần cần nâng cấp, bổ sung .......................................................... 22
2.4.1 Hệ thống cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu ............... 22
2.4.2 Hệ thống công cụ trích lọc dữ liệu .......................................................... 24
2.4.2.1 Tầm quan trọng của quá trình trích lọc dữ liệu ............................... 24
2.4.2.2 Hệ thống trích lọc dữ liệu IBM DataStage ...................................... 26
2.4.3 Hệ thống phân phối báo cáo tập trung ..................................................... 29
2.4.3.1 Các công cụ chính của IBM Cognos ............................................... 30
2.4.3.2 Một số đặc trưng cơ bản của IBM Cognos ..................................... 33
2.4.4 Mô hình thiết kế tổng thể cho kho dữ liệu ............................................... 34
2.4.4.1 Kiến trúc tổng quan của IBM Banking Data Model ....................... 35
2.4.4.2 Những điểm nổi bật của IBM Banking Model ................................ 39
2.5 Kết quả thử nghiệm ........................................................................................ 40
2.5.1 Thực nghiệm so sánh tốc độ trên các cơ sở dữ liệu ................................. 40
2.5.2 Thực nghiệm với hệ thống công cụ trích lọc dữ liệu ............................... 43
2.5.3 Nhận xét thực nghiệm.............................................................................. 44
2.6 Kết luận .......................................................................................................... 45
Chương 3. THỬ NGHIỆM VỚI BÀI TOÁN PHÂN TÍCH KHÁCH HÀNG ....... 46
3.1 Mục tiêu ......................................................................................................... 46
3.2 Yêu cầu chức năng ......................................................................................... 46

3.3 Thiết kế tổng thể ............................................................................................ 46
3.3.1 Mô hình logic ........................................................................................... 46
3.3.2 Thiết kế bảo mật ...................................................................................... 48
3.4 Thiết kế dữ liệu chuyên đề Phân tích khách hàng ......................................... 48
3.4.1 Thiết kế dữ liệu chỉ tiêu ........................................................................... 48


5
3.4.2 Thiết kế mô hình dữ liệu đa chiều với công cụ IBM Cognos Framework
Manager ....................................................................................................................... 49
3.4.3 Thiết kế job trích xuất dữ liệu từ kho dữ liệu vào kho dữ liệu chuyên đề
Phân tích khách hàng ................................................................................................... 50
3.4.4 Thiết kế lớp bảo mật phân quyền theo người dùng ................................. 53
3.4.5 Triển khai dữ liệu đa chiều lên máy chủ Cognos .................................... 53
3.4.6 Khai thác dữ liệu đa chiều ....................................................................... 53
3.4.7 Kết quả thử nghiệm ................................................................................. 55
KẾT LUẬN .......................................................................................................... 56
TÀI LIỆU THAM KHẢO.................................................................................... 58
PHỤC LỤC .......................................................................................................... 59


6
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt
AS400
ASTs
BDW
BI
BIDV
Core Banking

DataMart
DTS
DWH
EDM
Engine
ETL
FSDM
ODBC
OLAP
OLTP
STG

Ý nghĩa
Hệ thống máy chủ của IBM triển khai Core Banking cho ngân
hàng
The Application Solution Templates Model
IBM Banking Data Warehouse
Business Intelligence
Ngân hàng TMCP Đầu tư và Phát triển Việt Nam
Hệ thống ngân hàng lõi
Dữ liệu chuyên đề
Data Transformation Services
Data Warehosuse
Enterprise Data Model
Phần mở rộng có thể thêm vào để biến hệ thống xử lý hiện tại
thành hệ thống tính toán lớn hơn
Extract Transform Load
Financial Services Data Model
Microsoft Open Database Connectivity
Online Analytical Processing

Online Transaction Processing
Staging Area


7
DANH MỤC BẢNG BIỂU
Bảng 2.14 Bảng kết quả thực nghiệm 1 .................................................................. 41
Bảng 2.15 Bảng kết quả thực nghiệm 2 .................................................................. 41
Bảng 2.16 Bảng kết quả thực nghiệm 3 .................................................................. 42
Bảng 2.18 Bảng kết quả thực nghiệm mô hình ET-L và E-T-L.............................. 43


8
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu.............................................................. 14
Hình 1.2 Mô hình dữ liệu đa chiều. ......................................................................... 15
Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng ..................................................... 16
Hình 2.1 Mô hình tổng thể kho dữ liệu mới ............................................................ 22
Hình 2.2 Mô hình xử lý theo ET-L ......................................................................... 26
Hình 2.3 Mô hình xử lý theo EL-T ......................................................................... 26
Hình 2.4 Mô hình xử lý theo E-T-L ........................................................................ 27
Hình 2.5 E-T-L thiết kế theo công cụ IBM DataStage............................................ 28
Hình 2.6 Hệ thống DataStage mở rộng cấu phần Engine ....................................... 29
Hình 2.7 Các công cụ của hệ thống phân phối báo cáo tập trung ........................... 30
Hình 2.8 Công cụ Framework Manager .................................................................. 33
Hình 2.9 Mô hình mở rộng của hệ thống IBM Cognos .......................................... 34
Hình 2.10 Kiến trúc tổng quát của IBM Banking Data Model ............................... 35
Hình 2.11 Kiến trúc tổng quát của FSDM .............................................................. 36
Hình 2.12 Khu vực mẫu theo các mảng nghiệp vụ trong ngân hàng ...................... 38
Hình 2.13 Khu vực mẫu theo các mảng báo cáo tuân thủ ....................................... 39

Đồ thị 2.17 Kết quả của 3 lần thực nghiệm về thời gian truy vấn dữ liệu .............. 42
Đồ thị 2.19 Kết quả của 3 lần thực nghiệm theo mô hình E-T-L và ET-L về thời gian
ảnh hưởng tới máy chủ nguồn ............................................................................................ 44
Hình 3.1 Nhóm chuyên đề lợi nhuận trong mô hình kho dữ liệu............................ 47
Hình 3.2 Bài toán phân tích khách hàng trong mô hình kho dữ liệu mới ............... 47
Hình 3.3 Mô hình thực thể trong thiết kế dữ liệu đa chiều ..................................... 49
Hình 3.4 Thiết kế dữ liệu đa chiều .......................................................................... 50


9
Hình 3.5 Luồng jobs DWH_MASTER ................................................................... 51
Hình 3.6 Luồng jobs Load_Source_to_STG ........................................................... 51
Hình 3.7 Luồng jobs dữ liệu chuyên đề .................................................................. 52
Hình 3.8 Luồng jobs xử lý chi tiết dữ liệu liên quan tới tiền gửi có kỳ hạn ........... 52
Hình 3.9 Triển khai dữ liệu đa chiều lên máy chủ Cognos ..................................... 53
Hình 3.10 Mành hình khai thác dữ liệu đa chiều .................................................... 54
Hình 3.11 Kết quả khai thác dữ liệu ........................................................................ 54


10
MỞ ĐẦU
Cùng với sự phát triển nhanh chóng và không ngừng mở rộng quy mô của các tổ
chức tài chính ngân hàng, trong quá trình hoạt động khối lượng dữ liệu thông tin lưu trữ
ngày càng gia tăng. Trong suốt quá trình phát triển đó việc thu thập và xử lý kho dữ liệu
khổng lồ trở lên quan trọng hơn bao giờ hết. Việc tổ chức lưu trữ và khai thác kho dữ liệu
một cách hiệu quả sẽ giúp cho các tổ chức tài chính ngân hàng thực hiện tốt công tác quản
trị điều hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh.
Hệ thống kho dữ liệu trong ngân hàng sẽ giúp xây dựng một nền tảng dữ liệu và
công nghệ mạnh mẽ, tin cậy, giúp đáp ứng các yêu cầu hiện tại và nhu cầu phát triển và mở
rộng trong tương lai. Là trung tâm của các hệ thống phân tích thông tin, dữ liệu toàn ngân

hàng sẽ được hợp nhất tại kho dữ liệu. Nhằm đáp ứng và cung cấp thông tin một cách kịp
thời, chính xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu,
hỗ trợ ra quyết định. Do đó hiệu năng xử lý dữ liệu của kho dữ liệu trong ngân hàng cần
được nâng cao để đáp ứng được nhu cầu khai thác sử dụng của tổ chức tài chính ngân hàng.
Hiệu năng của một hệ thống kho dữ liệu được thể hiện qua một số các phương diện chính
như sau: Tốc độ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mở rộng và phát triển kho dữ
liệu bao gồm về việc phát triển mô hình dữ liệu và hạ tầng kho dữ liệu, tùy biến theo yêu
cầu khai thác và phân tích dữ liệu của người dùng.
Với thực trạng hiện nay của ngân hàng BIDV chưa có một hệ thống kho dữ liệu tổng
thể, thống nhất toàn ngân hàng, chưa đáp ứng tốt về hiệu năng và tồn tại khá nhiều hạn chế.
Đây là một bài toán thực tế hiện tại của ngân hàng, tác giả đã cùng với các đồng nghiệp đã
nghiên cứu và lên phương án xây dựng một nền tảng công nghệ thông tin trong toàn ngân
hàng để đáp ứng những yêu cầu về hệ thống công nghệ thông tin hỗ trợ các ban nghiệp vụ
trong môi trường kinh doanh mới, trong đó với vai trò là đầu mối về hệ thống kho dữ liệu
tác giả đã nghiên cứu, đánh giá những hạn chế của hệ thống kho dữ liệu cũ và đưa ra những
giải pháp để giải quyết những hạn chế của hệ thống kho dữ liệu cũ. Để hướng tới xây dựng
một hệ thống kho dữ liệu có hiệu năng xử lý cao đề tài “Xây dựng kho dữ liệu đảm bảo
hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng”
đã được chọn làm đề tài luận văn cao học của tôi.
Trong luận văn đã tiến hành nghiên cứu đánh giá hiện trạng, các hạn chế của hệ
thống kho dữ liệu hiện tại trong ngân hàng từ đó đưa ra những giải pháp cụ thể cho từng
vấn đề hạn chế và xây dựng hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý, khắc phục
những hạn chế của hệ thống cũ và thử nghiệm với bài toàn cụ thể để chứng minh hiệu quả


11
của kho dữ liệu mới. Một số công việc tác giả đã thực hiện và kết quả chính của luận
văn có thể tóm tắt như sau:
Công việc thực hiện:
1. Nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại

trong ngân hàng.
2. Đề xuất mô hình kiến trúc hệ thống kho dữ liệu mới nhằm giải quyết các hạn chế
của hệ thống kho dữ liệu cũ trong đó bao gồm các thành phần bổ sung chính như
sau:
a. Hạ tầng của kho dữ liệu bao gồm: Cơ sở dữ liệu chuyên dụng cho bài
toán kho dữ liệu, kiến trúc cho phép mở rộng về mô hình các công cụ trích
lọc dữ liệu, công cụ phân tích và khai thác báo cáo, đáp ứng đối với dữ
liệu ngày càng tăng trưởng trong ngân hàng.
b. Mô hình của kho dữ liệu: Nghiên cứu và áp dụng mô hình kho dữ liệu
tiên tiến của IBM.
3. Thiết kế thử nghiệm với hệ thống báo cáo phân tích khách hàng nhằm đánh giá
hiệu năng xử lý của kho dữ liệu mới.
Kết quả đạt được:
Xây dựng hệ thống kho dữ liệu mới áp dụng cho toàn ngân hàng, thay thế hệ thống
cũ và hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý, giải quyết những hạn chế của hệ
thống cũ.
Nội dung chính của luận văn gồm 3 chương:
Chương 1 Hệ thống kho dữ liệu: Giới thiệu tổng quát một số khái niệm về kho dữ
liệu. Nghiên cứu hiện trạng và đánh giá những hạn chế của hệ thống cũ.
Chương 2 Xây dựng hệ thống kho dữ liệu đáp ứng hiệu năng xử lý cho ngân
hàng: Tìm hiểu và đánh giá một số giải pháp về kho dữ liệu trên thị trường. Áp dụng giải
pháp của IBM để xây dựng hệ thống kho dữ liệu mới nhằm giải quyết những hạn chế của
hệ thống cũ. Tiến hành một số thử nghiệm cải tiến để kiểm chứng hiệu năng xử lý dữ liệu
của hệ thống mới so với hệ thống cũ.
Chương 3 Thử nghiệm với bài toán phân tích khách: Thử nghiệm với một bài
toán cụ thể từ đó rút ra kết luận đối với hệ thống kho dữ liệu mới.
Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài trong tương lai


12


Chương 1. HỆ THỐNG KHO DỮ LIỆU
1.1 Tổng quan kho dữ liệu
Kho dữ liệu (Data Warehouse): là tập hợp dữ liệu tương đối ổn định (ít có sự thay
đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ thể nhằm hỗ trợ quá trình quá
trình tạo quyết định về mặt quản lý [1].
Các đặc trưng của kho dữ liệu như sau:
Theo chủ đề: Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những
dữ liệu có ích. Dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản
phẩm, dịch vụ, v.v... tập trung vào sự mô hình hóa và phân tích dữ liệu cho các nhà phân
tích ra quyết định mà không tập trung vào xử lý dữ liệu thông thường. Cung cấp cho người
dùng có một cách nhìn toàn diện, đầy đủ về các sự kiện quanh các chủ đề.
Dữ liệu tích hợp: Dữ liệu tập hợp từ nhiều nguồn khác nhau có các cơ chế lưu trữ
khác nhau: Cơ sử dữ liệu, Excel file, Flat file, v.v… điều này sẽ dẫn đến việc quá trình tập
hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu nhằm đảm bảo tính nhất quán dữ
liệu.
Dữ liệu cố định: Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay
sửa. Dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một thời gian
dài, khi dữ liệu đã được chuyển đổi vào kho dữ liệu thì thao tác cập nhật và xóa dữ liệu
thường không xảy ra. Dữ liệu của kho dữ liệu chỉ có hai thao tác là thêm mới và đọc dữ
liệu.
Biến thời gian: Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc
tác động lên nhau. Phạm vi về thời gian trong kho dữ liệu được lưu dài hơn so với hệ thống
tác nghiệp nếu như đối với hệ thống tác nghiệp dữ liệu thông thưởng chỉ lưu giá trị hiện tại
nhưng với dữ liệu trong kho dữ liệu cung cấp thông tin lịch sử lâu dài hơn. Biến thời gian
cũng là một khóa chính để đảm bảo tính duy nhất của dữ liệu.
Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo
mới nên nó được tối ưu cho việc phân tích và báo cáo. Các thao tác với dữ liệu của kho dữ
liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều (multidimensional data model), được mô

hình vào đối tượng gọi là data cube. Data cube là nơi trung tâm của vấn đề cần phân tích,
nó bao gồm một hay nhiều tập dữ kiện giá trị (fact) và các dữ kiện được tạo ra từ nhiều
chiều dữ kiện khác nhau (dimention).


13
Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm, thời gian và chủng
loại hàng. Mô hình dữ liệu đa chiều là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu
tố: địa điểm, thời gian và chủng loại hàng. Bảng fact là bảng tổng hợp dữ liệu của mối liên
quan của doanh số với 3 yếu tố.
Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Prosessing), rất
phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung
vào các câu lệnh sau: Thu nhỏ (roll-up) ví dụ nhóm dữ liệu theo chi nhánh thay vì theo
phòng ban. Mở rộng (drill-down) ví dụ mở rộng dữ liệu, nhìn theo phòng ban thay vì theo
chi nhánh. Cắt lát (slice) nhìn theo từng lớp một. Thu nhỏ (dice) bỏ bớt một phần của dữ
liệu.

1.2 Kiến trúc chung của kho dữ liệu
Mô hình kiến trúc cơ bản của kho dữ liệu cơ bản gồm bốn thành phần như sau:
Dữ liệu nguồn: Dữ liệu từ các hệ thống khác nhau (Bao gồm dữ liệu có cấu trúc và
phi cấu trúc) được tập kết lại vào một nới duy nhất.
Khu xử lý dữ liệu: Là nơi dữ liệu sẽ được làm sạch và chuyển đổi để đảm bảo tính
nhất quán dữ liệu trước khi đưa vào kho đích. Thông thường người ta sử dụng các công cụ
trích xuất, chuyển đổi và nạp dữ liệu (ETL).
Kho dữ liệu (nơi lưu trữ dữ liệu): Là nơi dữ liệu được xử lý và được tập kết, lưu
trữ.
Người dùng cuối: Là người dùng khai thác thông tin từ kho dữ liệu.



14
Dữ liệu nguồn

Khu xử lý dữ liệu

Kho lưu trữ dữ liệu

Người dùng cuối

Hệ thống
nguồn

Dữ liệu đa
chiều

Hệ thống
nguồn

Phân tích

Xử lý dữ liệu

Báo cáo

Báo báo

Dữ liệu phi
cấu cấu

Khai phá dữ liệu


Kiến trúc cơ bản của kho dữ liệu

Hình 1.1 Kiến trúc cơ bản của kho dữ liệu

1.3 Mô hình logic của kho dữ liệu
Sơ đồ hình sao (Star schema): Một bảng sự kiện ở trung tâm được kết nối với một
tập các bảng chiều khác nhau.
Sơ đồ bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong đó
một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức
tương tự như bông tuyết.
Sơ đồ chòm sao sự kiện (Fact constellations schema): Bảng sự kiện phức chia sẻ
các bảng chiều, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đồ ngân hà
(galaxy schema) hoặc chòm sao sự kiện.

1.4 Mô hình dữ liệu đa chiều
Đây là mô hình dữ liệu đa chiều xoay quanh các chủ đề nhằm trả lời một cách nhanh
nhất các câu hỏi trong nghiệp vụ phân tích. Có thể nhìn dữ liệu như là một khối trong đó


15
mỗi chiều là một khía cạnh của bài toán giúp cho các nhà phân tích có thể nhìn thấy, đánh
giá số liệu theo nhiều chiều.

Sản phẩm

Khách hàng

Dữ liệu đa chiều


Hình 1.2 Mô hình dữ liệu đa chiều.
Ở hình 1.2 khối dữ liệu gồm có 3 chiều: khách hàng, sản phẩm, thời gian.

1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng
Từ năm 2004 đến nay BIDV đã trang bị hệ thống Core Banking mạnh phục vụ các
mảng kinh doanh của mình. Song song với đó các hệ thống báo cáo phục vụ công tác thống
kê, quản lý lần lượt đưa vào khai thác. Tuy nhiên, các hệ thống báo cáo này vẫn chưa đầy
đủ và còn manh mún, nằm rời rạc ở các vị trí khác nhau. Hệ thống báo cáo rời rạc chia
thành các nhóm cụ thể như sau:
Hệ thống báo cáo tại Core Banking nằm trên hệ thống Core Banking phục vụ công
tác hàng ngày của hoạt động tác nghiệp trong ngân hàng. Hệ thống báo cáo kho dữ liệu là
hệ thống báo cáo phân tích đa chiều lớn gồm hàng trăm báo cáo dựa trên công nghệ của
Microsoft và hàng trăm hệ thống báo cao đơn lẻ do BIDV tự xây dựng và phát triển.

1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng
Hệ thống kho dữ liệu trong ngân hàng được xây dựng và duy trì từ năm 2005 đến
nay, đượt thiết kế bởi nhà thầu Silverlake. Hình 1.3 mô tả hệ thống kho dữ liệu hiện tại của
ngân hàng [2].


16

CoreBanking
DTS

ATM System

STG
(Staging Area)


Loan
DTS

EDM
(Enterprise data
model)

Deposit
......

/> />imgres?imgurl=http://
imgres?imgurl=http://
tinhocvanphong.edu.vn/
tinhocvanphong.edu.vn/
wp-content/uploads/2013/
wp-content/uploads/2013/
10/khoa-hoc-excel10/khoa-hoc-excel2010.jpg&imgrefurl=http://
2010.jpg&imgrefurl=http://
tinhocvanphong.edu.vn/
tinhocvanphong.edu.vn/
hoc-tin-hoc/excel-2010/
hoc-tin-hoc/excel-2010/
khoa-hoc-excel-2010/
khoa-hoc-excel-2010/
&h=529&w=1024&tbnid=-&h=529&w=1024&tbnid=-J3eLOuaKdWkM:&docid=J3eLOuaKdWkM:&docid=qfVLXIiqWX1zM&ei=_5GuV
qfVLXIiqWX1zM&ei=_5GuV
cfaI8ermAWicfaI8ermAWi7H4Aw&tbm=isch&ved=0C
7H4Aw&tbm=isch&ved=0C
EcQMygeMB5qFQoTCIfWi

EcQMygeMB5qFQoTCIfWi
Hình 1.3
Kiến
trúc
kho
dữ
liệu
trong
ngân
hàng
Nrv7MYCFccVpgodon0MP
Nrv7MYCFccVpgodon0MP
w
w

Mô tả chi tiết luồng xử lý hệ thống kho dữ liệu trong ngân hàng

Hệ thống kho dữ liệu lưu trữ dữ liệu bao gồm khu vực dữ liệu nguồn (Source data)
và khu vực kho dữ liệu nằm chính trên máy chủ triển khai hệ thống Core Banking (máy chủ
AS400) có nghĩa là máy chủ triển khai hệ thống Core Banking cũng đồng thời là máy chủ
xử lý chính của kho dữ liệu, hai hệ thống trên cùng một máy chủ hệ thống tác nghiệp và hệ
thống báo cáo kho dữ liệu với cơ sở dữ liệu là DB2 được tích hợp luôn trên máy chủ. Dữ
liệu nguồn hầu hết nằm chính tại máy chủ AS400 bao gồm toàn bộ dữ liệu tác nghiệp của
Core Banking, dữ liệu từ các hệ thống khác hầu như không có. Dữ liệu nguồn sẽ được tập
kết tại một chỗ gọi là khu vực STG từ khu vực này dữ liệu sẽ được làm giàu, làm sạch, tổng
hợp, chuẩn hóa dữ liệu, chuẩn bị được đẩy vào khu vực EDM (Enterprise data model) bằng
cung cụ DTS (Data Transformation Services) một sản phẩm trong bộ SQL Server của
Microsoft. Dữ liệu sau khi đã được hợp nhất, tính toán, làm giàu, làm sạch từ khu vực EDM
dữ liệu sẽ được chuyển sang dạng dữ liệu đa chiều (OLAP) theo các bài toán chủ đề khác



17
nhau để người dùng khai thác thông qua công cụ Excel. Dữ liệu đa chiều được thực hiện
tổng hợp thông qua công cụ DTS và được lưu trữ trên cơ sở dữ liệu [3] SQL Server 2000.
Như vậy về tổng quan kho dữ liệu hiện tại của ngân hàng được nhìn dưới ba góc độ
về hạ tầng như sau: Cơ sở dữ liệu dùng cho bài toán kho dữ liệu, cơ sở dữ liệu DB2 được
tích hợp sẵn trên máy chủ Core Banking AS400 (máy mainframe). Công cụ trích lọc dữ
liệu, sử dụng DTS một trong các công cụ của SQL Server về trích lọc dữ liệu. Công cụ
khai thác, phân tích sử dụng Excel kết nối tới OLAP được lưu trữ trên SQL Server 2000.

1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại
Tác giả đã dựa vào những phương diện sau để phân tích đánh giá những mặt hạn chế
của kho dữ liệu hiện tại trong ngân hàng bao gồm: (i) Cơ sở dữ liệu dùng cho bài toán kho
dữ liệu. (ii) Công cụ trích lọc dữ liệu. (iii) Công cụ phân phối báo cáo. (iv) Mô hình thiết
kế của kho dữ liệu.
Từ đó đưa ra hướng giải pháp mới nhằm nâng cao hiệu quả về hiệu năng xử lý của
kho dữ liệu.
1.5.3.1 Cơ sở dữ liệu dùng cho bài toán kho dữ liệu
Cơ sở dữ liệu DB2 được tính hợp sẵn trên máy chủ AS400 được triển khai cùng với
Core Banking, hệ cơ sở dữ liệu này được triển khai nhằm mục đích chính cho bài toán tác
nghiệp phù hợp với bài toán OLTP của ngân hàng và cấu phần kho dữ liệu được triển khai
thêm sau đó.
Do vậy tồn tại bài toán tác nghiệp và bài toán xử lý kho dữ liệu trên cùng một máy
chủ Core Banking điều này ít nhiều làm ảnh hưởng tới hiệu năng của hệ thống tác nghiệp
do phải chia sẻ tài nguyên cho hệ thống kho dữ liệu. Thông thường hệ thống tác nghiệp sẽ
bắt đầu ngày làm việc mới khoảng 8h mỗi sáng nhưng hệ thống kho dữ liệu thì kết thúc
muộn hơn rất nhiều. Hệ thống kho dữ liệu thường bắt đầu từ 2h sáng và thường kết thúc
vào 12h giờ hàng ngày với tổng dung lượng dữ liệu xử lý vào khoảng 30GB điều này gây
áp lực rất lớn lên hệ thống giao dịch hàng ngày của ngân hàng và cũng gây khó khăn cho
việc khai thác phân tích số liệu phục vụ công tác quản trị điều hành tại ngân hàng.

1.5.3.2 Công cụ trích lọc dữ liệu
Hiện tại ngân hàng đang sử dụng ETL bằng công cụ DTS của SQL Server 2000 để
thực hiện quá trình trích lọc dữ liệu, công cụ này hiện nay đang gặp phải một số hạn chế
như sau:


18
Không có khả năng mở rộng về hạ tầng và chạy trên nền tảng của Microsoft chỉ phù
hợp đối với các bài toán nhỏ và vừa. Hiện nay với việc cần phải xử lý dữ liệu đầu ngày
khoảng 300G đã gây ra áp lực rất lớn lên hệ thống ETL của ngân hàng.
Chỉ hỗ trợ mô hình triển khai theo hướng ET-L hoặc EL-T có nghĩa là máy chủ cài
đặt DTS chỉ làm nhiệm vụ trích xuất (Extract) hoặc truyền tải (Load) còn chuyển đổi
(Transform) sẽ được thực hiện tại nguồn hoặc đích. Việc thiết kế này phụ thuộc hoàn toàn
vào hiệu năng xử lý của máy của nguồn hoặc đích. Không có khả năng mở rộng về các cụm
máy chủ chỉ để dùng cho việc chuyển đổi số liệu khi bài toán dữ liệu ngày càng tăng trưởng.
Do đó mô hình này cũng đã một phần ngây tải cho hệ thống xử lý tác nghiệp hàng ngày
trong ngân hàng.
1.5.3.3 Công cụ phân phối báo cáo
Việc khai thác và phân phối báo cáo theo chủ đề hiện nay tại ngân hàng sử dụng qua
công cụ Excel kết nối tới mô hình dữ liệu đa chiều (OLAP) qua phương thức kết nối ODBC
mà chưa có một công cụ chuyên biệt để thực hiện việc phân phối báo cáo tới người dùng.
Một số hạn chế khi sử dụng công cụ Excel cho bài toán phân tích hiện nay trong ngân hàng
như sau:
Dữ liệu khai thác trên Excel chỉ khai thác được trên tập dữ liệu nhỏ và dữ liệu OLAP
được lưu trên SQL Server bị giới hạn dung lượng do đó bài toán này chỉ phù hợp với dữ
liệu vừa và nhỏ không phù hợp với dữ liệu lớn.
Việc khai thác trên các dữ liệu chuyên đề không linh hoạt gây khó khăn cho người
dùng đối với các phân tích cần lọc dữ liệu thì Excel sẽ thực hiện việc load toàn bộ data lên
Excel rồi mới thực hiện việc lọc điều này dẫn đến nhiều bài toán phân tích trên dữ liệu
chuyên đề không thực hiện được do bị giới hạn về số lượng bản ghi hiển trị trên Excel tùy

thuộc từng phiên bản của Excel.
Dữ liệu trong kho dữ liệu mới chỉ được cung cấp tại Hộ sở chính mà chưa được phân
phối trên toàn ngân hàng.
Cơ chế phân quyền bảo mật đối với việc khai thác và phân phối báo cáo qua Excel
chưa đảm bảo tính an toàn và bảo mật.
1.5.3.4 Mô hình thiết kế kho dữ liệu
Việc triển khai kho dữ liệu trong ngân hàng chưa có một mô hình thiết kế tổng thể
để từ đó có thể dễ dàng mở rộng và phát triển các bài toán phân tích khác nhau phục vụ nhu
cầu quản trị điều hành trong môi trường cạnh tranh ngày càng mãnh liệt.


19
Chưa có một mô hình tổng thể bao trùm các mảng phân tích trong ngân hàng như:
Quản lý rủi ro, phân tích khác hàng, quản lý tài sản nợ có, phân tích khách hàng trung thành
dời đi, phân tích bán chéo sản phẩm, các bài toán về báo cáo tuân thủ, v.v… hiện tại kho
dữ liệu mới chỉ dừng lại ở các bài toàn phục vụ tác nghiệp là chính chưa có những mô hình
chuyên sâu, chuyên biệt để thực hiện phát triển, kiểm soát các hoạt động của ngân hàng
trong xu hướng phát triển mới.


20

Chương 2. XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG
HIỆU NĂNG XỬ LÝ CHO NGÂN HÀNG
2.1 Mục tiêu
Mục tiêu chung: Xây dựng một cơ sở hạ tầng phục vụ xây dựng báo cáo thống kê
tập trung trên nền tảng công nghệ hiện đại, công cụ xây dựng và khai thác chuyên nghiệp.
Đổi mới phương pháp phân phối dữ liệu theo hướng đáp ứng yêu cầu ngày càng đa dạng
của nghiệp vụ.Thống nhất mô hình dữ liệu, đảm bảo các khai thác dữ liệu từ tất cả các
nguồn hiện có tính thống nhất trong toàn ngân hàng.

Mục tiêu chi tiết: Với các hạn chế đã phân tích đánh giá ở Chương 1 hệ thống kho
dữ liệu mới cần khắc phục được những hạn chế đã nêu với bốn phương diện cần cải tiến và
bổ sung bao gồm: Hệ cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu, hệ thống trích
lọc dữ liệu, hệ thống phấn phối báo cáo và mô hình thiết kế tổng thể cho kho dữ liệu.

2.2 Một số giải pháp công nghệ về kho dữ liệu
Có nhiều phương thức để đánh giá các giải pháp kho dữ liệu hiện tại trên thế giới.
Các hãng phân tích lớn và uy tín trên thế giới sử dụng các phân tích đa chiều, đồng thời
theo xu hướng phát triển của Công nghệ thông tin như Gartners.
Tuy nhiên, theo nhận định chung thì có bốn yếu tố chính ảnh hưởng đến việc lựa
chọn một nền tảng công nghệ kho dữ liệu thích hợp đó là: giao diện, tính năng, hỗ trợ và
nền tảng hệ thống. Các yếu tố này ảnh hưởng trực tiếp đến thành công của một dự án triển
khai và áp dụng kho dữ liệu vào trong tổ chức/doanh nghiệp.
Các giải pháp kho dữ liệu lớn trên thế giới đang theo xu hướng thay đổi để thích hợp
với xu hướng phát triển của BI cũng yêu cầu càng ngày càng phức tạp hơn trong việc phân
tích dữ liệu. Một số giải pháp hiện nay có trên thị trường.
Giải pháp của Microsoft: Microsoft cung cấp giải pháp kho dữ liệu khá toàn diện
và đẩy đủ với cơ sở dữ liệu SQL Server 2008 [4], hệ thống Analyze Services, là giải pháp
tương đối phổ biến.
Ưu điểm: Thân thiện, dễ dùng, dễ phát triển, dễ bảo trì.
Nhược điểm: Hạn chế khi xử lý lượng dữ liệu lớn, phù hợp với các bài toán vừa và
nhỏ, hệ thống bảo mật kém do sử dụng nền tảng windows


21
Giải pháp của Oracle: Oracle được đánh giá là một trong những công ty hàng đầu
trong lĩnh vực giải pháp về kho dữ liệu với đẩy đủ các công cụ chuyên biệt cho bài toán
kho dữ liệu đặc biệt với giải pháp Oracle Exadata Database Machine đã tối ưu rất nhiều cho
bài toán kho dữ liệu [5].
Ưu điểm: Thị phần Oracle chiếm trên thị trường khá lớn khoảng 48%. Tiện dụng,

thuận lợi cho việc tiếp cận và phát triển. Hệ thống cơ sở dữ liệu và máy chủ kho dữ liệu đã
tích hợp thành máy duy nhất cung cấp hiệu năng xử lý tốt hơn.
Nhược điểm: Thông thường khi triển khai giải pháp của Oracle sẽ tốn công sức triển
khai hơn. Chi phí về bản quyền phần mềm của Oracle cũng thường cao hơn các nhà cung
cấp khác.
Giải pháp của IBM: Được đánh giá là đơn vị cung cấp giải pháp kho dữ liệu và
phân tích số liệu hàng đầu ở hầu hết các tổ chức đánh giá độc lập (cụ thể là Gartner và
Forrester). Hiện tại IBM đang cung cấp hai giải pháp chính và chuyên dụng cho bài toán
khai thác, phân tích báo cáo theo mô hình kho dữ liệu. Cả hai giải pháp đều có mô hình
giống nhau chỉ khác nhau về cấu phần cơ sở dữ liệu lưu trữ dữ liệu cụ thể [6]:
Cả 2 giải pháp đều dùng Data Stage làm công cụ ETL. Công cụ Cognos cho cấu
phần khai thác và phân phối báo cáo. Xây dựng kho dữ liệu trên nền tảng mô hình dữ liệu
IBM Banking Data Model.
02 giải pháp khác nhau ở cấu phần kho dữ liệu: ISAS (IBM Smart Analytics
System): Sử dụng appliance máy chủ ISAS 7710; kho dữ liệu xây dựng trên cơ sở dữ liệu
DB2; Dữ liệu đa chiều cube xây dựng trên Inforsphere warehouse gắn chặt với cơ sở dữ
liệu DB2. Đây là giải pháp Hybrid (Hệ thống máy chủ có thể dùng cho cả bài toán phân
tích báo cáo và giao dịch). Netezza: Sử dụng theo cơ chế appliance; tích hợp toàn bộ phần
cứng, phần mềm (hệ điều hành, cơ sở dữ liệu, v.v…) trong một thiết bị duy nhất. Đây là
giải pháp chỉ dùng cho hệ thống phân tích, khai thác báo cáo.

2.3 Thiết kế, xây dựng mô hình hệ thống kho dữ liệu mới
Trên cơ sở đã phân tích ở phần trước về hiện trạng, các mặt hạn chế và một số giải
pháp hiện về kho dữ liệu có trên thị trường, tác giả đã chọn giải pháp của IBM với Netezza
để xây dựng lại hệ thống kho dữ liệu mới trong ngân hàng đảm bảo hiệu năng xử lý của
kho dữ liệu.


22


CoreBanking
(AS400/DB2)
AMT System
(AS400/DB2)

Asset and Liability
Management

Cadencies
(Oracle)
Payment System
(Oracle)
Treasury System
(Sysbase)

Investment Management
ETL

STG
(Staging
Area)

Payments
ETL

Automic

ETL

Profitability

Regulatory Compliance

Summary

Relationship Marketing
Risk Management

Contact Center
(Oracle)

Wealth Management

HR, ERP.......

http://
www.google.com/
imgres?imgurl=http://
tinhocvanphong.edu.v
n/wp-content/
uploads/2013/10/
khoa-hoc-excel2010.jpg&imgrefurl=ht
tp://
tinhocvanphong.edu.v
n/hoc-tin-hoc/excel2010/khoa-hoc-excelSystem Center
2010/
Reporting
&h=529&w=1024&tbn
id=-J3eLOuaKdWkM:&doci
d=qfVLXIiqWX1zM&ei=_
5GuVcfaI8ermAWi7H4Aw&tbm=isch&ve

d=0CEcQMygeMB5qF
QoTCIfWiNrv7MYCFcc
Vpgodon0MPw

Reporting

Analysis

Mining

Mô hình tổng quan hệ thống kho dữ liệu mới

Hình 2.1 Mô hình tổng thể kho dữ liệu mới
Trong hình 2.1 là mô hình tổng quát của kho dữ liệu mới với các phần sau [7]
Hệ thống Source data: Bao gồm toàn bộ hệ thống nguồn của ngân hàng từ Core
Banking, ATM system (DB2/AS400), Cadencies, Payments (Oracle), Treasury sysem
(sysbase), v.v…
Hệ thống máy chủ IBM Netezza được sử dụng với các khu vực lưu trữ như sau: Khu
vực STG dữ liệu thô được tập kết lại từ các nguồn khác nhau thông qua cung cụ trích lọc
dữ liệu IBM DataStage. Khu vụ SOR (System of Record) linh hồn của kho dữ liệu bao gồm
tầng automic và summary được thiết kế theo chuẩn của IBM Banking Data Model. Khu
vực DataMart các bài toán phân tích dữ liệu theo từng chủ đề. Hệ thống khai thác và phân
phối báo cáo tập trung IBM Cognos. Hệ thống người dùng cuối sử dụng khai thác, phân
tích báo cáo qua công cụ IBM Cognos.

2.4 Các thành phần cần nâng cấp, bổ sung
2.4.1 Hệ thống cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu
IBM Netezza là một hệ thống máy chủ chuyên dụng dùng cho bài toán kho dữ liệu
hoàn chỉnh (Data warehouse Appliance) phần mềm cơ sở dữ liệu và phần cứng được tích
hợp cùng một máy tăng hiệu năng tối đa cho bài toán truy xuất dữ liệu lớn.



23
Bên trong thiết bị kho dữ liệu Netezza là phần mềm chạy trên các thiết bị phần cứng
đã được tối ưu hóa để đạt hiệu năng phân tích cao mà không cần bất kỳ hiệu chỉnh nào.
Được khách hàng đánh giá là một thiết bị đơn giản nhưng lại có thể đáp ứng những yêu cầu
rất cao về khai thác và phân tích dữ liệu, Netezza có khá nhiều ưu điểm như chi phí thấp
(giá bằng 50% giá trung bình của các sản phẩm khác), thời gian triển khai ngắn (lắp đặt và
triển khai trong 24 giờ), khả năng mở rộng cao (dung lượng dữ liệu người dùng lên tới
hàng Petabytes) cùng với yêu cầu về nhân lực và quản trị đơn giản hơn rất nhiều.
Công nghệ xử lý song song và việc bổ sung các bộ gia tốc xử lý bên cạnh bộ vi xử
lý truyền thống đã mang lại cho Netezza hiệu suất vượt trội dẫn đầu thị trường. Chính những
điều này đã giúp khách hàng vượt qua các quan ngại khi cân nhắc đầu tư giải pháp kho dữ
liệu.
Rất nhiều tổ chức và doanh nghiệp thuộc mọi lĩnh vực như khối chính phủ, truyền
thông, chứng khoán, bán lẻ, viễn thông, đã triển khai thành công IBM Netezza và tạo ra lợi
thế cạnh tranh với doanh thu mới, cắt giảm chi phí hoạt động, giữ chân khách hàng và tăng
lợi nhuận.
Một số đặc điểm nổi bật của IBM Netezza:
Hệ thống IBM Netezza hoạt động trong môi trường Active- Standby. Có hai máy
chủ (host) một máy chủ active và một máy chủ standby dùng trong trường hợp máy chủ
chính bị sự cố. Thời gian downtime nhỏ khoảng mười phút.
IBM Netezza có kiến trúc đặc biệt với những phần cứng chuyên biệt để xử lý dữ liệu
một cách thông minh nhằm tăng tốc độ truy vấn dữ liệu. Tốc độ quét dữ liệu có thể lên
145TB/hr, tốc độ load dữ liệu tối thiểu 2TB/hr.
Hệ thống dễ dàng mở rộng quy mô với việc tích hợp các cụm máy chủ thành một
khối duy nhất.
Việc quản trị hệ thống đơn giản, không tốn nguồn lực cho người quản trị, các tham
số tablespace, dbspace, physical log sizing, page/block sizing, extent sizing và các cấu hình
cho table được thực hiện bởi hệ thống một cách tự động và trong suốt với người sử dụng.

Hệ thống tuân thủ việc tăng tốc phân tích bằng cách tâ ̣p trung xử lý ta ̣i kho dữ liê ̣u
thay vì xử lý ta ̣i máy chủ khai thác báo cáo. Có nghĩa là dữ liệu đã được phân tích trích xuất
từ dưới máy chủ Netezza trước khi được hiển trị trên công cụ khai thác báo cáo.
Đơn giản cho việc tối ưu hệ, thống không index, partition việc tối ưu hệ thống được
tự động xử lý trong suốt với người dùng.


×