Tải bản đầy đủ (.pdf) (7 trang)

Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (392.85 KB, 7 trang )

Tìm hiểu và cải tiến hệ thống kho dữ liệu
trong ngân hàng

Hà Xuân Trường

Trường Đại học Công nghệ
Luận văn ThS. Công nghệ phần mềm; Mã số : 60 48 10
Người hướng dẫn: TS. Phạm Hồng Thái
Năm bảo vệ: 2013

Abstract. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá
và đưa ra các mặt hạn chế của hệ thống cũ. Đề xuất hệ thống kho dữ liệu mới nhằm cải
tiến các mặt hạn chế của mô hình cũ. Phân tích, thiết kế và xây dựng hệ thống theo mô
hình mới. Thiết kế thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu.
Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô hình cho chương trình báo cáo
sản phẩm tiền gửi.
Keywords. Công nghệ phần mềm; Công nghệ thông tin; Cơ sở dữ liệu; Ngân hàng; Tin
học
Content.
Luận văn tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng gồm 3 chương, 36 hình vẽ và 10
bảng.
Nội dung tóm tắt các chương như sau:
Chương 1: HỆ THỐNG KHO DỮ LIỆU
Tổng quan kho dữ liệu
Giới thiệu khái niệm, cấu trúc cơ bản của một hệ thống kho dữ liệu.
Hệ thống kho dữ liệu trong ngân hàng
Nghiên cứu, tìm hiểu hệ thống kho dữ liệu trong ngân hàng TMCP Đầu tư và Phát triển Việt Nam
(BIDV).
Kiến trúc của hệ thống kho dữ liệu ngân hàng:
Excel, text file
SQL Server 2000


AS/400
STAGING AREA ENTERPRISE
DATA MODEL
SOURCE
DATA
DD
CD
LN
GL
ATM
STAGING
DATABASE
EDM
MIS
(OTHERS)
LOAN
DEPOSIT
(OTHERS)
USER FRONT-END
REPORTS
(DBF,
Text File
Format, )
REPORTS
(Excel File
Format, )
DTS DTS
DTS

Kiến trúc của kho dữ liệu ngân hàng gồm 5 cấu phần:

1. Dữ liệu nguồn (Source Data)
2. Vùng tập kết (Staging Area)
3. Enterprise Data Model (EDM)
4. Data mart (dữ liệu chuyên đề)
5. Phân phối (User front-end)
Source Data, Staging Area và EDM đều nằm trên AS/400 (core-banking), mỗi thành phần tương ứng là
một thư viện trên AS/400.
Data mart đặt trên các máy chủ Windows NT riêng biệt, sử dụng SQL Server 2000.
Phân phối dữ liệu qua Excel, text file
Quá trình xử lý dữ liệu trong hệ thống kho dữ liệu ngân hàng:
DD
CD
LN
GL
ATM
Transformation
Staging
Database
Transformation
EDM
DATA MART
AS400
AS400 AS400 NT SERVER
Front-end
Windows Client
Sources Extraction Staging Warehousing Delivery
DTS
Packages
DTS
Packages

OLAP
Processing
DTS
Packages

Quá trình xử lý kho dữ liệu ngân hàng gồm 3 bước:
1. Chuẩn bị dữ liệu: Đẩy dữ liệu từ dữ liệu nguồn sang vùng tập kết (staging area), bắt đầu từ 2 giờ
sáng, kết thúc lúc 3 giờ sáng.
2. Chuyển đổi dữ liệu vào EDM: Trích xuất, chuyển đổi dữ liệu từ vùng tập kết sang EDM, kết thúc lúc
6 giờ 30 phút sáng.
3. Chuẩn bị báo cáo: Đẩy dữ liệu từ vùng EDM sang Data mart và thực hiện các xử lý OLAP, dữ liệu
đa chiều, dữ liệu khối. Kết thúc khoảng hơn 10 giờ sáng.
Tất cả quá trình xử lý trong kho dữ liệu đều được thiết kế dưới dạng [ET][L] bằng công cụ DTS (Data
Transformation Services) của SQL Server 2000.
Đánh giá mặt hạn chế của hệ thống:
1. Hệ thống ngân hàng thường hoạt động giao dịch từ 8 giờ sáng. Quá trình chuẩn bị báo cáo hơn 10
giờ sáng mới kết thúc, điều này sẽ làm hệ thống AS/400 phải phân tải tài nguyên, một phần thực hiện giao
dịch core-banking, một phần chuyển đổi kho dữ liệu, gây ảnh hưởng phần nào đó đến tốc độ giao dịch.
Mặt khác việc kết thúc chuyển đổi kho dữ liệu quá muộn như vậy sẽ không đảm bảo xử lý kịp thời về mặt
nghiệp vụ quản trị điều hành, nắm bắt các thông tin cần thiết một cách nhanh nhất.
Khi vận hành xử lý chuyển đổi kho dữ liệu trong thời gian giao dịch từ 8 giờ sáng trở đi, hệ thống core-
banking CPU chịu tải tăng thêm khoảng 20 – 30 %.
Quá trình xử lý chuẩn bị báo cáo hàng ngày đẩy khoảng 35 GB dữ liệu tới hơn 15 chương trình khác
nhau phục vụ công tác quản trị điều hành.
Sau hơn 10 năm hoạt động, số lượng tài khoản cũng như dữ liệu lịch sử lớn dần, quá trình chuyển đổi
dữ liệu rất chậm chạp, phải mất hơn 8 tiếng, vận hành từ 2 giờ sáng tới hơn 10 giờ mới kết thúc.
2. Thiếu hệ thống phân phối và khai thác báo cáo đến người sử dụng.
Hiện tại chỉ cung cấp về mặt nền tảng công nghệ báo cáo OLAP cho BIDV, gần như chưa có mảng
phân phối đến người sử dụng cuối. Không hỗ trợ được người sử dụng chi nhánh khai thác báo cáo, do tính
chất bảo mật của công nghệ hiện tại không đáp ứng.

Chỉ hỗ trợ khai thác trực tiếp qua mạng LAN. Người sử dụng ở hội sở chính khai thác trực tiếp kho dữ
liệu, cần qua hai tầng bảo mật:
- Phải có tài khoản của hệ điều hành do máy chủ kho dữ liệu cung cấp.
- Phải có tài khoản bảo mật mức ứng dụng.
Qua mức bảo mật ứng dụng hệ thống chỉ cho phép phân quyền theo file báo cáo (file Excel) mà người
sử dụng được phép khai thác, chưa thiết lập phân quyền theo mức dữ liệu Cube trên OLAP Server.
Chương 2: XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU CẢI TIẾN
Mục tiêu cần nâng cấp, cải tiến
1. Hạn chế tối đa mức độ ảnh hưởng phân tải tài nguyên tới hệ thống core-banking của quá trình trích
xuất, chuyển đổi kho dữ liệu trong thời gian giao dịch. Rút ngắn thời gian quá trình chuẩn bị báo cáo một
cách chính xác, đầy đủ và nhanh chóng, phục vụ báo cáo quản trị điều hành sớm nhất có thể được. Mục
tiêu rút ngắn thời gian chuyển đổi hiện tại, đảm bảo trước 9 giờ sáng chuyển đổi dữ liệu xong, phục vụ
báo cáo cho nghiệp vụ.
 Với mục tiêu này, cần xây dựng lại mô hình trích xuất, chuyển đổi dữ liệu trong hệ thống kho dữ
liệu.
2. Cung cấp hệ thống khai thác và phân phối báo cáo chuyên nghiệp đến người sử dụng cuối (hội sở
chính và các đơn vị chi nhánh).
 Ở mục tiêu này, luận văn dự kiến xây dựng thêm hệ thống khai thác và phân phối báo cáo tập trung.
Phân tích và đề xuất mô hình hệ thống kho dữ liệu mới
Phân tích cơ chế trích lọc dữ liệu, cơ chế OLAP, cơ chế khai thác và phân phối báo cáo của hệ thống cũ,
từ đó đề xuất mô hình hệ thống kho dữ liệu mới như hình 2.5.1.1:
Hệ thống
tập trung
Khai thác &
Phân phối
AS/400
STAGING AREA ENTERPRISE
DATA MODEL
SOURCE
DATA

DD
CD
LN
GL
ATM
STAGING
DATABASE
EDM
DTS
[E][T][L]
DTS
ROLAP

Hình 2.5.1.1. Mô hình hệ thống kho dữ liệu mới
Quá trình “chuẩn bị báo cáo” từ EDM sang kho dữ liệu chuyên đề được thiết kế dưới dạng [E][T][L],
giảm tải hệ thống core-banking một cách tối đa.
Cơ sở dữ liệu chuyên đề, dữ liệu đa chiều được lưu dưới dạng ROLAP, rút ngắn được thời gian đảm
bảo việc chuyển đổi dữ liệu, chuẩn bị báo cáo của kho dữ liệu trước 9 giờ sáng, phục vụ công tác quản trị
điều hành của nghiệp vụ.
Đề xuất một hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu như hình 2.5.4.2 dưới đây:
Web-based Interfaces
(Client)
Web/Application Server
Active
Directory

Data mart #1 Data mart #2
Cube #1 Cube#2

Hình 2.5.4.2. Hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu

Các cấu phần trong hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu trên hình 2.5.4.2:
Tầng giao diện: Người sử dụng truy cập qua web để khai thác, phân tích báo cáo.
Tầng ứng dụng: Cung cấp các ứng dụng, dịch vụ khi thực thi các yêu cầu từ tầng giao diện, phân trang
dữ liệu khi truy vấn dữ liệu lớn.
Active Directory là hệ thống phân quyền đang được ngân hàng sử dụng để đăng nhập vào hệ điều hành.
Hệ thống tập trung sẽ sử dụng và xác thực vào Active Directory để khai thác, phân tích và phân phối kho
dữ liệu.
 Cung cấp một tài khoản duy nhất để khai thác kho dữ liệu.
Tầng dữ liệu: Các kho dữ liệu chuyên đề, dữ liệu đa chiều trong hệ thống kho dữ liệu.
Chức năng của hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu:
- Hệ thống báo cáo tập trung
- Khai thác nhiều nguồn dữ liệu
- Đặc tả dữ liệu
- Tạo báo cáo động
- Phân phối báo cáo theo nhiều định dạng: html, pdf, excel…
- Tích hợp, tương thích với nhiều hệ thống user: NTLM, Active Directory,
Thử nghiệm mô hình mới giữa [ET][L] và [E][T][L]
Test 1 (Single table): Trích xuất 1 bảng 4 triệu bản ghi, tương ứng dữ liệu khoảng 600MB
Test 2 (Multi tables): Trích xuất đồng thời 3 bảng, số bản ghi mỗi bảng tương ứng là 4 triệu, 3 triệu và 4
triệu bản ghi. Tổng dung lượng dữ liệu khoảng 5.9 GB
Test 3 (Join tables): Trích xuất 3 triệu bản ghi, tổng hợp từ liên kết “join” 2 bảng 4 triệu và 3 triệu bản
ghi.
Test 4 (Calculate Join tables): Trích xuất 3 triệu bản ghi được tổng hợp từ liên kết và tính toán giữa 2
bảng 4 triệu và 3 triệu bản ghi.
Kết quả sau 4 lần test thể hiện trong hình 2.5.5.1 và 2.5.5.2:

Hình 2.5.5.1. Kết quả sau 4 lần kiểm thử về thời gian trích xuất

Hình 2.5.5.2. Kết quả sau 4 lần kiểm thử về % CPU sử dụng trên core-banking
Kết quả thực nghiệm cho thấy tốc độ xử lý khi thiết kế mô hình [E][T][L] dựa trên Datastage vượt trội

hơn khi thiết kế [ET][L] trên DTS khi trích xuất đồng thời nhiều bảng dữ liệu cùng một lúc. Đối với trích
lọc dữ liệu cần các xử lý liên kết bảng và tính toán, mô hình [E][T][L] dựa nhiều vào hiệu năng máy chủ
ETL, trong trường hợp này mô hình [ET][L] có phần nhỉnh hơn do hiệu năng core-banking mạnh hơn.
Tuy nhiên mô hình [ET][L] làm core-banking phải chịu tải rất lớn, mô hình [E][T][L] lại không gây tải hệ
thống core-banking.

Chương 3: ÁP DỤNG HỆ THỐNG CẢI TIẾN CHO BÁO CÁO TIỀN GỬI

Mô hình hệ thống kho dữ liệu thử nghiệm cho chương trình báo cáo sản phẩm tiền gửi:

Mô hình logic:
Hệ thống
tập trung
Khai thác &
Phân phối
AS/400
STAGING AREA ENTERPRISE
DATA MODEL
SOURCE
DATA
DD
CD
LN
GL
ATM
STAGING
DATABASE
EDM
DTS
[E][T][L]

DTS
SPTG
(ROLAP)

Mô hình vật lý:
Report Viewer
Report Viewer
COGNOS
SERVER
AS/400
EDM
SPTG
SERVER
CLIENT
DATASTAGE
SERVER

Luồng thiết kế:
Thiết kế kho dữ
liệu chuyên đề
(CSDL SPTG)
Thiết kế dữ liệu
đa chiều
Thiết kế Job
trích xuất dữ liệu
từ EDM vào
CSDL SPTG
Phân phối báo
cáo


KẾT LUẬN
Luận văn này bước đầu chứng tỏ được tính hiệu quả của hệ thống mới do tác giả đề xuất so với hệ
thống hiện có. Nếu được triển khai áp dụng sẽ cải tiến và tối ưu được hệ thống kho dữ liệu hiện tại, giảm
tải hệ thống core-banking, mở ra một hướng mới trong phát triển bài toán phân tích và phân phối dữ liệu
tại Ngân hàng BIDV, cung cấp công cụ chuyên nghiệp cho người lập trình tại Trung tâm CNTT cũng như
người sử dụng cuối ở các bộ phận nghiệp vụ.
Các kết quả của luận văn có thể được tóm tắt:
1. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá và đưa ra các mặt
hạn chế của hệ thống cũ.
2. Đề xuất hệ thống kho dữ liệu mới nhằm cải tiến các mặt hạn chế của mô hình cũ, trong đó:
- Thay đổi cơ chế trích lọc dữ liệu từ thiết kế dưới dạng [ET][L] và [EL][T] sang dạng [E][T][L].
- Chuyển đổi kho dữ liệu từ mô hình MOLAP sang mô hình ROLAP.
3. Xây dựng thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu đến người dùng
cuối, người sử dụng chỉ cần duy nhất một tài khoản đăng nhập hệ thống.
4. Thiết kế các thử nghiệm trên mô hình. Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô
hình cho chương trình báo cáo sản phẩm tiền gửi.
Trong tương lai, nếu các kho dữ liệu chuyên đề hoặc chương trình báo cáo phục vụ công tác quản trị
điều hành được phát triển trên hệ thống này, hiệu quả kinh tế sẽ được phát huy rõ rệt. Người sử dụng có
thể chủ động sử dụng công cụ này để tự khai thác và xây dựng các báo cáo nghiệp vụ.

References.
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu quan hệ, NXB Giáo dục.
2. Jeffrey D. Ullman (1999), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, Biên dịch : Trần Đức
Quang tập 1, tập 2, NXB Thống kê.
3. Trang tin điện tử Ngân hàng Nhà nước Việt Nam,
Tiếng Anh
4. Bach Pedersen, Torben, S. Jensen, Christian (2001), Multidimensional Database Technology,
Distributed Systems Online (IEEE).

5. Elmasri, Ramez (2011), Fundamentals of database systems, Boston, Addison-Wesley.
6. IBM Data warehousing, http://www-
142.ibm.com/software/products/us/en/category/SWM00?lnk=msoST-dwar-usen
7. Jiawei Han, Micheline Kamber (2009), Data Mining: Concepts and Techniques.
8. Microsoft TechNet, TechNet Library,
9. Oracle Data Warehousing,

10. R. Kimball, The Data Warehouse Toolkit, Wiley Computer Publishing, New York, 1996.
11. SilverLake (2004), Technical Document Data Warehouse.
12. Thomsen, E., OLAP Solutions: Building Multidimensional Information Systems, Wiley, New
York.

×