Tải bản đầy đủ (.pdf) (105 trang)

Kho dữ liệu và ứng dụng xây dựng hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.87 MB, 105 trang )




















































ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ







NGUYỄN THỊ KIM OANH







KHO DỮ LIỆU VÀ ỨNG DỤNG XÂY DỰNG
HỆ THỐNG DỮ LIỆU TRỢ GIÚP QUYẾT
ĐỊNH VỀ CHÍNH SÁCH TIỀN TỆ QUỐC GIA





LUẬN VĂN THẠC SĨ











HÀ NỘI - 2009









MỤC LỤC

MỞ ĐẦU 1

Chương I KHÁI NIỆM VỀ KHO DỮ LIỆU 4

1.1 Khái niệm về kho dữ liệu 4
1.1.1 Định nghĩa 4
1.1.2 Các tính chất của Data Warehouse 6
1.1.2.1 Hướng chủ đề 6
1.1.2.2 Tính ổn định 6
1.1.2.3 Được tích hợp 7
1.1.2.4 Gắn với thời gian 7
1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu 7
1.2 Kiến trúc thành phần của Data Warehouse 8
1.2.1 Các loại kiến trúc của Data Warehouse 8
1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse 10
1.2.3 Các lược đồ dữ liệu của Data Warehouse 11
1.2.3.1 Lược đồ hình sao 11
1.2.3.2 Lược đồ bông tuyết 13
1.3 Các mô hình thiết kế cơ sở dữ liệu 14
1.3.1 Mô hình dữ liệu lôgíc 14
1.3.2 Mô hình dữ liệu vật lý 15
1.4 Kho dữ liệu chuyên đề 16
1.4.1 Khái niệm kho dữ liệu chuyên đề 17
1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart 17

1.4.3 Các dạng cơ bản của Data Mart 17
Chương II CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA WAREHOUSE VÀ
DATAMART 20

2.1 Kiến trúc của Warehouse Builder 20
2.1.1 Môi trường thiết kế 20
2.1.2 Môi trường vận hành 22
2.2 Các chức năng chính của Warehouse Builder 22
2.3 Các thành phần của Warehouse Builder 22
2.3.1 Ứng dụng phía khách của Warehouse Builder Client Application 22
2.3.2 Dịch vụ nền vận hành Warehouse Builder 23
2.3.3 Kho lưu trữ thiết kế của Warehouse Builder 23
2.3.4 Kho lưu trữ vận hành của Warehouse Builder 23
2.3.5 Trình duyệt báo cáo kiểm toán 23
2.3.6 Trình duyệt báo cáo siêu dữ liệu 24
2.4 Các đối tượng của Warehouse Builder 24



2.5 Các bước sử dụng Warehouse Builder 25
2.5.1 Định nghĩa các đối tượng nguồn và đích 25
2.5.2 Định nghĩa các đối tượng để trích lọc, chuyển đổi và tải dữ liệu 25
2.5.3 Thẩm định và sinh mã 25
2.5.4 Triển khai và thực thi 25
2.6 Những ưu điểm nổi bật khi sử dụng Warehouse Builder 25
2.6.1 Nắm bắt các thay đổi của dữ liệu 26
2.6.2 Các bảng ngoại, hàm bảng, cơ chế đường ống và lệnh MERGE 26
2.6.3 Khung nhìn làm tư liệu làm tươi nhanh dữ liệu 27
Chương III ỨNG DỤNG DATA WAREHOUSE XÂY DỰNG HỆ THỐNG BÁO CÁO
THỐNG KÊ CHO NGÂN HÀNG NHÀ NƯỚC 28


3.1 Mô hình nghiệp vụ của hệ thống Báo cáo thống kê NHNN 28
3.1.1 Sơ đồ luồng thông tin của hệ thống Báo cáo thống kê 28
3.1.2 Hệ thống các chỉ tiêu của Báo cáo thống kê 29
3.1.3 Hệ thống các tài khoản kế toán 31
3.1.4 Nội dung của báo cáo thống kê 32
3.1.5 Nội dung của báo cáo Tài chính 36
3.1.6 Hoạt động nghiệp vụ của một số đơn vị của NHNN 39
3.1.7 Yêu cầu nghiệp vụ của hệ thống khai thác báo cáo 40
3.1.7.1 Yêu cầu cụ thể của hệ thống báo cáo 41
3.1.7.2 Các loại báo cáo cần phát triển 41
3.2 Xây dựng kho dữ liệu Data Warehouse phục vụ cho việc khai thác báo
cáo 43
3.2.1 Xây dựng cơ sở dữ liệu theo chuẩn Data Warehouse 43
3.2.1.1 Kiến trúc của Data Warehouse Báo cáo thống kê 43
3.2.1.2 Kết cấu của Data Warehouse Báo cáo thống kê 45
3.2.1.3 Các bước cài đặt vật lý data warehouse 50
3.2.2 Xây dựng qui trình tích hợp dữ liệu cho Data Warehouse 51
3.2.2.1 Xây dựng giải pháp tích hợp dữ liệu vào kho dữ liệu Báo cáo
thống kê 51
3.2.2.2 Các bước thực hiện quá trình tích hợp dữ liệu 56
Chương IV TỔ CHỨC KHAI THÁC BÁO CÁO VỚI KHO DỮ LIỆU 65

4.1 Giải pháp xây dựng hệ thống khai thác báo cáo 65
4.2 Chiến lược xây dựng hệ thống báo cáo 66
4.3 Các bước xây dựng báo cáo 70
4.4 Mô hình khai thác báo cáo 70
4.5 Cài đặt hệ thống 71
KẾT LUẬN 73


TÀI LIỆU THAM KHẢO 74

PHỤ LỤC





BẢNG CÁC CHỮ VIẾT TẮT

Viết tắt
Tên đầy đủ
BCTK
Báo cáo thống kê
BO
Bussiness Object
CNTH
Công nghệ tin học
CSDL
Cơ sở dữ liệu (database)
DBA
Quản trị Database
DM
Data Mart
DWH
Data Warehouse
EDW
Enterprise Data Warehouse
ETL
Extraction-Transformation-Load

ETT
Extraction-Transformation-Transportation
NHNN
Ngân hàng Nhà nước Việt nam
NHTW
Ngân hàng Trung ương
ODS
Operational Data Store
OLAP
Online Analytical Processing
OLTP
Online Transaction Processing
TCTD
Tổ chức tín dụng














DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU




Hình 1.1 Tính ổn định của dữ liệu trong Data Warehouse 6
Hình 1.2 Kiến trúc đơn giản của DW 9
Hình 1.3 Kiến trúc của DW với vùng gắn nhãn (Staging area) 9
Hình 1.4 Kiến trúc của DW với vùng gắn nhãn và các DM 10
Hình 1.5 Lược đồ hình sao của DW 12
Hình 1.6 Lược đồ bông tuyết của DW 13
Hình 1.7 Kho dữ liệu chuyên đề phụ thuộc 18
Hình 1.8 Kho dữ liệu chuyên đề độc lập 18
Hình 2.1 Sơ đồ phát triển hệ thống theo Warehouse Builder 21
Hình 2.2 Các đối tượng của Warehouse Builder 24
Hình 3.1 Sơ đồ mô tả luồng thông tin báo cáo trong hệ thống NHNN 29
Hình 3.2 Kiến trúc DWH BCTK 44
Hình 3.3 Sơ đồ tổng quát quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 52
Hình 3.4 Sơ đồ chi tiết quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 57
Hình 3.5 Các bước của quá trình tích hợp dữ liệu vào kho dữ liệu BCTK 58
Hình 3.6 Quá trình tải dữ liệu từ nguồn vào Staging 60
Hình 3.7 Quá trình tải dữ liệu từ Staging vào bảng T_ATOMIC_DATA 61
Hình 3.8 Quá trình tải dữ liệu từ bảng T_ATOMIC_DATA sang các bảng fact 62
Hình 3.9 Quá trình cập nhật dữ liệu cho các bảng dimension 63
Hình 4.1 Môi trường tổ chức khai thác báo cáo của BO 65
Hình 4.2 Kiến trúc của BO với tầng ngữ nghĩa 66
Hình 4.3 Các thành phần của BO Repository 70
Hình 4.4 Mô hình khai thác báo cáo 71
1



MỞ ĐẦU

1. Tính cấp thiết của đề tài
Trong điều kiện của cơ chế thị trường, chính sách tiền tệ và điều hành vĩ
mô về tài chính và tiền tệ có một ý nghĩa quyết định đến sự phát triển kinh tế của
đất nước một cách ổn định và lành mạnh. Trong những năm gần đây, số ngân
hàng trong nước tăng lên rất nhanh. Thêm vào đó còn có sự tham gia của các
ngân hàng 100% vốn nước ngoài. Số vốn của các ngân hàng có quy mô ngày
một lớn, các dịch vụ mà ngân hàng cung cấp ngày càng phong phú. Khối lượng
thông tin mà Ngân hàng Nhà nước quản lý ngày một nhiều: nó tăng theo số
lượng các ngân hàng hoạt động cũng như quy mô vốn của các ngân hàng cùng
các dịch vụ mà chúng cung cấp. Trên thực tế, Ngân hàng Nhà nước đã tổ chức
được các hệ thống cơ sở dữ liệu rất lớn gồm các báo cáo thường xuyên từ các
ngân hàng và các tổ chức tài chính với số lượng trung bình từ 10-20 nghìn chỉ
tiêu/ngày, đặc biệt vào các ngày cuối tháng số lượng này lên tới hàng trăm nghìn
chỉ tiêu. Cục Công nghệ tin học của Ngân hàng Nhà nước là đơn vị có nhiệm vụ
thu thập và tổng hợp báo cáo. Cục được trang bị một hệ thống mạng máy tính rất
mạnh và đang sử dụng hệ quản trị cơ sở dữ liệu Oracle để quản lý và khai thác
các dữ liệu này. Tuy nhiên, việc khai thác báo cáo trên cơ sở dữ liệu tác nghiệp
này có một số nhược điểm như không hỗ trợ được các báo cáo đột xuất theo yêu
cầu; chưa tổng hợp được số liệu theo nhiều chiều, dưới nhiều dạng báo cáo khác
nhau như biểu đồ, đồ thị,…; chưa tổng hợp được dữ liệu từ nhiều hệ thống
nghiệp vụ khác nhau; việc khai thác báo cáo phải thực hiện trên máy tính có cài
đặt chương trình. Do vậy, một yêu cầu cấp bách đặt ra là: làm sao có được một
kho dữ liệu tập trung với số liệu đầy đủ, tổng hợp và chính xác của toàn ngành
ngân hàng một cách nhanh nhất để phục vụ việc điều hành vĩ mô của nhà nước
về tiền tệ một cách hiệu quả. Vì thế đề tài “Kho dữ liệu và ứng dụng xây dựng
hệ thống dữ liệu trợ giúp quyết định về chính sách tiền tệ quốc gia” được chọn
làm đề tài luận văn tốt nghiệp của tôi.
2. Mục tiêu của đề tài
Vận dụng những cơ sở lý thuyết về Data Warehouse để xây dựng hệ thống
dữ liệu Báo cáo thống kê tập trung tại Ngân hàng Nhà nước phục vụ cho việc trợ

giúp ra quyết định về chính sách tiền tệ quốc gia.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng:
2



− Bộ mã chỉ tiêu báo cáo thống kê do Ngân hàng Nhà nước ban hành.
− Hệ thống tài khoản kế toán của Ngân hàng Nhà nước.
− Hệ thống thu thập thông tin Báo cáo thống kê, Báo cáo tài chính.
Phạm vi:
Đề tài này có quy mô rất lớn, do vậy luận văn chỉ tập trung vào nghiên cứu
việc thiết kế kho dữ liệu Báo cáo thống kê trên hai nguồn dữ liệu chính là cơ sở
liệu tác nghiệp Báo cáo thống kê và Báo cáo tài chính, đưa giải pháp tích hợp dữ
liệu đối với dữ liệu báo cáo theo mã chỉ tiêu đã qui định và tổ chức triển khai
việc khai thác báo cáo trên một số Vụ, Cục của Ngân hàng Trung ương. Trong
đó, tận dụng tối đa các công cụ sẵn có của Oracle cũng như những cơ sở công
nghệ thông tin hiện có của Ngân hàng Nhà nước để tổ chức vận hành, khai thác
kho dữ liệu này.
4. Nhiệm vụ nghiên cứu
− Nghiên cứu lý thuyết về Data Warehouse
− Thiết kế một kho dữ liệu Báo cáo thống kê theo kiến trúc của Data
Warehouse.
− Tổ chức, khai thác thông tin từ kho dữ liệu Báo cáo thống kê
5. Phương pháp nghiên cứu
Nghiên cứu thực tiễn: nghiên cứu các yêu cầu của người sử dụng tại các
Vụ, Cục Ngân hàng Trung ương về nhu cầu sử dụng thông tin báo cáo thống kê.
Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu về Data
Warehouse.
Phương pháp tiếp cận hệ thống: đối tượng nghiên cứu có quan hệ chặt chẽ

với các hệ thống thông tin khác đã có sẵn.
6. Kết cấu luận văn
Nội dung chính của luận văn gồm 4 chương:
Chương 1: Những khái niệm cơ bản về kho dữ liệu và kho dữ liệu chuyên
đề.
Chương 2: Các công cụ của Oracle trợ giúp việc phát triển Data
Warehouse.
3



Chương 3: Ứng dụng Data Warehouse xây dựng hệ thống Báo cáo thống kê
cho Ngân hàng Nhà nước.
Chương 4: Tổ chức khai thác báo cáo với kho dữ liệu.
Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài.

4
Chương I
KHÁI NIỆM VỀ KHO DỮ LIỆU
Ngày nay, thông tin trở thành một nguồn tài nguyên cực kỳ quan trọng cần
được quản lý và khai thác hiệu quả. Hơn bao giờ hết, tất cả các tổ chức kinh
doanh trên thế giới đều tập trung phát triển hệ thống thông tin như một nguồn
lực chủ chốt trong việc tạo ra ưu thế cạnh tranh cũng như tăng khả năng đáp ứng
đối với thị trường biến động không ngừng. Chính vì vậy, yêu cầu về một
phương tiện có khả năng lưu trữ dữ liệu khối lượng lớn, xử lý thông tin nhanh đã
dẫn đến sự ra đời của kho dữ liệu.
Những dự án đầu tiên về kho dữ liệu được xây dựng từ những năm 1984-
1988. Cho đến những năm 1994, ở các nước phát triển, các dự án xây dựng kho
dữ liệu phát triển mạnh mẽ. Lúc đầu, các dự án này chỉ được phát triển ở những
tổ chức lớn. Cùng với nhu cầu phát triển của kho dữ liệu, nhiều công cụ trợ giúp

cho việc phát triển kho dữ liệu cũng ra đời và không ngừng hoàn thiện: Nhiều hệ
quản trị cơ sở dữ liệu (CSDL) được bổ sung thêm các công nghệ và công cụ cho
việc phát triển và khai thác kho dữ liệu. Trong số các hãng phát triển hệ quản trị
CSDL truyền thống như Oracle, DB2, Microsoft SQL server,…Oracle là hãng
hàng đầu thế giới trong lĩnh vực hệ quản trị CSDL có công nghệ xây dựng kho
dữ liệu tiên tiến (theo báo cáo của Gartner về thị phần của các hệ quản trị CSDL,
Oracle chiếm tới 47,1% thị phần năm 2006). Đặc biệt Oracle 11g có rất nhiều
tính năng tiên tiến cho việc xây dựng và khai thác các CSDL lớn như: khả năng
nén và phân vùng dữ liệu hiệu quả, tự động hóa nhiều hoạt động phân vùng và
mở rộng các phương pháp phân vùng khác nhau, hoàn thiện các bộ công cụ phân
vùng, nén và xử lý cả dữ liệu có cấu trúc và phi cấu trúc, … [16]
1.1 Khái niệm về kho dữ liệu
1.1.1 Định nghĩa
Kho dữ liệu (Data Warehouse – DWH) không phải là một khái niệm mới
và đã được định nghĩa theo rất nhiều cách khác nhau, vì vậy khó có thể định
nghĩa chuẩn xác được. Theo một nghĩa nào đó thì kho dữ liệu được xem như là
một CSDL lớn tập trung dữ liệu từ nhiều nguồn trong doanh nghiệp. Việc sử
dụng DWH sẽ tạo ra một sự đồng nhất về thông tin doanh nghiệp và từ kho dữ
liệu này doanh nghiệp có thể nhận được các chỉ tiêu phân tích hay dùng các
công cụ hỗ trợ để theo dõi các chỉ tiêu cần quan tâm. Vì thế, kho dữ liệu có thể
được xem là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho
5



người dùng những thông tin khó có thể truy nhập hoặc biểu diễn trong cơ sở dữ
liệu (CSDL) tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định
mang tính lịch sử hoặc hiện tại [1]. Bill Inmon, người được xem là kiến trúc sư
đầu tiên xây dựng kho dữ liệu đã định nghĩa: “Kho dữ liệu là tập hợp dữ liệu
hướng chủ đề, được tích hợp, gắn với thời gian và ổn định được thiết kế cho

việc hỗ trợ quá trình ra quyết định của người quản lý”[10].
Về bản chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ
để phát triển dữ liệu của các hệ thống hỗ trợ quyết định. Dữ liệu phát sinh từ
trong các hoạt động hàng ngày và được thu thập, xử lý để phục vụ công việc
nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp. Các
hoạt động thu thập xử lý dữ liệu tác nghiệp được gọi là xử lý giao dịch trực
tuyến (Online Transaction Processing - OLTP). Trái lại, kho dữ liệu phục vụ
cho việc phân tích các kết quả mang thông tin mức cao. Các hệ thống thông tin
thu thập xử lý dữ liệu loại này được gọi là xử lý phân tích trực tuyến (Online
Analytical Processing - OLAP). Kho dữ liệu thường rất lớn tới hàng trăm GB
hay thậm chí hàng Terabyte. Nó được xây dựng để tiện lợi cho việc truy cập
theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả
những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống
đã có sẵn từ trước. DWH là một kho dữ liệu quan hệ đa chiều được thiết kế cho
việc truy vấn dữ liệu và phân tích hơn là cho việc xử lý giao dịch. Một DWH
thường chứa dữ liệu lịch sử mong muốn từ dữ liệu giao dịch. Nó phân tích riêng
rẽ khối dữ liệu từ dữ liệu giao dịch và cho phép lấy dữ liệu từ nhiều nguồn.
Có ba kiểu kho dữ liệu thường gặp:
− Kho dữ liệu doanh nghiệp (Enterprise Data Warehouse - EDW): kho
dữ liệu loại này cung cấp một tập dữ liệu trung tâm được tổ chức hỗ
trợ cho việc ra quyết định của cả công ty (xí nghiệp).
− Kho dữ liệu tác nghiệp (Operational Data Store - ODS): kho dữ liệu
loại này dùng cho các công ty có phạm vi rộng, nhưng nó không giống
với kho dữ liệu doanh nghiệp. Ở đây dữ liệu được làm tươi ngay tức
thì và được sử dụng cho những hoạt động thường nhật. Theo định
nghĩa của Inmon, ODS khác EDW ở chỗ, nó bị giới hạn về tính lịch
sử của dữ liệu và được cập nhật dữ liệu thường xuyên hơn.
− Kho dữ liệu chuyên đề (Data Mart - DM): kho dữ liệu chuyên đề là
một DWH cỡ nhỏ và nó hỗ trợ cho những nghiệp vụ chuyên biệt hoặc
cho những chức năng nghiệp vụ cụ thể.

6



Trong ba loại kho dữ liệu trên, thì ODS là sự nâng cấp từ CSDL vốn tồn tại
trong doanh nghiệp nếu doanh nghiệp có tổ chức các CSDL phục vụ cho hoạt
động của mình. DWH và DM cần được phát triển dựa trên việc mô hình hoá dữ
liệu theo các chiều, trong đó các bảng sự kiện (Fact table) được kết nối với các
bảng chiều (Dimension table). Mục tiêu của việc xây dựng các kho dữ liệu này
là nhằm phục vụ cho các hoạt động nghiệp vụ ở mức cao hơn với hiệu quả cao.
1.1.2 Các tính chất của Data Warehouse
Một kho dữ liệu được xác định là một CSDL trong đó có chứa bốn đặc tính
sau: hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian.
1.1.2.1 Hướng chủ đề
Hướng chủ đề có nghĩa là tất cả các dữ liệu được tổ chức xung quanh một
chủ đề được tập trung lại và lưu trữ trong cùng một tập có cấu trúc đơn giản, dễ
sử dụng. Thông thường, các ứng dụng tác nghiệp được thiết kế nhằm giải quyết
một số giao dịch, công việc hàng ngày và dữ liệu được thiết kế cũng nhằm phục
vụ các giao dịch đó. Trong khi đó, dữ liệu lưu trữ trong kho dữ liệu được dùng
để phục vụ mục đích phân tích và hỗ trợ quyết định. Đây là một trong những
chức năng phức tạp.
1.1.2.2 Tính ổn định












Hình 1.1. Tính ổn định của dữ liệu trong Data Warehouse

Dữ liệu trong kho dữ liệu là dữ liệu hướng chủ đề, không được hiệu chỉnh,
sửa đổi mà nó chỉ nhằm mục đích phục vụ truy vấn thông tin. Nhờ yếu tố này
mà tốc độ tổng hợp dữ liệu tăng lên một cách đáng kể. Hơn nữa kết quả trả lại
khi thực hiện công việc phân tích trong những thời gian gần nhau thì hầu như là
giống nhau.
kho dữ liệu



Hệ tác
nghiệp



Thêm



Sửa



Xóa




trích lọc,

chuyển đổi và nạp
dữ liệu



Truy vấn



7



1.1.2.3 Được tích hợp
Một kho dữ liệu được xây dựng bằng việc tích hợp nhiều nguồn dữ liệu,
lưu trữ trong một cấu trúc đồng nhất, toàn vẹn. Ví dụ như là dữ liệu về ngày
tháng phải luôn được chứa ở cùng một dạng chuẩn. Tích hợp dữ liệu là một vấn
đề luôn được đặt ra của hầu hết các cách tổ chức, đặc biệt là việc tích hợp dữ
liệu đòi hỏi phải sử dụng đến nhiều công nghệ chuyên dụng đang được biết đến.
Sự khác biệt là ở các quy tắc cơ bản ví dụ như là tập ký tự. Hệ ký tự được dùng
chủ yếu trong các hệ thống là ASCII (American Standard Code for Informaiton
Interchange). Tuy nhiên có một số hệ thống không dùng hệ ký tự này. Ngoài ra
còn có một số nguyên nhân không dễ thấy được như là trong cùng một kiểu dữ
liệu nhưng với các hệ quản trị CSDL khác nhau là khác nhau. Vì vậy, việc truy
nhập theo các phương thức tuần tự là không hiệu quả. Hơn nữa, trước khi dữ
liệu được đưa vào kho dữ liệu thì nó phải được tích hợp. Sự tích hợp này là một
tiến trình xuyên suốt trong thời gian khi dữ liệu được chuyển vào kho dữ liệu và

sau khi nó được đưa vào CSDL ứng dụng và trước khi được đưa vào CSDL của
kho dữ liệu.
1.1.2.4 Gắn với thời gian
Đối với kho dữ liệu, yếu tố thời gian được gắn liền với các dữ liệu. Điều
này nghĩa là dữ liệu được ghi lại theo thời gian lưu trữ các dữ liệu. Tuy nhiên,
hầu hết các truy vấn đều được xử lý ngược lại với việc có một vài thuộc tính về
thời gian được lưu trữ trong kho dữ liệu. Chúng ta đã xác định rằng, hầu hết các
hệ tác nghiệp đều không chứa các thông tin về lịch sử của nó. Sẽ không thể đoán
trước được chuyện gì sẽ xảy ra trong tương lai nếu chúng ta không quan sát
được chuyện gì đã xảy ra trong quá khứ. Một kho dữ liệu sẽ giúp chúng ta lấy ra
các thông tin cơ bản này bằng cách thêm trường lịch sử thời gian vào dữ liệu
được lấy từ hệ tác nghiệp. Như vậy, đối với một doanh nghiệp thì bản thân
DWH là một “ảnh chụp nhanh” trạng thái của doanh nghiệp tại các thời điểm
khác nhau. Nó hỗ trợ việc định ra phương hướng và công tác dự báo cho tương
lai. Vì thế thuộc tính thời gian được ngầm hiểu trong DWH như là một thuộc
tính bắt buộc. Thời gian đóng vai trò như một phần để đảm bảo tính đơn nhất
của các bản ghi và cung cấp đặc trưng về thời gian cho dữ liệu.
1.1.3 Cơ sở dữ liệu tác nghiệp và kho dữ liệu
Thông thường, khi tin học hóa hoạt động quản lý một tổ chức, người ta
thường xây dựng CSDL cho các hoạt động quản lý nghiệp vụ thường xuyên của
8



tổ chức và ta có được CSDL tác nghiêp. Hệ thống thông tin tác nghiệp với các
dữ liệu tác nghiệp có các đặc điểm sau:
− Trợ giúp công việc hàng ngày
− Chứa các dữ liệu hiện thời, phản ánh trạng thái của công việc.
− Hoạt động của hệ thống thường đơn giản, giới hạn trong một phạm vi
nghiệp vụ đã xác định, và hoạt động chính yếu là cập nhật dữ liệu.

− Xử lý thông tin hướng đến việc xử lý nhanh các tác vụ đã được định
trước
− Người dùng là người làm công việc cụ thể, ở mức độ chi tiết như nhân
viên bán hàng, thư ký, thủ kho,…
− Thiết kế thường khó hiểu (các bảng dữ liệu phải đạt chuẩn 3 trở lên)
đối với người dùng và che dấu đi những quan hệ trực quan của đời
thường.
Trong khi đó kho dữ liệu hướng vào trợ giúp quá trình phân tích và ra
quyết định cần có các tính chất sau:
− Trợ giúp quá trình quản lý và điều hành công việc
− Chứa các dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của
công việc trong một giai đoạn hay những thời điểm trong quá khứ.
− Được tối ưu hóa cho việc truy vấn, với câu hỏi đã xác định trước hay
được thiết lập theo yêu cầu người dùng.
− Người dùng là những nhà quản lý, phân tích, dự báo hay đánh giá
công việc và ra quyết định, các yêu cầu thường đa dạng và có tính
nghiệp vụ chuyên ngành.
− Dữ liệu được thiết kế dễ hiểu và dễ sử dụng đối với người dùng.
1.2 Kiến trúc thành phần của Data Warehouse
1.2.1 Các loại kiến trúc của Data Warehouse
Có một số loại kiến trúc của DWH thường gặp:
Hình 1.2 chỉ ra một kiến trúc đơn giản của DWH. Người sử dụng truy cập
trực tiếp vào dữ liệu được dẫn xuất từ nhiều nguồn dữ liệu thông qua DWH
9












Hình 1.2. Kiến trúc đơn giản của DWH
Kiến trúc kho dữ liệu với vùng dữ liệu gắn nhãn được biểu diễn như hình
1.3. Ở đây siêu dữ liệu và các dữ liệu chưa chế biến của hệ thống OLTP hiện tại
được đưa vào cùng dữ liệu tổng hợp. Các dữ liệu tổng hợp rất có giá trị trong
DWH vì nó được tính trước trong quá trình nạp dữ liệu vào DWH nên thuận tiện
cho việc truy xuất dữ liệu cho người dùng. Như vậy, để có được các dữ liệu
trong DWH cần có một quá trình làm sạch và những thao tác chế biến dữ liệu
trước khi đẩy dữ liệu vào DWH.















Hình 1.3. Kiến trúc của DWH với vùng gắn nhãn (Staging area)
10




Chúng ta có thể thực hiện quá trình này bằng cách sử dụng một chương
trình tự động hoặc sử dụng vùng gắn nhãn thay thế. Vùng này làm đơn giản việc
xây dụng các bảng tổng hợp và quản lý DWH.
Loại kiến trúc phức tạp hơn cả là kiến trúc kho dữ liệu với vùng gắn nhãn
và các kho chuyên đề (Staging Area and Data marts). Kho dữ liệu loại này được
biểu diễn như ở hình 1.4.









Hình 1.4. Kiến trúc của DWH với vùng gắn nhãn và các DM
Kiến trúc loại này tương tự loại ở trên nhưng thêm một thành phần nữa là
các kho dữ liệu chuyên đề. Nhờ vậy, nó có thể đáp ứng được thêm các yêu cầu
liên quan đến các nghiệp vụ cụ thể, chuyên biệt.
1.2.2 Các thành phần cơ bản của kiến trúc Data Warehouse
Kiến trúc tổng quát của kho dữ liệu bao gồm các thành phần [1,12,13] sau:
 Các dữ liệu nguồn: là đầu vào cho kho dữ liệu
Dữ liệu nguồn trong trường hợp điển hình bao gồm nhiều loại khác nhau:
 Các dữ liệu từ các hệ thống tác nghiệp: các dữ liệu chi tiết nhận
được từ các hoạt động nghiệp vụ hàng ngày.
 Các dữ liệu kế thừa: các dữ liệu cũ không dùng cho hoạt động hàng
ngày, các phương pháp tổ chức dữ liệu khác với mô hình hiện hành,

các dữ liệu được mã hóa khi đã qua sử dụng và các thông tin đầy đủ
về cấu trúc và ngữ nghĩa của dữ liệu kế thừa.
11



 Các dữ liệu bên trong khác
 Các nguồn dữ liệu được lấy từ bên ngoài
 Các công cụ trích lọc, chuyển đổi và nạp dữ liệu thực hiện các nhiệm
vụ thu thập, chuẩn hóa, làm sạch, chắt lọc, tích hợp dữ liệu và nạp vào
kho dữ liệu.
 Kho dữ liệu: là nơi lưu trữ các loại dữ liệu. Nó gồm ba khối lớn: các dữ
liệu thô, các dữ liệu tổng hợp và siêu dữ liệu. Các chức năng chính của
siêu dữ liệu bao gồm:
 Định nghĩa các dữ liệu lưu trữ trong kho
 Mô tả các báo cáo và các truy vấn
 Mô tả các quy định sao chép, cập nhật và nạp dữ liệu
 Mô tả cách truy nhập dữ liệu.
 Các kho dữ liệu chuyên đề lưu các dữ liệu về một lĩnh vực, một chuyên
ngành.
 Các công cụ truy vấn giúp tạo báo cáo, phân tích trực tiếp và khai phá
dữ liệu.
 Hệ quản trị kho dữ liệu. Nó có chức năng nạp vào, nạp lại dữ liệu, trích
lọc dữ liệu, đảm bảo an toàn truy nhập, sao lưu và phục hồi dữ liệu.
 Hệ thống phân phối thông tin bao gồm hai lớp:
 Lớp chuyển tải dữ liệu giữa các thành phần của kho và các bộ phận
liên quan.
 Lớp kết cấu hạ tầng: cung cấp các công cụ cho tìm kiếm, quản lý,
xác định các phần mềm ứng dụng cho người dùng, cho việc sao
chép, cập nhật, kết nối, tổng hợp dữ liệu, cung cấp các dịch vụ quản

lý các khối dữ liệu, và các xử lý yêu cầu.
1.2.3 Các lược đồ dữ liệu của Data Warehouse [10,11]
Khi phát triển một kho dữ liệu thường sử dụng hai lược đồ để tổ chức lưu
trữ dữ liệu, đó là lược đồ hình sao (start Flake) và lược đồ bông tuyết (Snow
Flake).
1.2.3.1 Lược đồ hình sao
Lược đồ hình sao là lược đồ dữ liệu quan hệ diễn tả dữ liệu nhiều chiều. Nó
là dạng lược đồ đơn giản nhất của DWH chứa một hoặc nhiều chiều và một
12



bảng sự kiện. Nó được gọi là lược đồ hình sao vì sơ đồ quan hệ thực thể giữa
các bảng chiều và bảng sự kiện giống như hình sao mà trong đó bảng sự kiện
được kết nối với nhiều bảng chiều. Trung tâm của lược đồ hình sao bao gồm
một bảng sự kiện lớn và nối đến các bảng chiều (hình 1.5). Lợi ích của lược đồ
hình sao là sự tách được các dữ liệu thành các lớp nhỏ theo các bảng chiều, tăng
tốc độ của việc trình diễn dữ liệu và dễ dàng hiểu được về dữ liệu.

















Hình 1.5 Lược đồ hình sao của DWH
a. Các thành phần của lược đồ hình sao
Lược đồ hình sao có 3 thành phần chính:
− Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài
cần thiết để liên kết các bảng chiều
− Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính
tham chiếu. Các bảng chiều đã được chuẩn hóa
− Các đường kết nối bảng chiều với bảng sự kiện
b. Các bước thiết kế một lược đồ hình sao
Để thiết kế mô hình lôgic của lược đồ hình sao cần tiến hành các bước sau:
− Xác định quá trình nghiệp vụ để phân tích yêu cầu (như nghiệp vụ bán
hàng)
− Định nghĩa bảng sự kiện
− Định nghĩa các chiều cho bảng sự kiện (như chiều sản phẩm, chiều địa
điểm, chiều thời gian, chiều tổ chức, )
TÊN BẢNG SỰKIỆN

Khóa ngoại
Khóa ngoại
Khóa ngoại
Khóa ngoại
Các thuộc tính đo



Các thuộc tính đo

TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính phâncấp
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính phâncấp
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính phâncấp
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính phâncấp
Các thuộc tính đo
13



− Xác định danh sách các cột cho mỗi bảng chiều (tên vùng, tên chi
nhánh,…)
− Xác định mức thấp nhất tổng hợp các mức cao trong bảng sự kiện
1.2.3.2 Lược đồ bông tuyết
Lược đồ bông tuyết là một cải tiến của lược đồ hình sao, trong đó một số
chiều được phân cấp để thể hiện rõ ràng dạng chuẩn của bảng chiều. Điều này

dẫn đến nhiều lợi ích trong việc duy trì các bảng chiều. Tuy nhiên, cấu trúc phi
chuẩn của các bảng chiều trong lược đồ hình sao có thể thích hợp hơn cho việc
duyệt các chiều. Trong lược đồ bông tuyết (hình 1.6), các bảng chiều được
chuẩn hóa. Trong một vài trường hợp, lược đồ này cải thiện việc truy xuất dữ
liệu vì các bảng nhỏ hơn được liên kết với nhau nên dễ bảo trì, tăng tính mềm
dẻo. Tuy nhiên, lúc này số lượng bảng sử dụng đã bị tăng lên, việc thực hiện
những câu truy vấn khó khăn hơn nhiều vì có nhiều bảng cần liên kết với nhau.
Lược đồ bông tuyết gồm 4 thành phần chính:
− Bảng sự kiện và nội dung của nó: Những thuộc tính và các khóa ngoài
cần thiết để liên kết các bảng chiều
− Các bảng chiều và nội dung của nó: các thuộc tính và các thuộc tính
tham chiếu, các bảng chiều đã được chuẩn hóa
− Các đường kết nối bảng chiều với bảng sự kiện
Đường kết nối giữa các bảng chiều

















Hình 1.6. Lược đồ bông tuyết của DWH
TÊN BẢNG
SỰKIỆN

Khóa ngoại
Khóa ngoại
Khóa ngoại
Các thuộc tính đo



Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính đo
TÊN BẢNG CHIỀU

Các thuộc tính mô tả
Các thuộc tính đo
14




1.3 Các mô hình thiết kế cơ sở dữ liệu
Tiến trình thiết kế CSDL bao gồm các công việc thiết kế theo tuần tự các
mô hình sau: mô hình quan niệm, mô hình lôgíc, mô hình vật lý. Điểm xuất phát
là thiết kế mô hình quan niệm, việc này quyết định các lĩnh vực chủ đề nào được
đưa vào và biểu diễn mô hình hóa dữ liệu lôgíc là bước tiếp theo để phát sinh ra
các bảng, các cột phản ánh các chủ đề và quan hệ cần có trong cơ sở dữ liệu.
Đây là nền tảng của thiết kế CSDL của kho dữ liệu.
1.3.1 Mô hình dữ liệu lôgíc
Thiết kế dữ liệu lôgíc là quá trình tìm hiểu những yêu cầu về dữ liệu của tổ
chức, mô tả chúng dưới dạng các thực thể, các thuộc tính và các mối quan hệ. Vì
vậy việc thiết kế lôgíc phải đảm bảo sao cho dữ liệu có tính trừu tượng cao và
không phụ thuộc vào phương pháp lưu trữ.
Mô hình dữ liệu lôgíc cho phép người thiết kế có thể hình dung trước được
các thành phần dữ liệu khác nhau trước khi nó được thực sự chiết lọc, làm sạch
hay là chuyển dạng vì những lý do tăng cường hiệu năng, cho phép giảm bớt
được sự dư thừa dữ liệu.
Mục tiêu của thiết kế dữ liệu là vẫn tạo ra một cấu trúc dữ liệu đủ linh động
để có thể thích nghi được với những yêu cầu thay đổi sau này.
Về cách thức và công cụ thiết kế dữ liệu lôgíc của DWH không có gì khác
biệt so với thiết kế mô hình dữ liệu cho các hệ thống tác nghiệp thông thường.
Tuy nhiên, có một điều khác nhau cơ bản giữa việc xây dựng CSDL của DWH
và các CSDL cho các hệ tác nghiệp thông thường khác là sản phẩm được tạo ra
khác nhau về mục đích sử dụng.
Khi xây dựng mô hình dữ liệu lôgíc cho DWH thì người thiết kế phải cân
nhắc các vấn đề cơ bản sau:
− Phi chuẩn dữ liệu trong DWH: Thiết kế dữ liệu phi chuẩn thường
được bắt đầu từ mô hình dữ liệu chuẩn (thường là đạt chuẩn Boyce-
Codd), sau đó phá vỡ một số chuẩn để đạt được những mục đích do

yêu cầu nghiệp vụ đặt ra.
− Độ chi tiết và chính xác của dữ liệu trong DWH: Việc xác định xem
dữ liệu cần chính xác đến độ nào là một vấn đề quan trọng khi xây
dựng DWH. Trong số các chiều cần được xem xét thì chiều thời gian
là chiều đáng chú ý nhất. Cần phải cân nhắc xem độ chi tiết của chiều
thời gian là bao nhiêu: giờ, ngày, tuần, tháng hay năm. Hơn nữa, cũng
15



cần phải tính đến hệ thống phân cấp trong các chiều. Bởi vì trong
DWH cây phân cấp chiều có thể là không hoàn thiện. Chính vì vậy khi
xây dựng DWH cần phải chú ý đến các việc như: sử dụng các chuẩn
đo, tránh sử dụng giá trị NULL, sử dụng lệnh trừu tượng thay cho các
mã lệnh khi trình bày với người dùng, tạo ra các bảng lưu các quy tắc
biến đổi và hoán chuyển để người dùng có thể tìm thấy khi họ cần.
1.3.2 Mô hình dữ liệu vật lý
Sau khi hoàn thành việc xây dựng mô hình dữ liệu lôgíc thì việc tiếp theo là
xây dựng mô hình dữ liệu vật lý. Đây là một công đoạn đòi hỏi nhiều thời gian
và công sức. Ở giai đoạn này, việc thiết lập các câu lệnh truy vấn cũng như các
lệnh thiết lập hệ thống khác là không tránh khỏi. Tuy vậy, việc tối ưu hóa mô
hình dữ liệu vật lý lại phụ thuộc nhiều vào hệ quản trị CSDL dùng để cung cấp
những công cụ trợ giúp quá trình xây dựng này.
Mô hình dữ liệu thường được dùng để thiết kế DWH là giản đồ hình sao.
Ta đã biết rằng, giản đồ hình sao là sự kết hợp của bảng sự kiện và các bảng
chiều. Như vậy tổ chức dữ liệu vật lý trong hệ thống DWH được chia thành 2
phần cơ bản: Các sự kiện và các chiều.
a. Bảng sự kiện
Bảng sự kiện là một bảng CSDL quan hệ với các đặc điểm:
− Thường là bảng lớn nhất trong CSDL của kho, chứa tất cả các số liệu

chi tiết trong kho dữ liệu.
− Thông thường, các bảng sự kiện có khóa ngoài là các khóa chính của
các bảng chiều. Từ đó thì bảng sự kiện đòi hỏi một cột dữ liệu lưu trữ
dữ liệu mỗi sự kiện trong đó các sự kiện này lại có giá trị tham chiếu
các thuộc tính của các bảng chiều và các giá trị chiều.
− Số lượng bản ghi tăng lên nhanh chóng, mức độ tăng phụ thuộc vào
lượng dữ liệu đưa vào kho để làm tươi và lượng dữ liệu đòi hỏi tính
lịch sử.
− Khóa chính gồm nhiều phần, mỗi phần tham chiếu đến một bảng
chiều mà dữ liệu sự kiện có thể truy nhập. Tất cả các giá trị khóa đều
được đánh số.
− Dữ liệu chuẩn hóa ở mức cao.
b. Bảng chiều
16



Bảng chiều là một bảng trong CSDL quan hệ có một phần khóa được kết
nối với bảng sự kiện. Các bảng chiều khác nhau kết hợp với bảng sự kiện để trả
lời cho các câu hỏi về nghiệp vụ. Bảng chiều mô tả các chủ đề nghiệp vụ với
những đặc điểm chủ yếu sau:
− Chứa các dữ liệu có quan hệ tĩnh trong kho dữ liệu.
− Lưu trữ các chiều thông tin thường sử dụng trong truy vấn.
Dữ liệu chiều không thường xuyên được làm tươi như dữ liệu trong bảng
sự kiện nhưng chúng vẫn có thể thay đổi được. Tuy nhiên, khi số lượng chiều
tăng lên thì số lượng bản ghi trong CSDL tăng lên một cách đáng kể. Lúc đó
người dùng cuối tăng lên có thể sẽ có những sai sót nếu số chiều tăng lên đến 7
hay 8 chiều.
Trong số tất cả các chiều có thể xây dựng bên trong mô hình dữ liệu thì
thời gian là một chiều quan trọng trong kho dữ liệu. Hầu như mọi kho dữ liệu

đều có chiều thời gian. Vì các sự kiện trong kho được xảy ra và lưu trữ theo thời
gian thực, cho nên việc sử dụng chiều này cho phép người dùng có thể phân tích
được các thời kỳ qua từng khoảng thời gian.
Dữ liệu theo chiều là dữ liệu ở mức chi tiết nhất. Sau đó được kết hợp lại
thành mức cao hơn, có lợi cho việc phân tích. Việc phân tích hay kết hợp trong
một bảng chiều được gọi là sự phân cấp. Phân cấp là một cấu trúc dữ liệu lôgíc
được xây dựng nhằm mục đích sắp xếp dữ liệu và nó có thể được sử dụng để
định nghĩa sự kết hợp dữ liệu.
Khái niệm phân cấp là khái niệm đào sâu dữ liệu hay là phân rã một cấp
lớn hơn thành các cấp nhỏ hơn. Việc này cho phép người dùng có thể xem các
mức chi tiết khác nhau của dữ liệu. Đây là thế mạnh của DWH.
Như vậy, trong các thiết kế phân cấp cần phải xem xét kỹ lưỡng các mối
quan hệ trong các cấu trúc nghiệp vụ, và thường thì việc phân tích dữ liệu bắt
đầu ở mức cao hơn trong phân cấp các chiều và dần dần phân cấp sâu hơn nếu
tình huống cho phép.
1.4 Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (Data Mart – DM) là CSDL có những đặc điểm
giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh
vực, một chuyên ngành. DM là kho dữ liệu hướng chủ đề.
17



1.4.1 Khái niệm kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề là một dạng đơn giản của kho dữ liệu đề cập đến
một lĩnh vực riêng hoặc một miền chức năng riêng như lĩnh vực bán hàng, tài
chính hay tiếp thị. Các DM thường được xây dựng và điều khiển bởi các phòng
ban riêng của một tổ chức. Các DM có thể được hình thành từ một tập con dữ
liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây
dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ

liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM
hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM. Trong cả hai
cách đó, mỗi cách có những thuận lợi và khó khăn riêng, tùy điều kiện của công
ty mà chọn một phương pháp xây dựng thích hợp.
1.4.2 Sự khác nhau giữa Data Warehouse và Data Mart
DWH giải quyết nhiều lĩnh vực và được điều khiển và thực thi đặc biệt bởi
một đơn vị tổ chức trung tâm. DWH tập hợp dữ liệu từ nhiều nguồn khác nhau.
Chưa có định nghĩa nào giới hạn kích thước của DM hay độ phức tạp của dữ
liệu hỗ trợ ra quyết định trong DM. Tuy nhiên DM nhỏ hơn và ít phúc tạp hơn
DWH. Vì vậy chúng dễ dàng để xây dựng và bảo trì hơn. Bảng dưới đây sẽ tổng
kết sự khác nhau cơ bản giữa DWH và DM:


Kho dữ liệu
Kho dữ liệu chuyên đề
Phạm vi
công ty
lĩnh vự nghiệp vụ (Line-of-
Business -LoB)
Lĩnh vực
nhiều loại
một loại cụ thể
Nguồn dữ liệu
nhiều
một vài
Kích cỡ
100 GB - TB+
< 100 GB
Thời gian thực thi
hàng tháng hàng năm

hàng tháng

1.4.3 Các dạng cơ bản của Data Mart
Hai dạng cơ bản của DM là kho dữ liệu chuyên đề độc lập (Independent
data marts) và kho dữ liệu chuyên đề phụ thuộc (Dependent data marts) được
chỉ ra như hình 1.7. và 1.8. Sự phân nhóm dựa chủ yếu trên nguồn dữ liệu xây
dựng nên DM. DM phụ thuộc lấy dữ liệu từ một kho dữ liệu trung tâm đã được
tạo sẵn. DM độc lập là hệ thống đứng một mình, lấy dữ liệu từ nguồn dữ liệu nội
tại hoặc dữ liệu ngoài hoặc từ cả hai.
18








Hình 1.7. Kho dữ liệu chuyên đề phụ thuộc


















Hình 1.8. Kho dữ liệu chuyên đề độc lập
Sự khác nhau chính giữa DM độc lập và DM phụ thuộc là chúng ta sẽ lấy
dữ liệu như thế nào từ các nguồn để đưa vào các DM. Bước này được gọi là tiến
trình trích lọc, biến đổi và di chuyển (Extraction-Transformation-
Transportation-ETT) dữ liệu từ hệ thống đang hoạt động vào DM.
− Với DM phụ thuộc, tiến trình này được đơn giản hơn do việc làm sạch
dữ liệu đã được làm sẵn từ khi đưa dữ liệu vào DWH. Tiến trình ETT
của DM phụ thuộc chủ yếu là quá trình định nghĩa những dữ liệu liên
Kho dữ liệu



các kho dữ
liệu chuyên đề






Hệ thống
tác nghiệp






tiếp thị



bán hàng






tài chính





tiếp thị






bán hàng










tài chính








Hệ thống tác
nghiệp

Bán hàng

19



quan đến lĩnh vực DM được chọn và sao chép vào nó. Vì vậy DM
chứa những dữ liệu được lấy từ DWH và những dữ liệu này sẽ được
trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ
đề nhất định của DM
− Với DM độc lập, không giống như DWH phụ thuộc, nó được xây

dựng trước DWH và dữ liệu được trực tiếp lấy từ các nguồn khác
nhau, do vậy chúng ta phải làm tất cả các công việc của tiến trình ETL
như đã làm với DWH. Số các nguồn dữ liệu chắc chắn ít hơn và tổng
số những dữ liệu kết hợp với DM ít hơn so với DWH.
Một số đặc điểm của của kho dữ liệu độc lập:
− Tính tự trị về dữ liệu cao
− Được sử dụng cho việc phân tích hỗ trợ quyết định theo mục đích
chung
− Có thể dựa vào bất kỳ kỹ thuật nào.(như quan hệ, hướng đối tượng,
phân tán, hay phân cấp)
− Chứa cả dữ liệu tổng hợp và chi tiết
Động cơ xây dựng hai loại DM này cũng khác nhau. DM phụ thuộc thường
được xây dựng để cải thiện việc thực hiện và tính sẵn sàng, điều khiển tốt hơn và
chi phí cho việc truyền thông thấp hơn. Việc tạo các DM độc lập thường được
dùng trong trường hợp cần có những giải pháp trong thời gian ngắn.

20
Chương II
CÔNG CỤ ORACLE TRỢ GIÚP PHÁT TRIỂN DATA
WAREHOUSE VÀ DATAMART
Ngày nay việc lựa chọn sản phẩm, công cụ để phát triển DWH và DM là
một bài toán khó, một thử thách đối với người thực hiện vì có nhiều sản phẩm,
nhiều nhà cung cấp dịch vụ. Một trong các nhà cung cấp dịch vụ được quan tâm
nhiều nhất là Oracle. Để đảm bảo có được một kho dữ liệu hỗ trợ tốt cho việc ra
quyết định, Oracle đã liên tục đưa ra các phiên bản của Warehouse Builder. Đây
là công cụ cung cấp giải pháp tích hợp cho việc thiết kế và phát triển DWH và
DM. Nó giải quyết các vấn đề phức tạp của dữ liệu tích hợp giữa các nguồn dữ
liệu phân tán và dữ liệu đích. Oracle Warehouse Builder còn cung cấp tất cả
những chức năng cần thiết cho việc phát triển và bảo trì của hệ thống kho dữ
liệu. Trung tâm máy tính của Ngân hàng Nhà nước đang sử dụng hệ quản trị

CSDL Oracle, vì thế nó cũng được chọn để phát triển DWH và DM.
2.1 Kiến trúc của Warehouse Builder
Oracle Warehouse Builder [15,16] là công cụ thiết kế và thực hiện việc xây
dựng và quản lý kho dữ liệu. Nó kết hợp cả công cụ thiết kế và công cụ trích lọc,
chuyển đổi, chuyển dịch và lấy dữ liệu. Kiến trúc của Oracle Warehouse Builder
bao gồm hai thành phần (hình 2.1): Môi trường thiết kế và môi trường vận hành.
Môi trường thiết kế quản lý siêu dữ liệu (metadata), trong khi đó môi trường
vận hành lại điều khiển dữ liệu vật lý.
2.1.1 Môi trường thiết kế
Môi trường thiết kế bao gồm kho siêu dữ liệu có tính trừu tượng cao được
lưu trữ trong CSDL Oracle và một bộ thiết kế và các công cụ báo cáo được viết
bằng Java hoặc HTML. Sử dụng các công cụ này, siêu dữ liệu có thể được xem
và được điều khiển một cách dễ dàng.
Việc tạo kho siêu dữ liệu là hoạt động thiết kế mà người sử dụng dùng các
công cụ để tạo ra các đối tượng, các tiến trình và các công việc. Warehouse
Builder hỗ trợ thiết kế cho các lược đồ dữ liệu quan hệ, lược đồ nhiều chiều,
quá trình ETL,…


×