Tải bản đầy đủ (.pdf) (81 trang)

(Luận văn thạc sĩ) nghiên cứu giải pháp kho dữ liệu trong oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP tiên phong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.75 MB, 81 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRỊNH HỒNG NAM

NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIÊN PHONG

LUẬN VĂN THẠC SĨ

Hà Nội – 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRỊNH HỒNG NAM

NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIÊN PHONG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Trung Tuấn



Hà Nội – 2011


MỤC LỤC
LỜI CÁM ƠN............................................................................................................................. 4
Danh mục các ký hiệu, chữ viết tắt ............................................................................................ 5
Danh mục các bảng, hình vẽ và đồ thị........................................................................................ 7
PHẦN MỞ ĐẦU ........................................................................................................................ 9
U

1. ĐẶT VẤN ĐỀ ................................................................................................................... 9
2. MỤC ĐÍCH NGHIÊN CỨU............................................................................................ 10
U

3. KẾT CẤU ĐỀ TÀI .......................................................................................................... 10
CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU..................................................................... 11
U

1.1. Khái niệm...................................................................................................................... 11
1.2. Mục tiêu hệ quản trị cơ sở dữ liệu ................................................................................ 11
1.3. Quá trình phát triển ....................................................................................................... 11
1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu................................................... 13
1.5. Hệ quản trị cơ sở dữ liệu Oracle ................................................................................... 15
CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU .................................................................... 17
U

2.1. Định nghĩa..................................................................................................................... 17
2.2. Đặc trưng kho dữ liệu. .................................................................................................. 17
2.2.1. Hướng chủ thể. ................................................................................................... 17

2.2.2. Tích hợp.............................................................................................................. 18
2.2.3. Biến thời gian ..................................................................................................... 18
2.2.4. Tính bền vững..................................................................................................... 19
2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle ..................................................................... 20
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP ........................................................... 20
2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu ......................................................... 20
2.4. Kiến trúc kho dữ liệu .................................................................................................... 21
2.4.1. Kiến trúc kho dữ liệu cơ sở ................................................................................ 21
2.4.2. Kiến trúc kho dữ liệu với vùng trung gian ......................................................... 21
2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ ...................... 22
2.5. Thiết kế logic ................................................................................................................ 22
2.5.1. Thiết kế logic mức vật lý.................................................................................... 22
2.5.2. Tạo một thiết kế logic......................................................................................... 23
2.5.3. Lược đồ kho dữ liệu ........................................................................................... 24
2.5.4. Các đối tượng kho dữ liệu .................................................................................. 25
2.5.5. Các bảng sự kiện................................................................................................. 25
2.5.6. Các bảng chiều ................................................................................................... 25
2.5.7. Định danh duy nhất ............................................................................................ 27


2

2.5.8. Mối quan hệ ........................................................................................................ 27
2.5.9. Minh họa đối tượng kho dữ liệu và mối quan hệ ............................................... 27
2.6. Thiết kế vật lý ............................................................................................................... 28
2.6.1. Chuyển thiết kế logic thành thiết kế vật lý ......................................................... 28
2.6.2. Thiết kế vật lý..................................................................................................... 28
2.6.3. Cấu trúc thiết kế vật lý........................................................................................ 29
2.6.4. Không gian lưu trữ dữ liệu ................................................................................. 29
2.6.5. Bảng và phân hoạch bảng................................................................................... 29

2.6.6. Nén bảng............................................................................................................. 30
2.6.7. Khung nhìn ......................................................................................................... 30
2.6.8. Ràng buộc toàn vẹn ............................................................................................ 30
2.6.9. Chỉ mục và chỉ mục phân cụm ........................................................................... 30
2.6.10. Khung nhìn vật lí .............................................................................................. 31
2.6.11. Chiều................................................................................................................. 31
2.7. Cơng cụ tích hợp dữ liệu, quản lý môi trường kho dữ liệu........................................... 31
2.7.1. Tổng quan về ETL.............................................................................................. 31
2.7.2. Trích xuất dữ liệu ............................................................................................... 33
2.7.3. Trao đổi dữ liệu .................................................................................................. 34
2.7.4. Tải dữ liệu........................................................................................................... 34
2.8. Bảo trì ........................................................................................................................... 35
2.9. Thực thi song song........................................................................................................ 35
CHƯƠNG 3. GIẢI PHÁP VÀ ĐỀ XUẤT XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG .. 40
3.1. Giới thiệu về ngân hàng Tiên Phong ............................................................................ 40
3.2. Mục đích kho dữ liệu .................................................................................................... 45
3.2. Đặc tính của kho dữ liệu ............................................................................................... 45
3.3. Hỗ trợ tích hợp dữ liệu.................................................................................................. 46
3.4. Nội dung giải pháp kho dữ liệu, Ngân hàng Tiên Phong ............................................. 46
3.4.1. Hiện trạng hệ thống Core Banking ..................................................................... 48
3.4.2. Hệ thống tác nghiệp............................................................................................ 50
3.4.3. Nhu cầu cho hệ thống tác nghiệp đa chiều ......................................................... 51
3.4.4. Nguồn dữ liệu ..................................................................................................... 53
3.4.5. Vùng đệm dữ liệu ............................................................................................... 54
3.4.6. Kho dữ liệu tác nghiệp tổng hợp ........................................................................ 54
3.4.7. Kho dữ liệu tích hợp từ các CSDL chủ đề.......................................................... 54
3.4.8. Các ứng dụng và cơng cụ khai thác, phân tích dữ liệu phục vụ người sử dụng . 56
3.4.9. Kho dữ liệu từ điển ............................................................................................. 57
3.5. Phân tích, thiết kế xây dựng kho dữ liệu, kho dữ liệu chuyên đề ................................. 57



3

3.5.1. Mục đích và u cầu........................................................................................... 57
3.5.2. Mơ hình dữ liệu và các lược đồ. ......................................................................... 58
CHƯƠNG4. CÀI ĐẶT, THỬ NGHIỆM, KẾT QUẢ.............................................................. 67
4.1. Môi trường cài đặt ........................................................................................................ 67
4.2. Dữ liệu thử nghiệm ....................................................................................................... 68
4.3. Kết quả.......................................................................................................................... 68
4.3.1. Công cụ xây dựng kho dữ liệu............................................................................ 68
4.3.2. Xây dựng các bảng chiều thông tin .................................................................... 69
4.3.3. Xây dựng một khối thông tin xoay theo các bảng chiều dữ liệu ........................ 69
4.3.4. Luồng các tiến trình thực thi............................................................................... 70
4.3.5. Hệ quản trị kinh doanh thông minh .................................................................... 70
KẾT LUẬN .............................................................................................................................. 76
TÀI LIỆU THAM KHẢO ........................................................................................................ 77
Tài liệu Tiếng Việt........................................................................................................ 77
Tài liệu Tiếng Anh........................................................................................................ 77


Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.

To remove the watermark, you need to purchase the software from

/>

Danh mục các ký hiệu, chữ viết tắt
Ký hiệu


Chuỗi văn bản gốc

Mơ tả

3NF

Third Normal Form

Chuẩn hóa 3NF

Client/Server
OLAP

Client/Server Online Analytical
Processing

Xử lý phân tích trực tuyến
khách/chủ

CDC

Change Data Capture

Sao/chụp thơng tin dữ liệu thay đổi

CNTT

Information Technology

Công nghệ thông tin


CPU

Central Processing Unit

Đơn vị xử lý trung tâm

CSDL

Database

Cơ sở dữ liệu

DDL

Data Define Language

Ngôn ngữ định nghĩa dữ liệu

DRM

Database Resource Manager

Quản lý nguồn tài nguyên dữ liệu

DBMS

Database Management System

Hệ quản trị cơ sở dữ liệu


DF

Datafile

Tệp dữ liệu

DML

Data Manipulation Language

Ngôn ngữ thao tác dữ liệu

DWH

Data Warehouse

Kho dữ liệu

DSS

Decision Support System

Hỗ trợ quyết định

DOLAP

Database Online Analytical
Processing


Xử lý phân tích trực tuyến CSDL

ETL

Extraction, Transportation,
Loading

Trích suất, Trao đổi, Tải

EIS

Executive Information System

Hệ thống thông tin điều hành

GB

Giga byte

Đơn vị đo lưu trữ dữ liệu

HOLAP

Hybric Online Analytical
Processing

Xử lý phân tích trực tuyến kết hợp

ID


ID

Định danh

NN

NOT NULL

Khác rỗng

MOLAP

Multi dimensional Online
Analytical Processing

Xử lý phân tích trực tuyến đa chiều

OD

Oracle Designer

Sản phẩm

ODS

Operational Data Store

Kho dữ liệu tác nghiệp tổng hợp

OLAP


On Line Analytical Processing

Xử lý phân tích trực tuyến

OLTP

On Line Transaction Processing

Xử lý tác nghiệp trực tuyến


6

ORA

ORACLE

Tập đồn cơng nghệ

OWB

Oracle Warehouse Builder

Cơng cụ xây dựng kho dữ liệu
Oracle

RAC

Real Application Cluster


ROLAP

Relational Online Analytical
Processing

Xử lý phân tích trực tuyến quan hệ

SQL

Structured Query Language

Ngôn ngữ truy vấn cấu trúc

TBS

Tablespace

Không gian bảng lưu trữ

TMCP

Thương mại cổ phần

TB

Terabyte (1TB=109 KB)

Đơn vị đo lưu trữ dữ liệu


PQ

Parallel Query

Truy vấn song song


Danh mục các bảng, hình vẽ và đồ thị
Trang

Hình 1-1: Kiến trúc hệ quản trị cơ sở dữ liệu DBMS

13

Hình 2-1: Mô tả dữ liệu tổ chức theo hướng chủ thể

17

Hình 2-2: Mơ tả dữ liệu được tích hợp từ nhiều nguồn

17

Hình 2-3: Mơ tả dữ liệu theo thời gian

18

Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an tồn

18


Hình 2-5: Sự tương phản giữa OLTP và mơi trường kho dữ liệu

19

Hình 2-6: Kiến trúc của một kho dữ liệu

20

Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian

21

Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ

21

Hình 2-9: Lược đồ hình sao

23

Hình 2-10: Các mức đặc trưng trong một hệ thống phân cấp chiều

26

Hình 2-11: Các đối tượng kho dữ liệu điển hình

27

Hình 2-12: Thiết kế logic so với thiết kế vật lý


28

Hình 2-13: Ví dụ về chiều

31

Hình 2-14: Cơng cụ Oracle Warehouse Builder

31

Hình 2-15: Cơng cụ Extract, Tranform, Loading của Oracle Warehouse Builder

32

Hình 2-16: Minh họa các buffer tin điện và kết nối giữa servers thực thi song song

38

Hình 3-1: Thơng tin về ngân hàng thương mại cổ phần Tiên Phong

40

Hình 3-2: Phần mềm lõi, giải pháp iFlex

42

Hình 3-3: Dịch vụ thanh tốn qua điện thoại

43


Hình 3-4: Dịch vụ thanh tốn qua Internet

43

Hình 3-5: Dịnh vụ thanh tốn qua thẻ ATM

43

Hình 3-6: Các dịch vụ thanh tốn khác

44

Hình 3-7: Kiến trúc tổng thể kho dữ liệu

47

Hình 3-8: Mối quan hệ giữa CNTT và Nghiệp vụ

48

Hình 3-9: Mơ hình hiện trạng hạ tầng Ngân hàng TMCP Tiên Phong

49

Hình 3-10: Các phân hệ - hệ thống Core Banking

50

Hình 3-11: Hệ thống tác nghiệp


51

Hình 3-12: Mơ hình hệ thống chun đề, khai thác thơng tin

53

Hình 3-13: Mơ hình kiến trúc, giải pháp đề xuất kho dữ liệu

54

Hình 3-14: Mơ hình kho dữ liệu khách hàng

59

Hình 4-1: Công cụ xây dựng kho dữ liệu

68


8

Hình 4-2: Chiều thơng tin

69

Hình 4-3: Khối dữ liệu sẽ được xoay theo 2 chiều thơng tin

69

Hình 4-4: Luồng các tiến trình thực thi


70

Hình 4-5: Quản trị doanh nghiệp

71

Hình 4-6: Kinh doanh thơng minh qua trình duyệt Web

71

Hình 4-7: Báo cáo chi phí 10/2010

72

Hình 4-8: Báo cáo doanh thu 10/2010

73

Hình 4-9: Báo cáo sản phẩm vay 10/2010

74

Hình 4-10: Báo cáo tăng trưởng khách hàng 10/2010

75


PHẦN MỞ ĐẦU
1. ĐẶT VẤN ĐỀ

Máy tính từ khi ra đời đã đóng vai trị vơ cùng quan trọng trong lịch sử phát triển
của nhân loại. Các máy tính là những cơng cụ tính tốn mạnh, cho phép con người giải
được các bài tốn có số lượng tính tốn khổng lồ mà trước đó khơng thể thực hiện
được bằng tay như tính tốn kết cấu cơng trình, tính tốn xây dựng kế hoạch quốc gia,
thống kê điều tra dân số, tuyển sinh..., là những bài tốn lớn, có thuật tốn xác định.
Góp phần tích cực vào q trình này là sự xuất hiện của những ngơn ngữ lập
trình hướng cấu trúc, phần mềm được coi là một nghề và có quy trình phát triển tuân
thủ các quy trình nghiêm ngặt.
Hệ quản trị cơ sở dữ liệu (CSDL) quan hệ là hệ quản trị CSDL phổ biến nhất
hiện nay và được hỗ trợ bởi nhiều nhà cung cấp phần mềm.. Tính hiệu quả của các ứng
dụng phụ thuộc vào chất lượng của việc tổ chức dữ liệu. Những cải tiến trong kỹ thuật
và xử lý CSDL đưa đến các cơ hội sử dụng thông tin một cách linh hoạt và hiệu quả
khi dữ liệu được tổ chức và lưu trữ trong các cấu trúc quan hệ. Hệ quản trị CSDL là
một thành công trong lĩnh vực thương mại
Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính
là những cơng cụ hiệu quả để xử lý thông tin và hệ quản trị CSDL là công cụ phổ biến
cho phép lưu trữ và rút trích thơng tin một cách hiệu quả.
Với sự phát triển của mô hình kho dữ liệu, ngày nay ở Việt nam các tổ chức,
doanh nghiệp luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà
quản trị, lãnh đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát
triển, đưa ra các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quản, tổ chức của
mình. Nhằm đáp ứng đầy đủ các yêu cầu trên nhiều công cụ được xây dựng nhằm thỏa
mãn các nhu cầu khai thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung
nghiên cứu. Một trong những cơng cụ đó là bộ sản phẩm Oracle Dataware House của
hãng phần mềm nổi tiếng thế giới Tập đồn Oracle.
Nguồn dữ liệu đối với các tập đồn cơng nghệ, tài chính, ngân hàng là vơ cùng
lớn. Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính tốn theo u cầu để
cung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh
trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh
doanh có chất lượng cao và ổn định.



10

2. MỤC ĐÍCH NGHIÊN CỨU
Luận văn này được thực hiện với mục đích nghiên cứu, xây dựng giải pháp và
được đề xuất áp dụng thực tiễn cho bài toán “Xây dựng hệ thống kho dữ liệu khách
hàng, Ngân hàng thương mại cổ phần Tiên Phong”.
• Thi hành các phân tích dữ liệu phức tạp.
• Thực hiện phân tích:
o Phân tích định hướng.
o Phân tích chuỗi thời gian.
o Phân tích rủi ro.
• Thăm dị các hệ hỗ trợ quyết định.
• Khám phá và đưa ra các yếu tố ẩn thông qua các kỹ thuật khai phá dữ liệu.
Đề tài được nghiên cứu nhằm giải quyết, khắc phục thực trạng, nhược điểm mà
hệ thống báo cáo quản trị hiện nay đang vận hành cịn thiếu hiệu quả, khả năng đáp
ứng, tính sẵn sàng chưa cao.

3. KẾT CẤU ĐỀ TÀI
Luận văn chia thành các chương :
• Chương 1: Hệ quản trị cơ sở dữ liệu.
• Chương 2: Lý thuyết Kho dữ liệu.
• Chương 3: Giải pháp và đề xuất Kho dữ liệu.
• Chương 4: Cài đặt, thử nghiệm, kết quả.
Ngoài ra luận văn có phần mở đầu, cho biết mục đích nghiên cứu và phần kết
luận, thể hiện kết quả chính của luận văn và một số khuyến nghị, đề xuất.


CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU

1.1. Khái niệm
Hệ quản trị cơ sở dữ liệu là phần mềm hay hệ thống được thiết kế để quản trị một
cơ sở dữ liệu, hỗ trợ khả năng lưu trữ, sửa chữa, xóa và tìm kiếm thơng tin trong một
cơ sở dữ liệu. Có rất nhiều loại hệ quản trị CSDL khác nhau: từ phần mềm nhỏ chạy
trên máy tính cá nhân cho đến những hệ quản trị phức tạp chạy trên một hoặc nhiều
siêu máy tính.
Tuy nhiên, đa số hệ quản trị CSDL trên thị trường đều có một đặc điểm chung là
sử dụng ngôn ngữ truy vấn theo cấu trúc mà tiếng Anh gọi là Structured Query
Language (SQL). Các hệ quản trị CSDL phổ biến được nhiều người biết đến là
MySQL, Oracle, PostgreSQL, SQL Server, DB2, Infomix, v.v. Phần lớn các hệ quản
trị CSDL kể trên hoạt động tốt trên nhiều hệ điều hành khác nhau như Linux, Unix và
MacOS ngoại trừ SQL Server của Microsoft chỉ chạy trên hệ điều hành Windows.

1.2. Mục tiêu hệ quản trị cơ sở dữ liệu
Một hệ quản trị cơ sở dữ liệu ln hướng đến các mục tiêu:
• Dữ liệu sẵn dùng: Dữ liệu được tổ chức sao cho mọi người dùng có thể truy cập
dễ dàng theo chức năng và nhiệm vụ của họ.
• Tính tồn vẹn dữ liệu: Dữ liệu lưu trữ trong CSDL là đúng đắn, đáng tin cậy.
• An tồn dữ liệu: Chỉ có người dùng được phép mới có thể truy cập dữ liệu. Nếu
nhiều người dùng truy cập chung một mục dữ liệu cùng lúc thì hệ quản trị
CSDL không cho phép họ thực hiện những thay đổi gây mâu thuẫn dữ liệu.
• Độc lập dữ liệu: Hệ quản trị CSDL phải cho phép tất cả mọi người dùng được
phép lưu trữ, cập nhật và rút trích dữ liệu hiệu quả mà khơng cần nắm chi tiết
về cấu trúc của CSDL được biểu diễn và cài đặt.

1.3. Quá trình phát triển
Người thấy rằng các mốc tiến hóa của các hệ thơng cơ sở dữ liệu có vai trị quan
trọng:
• Các tệp tin dữ liệu: 1960s - 1980s.
• Mơ hình cấu trúc: 1970s - 1990s.

• Mơ hình mạng: 1970s - 1990s.
• Mơ hình quan hệ: 1980s - đến nay.
• Mơ hình hướng đối tượng: 1990s - đến nay.


12

Một số CSDL quan hệ được các hãng phát triển phần mềm nổi tiếng xây dựng
tích hợp với các hãng phát triển phần cứng được các doanh nghiệp, tổ chức, người
dùng đón nhận SYSBASE, ACCESS, FOXPRO, MY SQL, SQL Server..., tạo điều
kiện vô cùng thuận lợi cho nguời phát triển.
Dường như máy tính và những chương trình cũng đã giải quyết được hầu hết các
vấn đề trong lĩnh vực quản lý. Tuy nhiên thực tế, các tổ chức, doanh nghiệp muốn
thành cơng trên thị trường, ngồi việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận
tiện cho người mua và người quản lý bán hàng...), người lãnh đạo công ty phải nắm
được thực chất các quá trình diễn ra trong đơn vị mình và trong mơi trường nghiệp vụ
mà đơn vị đó hoạt động. Để thực hiện các cơng việc của một cơng ty, người ta có
nhiều hệ chương trình tự động hố các lĩnh vực quan trọng như kế toán, lập kế hoạch,
giao dịch khách hàng, lập hoá đơn... Chính vì lý do đó những hệ thống này có một cái
tên cổ điển là hệ thống xử lý giao dịch (Online Transaction Process - OLTP).
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng bằng ngôn
ngữ các câu lệnh truy vấn SQL trong quá trình xử lý. Hệ thống cho phép nhiều ứng
dụng truy cập dữ liệu cùng một thời điểm.
Các ứng dụng được sử dụng trên máy trạm phục vụ cho các hoạt động giao dịch
như ngân hàng, bán vé trực tuyến, bán vé hàng khơng, thanh tốn cước phí... đều sử
dụng hệ thống OLTP có các ưu điểm:
• Xử lý các chuyển tác tương tác.
• Dễ bảo trì và khống chế dữ liệu thừa.
• Thiết lập dữ liệu quan hệ trọn vẹn.
• Tính hiệu quả cao.

• Giảm thời gian của khách hàng.
Các CSDL được cấu hình trong các hệ OLTP thường được thiết kế thoả mãn
chuẩn Third Normal Form (3NF) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là lưu
trữ các dữ liệu "thô", nhưng mức độ tổng quát, trừu tượng của dữ liệu khơng cao. Nói
cách khác OLPT chỉ có ích để tìm trả lời những câu truy vấn dạng: Tổng doanh thu
toàn hàng đạt được trong 6 tháng đầu năm, chứ chưa có báo cáo xoay theo nhiều
chiều, khối thông tin sản phẩm nào đem lại nhiều doanh thu nhất tại chi nhánh, phòng
giao dịch trong tháng vừa qua... Trong khi đó các nhà quản lý ở mức cao của cơng ty
rất ít khi quan tâm đến những câu hỏi loại đó. Điều họ cần chú ý là những câu hỏi trừu
tượng hơn như: Tiêu thụ sản phẩm X tại khu vực A đang giảm, nếu thay đổi 3%-5%
giá của sản phẩm X tại khu vực A, tình trạng tiêu thụ sẽ thay đổi ra sao trong 6 tháng
cuối năm và tại sao?


13

Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ
CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn giản.
Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLTP trong việc
phân tích dữ liệu là:
• Các số liệu ở mức quá chi tiết.
• Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập
khác nhau và ở những CSDL hoàn tồn khác nhau.
• Các số liệu khơng được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ.
• Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu
tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục
vụ các giao dịch trực tuyến.
Trong mơi trường dư thừa số liệu, nhà phân tích, quản trị khơng thể tìm ra cho
mình thơng tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra
xung quanh. Tình trạng số liệu quá chi tiết và khơng có được sự liên kết với nhau của

các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp
dẫn đến sự dư thừa thơng tin này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ
thống chứa đầy đủ thơng tin. Tuy nhiên giải pháp này có hai nhược điểm:
1. Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ
thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như
phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối với các hệ
thống có thiết kế phân tích tốt và hồn tồn khơng khả thi đối với những hệ
thống được mơ tả kém.
2. Việc truy vấn để tạo báo cáo thường xuyên liên quan tới rất nhiều bảng, hạn chế
sự truy cập và khai thác trong quá trình làm việc hàng ngày, làm ảnh hưởng trực
tiếp đến khách hàng.
Một cách tiếp cận khác được đề xướng vào những năm 90 của thế kỷ trước là
một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing kỹ thuật xây dựng các kho dữ liệu.

1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu


14

Hình 1-1: Kiến trúc của DBMS

Kiến trúc của hệ quản trị cơ sở dữ liệu gồm 2 thành phần chức năng:
• Bộ quản lý lưu trữ
• Bộ xử lý truy vấn
1. Bộ quản lý lưu trữ
Bộ quản lý lưu trữ có nhiệm vụ lưu trữ, trích xuất và cập nhật dữ liệu và cơ sở dữ
liệu Bộ quản lý lưu trữ gồm có các đơn vị sau:
-


Kiểm tra chứng thực và toàn vẹn: Kiểm tra toàn vẹn và quyền truy cập dữ liệu
của người dùng cơ sở dữ liệu

-

Quản lý giao dịch: Thành phần đảm bảo cơ sở dữ liệu luôn ở trạng thái nhất
quán. Quản lý việc thực thi các yêu cầu thao tác dữ liệu và đảm bảo việc truy
cập dữ liệu đồng thời không dẫn đến mâu thuẫn.

-

Quản lý tệp tin: Quản lý việc cấp phát không gian trên đĩa, các tệp tin được
dùng để chứa các dữ liệu tương tự nhau. Hệ quản lý tập tin quản lý các tệp tin
độc lập, giúp đỡ nhập và lấy các mẩu tin. Thành phần quản lý tệp tin thiết lập


15

và duy trì danh sách các cấu trúc và chỉ mục được định nghĩa trong lược đồ.
Thành phần quản lý tệp tin có thể:
o Tạo tệp tin
o Xóa tệp tin
o Cập nhật mẩu tin trong tệp tin
o Lấy một mẩu tin từ một tệp tin
-

Quản lý vùng đệm: Có trách nhiệm chuyển dữ liệu từ đĩa lưu trữ vào bộ nhớ
chính theo u cầu của chương trình.

2. Bộ quản lý truy vấn: Thực hiện câu truy vấn nhận được từ người dùng qua các

giai đoạn phân tích, tối ưu hóa câu hỏi, lập kế hoạch thực hiện và thực hiện tính
tốn.

1.5. Hệ quản trị cơ sở dữ liệu Oracle
Cơ sở dữ liệu oracle là một cơ sở dữ liệu mạnh mẽ nhất thế giới. Được thiết kế để
triển khai cho mọi môi trường doanh nghiệp. Việc cài đặt, quản lý rất dễ dàng, các
công cụ để phát triển các ứng dụng một cách hồn thiện và nhanh chóng. Cơ sở dữ liệu
Oracle phù hợp cho mọi loại dữ liệu, các ứng dụng và các môi trường khác nhau bao
gồm cả windows và linux với chi phí tối thiểu.
Hệ quản trị cơ sở dữ liệu oracle 9i/10g/11g. Đây có thể nói là một hệ quản trị
CSDL hàng đầu trên thế giới. Hơn hai phần ba trong số 500 tập đồn cơng ty lớn nhất
thế giới sử dụng Oracle. Ở việt nam hầu hết các đơn vị lớn thuộc các ngành ngân hàng,
kho bạc, thuế, bảo hiểm, bưu điện, hàng không, dầu khí,… đều sử dụng hệ quản trị
csdl oracle. Có được như thế là vì oracle hiện đang dẫn đầu về các tính năng như:


Độ ổn định và tin cậy cao



Khả năng xử lý dữ liệu rất lớn, có thể lên đến hàng trăm Terabyte (TB) mà vẫn
đảm bảo tốc độ xử lý dữ liệu rất cao.



Khả năng bảo mật rất cao, Oracle đạt độ bảo mật cấp c2 theo tiêu chuẩn bảo
mật của bộ quốc phịng Mỹ và cơng nghệ CSDL Oracle vốn được hình thành từ
yêu cầu đặt hàng của các cơ quan an ninh.

Ngồi ra Oracle cịn là một hệ CSDL độc lập với hệ điều hành. Nó cho phép

không chỉ chạy trên các hệ điều hành thương mại Windows mà cịn có thể chạy trên
các hệ điều hành mã nguồn mở miễn phí như Linux rất mạnh và rất phổ biến hiện nay
Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dựng ứng dụng và
người dùng cuối được trang bị các giải pháp kỹ thuật thơng tin hồn hảo. Các ứng


16

dụng Oracle tương thích với hầu hết các hệ điều hành từ các máy tính cá nhân đến các
hệ thống xử lý song song lớn.
Oracle cung cấp một hệ quản trị cơ sở dữ liệu uyển chuyển: Máy chủ dữ liệu
Oracle lưu giữ và quản lý các thông tin dùng trong các ứng dụng. Phiên bản máy chủ
dữ liệu Oracle quản lý CSDL với tất cả các ưu điểm của cấu trúc CSDL quan hệ cộng
thêm khả năng lưu giữ, thực thi và tính bảo mật đối với các đối tượng CSDL như các
Function, Procedure và Trigger …
Oracle Database Server là một hệ quản trị CSDL điều khiển:
• Lưu giữ dữ liệu trên các vùng dữ liệu đã thiết kế.
• Truy cập dữ liệu cho các ứng dụng, dùng các kỹ thuật tương đối tối ưu.
• Bảo mật dữ liệu, cấp quyền khác nhau cho các user.
• Liên kết và toàn vẹn dữ liệu khi CSDL được phân bố trên mạng.
Oracle giúp cho các doanh nghiệp sử dụng thông tin chất lượng cao để kết hợp,
đo lường các kết quả và truyền một cách chính xác nhất đến tất cả các cổ đông. Công
ty cũng cải tiến kĩ thuật trong nhiều năm bằng việc kết hợp tính sáng tạo của những kĩ
sư phần mềm giỏi nhất trong nghành với những phản hồi từ 500 khách hàng của tạp
chí fortune – kết quả là sự ra đời của những đổi mới hỗ trự trợ các ngành kinh doanh bị
chi phối bởi thông tin trên khắp thế giới.


17


CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU
2.1. Định nghĩa.
Kho dữ liệu là tập hợp các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để
hỗ trợ cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương
pháp, kỹ thuật và các cơng cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho
người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều mơi trường khác nhau
thiết kế chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác.
Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng
Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng
của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Ngoài việc chứa đựng một cơ sở dữ liệu quan hệ, kho dữ liệu còn bao gồm sử
dụng các pha trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading ETL), cơng nghệ xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP),
các cơng cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người
sử dụng.

2.2. Đặc trưng kho dữ liệu.
2.2.1. Hướng chủ thể.
Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản
phẩm, bán hàng. Tập trung vào việc mơ hình hóa và phân tích dữ liệu cho những
người đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác
hàng ngày.
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các
chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của cơng ty, ta có thể xây dựng
một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả lời các câu
hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm ngối?".
Các chủ thể điển hình.
• Các tài khoản khách hàng.
• Việc bán hàng.
• Tiền tiết kiệm của khách hàng.

• Các yêu sách bảo hiểm.
• Đặt chỗ hành khách.


18

Hình 2-1: Mơ tả dữ liệu tổ chức theo hướng chủ thể

Các hệ thống OLTP có thể chứa hàng trăm GB số liệu, tuy nhiên những số liệu
này có thể hồn tồn vơ ích trong việc phân tích trực tuyến như: Địa chỉ, ID khách
hàng... Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ
liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng chủ
đề. Một chủ đề là một miền dữ liệu được tách ra từ một tập hợp lớn các chủ đề mà
người sử dụng quan tâm trong cơng việc kinh doanh.

2.2.2. Tích hợp
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp. Các kỹ
thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các
quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính... giữa các nguồn khác nhau.

Hình 2-2: Mơ tả dữ liệu được tích hợp từ nhiều nguồn

Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp.
Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuẩn giữa các đơn vị
đo.

2.2.3. Biến thời gian
Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ
thống tác nghiệp.



19

• Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.
• Dữ liệu của kho dữ liệu: cung cấp thơng tin lịch sử từ 5-10 năm trước.
• Yếu tố thời gian được lưu trữ trong hệ thống.

Hình 2-3: Mô tả dữ liệu theo thời gian

Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được
lưu trữ theo chu kỳ. Ngược lại trong kho dữ liệu, dữ liệu của hàng chục năm được lưu
trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần
quan tâm trong một thời gian dài.

2.2.4. Tính bền vững
Khi thơng tin đã đưa vào kho dữ liệu, dữ liệu không nên thay đổi. Điều này là
hợp lý vì mục đích của một kho dữ liệu là để cho phép ta phân tích những gì đã xảy ra.
Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu hầu như khơng được tiến hành
vì điều này có thể dẫn đến phá vỡ sự tồn vẹn. Thơng thường người ta không yêu cầu
giảm thời gian đưa dữ liệu vào kho dữ liệu xuống mức tối thiểu, nhưng cần tối ưu hoá
kho dữ liệu sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ
đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp.

Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an toàn

Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn khơng bị xố, điều đó cho phép cung cấp thơng tin


20


về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mơ hình nghiệp vụ
phân tích, dự báo.

2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP
Một khác biệt lớn giữa hai hệ thống là kho dữ liệu thường khơng được chuẩn hóa
ở dạng chuẩn 3NF, một kiểu mơ hình hóa dữ liệu phổ biến trong mơi trường OLTP.
• OLTP: Mơ tả các tiến trình xử lý tác nghiệp trực tuyến tại hệ thống nghiệp vụ
• OLAP: Mơ tả các tiến trình xử lý phân tích trực tuyến tại kho dữ liệu

Hình 2-5 Sự tương phản giữa OLTP và mơi trường kho dữ liệu.

Đặc tính

OLTP

OLAP

Thời gian phản hồi
Thao tác dữ liệu

Nhỏ hơn đơn vị giây
Thêm, Xóa, Sửa, Đọc

Giây Ỉ Giờ
Chủ yếu là “Đọc”

Vịng đời dữ liệu
Tổ chức dữ liệu


30 – 60 ngày
Theo ứng dụng

Khoảng thời gian dài
Theo chủ đề, thời gian

Kích thước dữ liệu
Nguồn dữ liệu
Thao tác

Nhỏ Ỉ Lớn
Hệ thống tác nghiệp
Theo qui trình

Lớn Ỉ Rất lớn
Tác nghiệp, bên ngồi
Theo u cầu phân tích

2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu
Ưu điểm của hệ thống thơng tin sử dụng tiếp cận kho dữ liệu:
• Quản lý được dữ liệu dư thừa.
• Đảm báo tính nhất quán cho dữ liệu.
• Tạo khả năng chia sẻ dữ liệu nhiều hơn.
• Cải tiến tính tồn vẹn cho dữ liệu.


21

Nhược điểm của hệ thống thông tin khi tiếp cận kho dữ liệu:

• Một hệ quản trị CSDL lớn sẽ yêu cầu nhiều chi phí xây dựng hạ tầng,
trang thiết bị.
• Một hệ quản trị CSDL được xây dựng tổng qt cho nhiều người dùng thì
cơng việc vận hành và quản trị sẽ tốn nghiều nguồn lực để đảm bảo hệ
thống hoạt động ổn định.

2.4. Kiến trúc kho dữ liệu
Tùy thuộc vào các chi tiết cụ thể của một tổ chức mà ta lựa chọn kiến trúc phù
hợp cho kho dữ liệu. Ba kiến trúc phổ biến là:

2.4.1. Kiến trúc kho dữ liệu cơ sở
Hình 2-6 cho thấy một kiến trúc đơn giản cho một kho dữ liệu. Người dùng cuối
trực tiếp truy cập dữ liệu nguồn thông qua kho dữ liệu.

Hình 2-6 Kiến trúc của một kho dữ liệu

Siêu dữ liệu và dữ liệu thô của một hệ thống OLTP truyền thống là sẵn có, như là
là một loại dữ liệu bổ sung, dữ liệu giản lược. Tóm lược rất có giá trị trong kho dữ
liệu, vì chúng tính toán trước các hoạt động lâu dài như truy vấn kho dữ liệu điển hình
để lấy thơng tin về lượng hàng được bán trong tháng. Một tóm tắt trong một cơ sở dữ
liệu Oracle được gọi là một khung nhìn cụ thể hoá.

2.4.2. Kiến trúc kho dữ liệu với vùng trung gian
Với kiến trúc này, cần làm sạch và xử lý dữ liệu hoạt động trước khi đưa nó vào
kho dữ liệu, mặc dù hầu hết kho dữ liệu sử dụng một vùng trung gian thay thế. Một
vùng trung gian sẽ làm đơn giản hoá việc quản lý kho dữ liệu chung. Hình 2-7 minh
họa kiến trúc đặc trưng này.


22


Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian

2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ
Mặc dù kiến trúc trong hình 2-7 là khá phổ biến, tùy theo yêu cầu ta có thể kiến
trúc kho dữ liệu cho các nhóm khác nhau bên trong của tổ chức. Điều này có thế thực
hiện bằng cách thêm các kho dữ liệu cục bộ, đó là các hệ thống được thiết kế cho một
phạm vi cụ thể của doanh nghiệp. Hình 2-8 minh hoạ một ví dụ nơi mua, bán hàng, và
hàng tồn kho được tách ra. Trong ví dụ này, một nhà phân tích tài chính có thể muốn
phân tích dữ liệu lịch sử cho mua và bán.

Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ

2.5. Thiết kế logic
2.5.1. Thiết kế logic mức vật lý
Sau khi xác định các yêu cầu nghiệp vụ và thỏa thuận phạm vi của ứng dụng, và
tạo ra một thiết kế dựa trên các khái niệm. Bây giờ ta cần phải dịch các yêu cầu thành


23

một hệ thống có thể chuyển giao, tạo ra những thiết kế logic và thiết kế vật lý cho kho
dữ liệu. Cần xác định:
1. Nội dung dữ liệu cụ thể.
2. Mối quan hệ bên trong và giữa các nhóm dữ liệu.
3. Môi trường hệ thống hỗ trợ kho dữ liệu.
4. Các biến đổi dữ liệu cần thiết.
5. Tần suất mà dữ liệu được làm tươi.
Thiết kế logic xem xét các mối quan hệ logic giữa các chủ thể. Thiết kế vật lý
xem xét cách thức hiệu quả nhất của việc lưu trữ và gọi ra các đối tượng, cũng như xử

lý chúng từ một chuyển dịch và quan điểm sao lưu, phục hồi.
Thiết kế hướng tới các nhu cầu của người dùng cuối. Người dùng cuối thường
muốn thực hiện phân tích và xem xét dữ liệu tổng hợp, hơn là giao tác riêng lẻ. Tuy
nhiên, người dùng cuối có thể khơng biết những gì họ cần cho đến khi họ nhìn thấy nó.
Ngồi ra, một thiết kế được lên kế hoạch chu đáo có tính đến sự tăng trưởng và thay
đổi khi nhu cầu của người dùng thay đổi và tiến hóa. Với thiết kế logic, tập trung vào
các yêu cầu thông tin và lưu các chi tiết thực thi cho sau này.

2.5.2. Tạo một thiết kế logic
Một thiết kế logic là trừu tượng và dựa trên các khái niệm. Ta không đề cập tới
những chi tiết cài đặt vật lý. Ta chỉ đề cập tới việc xác định những loại thông tin mà ta
cần. Một kỹ thuật ta cần sử dụng làm mơ hình cho các u cầu thơng tin logic của tổ
chức là mơ hình thực thể quan hệ. Mơ hình thực thể quan hệ liên quan đến việc xác
định những thứ quan trọng (thực thể), các tính chất của những thuộc tính, và làm thế
nào chúng liên hệ được với nhau (các mối quan hệ).
Quá trình thiết kế logic liên quan đến việc sắp xếp dữ liệu thành một chuỗi các
mối quan hệ logic được gọi là các thực thể và thuộc tính. Một thực thể đại diện cho
một mảng của thông tin. Trong cơ sở dữ liệu quan hệ, một thực thể thường ánh xạ tới
một bảng. Một thuộc tính là một thành phần của một thực thể giúp xác định tính duy
nhất của thực thể. Trong cơ sở dữ liệu quan hệ, một thuộc tính ánh xạ tới một cột.
Để chắc chắn rằng dữ liệu ta có là nhất quán, ta cần phải sử dụng định danh duy
nhất. Một định danh duy nhất là một cái gì đó ta thêm vào bảng để ta có thể phân biệt
các phần tử giống nhau khi nó xuất hiện ở những nơi khác nhau. Trong một thiết kế
vật lý, đó thường là một chính khố.
Trong khi sơ đồ thực thể quan hệ theo truyền thống được kết hợp với các mơ
hình chuẩn hóa mức cao như các ứng dụng OLTP, kỹ thuật vẫn cịn hữu ích cho thiết


×