Tải bản đầy đủ (.pdf) (81 trang)

Nghiên cứu giải pháp kho dữ liệu trong Oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP Tiên Phong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.75 MB, 81 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




TRỊNH HỒNG NAM



NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIÊN PHONG



LUẬN VĂN THẠC SĨ











Hà Nội – 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




TRỊNH HỒNG NAM


NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG
BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG,
NGÂN HÀNG TMCP TIÊN PHONG


Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05



LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Trung Tuấn




Hà Nội – 2011
MỤC LỤC
LỜI CÁM ƠN 4
Danh mục các ký hiệu, chữ viết tắt 5

Danh mục các bảng, hình vẽ và đồ thị 7
PHẦN MỞ ĐẦU 9 U
1. ĐẶT VẤN ĐỀ 9
2. MỤC ĐÍCH NGHIÊN CỨU 10 U
3. KẾT CẤU ĐỀ TÀI 10
CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU 11 U
1.1. Khái niệm 11
1.2. Mục tiêu hệ quản trị cơ sở dữ liệu 11
1.3. Quá trình phát triển 11
1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu 13
1.5. Hệ quản trị cơ sở dữ liệu Oracle 15
CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU 17 U
2.1. Định nghĩa 17
2.2. Đặc trưng kho dữ liệu. 17
2.2.1. Hướng chủ thể. 17
2.2.2. Tích hợp 18
2.2.3. Biến thời gian 18
2.2.4. Tính bền vững 19
2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle 20
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP 20
2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu 20
2.4. Kiến trúc kho dữ liệu 21
2.4.1. Kiến trúc kho dữ liệu cơ sở 21
2.4.2. Kiến trúc kho dữ liệu với vùng trung gian 21
2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ 22
2.5. Thiết kế logic 22
2.5.1. Thiết kế logic mức vật lý 22
2.5.2. Tạo một thiết kế logic 23
2.5.3. Lược đồ kho dữ liệu 24
2.5.4. Các đối tượng kho dữ liệu 25

2.5.5. Các bảng sự kiện 25
2.5.6. Các bảng chiều 25
2.5.7. Định danh duy nhất 27
2
2.5.8. Mối quan hệ 27
2.5.9. Minh họa đối tượng kho dữ liệu và mối quan hệ 27
2.6. Thiết kế vật lý 28
2.6.1. Chuyển thiết kế logic thành thiết kế vật lý 28
2.6.2. Thiết kế vật lý 28
2.6.3. Cấu trúc thiết kế vật lý 29
2.6.4. Không gian lưu trữ dữ liệu 29
2.6.5. Bảng và phân hoạch bảng 29
2.6.6. Nén bảng 30
2.6.7. Khung nhìn 30
2.6.8. Ràng buộc toàn vẹn 30
2.6.9. Chỉ mục và chỉ mục phân cụm 30
2.6.10. Khung nhìn vật lí 31
2.6.11. Chiều 31
2.7. Công cụ tích hợp dữ liệu, quản lý môi trường kho dữ liệu 31
2.7.1. Tổng quan về ETL 31
2.7.2. Trích xuất dữ liệu 33
2.7.3. Trao đổi dữ liệu 34
2.7.4. Tải dữ liệu 34
2.8. Bảo trì 35
2.9. Thực thi song song 35
CHƯƠNG 3. GIẢI PHÁP VÀ ĐỀ XUẤT XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG 40
3.1. Giới thiệu về ngân hàng Tiên Phong 40
3.2. Mục đích kho dữ liệu 45
3.2. Đặc tính của kho dữ liệu 45
3.3. Hỗ trợ tích hợp dữ liệu 46

3.4. Nội dung giải pháp kho dữ liệu, Ngân hàng Tiên Phong 46
3.4.1. Hiện trạng hệ thống Core Banking 48
3.4.2. Hệ thống tác nghiệp 50
3.4.3. Nhu cầu cho hệ thống tác nghiệp đa chiều 51
3.4.4. Nguồn dữ liệu 53
3.4.5. Vùng đệm dữ liệu 54
3.4.6. Kho dữ liệu tác nghiệp tổng hợp 54
3.4.7. Kho dữ liệu tích hợp từ các CSDL chủ đề 54
3.4.8. Các ứng dụng và công cụ khai thác, phân tích dữ liệu phục vụ người sử dụng .56
3.4.9. Kho dữ liệu từ điển 57
3.5. Phân tích, thiết kế xây dựng kho dữ liệu, kho dữ liệu chuyên đề 57

3
3.5.1. Mục đích và yêu cầu 57
3.5.2. Mô hình dữ liệu và các lược đồ. 58
CHƯƠNG4. CÀI ĐẶT, THỬ NGHIỆM, KẾT QUẢ 67
4.1. Môi trường cài đặt 67
4.2. Dữ liệu thử nghiệm 68
4.3. Kết quả 68
4.3.1. Công cụ xây dựng kho dữ liệu 68
4.3.2. Xây dựng các bảng chiều thông tin 69
4.3.3. Xây dựng một khối thông tin xoay theo các bảng chiều dữ liệu 69
4.3.4. Luồng các tiến trình thực thi 70
4.3.5. Hệ quản trị kinh doanh thông minh 70
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 77
Tài liệu Tiếng Việt 77
Tài liệu Tiếng Anh 77




Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from
/>Danh mục các ký hiệu, chữ viết tắt
Ký hiệu Chuỗi văn bản gốc Mô tả
3NF Third Normal Form Chuẩn hóa 3NF
Client/Server
OLAP
Client/Server Online Analytical
Processing
Xử lý phân tích trực tuyến
khách/chủ
CDC Change Data Capture Sao/chụp thông tin dữ liệu thay đổi
CNTT Information Technology Công nghệ thông tin
CPU Central Processing Unit Đơn vị xử lý trung tâm
CSDL Database Cơ sở dữ liệu
DDL Data Define Language Ngôn ngữ định nghĩa dữ liệu
DRM Database Resource Manager Quản lý nguồn tài nguyên dữ liệu
DBMS Database Management System Hệ quản trị cơ sở dữ liệu
DF Datafile Tệp dữ liệu
DML Data Manipulation Language Ngôn ngữ thao tác dữ liệu
DWH Data Warehouse Kho dữ liệu
DSS Decision Support System Hỗ trợ quyết định
DOLAP
Database Online Analytical
Processing
Xử lý phân tích trực tuyến CSDL
ETL
Extraction, Transportation,

Loading
Trích suất, Trao đổi, Tải
EIS Executive Information System Hệ thống thông tin điều hành
GB Giga byte Đơn vị đo lưu trữ dữ liệu
HOLAP
Hybric Online Analytical
Processing
Xử lý phân tích trực tuyến kết hợp
ID ID Định danh
NN NOT NULL Khác rỗng
MOLAP
Multi dimensional Online
Analytical Processing
Xử lý phân tích trực tuyến đa chiều
OD Oracle Designer Sản phẩm
ODS Operational Data Store Kho dữ liệu tác nghiệp tổng hợp
OLAP On Line Analytical Processing Xử lý phân tích trực tuyến
OLTP On Line Transaction Processing Xử lý tác nghiệp trực tuyến
6
ORA ORACLE Tập đoàn công nghệ
OWB Oracle Warehouse Builder
Công cụ xây dựng kho dữ liệu
Oracle
RAC Real Application Cluster
ROLAP
Relational Online Analytical
Processing
Xử lý phân tích trực tuyến quan hệ
SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc
TBS Tablespace Không gian bảng lưu trữ

TMCP Thương mại cổ phần
TB
Terabyte (1TB=10
9
KB)
Đơn vị đo lưu trữ dữ liệu
PQ Parallel Query Truy vấn song song

Danh mục các bảng, hình vẽ và đồ thị

Trang
Hình 1-1: Kiến trúc hệ quản trị cơ sở dữ liệu DBMS 13
Hình 2-1: Mô tả dữ liệu tổ chức theo hướng chủ thể 17
Hình 2-2: Mô tả dữ liệu được tích hợp từ nhiều nguồn 17
Hình 2-3: Mô tả dữ liệu theo thời gian 18
Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an toàn 18
Hình 2-5: Sự tương phản giữa OLTP và môi trường kho dữ liệu 19
Hình 2-6: Kiến trúc của một kho dữ liệu 20
Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian 21
Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ 21
Hình 2-9: Lược đồ hình sao 23
Hình 2-10: Các mức đặc trưng trong một hệ thống phân cấp chiều 26
Hình 2-11: Các đối tượng kho dữ liệu điển hình 27
Hình 2-12: Thiết kế logic so với thiết kế vật lý 28
Hình 2-13: Ví dụ về chiều 31
Hình 2-14: Công cụ Oracle Warehouse Builder 31
Hình 2-15: Công cụ Extract, Tranform, Loading của Oracle Warehouse Builder 32
Hình 2-16: Minh họa các buffer tin điện và kết nối giữa servers thực thi song song 38
Hình 3-1: Thông tin về ngân hàng thương mại cổ phần Tiên Phong 40
Hình 3-2: Phần mềm lõi, giải pháp iFlex 42

Hình 3-3: Dịch vụ thanh toán qua điện thoại 43
Hình 3-4: Dịch vụ thanh toán qua Internet 43
Hình 3-5: Dịnh vụ thanh toán qua thẻ ATM 43
Hình 3-6: Các dịch vụ thanh toán khác 44
Hình 3-7: Kiến trúc tổng thể kho dữ liệu 47
Hình 3-8: Mối quan hệ giữa CNTT và Nghiệp vụ 48
Hình 3-9: Mô hình hiện trạng hạ tầng Ngân hàng TMCP Tiên Phong 49
Hình 3-10: Các phân hệ - hệ thống Core Banking 50
Hình 3-11: Hệ thống tác nghiệp 51
Hình 3-12: Mô hình hệ thống chuyên đề, khai thác thông tin 53
Hình 3-13: Mô hình kiến trúc, giải pháp đề xuất kho dữ liệu 54
Hình 3-14: Mô hình kho dữ liệu khách hàng 59
Hình 4-1: Công cụ xây dựng kho dữ liệu 68
8
Hình 4-2: Chiều thông tin 69
Hình 4-3: Khối dữ liệu sẽ được xoay theo 2 chiều thông tin 69
Hình 4-4: Luồng các tiến trình thực thi 70
Hình 4-5: Quản trị doanh nghiệp 71
Hình 4-6: Kinh doanh thông minh qua trình duyệt Web 71
Hình 4-7: Báo cáo chi phí 10/2010 72
Hình 4-8: Báo cáo doanh thu 10/2010 73
Hình 4-9: Báo cáo sản phẩm vay 10/2010 74
Hình 4-10: Báo cáo tăng trưởng khách hàng 10/2010 75






PHẦN MỞ ĐẦU

1. ĐẶT VẤN ĐỀ
Máy tính từ khi ra đời đã đóng vai trò vô cùng quan trọng trong lịch sử phát triển
của nhân loại. Các máy tính là những công cụ tính toán mạnh, cho phép con người giải
được các bài toán có số lượng tính toán khổng lồ mà trước đó không thể thực hiện
được bằng tay như tính toán kết cấu công trình, tính toán xây dựng kế hoạch quốc gia,
thống kê điều tra dân số, tuyển sinh , là những bài toán lớn, có thuật toán xác định.
Góp phần tích cực vào quá trình này là sự xuất hiện của những ngôn ngữ lập
trình hướng cấu trúc, phần mềm được coi là một nghề và có quy trình phát triển tuân
thủ các quy trình nghiêm ngặt.
Hệ quản trị cơ sở dữ liệu (CSDL) quan hệ là hệ quản trị CSDL phổ biến nhất
hiện nay và được hỗ trợ bởi nhiều nhà cung cấp phần mềm Tính hiệu quả của các ứng
dụng phụ thuộc vào chất lượng của việc tổ chức dữ liệu. Những cải tiến trong kỹ thuật
và xử lý CSDL đưa đến các cơ hội sử dụng thông tin một cách linh hoạt và hiệu quả
khi dữ liệu được tổ chức và lưu trữ trong các cấu trúc quan hệ. Hệ quản trị CSDL là
một thành công trong lĩnh vực thương mại
Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính
là những công cụ hiệu quả để xử lý thông tin và hệ quản trị CSDL là công cụ phổ biến
cho phép lưu trữ và rút trích thông tin một cách hiệu quả.
Với sự phát triển của mô hình kho dữ liệu, ngày nay ở Việt nam các tổ chức,
doanh nghiệp luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà
quản trị, lãnh đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát
triển, đưa ra các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quản, tổ chức của
mình. Nhằm đáp ứng đầy đủ các yêu cầu trên nhiều công cụ được xây dựng nhằm thỏa
mãn các nhu cầu khai thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung
nghiên cứu. Một trong những công cụ đó là bộ sản phẩm Oracle Dataware House của
hãng phần mềm nổi tiếng thế giới Tập đoàn Oracle.
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng
lớn. Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu để
cung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh
trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh

doanh có chất lượng cao và ổn định.



10
2. MỤC ĐÍCH NGHIÊN CỨU
Luận văn này được thực hiện với mục đích nghiên cứu, xây dựng giải pháp và
được đề xuất áp dụng thực tiễn cho bài toán “Xây dựng hệ thống kho dữ liệu khách
hàng, Ngân hàng thương mại cổ phần Tiên Phong”.
• Thi hành các phân tích dữ liệu phức tạp.
• Thực hiện phân tích:
o Phân tích định hướng.
o Phân tích chuỗi thời gian.
o Phân tích rủi ro.
• Thăm dò các hệ hỗ trợ quyết định.
• Khám phá và đưa ra các yếu tố ẩn thông qua các kỹ thuật khai phá dữ liệu.
Đề tài được nghiên cứu nhằm giải quyết, khắc phục thực trạng, nhược điểm mà
hệ thống báo cáo quản trị hiện nay đang vận hành còn thiếu hiệu quả, khả năng đáp
ứng, tính sẵn sàng chưa cao.
3. KẾT CẤU ĐỀ TÀI
Luận văn chia thành các chương :
• Chương 1: Hệ quản trị cơ sở dữ liệu.
• Chương 2: Lý thuyết Kho dữ liệu.
• Chương 3: Giải pháp và đề xuất Kho dữ liệu.
• Chương 4: Cài đặt, thử nghiệm, kết quả.
Ngoài ra luận văn có phần mở đầu, cho biết mục đích nghiên cứu và phần kết
luận, thể hiện kết quả chính của luận văn và một số khuyến nghị, đề xuất.






CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU
1.1. Khái niệm
Hệ quản trị cơ sở dữ liệu là phần mềm hay hệ thống được thiết kế để quản trị một
cơ sở dữ liệu, hỗ trợ khả năng lưu trữ, sửa chữa, xóa và tìm kiếm thông tin trong một
cơ sở dữ liệu. Có rất nhiều loại hệ quản trị CSDL khác nhau: từ phần mềm nhỏ chạy
trên
máy tính cá nhân cho đến những hệ quản trị phức tạp chạy trên một hoặc nhiều
siêu máy tính.
Tuy nhiên, đa số hệ quản trị CSDL trên thị trường đều có một đặc điểm chung là
sử dụng ngôn ngữ truy vấn theo cấu trúc mà tiếng Anh gọi là Structured Query
Language (
SQL). Các hệ quản trị CSDL phổ biến được nhiều người biết đến là
MySQL, Oracle, PostgreSQL, SQL Server, DB2, Infomix, v.v. Phần lớn các hệ quản
trị CSDL kể trên hoạt động tốt trên nhiều hệ điều hành khác nhau như
Linux, Unix và
MacOS ngoại trừ SQL Server của Microsoft chỉ chạy trên hệ điều hành Windows.
1.2. Mục tiêu hệ quản trị cơ sở dữ liệu
Một hệ quản trị cơ sở dữ liệu luôn hướng đến các mục tiêu:
• Dữ liệu sẵn dùng: Dữ liệu được tổ chức sao cho mọi người dùng có thể truy cập
dễ dàng theo chức năng và nhiệm vụ của họ.
• Tính toàn vẹn dữ liệu: Dữ liệu lưu trữ trong CSDL là đúng đắn, đáng tin cậy.
• An toàn dữ liệu: Chỉ có người dùng được phép mới có thể truy cập dữ liệu. Nếu
nhiều người dùng truy cập chung một mục dữ liệu cùng lúc thì hệ quản trị
CSDL không cho phép họ thực hiện những thay đổi gây mâu thuẫn dữ liệu.
• Độc lập dữ liệu: Hệ quản trị CSDL phải cho phép tất cả mọi người dùng được
phép lưu trữ, cập nhật và rút trích dữ liệu hiệu quả mà không cần nắm chi tiết
về cấu trúc của CSDL được biểu diễn và cài đặt.
1.3. Quá trình phát triển

Người thấy rằng các mốc tiến hóa của các hệ thông cơ sở dữ liệu có vai trò quan
trọng:
• Các tệp tin dữ liệu: 1960s - 1980s.
• Mô hình cấu trúc: 1970s - 1990s.
• Mô hình mạng: 1970s - 1990s.
• Mô hình quan hệ: 1980s - đến nay.
• Mô hình hướng đối tượng: 1990s - đến nay.
12
Một số CSDL quan hệ được các hãng phát triển phần mềm nổi tiếng xây dựng
tích hợp với các hãng phát triển phần cứng được các doanh nghiệp, tổ chức, người
dùng đón nhận SYSBASE, ACCESS, FOXPRO, MY SQL, SQL Server , tạo điều
kiện vô cùng thuận lợi cho nguời phát triển.
Dường như máy tính và những chương trình cũng đã giải quyết được hầu hết các
vấn đề trong lĩnh vực quản lý. Tuy nhiên thực tế, các tổ chức, doanh nghiệp muốn
thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận
tiện cho người mua và người quản lý bán hàng ), người lãnh đạo công ty phải nắm
được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường nghiệp vụ
mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có
nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch,
giao dịch khách hàng, lập hoá đơn Chính vì lý do đó những hệ thống này có một cái
tên cổ điển là hệ thống xử lý giao dịch (Online Transaction Process - OLTP).
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng bằng ngôn
ngữ các câu lệnh truy vấn SQL trong quá trình xử lý. Hệ thống cho phép nhiều ứng
dụng truy cập dữ liệu cùng một thời điểm.
Các ứng dụng được sử dụng trên máy trạm phục vụ cho các hoạt động giao dịch
như ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí đều sử
dụng hệ thống OLTP có các ưu điểm:
• Xử lý các chuyển tác tương tác.
• Dễ bảo trì và khống chế dữ liệu thừa.
• Thiết lập dữ liệu quan hệ trọn vẹn.

• Tính hiệu quả cao.
• Giảm thời gian của khách hàng.
Các CSDL được cấu hình trong các hệ OLTP thường được thiết kế thoả mãn
chuẩn Third Normal Form (3NF) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là lưu
trữ các dữ liệu "thô", nhưng mức độ tổng quát, trừu tượng của dữ liệu không cao. Nói
cách khác OLPT chỉ có ích để tìm trả lời những câu truy vấn dạng: Tổng doanh thu
toàn hàng đạt được trong 6 tháng đầu năm, chứ chưa có báo cáo xoay theo nhiều
chiều, khối thông tin sản phẩm nào đem lại nhiều doanh thu nhất tại chi nhánh, phòng
giao dịch trong tháng vừa qua Trong khi đó các nhà quản lý ở mức cao của công ty
rất ít khi quan tâm đến những câu hỏi loại đó. Điều họ cần chú ý là những câu hỏi trừu
tượng hơn như: Tiêu thụ sản phẩm X tại khu vực A đang giảm, nếu thay đổi 3%-5%
giá của sản phẩm X tại khu vực A, tình trạng tiêu thụ sẽ thay đổi ra sao trong 6 tháng
cuối năm và tại sao?

13
Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ
CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn giản.
Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLTP trong việc
phân tích dữ liệu là:
• Các số liệu ở mức quá chi tiết.
• Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập
khác nhau và ở những CSDL hoàn toàn khác nhau.
• Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ.
• Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu
tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục
vụ các giao dịch trực tuyến.
Trong môi trường dư thừa số liệu, nhà phân tích, quản trị không thể tìm ra cho
mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra
xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết với nhau của
các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp

dẫn đến sự dư thừa thông tin này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ
thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm:
1. Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ
thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như
phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối với các hệ
thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với những hệ
thống được mô tả kém.
2. Việc truy vấn để tạo báo cáo thường xuyên liên quan tới rất nhiều bảng, hạn chế
sự truy cập và khai thác trong quá trình làm việc hàng ngày, làm ảnh hưởng trực
tiếp đến khách hàng.
Một cách tiếp cận khác được đề xướng vào những năm 90 của thế kỷ trước là
một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing -
kỹ thuật xây dựng các kho dữ liệu.
1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu


14


Hình 1-1: Kiến trúc của DBMS
Kiến trúc của hệ quản trị cơ sở dữ liệu gồm 2 thành phần chức năng:
• Bộ quản lý lưu trữ
• Bộ xử lý truy vấn
1. Bộ quản lý lưu trữ
Bộ quản lý lưu trữ có nhiệm vụ lưu trữ, trích xuất và cập nhật dữ liệu và cơ sở dữ
liệu Bộ quản lý lưu trữ gồm có các đơn vị sau:
- Kiểm tra chứng thực và toàn vẹn: Kiểm tra toàn vẹn và quyền truy cập dữ liệu
của người dùng cơ sở dữ liệu
- Quản lý giao dịch: Thành phần đảm bảo cơ sở dữ liệu luôn ở trạng thái nhất

quán. Quản lý việc thực thi các yêu cầu thao tác dữ liệu và đảm bảo việc truy
cập dữ liệu đồng thời không dẫn đến mâu thuẫn.
- Quản lý tệp tin: Quản lý việc cấp phát không gian trên đĩa, các tệp tin được
dùng để chứa các dữ liệu tương tự nhau. Hệ quản lý tập tin quản lý các tệp tin
độc lập, giúp đỡ nhập và lấy các mẩu tin. Thành phần quản lý tệp tin thiết lập

15
và duy trì danh sách các cấu trúc và chỉ mục được định nghĩa trong lược đồ.
Thành phần quản lý tệp tin có thể:
o Tạo tệp tin
o Xóa tệp tin
o Cập nhật mẩu tin trong tệp tin
o Lấy một mẩu tin từ một tệp tin
- Quản lý vùng đệm: Có trách nhiệm chuyển dữ liệu từ đĩa lưu trữ vào bộ nhớ
chính theo yêu cầu của chương trình.
2. Bộ quản lý truy vấn: Thực hiện câu truy vấn nhận được từ người dùng qua các
giai đoạn phân tích, tối ưu hóa câu hỏi, lập kế hoạch thực hiện và thực hiện tính
toán.
1.5. Hệ quản trị cơ sở dữ liệu Oracle
Cơ sở dữ liệu oracle là một cơ sở dữ liệu mạnh mẽ nhất thế giới. Được thiết kế để
triển khai cho mọi môi trường doanh nghiệp. Việc cài đặt, quản lý rất dễ dàng, các
công cụ để phát triển các ứng dụng một cách hoàn thiện và nhanh chóng. Cơ sở dữ liệu
Oracle phù hợp cho mọi loại dữ liệu, các ứng dụng và các môi trường khác nhau bao
gồm cả windows và linux với chi phí tối thiểu.
Hệ quản trị cơ sở dữ liệu oracle 9i/10g/11g. Đây có thể nói là một hệ quản trị
CSDL hàng đầu trên thế giới. Hơn hai phần ba trong số 500 tập đoàn công ty lớn nhất
thế giới sử dụng Oracle. Ở việt nam hầu hết các đơn vị lớn thuộc các ngành ngân hàng,
kho bạc, thuế, bảo hiểm, bưu điện, hàng không, dầu khí,… đều sử dụng hệ quản trị
csdl oracle. Có được như thế là vì oracle hiện đang dẫn đầu về các tính năng như:
• Độ ổn định và tin cậy cao

• Khả năng xử lý dữ liệu rất lớn, có thể lên đến hàng trăm Terabyte (TB) mà vẫn
đảm bảo tốc độ xử lý dữ liệu rất cao.
• Khả năng bảo mật rất cao, Oracle đạt độ bảo mật cấp c2 theo tiêu chuẩn bảo
mật của bộ quốc phòng Mỹ và công nghệ CSDL Oracle vốn được hình thành từ
yêu cầu đặt hàng của các cơ quan an ninh.
Ngoài ra Oracle còn là một hệ CSDL độc lập với hệ điều hành. Nó cho phép
không chỉ chạy trên các hệ điều hành thương mại Windows mà còn có thể chạy trên
các hệ điều hành mã nguồn mở miễn phí như Linux rất mạnh và rất phổ biến hiện nay
Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dựng ứng dụng và
người dùng cuối được trang bị các giải pháp kỹ thuật thông tin hoàn hảo. Các ứng

16
dụng Oracle tương thích với hầu hết các hệ điều hành từ các máy tính cá nhân đến các
hệ thống xử lý song song lớn.
Oracle cung cấp một hệ quản trị cơ sở dữ liệu uyển chuyển: Máy chủ dữ liệu
Oracle lưu giữ và quản lý các thông tin dùng trong các ứng dụng. Phiên bản máy chủ
dữ liệu Oracle quản lý CSDL với tất cả các ưu điểm của cấu trúc CSDL quan hệ cộng
thêm khả năng lưu giữ, thực thi và tính bảo mật đối với các đối tượng CSDL như các
Function, Procedure và Trigger …
Oracle Database Server là một hệ quản trị CSDL điều khiển:
• Lưu giữ dữ liệu trên các vùng dữ liệu đã thiết kế.
• Truy cập dữ liệu cho các ứng dụng, dùng các kỹ thuật tương đối tối ưu.
• Bảo mật dữ liệu, cấp quyền khác nhau cho các user.
• Liên kết và toàn vẹn dữ liệu khi CSDL được phân bố trên mạng.
Oracle giúp cho các doanh nghiệp sử dụng thông tin chất lượng cao để kết hợp,
đo lường các kết quả và truyền một cách chính xác nhất đến tất cả các cổ đông. Công
ty cũng cải tiến kĩ thuật trong nhiều năm bằng việc kết hợp tính sáng tạo của những kĩ
sư phần mềm giỏi nhất trong nghành với những phản hồi từ 500 khách hàng của tạp
chí fortune – kết quả là sự ra đời của những đổi mới hỗ trự trợ các ngành kinh doanh bị
chi phối bởi thông tin trên khắp thế giới.


























17
CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU
2.1. Định nghĩa.
Kho dữ liệu là tập hợp các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để
hỗ trợ cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương

pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho
người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau
thiết kế chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác.
Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng
Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng
của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Ngoài việc chứa đựng một cơ sở dữ liệu quan hệ, kho dữ liệu còn bao gồm sử
dụng các pha trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading -
ETL), công nghệ xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP),
các công cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người
sử dụng.
2.2. Đặc trưng kho dữ liệu.
2.2.1. Hướng chủ thể.
Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản
phẩm, bán hàng. Tập trung vào việc mô hình hóa và phân tích dữ liệu cho những
người đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác
hàng ngày.
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các
chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của công ty, ta có thể xây dựng
một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả lời các câu
hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm ngoái?".
Các chủ thể điển hình.
• Các tài khoản khách hàng.
• Việc bán hàng.
• Tiền tiết kiệm của khách hàng.
• Các yêu sách bảo hiểm.
• Đặt chỗ hành khách.

18


Hình 2-1: Mô tả dữ liệu tổ chức theo hướng chủ thể
Các hệ thống OLTP có thể chứa hàng trăm GB số liệu, tuy nhiên những số liệu
này có thể hoàn toàn vô ích trong việc phân tích trực tuyến như: Địa chỉ, ID khách
hàng Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ
liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng chủ
đề. Một chủ đề là một miền dữ liệu được tách ra từ một tập hợp lớn các chủ đề mà
người sử dụng quan tâm trong công việc kinh doanh.
2.2.2. Tích hợp
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp. Các kỹ
thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các
quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính giữa các nguồn khác nhau.

Hình 2-2: Mô tả dữ liệu được tích hợp từ nhiều nguồn
Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp.
Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuẩn giữa các đơn vị
đo.
2.2.3. Biến thời gian
Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ
thống tác nghiệp.

19
• Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.
• Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử từ 5-10 năm trước.
• Yếu tố thời gian được lưu trữ trong hệ thống.

Hình 2-3: Mô tả dữ liệu theo thời gian
Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được
lưu trữ theo chu kỳ. Ngược lại trong kho dữ liệu, dữ liệu của hàng chục năm được lưu
trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần

quan tâm trong một thời gian dài.
2.2.4. Tính bền vững
Khi thông tin đã đưa vào kho dữ liệu, dữ liệu không nên thay đổi. Điều này là
hợp lý vì mục đích của một kho dữ liệu là để cho phép ta phân tích những gì đã xảy ra.
Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành
vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông thường người ta không yêu cầu
giảm thời gian đưa dữ liệu vào kho dữ liệu xuống mức tối thiểu, nhưng cần tối ưu hoá
kho dữ liệu sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ
đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp.

Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an toàn
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin

20
về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ
phân tích, dự báo.
2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle
2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP
Một khác biệt lớn giữa hai hệ thống là kho dữ liệu thường không được chuẩn hóa
ở dạng chuẩn 3NF, một kiểu mô hình hóa dữ liệu phổ biến trong môi trường OLTP.
• OLTP: Mô tả các tiến trình xử lý tác nghiệp trực tuyến tại hệ thống nghiệp vụ
• OLAP: Mô tả các tiến trình xử lý phân tích trực tuyến tại kho dữ liệu

Hình 2-5 Sự tương phản giữa OLTP và môi trường kho dữ liệu.

Đặc tính OLTP OLAP
Thời gian phản hồi Nhỏ hơn đơn vị giây Giây Æ Giờ
Thao tác dữ liệu Thêm, Xóa, Sửa, Đọc Chủ yếu là “Đọc”
Vòng đời dữ liệu 30 – 60 ngày Khoảng thời gian dài

Tổ chức dữ liệu Theo ứng dụng Theo chủ đề, thời gian
Kích thước dữ liệu Nhỏ Æ Lớn Lớn Æ Rất lớn
Nguồn dữ liệu Hệ thống tác nghiệp Tác nghiệp, bên ngoài
Thao tác Theo qui trình Theo yêu cầu phân tích
2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu
Ưu điểm của hệ thống thông tin sử dụng tiếp cận kho dữ liệu:
• Quản lý được dữ liệu dư thừa.
• Đảm báo tính nhất quán cho dữ liệu.
• Tạo khả năng chia sẻ dữ liệu nhiều hơn.
• Cải tiến tính toàn vẹn cho dữ liệu.

21
Nhược điểm của hệ thống thông tin khi tiếp cận kho dữ liệu:
• Một hệ quản trị CSDL lớn sẽ yêu cầu nhiều chi phí xây dựng hạ tầng,
trang thiết bị.
• Một hệ quản trị CSDL được xây dựng tổng quát cho nhiều người dùng thì
công việc vận hành và quản trị sẽ tốn nghiều nguồn lực để đảm bảo hệ
thống hoạt động ổn định.
2.4. Kiến trúc kho dữ liệu
Tùy thuộc vào các chi tiết cụ thể của một tổ chức mà ta lựa chọn kiến trúc phù
hợp cho kho dữ liệu. Ba kiến trúc phổ biến là:
2.4.1. Kiến trúc kho dữ liệu cơ sở
Hình 2-6 cho thấy một kiến trúc đơn giản cho một kho dữ liệu. Người dùng cuối
trực tiếp truy cập dữ liệu nguồn thông qua kho dữ liệu.

Hình 2-6 Kiến trúc của một kho dữ liệu
Siêu dữ liệu và dữ liệu thô của một hệ thống OLTP truyền thống là sẵn có, như là
là một loại dữ liệu bổ sung, dữ liệu giản lược. Tóm lược rất có giá trị trong kho dữ
liệu, vì chúng tính toán trước các hoạt động lâu dài như truy vấn kho dữ liệu điển hình
để lấy thông tin về lượng hàng được bán trong tháng. Một tóm tắt trong một cơ sở dữ

liệu Oracle được gọi là một khung nhìn cụ thể hoá.
2.4.2. Kiến trúc kho dữ liệu với vùng trung gian
Với kiến trúc này, cần làm sạch và xử lý dữ liệu hoạt động trước khi đưa nó vào
kho dữ liệu, mặc dù hầu hết kho dữ liệu sử dụng một vùng trung gian thay thế. Một
vùng trung gian sẽ làm đơn giản hoá việc quản lý kho dữ liệu chung. Hình 2-7 minh
họa kiến trúc đặc trưng này.

22

Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian
2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ
Mặc dù kiến trúc trong hình 2-7 là khá phổ biến, tùy theo yêu cầu ta có thể kiến
trúc kho dữ liệu cho các nhóm khác nhau bên trong của tổ chức. Điều này có thế thực
hiện bằng cách thêm các kho dữ liệu cục bộ, đó là các hệ thống được thiết kế cho một
phạm vi cụ thể của doanh nghiệp. Hình 2-8 minh hoạ một ví dụ nơi mua, bán hàng, và
hàng tồn kho được tách ra. Trong ví dụ này, một nhà phân tích tài chính có thể muốn
phân tích dữ liệu lịch sử cho mua và bán.

Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ
2.5. Thiết kế logic
2.5.1. Thiết kế logic mức vật lý
Sau khi xác định các yêu cầu nghiệp vụ và thỏa thuận phạm vi của ứng dụng, và
tạo ra một thiết kế dựa trên các khái niệm. Bây giờ ta cần phải dịch các yêu cầu thành

23
một hệ thống có thể chuyển giao, tạo ra những thiết kế logic và thiết kế vật lý cho kho
dữ liệu. Cần xác định:
1. Nội dung dữ liệu cụ thể.
2. Mối quan hệ bên trong và giữa các nhóm dữ liệu.
3. Môi trường hệ thống hỗ trợ kho dữ liệu.

4. Các biến đổi dữ liệu cần thiết.
5. Tần suất mà dữ liệu được làm tươi.
Thiết kế logic xem xét các mối quan hệ logic giữa các chủ thể. Thiết kế vật lý
xem xét cách thức hiệu quả nhất của việc lưu trữ và gọi ra các đối tượng, cũng như xử
lý chúng từ một chuyển dịch và quan điểm sao lưu, phục hồi.
Thiết kế hướng tới các nhu cầu của người dùng cuối. Người dùng cuối thường
muốn thực hiện phân tích và xem xét dữ liệu tổng hợp, hơn là giao tác riêng lẻ. Tuy
nhiên, người dùng cuối có thể không biết những gì họ cần cho đến khi họ nhìn thấy nó.
Ngoài ra, một thiết kế được lên kế hoạch chu đáo có tính đến sự tăng trưởng và thay
đổi khi nhu cầu của người dùng thay đổi và tiến hóa. Với thiết kế logic, tập trung vào
các yêu cầu thông tin và lưu các chi tiết thực thi cho sau này.
2.5.2. Tạo một thiết kế logic
Một thiết kế logic là trừu tượng và dựa trên các khái niệm. Ta không đề cập tới
những chi tiết cài đặt vật lý. Ta chỉ đề cập tới việc xác định những loại thông tin mà ta
cần. Một kỹ thuật ta cần sử dụng làm mô hình cho các yêu cầu thông tin logic của tổ
chức là mô hình thực thể quan hệ. Mô hình thực thể quan hệ liên quan đến việc xác
định những thứ quan trọng (thực thể), các tính chất của những thuộc tính, và làm thế
nào chúng liên hệ được với nhau (các mối quan hệ).
Quá trình thiết kế logic liên quan đến việc sắp xếp dữ liệu thành một chuỗi các
mối quan hệ logic được gọi là các thực thể và thuộc tính. Một thực thể đại diện cho
một mảng của thông tin. Trong cơ sở dữ liệu quan hệ, một thực thể thường ánh xạ tới
một bảng. Một thuộc tính là một thành phần của một thực thể giúp xác định tính duy
nhất của thực thể. Trong cơ sở dữ liệu quan hệ, một thuộc tính ánh xạ tới một cột.
Để chắc chắn rằng dữ liệu ta có là nhất quán, ta cần phải sử dụng định danh duy
nhất. Một định danh duy nhất là một cái gì đó ta thêm vào bảng để ta có thể phân biệt
các phần tử giống nhau khi nó xuất hiện ở những nơi khác nhau. Trong một thiết kế
vật lý, đó thường là một chính khoá.
Trong khi sơ đồ thực thể quan hệ theo truyền thống được kết hợp với các mô
hình chuẩn hóa mức cao như các ứng dụng OLTP, kỹ thuật vẫn còn hữu ích cho thiết


×