Tải bản đầy đủ (.pdf) (86 trang)

Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 86 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ




PHẠM MINH QUÝ






Công nghệ xử lý phân tích trực tuyến trong
việc trợ giúp quyết định




LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN












HÀ NỘI, 2003


1
MỤC LỤC
MỤC LỤC 1
CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 4
PHẦN MỞ ĐẦU 5
1. Đặt vấn đề 5
2. Mục tiêu của đề tài 5
3. Bố cục của luận văn 6
CHƢƠNG I – KHO DỮ LIỆU 7
1. Khái niệm kho dữ liệu 7
1.1 Định nghĩa kho dữ liệu 7
1.2 Đặc điểm dữ liệu của kho dữ liệu 7
1.2.1 Dữ liệu hƣớng chuyên đề 7
1.2.2 Dữ liệu có tính tích hợp 8
1.2.3 Dữ liệu chỉ đọc, không biến động 8
1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử 8
1.2.5 Dữ liệu tổng hợp và chi tiết 9
1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến 9
1.3.1 Đặc điểm của hệ thống OLPT 9
1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP 10
2. Kiến trúc và các thành phần cấu thành kho dữ liệu 11
2.1 Kiến trúc kho dữ liệu 11
2.1.1 Kiến trúc kho dữ liệu cơ bản 11
2.1.2 Kiến trúc kho dữ liệu với vùng tạm 11
2.1.3 Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề 12
2.2 Các thành phần cấu thành kho dữ liệu 13

2.2.1 Các dữ liệu nguồn 13
2.2.2 Công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn 13
2.2.3 Kho dữ liệu 15
2.2.4 Kho dữ liệu chuyên đề 15
2.2.5 Phân tích và truy cập của ngƣời sử dụng cuối 16
2.2.6 Siêu dữ liệu 17
3. Sử dụng kho dữ liệu 18
4. Thiết kế và xây dựng kho dữ liệu 19
4.1 Thiết kế logic cho kho dữ liệu 20
4.1.1 Lƣợc đồ hình sao 21
4.1.2 Lƣợc đồ hình tuyết rơi 23
4.1.3 Lƣợc đồ kết hợp 24
4.2 Thiết kế vật lý kho dữ liệu 24

2
4.2.1 Phân hoạch dữ liệu và cơ chế song song 24
4.2.2 Thiết kế khung nhìn và chỉ số cho kho dữ liệu vật lý 25
CHƢƠNG II – MÔ HÌNH DỮ LIỆU CHO XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 35
1. Mô hình dữ liệu đa chiều 35
1.1 Các khái niệm về chiều 36
1.2 Độ đo 38
1.3 Khối dữ liệu 39
1.4 Các phép toán trong mô hình đa chiều 40
2. Các dạng chuẩn của CSDL đa chiều 41
2.1 Xây dựng lại theo logic của thiết kế lƣợc đồ đa chiều 41
2.1.1 Phân lớp 41
2.1.2 Mô tả tiềm năng và dị biệt 42
2.1.3 Dạng chuẩn logic 43
2.2 Khuôn mẫu cho mô hình hoá đa chiều 43
2.3 Dạng chuẩn đa chiều giới hạn 44

2.3.1 Các chiều 44
2.3.2 Sử dụng phụ thuộc hàm cho phân cấp 44
2.3.3 Loại bỏ các phụ thuộc hàm yếu cho tổng hợp 45
2.3.4 Dạng chuẩn chiều 45
2.3.5 Dạng chuẩn đa chiều 45
2.4 Dạng chuẩn đa chiều tổng quát 46
2.4.1 Phân biệt các thuộc tính chiều 46
2.4.2 Ngữ cảnh hợp lệ 47
2.4.3 Dạng chuẩn đa chiều tổng quát (GMNF) 48
CHƢƠNG III – CÔNG NGHỆ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN TRONG
VIỆC TRỢ GIÚP QUYẾT ĐỊNH 49
1. Công nghệ xử lý phân tích trực tuyến 49
1.1 Định nghĩa OLAP 50
1.2 Đặc điểm cơ bản của OLAP 51
1.3 Kiến trúc của OLAP 53
2. Công nghệ lƣu trữ dữ liệu cho OLAP 54
2.1 Kho dữ liệu đa chiều 54
2.2 Kho dữ liệu quan hệ (ROLAP) 55
2.3 Kho dữ liệu lai 57
3. Lựa chọn chỉ số cho OLAP 57
3.1 Khối dữ liệu con 58
3.2 Truy vấn 58
3.3 Chỉ số 58
3.4 Quan hệ tính toán và phụ thuộc 59
3.5 Mô hình chi phí 60
3.6 Thuật toán chọn khung nhìn với các chỉ số 62

3
4. Ứng dụng công nghệ OLAP trong hỗ trợ quyết định 66
4.1 Lợi ích của OLAP 66

4.2 Các mô hình ứng dụng OLAP 66
4.2.1 Tạo báo cáo và truy vấn đặc biệt 66
4.2.2 Các hệ thống thông tin điều hành - EIS 67
4.2.3 Phân tích đa chiều 67
4.2.4 Phân tích theo kịch bản (chuỗi sự kiện) 68
4.2.5 Khai phá dữ liệu 68
CHƢƠNG IV – ỨNG DỤNG CÔNG NGHỆ OLAP TRONG TRỢ GIÚP QUYẾT
ĐỊNH 69
1. Giới thiệu hệ thống ứng dụng 69
1.1 Mục tiêu xây dựng hệ thống 69
1.2 Giới thiệu bài toán 69
1.3 Giới thiệu công cụ khai thác kho dữ liệu của Oracle 71
2. Một số minh họa 72
KẾT LUẬN 82
1. Những kết quả đạt đƣợc 82
2. Những hạn chế 82
3. Hƣớng phát triển 83
DANH MỤC TÀI LIỆU THAM KHẢO 84


4
CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Phần này nhằm mục đích mô tả các từ viết tắt và các thuật ngữ đƣợc sử dụng
trong luận văn. Một số thuật ngữ tiếng Anh phổ biến, quen thuộc có chỗ tác giả vẫn
giữ nguyên, một số thuật ngữ đƣợc dịch sang tiếng viết và có mở ngoặc chú thích
khi sử dụng lần đầu.
Viết tắt, thuật ngữ
Nội dung, ý nghĩa
CSDL
Cơ sở dữ liệu

Ad hoc
Đặc biệt
Dimention table
Bảng chiều
Fact table
Bảng sự kiện
Meterilized view
Khung nhìn đƣợc cụ thể hoá để lƣu dữ liệu
Index
Chỉ số (một số chỗ giữ nguyên từ tiếng Anh)
View
Khung nhìn (một số chỗ giữ nguyên từ tiếng Anh)
DW - Data Warehouse
Kho dữ liệu
DM – DataMart
Kho dữ liệu chuyên đề
MOLAP - Multidimention
OLAP
OLAP đa chiều
ROLAP - Relational OLAP
OLAP quan hệ
HOLAP – Hybrid OLAP
OLAP lai tạp giữa OLAP đa chiều và quan hệ
OLTP - Online Transaction
Processing
Các hệ thống xử lý giao dịch trực tuyến
Data mining
Khai phá dữ liệu
Query
Truy vấn

Select
Chọn (một số chỗ giữ nguyên từ tiếng Anh)
Join
Kết nối (một số chỗ giữ nguyên từ tiếng Anh)
Update
Sửa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh)
Delete
Xóa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh)
Insert
Thêm dữ liệu (một số chỗ giữ nguyên từ tiếng
Anh)
Thuật toán Heuristic
Thuật toán may rủi

5
PHẦN MỞ ĐẦU
1. Đặt vấn đề
Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, dữ liệu ngày càng đƣợc
tập trung trong những cơ sở dữ liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất cả
các dữ liệu để lấy ra thông tin là cần thiết. Cách tổ chức dữ liệu có hiệu quả nhất để
trợ giúp nhu cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu.
Ở nƣớc ta ngày càng có nhiều kho dữ liệu đƣợc xây dựng và lƣợng dữ liệu ngày
một lớn. Nhƣng việc khai thác hiện nay chƣa có hiệu quả, vì trong kho dữ liệu lớn,
đa chiều thƣờng chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống
nhƣ kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện đƣợc. Hơn thế nữa,
do yêu cầu của ngƣời sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ
tự khác nhau.
Yêu cầu làm thể nào có thể khai thác thông tin có hiệu quả, thoả mãn nhu cầu
khai thác mức cao của ngƣời dùng, đòi hỏi phải có công nghệ khai thác thích hợp,
hiện nay xử lý phân tích trực tuyến (OLAP) là một trong các phƣơng pháp khai thác

có hiệu quả trên những tập dữ liệu lớn và hỗn hợp. Trƣớc đây công nghệ này ít
đƣợc áp dụng vì nó đắt tiền, khó cài đặt, không mềm dẻo trong khai thác. Nhƣng
đến nay trên thế giới công nghệ OLAP thực sự đã và đang đƣợc nghiên cứu, phát
triển mạnh mẽ và ngày càng đuợc sử dụng rộng rãi trong khai thác dữ liệu, hỗ trợ ra
quyết định. Ở nƣớc ta việc áp dụng công nghệ này đến nay vẫn chƣa đƣợc phát
triển.
Xuất phát từ nhu cầu thực tiễn tôi chọn hƣớng đề tài nghiên cứu: “Công nghệ xử
lý phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ
liệu và công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hƣớng tới xây
dựng các hệ thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai
thác dữ liệu phục vụ cho công tác quản lý, hỗ trợ ra quyết định.
2. Mục tiêu của đề tài
Đề tài đề cập đến việc nghiên cứu nhằm hƣớng đến xây dựng các hệ thống trợ
giúp quyết định sử dụng phƣơng pháp luận OLAP. Luận văn sẽ tập trung vào các
công việc chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào
nghiên cứu mô hình CSDL đa chiều và phân tích dữ liệu trực tuyến để trợ giúp ra
quyết định.

6
Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập
một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa
chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo
những khía cạnh khác nhau của dữ liệu, nhằm thu thập đƣợc tối đa những gì họ cần
hiểu rõ, để từ đó có thể ra đƣợc những quyết định tốt nhất một cách nhanh chóng.
Không giống với các hệ trợ giúp quyết định truyền thống thƣờng đƣợc xây dựng với
mục đích đƣa ra giải pháp tối ƣu cho một bài toán cụ thể, trong một phạm vi ứng
dụng hẹp, công nghệ OLAP hƣớng đến việc giúp ngƣời sử dụng có thể khai thác
đƣợc tối đa khả năng tiềm ẩn của một khối lƣợng dữ liệu lớn, nhằm thu đƣợc những
thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các
quyết định một cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ

giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng rãi cho các bài
toán khác nhau, trong nhiều lĩnh vực khác nhau.
3. Bố cục của luận văn
Nội dung của luận văn đƣợc chia thành bốn chƣơng:
Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung về kho dữ liệu - phƣơng
pháp tổ chức, thiết kế CSDL và xây dựng kho dữ liệu. Nhấn mạnh trong việc thiết
kế CSDL vật lý của kho dữ liệu bằng việc sử dụng thuật toán A* và các luật của
Thumb để chọn khung nhìn và chỉ số tối ƣu việc bảo trì kho dữ liệu.
Chương 2: Trình bày về mô hình dữ liệu đa chiều và các dạng chuẩn dữ liệu đa
chiều trong mô hình CSDL đa chiều sử dụng trong OLAP.
Chương 3: Trình bày những lý thuyết cơ bản về công nghệ OLAP trong việc hỗ
trợ ra quyết định, cách tổ chức lƣu trữ dữ liệu, việc chỉ số hóa khung nhìn để tối ƣu
tốc độ truy vấn.
Chương 4: Xây dựng một ứng dụng sử dụng các công cụ và công nghệ của
Oracle nhằm mô tả cho việc ứng dụng công nghệ OLAP trong việc hỗ trợ ra quyết
định.

7
CHƢƠNG I – KHO DỮ LIỆU
Các doanh nghiệp, tổ chức kinh tế - xã hội đều đang phải đối đầu với sự thay đổi
của thị trƣờng, sự thay đổi hoàn thiện của các chính sách kinh tế xã hội. Để có thể
đƣa ra một quyết định đúng đắn, trƣớc hết phải có khả năng nhanh chóng truy nhập
đƣợc tới các thông tin mà doanh nghiệp, tổ chức có sẵn. Đối với một doanh nghiệp,
tổ chức, muốn có một quyết định đúng đắn, cần nghiên cứu cả những dữ liệu trong
quá khứ và hiện tại, nhằm phân tích và xác định ra các xu hƣớng có thể ở hiện tại và
tƣơng lai. Để phục vụ phân tích dữ liệu cần đƣợc tập trung lại và do đó sẽ tạo ra
những CSDL khổng lồ. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu
truy nhập thông tin hỗ trợ ra quyết định là tổ chức thành các kho dữ liệu.
1. Khái niệm kho dữ liệu
1.1 Định nghĩa kho dữ liệu

Kho dữ liệu (Data warehouse-DW) là một tập hợp các CSDL tích hợp, hướng
chuyên đề, được thiết kế cho việc truy vấn và phân tích hơn là xử lý giao dịch để hỗ
trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một
khoảng thời gian cụ thể [2].
Kích thƣớc của kho dữ liệu thƣờng rất lớn, đƣợc tổ chức, lƣu trữ và phân tích
phục vụ cho việc cung cấp các thông tin liên quan đến nghiệp vụ của tổ chức. Kho
dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ
thống thông tin thu thập, xử lý dữ liệu loại này còn gọi là hệ xử lý phân tích trực
tuyến - OLAP.
Một kho lƣu trữ dữ liệu thƣờng đƣợc sử dụng nhƣ là các thông tin cơ sở cho một
hệ thống hỗ trợ quyết định. Nó đƣợc thiết kế để khắc phục những vấn đề vấp phải
khi một doanh nghiệp hay tổ chức cố gắng thực hiện chiến lƣợc phân tích có sử
dụng cùng CSDL mà đƣợc sử dụng cho xử lý giao dịch trực tuyến - OLTP
1.2 Đặc điểm dữ liệu của kho dữ liệu
1.2.1 Dữ liệu hướng chuyên đề
Kho dữ liệu đƣợc thiết kế để giúp cho việc phân tích dữ liệu. Ví dụ để biết nhiều
hơn về dữ liệu bán hàng của tổ chức, doanh nghiệp có thể xây dựng một kho dữ liệu
tập trung vào chuyên đề bán hàng. Sử dụng kho dữ liệu này có thể trả lời đƣợc các

8
câu hỏi có liên quan đến bán hàng nhƣ: “Khu vực nào tiêu thụ sản phẩm là Video
nhiều nhất trong quí I năm 2003”. Đây là khả năng cho phép định nghĩa kho dữ liệu
theo các chuyên đề, tạo ra kho dữ liệu hƣớng chuyên đề.
1.2.2 Dữ liệu có tính tích hợp
Tính tích hợp thể hiện ở chỗ: dữ liệu tập hợp trong kho dữ liệu đƣợc thu thập từ
nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
Một kho dữ liệu là một khung nhìn thông tin mức toàn tổ chức, doanh nghiệp,
thống nhất các khung nhìn khác nhau thành một khung nhìn của một vùng chuyên
đề. Ví dụ, hệ thống OLTP truyền thống đƣợc xây dựng trên một vùng nghiệp vụ.
Một hệ thống bán hàng và một hệ thống tiếp thị có thể có chung một dạng thông tin

về khách hàng, nhƣng các vấn đề về tài chính cần một khung nhìn khác cho thông
tin về khách hàng. Một kho dữ liệu sẽ có một khung nhìn toàn thể về một khách
hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài chính và tiếp thị.
1.2.3 Dữ liệu chỉ đọc, không biến động
Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể đƣợc kiểm tra, không
đƣợc sửa đổi bởi ngƣời sử dụng cuối. Thông tin trong kho dữ liệu đƣợc tải vào sau
khi dữ liệu trong hệ thống điều hành đƣợc cho là quá cũ.
Không biến động thể hiện ở chỗ: dữ liệu đƣợc lƣu trữ lâu dài trong kho dữ liệu.
Mặc dù có thêm dữ liệu mới nhập vào nhƣng dữ liệu cũ trong kho vẫn không bị
xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ
số liệu cần thiết cho các mô hình nghiệp vụ phân tích, thống kê, dự báo.
1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử
Một kho chứa dữ liệu bao hàm một khối lƣợng lớn dữ liệu lịch sử. Dữ liệu đƣợc
lƣu trữ thành một loạt các bản sao, mỗi bản ghi phản ánh những giá trị của dữ liệu
tại một thời điểm nhất định thể hiện một khung nhìn của một vùng chuyên đề trong
một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác
các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò nhƣ một phần của khoá để
bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trƣng về thời gian cho dữ liệu.

9
1.2.5 Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất đƣợc lƣu trữ trong kho dữ liệu. Dữ liệu
tác nghiệp là thông tin mức thấp nhất của tổ chức, doanh nghiệp. Dữ liệu tác nghiệp
thuần tuý không đƣợc lƣu trữ trong kho dữ liệu.
Dữ liệu tổng hợp là dữ liệu đƣợc gộp lại qua nhiều giai đoạn khác nhau. Các dữ
liệu tổng hợp mang thông tin tổng hợp ở mức cao.
1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến
Dữ liệu phát sinh từ các hoạt động hàng ngày đƣợc thu thập, xử lý để phục vụ
công việc nghiệp vụ cụ thể của một tổ chức thƣờng đƣợc gọi là dữ liệu tác nghiệp
và hoạt động thu thập xử lý loại dữ liệu này đƣợc gọi là xử lý giao dịch trực tuyến

(Online Transaction Processing - OLTP).
1.3.1 Đặc điểm của hệ thống OLPT
Các hệ thống OLTP có các đặc điểm sau:
- Trợ giúp nhiều ngƣời sử dụng đồng thời trong việc thêm và sửa đổi dữ liệu.
- Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhƣng không lƣu lại lịch sử.
- Chứa đựng những số lƣợng lớn các dữ liệu, bao gồm dữ liệu tổng quát để
kiểm soát sự thực hiện.
- Đƣợc điều chỉnh để đáp ứng nhanh tới sự thực hiện tích cực.
- Cung cấp cơ sở hạ tầng công nghệ để trợ giúp các thao tác thƣờng ngày của
một tổ chức.
Chính từ những đặc điểm này, nếu chúng ta sử dụng CSDL xử lý giao dịch trực
tuyến cho phân tích trực tuyến thì thƣờng gặp những khó khăn sau:
- Các yêu cầu phân tích, tổng kết những khối lƣợng lớn dữ liệu, ảnh hƣởng tới
khả năng của hệ thống.
- Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có
thể chậm hoặc không ổn định, cung cấp sự hỗ trợ không đầy đủ cho những
ngƣời sử dụng trong phân tích trực tuyến.
- Sự thay đổi dữ liệu thƣờng xuyên gây trở ngại cho tính tin cậy của thông tin
phân tích.
- An ninh trở nên phức tạp hơn khi sự phân tích trực tuyến đƣợc kết hợp với xử
lý giao dịch trực tuyến

10
1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP
Kho dữ liệu và hệ OLTP xây dựng phục vụ cho nhu cầu khác nhau. Sự khác nhau
cơ bản giữa hai hệ thống này là dạng chuẩn của dữ liệu, kho dữ liệu thƣờng không
sử dụng dạng chuẩn 3NF, còn trong các hệ thống OLTP thƣờng sử dụng chuẩn
3NF. Sau đây là sự khác nhau tiêu biểu giữa kho dữ liệu và các hệ thống OLTP [9]:

Kho dữ liệu

OLTP
Công
việc
thực
hiện
Kho dữ liệu đƣợc thiết kế để phù
hợp với các truy vấn đặc biệt.
Ngƣời dùng không cần quan tâm
đến khối lƣợng công việc thực hiện
của kho nhƣ thế nào, vì vậy kho dữ
liệu phải đƣợc tối ƣu cho các khả
năng thao tác truy vấn đa dạng và
phong phú
Các hệ thống OLTP chỉ hỗ trợ cho các
thao tác sử dụng đã đƣợc định nghĩa
trƣớc. Các ứng dụng có thể đƣợc thiết
kế chỉ hỗ trợ các thao tác đó.
Sửa đổi
dữ liệu
Kho dữ liệu đƣợc cập nhật định kỳ,
thƣờng xuyên qua các công cụ
chuyển đổi sử dụng các kỹ thuật
sửa đổi trên dữ liệu lớn, dữ liệu
gộp. Ngƣời sử dụng cuối không
trực tiếp cập nhật dữ liệu.
Trong các hệ thống OLTP, ngƣời sử
dụng cuối thƣờng đƣa ra các thông báo
sửa đổi dữ liệu cá nhân của mình trong
CSDL.Cơ sở dữ liệu OLTP luôn đƣợc
cập nhật, phản ánh trạng thái hiện tại

của mỗi giao dịch nghiệp vụ
Thiết
kế lƣợc
đồ
Các kho dữ liệu thƣờng đƣợc thiết
kế phi chuẩn hoặc các lƣợc đồ cục
bộ đƣợc phi chuẩn nhằm để tối ƣu
tốc độ thực hiện truy vấn dữ liệu
Các hệ thống OLTP thƣờng sử dụng
lƣợc đồ chuẩn hoá cho toàn bộ hệ
thống để tối ƣu thực hiện các công việc
cập nhật hàng ngày và đảm bảo tính
kiên định của dữ liệu
Thao
tác tiêu
biểu
Một truy vấn tiêu biểu trong kho dữ
liệu quét qua hàng ngàn hoặc hàng
triệu bản ghi dữ liệu
Một thao tác OLTP chỉ truy nhập đến
một nhóm ít các bản ghi dữ liệu
Dữ liệu
lịch sử
Các kho dữ liệu thƣờng lƣu dữ liệu
nhiều tháng, năm phục vụ cho việc
phân tích số liệu lịch sử
Các hệ rhống OLTP thuờng chỉ lƣu dữ
liệu hiện hành của vài tuần, tháng, năm
phục vụ cho xử lý giao dịch hiện tại


11
2. Kiến trúc và các thành phần cấu thành kho dữ liệu
2.1 Kiến trúc kho dữ liệu
Các kho dữ liệu và các kiến trúc kho không phải luôn luôn là giống nhau mà phụ
thuộc vào hoàn cảnh cụ thể của tổ chức, doanh nghiệp. Thông thƣờng có ba dạng
kiến trúc cơ bản sau của kho dữ liệu [9]:
2.1.1 Kiến trúc kho dữ liệu cơ bản
Kiến trúc đơn giản nhất của một kho dữ liệu là ngƣời sử dụng cuối truy nhập trực
tiếp dữ liệu đƣợc dẫn xuất từ nhiều hệ thống nguồn thông qua kho dữ liệu. Mô hình
của kiến trúc này nhƣ sau:
Kho d÷ liÖu
Siªu d÷
liÖu
D÷ liÖu
tæng hîp
D÷ liÖu th«
HÖ thèng
t¸c nghiÖp
HÖ thèng
t¸c nghiÖp
C¸c file ph¼ng
Ph©n tÝch
T¹o b¸o c¸o
Khai má
C¸c nguån
d÷ liÖu
Kho d÷ liÖu
C¸c ng-êi
sö dông
Siªu d÷ liÖu


Hình 1. Kiến trúc kho dữ liệu cơ bản
2.1.2 Kiến trúc kho dữ liệu với vùng tạm
Cần phải làm sạch và xử lý dữ liệu tác nghiệp trƣớc khi đƣa chúng vào trong kho.
Công việc này có thể đƣợc thực hiện một cách tự động, hầu hết các kho dữ liệu
dùng một vùng tạm thay thế. Một vùng tạm sẽ làm đơn giản hoá việc xây dựng tổng
hợp và quản lý kho dữ liệu. Mô hình của kiến trúc này nhƣ sau:

12
Siªu d÷
liÖu
D÷ liÖu
tæng hîp
D÷ liÖu th«
HÖ thèng
t¸c nghiÖp
HÖ thèng
t¸c nghiÖp
C¸c file ph¼ng
Ph©n tÝch
T¹o b¸o c¸o
Khai má
C¸c nguån
d÷ liÖu
Kho d÷ liÖu
C¸c ng-êi
sö dông
Vïng t¹m
Siªu d÷ liÖu



Hình 2. Kiến trúc kho dữ liệu với vùng tạm
2.1.3 Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề
Có thể tuỳ biến kiến trúc kho dữ liệu thành các nhóm khác nhau bên trong của tổ
chức bằng cách đƣa ra các kho dữ liệu chuyên đề cho các vùng nghiệp vụ đặc biệt.
Mô hình của kiến trúc này nhƣ sau:
Siªu d÷
liÖu
D÷ liÖu
tæng hîp
D÷ liÖu th«
HÖ thèng
t¸c nghiÖp
HÖ thèng
t¸c nghiÖp
C¸c file ph¼ng
Ph©n tÝch
T¹o b¸o c¸o
Khai má
C¸c nguån
d÷ liÖu
Kho d÷ liÖu
C¸c ng-êi
sö dông
Vïng t¹m
D÷ liÖu
chñ ®Ò
D÷ liÖu
chñ ®Ò
D÷ liÖu

chñ ®Ò
C¸c d÷ liÖu
chñ ®Ò
Siªu d÷ liÖu


Hình 3. Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề

13
2.2 Các thành phần cấu thành kho dữ liệu
2.2.1 Các dữ liệu nguồn
Bao gồm các hệ thống bên trong và bên ngoài của một tổ chức, doanh nghiệp.
Các hệ thống nằm trong đƣợc coi nhƣ là các hệ thống nguồn hoặc các hệ thống đã
có sẵn.
Hệ thống đã có sẵn (Legacy System-LS): là hệ thống tác nghiệp hỗ trợ công tác
nghiệp vụ. Hệ thống này đã từng đƣợc phát triển sử dụng các công nghệ có sẵn và
vẫn phù hợp với các nhu cầu nghiệp vụ. Các hệ thống này có thể đƣợc thực hiện
trong nhiều năm và có lẽ không có hoặc có rất ít minh chứng bằng tài liệu.
Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ
chức, là những dữ liệu do ngƣời sử dụng cuối yêu cầu để điền vào bức tranh tổng
thể các nhu cầu nghiệp vụ của họ.
Các LS đƣợc phát triển xung quanh các vùng nghiệp vụ phục vụ cho dự án. Các
ứng dụng đƣợc phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu
cầu khác nhau. Cùng là một dữ liệu nhƣng lại có tên khác nhau, hoặc thuộc các hệ
thống đo lƣờng khác nhau. Kết quả cuối cùng là các nguồn dữ liệu cần đƣợc đánh
giá và các định nghĩa cần đƣợc đƣa vào siêu dữ liệu để nhắm tới các vấn đề sau:
- Xác định các nguồn khác nhau, cấu trúc file khác nhau, các nền khác nhau.
- Hiểu đƣợc dữ liệu nào có trong các hệ thống nguồn đang tồn tại, các định
nghĩa nghiệp vụ của dữ liệu, và bất kỳ các quy tắc nghiệp vụ nào cho dữ liệu.
- Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau.

- Quyết định dữ liệu tốt nhất trong các hệ thống. Mỗi hệ thống cần đƣợc đánh
giá để quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn.
2.2.2 Công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn
Một phần quan trọng trong cài đặt là sử dụng những dữ liệu đã đƣợc tinh chế từ
những hệ thống tác nghiệp và đƣa chúng vào một khuôn dạng thích hợp cho các
ứng dụng thông tin. Những công cụ này thực hiện tất cả các công việc chuyển đổi,
tóm tắt, những thay đổi quan trọng, những thay đổi về cấu trúc và những cô đọng
cần thiết cho sự chuyển đổi dữ liệu riêng rẽ thành thông tin có thể đƣợc dùng trong
những công cụ hỗ trợ quyết định. Nó sản sinh ra những chƣơng trình và kiểm soát

14
những câu lệnh cần thiết để chuyển dữ liệu vào kho dữ liệu từ nhiều hệ thống tác
nghiệp khác nhau. Nó cũng duy trì siêu dữ liệu. Các chức năng chính bao gồm:
- Loại bỏ những dữ liệu không mong muốn từ những CSDL tác nghiệp.
- Chuyển đổi thành những tên và những định nghĩa dữ liệu chung.
- Tính toán các tổng và dữ liệu đã đƣợc chuyển hóa.
- Thiết lập những mặc định cho các dữ liệu bị mất.
- Làm cho những thay đổi về định nghĩa dữ liệu nguồn trở nên thích hợp.
Những công cụ này có thể tiết kiệm đƣợc một cách đáng kể thời gian và sức lực.
Tuy nhiên nhiều công cụ có sẵn mới chỉ có ích cho việc tinh chế những dữ liệu đơn
giản. Do đó việc phát triển những thủ tục tinh chế có khả năng tuỳ biến là cần thiết.
Các công đoạn thực hiện bao gồm:
Trích lấy dữ liệu
Trích lấy dữ liệu là xử lý lấy các dữ liệu đã đƣợc xác định trƣớc ra khỏi các hệ
thống tác nghiệp và các nguồn dữ liệu ngoài. Có các công cụ và các trình tiện ích
phục vụ cho quá trình trích lấy dữ liệu. Chẳng hạn, các trình tiện ích loại bỏ nhanh
để trích lấy dữ liệu, các phƣơng tiện dễ dàng tái tạo lại CSDL, các công cụ tạo ra
các đoạn mã ngôn ngữ thế hệ ba hoặc bốn để trích lấy dữ liệu.
Các vấn đề xung quanh việc trích lấy dữ liệu bao gồm cơ cấu thời gian, trong đó
dữ liệu đƣợc trích lấy và hiệu quả của việc trích lấy dữ liệu đó.

Với mọi phƣơng thức trích chọn dữ liệu, siêu dữ liệu luôn đóng vai trò quan
trọng trong quá trình xử lý. Siêu dữ liệu mẫu bao gồm các phần: các định nghĩa của
hệ thống nguồn, các khuôn dạng vật lý, phƣơng thức và bản liệt kê của sự trích lấy
dữ liệu. Có thể dùng các công cụ hoặc tạo tài liệu bằng tay để thu đƣợc siêu dữ liệu.
Tinh chế dữ liệu
Dữ liệu sau khi đƣợc trích lấy sẽ đƣợc tinh chế thông qua các công việc làm sạch,
chuyển đổi, và tích hợp dữ liệu. Các công cụ đó có thể thực hiện trên một tập các
thông số đã đƣợc xác định trƣớc, trên logic mờ hoặc các thuật toán may rủi. Các
thuật toán may rủi với tập luật mở rộng mô phỏng suy diễn của con ngƣời làm cho
việc tiến hành nhanh hơn.
Trƣớc khi có thể chuyển đổi và tích hợp dữ liệu, nên thiết lập hệ thống đo lƣờng
và chuẩn hoá các định nghĩa, ngữ nghĩa. Mục đích của việc chuyển đổi và tích hợp

15
là chuyển dữ liệu thành thông tin và làm cho chúng dễ hiểu và dễ sử dụng hơn đối
với ngƣời sử dụng cuối.
Các định nghĩa của dữ liệu phải chính xác, đầy đủ, tin cậy và có giá trị. Nếu dữ
liệu đã đƣợc đƣa vào kho dữ liệu không đúng thì sau đó phải tính tới việc xem lại
quá khứ. Việc này liên quan nhiều tới việc tổ chức. Các câu hỏi cần đặt ra trƣớc khi
có thay đổi cái cũ là thay đổi có hợp pháp và đúng quy cách không? Doanh nghiệp,
tổ chức có thể đáp ứng đƣợc những thay đổi này không? Thay đổi có phải là lâu dài
không? Nếu câu trả lời là có cho cả 3 câu hỏi trên thì thay đổi đó là có thể thực hiện
đƣợc.
2.2.3 Kho dữ liệu
CSDL tập trung ở kho dữ liệu là một nền tảng cơ bản của môi trƣờng kho dữ
liệu. CSDL này hầu hết đƣợc cài đặt dựa trên công nghệ của hệ quản trị CSDL quan
hệ (RDBMS). Tuy nhiên việc cài đặt một kho dữ liệu dựa trên kỹ thuật của RDBMS
truyền thống bị ràng buộc bởi một thực tế là việc cài đặt RDBMS truyền thống đã
đƣợc tối ƣu hoá đối với việc xử lý CSDL giao dịch. Những thuộc tính tất yếu của
kho dữ liệu nhƣ kích cỡ rất lớn, xử lý các truy vấn đặc biệt và sự cần thiết tạo ra

những khung nhìn linh hoạt cho ngƣời sử dụng bao gồm việc tập hợp, kết hợp nhiều
bảng và khoan sâu trở thành những định hƣớng cho cách tiếp cận công nghệ khác
nhau tới CSDL kho dữ liệu.
Các CSDL đa chiều, dựa trên công nghệ CSDL phổ biến hoặc đƣợc cài đặt sử
dụng trên nền RDBMS quen thuộc đã xuất hiện trên thị trƣờng. CSDL đa chiều
đƣợc thiết kế để khắc phục những giới hạn tồn tại trong kho dữ liệu gây ra do bản
chất của mô hình dữ liệu quan hệ. Cách tiếp cận này gắn liền với các công cụ OLAP
nhƣ một thành phần đối tác của các kho dữ liệu đa chiều. Các công cụ này gộp lại
thành nhóm công cụ truy vấn, tạo báo cáo, phân tích và đào xới dữ liệu.
2.2.4 Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề là CSDL có những đặc điểm giống với kho dữ liệu nhƣng
với quy mô nhỏ hơn và lƣu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Các kho
dữ liệu chuyên đề có thể đƣợc hình thành từ một tập con dữ liệu của kho dữ liệu

16
hoặc cũng có thể đƣợc xây dựng độc lập và sau khi xây dựng xong, các kho dữ liệu
chuyên đề có thể đƣợc kết nối tích hợp lại với nhau tạo thành kho dữ liệu.
Kho dữ liệu chuyên đề là một kho dữ liệu thứ cấp gồm các dữ liệu tích hợp của
kho dữ liệu. Kho dữ liệu chuyên đề đƣợc hƣớng tới một phần của dữ liệu thƣờng
đƣợc gọi là một vùng chuyên đề đƣợc tạo ra dành cho một nhóm ngƣời sử dụng. Dữ
liệu trong kho dữ liệu chuyên đề cho thông tin về một chuyên đề xác định, không
phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện
thƣờng xuyên nhất của kho dữ liệu chuyên đề là một kho dữ liệu riêng rẽ theo
phƣơng diện vật lý, thƣờng đƣợc lƣu trữ trên một máy chủ riêng, trong một mạng
cục bộ phục vụ cho một nhóm ngƣời nhất định. Đôi khi kho dữ liệu chuyên đề kết
hợp với công nghệ OLAP tạo ra các quan hệ theo dạng hình sao đặc biệt hoặc
những siêu khối dữ liệu cho việc phân tích của nhóm ngƣời cùng có mối quan tâm
trên một phạm vi dữ liệu. Có thể chia làm hai loại kho dữ liệu chuyên đề:
Kho dữ liệu chuyên đề phụ thuộc: chứa những dữ liệu đƣợc lấy từ kho dữ liệu
và những dữ liệu này sẽ đƣợc trích lọc và tinh chế, tích hợp lại ở mức cao hơn để

phục vụ một chuyên đề nhất định.
Kho dữ liệu chuyên đề độc lập: không giống nhƣ kho dữ liệu chuyên đề phụ
thuộc, kho dữ liệu chuyên đề loại này đƣợc xây dựng trƣớc kho dữ liệu và dữ liệu
đƣợc lấy từ các nguồn dữ liệu tác nghiệp. Phƣơng pháp này đơn giản hơn và chi phí
thấp hơn nhƣng đổi lại có những điểm yếu. Mỗi kho dữ liệu chuyên đề độc lập có
cách tích hợp riêng, do đó dữ liệu từ nhiều kho dữ liệu chuyên đề khó đồng nhất
với nhau. Kho dữ liệu chuyên đề thể hiện hai vấn đề: thứ nhất là tính ổn định trong
các tình huống từ một kho dữ liệu chuyên đề nhỏ ban đầu lớn lên nhanh chóng theo
nhiều chiều và thứ hai là sự tích hợp dữ liệu. Khi thiết kế kho dữ liệu chuyên đề
phải chú ý tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả
năng quản lý.
2.2.5 Phân tích và truy cập của người sử dụng cuối
Mục đích chính của kho dữ liệu là cung cấp thông tin hỗ trợ cho các cán bộ lãnh
đạo để tạo ra những quyết định chiến lƣợc. Những ngƣời sử dụng này liên hệ với

17
kho dữ liệu thông qua việc sử dụng công cụ đầu cuối. Với các mục đích khác nhau
công cụ đƣợc chia ra làm năm loại chính sau:
- Các công cụ tạo báo cáo và truy vấn dữ liệu
- Các công cụ phát triển ứng dụng
- Các công cụ về hệ thống thông tin điều hành (EIS )
- Các công cụ xử lí phân tích trực tuyến
- Các công cụ khai phá dữ liệu (Data mining)
2.2.6 Siêu dữ liệu
Định nghĩa đơn giản nhất về siêu dữ liệu (Metadata) là dữ liệu về dữ liệu. Tuy
nhiên định nghĩa này không bao hàm đầy đủ phạm vi của siêu dữ liệu. Một định
nghĩa đầy đủ về siêu dữ liệu là[10]: Siêu dữ liệu là tất cả các dữ liệu vật lý (được
chứa trong phần mềm và các phương tiện thông tin khác) và các thông tin chứa
dựng tri thức bên trong và bên ngoài một tổ chức, bao gồm các thông tin về dữ liệu
vật lý, quá trình kỹ thuật và nghiệp vụ, các luật ràng buộc về dữ liệu, và các cấu

trúc của dữ liệu được sử dụng bởi một tổ chức kinh doanh
Khi nói về siêu dữ liệu là nói về sự hiểu biết về hệ thống, về nghiệp vụ. Nói về
vùng chứa siêu dữ liệu là nói về các bảng CSDL vật lý đƣợc sử dụng để lƣu trữ siêu
dữ liệu mà sẽ đƣợc phân phát tới các ngƣời sử dụng kỹ thuật và nghiệp vụ của nó
(Một thuật ngữ khác cần chú ý là Từ điển dữ liệu - từ điển dữ liệu tập trung hơn về
dữ liệu, vùng chứa từ điển dữ liệu cung cấp các thông tin về dữ liệu nhƣ: các định
nghĩa, các mối quan hệ, nguồn gốc, phạm vi, cách dùng, và định dạng dữ liệu. Mục
đích của từ điển dữ liệu là hỗ trợ ngƣời quản trị CSDL trong lập kế hoạch, điều
khiển và đánh giá việc tập hợp, lƣu trữ và sử dụng dữ liệu). Vùng chứa siêu dữ liệu
chứa hai kiểu của siêu dữ liệu:
- Siêu dữ liệu kỹ thuật cung cấp cho ngƣời phát triển và nhân viên kỹ thuật các
thông tin về hỗ trợ quyết định và các hệ thống tác nghiệp của họ mà cần phải
bảo trì và sự tăng trƣởng của các hệ thống đó theo thời gian.
- Siêu dữ liệu nghiệp vụ hỗ trợ các cán bộ nghiệp vụ sử dụng các hệ thống hỗ
trợ quyết định và nghiệp vụ. Siêu dữ liệu nghiệp vụ cung cấp các cho các nhà

18
phân tích hỗ trợ quyết định con đƣờng truy xuất thông tin trong kho dữ liệu
của các hệ thống hỗ trợ quyết định.
Sử dụng siêu dữ liệu trong kho dữ liệu ta có thể trả lời các câu hỏi:
- Có thể tìm thấy dữ liệu ở đâu?
- Tồn tại những loại thông tin, dữ liệu nào?
- Dữ liệu thuộc loại nào, có dạng ra sao?
- Trong các CSDL khác nhau thì dữ liệu có liên quan với nhau nhƣ thế nào?
- Dữ liệu đƣợc lấy từ đâu và nó thuộc ai quản lý?
Trong môi trƣờng CSDL phức tạp, một siêu dữ liệu phù hợp là không thể thiếu
bởi nó định ra cấu trúc CSDL tác nghiệp và cả cấu trúc kho dữ liệu. Chính siêu dữ
liệu là cách để ngƣời sử dụng và các ứng dụng có thể tiếp cận đƣợc với những
thông tin đƣợc lƣu trữ trong kho dữ liệu. Siêu dữ liệu cần đƣợc thu thập khi kho dữ
liệu đƣợc thiết kế và xây dựng. Siêu dữ liệu phải có sẵn cho tất cả những ngƣời sử

dụng kho dữ liệu để hƣớng dẫn họ dùng kho dữ liệu.
Hiện nay có hai mô hình siêu dữ liệu chuẩn cho xây dựng siêu dữ liệu của DW là
[10]: MDC (Meta Data Coalition) đƣợc phát triển bởi hãng Microsoft và OMG
(Object Management Group) đƣợc phát triển bởi các hãng Oracle, IBM, Hypersion,
Unisys và NRC. Mục tiêu chính của mô hình là: chia sẻ siêu dữ liệu công cụ và khả
năng tƣơng tác giữa các công cụ. Giống các mô hình chuẩn khác, mô hình siêu dữ
liệu chuẩn tốt là đƣợc xây dựng phát triển và hỗ trợ của nhiều hãng cung cấp phần
mềm có uy tín, có tính mở để thao tác đƣợc với nhau và phải thoả mãn các điều
kiện nhƣ: (1) Không phụ thuộc vào công nghệ; (2) Không phụ thuộc vào hãng cung
cấp (nhiều hãng cùng xây dựng); (3) Nằm trong phạm vi hiện thực phát triển; (4)
Đƣợc cài đặt sử dụng rộng rãi.
3. Sử dụng kho dữ liệu
Theo cách khai thác truyền thống: Kho dữ liệu đƣợc sử dụng để khai thác các
thông tin bằng các công cụ truy vấn và báo cáo. Tuy nhiên, nhờ có việc chiết xuất,
tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lƣợng cao và
có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông
tin truyền thống. Bằng cách tạo ra một tầng ẩn giữa ngƣời dùng và CSDL, các dữ

19
liệu đầu vào của các kỹ thuật này đƣợc đặt vào một nguồn duy nhất. Việc hợp nhất
này loại bỏ đƣợc rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ
rất nhiều nguồn khác nhau cũng nhƣ giảm bớt đƣợc sự chậm trễ do phải lấy các dữ
liệu bị phân đoạn trong các CSDL khác nhau, tránh cho ngƣời dùng khỏi những câu
lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để
đƣa ra các dữ liệu tinh và chính xác hơn chứ chƣa đƣa ra đƣợc dữ liệu “tri thức”.
Xử lý phân tích trực tuyến: Kho dữ liệu đƣợc sử dụng để hỗ trợ cho phân tích
trực tuyến. Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo
truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực tuyến có
khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân
tích trực tuyến lại không có khả năng đƣa ra đƣợc các giả thuyết. Hơn nữa, kích

thƣớc quá lớn và tính chất phức tạp của kho dữ liệu làm cho rất khó có thể sử dụng
cho những mục đích nhƣ đƣa ra các giả thuyết từ các thông tin mà chƣơng trình ứng
dụng cung cấp.
Khai phá dữ liệu: Trƣớc đây, kỹ thuật học máy thƣờng đƣợc sử dụng để tìm ra
những giả thuyết từ các thông tin dữ liệu thu thập đƣợc. Tuy nhiên, thực nghiệm
cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong
kho dữ liệu này. Phƣơng pháp thống kê tuy ra đời đã lâu nhƣng không có gì cải tiến
để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại sao một khối lƣợng
lớn dữ liệu vẫn chƣa đƣợc khai thác và thậm chí đƣợc lƣu chủ yếu trong các kho dữ
liệu không trực tuyến. Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ trợ phân
tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác
dữ liệu đó. Trong khi đó, càng ngày ngƣời ta càng nhận thấy rằng nếu đƣợc phân
tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quí giá trong cạnh tranh trên
thƣơng trƣờng. Để đáp lại những thách thức trong thực tiễn cũng nhƣ trong nghiên
cứu đã đƣa ra một phƣơng pháp mới đáp ứng cả nhu cầu trong khoa học cũng nhƣ
trong hoạt động thực tiễn, đó chính là công nghệ khai phá dữ liệu.
4. Thiết kế và xây dựng kho dữ liệu
Xây dựng kho dữ liệu vừa là một tiến trình công việc và cũng đồng thời là một
kiến trúc nhằm thực hiện các công việc nhƣ: lựa chọn, chuyển đổi, lƣu chuyển, bảo

20
toàn tính toàn vẹn, tích hợp, làm sạch dữ liệu, đƣa dữ liệu từ nhiều nguồn dữ liệu
tác nghiệp vào hệ thống quản lý cơ sở dữ liệu để phục vụ các quá trình ra quyết
định của doanh nghiêp. Kiến trúc của các kho dữ liệu cung cấp nhiều khả năng mềm
dẻo, nhiều khả năng mở rộng để phục vụ cho các ứng dụng hiện có của tổ chức,
doanh nghiệp cũng nhƣ cho các ứng dụng trong tƣơng lai.
Quá trình xây dựng kho dữ liệu có thể bắt đầu bằng việc xây dựng các kho dữ
liệu chuyên đề nghĩa là sau khi xây dựng xong các kho dữ liệu chuyên đề tiến hành
kết nối, tích hợp chúng với nhau tạo thành kho dữ liệu. Theo cách này, kho dữ liệu
chuyên đề chính là mô hình, là bƣớc đầu tiên của quá trình xây dựng kho dữ liệu.

Ngƣợc lại, cách thứ hai, ta có thể xây dựng kho dữ liệu trƣớc sau đó tạo ra các kho
dữ liệu chuyên đề. Mỗi phƣơng pháp đều có thuận lợi và khó khăn của nó, tuỳ điều
kiện cụ thể ta lựa chọn hay kết hợp các phƣơng pháp cho phù hợp. Phƣơng pháp
phân tích, thiết kế và quá trình xây dựng kho dữ liệu có thể đƣợc chia thành các
bƣớc sau:
- Bƣớc 1: Xác định chiến lƣợc và xây dựng kế hoạch
- Bƣớc 2: Khảo sát, đánh giá hiện trạng hệ thống
- Bƣớc 3: Phân tích, thiết kế hệ thống
- Bƣớc 4: Triển khai xây dựng hệ thống
- Bƣớc 5: Khai thác và duy trì hệ thống
4.1 Thiết kế logic cho kho dữ liệu
Thiết kế logic là thiết kế ở mức khái niệm và trừu tƣợng, ở mức này ta chỉ định
nghĩa ra các kiểu thông tin mà ta cần, không chỉ ra xử lý với việc thực hiện vật lý
chi tiết. Quá trình thiết kế logic liên quan đến việc định ra phạm vi dữ liệu bên trong
mối quan hệ. Một kỹ thuật có thể đƣợc sử dụng để mô hình hoá thông tin, yêu cầu ở
mức logic là sử dụng mô hình quan hệ thực thể. Mô hình hoá quan hệ thực thể liên
quan đến việc định ra các thực thể, các thuộc tính của thực thể, và mối quan hệ giữa
các thực thể. Trong thiết kế logic cho kho dữ liệu sẽ chỉ ra tập các thực thể và các
thuộc tính tƣơng ứng với các bảng sự kiện và các bảng chiều. Mối quan hệ giữa các
đối tƣợng CSDL trong kho đƣợc thể hiện trên các lƣợc đồ. Một lƣợc đồ là tập hợp
các đối tƣợng của CSDL, gồm: các bảng, khung nhìn, chỉ số Phần này của luận
văn trình bầy các lƣợc đồ CSDL của kho [2,9].

21
4.1.1 Lược đồ hình sao
Lƣợc đồ hình sao đƣợc Dr. Ralph Kimball đƣa ra đầu tiên, đây là một lựa chọn
thiết kế CSDL cho kho dữ liệu. Lƣợc đồ hình sao là lƣợc đồ kho dữ liệu đơn giản
nhất. Trong lƣợc đồ hình sao, dữ liệu đƣợc xác định và phân loại theo 2 kiểu: bảng
sự kiện - Fact (đối tƣợng trung tâm) và bảng chiều - Dimension (các bảng liên kết).
Trong lƣợc đồ hình sao chỉ có một bảng liên quan trực tiếp tới hầu hết các bảng còn

lại đó là bảng sự kiện và là bảng chứa yếu tố cốt lõi cần đƣợc phân tích. Nó đƣợc
gọi là lƣợc đồ hình sao bởi vì các bảng sự kiện nằm ở trung tâm của mô hình và
đƣợc bao quanh bởi các bảng chiều liên quan, rất giống với điểm của một ngôi sao.
Các sự kiện là các đại lƣợng số của công việc. Các chiều là các bộ lọc hoặc các ràng
buộc của những sự kiện này. Chẳng hạn thông tin về khách hàng nhƣ tên, địa chỉ là
một bảng chiều, trong khi đó thông tin bán hàng cho khách hàng là một bảng sự
kiện.
B¶ng sù kiÖn
(Fact)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)


Hình 4. Lược đồ hình sao của cơ sở dữ liệu
Với lƣợc đồ hình sao, ngƣời thiết kế có thể dễ dàng mô phỏng những chức năng
của CSDL đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho
các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.
Lƣợc đồ hình sao đƣợc thiết kế là để khắc phục những hạn chế của mô hình quan
hệ hai chiều. Với CSDL đƣợc thiết kế theo lƣợc đồ hình sao, những truy vấn với
những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng hợp trở nên đơn
giản hơn và số lƣợng công việc cần thực hiện để đƣa đƣợc ra câu trả lời là ít nhất so


22
với một mô hình quan hệ chuẩn. Lƣợc đồ hình sao cải thiện đáng kể thời gian truy
vấn và cho phép thực hiện một số tính năng đa chiều. Lƣợc đồ này rất trực quan, dễ
sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của CSDL quan
hệ. Khóa của bảng sự kiện đƣợc tạo bởi những khóa của các bảng chứa thông tin
theo từng chiều.
Bảng sự kiện có chứa khóa của các bảng chiều, có thể là với tên khác đi để đảm
bảo tính duy nhất của mỗi hàng. Các bảng chiều thƣờng có định danh duy nhất và
chứa đựng những thông tin về chiều của bảng đó. Vì bảng sự kiện đƣợc tổng hợp từ
trƣớc và đƣợc kết hợp theo nhiều chiều nên xu hƣớng có rất nhiều bản ghi và tăng
trƣởng một cách nhanh chóng trong khi đó các bảng chiều có ít bản ghi và tốc độ
tăng trƣởng rất nhỏ. Bảng chiều chứa đựng các thuộc tính có thể đƣợc sử dụng nhƣ
các tiêu chí tìm kiếm và thƣờng có kích thƣớc nhỏ hơn nhiều, rất quen thuộc với
ngƣời sử dụng từ trƣớc. Khoá của nó không là khoá ghép nhƣ bảng sự kiện. Nếu
một bảng chiều bắt đầu có sự tƣơng đồng với bảng sự kiện thì có thể nó cần đƣợc
chia ra thành các bảng chiều. Nếu một bảng chiều đƣợc chia ra thành chiều chính và
chiều thứ hai thì cấu trúc thu đƣợc của kết quả đƣợc coi là một lƣợc đồ tuyết rơi
hoặc cấu trúc lƣợc đồ hình sao mở rộng.
Một lƣợc đồ hình sao đơn giản chỉ gồm một bảng sự kiện và một vài bảng chiều.
Một lƣợc đồ hình sao phức tạp bao gồm hàng trăm bảng sự kiện và bảng chiều. Một
vài kỹ thuật để cải thiện công suất của các truy vấn trong lƣợc đồ hình sao bao gồm:
- Xác định sự kết hợp các bảng sự kiện đang tồn tại hay tạo ra một sự kết hợp
mới các bảng sự kiện.
- Phân chia bảng sự kiện đến mức hầu hết truy vấn chỉ truy nhập tới phần đó.
- Tạo ra các bảng sự kiện riêng rẽ.
- Tạo tệp chỉ số duy nhất hoặc kĩ thuật khác để cải thiện năng suất kết hợp.
Lƣu ý là kể cả bảng sự kiện và các bảng chiều đều không bắt buộc ở dạng chuẩn
nhƣ đối với phƣơng pháp thiết kế truyền thống tức là có sự dƣ thừa dữ liệu. Với loại
lƣợc đồ này cho phép lƣu trữ dƣ thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn
phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng sự

kiện thuộc dạng chuẩn một, với mức độ dƣ thừa dữ liệu rất lớn.

23
Có thể nói lƣợc đồ hình sao là một CSDL chỉ đọc, việc cập nhật dữ liệu là rất
khó, nếu không muốn nói là không thể đƣợc. Một vài bảng chiều chứa dữ liệu có
thể đƣợc thêm vào bằng các truy vấn có kết nối, vài bảng khác lại không chứa dữ
liệu gì ngoài việc phục vụ đánh chỉ số cho dữ liệu.
4.1.2 Lược đồ hình tuyết rơi
Lƣợc đồ hình tuyết rơi (snowflake) là một sự mở rộng của lƣợc đồ hình sao tại
đó mỗi cánh sao không phải là một bảng chiều mà là lớp bảng chiều. Trong dạng
lƣợc đồ này, mỗi bảng theo chiều của lƣợc đồ hình sao đƣợc chuẩn hóa hơn.

B¶ng sù kiÖn
(Fact)
Líp c¸c
b¶ng chiÒu
(Dimension)
Líp c¸c
b¶ng chiÒu
(Dimension)
Líp c¸c
b¶ng chiÒu
(Dimension)
Líp c¸c
b¶ng chiÒu
(Dimension)
Líp c¸c
b¶ng chiÒu
(Dimension)
B¶ng chiÒu

(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu

(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)
B¶ng chiÒu
(Dimension)


Hình 5. Lược đồ tuyết rơi của CSDL
Lƣợc đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần
thiết để lƣu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng

24
có kích thƣớc nhỏ hơn thay vì phải kết hợp những bảng có kích thƣớc lớn lại không
chuẩn hóa. Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít
mang bản chất theo chiều hơn. Nó làm tăng số lƣợng các bảng và làm tăng tính
phức tạp của một vài truy vấn cần có sự tham chiếu tới nhiều bảng. Một vài công cụ
đã che giấu ngƣời sử dụng cuối lƣợc đồ CSDL vật lý và cho phép làm việc ở mức
khái niệm. Những công cụ này đã ánh xạ những truy vấn của ngƣời sử dụng tới sơ
đồ vật lý. Cần một hệ quản trị CSDL để thực hiện công việc này lần đầu tiên khi
công cụ cài đặt.
4.1.3 Lược đồ kết hợp
Là kết hợp giữa lƣợc đồ hình sao dựa trên bảng sự kiện và những bảng chiều
không chuẩn hóa theo các chuẩn 1NF, 2NF, 3NF và lƣợc đồ hình tuyết rơi trong đó
tất cả các bảng chiều đều đã đƣợc chuẩn hóa. Trong lƣợc đồ loại này chỉ những
bảng chiều lớn là đƣợc chuẩn hóa còn những bảng khác chứa một khối lƣợng lớn
các cột dữ liệu chƣa đƣợc chuẩn hóa.

Một vài CSDL và các công cụ truy vấn của ngƣời sử dụng cuối nhất là các công
cụ OLAP đòi hỏi mô hình dữ liệu phải là lƣợc đồ hình sao bởi vì nó là một mô hình
dữ liệu quan hệ nhƣng lại đƣợc thiết kế để hỗ trợ mô hình dữ liệu đa chiều là điểm
cốt lõi của OLAP. Các CSDL và công cụ này đƣợc điều chỉnh cho phù hợp để thực
hiện đƣợc các yêu cầu truy vấn đối với mô hình này.
4.2 Thiết kế vật lý kho dữ liệu
Thiết kế vật lý là tập hợp các dữ liệu trong suốt giai đoạn thiết kế logic vào một
mô tả của cấu trúc CSDL vật lý. Thiết kế vật lý đƣợc định hƣớng bởi các mặt tối ƣu
thực hiện truy vấn và việc bảo trì CSDL. Do các kho dữ liệu thƣờng chứa các bảng
dữ liệu rất lớn (nhất là các bảng sự kiện) và các yêu cầu kỹ thuật để tối ƣu tốc độ
truy vấn và bảo trì hệ thống, cho nên việc thiết kế phải quan tâm đến việc tạo một số
thành phần sau trong thiết kế vật lý kho dữ liệu.
4.2.1 Phân hoạch dữ liệu và cơ chế song song
Đây là hai phƣơng pháp quan trọng cho việc giải quyết vấn đề tối ƣu tốc độ của
thiết kế CSDL vật lý. Việc thực hiện song song (còn gọi là cơ chế song song) làm
giảm rất nhiều thời gian đáp ứng cho các thao tác tập trung vào dữ liệu trong CSDL

×