Tải bản đầy đủ (.pdf) (126 trang)

Data warehouse lý thuyết và thực tiễn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.34 MB, 126 trang )







ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM MINH TUÂN
DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN
LUẬN VĂN THẠC SĨ
Hà nội - 2008






ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM MINH TUÂN
DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN
Ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN VĂN HÙNG
Hà nội 2008
- 1 –



MỤC LỤC
MỤC LỤC 1
CHƯƠNG I: TỔNG QUAN 5
1 Đặt vấn đề và việc lựa chọn đề tài 5
1.1 Đặt vấn đề 5
1.2 Phạm vi của đề tài 6
2 Định nghĩa lại vấn đề 6
2.1 Các hệ thống thông tin tác nghiệp 6
2.1.1 Các chức năng và thuộc tính cơ bản của OLTP 7
2.2 Nhu cầu quản trị trên các hệ thống thông tin 10
2.2.1 Những nhu cầu thuộc về ban quản trị trong doanh nghiệp 10
2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao 11
3 Data warehouse (Nhà kho dữ liệu) 13
3.1 Nhà kho dữ liệu là gì 13
3.2 Mục tiêu của DWH 15
3.2.1 Ứng dụng công nghệ Data warehouse trong các ngành dịch vụ 16
3.3 Phân biệt DWH với các CSDL tác nghiệp 17
3.3.1 So sánh nhà kho dữ liệu với các CSDL tác nghiệp 17
3.3.2 Mối quan hệ giữa các hệ thống thông tin tác nghiệp và Kho dữ liệu 18
3.4 Trung tâm dữ liệu theo chủ đề (Data Mart) 19
3.5 Các bước để xây dựng Nhà kho dữ liệu 20
CHƯƠNG II: KIẾN TRÚC NHÀ KHO DỮ LIỆU 21
1 Kiến trúc tham chiếu 21
2 Kiến trúc dòng dữ liệu 23
2.1.1 ETL 24
3 Kiến trúc hệ thống 27
3.1.1 Mô hình kiến trúc chung 27
3.1.2 Các loại kiểu dáng kiến trúc hệ thống trên thực tế 27
3.1.3 Những nhân tố dùng để lựa chọn kiến trúc 30
3.2 Một kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment [9] 30

CHƯƠNG III: MÔ HÌNH DỮ LIỆU THEO CHIỀU 32
1 Mở đầu 32
2 Các khái niệm 33
2.1 Sự kiện và bảng sự kiện 33
2.2 Chiều và bảng chiều 34
2.2.1 Chiều 34
- 2 –

2.2.2 Bảng chiều 34
2.2.3 Phân loại chiều 35
2.2.4 Thời gian và bảng chiều thời gian 36
2.2.5 Khối dữ liệu (cube) 37
2.2.6 Đo lường trong các bảng sự kiện 39
2.2.7 Mức độ đơn nguyên của phép đo 39
3 LƯỢC ĐỒ DỮ LIỆU THEO CHIỀU 39
3.1.1 Lược đồ dữ liệu hình sao (star schema) 39
3.1.2 Lược đồ dữ liệu hình bông tuyết (Snowflake schema) 40
4 Quy trình mô hình hóa dữ liệu chiều 41
4.1 Quy trình mô hình hóa theo chiều 41
4.1.1 Bước 1: Khảo sát quy trình nghiệp vụ của tổ chức 41
4.1.2 Bước 2: Xác định mức độ chi tiết hay các độ thô (grain) 41
4.1.3 Bước 3: Thiết kế các chiều 42
4.1.4 Bước 4: Xác định các dữ kiện là số 42
4.2 Thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ 42
4.2.1 Khung cảnh thực tế 42
4.2.2 Cơ sở 42
4.2.3 Các bảng dữ liệu của hệ thống điều hành tác nghiệp 42
4.2.4 Xác định độ thô của dữ liệu: 42
4.2.5 Tóm lược 43
4.2.6 Kết quả thiết kế mô hình chiều 43

4.2.7 Ước lượng dung lượng lưu trữ 44
CHƯƠNG IV: QUÁ TRÌNH TRÍCH TÁCH DỮ LIỆU TỪ CÁC HỆ THỐNG NGUỒN
VÀO DWH 45
1 Tiến trình ETL (Extraction – Transformation – Loading) 45
1.1 Nhiệm vụ của tiến trình ETL 45
1.2 Tính chất đầu vào và những thách thức cho ETL 45
2 Trích tách dữ liệu (Extraction) 46
3 Chuyển đổi dữ liệu (Transformation) 48
4 Tải dữ liệu (Loading) 49
5 Các phương hướng và kiến trúc thành phần ETL 49
5.1 Mô hình với trạm tạm 49
5.2 Mô hình theo cách thức lấy dữ liệu nguồn 49
5.3 Các cấu hình xét theo vị trí thành phần ETL 50
6 Hiệu năng tiến trình ETL 51
6.1 Hiệu năng 51
- 3 –

6.2 Xử lý song song 51
7 Một số công cụ ETL 52
7.1 Các môi trường ETL mã nguồn mở 52
CHƯƠNG V: XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 53
1 Giới thiệu chung 53
1.1 Các tính chất cần có của dịch vụ OLAP 54
1.1.1 So sánh OLAP với OLTP 54
2 Kiến trúc khối của OLAP 55
2.1 Khối 55
2.1.1 Đại lượng đo lường thống kê 55
2.1.2 Lưới các khối 56
2.1.3 Các phân hoạch (partition) 57
2.1.4 Các phép xử lý trên khối 58

3 Các tiêu chuẩn đánh giá một công cụ OLAP 59
4 Các mô hình lưu trữ hỗ trợ OLAP 60
4.1 Mô hình Multidimensional OLAP (MOLAP) 60
4.1.1 Mô hình Relational OLAP (ROLAP) 62
4.1.2 Mô hình Hybird OLAP (HOLAP) 63
4.1.3 So sách các mô hình 64
5 Mô hình kiến trúc dịch vụ OLAP 64
5.1.1 Kiến trúc thành phần Server: 65
5.1.2 Kiến trúc thành phần Client 66
6 Kỹ thuật để xử lý truy vấn hiệu quả trên OLAP 67
6.1 Bitmap Index 67
6.2 Sử dụng kỹ thuật tính toán trước khối dữ liệu [4] 69
6.2.1 Điểm khởi đầu 69
6.2.2 Định nghĩa hình thức 71
6.2.3 Thuật toán ăn tham 73
7 Mối quan hệ giữa dữ liệu tại các hệ thống OLTP với dữ liệu trên OLAP 74
CHƯƠNG VI: DWH VỚI ỨNG DỤNG QUAN HỆ KHÁCH HÀNG 76
1 Hệ thống CRM 76
1.1 Các chức năng của một hệ thống CRM 77
1.2 Làm thế nào có chương trình CRM thực sự hiệu quả? 78
1.2.1 Cải thiện các quy trình và cách thức kinh doanh 78
1.2.2 Xây dựng một chu trình quản lý khách hàng 78
1.2.3 Tư vấn và triển khai CRM theo yêu cầu (on-demand CRM) 79
1.2.4 Quan hệ khách hàng và tiếp thị 79
- 4 –

2 DWH & QUAN HỆ KHÁCH HÀNG 80
2.1 SCV – góc nhìn thống nhất về khách hàng 80
2.1.1 Ý nghĩa của SCV 81
2.1.2 Một bài toán thực tế 81

2.1.3 Thực hiện chất lượng dữ liệu khách hàng 83
2.1.4 Bộ thuộc tính của khách hàng 83
2.1.5 CSDL trung tâm về khách hàng 83
2.2 Sự phù hợp của DWH đối với CRM trong vấn đề SCV 84
2.3 Đợt chiến dịch quảng cáo, quảng bá (Campaign Segmentation) 84
2.3.1 Quản trị sự chấp thuận 85
2.3.2 Dữ liệu phát đi và phản hồi từ khách hàng 86
2.4 Phân tích khách hàng 89
2.4.1 Những phân tích diễn giải trong một số ngành 90
2.4.2 Những phân tích mang tính dự báo 90
CHƯƠNG VII: THỰC HIỆN DWH TRÊN MS SQL SERVER 2005 91
1 Giới thiệu MS SQL Server 2005 [1] 91
1.1 Các công nghệ Nghiệp vụ thông minh Business Intelligence của Microsoft 92
1.1.1 Hợp nhất dữ liệu công ty cho việc phân tích và báo cáo 94
1.1.2 Thực thi kho dữ liệu 95
Xây dựng và quản lý các giải pháp BI phức tạp 96
2 Thực hiện DWH trên MS SQL Server 2005 96
2.1 Bài toán ví dụ AdventureWorks 96
2.2 Thực hiện DWH cho AdventureWorks 96
2.2.1 Chuyển tải dữ liệu tác nghiệp vào CSDL DWH 96
2.2.2 Thực hiện dịch vụ phân tích trực tuyến trên CSDL DWH 103
CHƯƠNG VIII: KẾT LUẬN 121
1 Kết quả đạt được 121
2 Hạn chế và hướng phát triển 121
3 Kết luận 122
Tài liệu tham khảo 123











CÁC THUẬT NGỮ VIẾT TẮT

Thuật ngữ
Đầy đủ
Chú thích
CRM
Customer Relationship
Management
quản trị quan hệ khách hàng
CSDL
Cơ sở dữ liệu

DQ

chất lượng dữ liệu
DWH
Data warehouse
Nhà kho dữ liệu
ETL
Extraction –
Transformation -
Loading
Quá trình trích tách biến đổi và tải dữ liệu
vào một CSDL

HOLAP
Hybric Online Analytical
Processing
Xử lý phân tích trực tuyến kết hợp
MOLAP
Multi dimensional
Online Analytical
Processing
Xử lý phân tích trực tuyến đa chiều
NLLV
Người làm luận văn

OLTP
OnLine Transaction
Processing
Hệ thống xử lý giao tác trực tuyến
OLAP

Online Analytical
Processing
Xử lý phân tích trực tuyến
ROLAP
Relational Online
Analytical Processing
Xử lý phân tích trực tuyến quan hệ


- 5 –

CHƢƠNG I: TỔNG QUAN

1 Đặt vấn đề và việc lựa chọn đề tài
1.1 Đặt vấn đề
Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội.
Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung
lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình
hoạt động đã được cập nhật và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng
ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ
chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình
ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL. Một hãng bán lẻ
nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công
ty bán lẻ thời trang cũng có hàng trăm đơn hàng.
Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ. Người ta có thể truy
cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư
mục lưu trữ trên hệ điều hành. Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt
một giai đoạn yêu cầu của người dùng.
Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ
liệu của tổ chức, doanh nghiệp mình. Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một
cách đầy đủ. Dữ liệu ấy chính là tài sản của công ty. Và họ muốn rằng những khối dữ liệu
khổng lồ ấy phải nói lên những điều thật ý nghĩa. Điều này khác với việc họ muốn tìm lại một
đơn hàng, một thông tin mang tính cá nhân của một khách hàng. Ở đây họ muốn biết cái sơ
đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của
năng suất hoạt động, Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa
lý,…. Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào.
Nếu doanh nghiệp lấy ra được các thống kê, quy luật ấy họ sẽ có được những quyết sách
trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn. Mùa nào,
tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường. Vì thế có thể nói nếu
dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh
hiệu quả.
Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ. Với việc không có được những
công cụ khai thác thông tin hiệu quả , các tổ chức doanh nghiệp đang sống trong một môi

trường “giàu dữ liệu nhưng nghèo thông tin”.
Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán
- 6 –

mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên
trong các dữ liệu thu thập và tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định
trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc
những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích của lượng dữ
liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm
chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả.
Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón
nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách
đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng
dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh
tranh chưa gay gắt, trình độ quản lý không cao.
Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức
độ cạnh tranh cao. Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng
tổng hợp các khía cạnh trên dữ liệu hoạt động khổng lồ của doanh nghiệp mình, nhìn ra được
những xu hướng đã và đang tồn tại ở các mặt hoạt động từ đó có những quyết định, xử lý
đúng đắn.
Chính vì điều này nên học viên chọn Data warehouse làm đề tài nghiên cứu.
1.2 Phạm vi của đề tài
Đề tài trình bày các vấn đề chính trong lĩnh vực Data warehouse bao gồm cơ sở lý thuyết và
một số khía cạnh thực tế của công nghệ này. Đề tài cũng trình bày hệ thống Microsoft SQL
Server phiên bản 2005 và áp dụng hệ thống này để xây dựng một nhà kho dữ liệu.
2 Định nghĩa lại vấn đề
2.1 Các hệ thống thông tin tác nghiệp
Công nghệ thông tin ngày càng đóng vai trò to lớn trong mọi hoạt động sản xuất quản lý của
con người. Hầu hết việc thông tin tự động hóa đã được đưa vào các quy trình của doanh

nghiệp tổ chức. Đó là tổ chức sản xuất, bán hàng, quản trị khách hàng, quản trị nguồn nhân
lực…
Trên thực tế các công ty muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt
(giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng ), người lãnh đạo
công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường
kinh doanh mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có
nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch, giao
dịch khách hàng, lập hoá đơn Chính vì lý do đó những hệ thống này có một cái tên cổ điển
- 7 –

là hệ thống xử lý giao dịch (OLTP- online transaction processing). Thông thường OLTP bao
gồm một dãy lệnh: thu nhận (gathering) dữ liệu đầu vào, xử lý (processing) dữ liệu, và cập
nhật (updating) dữ liệu cũ với dữ liệu mới được nhập và xử lý.
Mỗi giao dịch tương ứng với một phép xử lý nghiệp vụ : tạo lập đơn hàng với khách hàng,
đăng ký khóa học, chuyển khoản, Các giao dịch này này trong quá trình thực hiện liên quan
đến nhiều vai trò tạo ra một hay nhiều thực thể. Bằng việc sử dụng hệ thống OLTP thì các
thông tin về thực thể, thông tin về quá trình thực hiện được lưu lại trên các hệ thống máy tính.
Các tổ chức, doanh nghiệp chưa đưa CNTT vào áp dụng thì chúng được lưu dưới dạng sổ
sách giấy tờ. Theo thời gian, mỗi doanh nghiệp sở hữu các kho dữ liệu.
Thông tin trước hết là một phát biểu có nghĩa được trích rút từ kho dữ liệu. Giá trị của thông
tin tỷ lệ thuận với “ độ không biết ” của con người. Thông tin có thể lấy từ bản thân một mảnh
dữ liệu hoặc có thể xâu chuỗi từ nhiều mảnh dữ liệu với một mối quan hệ nào đó. Quá trình
xác định mối quan hệ giữa các dữ liệu đòi hỏi các kiến thức cần thiết về khả năng nhận thức
và nắm bắt chuỗi thông tin cũng như phương thức làm cho thông tin đó có khả năng đáp ứng
một nhiệm vụ cụ thể. Trong quản lý, giá trị của thông tin có liên quan trực tiếp tới việc thông
tin đó giúp đạt được các mục tiêu của tổ chức.
Trong khi dữ liệu đang được một giao tác cập nhật, có thể có hoặc không một khoá ngăn
không cho giao tác khác truy cập dữ liệu. OLTP là phương thức hiệu quả khi các người dùng
muốn:
- Xử lý các dữ liệu đơn nói chung không giới hạn về mặt số lượng với tần suất

không biết trước một cách chính xác.
- Truy cập tức thì vào dữ liệu đã được cập nhật, phản ánh các giao tác trước đó
- Thay đổi dữ liệu tức thì để phản ánh giao tác vừa xử lý.
2.1.1 Các chức năng và thuộc tính cơ bản của OLTP
Khả năng truy cập và cập nhật các dữ liệu chia sẻ trên các hệ thống OLTP có các đặc tính
- Truy cập trực tuyến (online)
- Truy cập tức thời (availability)
- Phản hồi nhanh chóng (response)
- Chi phí thấp (low cost).
Truy cập trực tuyến: để truy cập, user cần một máy trạm (workstation) nối với hệ thống.
Kết nối vật lý có thể thông qua mạng nội bộ LAN, mạng mở rộng WAN (bao gồm cả mạng
nội thị MAN), hay internet (với mạng riêng ảo hay hệ thống web – based). Kết nối lô gíc
- 8 –

được cung cấp bởi hệ thống OLTP hoặc riêng lẻ, hoặc được liên kết với một phương thức
truy cập truyền thông và trình điều khiển mạng.
Truy cập tức thời: Đây là một yêu cầu rất quan trong đối với một hệ thống OLTP. Vì quy
trình của công ty được xây dựng dựa trên 1 cấu thành là hệ thống thông tin nên nó phải luôn
sẵn sàng cho bất cứ nhu cầu truy cập ở thời điểm nào. Một công ty dịch vụ với 24 giờ làm
việc một ngày trong cả tuần, những nhu cầu truy cập dữ liệu không được định trước. Mặt
khác nhiều công ty còn cho phép tương tác với khách hàng thông qua hệ thống. Vì thế để
công ty hoạt động thông suốt thì hệ thống cần phải có khả năng truy cập tức thời. Để đảm bảo
được khả năng này cần phải có chất lượng và công nghệ kết nối phần cứng, phần mềm, ứng
dụng, và các thiết bị hay tiện ích tự động phục hồi (recover) từ bất cứ lỗi cấu tạo nào. Cùng
với khả năng sửa lỗi hay vượt lỗi, hệ thống OLTP cũng cần giảm thiểu ảnh hưởng của các
hoạt động bất thường như nâng cấp phần cứng, thay đổi phần mềm, chuyển đổi công việc, lưu
trữ dữ liệu, và tái cơ cấu tổ chức.
Phản hồi nhanh chóng: Như đã phân tích ở trên nhân viên hay thậm chí khách hàng đối tác
của doanh nghiệp sử dụng hệ thống OLTP hầu như mọi lúc. Để duy trì và đáp ứng hiệu quả
công việc thì thời gian phản hồi giao tác phải đủ nhanh chấp nhận được với người dùng.

Thuật toán đáp ứng giao tác tốt, chế độ sắp xếp hàng đợi giao tác hợp lý là những nhân tố để
đáp ứng yêu cầu này. Việc sắp xếp ưu tiên giao tác đòi hỏi có chính sách ngay từ đầu để phân
hoạch tải trong những điều kiện ngặt nghèo khi đến giờ cao điểm truy cập
Tiết kiệm chi phí: Các hệ thống OLTP hiện nay đã được xây dựng và sử dụng một cách rộng
rãi nhưng ít ai để ý đến “chi phí xử lý mỗi giao tác” . Chi phí cho từng giao tác chiếm một tỷ
lệ trong tổng chi phí cần thiết của hệ thống để thực hiện giao tác. Như vậy, mỗi giao tác phải
được sắp xếp, xử lý, và kết thúc một cách có hiệu qủa.
Ưu điểm tuyệt đối của các hệ thống OLTP là xử lý các giao dịch tương tác, dễ bảo trì và
khống chế dữ liệu thừa, thiết lập dữ liệu quan hệ trọn vẹn. Dữ liệu có trong các Cơ sở dữ liệu
của OLTP có một số đặc điểm đáng quan tâm là:
- Dữ liệu dạng "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất
thấp. Điều này cũng dễ hiểu vì ngay ban đầu CSDL đã được thiết kế nhằm lưu các
mảnh dữ liệu ghi nhận giá trị thuộc tính của các thực thế nghiệp vụ. Chúng được tạo ra
nhằm mục đích chính là cập nhật và truy xuất theo kiểu đơn lẻ.
- Dữ liệu bao hàm hiện tai và lịch sử: Phần dữ liệu hiện tại là dữ liệu đang hoặc sẽ liên
quan trực tiếp đến giao dịch, có thể ghi và đọc. Phần dữ liệu lịch sử không còn liên
quan đến các giao dịch đang hoặc sẽ xẩy ra, chỉ để đọc. Trong quá trình hoạt động của
OLTP, dữ liệu sống dần chuyển thành lịch sử, do vậy dung lượng dữ liệu lịch sử ngày
- 9 –

càng tăng, lấn át dữ liệu hiện tại. Ví dụ, trong thống kê sản xuất may mặc thì các đơn
hàng đã hoàn tất đều là dữ liệu lịch sử.
- Vấn đề độ lớn dữ liệu: Hiển nhiên với sự tăng trưởng của kho dữ liệu thì quá trình
truy xuất đến dữ liệu thuờng cần đến nhiều tài nguyên máy tính (như tốc độ xử lý của
CPU, dung lượng bộ nhớ RAM, ổ cứng…), đặc biệt đối với các kho dữ liệu lớn. Tốc
độ giảm xuống nhiều khi không thể chấp nhận được.
- Tính đa tạp của dữ liệu từ các hệ thống tác nghiệp: Tại một tổ chức có nhiều hệ
thống thông tin được xây dựng. Các hệ thống này phục vụ cho các phòng ban đơn vị
khác nhau trong tổ chức vì thế chúng:
o Những giao diện khác nhau

o Những dạng biểu dữ liệu khác nhau
o Thông tin trùng lặp và không nhất quán










Dữ liệu bị phân mảnh theo chiều dọc (theo chiều các bộ phận phòng ban tổ chức) trong các hệ
thống thông tin:
Thư viên
CSDL Khoa học
Web
CSDL Cá nhân
- 10 –


Tại sao tổ chức hay doanh nghiệp không làm một hệ thống đồng bộ xuyên suốt cho các
phòng ban của mình? Thực sự đây là một công việc khó khăn và đòi hỏi một thời gian xây
dựng lâu dài. Tổ chức, doanh nghiệp có quá nhiều phòng ban, kiến trúc nhiều tầng hay thậm
chí có những kế hoạch cơ cấu mới trong tương lai. Đơn vị có quy mô càng lớn thì việc xây
dựng một hệ thống như thế càng dễ xẩy ra rủi ro vì sự lệch pha với yêu cầu nghiệp vụ phức
tạp trải rộng. Phần lớn doanh nghiệp chấp nhận trả giá cho việc thiếu đồng bộ hệ thống CNTT
cho thời gian có thể đưa chúng vào ứng dụng.
2.2 Nhu cầu quản trị trên các hệ thống thông tin
2.2.1 Những nhu cầu thuộc về ban quản trị trong doanh nghiệp

Đối với đội ngũ thượng tầng của tổ chức, doanh nghiệp thì những yêu cầu thông tin xuất phát
từ đó mang tính chất quản trị, khái quát và định hình tình hình hoạt động của đơn vị trong
một quãng thời gian nhất định. Họ hiếm khi quan tâm đến từng đơn hàng hay từng cá thể đơn
lẻ.
Ví dụ như:
- Tiêu thụ sản phẩm áo vest nữ cao cấp tại thị trường Hải Phòng đang giảm, phân tích lý
do. Thay đổi yếu tố nào để có kết quả khả quan hơn về mặt số lượng bán ra
- Xu hướng những độc giả mua sách về trinh thám và kèm theo sách tiểu sử là như thế
nào
- Hãng dịch vụ điện thoại di động sẽ tung ra một gói dịch vụ mới, thì doanh thu của gói
này sẽ được dự đoán ra sao
- …
Sau khi các hệ thống thông tin tác nghiệp đã ổn định và đưa vào sử dụng trong một thời gian
dài, dữ liệu tác nghiệp sẽ được lưu tại các hệ thống này. Mặc nhiên chúng sẽ là đầu vào cho
- 11 –

việc phân tích, dự báo,… Tuy nhiên có những tính chất căn bản của dữ liệu này gây khó khăn
cho việc đáp ứng nhu cầu thông tin quản trị:
- Các số liệu ở mức chi tiết (cho từng giao tác)
- Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập khác
nhau và ở những CSDL hoàn toàn khác nhau.
- Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ.
- Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu tới
hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục vụ các giao
dịch trực tuyến.
Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho mình thông tin cần
thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra xung quanh. Tình trạng số
liệu quá chi tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình
tương đối độc lập của một thực thể là lý do trực tiếp dẫn đến sự khủng hoảng này.
Bên cạnh chức năng chủ yếu là phục vụ các giao dịch, RDBMS cần cung cấp cho các nhà

quản lý báo cáo về các thông tin tổng quát có độ trừu tượng cao, được khai thác từ dữ liệu
thô.
Tóm lại sau giai đoạn triển khai những hệ thống quản lý tác nghiệp, thì nhà quản trị muốn có
- Khung nhìn dữ liệu đa chiều
- Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu vào chi tiết
- Trả lời nhanh các câu hỏi mang tính quản trị sâu sắc
2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao
Các kỹ sư phần mềm hiện nay chỗ này chỗ khác vẫn viết thêm và gắn vào các hệ thống tác
nghiệp những báo cáo phục vụ yêu cầu quản trị. Những phần mềm viết theo đơn đặt hàng vẫn
tiếp tục được bổ sung những báo cáo dạng này. Thực sự có những người tạo báo cáo rất giỏi.
Nhưng điều đáng nói ở đây là việc tạo báo cáo phục vụ yêu cầu mức quản trị ngày càng trở
nên „mang tính nghệ thuật‟ , tức là phụ thuộc rất lớn vào những lập trình xử lý tinh tế của
người xây dụng hệ thống. Điều này cho thấy sự đáp ứng một cách yếu ớt, rời rạc, ko có nền
tảng cho các nhu cầu phân tích dữ liệu mang tính lịch sử. Hơn nữa giới hạn của chúng là rõ
ràng và không thể vượt qua. Chúng đáp ứng cho từng hệ thống đơn lẻ, thời gian thực hiện trở
nên không thực tế trên kho dữ liệu lớn.
Báo cáo truyền thống thường được thiết kế dưới dạng bảng 2 chiều để cung cấp dữ liệu tổng
hợp và được thiết kế bằng các công cụ phần mềm tạo báo cáo kiểu tham số hóa, ví dụ như
- 12 –

Crystal Reports của công ty Bussiness Objects. Bên cạnh các ưu điểm như hình thức trình bày
đẹp, chúng có một số nhược điểm đáng lưu ý sau:
- Chi phí thiết kế lớn: Với mỗi một yêu cầu báo cáo, đội ngũ CNTT phải thiết kế cũng
như lập trình từ đầu. Với mỗi loại báo cáo có nhận một tập các tham số đầu vào cố
định trong khi bộ phận quản trị thường xuyên yêu cầu thay đổi loại tham số hay kết
cấu báo cáo mới.
- Không linh hoạt: Như đã phân tích ở trên mức độ linh hoạt của báo cáo là rất thấp.
- Tương tác rất kém: Cũng cùng nguyên nhân với nhược điểm không linh hoạt, báo cáo
kiểu chứng từ không cho phép người dùng tương tác với hệ thống (module báo cáo) để
thay đổi đơn giản như trình bày, nhãn hay cao hơn là cấu trúc và điều kiện.

- Tiêu tốn và lãng phí nhiều tài nguyên máy tính: Bất kể làm báo cáo về số liệu sống hay
số liệu lịch sử trong RDBMS, công cụ tạo báo cáo phải khoá rất nhiều bảng, cản trở sự
truy xuất của những người dùng khác, ảnh hưởng xấu đến hiệu suất của hệ thống. Số
liệu tính gộp trung gian dùng tạo báo cáo không được lưu giữ lại, kể cả đối với các dữ
liệu lịch sử, do vậy nếu cần tạo lại vẫn chính báo cáo đó, thì hệ thống lại tính toán lại
từ đầu từ dữ liệu thô, gây lãng phí nghiêm trọng tài nguyên máy tính.
- Không phù hợp với nhu cầu phân tích trực tuyến đa chiều: Để tìm ra quy luật kinh
doanh, ta cần phân tích số liệu trực tuyến dưới nhiều góc nhìn và cách thể hiện khác
nhau. Trực tuyến ở đây có nghĩa người tiến hành phân tích tương tác số liệu (thường là
các chuyên viên, hoặc các nhà quản lý không chuyên ngành tin học) cần thao tác
nhanh chóng và thuận tiện kho dữ liệu và tìm ra kết quả trong thời gian thực. Yêu cầu
trực tuyến đạt được khi mỗi thay đổi cấu trúc dữ liệu tổng hợp trong báo cáo tiêu tốn
không quá 20 giây.
Với những hạn chế ấy, việc nghiên cứu triệt để để xây dựng một công nghệ nền hoàn chỉnh là
cần thiết.
Một cách tiếp cận được đề xướng bởi B.Inmon vào những năm 90 của thế kỷ trước là một sự
kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xây
dựng các kho dữ liệu. Data Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập
hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp
cho việc phân tích và ra quyết định.
- 13 –

3 Data warehouse (Nhà kho dữ liệu)
3.1 Nhà kho dữ liệu là gì
Một nhà kho dữ liệu (data warehouse), gọi một cách chính xác hơn là kho thông tin
(information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp
cận các ý kiến trong mọi lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin
cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là những
yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin
nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin

mà họ muốn có và truy cập đến bằng những công cụ đơn giản.
Ở nhiều tài liệu tiếng Việt, „Data warehouse‟ được dịch là nhà kho dữ liệu. Thuật ngữ này
cũng chính xác nhưng dễ gây nhầm lẫn với khái nhiệm kho dữ liệu nói chung mà chúng ta đã
sử dụng từ trước nên trong một số trường hợp, NLLV sử dụng từ viết tắt là DWH.
Công nghệ DWH là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều
và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa,…. Dữ liệu
trong DWH không giống dữ liệu của hệ tác nghiệp là loại chỉ có thể đọc nhưng không chỉnh
sửa được. Hệ tác nghiệp tạo ra, chỉnh sửa và xóa những dữ liệu sản xuất mà những dữ liệu
này cung cấp cho DWH. Nguyên nhân chính cho sự phát triển một DWH là hoạt động tích
hợp dữ liệu từ nhiền nguồn khác nhau vào một kho dữ liệu đơn lẻ và dày đặc mà kho này
cung cấp cho việc phân tích và ra quyết định trong công việc kinh doanh.
DWH là sự tích hợp các dữ liệu từ các OLPT khác nhau nhằm tập hợp dữ liệu phục vụ quá
trình phân tích hoạt động kinh doanh nên dữ liệu trong một hệ thống
Xuất phát từ nhu cầu quản trị, DWH cần thoả mãn một số yêu cầu chính sau :
- Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm Gbyte số liệu, tuy nhiên
những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến (VD: Địa
chỉ, ID khách hàng ). Các dữ liệu kiểu này thường không được đưa vào DWH để hạn
chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo
từng SA (vùng chủ đề- Subject area). Một vùng chủ đề là một chủ đề được tách ra từ
một tập hợp lớn các chủ đề mà người sử dụng quan tâm trong công việc kinh doanh,
(Ví dụ khách hàng, thời gian hay sản phẩm).
- Được tổ chức xung quanh các chủ thể : Nhu cầu thông tin quản trị không tập trung
vào các mảnh dữ liệu đơn lẻ mà hướng tới các đối tượng, lớp đối tượng như khách
hàng (customer), sản phẩm (product), bán hàng (sales).
- Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định,
mà không tập trung vào các hoạt động hay các xử lý tác nghiệp hàng ngày.
- 14 –

- Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ
thể

- Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian không
lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong DWH, dữ liệu của hàng chục
năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến
những chỉ tiêu cần quan tâm trong một thời gian dài.


- Số liệu chỉ để đọc: Dữ liệu đưa vào DWH chỉ để đọc, việc sửa dữ liệu hầu như không
được tiến hành vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông thường người ta
không yêu cầu giảm thời gian đưa dữ liệu vào DWH xuống mức tối thiểu, nhưng cần
tối ưu hoá DWH sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất.
Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp.

Data
Time
01/97
02/97
03/97
DỮ liệu tháng 1
Dữ liệu tháng 2
Dữ liệu tháng 3
D
D
W
W
H
H


- 15 –



- Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp.
- Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu.
 Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh.
 Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu.
- Số liệu không biến động: dữ liệu được lưu trữ lâu dài trong DWH. Không biến động
ở đây được hiểu là thời gian tĩnh của DWH là lâu hơn nhiều so với các hệ OLTP. Mặc
dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều
đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần
thiết cho các mô hình nghiệp vụ phân tích, dự báo.
3.2 Mục tiêu của DWH
- Đóng vai trò kho lưu trữ dữ liệu, thông tin, tri thức, và siêu dữ liệu
 Tổng hợp toàn bộ thông tin phục vụ cho phân tích sâu ở mức quản trị
 Tách việc phân tích ra khỏi xử lý tác nghiệp trực tuyến
- Chuyển đổi dữ liệu thành thông tin
 Thông tin mang tính khái quát hóa cao, liên kết từ nhiều chủ thể theo một quá
trình thời gian nhất định
- Thực hiện các phân tích dữ liệu phức tạp, trên kích thước dữ liệu lớn


H
H




t
t
á
á

c
c


n
n
g
g
h
h
i
i


p
p


C
C
h
h
u
u
y
y


n
n



d
d




l
l
i
i


u
u




l
l
à
à
m
m


t
t

ƣ
ƣ
ơ
ơ
i
i


L
L
à
à
m
m


t
t
ƣ
ƣ
ơ
ơ
i
i


l
l
à
à

m
m


t
t
ƣ
ƣ
ơ
ơ
i
i





C
C


p
p


n
n
h
h



t
t




D
D
W
W
H
H


- 16 –

- Các phân tích đặc trưng:
 Phân tích định hướng
 Phân tích chuỗi thời gian
 Phân tích rủi ro
- Đầu vào cho các hệ hỗ trợ quyết định
- Khám phá và đưa ra các yếu tố ẩn thông qua các kĩ thuật khai phá dữ liệu. Yếu tố ẩn là
yếu tố mà con người chưa biết tới hoặc chưa biết mức độ tác động của nó với các kết
quả hoạt động








3.2.1 Ứng dụng công nghệ Data warehouse trong các ngành dịch vụ

Sơ đồ tỷ lệ phân bố DWH trên các ngành
Hiện nay trên thế giới, công nghệ Nhà kho dữ liệu đã được áp dụng cho các lĩnh vực dịch vụ
có số lượng giao dịch lớn như :
- Hàng không (Airline)
- Tài chính(Banking)





0
10
20
30
40
Tài chính
Bán lẻ
Viễn thông
Sản xuất
khác
Hƣớng chủ
đề
Tích hợp
Biến thời gian
Không vi phạm
Nhà kho dữ

liệu
- 17 –

- Chăm sóc sức khỏe (Health care)
- Đầu tư (Investment)
- Bảo hiểm (Insurance)
o Điểm đặc biệt ở lĩnh vực này nằm ở chỗ dữ liệuđược lưu trữ trong một thời
gian rất dài (có thể từ 50 năm đến 100 năm). Điểm đặc trưng nữa là tính chất
dữ liệu rất đa dạng do các sản phẩm của các công ty bảo hiểm trải rộng qua
nhiều lĩnh vực trong đời sống.
- Bán lẻ (Retail)
o Tính đa dạng các yếu tố quyết định đến khả năng mua hàng của người tiêu
dùng. Từ các tính chất nhân chủng học đến chiến lược giá , vị trí địa lý,…
- Viễn thông
o Điều đặc biệt của các DWH trong lĩnh vực viễn thông so với các DWH khác
là ở chỗ chúng được xác định phần lớn bởi các dữ liệu rất chi tiết, đa dạng,
ví dụ chúng được xác định ở mức độ rất lớn bởi các chi tiết ở mức độ cuộc
gọi.
- Các ngành công nghiệp (Manufacturers)
- …

3.3 Phân biệt DWH với các CSDL tác nghiệp
3.3.1 So sánh nhà kho dữ liệu với các CSDL tác nghiệp
Sau khi chỉ ra nhu cầu phát sinh cũng như tính chất của DWH, có một số so sánh nhằm có sự
phân biệt rõ ràng về các CSDL tác nghiệp thông thường với DWH
Các hệ CSDL tác nghiệp
Data Warehouse
Chỉ lưu trữ những dữ liệu mang tính chuyên
môn riêng của một ngành hay tổ chức.
Có khả năng lưu trữ dữ liệu rất lớn. Là tập

hợp từ nhiều nguồn dữ liệu khác nhau
Phục vụ xử lý giao dịch, cập nhật hằng ngày.
Thường chỉ đọc, phục vụ cho những nhu cầu
báo cáo, phân tích hoạt động, ra quyết định.
Được chuẩn hóa cao độ và thường dựa trên
Dữ liệu dư thừa, bị trùng lặp giúp đơn giản
- 18 –

mô hình quan hệ.
việc truy cập và tìm kiếm.
Hướng về xử lý thời gian thực. Tức là phải
cập nhật và truy vấn thông tin một cách
nhanh chóng và tức thời, và chi tiết.
Hướng về tính ổn định. Thông tin được đưa
ra ở mức tổng hợp cấp cao hơn, bao quát hơn.

Dữ liệu được cập nhật thường xuyên, có độ
linh hoạt cao với những phần tử dữ liệu có
thể chưa hoàn chỉnh hoặc không xác định ở
thời điểm vào.
Dữ liệu lưu trữ, ổn định, các lỗi giao tác đã
được điều chỉnh.


3.3.2 Mối quan hệ giữa các hệ thống thông tin tác nghiệp và Kho dữ liệu
Những người đầu tiên đưa ra ý tưởng về DWH xác định rằng tiến hành phân tích trực tiếp
trên dữ liệu của các hệ xử lý giao dịch và không hiệu quả. Các dữ liệu từ một vài OLTP được
biến đổi và sau đó đưa vào một nguồn dữ liệu duy nhất là DWH. Quá trình này được gọi là
đưa dữ liệu vào DWH, gồm các công đoạn chính sau:
- Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)

- Liên kết các số liệu (Tính trước số liệu tích, tổng, trung bình )
- Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại phù hợp với
DWH
- Tích hợp số liệu từ các nguồn khác nhau.
- Đồng bộ hoá số liệu ở một thời điểm xác định. DWH là hệ thống dữ liệu đã được
chuẩn bị để xây dựng hệ hỗ trợ quyết định (DSS-Decision Support Systems) và hệ
phân tích trực tuyến (OLAP-Online Analysis Processing) vì rằng dữ liệu trong DWH
thoả mãn tính chất toàn vẹn và có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ
nhiều OLTP, chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo,
hệ thống các thuộc tính chung Điều này có giá trị đặc biệt khi xí nghiệp vận hành
một lúc vài hệ thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác
nhau (ví dụ như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác
nhau). Các chỉ số quan trọng có như tổng số, giá trị trung bình trong các giai đoạn
khác nhau, trung bình cộng cũng được biểu diễn rất đa dạng ở các hệ khác nhau. Khi
đưa số liệu vào DWH, mọi chỉ số không tương thích được chuyển đổi, tránh các lỗi
tiềm tàng trong hệ thống.
- 19 –

Tóm lại DTW sử dụng các dữ liệu của các hệ thống thông tin tác nghiệp làm đầu vào, lưu trữ,
tổng hợp một cách thống nhất rồi cung cấp dịch vụ thống kê mang tính quản trị.
Quá trình dữ liệu được đưa từ các hệ thống nguồn, qua các bước xử lý, rồi chuyển vào DTW
gọi là ETL ( Extraction – Transformation- Loading). Quá trình này sẽ được giới thiệu chi tiết
trong chương 4.
3.4 Trung tâm dữ liệu theo chủ đề (Data Mart)
Data Mart là một dạng thu nhỏ của DWH, nếu kho dữ liệu mô tả thông tin của một tổ chức
thương mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó (như phòng
kinh doanh, phòng nhân sự,…) hoặc chứa thông tin cho mỗi chi nhánh của tổ chức.
Data mart là nơi các dữ liệu được khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể
được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng. Một DWH có thể
được phân tích thành nhiều trung tâm dữ liệu chủ đề và ngược lại một tập hợp các trung tâm

dữ liệu theo chủ đề có thể tạo thành một DWH.

Sử dụng trung tâm dữ liệu theo chủ đề cho phép
- thực thi các truy vấn nhanh hơn vì dữ liệu của chúng ít hơn so với kho dữ liệu.
- Phân hoạch một DWH khổng lồ thành các thành phần nhằm đơn giản hơn cho việc
tiếp cận của người dùng



- 20 –

3.5 Các bƣớc để xây dựng Nhà kho dữ liệu
Nói chung một dự án xây dựng Nhà kho dữ liệu sẽ được tiến hành tuần tự như sau:






































- 21 –

CHƢƠNG II: KIẾN TRÚC NHÀ KHO DỮ LIỆU

Với DWH, chúng ta sẽ xem xét các loại sơ đồ kiến trúc sau:
- Kiến trúc tham chiếu
- Sơ đồ kiến trúc dòng dữ liệu
- Sơ đồ kiến trúc hệ thống
Kiến trúc tham chiếu: kiến trúc mang tính lý thuyết được lấy đó làm chuẩn cho sự đa dạng
các loại biến thể có mặt trên thị trường.

Sơ đồ kiến trúc dòng dữ liệu: kiến trúc mô tả cách thức dữ liệu được sắp xếp bên trong DTW
như thế nào và cách thức chuyển tải dữ liệu từ các hệ thống nguồn.
Kiến trúc hệ thống: mô tả các thành phần, mạng, máy chủ, phần mềm, phương tiện lưu trữ.
1 Kiến trúc tham chiếu
Bất cứ một hệ thống công nghệ nào phức tạp và có mặt của nhiều nhà phát triển khác
nhau kèm theo đó là các chiến lược xử lý vấn đề khác nhau đều cần phải có một kiến trúc
tham chiếu. Kiến trúc tham chiếu của một DWH cho phép cung cấp góc nhìn tổng quát về các
bộ phận cấu thành nên DWH. Từ kiến trúc này chúng ta có thể nắm rõ hơn về cơ cấu, cách
thức sử dụng một công cụ trong thực tế.
Một kiến trúc tham chiếu điển hình bao gồm các lớp và các khối, trong đó các thành
phần của một khối nằm trong một hạ tầng máy tính thống nhất. Các lớp cho phép tổ chức việc
xây dựng DWH được linh hoạt với đội ngũ nhân viên ở các lĩnh vực hoạt động khác nhau.
Các khối bao gồm:
- Khối các nguồn dữ liệu
- Khối tạo dựng kho dữ liệu
- Khối tạo dựng trung tâm dữ liệu
- Khối truy nhập và sử dụng
Các lớp được chia thành
- Lớp quản lý dữ liệu
- Lớp quản lý siêu dữ liệu
- Lớp chuyển tải dữ liệu
- Lớp kết cấu hạ tầng
Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển khai các hệ thống
DWH trên thực tế. Tuỳ nhu cầu và khả năng tài chính, chúng ta có thể xuất phát từ việc xây
dựng các trung tâm dữ liệu (Data mart) trước để có thể khai thác ngay số liệu theo từng chủ
đề. Một cách xây dựng khác là tổ chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Data
mart. Mỗi phương án đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ điều kiện
cụ thể, chúng ta có thể chọn giải pháp triển khai thích hợp.
- 22 –


Ngoài ra, các DWH trên từng lĩnh vực khác nhau cũng có nhiều đặc điểm riêng do mỗi lĩnh
vực có đặc thù dữ liệu riêng.




















Hình 2.1. Kiến trúc tham chiếu các thành phần nhà kho dữ liệu [3]

Khối các nguồn dữ liệu:
- Có nhiệm vụ quản lý các nguồn dữ liệu bên trong cũng như bên ngoài tổ chức được
xác định là đầu vào cho nhà kho dữ liệu
- Các nguồn dữ liệu có thể là các CSDL từ các hệ thống tác nghiệp, các tệp dữ liệu phi
cấu trúc, dữ liệu trên web,
- Quản lý thông tin về các nguồn (siêu dữ liệu)

Khối tạo dựng kho dữ liệu:
- Có chức năng
o lấy dữ liệu được chỉ ra từ Khối các nguồn dữ liệu
o Xử lý dữ liệu như loại bỏ dữ liệu sai, thống nhất đối tượng, chuẩn hóa thuật
ngữ,… để tạo ra dữ liệu có chất lượng.
Khối tạo dựng trung tâm dữ liệu theo chủ đề:
- Cũng có chức năng như Khối tạo dựng Kho dữ liệu nhưng được hướng vào một chủ đề
đã được chỉ định sẵn
Lớp quản lý dữ liệu
Khối
các
nguồn
dữ liệu
Khối
tạo
dựng
kho dữ
liệu
Khối
tạo
dựng
Trung
tâm dữ
liệu
theo chủ
đề
Khối
truy cập
và sử
dụng

Lớp quản lý siêu dữ liệu
Lớp chuyển tải dữ liệu
Lớp kết cấu hạ tầng

×