Tải bản đầy đủ (.doc) (32 trang)

Tiểu luận môn hệ hỗ trợ quyết định VAI TRÒ OLAP & HỖ TRỢ RA QUYẾT ĐỊNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 32 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH MÔN
HỆ HỖ TRỢ QUYẾT ĐỊNH
ĐỀ TÀI
VAI TRÒ OLAP & HỖ TRỢ RA QUYẾT
ĐỊNH
GVHD: PGS.TS. Đỗ Phúc
SVTH: Nguyễn Hải Yến
MSSV: CH1301074
TP. Hồ Chí Minh, ngày 20 tháng 06 năm 2014
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
LỜI NÓI ĐẦU
Cùng với việc áp dụng công nghệ thông tin vào hầu hết các lĩnh vực trong
đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày càng
nhiều. Vì vậy yêu cầu cần thiết đặt ra với các doanh nghiệp là việc tổ chức và
khai thác các dữ liệu này một cách hiệu quả để phục vụ cho những quyết định
kinh doanh ngày càng tốt hơn.
Xuất phát từ lý do trên nên bài thu hoạch của em sẽ tìm hiểu về “ vai trò
của OLAP và hỗ trợ ra quyết định ” nhằm tìm hiểu về kho dữ liệu và công nghệ
OLAP sử dụng để khai thác trên các kho dữ liệu, hướng tới xây dựng các hệ
thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ
liệu phục vụ cho công tác quản lý, hỗ trợ ra quyết định.
Em xin cảm ơn Thầy PGS.TS. Đỗ Phúc đã tận tình truyền đạt kiến thức và
có những định hướng giúp em hoàn thành bài thu hoạch.
Mặc dù đã rất cố gắng nhưng bài thu hoạch của em khó tránh khỏi thiếu
sót, sai lầm em mong Thầy và các bạn góp ý nhận xét để đề tài hoàn thiện hơn.
SVTH : CH1301074 – Nguyễn Hải Yến 2
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
MỤC LỤC



MỤC LỤC 3
Chương 1 4
KHO DỮ LIỆU CỦA HỆ HỖ TRỢ RA QUYẾT ĐỊNH 4
Chương 2: 14
KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) TRONG HỖ
TRỢ RA QUYẾT ĐỊNH 14
2.6.Tiến trình trợ giúp quyết định dựa vào bài toán cụ thể 22
B1: Trước khi thiết kế mô hình OLAP cho bài toán, chúng ta cần xác định rõ
các vấn đề gặp phải trong các tình huống xem xét . Các tình huống nêu ra dựa
vào thực tế, từ đó đặt ra những mục tiêu cần đạt được 22
Chương 3: 24
COMPONENT PIVOT TABLE TRONG EXCEL 24
TÀI LIỆU THAM KHẢO 32
SVTH : CH1301074 – Nguyễn Hải Yến 3
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Chương 1.
KHO DỮ LIỆU CỦA HỆ HỖ TRỢ RA QUYẾT ĐỊNH
1.1. Định nghĩa kho dữ liệu (Data warehouse)
“Kho dữ liệu là tập hợp dữ liệu được tổ chức thành chủ đề, tích hợp từ
nhiều nguồn khác nhau, bất biến với thời gian và lưu trữ lâu dài nhằm hỗ trợ tiến
trình ra quyết định quản lý” theo – W-H .Inmon
“Kho dữ liệu là dữ liệu giao dịch, được cấu trúc theo dạng đặc biệt, phục vụ
truy vấn, phân tích ” theo – Ralph Kimball
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte.
Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều
kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các
công nghệ hiện đại và kế thừa được từ những hệ thống có sẵn từ trước.
Kho dữ liệu, gọi chính xác hơn là kho thông tin là một cơ sở dữ liệu hướng
đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực kinh doanh.
Nó cung cấp các công cụ để đáp ứng các thông tin cần thiết cho các nhà quản trị

kinh doanh từ những yêu cầu dữ liệu phức hợp đến những điều kiện thuận tiện để
có được thông tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử
dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ
đơn giản.
Data Warehouse
SVTH : CH1301074 – Nguyễn Hải Yến 4
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
1.2. Đặc điểm của kho dữ liệu
Kho dữ liệu có các đặc điểm sau đây:
• Tích hợp (Integrated) : dữ liệu tập hợp từ nhiều nguồn khác nhau trong một
tổ chức / công ty và được đồng nhất, sắp xếp, rút gọn. Một kho dữ liệu là
một khung nhìn tổng thể thống nhất các khung nhìn khác nhau. Ví dụ: một
hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng
thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn
khác cho thông tin về khách hàng. Một kho sẽ có một khung nhìn toàn thể
về một khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ
các hệ thống tác nghiệp khác nhau.
• Dữ liệu có tính ổn định, chất lượng, nhất quán và không biến động: dữ liệu
được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép cung
cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho
các mô hình nghiệp vụ phân tích, dự báo
SVTH : CH1301074 – Nguyễn Hải Yến 5
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
• Chuẩn hóa:
− Các quy ước tên
− Các thuộc tính
− Các đơn vị đo lường
• Hướng chủ đề (Subject –oriented) : chuyển từ hướng ứng dụng sang hướng
hỗ trợ quyết định.

− Được tổ chức xung quanh các chủ đề chính, như khách hàng
(customer), sản phẩm (product), bán hàng (sales).
− Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa
ra quyết định, mà không tập trung vào các hoạt động hay các xử lý
giao dịch hàng ngày.
− Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự
kiện của các chủ đề.
• Biến thời gian (time-variant): các dữ liệu được định nghĩa vào một thời
điểm xác định và được ghi chép lại phục vụ cho việc so sánh dữ liệu theo
chiều thời gian.
− Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn
so với các hệ thống tác nghiệp.
 Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.
 Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví
dụ như, 5-10 năm trước).
− Yếu tố thời gian được lưu trữ trong Cơ sở dữ liệu (CSDL)
SVTH : CH1301074 – Nguyễn Hải Yến 6
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
1.3. Các khái niệm trong kho dữ liệu
1.3.1. Kho dữ liệu cục bộ (Data Mart)
Kho dữ liệu cục bộ (DM) là cơ sở dữ liệu có những đặc điểm giống với kho
dữ liệu nhưng có quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên
ngành. DataMart là kho dữ liệu hướng chủ đề
Các DataMart có thể được hình thành từ một tập con dữ liệu của kho dữ
liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong các
DataMart có thể được kết nối tích hợp lại với nhau thành kho dữ liệu
DataMart được chia ra làm hai loại
− DataMart phụ thuộc (Dependent Data Mart) : chứa những dữ liệu
lấy từ DataWarehouse, những dữ liệu này được trích lọc, tinh chế,
tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định.

− DataMart độc lập (Independent Data Mart): được xây dựng trước
Data Warehouse, dữ liệu được lấy trực tiếp từ các nguồn khác nhau.
1.3.2. Siêu dữ liệu (Metadata )
Siêu dữ liệu dùng để mô tả tài nguyên thông tin, Thuật ngữ “meta” xuất xứ
từ một từ hy lạp dùng để chỉ một cái gì đó có bản chất cơ bản hơn, cao hơn. Vì vậy
Metadata là dữ liệu của dữ liệu, tức là thông tin mô tả nội dung của cơ sở dữ liệu.
Metadata báo cho người dùng biết thời gian cập nhật sau cùng của dữ liệu,
định dạng và mục đích sử dụng của nó. Những thông tin này có thể hướng dẫn
người dùng duyệt qua cơ sở dữ liệu và giúp họ hiểu được ý nghĩa và ngữ cảnh của
các dữ liệu tài chính, các bản ghi về khách hàng và các giao dịch kinh doanh.
Metadata cung cấp cho người sử dụng sự truy nhập tương tác để giúp cho
họ có thể hiểu được nội dung và tìm thấy được dữ liệu cần thiết. Trong thực tế khả
năng trích lọc dữ liệu và metadata còn thô . Do đó cần tạo ra giao diện dùng
megadata cho người sử dụng.
Tất cả các thành phần của Datawarehouse đều tacó thể lấy dữ liệu từ
megadata. Megadata được lưu trữ ở trung tâm Datawarehouse
1.3.3. Kho dữ liệu tác nghiệp (Operational Data Store - ODS)
SVTH : CH1301074 – Nguyễn Hải Yến 7
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Kho dữ liệu tác nghiệp là hệ thống tác nghiệp tích hợp căn bản dùng cho
công việc trợ giúp quyết định và phân tích trên dữ liệu giao dịch tác nghiệp. Nói
cách khác ODS là một khái niệm có cấu trúc để hỗ trợ cho việc tạo quyết định tác
nghiệp hàng ngày, lưu trữ những dữ liệu có giá trị hiện thời được chuyển đến từ
các ứng dụng tác nghiệp. ODS cần được xây dựng riêng biệt và là một phần của
Dataware house
Sự phân cách của ODS và DW
ODS lưu trữ dữ liệu thuần nhất và có giá trị hiện thời còn Dataware house
có thể chứa rất nhiều dữ liệu không thuần nhất ở nhiều mức độ khác nhau.
Sự phong phú về loại dữ liệu trong DW
1.4. Mục đích của kho dữ liệu

Mục tiêu chính của kho dữ liệu là :
− Phải có khả năng đáp ứng mọi thông tin yêu cầu của người dùng.
− Hỗ trợ nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của họ.
− Giúp các tổ chức xác định, quản lý điều hành các dự án, nghiệp vụ một
cách hiệu quả và chính xác.
− Tích hợp dữ liệu và siêu dữ liệu từ nhiều nguồn khác nhau.
SVTH : CH1301074 – Nguyễn Hải Yến 8
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Muốn đạt được những mục đích trên thì kho dữ liệu phải:
− Nâng cao chất lượng dữ liệu bằng cách làm sạch và hướng chủ đề nhất
định.
− Tổng hợp và kết nối dữ liệu.
− Đồng bộ hóa các nguồn dữ liệu.
− Phân định và đồng nhất các hệ cơ sở dữ liệu tác nghiệp.
− Quản lý siêu dữ liệu.
− Cung cấp thông tin được tích hợp, tóm tắt hoặc được liệt kê, tổ chức theo
các chủ đề.
− Dùng trong các hệ thống hỗ trợ ra quyết định.
1.5. Lợi ích của kho dữ liệu
Kho dữ liệu tạo ra những quyết định có ảnh hưởng lớn. Kho dữ liệu cho
phép rút trích tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu
truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất  tạo ra sự
tiết kiệm đáng kể.
Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do
phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, là nơi cung cấp dữ liệu được
sắp xếp từ mức độ chi tiết đến mức độ tổng quát của công việc kinh doanh 
Công việc kinh doanh trở nên thông minh hơn.
Doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do mối
tương quan với dữ liệu của tất cả các khách hàng qua một kho dữ liệu riêng 
Dịch vụ khách hàng được nâng cao.

Khi xác định chính xác các nhu cầu từ kho dữ liệu giúp ta đánh giá được
những hạn chế và mục tiêu kinh doanh một cách chính xác.Sự phân tích không
ngừng thông tin kinh doanh  nảy sinh các ý kiến cho sự sáng tạo
1.6. Cấu trúc của kho dữ liệu
Bao gồm ba tầng :
• Tầng đáy: Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn khác sau đó
chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập tung
SVTH : CH1301074 – Nguyễn Hải Yến 9
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
• Tầng giữa: cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu
gọi là dịch vụ OLAP (OLAP server). Có thể cài đặt bằng Relational OLAP,
Multidimensional OLAP hay kết hợp cả hai mô hình trên Hybrid OLAP
• Tầng trên cùng: nơi chứa các câu truy vấn, báo cáo, phân tích
Mô hình Datawarehouse 3 lớp
1.7. Các Phương pháp lưu trữ dữ liệu
1.7.1. MOLAP (Multidimensional OLAP)
Dữ liệu cơ bản của khối được lưu trữ cùng với dữ liệu kết hợp trong cấu
trúc đa chiều. Cách tiếp cận này kết hợp kho dữ liệu đa chiều và các dịch vụ của
OLAP trên cùng một server. MOLAP là cấu trúc tối ưu cho việc lưu trữ các sự
kiện đã phân loại. MOLAP là sự lựa chọn tốt nhất cho những ứng dụng có đặc
điểm :
SVTH : CH1301074 – Nguyễn Hải Yến 10
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
• Yêu cầu tốc độ truy vấn cao
• Có khả năng phân tích dữ liệu tích hợp
• Dễ sử dụng : bởi dữ liệu đã được tổng hợp từ trước và được lưu trữ trong
kho dữ liệu đa chiều
1.7.2. ROLAP (Relational OLAP)
Dữ liệu cơ bản của khối được lưu trữ cùng với dữ liệu kết hợp trong cơ sở
dữ liệu quan hệ. Cách tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ

liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệvà có kích thước
hàng trăn Gigabyte . Hệ ROLAP có khả năng truy vấn cực kỳ linh động do “chuẩn
bị sẵn sàng ” tất cả dữ liệu tác nghiệp cho người sử dụng, dễ dàng trích và tổng
hợp dữ liệu theo yêu cầu. ROLAP là sự lựa chọn cho kho dữ liệu có những đặc
điểm sau :
• Dữ liệu thường xuyên thay đổi : trong một kho dữ liệu hay biến động và
người sử dụng lại đòi hỏi những tổng hợp gần như tức thời. MOLAP phải
trích lấy thông tin dữ liệu ngoại tuyến và hầu hết các cơ sở dữ liệu đa chiều
đều yêu cầu tính toán lại toàn bộ cơ sở dữ liệu  MOLAP không thích hợp
• Khối lượng dữ liệu lớn
• Các dạng truy vấn không được biết trước: ROLAP cho phép truy vấn và
tổng hợp từ bất kỳ nguồn dữ liệu tác nghiệp nào , tuy nhiên điều này lại dẫn
đến sự phức tạp khi sử dụng trong việc ánh xạ tới các nguồn dữ liệu tác
nghiệp
1.7.3. HOLAP (Hybrid OLAP)
HOLAP là kết hợp hai phương pháp MOLAP và ROLAP. Dữ liệu cơ bản
của khối được lưu trữ trong cơ sở dữ liệu quan hệ và dữ liệu kết hợp, được lưu trữ
trong cấu trúc đa chiều hiệu suất cao.
1.7.4. So sánh các mô hình
MOLAP ROLAP HOLAP
Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ
Lưu trữ thông tin tổng hợp Khối Bảng quan hệ Khối
Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh
SVTH : CH1301074 – Nguyễn Hải Yến 11
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Tiêu thụ không gian lưu trữ Nhiều Thấp Trung bình
Chi phí bảo trì Cao Thấp Trung bình
1.8. Các mô hình thực thể trong kho dữ liệu
Mô hình thực thể mối quan hệ được sử dụng phổ biến trong mô hình cơ sở
dữ liệu OLTP (Online Transaction Processing). Tuy nhiên mô hình cơ sở dữ liệu

ER (Entity- Relationship) không thích hợp cho việc thiết kế kho dữ liệu vì phải
truy vấn đến quá nhiều bảng khác nhau. Hầu hết các kho dữ liệu sử dụng mô hình
sao (Star Schema) .
• Mô hình sao chỉ gồm duy nhất một bảng sự kiện và một bảng chiều. Trong
bảng sự kiện sẽ có trường khóa ngoài liên kết với khóa chính của các bảng
chiều.Mô hình sao không hỗ trợ tốt cho các bảng chứa các thuộc tính phân cấp.
Ví dụ về mô hình sao
• Mô hình bông tuyết (Snow Flake Schema) : mô hình này giải quyết được vấn
đề khi bảng có các thuộc tính phân cấp. Điều này giúp cho việc bảo trì các
bảng chiều tốt hơn. Mô hình bông tuyết là một mở rộng của sơ đồ hình sao
trong đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều
nhỏ hơn, hình thức tương tự như bông tuyết.
Ví dụ về mô hình bông tuyết
SVTH : CH1301074 – Nguyễn Hải Yến 12
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
• Mô hình chòm sao (fact Constellation)Các ứng dụng phức tạp có thể cần nhiều
bảng sự kiện, các bảng sự kiện này dùng chung các bảng chiều. Loại lược đồ
này có thể được xem xét như là một tập các ngôi sao và vì vậy được gọi là lược
đồ chòm sao.
Ví dụ về mô hình chòm sao
SVTH : CH1301074 – Nguyễn Hải Yến 13
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Chương 2:
KỸ THUẬT PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN
(OLAP) TRONG HỖ TRỢ RA QUYẾT ĐỊNH
2.1. Giới thiệu
OLAP (Online Analytical Processing)
− OLAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối
(cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu.
Tạo khối (cube ) cho dữ liệu trong các bảng chiều (dimension table) và bảng sự

kiện (fact table) trong kho dữ liệu và cung cấp các khả năng thực hiện các truy
vấn tinh vi, phân tích các ứng dụng client
− Kho dữ liệu và DataMart lưu trữ dữ liệu cho phân tích, còn OLAP là kỹ thuật
cho phép các ứng dụng client truy xuất hiệu quả những ứng dụng này. OLAP
cung cấp nhiều lợi ích cho người phân tích:
o Cung cấp mô hình dữ liệu đa chiều trực quan, cho phép dễ dàng
chọn lựa, định hướng và khám phá dữ liệu
o Cung cấp ngôn ngữ truy vấn phân tích để khám phá các mối quan hệ
trong dữ liệu kinh doanh phức tạp
o Dữ liệu được tính toán trước đối với các truy vấn thường xuyên làm
cho thời gian trả lời rất nhanh.
o Cung cấp các công cụ mạnh giúp người dùng tạo ra các khung nhìn
mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.
− OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP (sử lý giao dịch trực
tuyến) sẽ không cho kết quả hoặc sẽ làm mất rất nhiều thời gian
SVTH : CH1301074 – Nguyễn Hải Yến 14
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
2.2. Đặc điểm của OLAP
− OLAP được biết đến là một phần của kho dữ liệu.
− Cung cấp các báo cáo, các tiền tính toán, các đồ thị, biểu đồ.
− Cho phép phân tích trực tuyến dữ liệu.
− Thăm dò sự tương tác dữ liệu.
− Cung cấp các giao diện đa dạng cho người dùng.
− Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương pháp đơn gỉan.
2.3. Mô hình dữ liệu đa chiều
Khuynh hướng suy nghĩ của người quản lý kinh doanh: “nhiều chiều”
(multidimensionally). Ví dụ, khuynh hướng mô tả những gì mà công ty làm:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng
tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.

Người thiết kế Datawarehouse (DWH) thường lắng nghe cẩn thận và thêm vào
các nhấn mạnh đặc biệt:
“Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và chúng
tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
SVTH : CH1301074 – Nguyễn Hải Yến 15
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Minh họa khối dữ liệu đa chiều
Kho dữ liệu và công cụ OLAP đều dựa trên mô hình dữ liệu đa chiều. Mô
hình này xem xét dữ liệu dưới dạng một khối dữ liệu (data cube).
2.3.1. Từ các bảng và các bảng tính thành các khối dữ liệu:
Khối dữ liệu là gì? Một khối dữ liệu cho phép dữ liệu có thể được mô hình
hóa và được xem xét theo nhiều chiều. Khối dữ liệu được định nghĩa theo các
chiều (dimension) và các sự kiện (fact).
Nhìn chung, các chiều là các thực thể mà một tổ chức muốn giữ các bảng
ghi về các thực thể này . Mỗi chiều có thể có một bảng kết hợp với nó, gọi là bảng
chiều (dimension table). Bảng chiều sẽ chứa các thông tin sâu hơn về chiều. Ví dụ
các bảng chiều TIME(time_key, day, day_of_week,month, quarter, year) ;
BRANCH (branch_key, branch_name, branch_type)
ITEM (item_key, item_name, branch, type, supplier_key),…

Bảng sự kiện (fact table) chứa tên các sự kiện, hay các độ đo (measure),
đồng thời chứa các khóa của các bảng chiều liên quan. Chúng ta sẽ mường tượng
rõ ràng hơn khi nhìn vào giản đồ đa chiều.
SVTH : CH1301074 – Nguyễn Hải Yến 16
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Chúng ta thường nghĩ khối là cấu trúc hình học 3-D. Tuy nhiên, trong tạo
kho dữ liệu, khối dữ liệu (data cube) có n – chiều.
Một kho dữ liệu dựa trên một mô hình dữ liệu đa chiều với khung nhìn dữ
liệu dưới dạng các khối dữ liệu. Một khối dữ liệu, như sales, cho phép dữ liệu
được mô hình hóa và được nhìn theo đa chiều

Theo cách nói của kho dữ liệu, một khối cơ sở n-D được gọi là một cuboid
cơ sở. Cao nhất là 0-D cuboid chứa tóm tắt ở mức cao nhất (được gọi là cuboid
đỉnh). Dàn các cuboid tạo thành một khối dữ liệu.
Minh họa dàn các cuboid
2.3.2. Các mô hình dữ liệu đa chiều
• Mô hình sao
• Mô hình bông tuyết
• Mô hình chòm sao
[đã trình bày ở mục 1.7]
2.3.3. Khái niệm phân cấp
Hệ đẳng cấp khái niệm (concept hierarchy) là một chuỗi các ánh xạ từ tập
các khái niệm mức thấp đến các khái niệm ở mức cao hơn, tổng quát hơn.
Ví dụ :
SVTH : CH1301074 – Nguyễn Hải Yến 17
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Minh họa hệ thống phân cấp theo chiều location
Chiều location ở ví dụ trên : Office < city < country < region < all
Ta thấy Vancouver được ánh xạ từ Canada, Frankfurt được ánh xạ từ Germany…
Các thành phố (khái niệm mức thấp) được ánh xạ đến quốc gia (mức cao hơn) mà
nó thuộc về. Tương tự như vậy, các quốc gia (Germany, Spain) được ánh xạ đến
khu vực mà chúng thuộc về (Europe)…
Có nhiều hệ thống phân cấp bên trong lược đồ cơ sở dữ liệu
Ví dụ: hệ thống phân cấp theo hai chiều Location và time
Các thuộc tính trong hệ thống phân cấp theo chiều location có quan hệ thứ tự tòan
phần. Và các thuộc tính trong hệ thống phân cấp theo chiều time có quan hệ thứ tự
cục bộ.
Hệ thống phân cấp có 4 dạng chính:
• Schema hierarchies: dựa vào thứ tự toàn phần hay cục bộ giữa các thuộc
tính trong lược đồ cơ sở dữ liệu.
• Set-grouping hierarchies: hệ thống được định nghĩa bằng cách phân ra hay

nhóm lại các giá trị trên một chiều hay một thuộc tính nhất định
SVTH : CH1301074 – Nguyễn Hải Yến 18
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Minh họa phân cấp theo chiều Price
với các khoảng giá trị ở mức cao định nghĩa bằng cách nhóm lại phạm vi
của tất cả các khoảng giá trị ở mức con của nó. Và ngược lại, các khoảng
giá trị ở mức dưới được tạo ra bằng cách chia phạm vi của khoảng giá trị
mức trên ra.
• Operation-derived hierarchies: dựa vào các thao tác đã được qui định bởi
các chuyên gia hay hệ thống khai thác dữ liệu
Ví dụ: login-name < department < university < field
email address:
Ta thấy: username < cse < uta < edu
• Rule-based hierarchies: tòan hệ thống hay một phần của nó được định
nghĩa bởi một tập luật
Ví dụ: low_profit_margin (X) <= price(X, P1) and cost (X, P2) and
(P1 - P2) < $50
Các giá trị trong hệ thống được phân cấp theo thuộc tính lợi nhuận
dựa vào luật: “lợi nhuận thấp khi giá bán – giá mua < 50$”
2.4. Các thành phần của OLAP
2.4.1. Khối dữ liệu: (Cube) là đối tượng chính của OLAP. Khối là
một sự biểu diễn đa chiều của dữ liệu chi tiết và tổng thể.
2.4.2. Chiều (Dimention): chiều là cách mô tả chủng loại, theo đó
các dữ liệu số trong khối được phân bố để phân tích
SVTH : CH1301074 – Nguyễn Hải Yến 19
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
2.4.3. Đơn vị đo(Measures): đơn vị đo của khối là cột trong bảng
Fact. Các đơn vị đo xác định những giá trị số từ bảng Fact, được tổng hợp,
phân tích như định giá, trị giá, số lượng bán.
Các phân hoạch (Partitions): tất cả các khối đều có tối thiểu một phân

hoạch để chứa dữ liệu của nó. Một phân hoạch đơn được tự động tạo ra khi
khối được định nghĩa. Khi ta tạo một phân hoạch mới cho một khối, phân
hoạch mới này được thêm vào trong tập hợp các phân hoạch đã tồn tại đối
với khối
Các thành phần của OLAP
2.5. Hỗ trợ quyết định trên cơ sở kho dữ liệu và OLAP
2.5.1. Tiếp cận kho dữ liệu và OLAP
Kho dữ liệu và OLAP có thể được xem như là các thành phần của hoạt
động xử lý thông tin hướng quyết định dựa trên phân tích. Trong đó kho dữ liệu
đóng vai trò cung cấp dữ liệu và OLAP đóng vai trò phân tích, khai thác dữ liệu
này.
Sau đây là sơ đồ kho dữ liệu và hệ thống OLAP
− Đầu tiên dữ liệu từ các nguồn từ xa khác nhau (từ các hệ thống sử lý tác vụ)
được nạp vào
SVTH : CH1301074 – Nguyễn Hải Yến 20
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
− Dữ liệu được đổi sang dạng chung, được làm sạch, được dịch chuyển thành
những kết quả gộp có ích cho việc phân tích
− Dữ liệu được đặt vào kho, được đánh chỉ mục để nhanh chóng truy xuất.
− Hệ thống sử lý OLAP để trả lời các truy vấn, khám phá dữ liệu và hướng
tới ra quyết định
− Hệ thống OLAP cần có giao diện gíup người sử dụng dễ dành nhìn thấy dữ
liệu dạng số (bảng), biểu diễn đồ họa (biểu đồ). Người sử dụng có thể
khoan sâu xuống trên màn hình để xem chi tiết hơn
2.5.2. Hỗ trợ quyết định trên cơ sở kho dữ liệu và OLAP
Hỗ trợ quyết định hướng theo dữ liệu nhằm vào việc tổ chức hiệu quả kho
dữ liệu và sử dụng OLAP để cung cấp tối đa các thông tin theo xu hướng quyết
định cho người sử dụng, hỗ trợ đưa ra những quyết định phù hợp một cách dễ
dàng và nhanh chóng.
SVTH : CH1301074 – Nguyễn Hải Yến 21

Các nguồn dữ liệu từ xa (Remote Data)
Nạp, đổi dạng, làm sạch, chuyển dịch dữ liệu
( Load, Convert, Scrubber, Transform)
Kho dữ liệu
Hệ thống sử lý OLAP (OLAP Processing)
Giao diện OLAP (OLAP Interface)
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Hệ thống OLAP cho chúng ta khám phá dữ liệu để hướng đến việc ra quyết
định. Nó cho phép chúng ta xem và truy xuất dữ liệu từ nhiều khía cạnh. Nhưng
quan trọng hơn là hệ thống cho chúng ta những lối vào bên trong dữ liệu để tìm
hiểu dựa trên những đặc tính của dữ liệu. Hệ thống cho phép ta khoan sâu vào
trong dữ liệu để truy xuất được những thông tin chi tiết . Một điểm quan trọng nữa
là OLAP thường nhanh và dễ sử dụng
Hệ thống OLAP rất khác so với hệ quản trị cơ sở dữ liệu truyền thống:
không chỉ dừng lại ở việc truy vấn tĩnh, người sử dụng có thể điều chỉnh việc tìm
kiếm dữ liệu cho phù hợp với nhu cầu của họ. OLAP cung cấp cho người sử dụng
tiến sâu vào dữ liệu( cắt lát, khoan xuống)làm cho người sử dụng hiểu sâu về dữ
liệu để từ đó có thể ra quyết định phù hợp một cách nhanh chóng.
Với mục đích nhằm hiểu được các loại dữ liệu để sử dụng và tổ chức
chúng, chúng ta cần làm việc với những nhà ra quyết định. Họ sẽ cho chúng ta biết
họ sẽ sử dụng các dữ liệu như thế nào và những câu hỏi nào họ mong muốn được
trả lời. Từ đó ta sẽ thấy được dữ liệu nào đang sẵn có và dữ liệu nào cần được thu
thập để phục vụ tốt cho việc tạo ra những quyết định hiệu quả
Như vậy trợ giúp quyết định theo hướng dữ liệu trên cơ sở kho dữ liệu &
OLAP nhằm vào việc tổ chức hiệu quả kho dữ liệu và sử dụng giải pháp OLAP để
khai thác tối đa các thông tin cho người sử dụng, trợ giúp cho họ đưa ra được
những quyết định phù hợp một cách dễ dàng và nhanh chóng nhất.
2.6. Tiến trình trợ giúp quyết định dựa vào bài toán cụ thể
B1: Trước khi thiết kế mô hình OLAP cho bài toán, chúng ta cần xác định
rõ các vấn đề gặp phải trong các tình huống xem xét . Các tình huống nêu ra dựa

vào thực tế, từ đó đặt ra những mục tiêu cần đạt được
B2: Xây dựng mô hình OLAP cho bài toán : đó là quá trình xác định khối
dữ liệu định tổ chức, định nghĩa cấu trúc các chiều, định nghĩa các công thức , luật
cần cho tính toán. Giải quyết các câu hỏi đặt ra : phân cấp chiều như vậy đã phù
hợp và đầy đủ chưa, hợp lý không ? Tất cả các vấn đề này phụ thuộc vào việc cân
nhắc hiệu quả sử lý của các bài toán cụ thể  Khó tạo lập được một chuẩn mực,
SVTH : CH1301074 – Nguyễn Hải Yến 22
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
phương pháp xây dựng mô hình OLAP cho tất cả các bài toán thay đổi tùy
thuộc vào môi trường triển khai và kinh nghiệm
B3: Trên mô hình OLAP đã thiết lập người khai thác hệ thống điều chỉnh
việc tìm kiếm thông tin, đặt ra những yêu cầu truy vấn , thực hiện rồi nhận xét kết
quả nhằm tìm hiểu rõ nội dung của dữ liệu nguồn  đưa ra quyết định cần thiết.
Việc trợ giúp quyết định ở đây là cung cấp nhiều nhất các thông tin phong phú, đa
dạng trên nhiều khía cạnh ở các mức khác nhau giúp người sử dụng hiểu rõ và
chính họ sẽ đưa ra những quyết định phù hợp

SVTH : CH1301074 – Nguyễn Hải Yến 23
XÁC ĐỊNH YÊU CẦU BÀI TOÁN
1.1.Xác định các vấn đề gặp phải
1.2. Xác định các mục tiêu cần đạt
2. XÂY DỰNG MÔ HÌNH OLAP CHO BT
2.1. Xác định các khối dữ liệu cơ sở
2.2. Định nghĩa cấu trúc các chiều
2.3. Định nghĩa các công thức / Luật
cần thiết cho tính toán
3. PHÂN TÍCH DỮ LIỆU RA QUYẾT ĐỊNH
3.1.Chỉ định yêu cầu truy vấn
3.2. Nhận xét kết quả truy vấn
3.3. Ra quyết định

Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
Chương 3:
COMPONENT PIVOT TABLE TRONG EXCEL
3.1. Pivot Table
3.1.1. Giới thiệu
Pivot table là một công cụ rất mạnh của Excel trong việc tạo ra các báo cáo phân
tích dữ liệu. Dùng kết hợp hai công cụ Pivot table và Pivot Chart sẽ tạo ra các báo
cáo phân tích số liệu sinh động và hiệu quả
3.1.2. Cách sử dụng
Xét bài toán: Cho bảng thống kê doanh thu của 3 cửa hàng (Store) bán dụng cụ thể
thao đại diện cho 03 miền (region) trong một tuần (từ ngày 06 – 12/ 06/2005), cột
D là số khách hàng của từng loại dụng cụ thể thao, cột E là tổng doanh thu và các
cột còn lại là doanh thu, chi tiết của từng mặt hàng
Một số câu hỏi cần được trả lời dựa vào bảng tính :
1. Doanh thu của dụng cụ cắm trại (camping) tại mỗi miền ?
2. Tại mỗi cửa hàng, ngày nào trong tuần đông khách nhất?
3. Tại mỗi cửa hàng, cửa hàng nào bán được nhiều nhất?
4. Ngày nào trong tuần bán ế nhất ?
SVTH : CH1301074 – Nguyễn Hải Yến 24
Bài thu hoạch Vai trò của OLAP và hỗ trợ ra quyết định
− Tạo một Pivot table
B1: Chọn môt ô (bất kỳ ô nào) nằm ở trong vùng chứa dữ liệu mà bạn muốn
tạo PivotTable. Rồi nhấn nút PivotTable nằm trong nhóm Insert của thanh
Ribbon:
B2: Excel sẽ hiển thị hộp thoại Create PivotTable như hình sau đây:
SVTH : CH1301074 – Nguyễn Hải Yến 25

×