Tải bản đầy đủ (.doc) (17 trang)

Tìm hiểu về OLAP

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (923.66 KB, 17 trang )

Chuyên đề
Agent
Tìm hiểu về OLAP
[Type the abstract of the document here. The abstract is typically a short
summary of the contents of the document. Type the abstract of the document
here. The abstract is typically a short summary of the contents of the
document.]
4/1/2010
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN 1
CHUYÊN ĐỀ
Tìm hiểu về OLAP
Nguyễn Thị Hương Thảo Page 2
Hà Nội 18/04/2011
Mục lục
3.Mô hình dữ liệu đa chiều là gì? 4
I. Tìm hiều OLAP
1. Giới thiệu OLAP
OLAP là từ tiếng anh viết tắt của Online Analytical Processing. OLAP
là một kĩ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối (cube)
nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối
(cube) cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact
table) trong kho dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và
phân tích cho các ứng dụng client.
Trong khi kho dữ liệu và data mart lưu trữ dữ liệu cho phân tích thì
OLAP là kĩ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này.
OLAP cung cấp nhiều lợi ích cho người phân tích, như ví dụ:
- Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa
chọn, định hướng và khám phá dữ liệu.
- Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để
khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp


- Dữ liệu được tính toán trước đối với các truy vấn thường xuyên
nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
- Cung cấp các cung cụ mạnh giúp người dung tạo các khung nhìn
mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu
rất lướn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP
sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.
2. Lợi ích của OLAP
- Thành công của ứng dụng OLAP gia tăng năng suất của các nhà quản lý
kinh doanh, phát triển, và toàn bộ tổ chức. Sự linh hoạt vốn có của hệ thống
OLAP cónghĩa là người dùng doanh nghiệp của các ứng dụng OLAP có thể trở
thành tự cung tự cấp. Quản lý không còn phụ thuộc vào CNTT để làm cho lược
đồ thay đổi, để tạo ra tham gia, hoặc tồi tệ hơn. Có lẽ quan trọng hơn, OLAP
Nguyễn Thị Hương Thảo Page 3
cho phép quản lý các vấn đề về mô hình mà có thể không thể sử dụng ít hệ
thống linh hoạt với thời gian trả lời dài dòng và không phù hợp. Kiểm soát
nhiều hơn và tiếp cận kịp thời với thông tin chiến lược hiệu quả hơn bằng việc
ra quyết định.
- CNTT phát triển cũng được hưởng lợi từ việc sử dụng phần mềm OLAP
phải. Mặc dù nó có thể xây dựng một hệ thống OLAP sử dụng phần mềm được
thiết kế để xử lý giao dịch, thu thập dữ liệu, nó là chắc chắn không phải là một
sử dụng rất hiệu quả về thời gian phát triển. Bằng cách sử dụng phần mềm thiết
kế đặc biệt cho OLAP, phát triển có thể cung cấp các ứng dụng cho người dùng
doanh nghiệp nhanh hơn, cung cấp dịch vụ tốt hơn. Giao hàng nhanh hơn các
ứng dụng cũng làm giảm công việc tồn đọng các ứng dụng.
- OLAP làm giảm công việc tồn đọng các ứng dụng vẫn tiếp tục bằng
cách làm cho người dùng doanh nghiệp tự cung tự cấp, đủ để xây dựng mô
hình riêng của họ. Tuy nhiên, không giống như các ứng dụng độc lập chạy trên
mạng của bộ máy tính, OLAP các ứng dụng phụ thuộc vào kho dữ liệu và hệ
thống xử lý giao dịch để làm mới nguồn cấp dữ liệu của họ. Kết quả là, lợi ích

người sử dụng CNTT tự cung tự cấp mà không từ bỏ quyền kiểm soát sự toàn
vẹn của dữ liệu.
- CNTT cũng nhận ra hoạt động hiệu quả hơn thông qua OLAP. Bằng
cách sử dụng phần mềm thiết kế cho OLAP, IT làm giảm lực cản truy vấn và
lưu lượng mạng trên các hệ thống giao dịch, kho dữ liệu.
- Cuối cùng, bằng cách cung cấp khả năng mô hình các vấn đề kinh
doanh thực tế và sử dụng hiệu quả hơn các nguồn lực con người, OLAP cho
phép các tổ chức như một toàn thể để đáp ứng nhanh hơn nhu cầu thị trường.
Thị trường phản ứng, lần lượt, thường xuyên cải tiến năng suất doanh thu và lợi
nhuận.
3. Mô hình dữ liệu đa chiều là gì?
Các nhà quản lý kinh doanh có khuynh hường suy nghĩ theo “ nhiều
chiều” (multimensionally). Ví dụ như họ có khuynh hướng mô tả những gì mà
công ty làm như sau:
- Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác
nhau, và chúng tôi đánh giá hiệu quản thực hiện của chúng tôi qua
thời gian
Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ
đó và họ thêm vào những nhấn mạnh đặc biệt của họ như:
- Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác
nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua
thời gian.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối (cube) dữ
liệu, với các nhãn trên mỗi cạnh của khối là một trường trong kinh doanh. Các
điểm bên trong khối là các giao điểm của các cạnh. Với mô tả kinh doanh ở
Nguyễn Thị Hương Thảo Page 4
trên, các cạnh của khối là Sản phẩm, Thị trường, thời gian. Hầu hết mọi người
đề có thể nhanh chóng hiểu và tưởng tượng rằng các điểm bên trong khối là các
độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị
trường, Thời gian.

T h ò t r ö ô øn g
T h ô øi g i a n
S a ûn p h a åm
Mô hình các trường trong kinh doanh
Một khối dữ liệu (datacube) thì không nhất thiết phải có cấu trúc 3
chiều, nhưng về cơ bản là có thể có N chiều. Những cạnh của khối được gọi là
các chiều (dimensions), mà đó là các mặt hoặc các thực thể ứng với những
khía cạnh mà tổ chức muốn ghi nhận. Mỗi chiều có thể kết hợp với một bảng
chiều nhằm mô tả cho chiều đó. Ví dụ, một bảng chiều của Sản phẩm có thể
chứa những thuộc tính như MaSanPham, MoTa, TenSanPham, LoaiSP,… mà
có thể được chỉ ra bởi nhà quản trị hoặc các nhà phân tích dữ liệu. Với những
chiều không được phân loại, như là Thời gian, hệ thống kho dữ liệu sẽ có thể tự
động phát sinh tương ứng với bảng chiều dựa trên loại dữ liệu. Cần nói thêm
rằng, chiều Thời gian trên thực tế có ý nghĩa đặc biệt với việc hỗ trợ quyết định
cho các khuynh hướng phân tích. Thường thì nó được mong muốn có một vài
trí thức gắn liền với lịch và những mặt khác của thời gian.
Hơn nữa, một khối dữ liệu trong kho dữ liệu phần lớn được xây dựng để
đo hiệu quả của công ty. Do đó một mô hình dữ liệu đa chiều đặc thù được tổ
chức xung quanh một chủ đề để mà được thực hiện bởi một bảng sự kiện (fact
table) của nhiều độ đo số học ( là các đối tượng của tích phân). Ví dụ, một bảng
sự kiện có thể chứa số mặt hàng bán, thu nhập, tồn kho, ngân sách,… Mỗi độ
đo số học phụ thuộc vào một tập cá chiều cung cấp ngữ cảnh cho độ đo đó. Vì
thế, các chiều kết hợp với nhau được xem như xác định duy nhất độ đo, là một
giá trị trong không gian đa chiều. Ví dụ như một kết hợp của Sản phẩm, Thời
gian, Thị trường vào một thời điểm là một độ đo duy nhất so với các kết hợp
khác.
Các chiều được phân cấp theo loại. Ví dụ như chiều Thời gian có thể
được mô tả bới các thuộc tính như Năm, Quý, Tháng và Ngày. Mặt khác, các
thuộc tính của một chiều có thể được tổ chức vào một lưới mà chỉ ra một phần
trật tự của chiều. Vì thế, cũng với chiều Thời gian có thể được tổ chức thành

Năm, Quý, Tháng, Tuần, và Ngày. Với sự sắp xếp này, chiều Thời gian không
Nguyễn Thị Hương Thảo Page 5
còn phân cấp vì có những tuần trong năm có thể thuộc về nhiều tháng khác
nhau.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được
xem từ nhiều khung nhìn linh linh động khác nhau. Một số thao tác điển hình
của khối dữ liệu như roll-up(tăng mức độ trừu tượng), drill-down (giảm mức
độ trừu tượng hoặc tăng mức độ chi tiết), slice and dice(chọn và chiếu), và
pivot ( định hướng tại khung nhìn đa chiều của dữ liệu), cho phép tương tác
truy vấn và phân tích dữ liệu rất tiện lợi. Những thao tác đó được biết như Xử
lý phân tích trực tuyến ( On-line Analytical Processing – OLAP)
Những nhà ra quyết định thường có những câu hỏi có dạng như “ tính
toán và xếp hạng tổng số lượng hàng hóa bán được theo mỗi quốc gia ( hoặc
theo mỗi năm)”. Họ cũng muốn so sánh hai độ đo số học như số lượng hàng
bán và ngân sách được tổng hợp bởi cùng các chiều. Như vậy, một đặc tính để
phân biệt của mô hình dữ liệu đa chiều là nó nhấn mạnh sự tổng hợp của các độ
đo bới một hoặc nhiều chiều, mà đó là một trong những thao tác chính yếu để
tăng tốc độ xử lý truy vấn.
4. Giới thiệu dịch vụ OLAP ( OLAP services) của Miscrosoft SQL
server
Dịch vụ OLAP là một server tầng giữa ( middle-tier server) phục vụ cho
phân tích xử lý trực tuyến (OLAP). Hệ thống dịch vụ OLAP là một công cụ
mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và cung
cấp khả năng truy xuất nhanh đến thông tin khối cho các client.
Kiến trúc dịch vụ OLAP được chia thành 2 phần
- Phần server ( được đại diện vởi OLAP server)
- Phần client (là dịch vụ PivotTable)
Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới
và quản lý các khối từ kho dữ liệu ( data warehouse) và cho phép các client
truy xuất đến dữ liệu OLAP. Có thể hiểu rằng OLAP server quản lý dữ liệu còn

dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu.
Nguyễn Thị Hương Thảo Page 6
Các đặc điểm của dịch vụ OLAP
- Dễ sử dụng: Bằng cách cung cấp các giao diện người dung và các trợ
giúp thực hiện (wizard)
- Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ
- Các khối có thể ghi: Cho các kịch bản phân tích dạng “ What if”.
- Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu
trữ và giải pháp tự động đối với “ hội chứng bùng nổ dữ liệu” mà
gây khó chịu cho các kỹ thuật OLAP.
- Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và
client/server caching.
- Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng
tùy ý.
5. So sánh OLAP với OLTP
Đặc trưng của các ứng dụng OLTP ( On-Line Trasaction Processing) là
các tác vụ xử lý tự động ghi chép dẽ liệu xử lý tác vụ của một tổ chức như ghi
nhận đơn đặt hàng và các giao dịch ngân hàng ( chúng là những công việc hàng
ngày của tổ chức thương mại) mà cần phải đọc hoặc cập nhật một vài mẩu tin
dựa trên khóa chính của chúng. Những tác vụ đó có cấu trúc, được lặp lại, bao
gồm các giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết và mới
cập nhật. Các cơ sở dữ liệu tác nghiệp có xu hướng từ vài tram megabyte đến
hàng gigabyte kích thước và chỉ lưu trữ các dữ liệu hiện hành. Tính nhất quán
và khả năng phục hồi của cơ sở dữ liệu là then chôt, và tối đa thông lượng giao
Nguyễn Thị Hương Thảo Page 7
dịch là thước đo chính yếu. Vì thế cơ sở dữ liệu được thiết kế để tôi thiểu các
xung đột trùng lặp.
Còn kho dữ liệu, mục tiêu là hỗ trợ quyeents định cho các nhà quản lý.
Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sẻ, tổng
kết và hợp nhất của dữ liệu. Do đó, kho dữ liệu thường chứa dữ liệu hợp nhất

từ một hoặc nhiều cơ sở dữ liệu tác nghiệp và được thu thập qua một thời gian
dài. Kết quản là kích thước kho dữ liệu có khuynh hướng từ vài tram gigabyte
đến hàng terabyte so với các cơ sở dữ liệu tác nghiệp. Kho dữ liệu hỗ trợ các
truy vấn phức tạp với thời gian hồi đáp nhanh, các truy vấn phức tạp có thể truy
xuất hàng triệu mẩu tin và thực hiện nhiều lần các thao tác quét, kết vào tổng
hợp. Đổi với kho dữ liệu, số lượng truy vấn đưa vào và thời gian hồi đáp quan
trọng hơn số lượng giao dịch đưa vào. Mà OLAP là một trong những công cụ
cho phép thực hiện hiệu quản các truy vấn này.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt
các tác vụ OLTP, vì thể nếu cố gắng thực thi các truy vấn OLAP phức tạp đối
với các cơ sở dữ liệu tác nghiệp sẽ cho kết quản là hiệu quản thực hiện không
thể chấp nhận được.
6. Các mô hình lưu trữ hỗ trợ OLAP
Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô
hình có các ưu và khuyết điểm riêng, chúng được sử dụng tùy theo mục đích
khai thác.
6.1. Mô hình Multidimensional OLAP (MOLAP)
Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ sở ( là dữ liệu từ
các bảng của kho dữ liệu hoặc data mart) và thông tin tổng hợp ( là các độ đo
được tính toán từ các bảng) trong các cấu trúc đa chiều gọi là các khối. Các cấu
trúc này được lưu bên ngoài cơ sở dữ liệu data mart hoặc kho dữ liệu.
Nguyễn Thị Hương Thảo Page 8
Mô hình dữ liệu MOLAP
Lưu trữ các khối trong cấu trúc MOLAP là tốt nhất cho các truy vấn
tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh. Ví dụ, tổng sản
phẩm bán được của tất cả các vùng theo quý
Mô hình MOLAP cho phép thực hiện các truy vấn phân tích dữ liệu tốt
nhất vì các đặc điểm sau:
- Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa
chiều.

- Các thao tác join, là một trong những thao tác tốn chi phí nhất của
mô hình quan hệ, thì không cần thiết.
- MOLAP sử dụng các thuật toán nén dữ liệu cho phép lưu trữ với ít
không gian hơn.
- MOLAP sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn.
- MOLAP lấy dữ liệu trong khối rất nhanh bằng cách sử dụng các xử
lý truy vấn tốc độ cao và cache dữ liệu (data cache). Thông tin nhận
được từ khối và các bảng OLAP cơ sở chỉ được truy xuất thông tin
chi tiết.
- MOLAP có thể được nạp trước vào bộ nhớ cache
- Dữ liệu có thể dễ dàng sao chép đến client cho phân tích không trực
tuyến ( off-line).
6.2. Mô hình Relational OLAP (ROLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin
tổng hợp trong các bảng quan hệ. Các bảng này được lưu trữ trong cùng cơ sở
dữ liệu như là các bảng của data mart hoặc kho dữ liệu.
Nguyễn Thị Hương Thảo Page 9
Mô hình dữ liệu ROLAP
Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ
liệu không thường xuyên. Ví dụ như nếu 80% người dung truy vấn chỉ dữ liệu
trong vòng một năm trở lại đây, các dữ liệu cũ hơn một năm sẽ được đưa vào
một cấu trúc ROLAP để giảm không gian đĩa bị chiếm dụng, hơn nữa còn để
loại trừ dữ liệu trùng lắp. Lưu trữ dữ liệu trong cấu trúc ROLAP cung cấp các
lợi ích sau:
- ROLAP cho phép Cube Buider tự động tạo chỉ mục.
- ROLAP ánh xạ các tổng hợp có sẵn từ data mart hoặc kho dữ liệu.
OLAP Manager được phép xử dụng các tổng hợp có sẵn để tổng hợp
mà không cần tính toán lại cho mỗi truy vấn.
- ROLAP tạo đòn bẩy cho hệ quản trị cơ sở dữ liệu quan hệ nhằm cho
các nhà quản trị hệ thống duy trì nó hiệu quản hơn.

- ROLAP hỗ trợ Microsoft SQL Server, Oracle, Access, Open
Database Connectinvity ( ODBC).
6.3. Mô hình Hybird OLAP (HOLAP)
Mô hình OLAP lại (HOLAP) là sự kết hợp giữa MOLAP và ROLAP.
Mô hình dữ liệu HOLAP
Lưu trữ các khối trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng
hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở. Ví dụ, chúng
Nguyễn Thị Hương Thảo Page 10
ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong câu trúc MOLAP
và dữ liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP.
Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:
- Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn
tốc độ cao của MOLAP.
- Tiêu thụ ít không gian lưu trữ hơn MOLAP.
- Tránh trùng lặp dữ liệu.
6.4. So sánh các mô hình
Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP
MOLAP ROLAP HOLAP
Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ
Lưu trữ thông tin tổng hợp Khổi Bảng quan hệ Khối
Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh
Tiêu thụ không gian lưu trữ Nhiều Thấp Trung bình
Chi phí bảo trì Cao Thấp Trung bình
7. Kiến trúc khối của OLAP
Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu
chi tiết và tổng hợp. Một khối bao gồm một nguồn dữ liệu ( Data source), các
chiều ( Dimensions), các độ đo (Measures) và các phần dành riêng (Partitions).
Các khối được thiết kế dựa trên yêu cầu phan tích của người dùng. Một kho dữ
liệu có thể hỗ trợ nhiều khối khác nhau như khối bán hàng, khối bảng kiểm
toán,…

Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu
cho khối
Các chiều (dimension) được ánh xạ từ các thông tin của các bảng chiều
(dimension table) trong kho dữ liệu vào các mức phân cấp, ví dụ như chiều địa
lý thì gồm các mức như Lục địa, Quốc gia, Tỉnh-Thành phố. Các chiều có thể
được tạo một cách độc lập và có thể chia sẻ giữa các khối nhằm xây dựng các
khối dẽ dàng và để chắc chắn rằng thông tin tổng hợp cho phan tích luôn ổn
định. Ví dụ, nếu một chiều chia sẻ một phân cấp sản phẩm và được sử dụng
trong tất cả các khối thì cấu tạo của thông tin tổng hợp về sản phẩn sẽ ổn định
giữa các khối sử dụng chiều đó.
Một chiều ảo (virtual dimension) là một dạng đặc biệt của chiều mà ánh
xạ các thuộc tính từ các thành viên của một chiều khác để sau đó có thể được
sử dụng trong các khối. Ví dụ, một chiều ảo của thuộc tính kích thước sản
phẩm cho phép một khối tổng hợp dữ liệu như số lượng sản phảm bán được
theo kích thước, hoặc như số lượng áo bán theo kiểu và theo kích thước. Các
Nguyễn Thị Hương Thảo Page 11
chiều ảo (virtual dimension) và các thuộc tính thành viên được đánh giá là cần
thiết cho các truy vấn và chúng không đòi hỏi phải có các khối lưu trữ vật lý.
Các độ đo (measure) xác định các giá trị số từ bảng sự kiện (fact table)
mà được tổng hợp cho phân tích như giá bán, chi phí hoặc số lượng bán.
Các phần dành riêng (partition) là các vật chứa lưu trữ đa chiều, giữ dữ
liệu của khối. Mỗi khối chứa ít nhất một partition, và dữ liệu của khối có thể
kết hợp từ nhiều partition. Mỗi partition có thể lấy dữ liệu một nguồn dữ liệu
khác nhau và có thể lưu trong một vị trí riêng biệt (separate). Dữ liệu của một
partition có thể được cập nhật độc lập với các partition khác trong một khối. ví
dụ, dữ liệu của một khối có thể được chia theo thời gian, với một partition chứa
dữ liệu của năm hiện hành, một partition khác chứa dữ liệu của năm trước, và
một partition thứ ba chứa tất cả dữ liệu của các năm trước nữa.
Các partition của một khối có thể được lưu trữ độc lập trong các cách
thức khác nhau với các mức độ tổng kết khác nhau. Các partition không thể

hiện đối với người dùng, đối với họ một khối là một đối tượng đơn, và chúng
cung cấp các tùy chọn đa dạng để quản lý dữ liệu OLAP.
Một khối ảo (virtual cube) là một khung nhìn logic của các phần chia của
một hoặc nhiều khối. Một khối ảo có thể được sử dụng để join các khối khác
nhau để chia sẻ một chiều chung nào đó, ví dụ như có thể join giữa khối bán
hàng và khối kho nhằm các mục đích phân tích đặc biệt nào đó trong khi duy
trì các khối tách biệt cho đơn giản. Các chiều và độ đo có thể được chọn từ các
khối được join để thể hiện các khối ảo.
8. Mô hình kiến trúc dịch vụ OLAP
Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Client
Nguyễn Thị Hương Thảo Page 12
8.1. Kiến trúc thành phần Server
Kiến trúc thành phần servier
Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng
tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho client
qua dịch vụ PivotTable ( PivotTable Service.
Các thao tác (operation) của thành phần Server bao gồm việc tạo các
khối dữ liệu đa chiều từ kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các
cấu trúc khối đa chiều (MOLAP), trong cơ sở dữ liệu quan hệ (ROLAP) hoặc
kết hợp cả hai (HOLAP). Siêu dữ liệu (metadata) của các cấu trúc khối đa
chiều được lưu trữ trong một kho trong cơ sở dữ liệu quan hệ.
Các thao tác được thành phần Server cung cấp gồm:
- Khả năng tạo và quản lý các khối của OLAP.
- Phục vụ lấy dữ liệu và làm cho nó có thể sử dụng được từ các ứng
dụng client.
8.2. Kiến trúc thành phần Client
Nguyễn Thị Hương Thảo Page 13
Thành phần client là dịch vụ PivotTable giao tiếp với OLAP server và
cung cấp giao diện cho các ứng dụng client sử dụng truy cập dữ liệu OLAP
trên server. Các ứng dụng client kết nối đến dịch vụ PivotTable bằng cách sử

dụng giao diện OLE DB hoặc mô hình ADO (Microsoft ActiveX Data
Objects).
Các ứng dụng client có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ
cơ sở dữ liệu OLAP
Dịch vụ PivotTable có thể tạo các khối cục bộ mà đó là các tập con của
các khối cư trú trên server. Các khối cục bộ có thể được sử dụng để làm tăng
hiệu quả thực hiện và sử dụng để thực hiện các phân tích không trực tuyến.
Dịch vụ PivoTable là một công cụ lưu trữ, duyệt và phân tích khối
PivotTable là một OLAP Server xử lý tại chỗ với cả các đặc tính phân tích trực
tuyến và không trực tuyến mà:
- Cung cấp truy cấp trực tuyến đến dữ liệu OLAP như một client của
dịch vụ OLAP.
- Bao gồm các đặc tính phân tích dữ liệu, xây dựng khối và quản lý
cache. Cho phép các khối lưu trữ cục bộ để phân tích không trực
tuyến như là kết nối đến dữ liệu dịch vụ OLAP trực tuyến.
9. Hoạt động của OLAP trong mô hình dữ liệu đa chiều
Trong mô hình dữ liệu đa chiều, dữ liệu được tổ chức đa chiều và mỗi
chiều gồm nhiều cấp độ trừu. Tổ chức này cung cấp cho người sử dụng tính
linh động để xem dữ liệu từ những khung nhìn khác nhau. Tổng số khối dữ liệu
OLAP hoạt động để cụ thể hóa những cái nhìn khác nhau, cho phép tương tác
truy vấn và phân tích dữ liệu thủ công. Tuy nhiên OLAP cung cấp cho người
sử dụng không có chuyên môn môi trường để tương tác phân tích dữ liệu.
Nguyễn Thị Hương Thảo Page 14
Ví dụ: Để có một cái nhìn về một vài đặc trưng của những hoạt động
của OLAP về dữ liệu đa chiều. Mỗi một hoạt động được mô tả dưới đây là
được thể hiện ở hình bên dưới. Tại trung tâm của hình là một khối dữ liệu của
AllElectronics sales. Khối bao gồm chiều location, tìm và item, sao cho
location được tổng hợp chi tiết đến thành phố, time được tổng hợp chi tiết đến
quý, và item được tổng hợp chi tiết đến từng loại. Để giải thích trong giải nghĩa
của chúng tôi, chúng tôi chuyển đến khối này như một khối trung tâm. Dữ liệu

khảo sát là các thành phố Vancouver, Montreal, New York, và Chicago
9.1. Roll-up
Hoạt động roll-up (còn được gọi là drill-up) thực hiện tổng hợp trên một
khối dữ liệu, bởi climbing-up a concept hierarchy của một chiều hoặc bởi
dimension reduction. Hình dưới thể hiện kết quả của một hoạt động roll-up
thực hiện trên khối trung tâm bởi climbing up the con cept hierarchy của
location. Phân cấp này được định nghĩa như thứ tự street<city<province-or-
state< country. Hoạt động roll-up thể hiện tổng hợp dữ liệu tăng dần của phân
cấp location từ cấp city đến cấp country. In other words, xa hơn nhóm dữ liệu
city, kết quả khối nhóm dữ liệu country.
Khi roll-up được hoạt động bởi dimension reduction, một hoặc nhiều
chiều được rời từ khối. Ví dụ, nghĩ đến một khối dữ liệu bán hàng chỉ bao gồm
2 chiều location và time. Roll-up có thể thực hiện bằng các di chuyển, gọi,
chiều thời gian, kết quả trong một tổng hợp của total sales bằng location, xa
hơn bằng location, và bằng thời gian
9.2. Drill-down
Drill-down là đảo ngược của roll-up. Nó điều hướng từ dữ liệu ít chí tiết
đến dữ liệu chi tiết hơn. Drill-down có thể được thực hiện bởi stepping-down a
concept hierarchy một chiều hoặc introducing additional demensions. Hình
dưới thể hiện kết quả của một hoạt động drill-down thực hiện trên khối trung
tâm bởi stepping down a concept hierarchy theo thời gian đươc xác định như
day<month<quarter<year. Drill-down xuất hiện bởi giảm phân cấp thời gian
từ cấp độ quarter đến cấp độ chi tiết month. Kết quả chí tiết khối dữ liệu total
sales trên tháng hơn tổng kết bằng quý.
Khi một drill-down thêm chi tiết hơn vào dữ liệu, nó có thể cũng được
thực hiện bằng các thêm vào khối chiều mới. Ví dụ một drill-down trên khối
trung tâm của hình dưới có thể xuất hiện thêm một chiều điều khiện như
custormer-type.
Nguyễn Thị Hương Thảo Page 15
9.3. Slice and dice

Hoạt động slice thực hiện chọn trên một chiều của khối, kết quả là một
khối con. Hình trên thể hiện một hoạt động slice nơi mà dữ liệu sales được
chọn từ khối trung tâm của chiều time sử dụng chuẩn tiem = “Q2”. Hoạt động
dice xác định một khối con bằng cách thực hiện chọn hai hoặc nhiều hơn 2
chiều. Hình trên thể hiện một hoạt động dice trên khối trung tâm bằng cách cho
phép chọn chuẩn cần phải 3 chiều: (location = Montreal hoặc Vancouver) và
(time = Q1 hoặc Q2) và (item = home entertainment hoặc computer).
9.4. Pivot (rotate)
Pivot (còn được gọi là rotate) là một hoạt động trực quan mà quay các
trục dữ liệu trong chế độ xem để cung cấp một trình bày thay thế của dữ liệu.
Hình trên cho thấy một hoạt động pivot nơi các trục item và location trong slice
Nguyễn Thị Hương Thảo Page 16
2D được luân chuyển. Ví dụ khác bao gồm các trục quay trong một khối 3D,
hoacwcj chuyển mooth khối 3D vào một chuỗi mặt phẳng 2D.
9.5. Một vài hoạt động khác của OLAP
- Drill-across: thực hiện truy vấn nhiều hơn một bảng sự thật.
- Drill- through
10.Tài liệu tham khảo
[1]. />[2]. />[3]. Data warehouse and OLAP technology for Data Mining
[4]. Data Mining:Concepts and Techniques – Jiawei Han and Micheline
Kamber
Nguyễn Thị Hương Thảo Page 17

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×