Tải bản đầy đủ (.pptx) (59 trang)

Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.13 MB, 59 trang )

Tìm hiểu lý thuyết về Data WareHouse, Olap và BI
( Bussiness Intelligene)
Nghiên cứu về công cụ mã nguồn mở BIRT
Báo Cáo Đề Tài
6/27/14 1
Nhóm 9 gồm các thành viên :

Phạm Văn Đồng – 1042026

Phùng Siêu Diên – 1042018

Nguyễn Duy Khanh – 1042051

Phan Quốc Trung – 1041442

Data WareHouse

OLap

BI (Bussiness Intelligene)

Demo BIRT
Nội dung
6/27/142
Data Warehouse
Phạm Văn Đồng

Định nghĩa

Đặc trưng


Kiến trúc

Mô hình

Xu hướng tương lai của data warehouse.
6/27/143
Data Warehouse
Phạm Văn Đồng

Định nghĩa

Đặc trưng

Kiến trúc

Mô hình

Xu hướng tương lai của data warehouse.
6/27/144
Data Warehouse
Phạm Văn Đồng
6/27/145

DWH là tập hợp dữ liệu tương đối ổn định
(không hay thay đổi),cập nhật theo thời gian,
được tích hợp theo hướng chủ đề nhằm hỗ trợ
quá trình tạo quyết định về mặt quản lý.

Đặc trưng


Hướng chủ thể

Tính tích hợp

Tính bền vững

Gắn với thời gian

Có tính lịch sử
Data Warehouse
Phạm Văn Đồng
6/27/146

Chỉ đọc

Không biến động

Dữ liệu tổng hợp và chi tiết.

Kiến trúc.
Data Warehouse
Phạm Văn Đồng
6/27/147

Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao
gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ
liệu khác nhau.

Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật
làm sạch và chuyển đổi để đảm bảo tính nhất quán

dữ liệu trước khi đưa vào kho dữ liệu đích. Thông
thường người ta sử dụng các công cụ trích xuất,
chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực
hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ
liệu , tải dữ liệu vào kho dữ liệu.
Data Warehouse
Phạm Văn Đồng
6/27/148

Nhiệm vụ : kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu
sai định dạng hoặc lỗi.

Các bước tiến trình ETL gồm 3 bước:
o
Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể
có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ
liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bước
này là trích xuất dữ liệu từ hệ thống nguồn để xử lý.
o
Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi
dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ
liệu đích.

Các kiểu kiến trúc ETL : Có 3 kiểu kiến trúc ETL chính :
Data Warehouse
Phạm Văn Đồng
6/27/149

Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại
server chứa nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến

trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã
được xử lý cho kho dữ liệu. Mô hình này thường được sử dụng
nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử
lý tiến trình ETL. Thông thường mô hình này sử dụng khi dữ liệu
nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn.
Data Warehouse
Phạm Văn Đồng
6/27/1410

Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server
chứa kho dữ liệu . Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết
nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào
kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi
khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng
lực xử lý tiến trình ETL. Cũng như kiển push kiểu kiến trúc này
cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác
không quá lớn.
Data Warehouse
Phạm Văn Đồng
6/27/1411

Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ
được chạy trên một máy độc lập với cả kho dữ liệu và nguồn dữ
liệu. Tiến trình sẽ đến lấy dữ liệu từ nguồn dữ liệu sau đó xử lý
và nạp vào kho dữ liệu. Kiểu kiến trúc này thường được áp dụng
cho các kho dữ liệu lớn, ở đây tiến trình ETL sẽ được chạy trên
một máy độc lập đủ năng lực xử lý.
Data Warehouse
Phạm Văn Đồng
6/27/1412


Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu
được lưu trữ trong kho dữ liệu. Siêu dữ liệu định nghĩa
nên các thành phần của kho dữ liệu, cách thức dữ liệu
được tải vào kho dữ liệu, lưu lại quá trình hoạt động của
kho dữ liệu

Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ
các dữ liệu tính toán được nhằm trả lời một cách nhanh
nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu có
thể tính toán được từ các bảng khác tuy nhiên để tăng tốc
độ xử lý dữ liệu này được lưu trữ để không phải tính toán
lại mỗi khi có truy vấn.
Data Warehouse
Phạm Văn Đồng
6/27/1413

Mô hình logic.
o
Lược đồ hình sao.
Chiều
sản
phẩm
Chiều
khách
hàng
Bảng
sự
kiện
bán

hàng
Chiều
thời
gianChiều
cửa
hàng
Data Warehouse
Phạm Văn Đồng
6/27/1414
o
Lược đồ hình bông tuyết.
Chiều
thời gian
Bảng sự
kiện bán
hàng
Cửa hàng
phân phối
Chiều sản
phẩm
Chiều
khách
hàng
Loại
sản
phẩm
Data Warehouse
Phạm Văn Đồng
6/27/1415
o

Mô hình dữ liệu nhiều chiều.

Xu hướng tương lai của kho dữ liệu
Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm :

Dữ liệu phi cấu trúc

Tìm kiếm

Kiến trúc hướng dịch vụ

Kho dữ liệu thời gian thực.
OLAP
On-Line Analytical Processing
16OLAP
Phùng Siêu Diên
OLAP

Giới thiệu.

OLAP Service.

Các mô hình lưu trữ dữ liệu.

Mô hình dịch vụ OLAP.
17
Phùng Siêu Diên
Giới thiệu

Thuật ngữ OLAP được E.F.Codd đưa ra trong một bài

báo có tên “Providing On-Line Analytical Processing
to User Analysts” được công bố vào tháng 8-1993.

OLAP là một kỹ thuật phân tích dữ liệu sử dụng các
thể hiện dữ liệu đa chiều gọi là các khối (cube).

OLAP cung cấp khả năng tạo ra các khối dữ liệu và
thực hiện các truy vấn tinh vi trên các ứng dụng
người dùng.
18
Phùng Siêu Diên
Lợi ích:

Olap cung cấp nhiều lợi ích cho người phân tích như:

Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa
chọn, định hướng và khám phá dữ liệu.

Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để
khám phá các mối liên hệ trong dữ liệu kinh doanh phức tạp.

Dữ liệu được tính toán trước đối với các truy vấn thường xuyên
nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc
biệt.

Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn
mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.
19
Phùng Siêu Diên
OLAP


Giới thiệu.

OLAP Service

Các mô hình lưu trữ dữ liệu.

Mô hình dịch vụ OLAP
20
Phùng Siêu Diên
OLAP Service

Dịch vụ OLAP là một server tầng giữa phục vụ cho
phân tích xử lý trực tuyến.

Kiến trúc dịch vụ OLAP được chia làm 2 phần:

Phần server: đại diện bởi OLAP server.

Phần client: dịch vụ PivotTable.

Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép
thiết kế, tạo mới và quản lý các khối từ kho dữ liệu
(data warehouse) và cho phép các client truy xuất đến
dữ liệu OLAP.
21
Phùng Siêu Diên
Các đặc điểm của dịch vụ OLAP

Dễ sử dụng.


Linh động.

Kiến trúc có thể co dãn (scalable architecture).

Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
và client/server caching.

Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ
các ứng dụng tùy ý.
22
Phùng Siêu Diên
OLAP

Giới thiệu.

OLAP Service.

Các mô hình lưu trữ dữ liệu.

Mô hình dịch vụ OLAP.
23
Phùng Siêu Diên
Các mô hình lưu trữ dữ liệu

Mô hình Multidimensional OLAP(MOLAP).

Mô hình Relational OLAP(ROLAP).

Mô hình Hybird OLAP(HOLAP).

24
Phùng Siêu Diên
Mô hình Multidimensional OLAP(MOLAP)

Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ
sở và thông tin tổng hợp trong các cấu trúc đa chiều
gọi là các khối.

Lưu trữ các khối trong cấu trúc MOLAP là tốt nhất
cho các truy vấn tổng hợp dữ liệu thường xuyên mà
cần thời gian hồi đáp nhanh.

Ví dụ: tổng sản phẩm bán được của tất cả các vùng theo
quý.
25

×