Tải bản đầy đủ (.ppt) (43 trang)

CÁC KIẾN TRÚC của DATA WAREHOUSE và mô HÌNH dữ LIỆU đa CHIỀU (DATA WARE HOUSE SLIDE)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (763.81 KB, 43 trang )

Bài 2

1


KHÁI NIỆM

Kiến trúc của Data warehouse:
Bao gồm tất cả các thành phần phân biệt với
Kho dữ liệu được tích hợp là trọng tâm
o Mục đích của kiến trúc Data warehouse
- Cung cấp framework cho việc phát triển và
triển khai DW
- Định nghĩa: các tiêu chuẩn, độ đo, thiết kế
tổng quát, các kỹ thuật hỗ trợ


2


3

Thành vùng chính trong data
warehouse
Thu

nhận dữ liệu (Data
acquisition)
Lưu trữ dữ liệu (Data storage)
Phân phối thông tin (Information
delivery)


3


CÁC KHỐI THÀNH PHẦN KIẾN TRÚC
TRONG 3 VÙNG CHÍNH CỦA DW

4


Generic two-level architecture

L
T

One,
companywide
warehouse

E
Periodic extraction  data is not completely current in warehouse
5


Independent Data Mart

Data marts:
Mini-warehouses, limited in scope

L


T
E
Separate ETL for each
independent data mart

Data access complexity
due to multiple data marts
6


Dependent data mart
with operational data store

ODS provides option for
obtaining current data

L

T
E
Single ETL for
enterprise data warehouse
(EDW)

Simpler data access
Dependent data marts
loaded from EDW
7



ODS and data warehouse

Logical data mart and
@ctive data warehouse

are one and the same

L

T
E
Near real-time ETL for
@active Data Warehouse

Data marts are NOT separate databases,
but logical views of the data warehouse
 Easier to create new data marts

8


KHÁI NIỆM MƠ HÌNH CHIỀU
 Với

mơ hình ER:

 Entities:

Thu thập được từ môi trường thực tiễn
 Mỗi Entity như một Table

 Chuẩn hóa

Giảm dư thừa thơng tin (tránh dị
thường xảy ra khi update/delete) 
Tăng số lượng Table
 Hữu ích: Truy cập nhanh một khối lượng
nhỏ dữ liệu từ CSDL



ER DRAWBACKS FOR DW / NEED OF
DIMENSIONAL MODELING
 ER:

Số lượng Table nhiều :



Khó nhớ



Truy vấn phức tạp (kết nối tables)

 RDBMS:

được tối ưu cho truy cập số lượng nhỏ
table (trong khi DW có thể yêu cầu tập hợp từ số
lượng lớn Table)


 DW

không yêu cầu update dữ liệu như OLTP

 Trong DW, sử dụng mơ hình chiều, khơng
cần chuẩn hóa


KHÁI NIỆM MƠ HÌNH DỮ LIỆU CHIỀU
 Được

đề xuất và thiết kế cho một mục
đích phân tích dữ liệu
 Mơ hình dữ liệu này khơng phù hợp
cho hệ thống OLTP
 Mơ hình dữ liệu này được thao tác bởi
các cơng cụ OLAP
 Các

công cụ này cung cấp các phương tiện
truy vấn mạnh dựa trên thiết kế mơ hình
dữ liệu đa chiều
 Ví dụ như: TARGIT Analysis, SQL OLAP
Server


VÍ DỤ VỀ MƠ HÌNH DỮ LIỆU CHIỀU
Số lượng hàng bán là một hàm của product,
Region, Month


Product

Re

gi
on



Month

Các chiều: Region, Product, Month

12


CÁC THUỘC TÍNH CỦA CÁC CHIỀU CĨ THỂ PHÂN CẤP


Ví dụ

Location Dimension

Region
Product Dimension

District

Manufacturer
Store

Brand
Product

Time Dimension

Account Year
Account Week

Product_key
Store_key
Acct_Week_key
Sales Data


KHỐI DỮ LIỆU (CUBE)


Một DW dựa trên một mơ hình dữ liệu đa chiều với
khung nhìn dữ liệu dưới dạng các khối dữ liệu



Một khối dữ liệu, cho phép dữ liệu được mơ hình hóa
và được nhìn theo đa chiều
 Bảng

chiều, như Product (item_name, type), hoặc
Time(day, week, month, quarter, year), địa danh
Region(…)


 Bảng

sự kiện chứa các giá trị “đo” (như dollars_sold)
và các khóa tới mỗi bảng chiều liên quan



Theo cách nói của DW, một khối cơ sở n-D được gọi là
một cuboid cơ sở. Cao nhất là 0-D cuboid chứa tóm tắt
ở mức cao nhất (được gọi là cuboid đỉnh). Dàn các
cuboid tạo thành một khối dữ liệu.
14


TV
PC
VCR
sum

1Qtr

2Qtr

Date

3Qtr

4Qtr

sum


Total annual sales
of TV in U.S.A.
U.S.A
Canada
Mexico
sum

Country

Pr
od
uc
t

VÍ DỤ VỀ KHỐI DỮ LIỆU


CUBE: MỘT LƯỚI CÁC CUBOID
all
time

time,item

0-D(apex) cuboid

item

time,city


city

supplier

item,city
time,supplier

time,item,location

city,supplier
item,supplier

time,city,supplier

time,item,supplier

1-D cuboids

2-D cuboids
3-D cuboids

item,city,supplier

4-D(base) cuboid
time, item, city, supplier


KHÁI NIỆM MƠ HÌNH DỮ LIỆU CHIỀU
 Mơ


hình chiều tập trung hướng chủ thể,
những yếu tố cơ bản của kinh doanh
 Những yếu tố cơ bản được lưu trong các
facts
 Dư thừa dữ liệu là không quan trọng

17


KHÁI NIỆM MƠ HÌNH DỮ LIỆU
CHIỀU
2

khái niệm quan trọng

 Fact

(sự kiện)
 Các độ đo bằng số, biểu diễn hoạt động/sự kiện kinh
doanh
 Được tính tốn trước
 Ví dụ: số lượng đã bán, doanh thu,…
 Dimension (chiều)
 Thông tin tham khảo bởi dữ kiện có thể được cấu trúc
cho phân tích
 Định nghĩa các phân cấp tổng hợp
 Chiều thời gian (quan trọng), các nhóm sp, và vùng

18



LƯỢC ĐỒ HÌNH SAO (STAR SCHEMA)
Fact table

Dimension table

Dimension table

Một bảng sự kiện ở trung tâm được kết nối với
một tập các bảng chiều

19


TIME
time_key (PK)
SQL_date
day_of_week
month

EXAMPLE

STORE
store_key (PK)
store_ID
store_name
address
district
floor_type
CLERK

clerk_key (PK)
clerk_id
clerk_name
clerk_grade

FACT
time_key (FK)
store_key (FK)
clerk_key (FK)
product_key (FK)
customer_key (FK)
promotion_key
(FK)
dollars_sold
units_sold
dollars_cost

PRODUCT
product_key (PK)
SKU
description
brand
category
CUSTOMER
customer_key (PK)
customer_name
purchase_profile
credit_profile
address


PROMOTION
promotion_key (PK)
promotion_name
price_type
ad_type
20


CÁC KHỐ
Primary

keys

 Định danh trong bảng chiều


Khóa của bảng fact:
 Kết

 Khóa


hợp từ các khóa của các bảng chiều

đại diện (Surrogate keys)

Thay thế cho PK, được phát sinh để định danh bản
ghi , không liên quan đến dữ liệu trong bảng

 Khóa


tự nhiên (natural key):

 Định

danh của bản ghi theo logic của dữ liệu (định
danh bản ghi một cách tự nhiên)


CÁC KHỐ
Khố

ngoại nằm trên bản dữ kiện
Tạo lập các index để tăng tốc độ
Khoá được xác định trong giai đoạn
thiết kế
Các khóa kết hợp có thể được áp dụng
ĐỘ ĐO
o Các

thuộc tính số có thể tính tốn
được trên các bảng fact


ƯU ĐIỂM CỦA LƯỢC ĐỒ HÌNH SAO
 Dễ

hiểu cho người dùng
 Tối ưu cho việc truy vấn (ít kết nối
bảng  truy vấn nhanh)


23


LƯỢC ĐỒ BÔNG TUYẾT (SNOWFLAKE

SCHEMA)

Mở

rộng của Star
Schema
Một

số cấu trúc chiều được
chuẩn hóa thành các chiều nhỏ
hơn
24


VÍ DỤ VỀ SNOWFLAKE SCHEMA
time
time_key
day
day_of_the_week
month
quarter
year

item


Sales Fact
Table
time_key
branch_key

branch
branch_key
branch_name
branch_type

location_key
units_sold
dollars_sold
avg_sales

Measures

item_key
item_name
brand
type
supplier_key

supplier
supplier_key
supplier_type

location
location_key

street
city_key

city
city_key
city
state_or_province
25
country


×