Bài 2
1
KHÁI NIỆM
Kiến trúc của Data warehouse:
Bao gồm tất cả các thành phần phân biệt với
Kho dữ liệu được tích hợp là trọng tâm
o Mục đích của kiến trúc Data warehouse
- Cung cấp framework cho việc phát triển và
triển khai DW
- Định nghĩa: các tiêu chuẩn, độ đo, thiết kế
tổng quát, các kỹ thuật hỗ trợ
2
3
Thành vùng chính trong data
warehouse
Thu
nhận dữ liệu (Data
acquisition)
Lưu trữ dữ liệu (Data storage)
Phân phối thông tin (Information
delivery)
3
CÁC KHỐI THÀNH PHẦN KIẾN TRÚC
TRONG 3 VÙNG CHÍNH CỦA DW
4
Generic two-level architecture
L
T
One,
companywide
warehouse
E
Periodic extraction data is not completely current in warehouse
5
Independent Data Mart
Data marts:
Mini-warehouses, limited in scope
L
T
E
Separate ETL for each
independent data mart
Data access complexity
due to multiple data marts
6
Dependent data mart
with operational data store
ODS provides option for
obtaining current data
L
T
E
Single ETL for
enterprise data warehouse
(EDW)
Simpler data access
Dependent data marts
loaded from EDW
7
ODS and data warehouse
Logical data mart and
@ctive data warehouse
are one and the same
L
T
E
Near real-time ETL for
@active Data Warehouse
Data marts are NOT separate databases,
but logical views of the data warehouse
Easier to create new data marts
8
KHÁI NIỆM MƠ HÌNH CHIỀU
Với
mơ hình ER:
Entities:
Thu thập được từ môi trường thực tiễn
Mỗi Entity như một Table
Chuẩn hóa
Giảm dư thừa thơng tin (tránh dị
thường xảy ra khi update/delete)
Tăng số lượng Table
Hữu ích: Truy cập nhanh một khối lượng
nhỏ dữ liệu từ CSDL
ER DRAWBACKS FOR DW / NEED OF
DIMENSIONAL MODELING
ER:
Số lượng Table nhiều :
Khó nhớ
Truy vấn phức tạp (kết nối tables)
RDBMS:
được tối ưu cho truy cập số lượng nhỏ
table (trong khi DW có thể yêu cầu tập hợp từ số
lượng lớn Table)
DW
không yêu cầu update dữ liệu như OLTP
Trong DW, sử dụng mơ hình chiều, khơng
cần chuẩn hóa
KHÁI NIỆM MƠ HÌNH DỮ LIỆU CHIỀU
Được
đề xuất và thiết kế cho một mục
đích phân tích dữ liệu
Mơ hình dữ liệu này khơng phù hợp
cho hệ thống OLTP
Mơ hình dữ liệu này được thao tác bởi
các cơng cụ OLAP
Các
công cụ này cung cấp các phương tiện
truy vấn mạnh dựa trên thiết kế mơ hình
dữ liệu đa chiều
Ví dụ như: TARGIT Analysis, SQL OLAP
Server
VÍ DỤ VỀ MƠ HÌNH DỮ LIỆU CHIỀU
Số lượng hàng bán là một hàm của product,
Region, Month
Product
Re
gi
on
Month
Các chiều: Region, Product, Month
12
CÁC THUỘC TÍNH CỦA CÁC CHIỀU CĨ THỂ PHÂN CẤP
Ví dụ
Location Dimension
Region
Product Dimension
District
Manufacturer
Store
Brand
Product
Time Dimension
Account Year
Account Week
Product_key
Store_key
Acct_Week_key
Sales Data
KHỐI DỮ LIỆU (CUBE)
Một DW dựa trên một mơ hình dữ liệu đa chiều với
khung nhìn dữ liệu dưới dạng các khối dữ liệu
Một khối dữ liệu, cho phép dữ liệu được mơ hình hóa
và được nhìn theo đa chiều
Bảng
chiều, như Product (item_name, type), hoặc
Time(day, week, month, quarter, year), địa danh
Region(…)
Bảng
sự kiện chứa các giá trị “đo” (như dollars_sold)
và các khóa tới mỗi bảng chiều liên quan
Theo cách nói của DW, một khối cơ sở n-D được gọi là
một cuboid cơ sở. Cao nhất là 0-D cuboid chứa tóm tắt
ở mức cao nhất (được gọi là cuboid đỉnh). Dàn các
cuboid tạo thành một khối dữ liệu.
14
TV
PC
VCR
sum
1Qtr
2Qtr
Date
3Qtr
4Qtr
sum
Total annual sales
of TV in U.S.A.
U.S.A
Canada
Mexico
sum
Country
Pr
od
uc
t
VÍ DỤ VỀ KHỐI DỮ LIỆU
CUBE: MỘT LƯỚI CÁC CUBOID
all
time
time,item
0-D(apex) cuboid
item
time,city
city
supplier
item,city
time,supplier
time,item,location
city,supplier
item,supplier
time,city,supplier
time,item,supplier
1-D cuboids
2-D cuboids
3-D cuboids
item,city,supplier
4-D(base) cuboid
time, item, city, supplier
KHÁI NIỆM MƠ HÌNH DỮ LIỆU CHIỀU
Mơ
hình chiều tập trung hướng chủ thể,
những yếu tố cơ bản của kinh doanh
Những yếu tố cơ bản được lưu trong các
facts
Dư thừa dữ liệu là không quan trọng
17
KHÁI NIỆM MƠ HÌNH DỮ LIỆU
CHIỀU
2
khái niệm quan trọng
Fact
(sự kiện)
Các độ đo bằng số, biểu diễn hoạt động/sự kiện kinh
doanh
Được tính tốn trước
Ví dụ: số lượng đã bán, doanh thu,…
Dimension (chiều)
Thông tin tham khảo bởi dữ kiện có thể được cấu trúc
cho phân tích
Định nghĩa các phân cấp tổng hợp
Chiều thời gian (quan trọng), các nhóm sp, và vùng
18
LƯỢC ĐỒ HÌNH SAO (STAR SCHEMA)
Fact table
Dimension table
Dimension table
Một bảng sự kiện ở trung tâm được kết nối với
một tập các bảng chiều
19
TIME
time_key (PK)
SQL_date
day_of_week
month
EXAMPLE
STORE
store_key (PK)
store_ID
store_name
address
district
floor_type
CLERK
clerk_key (PK)
clerk_id
clerk_name
clerk_grade
FACT
time_key (FK)
store_key (FK)
clerk_key (FK)
product_key (FK)
customer_key (FK)
promotion_key
(FK)
dollars_sold
units_sold
dollars_cost
PRODUCT
product_key (PK)
SKU
description
brand
category
CUSTOMER
customer_key (PK)
customer_name
purchase_profile
credit_profile
address
PROMOTION
promotion_key (PK)
promotion_name
price_type
ad_type
20
CÁC KHỐ
Primary
keys
Định danh trong bảng chiều
Khóa của bảng fact:
Kết
Khóa
hợp từ các khóa của các bảng chiều
đại diện (Surrogate keys)
Thay thế cho PK, được phát sinh để định danh bản
ghi , không liên quan đến dữ liệu trong bảng
Khóa
tự nhiên (natural key):
Định
danh của bản ghi theo logic của dữ liệu (định
danh bản ghi một cách tự nhiên)
CÁC KHỐ
Khố
ngoại nằm trên bản dữ kiện
Tạo lập các index để tăng tốc độ
Khoá được xác định trong giai đoạn
thiết kế
Các khóa kết hợp có thể được áp dụng
ĐỘ ĐO
o Các
thuộc tính số có thể tính tốn
được trên các bảng fact
ƯU ĐIỂM CỦA LƯỢC ĐỒ HÌNH SAO
Dễ
hiểu cho người dùng
Tối ưu cho việc truy vấn (ít kết nối
bảng truy vấn nhanh)
23
LƯỢC ĐỒ BÔNG TUYẾT (SNOWFLAKE
SCHEMA)
Mở
rộng của Star
Schema
Một
số cấu trúc chiều được
chuẩn hóa thành các chiều nhỏ
hơn
24
VÍ DỤ VỀ SNOWFLAKE SCHEMA
time
time_key
day
day_of_the_week
month
quarter
year
item
Sales Fact
Table
time_key
branch_key
branch
branch_key
branch_name
branch_type
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_key
supplier
supplier_key
supplier_type
location
location_key
street
city_key
city
city_key
city
state_or_province
25
country