Tải bản đầy đủ (.pdf) (71 trang)

Kho dữ liệu và Hệ hỗ trợ quyết định ( Nguyễn Thanh Bình ) - Chương 5 potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (462.81 KB, 71 trang )

Chương
Chương
5:
5:
K
K


thu
thu


t
t


h
h
ì
ì
nh
nh
ho
ho
á
á
c
c
á
á
c


c
chi
chi


u
u


s
s


Gi
Gi


i
i
thi
thi


u
u
• Các bước mô hình kho dữ liệu
• Độ thô dữ liệu (Data Granularity)
• Lưu trữ dữ liệu
• Các phân cấp thuộc tính
• Truy vấn KDL và OLAP

• Các lỗi thường gặp khi xây dựng 1 KDL
• Ví dụ
C
C
á
á
c
c
t
t


ng
ng
• Tầng khái niệm Conceptual layer – dữ
liệu và xử lí dữ liệu
• Tầng logic Logical layer – dữ liệu và xử
lí kinh doanh
• Tầng vật lý Physical layer – cấu trúc
bên trong
• Các chủ thể, dữ kiện và mối quan hệ
T
T


ng
ng
trong
trong
h

h


th
th


ng
ng
thông
thông
tin
tin
Conceptual Layer
Logical Layer
Physical Layer Physical Layer
Logical Layer
Operational
Operational
systems
systems
Warehouse
Warehouse
Product Dimension
Manufacturer
Brand
Product
C
C

á
á
c
c
th
th
à
à
nh
nh
ph
ph


n
n
ch
ch
í
í
nh
nh
• Phân cấp thuộc tính của các chiều
• Mối quan hệ
• Dữ kiện
Account Year
Time Dimension
Account Week
Region
Location Dimension

Store
Product_key
Store_key
Acct_Week_key
Sales Data
District
C
C
á
á
c ti
c ti
ế
ế
n tr
n tr
ì
ì
nh mô h
nh mô h
ì
ì
nh h
nh h
ó
ó
a
a
• Xác định yêu cầu của người dùng
• Hướng dẫn người dùng hiểu về công

nghệ KDL
C
C
á
á
c ti
c ti
ế
ế
n tr
n tr
ì
ì
nh mô h
nh mô h
ì
ì
nh h
nh h
ó
ó
a
a
• Định nghĩa mô hình kinh doanh
• Mô hình hóa các chiều
• Chọn mô hình lưu trữ
Conceptual Model
Physical Model
Logical Model
C

C
á
á
c công c
c công c


v
v
à
à
phương ph
phương ph
á
á
p
p
• Chọn các công cụ với giao diện đồ họa
– Tạo lập tài liệu
– Định nghĩa các liên kết và ràng buộc
• Phương pháp luận
• Mô hình hoá
• Xây dựng sản phẩm
T
T
ó
ó
m
m





c
c
c
c
á
á
c
c




c
c
d
d


–Sao
–Bông tuyết
–Đa sao
Mô h
Mô h
ì
ì
nh h
nh h

ó
ó
a c
a c
á
á
c chi
c chi


u
u
• Mô hình dựa vào nội dung của dữ liệu
• Mô hình với các tổng hợp cần thiết
• Mô hình phải đáp ứng yêu cầu phân
tích sâu, và tổng hợp
• Có thể không chuẩn hóa - star
• Có thể chuẩn hóa - snowflake
• Xây dựng các phân cấp
Mô h
Mô h
ì
ì
nh c
nh c
á
á
c b
c b



ng t
ng t
ó
ó
m t
m t


t
t
• Định nghĩa các bảng tóm tắt trước khi thiết kế
• Dùng các bảng riêng để chứa các tổng hợp/tóm tắt
SALES FACTS
Sales$ Region Month
10,000 North Jan 97
12,000 South Feb 97
11,000 North Jan 97
15,000 West Mar 97
18,000 South Feb 97
20,000 North Jan 97
10,000 East Jan 97
2,000 West Mar 97
SALES BY MONTH/REGION
Month Region Tot_Sales$
Jan 97 North 41,000
Jan 97 East 10,000
Feb 97 South 40,000
Mar 97 West 17,000
SALES BY MONTH

Month Tot_Sales
Jan 97 51,000
Feb 97 40,000
Mar 97 17,000
Khi n
Khi n
à
à
o th
o th
ì
ì
t
t
ó
ó
m t
m t


t d
t d


li
li


u
u

• Phân tích và đưa ra quyết định để truy cập
trực tiếp các tổng hợp có sẵn hay tính toán
tại thời điểm thực hiện câu hỏi.
• Việc tính toán các tỉ số nén cho phép quyết
định nên chọn phương án nào
Queried Rows Displayed Rows Calculation Ratio
1,341 22 22/11341 0.0164
234 22 22/234 0.09
30 22 22/30 0.73
20 22 22/20 1.1
C
C
á
á
c công c
c công c




Logic Works
Logic Works


Micro Strategy
Micro Strategy


Oracle
Oracle

Designer/2000
Designer/2000
Data Mart Designer
Data Mart Designer


Prism Solutions
Prism Solutions


Smart Corporation
Smart Corporation
V
V
í
í
d
d


Kho d
Kho d


li
li


u: Grocery Store
u: Grocery Store

• Một dây chuyền các cửa hàng tạp phẩm
nằm rãi rác 3 bang ở Mỹ
• Các kho: các siêu thị với các cửa hàng
như tạp phẩm, bơ sữa, thịt, thức ăn
lạnh, bánh mỳ, đồ uống,
• Khoảng 60.000 sản phẩm tại mỗi kho
Ví dụ điển hình của KDL trích từ KIM 96
Cơ s
Cơ s


• Dữ liệu sẵn sàng cho việc xây dựng KDL
– Dữ liệu từ các hệ thống nguồn: OLTP
– Được làm sạch
• Xây dựng kho DL:
– Mô hình các tiến trình kinh doanh nào ?
– Định nghĩa độ thô của dữ liệu để phù hợp với KDL
– Mô hình hoá cấu trúc KDL
– Biến đổi dữ liệu theo cấu trúc Kho DL
– Tính toán các tổng hợp và các dữ kiện suy dẫn
C
C
á
á
c ti
c ti
ế
ế
n tr
n tr

ì
ì
nh mô h
nh mô h
ì
ì
nh
nh
• KDL miêu tả khung nhìn của một tiến
trình kinh doanh
• Sự quyết định mô hình tiến trình kinh
doanh nào có tác động quan trọng
– Nhằm vào các vấn đề gì ?
– Các câu hỏi được đặt ra ?
– Các thông tin cần thiết
– KDL trung tâm hay các chợ dữ liệu
Ti
Ti
ế
ế
n tr
n tr
ì
ì
nh kinh doanh
nh kinh doanh
• Dữ liệu OLTP
– Point of sales (POS) data: Dữ liệu bán hàng
– Dữ liệu nhà cung cấp
– Dữ liệu kế toán

– Dữ liệu khách hàng
– Sự quảng cáo
Mục đích: Xây dựng một CSDL hoạt động
hàng ngày
V
V
í
í
d
d


v
v


đ
đ


thô
thô
• Độ thô nào cho dữ liệu POS? Các khả năng ?
– Toàn tác đơn theo từng khách hàng từng sản
phẩm tại từng kho
– Toàn tác nhóm theo từng khách hàng từng sản
phẩm tại từng kho
– Toàn tác nhóm hàng ngày theo từng kho từng sản
phẩm
– Toàn tác nhóm hàng tuần theo từng kho từng sản

phẩm
– Toàn tác nhóm hàng ngày từng sản phẩm tại từng
vùng
Đ
Đ


thô
thô
• Toàn tác nhóm hàng ngày theo từng kho
từng sản phẩm
– Dữ kiện theo từng khách hàng từng sản phẩm tại
từng kho không phù hợp cho việc phân tích thị
trường
– Dữ kiện theo từng tuần, hay tháng cũng không
phù hợp vì sẽ không phân tích được sự khác
nhau giữa các ngày
• Sự quyết định độ thô nào phụ thuộc vào tiến
trình kinh doanh và các câu hỏi cần trả lời
T
T


ng 2
ng 2
-
-
C
C
á

á
c phương ph
c phương ph
á
á
p lưu tr
p lưu tr


dl
dl
• Dữ liệu được dùng cho việc phân tích
trực tuyến phải được lưu trữ theo một
loại CSDL để có thể truy cập bởi công
cụ OLAP
• Dùng loại nào trong:
– MOLAP
– ROLAP
– HOLAP
– Các chợ dữ liệu
V
V
í
í
d
d


: Kho DL Grocery
: Kho DL Grocery

• Các CSDL quan hệ
• CSDL quan hệ được sử dụng trong OLTP tại
các công ty
• Các chuyên gia CNTT tại các công ty đã làm
quen nhiều với CSDL quan hệ
• ROLAP được dùng rộng rãI
ROLAP được dùng để lưu trữ KDL Grocery
C
C
á
á
c bu
c bu


c th
c th


c hi
c hi


n
n
• Chọn các tiến trình kinh doanh cho mô hình
– Sales
• Chọn cấp độ của tiến trình kinh doanh
– SKU by Store by Promotion by Day
– Chọn độ thô

• Chọn các chiều
– Time, Store, Promotion, Product
• Chọn các dữ kiện
– Dollar_sales, unit_sales, dollar_cost,
customer_count
Ư
Ư


c
c
lu
lu


ng
ng
dung
dung
lu
lu


ng
ng
• Time dimension: 2 years = 730 days
• Store dimension: 300 stores reporting each day
• Product dimension: 30,000 products, only 3000 sell
per day

• Promotion dimension: 5000 combinations, but a
product only appears in one combination per day
• Number of fact records: 730*300*3000*1 =
657,000,000
• Number of fields: 4 key + 4 fact = 8 fields
• Total DB size: 657,000,000 * 8 fields * 4 bytes = 21
GB

×