Tải bản đầy đủ (.ppt) (27 trang)

ĐẠI CƯƠNG DATA WARE HOUSE (DATA WARE HOUSE SLIDE)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (296.16 KB, 27 trang )

Đánh giá kết quả:
- Chuyên cần: 10% (Cấm thi nếu vắng trên
20% số buổi học)
- Chuyên cầnThực hành+ BT về nhà+TH:
20%
- Thuyết trình và báo cáo chuyên đề: 20%
- Kiểm ta cuối kỳ: 50%
- Điểm cộng
1


CHAPTER 1: GIỚI THIỆU



Data warehouse là gì?



Kiến trúc của Data warehouse



BI (business intelligence) là gì?



Data warehouse và data mining

2



CHAPTER 1: GIỚI THIỆU



Data warehouse là gì?



Kiến trúc của Data warehouse



BI (business intelligence) là gì?



Data warehouse và data mining

3


DATA WAREHOUSE LÀ GÌ?
Cơng nghệ thơng tin được áp dụng trong hầu
hết các lĩnh vực
 Một lượng dữ liệu được tích lũy


 Nhiều


dạng lưu trữ
 Khác nhau về cấu trúc
 Phân mảnh
 Khác nhau về giao diện
 Không nhất quán, trùng lắp

4


MộT NHÀ SảN XUấT MN
BIếT…
Khách
Kháchhàng
hàngnào
nào
mang
manglại
lạilợi
lợinhuận
nhuận
cao/thấp
cao/thấpnhất
nhất??
Những
Nhữngmặt
mặthàng
hàngnào
nào
khách
kháchhàng

hàngcần
cầnmua?
mua?

Kênh
Kênhphân
phânphối
phối
nào
nàohiệu
hiệuquả
quảnhất?
nhất?

Những
Nhữngkhuyến
khuyếnmãi
mãi
nào
nàotạo
tạonên
nênlợi
lợi
nhuận
nhuậncao
caonhất
nhất

Khách
Kháchhàng

hàngnào
nào

làứng
ứngviên
viêntốt
tốtnhất
nhất
Những
Nhữngtác
tácđộng
độngnào
nào
khi
khicó
cósp/dv
sp/dvmới?
mới?

5


VấN Đề:


Khơng tìm thấy dữ liệu cần thiết
DL nằm rải rác trên mạng
 Nhiều phiên bản, nhiệu dạng thức khác nhau



o Khó hiểu thơng tin tìm được, khơng dể dàng sử
dụng được cho việc ra quyết định
 Dữ liệu có nhiều, nhưng không phục vụ tốt cho người ra
quyết định về chiến lược và mục tiêu kinh doanh
 Phải cần đến chuyên gia
 Phải chuyển sang dạng khác
6


DATA WAREHOUSE LÀ GÌ?
Một sự lưu trữ dữ liệu thống nhất, đầy đủ,
riêng lẻ từ nhiều nguồn khác nhau, khả dụng
cho người dùng cuối, theo cách mà có thể
hiểu, dùng được cho một ngữ cảnh cụ thể .
[Barry Devlin]

7


DATA WAREHOUSE LÀ GÌ?
W. H. Inmon
Một data warehouse là một tập dữ liệu hỗ
việc ra quyết định quản lý:
 Hướng chủ thể (subject-oriented)
 Tích hợp (integrated)
 Biến thời gian (time-variant)
 Bền vững (non-volatile)

8



CÁC ĐặC ĐIểM CủA DW
 Thiết

kế cho các công việc phân tích
 Thiết kế cho một nhóm nhỏ người
dùng (decision makers)
 Chỉ đọc
 Cập nhập theo giai đoạn: chỉ thêm dữ
liệu
 Dữ liệu lịch sử theo chiều thời gian
 Các câu hỏi trả về các tập kết quả lớn,
đa kết nối.
 Toàn cục


Hệ Hỗ TRợ QUYếT ĐịNH
 Được

biết đến như là một phần của
kho dữ liệu
 Cung cấp các báo cáo, phân tích tiền
tính tốn, các đồ thị, biểu đồ
 Cho phép phân tích trực tuyến dữ liệu
 Thăm dị sự tương tác dữ liệu
 Cung cấp các giao diện đa dạng cho
người dùng
 Cung cấp khả năng phân tích dữ liệu
phức tạp bằng phương thức đơn giản



YÊU CầU CủA Hệ Hỗ TRợ QUYếT ĐịNH
Khung nhìn dữ liệu đa chiều
 Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu
vào chi tiết
 Trả lời nhanh các câu hỏi



HUớNG CHủ THể (SUBJECT
ORIENTED)


Được tổ chức xung quanh các chủ thể chính,
như khách hàng (customer), sản phẩm
(product), bán hàng (sales).



Tập trung vào việc mơ hình hóa và phân tích
dữ liệu cho các nhà đưa ra quyết định, mà
không tập trung vào các hoạt động hay các
xử lý giao dịch hàng ngày.



Cung cấp một khung nhìn đơn giản và súc
tích xung quanh các sự kiện của các chủ thể



TÍCH HợP (INTEGRATED)
 Được

xây dựng bằng việc tích hợp dữ
liệu từ các nguồn dữ liệu hỗn tạp, đa bộ
 Cơ

sở dữ liệu quan hệ (relational
databases), flat files, các bảng ghi tồn tác
trực tuyến.

 Các

kỹ thuật làm sạch và tích hợp dữ
liệu được áp dụng
 Đảm

bảo sự đồng nhất trong các quy ước
tên, cấu trúc mã hóa, các đơn vị đo thuộc
tính, … giữa các nguồn khác nhau


Ví dụ như: Hotel price: currency, tax, breakfast
covered, ...

 Khi

dữ liệu được chuyển đến kho dữ liệu, nó
sẽ được chuyển đổi.



TIME VARIANT




Yêu cầu quan trọng cho kho dữ liệu là phạm vi về
thời gian dài hơn so với các hệ thống tác nghiệp.


Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời



Dữ liệu của kho dữ liệu: cung cấp thơng tin lịch sử (ví dụ
như, 5-10 năm trước)

Yếu tố thời gian được lưu trữ trong CSDL

Time

Data

01/97

Data for January

02/97

Data for February


03/97

Data for March


NON-VOLATILE


Là một lưu trữ vật lý của dữ liệu được chuyển
đổi từ mơi trường tác nghiệp.



DW khơng có các DELETE, UPDATE (như
torng hệ tác nghiệp) mà chỉ có thao tác
INSERT


Khơng yêu cầu các cơ chế xử lý giao dịch, phục hồi
và điều khiển tương tranh.



Chỉ yêu cầu hai thao tác trong truy cập dữ liệu:


Nạp dữ liệu và truy cập dữ liệu.



16


Three-Tier Decision Support Systems
Information Sources

Semistructured
Sources

Operational
DB’s

Data Warehouse
Server
(Tier 1)

OLAP Servers
(Tier 2)

e.g., MOLAP

Data
Warehouse

extract
transform
load
refresh
etc.


Clients
(Tier 3)
OLAP

serve
Query/Reporting
serve

e.g., ROLAP
serve

Data Marts

Data Mining


MƠ HÌNH Dữ LIệU ĐA CHIềU
(MULTIDEMENSIONAL DATA MODEL)
Được đề xuất cho mơ hình phân tích (khơng sử dụng cho
hệ thống CSDL tác nghiệp)
 Sử dụng cho các công cụ xử lý phân tích trực tuyến (OLAP:
on-line analytical processing)


18


MƠ HÌNH Dữ LIệU ĐA CHIềU
(MULTIDEMENSIONAL DATA MODEL)
Store Info


Key columns joining fact table
Numerical Measures
to dimension tables
Prod Code Time Code Store Code Sales

Product Info

Qty
Fact table for
measures
19

Time Info

Dimension tables


KHO Dữ LIệU VÀ CÁC CSDL






Xử lý giao dịch trực tuyến OLTP (on-line
transaction processing)


Tác vụ chính của các hệ RDBMS truyền thống.




Các thao tác hàng ngày: mua, kiểm kê, kế tốn,…

Xử lý phân tích trực tuyến OLAP (on-line
analytical processing)


Là tác vụ chính của hệ thống data warehouse



Phân tích dữ liệu và đưa ra quyết định

Các đặc tiểm khác nhau (OLTP vs. OLAP):


CÁC PHÉP TOÁN OLAP TIÊU BIỂU


Roll up (drill-up): summarize data




Drill down (roll down): reverse of roll-up





project and select

Pivot (rotate):




from higher level summary to lower level summary or
detailed data, or introducing new dimensions

Slice and dice:




by climbing up hierarchy or by dimension reduction

reorient the cube, visualization, 3D to series of 2D planes.

Other operations


drill across: involving (across) more than one fact table





Han

:
Dat
a
Cub
es
21


THREE DATA WAREHOUSE MODELS
Enterprise warehouse
 Tập hợp tất cả cac thơng tin về các chủ đề bao
trùm tồn bộ tổ chức
 Data Mart
 Có đặc điểm như Data Warehouse nhưng quy mơ
nhỏ hơn, phục vụ cho một nhóm nhỏ người dùng
 Virtual warehouse
 Một tập các khung nhìn trên CSDL tác nghiệp


Mar
ch
22,
2220


THREE DATA WAREHOUSE MODELS
Enterprise warehouse
 Tập hợp tất cả cac thơng tin về các chủ đề bao
trùm tồn bộ tổ chức
 Data Mart

 Có đặc điểm như Data Warehouse nhưng quy mơ
nhỏ hơn, phục vụ cho một nhóm nhỏ người dùng




Virtual warehouse
 Tập các Views trên operational database

Mar
ch
22,
2320


DEPENDENT DATA MART & INDEPENDENT DATA
MARTS



o

Dependent Data Mart:
Chứa những dữ liệu được lấy từ Data Warehouse,
những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp
lại ở mức cao hơn để phục vụ một chủ đề nhất định của
Datamart.
Independent Data Marts:
Data mart độc lập được xây dựng trước DW, dữ liệu
được trực tiếp lấy từ các nguồn khác nhau.


24


DATA WAREHOUSE BACK-END TOOLS AND
UTILITIES
Data extraction
 Data cleaning
 Data transformation
 Load
 Refresh


Mar
ch
22,
20


×