Đánh giá kết quả:
- Chuyên cần: 10% (Cấm thi nếu vắng trên
20% số buổi học)
- Chuyên cầnThực hành+ BT về nhà+TH:
20%
- Thuyết trình và báo cáo chuyên đề: 20%
- Kiểm ta cuối kỳ: 50%
- Điểm cộng
1
CHAPTER 1: GIỚI THIỆU
Data warehouse là gì?
Kiến trúc của Data warehouse
BI (business intelligence) là gì?
Data warehouse và data mining
2
CHAPTER 1: GIỚI THIỆU
Data warehouse là gì?
Kiến trúc của Data warehouse
BI (business intelligence) là gì?
Data warehouse và data mining
3
DATA WAREHOUSE LÀ GÌ?
Cơng nghệ thơng tin được áp dụng trong hầu
hết các lĩnh vực
Một lượng dữ liệu được tích lũy
Nhiều
dạng lưu trữ
Khác nhau về cấu trúc
Phân mảnh
Khác nhau về giao diện
Không nhất quán, trùng lắp
4
MộT NHÀ SảN XUấT MN
BIếT…
Khách
Kháchhàng
hàngnào
nào
mang
manglại
lạilợi
lợinhuận
nhuận
cao/thấp
cao/thấpnhất
nhất??
Những
Nhữngmặt
mặthàng
hàngnào
nào
khách
kháchhàng
hàngcần
cầnmua?
mua?
Kênh
Kênhphân
phânphối
phối
nào
nàohiệu
hiệuquả
quảnhất?
nhất?
Những
Nhữngkhuyến
khuyếnmãi
mãi
nào
nàotạo
tạonên
nênlợi
lợi
nhuận
nhuậncao
caonhất
nhất
Khách
Kháchhàng
hàngnào
nào
là
làứng
ứngviên
viêntốt
tốtnhất
nhất
Những
Nhữngtác
tácđộng
độngnào
nào
khi
khicó
cósp/dv
sp/dvmới?
mới?
5
VấN Đề:
Khơng tìm thấy dữ liệu cần thiết
DL nằm rải rác trên mạng
Nhiều phiên bản, nhiệu dạng thức khác nhau
o Khó hiểu thơng tin tìm được, khơng dể dàng sử
dụng được cho việc ra quyết định
Dữ liệu có nhiều, nhưng không phục vụ tốt cho người ra
quyết định về chiến lược và mục tiêu kinh doanh
Phải cần đến chuyên gia
Phải chuyển sang dạng khác
6
DATA WAREHOUSE LÀ GÌ?
Một sự lưu trữ dữ liệu thống nhất, đầy đủ,
riêng lẻ từ nhiều nguồn khác nhau, khả dụng
cho người dùng cuối, theo cách mà có thể
hiểu, dùng được cho một ngữ cảnh cụ thể .
[Barry Devlin]
7
DATA WAREHOUSE LÀ GÌ?
W. H. Inmon
Một data warehouse là một tập dữ liệu hỗ
việc ra quyết định quản lý:
Hướng chủ thể (subject-oriented)
Tích hợp (integrated)
Biến thời gian (time-variant)
Bền vững (non-volatile)
8
CÁC ĐặC ĐIểM CủA DW
Thiết
kế cho các công việc phân tích
Thiết kế cho một nhóm nhỏ người
dùng (decision makers)
Chỉ đọc
Cập nhập theo giai đoạn: chỉ thêm dữ
liệu
Dữ liệu lịch sử theo chiều thời gian
Các câu hỏi trả về các tập kết quả lớn,
đa kết nối.
Toàn cục
Hệ Hỗ TRợ QUYếT ĐịNH
Được
biết đến như là một phần của
kho dữ liệu
Cung cấp các báo cáo, phân tích tiền
tính tốn, các đồ thị, biểu đồ
Cho phép phân tích trực tuyến dữ liệu
Thăm dị sự tương tác dữ liệu
Cung cấp các giao diện đa dạng cho
người dùng
Cung cấp khả năng phân tích dữ liệu
phức tạp bằng phương thức đơn giản
YÊU CầU CủA Hệ Hỗ TRợ QUYếT ĐịNH
Khung nhìn dữ liệu đa chiều
Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu
vào chi tiết
Trả lời nhanh các câu hỏi
HUớNG CHủ THể (SUBJECT
ORIENTED)
Được tổ chức xung quanh các chủ thể chính,
như khách hàng (customer), sản phẩm
(product), bán hàng (sales).
Tập trung vào việc mơ hình hóa và phân tích
dữ liệu cho các nhà đưa ra quyết định, mà
không tập trung vào các hoạt động hay các
xử lý giao dịch hàng ngày.
Cung cấp một khung nhìn đơn giản và súc
tích xung quanh các sự kiện của các chủ thể
TÍCH HợP (INTEGRATED)
Được
xây dựng bằng việc tích hợp dữ
liệu từ các nguồn dữ liệu hỗn tạp, đa bộ
Cơ
sở dữ liệu quan hệ (relational
databases), flat files, các bảng ghi tồn tác
trực tuyến.
Các
kỹ thuật làm sạch và tích hợp dữ
liệu được áp dụng
Đảm
bảo sự đồng nhất trong các quy ước
tên, cấu trúc mã hóa, các đơn vị đo thuộc
tính, … giữa các nguồn khác nhau
Ví dụ như: Hotel price: currency, tax, breakfast
covered, ...
Khi
dữ liệu được chuyển đến kho dữ liệu, nó
sẽ được chuyển đổi.
TIME VARIANT
Yêu cầu quan trọng cho kho dữ liệu là phạm vi về
thời gian dài hơn so với các hệ thống tác nghiệp.
Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời
Dữ liệu của kho dữ liệu: cung cấp thơng tin lịch sử (ví dụ
như, 5-10 năm trước)
Yếu tố thời gian được lưu trữ trong CSDL
Time
Data
01/97
Data for January
02/97
Data for February
03/97
Data for March
NON-VOLATILE
Là một lưu trữ vật lý của dữ liệu được chuyển
đổi từ mơi trường tác nghiệp.
DW khơng có các DELETE, UPDATE (như
torng hệ tác nghiệp) mà chỉ có thao tác
INSERT
Khơng yêu cầu các cơ chế xử lý giao dịch, phục hồi
và điều khiển tương tranh.
Chỉ yêu cầu hai thao tác trong truy cập dữ liệu:
Nạp dữ liệu và truy cập dữ liệu.
16
Three-Tier Decision Support Systems
Information Sources
Semistructured
Sources
Operational
DB’s
Data Warehouse
Server
(Tier 1)
OLAP Servers
(Tier 2)
e.g., MOLAP
Data
Warehouse
extract
transform
load
refresh
etc.
Clients
(Tier 3)
OLAP
serve
Query/Reporting
serve
e.g., ROLAP
serve
Data Marts
Data Mining
MƠ HÌNH Dữ LIệU ĐA CHIềU
(MULTIDEMENSIONAL DATA MODEL)
Được đề xuất cho mơ hình phân tích (khơng sử dụng cho
hệ thống CSDL tác nghiệp)
Sử dụng cho các công cụ xử lý phân tích trực tuyến (OLAP:
on-line analytical processing)
18
MƠ HÌNH Dữ LIệU ĐA CHIềU
(MULTIDEMENSIONAL DATA MODEL)
Store Info
Key columns joining fact table
Numerical Measures
to dimension tables
Prod Code Time Code Store Code Sales
Product Info
Qty
Fact table for
measures
19
Time Info
Dimension tables
KHO Dữ LIệU VÀ CÁC CSDL
Xử lý giao dịch trực tuyến OLTP (on-line
transaction processing)
Tác vụ chính của các hệ RDBMS truyền thống.
Các thao tác hàng ngày: mua, kiểm kê, kế tốn,…
Xử lý phân tích trực tuyến OLAP (on-line
analytical processing)
Là tác vụ chính của hệ thống data warehouse
Phân tích dữ liệu và đưa ra quyết định
Các đặc tiểm khác nhau (OLTP vs. OLAP):
CÁC PHÉP TOÁN OLAP TIÊU BIỂU
Roll up (drill-up): summarize data
Drill down (roll down): reverse of roll-up
project and select
Pivot (rotate):
from higher level summary to lower level summary or
detailed data, or introducing new dimensions
Slice and dice:
by climbing up hierarchy or by dimension reduction
reorient the cube, visualization, 3D to series of 2D planes.
Other operations
drill across: involving (across) more than one fact table
…
Han
:
Dat
a
Cub
es
21
THREE DATA WAREHOUSE MODELS
Enterprise warehouse
Tập hợp tất cả cac thơng tin về các chủ đề bao
trùm tồn bộ tổ chức
Data Mart
Có đặc điểm như Data Warehouse nhưng quy mơ
nhỏ hơn, phục vụ cho một nhóm nhỏ người dùng
Virtual warehouse
Một tập các khung nhìn trên CSDL tác nghiệp
Mar
ch
22,
2220
THREE DATA WAREHOUSE MODELS
Enterprise warehouse
Tập hợp tất cả cac thơng tin về các chủ đề bao
trùm tồn bộ tổ chức
Data Mart
Có đặc điểm như Data Warehouse nhưng quy mơ
nhỏ hơn, phục vụ cho một nhóm nhỏ người dùng
Virtual warehouse
Tập các Views trên operational database
Mar
ch
22,
2320
DEPENDENT DATA MART & INDEPENDENT DATA
MARTS
•
o
Dependent Data Mart:
Chứa những dữ liệu được lấy từ Data Warehouse,
những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp
lại ở mức cao hơn để phục vụ một chủ đề nhất định của
Datamart.
Independent Data Marts:
Data mart độc lập được xây dựng trước DW, dữ liệu
được trực tiếp lấy từ các nguồn khác nhau.
24
DATA WAREHOUSE BACK-END TOOLS AND
UTILITIES
Data extraction
Data cleaning
Data transformation
Load
Refresh
Mar
ch
22,
20