Tải bản đầy đủ (.ppt) (129 trang)

chương 3 môn kho dữ liệu về khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (864.38 KB, 129 trang )

March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 3
1
Bài giảng môn học
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Chương 3: Giới thiệu chung về Kho dữ liệu
Tài liệu này sử dụng một phần
Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook —
©Jiawei Han and Micheline Kamber
Department of Computer Science
University of Illinois at Urbana-Champaign
www.cs.uiuc.edu/~hanj
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 3
2
Nội dung

Khái niệm kho dữ liệu

Mô hình dữ liệu đa chiều

Kiến trúc kho dữ liệu

Thi hành kho dữ liệu

Từ xây dựng kho dữ liệu tới KPDL

Sự phát triển mới của công nghệ khối dữ liệu
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
3


Khái niệm kho dữ liệu

Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song không
nghiêm ngặt (chính xác).

CSDL hỗ trợ quyết định được duy trì
tách biệt
với CSDL tác
nghiệp của tổ chức.

Hỗ trợ
xử lý thông tin
nhờ cung cấp một nền tảng vững chắc dữ
liệu hợp nhất, lịch sử để phân tích.

“KDL là một tập hợp dữ liệu
hướng chủ đề
,
tích hợp
,
có tính thời
gian

không thay đổi
để hỗ trợ quá trình tạo quyết định quản
lý.”—W. H. Inmon [Inm02]

Bốn “đặc trưng”:
hướng chủ đề
,

tích hợp
,
có tính thời gian

không
thay đổi
[Inm02] W. H. Inmon (2002).
Building the Data Warehouse (Third Edition)
. John Wiley & Sons, Inc.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
4
Kho dữ liệu: khái niệm

Kho dữ liệu là một môi trường thông tin [Pon01]:

Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp

Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để
thuận lợi ra quyết định

Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ
thống tác nghiệp

Cung cấp tính nhất quán thông tin doanh nghiệp

Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được
Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity”
[Pon01] Paulraj Ponniah,
Data warehousing fundamentals

, John Wiley & Sons Inc., 2001
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
5
Kiến trúc kho dữ liệu: sơ bộ
[Ora02] Oracle9 i. Data Warehousing Guide, Release 2 (9.2), March 2002, Part No. A96520-01
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
6
Tạo kho dữ liệu – Data warehousing
Xây dựng KDL (“KDL hóa”): Quá trình xây dựng và sử dụng KDL
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
7
KDL — đặc trưng hướng chủ đề

Được tổ chức xung quanh các chủ đề chính, chẳng hạn như
khách hàng
,
sản phẩm
,
bán hàng
.

Tập trung vào
xây dựng mô hình

phân tích dữ liệu
để
tạo

quyết định
; không phái quá trình tác nghiệp hoặc giao dịch
hàng này.

Cung cấp một
khung nhìn đơn giản và ngắn gọn
về các đề
tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng
trong quá trình ra quyết định.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
8
Ứng dụng tác nghiệp chủ đề KDL
KDL — đặc trưng hướng chủ đề
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
9
KDL - đặc trưng tích hợp

KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu
phức, không đồng nhất

CSDL quan hệ, CSDL file phẳng (flat files: mã hóa
CSDL sang dạng đặc biệt như .txt hoặc .ini), các bản
ghi giao dịch trực tuyến

Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ
liệu.

Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã

hóa, đo lường thuộc tính, … giữa các nguồn dữ liệu
khác nhau

VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng…

Dữ liệu chuyển tới KDL thì nó được chuyển đổi.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
10
KDL - đặc trưng tích hợp
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
11
KDL: các vấn đề tích hợp
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
12
KDL: chủ đề - tích hợp
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
13
KDL - đặc trưng thời gian

Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ
thống CSDL tác nghiệp.

CSDL tác nghiệp: dữ liệu giá trị hiện thời.

Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch sử
(chẳng hạn, 5-10 năm quá khứ)


Mọi cấu trúc cốt lõi trong KDL

Chứa yếu tố thời gian, hiện hoặc ẩn

Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa hoặc
không chứa “yếu tố thời gian”.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
14
KDL - đặc trưng thời gian

Chiều thời gian 5=10 năm

Anbum ảnh chụp dữ liệu

Cấu trúc chính chứa yếu tố thời gian

Chiều thời gian hiện thời tới 60-
90 ngày

Cập nhật hồ sơ

Cấu trúc chính chứa / không
chứa yếu tố thời gian
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
15
KDL - đặc trưng không thay đổi


Lưu trữ vật lý riêng biệt các dữ liệu được chuyển từ môi
trường tác nghiệp sang.

Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi
trường KDL.

Không có xử lý giao dịch, phục hồi và cơ chế điều
khiển đồng thời.

Chí có hai thao tác truy nhập dữ liệu:

Tải ban đầu dữ liệu

truy cập dữ liệu
. Dữ liệu
nguồn không biến đổi trong KDL.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
16
KDL - đặc trưng không thay đổi
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
17
KDL ≠ HQT CSDL không đồng nhất

Tích hợp CSDL không đồng nhất truyền thống:

Xây dựng
bộ bao gói/bộ hòa hợp
trên đỉnh CSDL không đồng

nhất

Tiếp cận theo truy vấn

Khi một truy vấn được đưa đến CSDL cục bộ: dùng một siêu
từ điển để dịch truy vấn thành các truy vấn phù hợp với các
CSDL cục bộ riêng rẽ và kết quả được tích hợp thành một tập
trả lời toàn cục

Phức tạp lọc thông tin, cạnh tranh tài nguyên

KDL: định hướng cập nhật, hiệu năng cao

Thông tin từ các nguồn không đồng nhất được tích hợp trước và
lưu trữ trong KDL để truy vấn và xử lý trực tiếp
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
18
KDL và Hệ QTCSDL tác nghiệp

OLTP (xử lý giao dịch trực tuyến / on-line transaction processing)

Bài toán chính của Hệ QT CSDL quan hệ truyền thống

Tác nghiệp hàng ngày: thu mua, lưu kho, ngân hàng, sản xuất,
tiền lương, đăng ký, kế toán, vv

OLAP (xử lý phân tích trực tuyến/ on-line analytical processing)

Bài toand chính của hệ thống KDL


Phân tích dữ liệu và tạo quyết định

Đặc trưng phân biệt (OLTP <> OLAP):

Định hướng người dùng và hệ thống: khách hàng <>thị trường

Nội dung dữ liệu: hiện thời, cụ thể <> lịch sử, hợp nhất

Thiết kế CSDL: ER + ứng dụng <> hình sao + chủ đề

Khung nhìn: hiện thời, cục bộ <> tiến hóa, tích hợp

Mẫu truy cập: truy nhập <> chỉ đọc với câu hỏi phức
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
19
OLTP <> OLAP
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
20
Kho dữ liệu riêng biệt

Hiệu năng cao cho cả hai hệ thống

DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ mục,
điều khiển đồng thời, khôi phục

Warehouse—phân bổ cho OLAP: truy vấn OLAP phức, khung nhìn
đa chiều, hợp nhất


Chức năng khác nhau và dữ liệu khác nhau:

Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch sử mà CSDL tác
nghiệp thường không duy trì

Hợp nhất dữ liệu: Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp,
tóm tắt) của dữ liệu từ các nguồn không đồng nhất

Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa
và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp)
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
21
Kho dữ liệu riêng biệt
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
22
Từ các bảng và bảng tính tới khối dữ liệu

Một KDL dựa trên một
mô hình dữ liệu đa chiều
với khung nhìn dữ
liệu dưới dạng các khối dữ liệu

Một khối dữ liệu, như sales, cho phép dữ liệu được mô hình hóa và
được nhìn theo đa chiều

Bảng chiều, như item (item_name, brand, type), hoặc time(day,
week, month, quarter, year)


Bảng sự kiện chứa các giá trị “đo” (như dollars_sold) và các khóa
tới mỗi bảng chiều liên quan

Theo cách nói của KDL, một khối cơ sở n-D được gọi là một cuboid
cơ sở. Cao nhất là 0-D cuboid chứa tóm tắt ở mức cao nhất (được
gọi là cuboid đỉnh). Dàn các cuboid tạo thành một khối dữ liệu.
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
23
Khối dữ liệu sales: Dàn các Cuboid
all
time item location supplier
time,item
time,location
time,supplier
item,location
item,supplier
location,supplier
time,item,location
time,item,supplier
time,location,supplier
item,location,supplier
time, item, location, supplier
0-D(apex) cuboid
1-D cuboids
2-D cuboids
3-D cuboids
4-D(base) cuboid
March 14, 2013

Kho dữ liệu và khai phá dữ liệu: Chương 3
24
Chương 3: Cơ sở về kho dữ liệu

Khái niệm kho dữ liệu

Mô hình dữ liệu đa chiều

Kiến trúc kho dữ liệu

Thi hành kho dữ liệu

Từ xây dựng kho dữ liệu tới KPDL

Sự phát triển mới của công nghệ khối dữ liệu
March 14, 2013
Kho dữ liệu và khai phá dữ liệu: Chương 2
25
Mô hình khái niệm của KDL

Mô hình KDL: chiều và giá trị đo

Sơ đồ hình sao (star schema): Một bảng sự kiện ở
trung tâm được kết nối với một tập các bảng chiều

Sơ đồi bông tuyết (Snowflake schema): Một mở rộng
của sơ đồ hình sao trong đó một vài cấu trúc chiều
được chuẩn hóa thành một tập các bảng chiều nhỏ
hơn, hình thức tương tự như bông tuyết.


Sơ đồ chòm sao sự kiện (Fact constellations schema):
Bảng sự kiện phức chia sẻ các bảng chiều, tạo khung
nhìn một tập các “ngôi sao”, nên còn được gọi
sơ đồ
ngân hà
(galaxy schema) hoặc
chòm sao sự kiện

×