Tải bản đầy đủ (.ppt) (129 trang)

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 129 trang )

Bài giảng môn học

KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Chương 3: Giới thiệu chung về Kho dữ liệu
Tài liệu này sử dụng một phần
Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook —

©Jiawei Han and Micheline Kamber
Department of Computer Science
University of Illinois at Urbana-Champaign
www.cs.uiuc.edu/~hanj

May 8, 2021

Kho dữ liệu và khai phá dữ liệu: Chương
3

1


Nội dung


Khái niệm kho dữ liệu



Mơ hình dữ liệu đa chiều




Kiến trúc kho dữ liệu



Thi hành kho dữ liệu



Từ xây dựng kho dữ liệu tới KPDL



Sự phát triển mới của công nghệ khối dữ liệu

May 8, 2021

Kho dữ liệu và khai phá dữ liệu: Chương
3

2


Khái niệm kho dữ liệu


Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song khơng
nghiêm ngặt (chính xác).
 CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác
nghiệp của tổ chức.
 Hỗ trợ xử lý thông tin nhờ cung cấp một nền tảng vững chắc

dữ liệu hợp nhất, lịch sử để phân tích.



“KDL là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời
gian và khơng thay đổi để hỗ trợ q trình tạo quyết định quản
lý.”—W. H. Inmon [Inm02]



Bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian và
khơng thay đổi

[Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition). John Wiley & Sons,
Inc.
May 8, 2021

Kho dữ liệu và khai phá dữ liệu: Chương
2
3


Kho dữ liệu: khái niệm


Kho dữ liệu là một môi trường thơng tin [Pon01]:


Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp




Tạo sự sẵn có thơng tin hiện tại và lịch sử của doanh nghiệp để
thuận lợi ra quyết định



Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ
thống tác nghiệp



Cung cấp tính nhất qn thơng tin doanh nghiệp



Trình diễn nguồn thơng tin chiến lược linh hoạt và tương tác được

Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity”
[Pon01] Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

4


Kiến trúc kho dữ liệu: sơ bộ


[Ora02] Oracle9 i. Data Warehousing Guide, Release 2 (9.2), March 2002, Part No. A96520-01
Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

5


Tạo kho dữ liệu – Data
warehousing

Xây dựng KDL (“KDL hóa”): Quá trình xây dựng và sử dụng
KDL
May 8, 2021

Kho dữ liệu và khai phá dữ liệu: Chương
2
6


KDL — đặc trưng hướng chủ đề


Được tổ chức xung quanh các chủ đề chính, chẳng
hạn như khách hàng, sản phẩm, bán hàng.



Tập trung vào xây dựng mơ hình và phân tích dữ
liệu để tạo quyết định; khơng phái q trình tác

nghiệp hoặc giao dịch hàng này.



Cung cấp một khung nhìn đơn giản và ngắn gọn về
các đề tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ
liệu vô dụng trong quá trình ra quyết định.

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

7


KDL — đặc trưng hướng chủ đề

Ứng dụng tác nghiệp
KDL

chủ đề

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

8


KDL - đặc trưng tích hợp





KDL đươc xây dựng từ việc tích hợp các nguồn dữ
liệu phức, khơng đồng nhất
 CSDL quan hệ, CSDL file phẳng (flat files: mã
hóa CSDL sang dạng đặc biệt như .txt hoặc
.ini), các bản ghi giao dịch trực tuyến
Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp
dữ liệu.
 Đảm bảo tính nhất quán quy ước đặt tên, cấu
trúc mã hóa, đo lường thuộc tính, … giữa các
nguồn dữ liệu khác nhau




VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng…

Dữ liệu chuyển tới KDL thì nó được chuyển đổi.
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

9


KDL - đặc trưng tích hợp


Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

10


KDL: các vấn đề tích hợp

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

11


KDL: chủ đề - tích hợp

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

12


KDL - đặc trưng thời gian





Chiều thời gian đối với KDL là đáng kể dài hơn so
với hệ thống CSDL tác nghiệp.


CSDL tác nghiệp: dữ liệu giá trị hiện thời.



Dữ liệu KDL: cung cấp thông tin theo “quan
điểm” lịch sử (chẳng hạn, 5-10 năm quá khứ)

Mọi cấu trúc cốt lõi trong KDL


Chứa yếu tố thời gian, hiện hoặc ẩn



Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa
hoặc khơng chứa “yếu tố thời gian”.
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

13


KDL - đặc trưng thời gian


•Chiều thời gian hiện thời tới 6090 ngày
•Cập nhật hồ sơ
•Cấu trúc chính chứa / khơng
chứa yếu tố thời gian

•Chiều thời gian 5=10 năm
•Anbum ảnh chụp dữ liệu
•Cấu trúc chính chứa yếu tố thời
gian

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

14


KDL - đặc trưng không thay đổi


Lưu trữ vật lý riêng biệt các dữ liệu được chuyển
từ môi trường tác nghiệp sang.



Cập nhật tác nghiệp dữ liệu không xuất hiện trong
mơi trường KDL.



Khơng có xử lý giao dịch, phục hồi và cơ chế
điều khiển đồng thời.



Chí có hai thao tác truy nhập dữ liệu:


Tải ban đầu dữ liệu và truy cập dữ liệu. Dữ
liệu nguồn không biến đổi trong KDL.
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

15


KDL - đặc trưng không thay đổi

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

16


KDL ≠ HQT CSDL khơng đồng nhất



Tích hợp CSDL khơng đồng nhất truyền thống:


Xây dựng bộ bao gói/bộ hịa hợp trên đỉnh CSDL không
đồng nhất



Tiếp cận theo truy vấn






Khi một truy vấn được đưa đến CSDL cục bộ: dùng một
siêu từ điển để dịch truy vấn thành các truy vấn phù
hợp với các CSDL cục bộ riêng rẽ và kết quả được tích
hợp thành một tập trả lời tồn cục
Phức tạp lọc thông tin, cạnh tranh tài nguyên

KDL: định hướng cập nhật, hiệu năng cao


Thông tin từ các nguồn không đồng nhất được tích hợp
trước và lưu trữ trong KDL để truy vấn và xử lý trực tiếp
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021


17


KDL và Hệ QTCSDL tác nghiệp






OLTP (xử lý giao dịch trực tuyến / on-line transaction processing)


Bài tốn chính của Hệ QT CSDL quan hệ truyền thống



Tác nghiệp hàng ngày: thu mua, lưu kho, ngân hàng, sản xuất,
tiền lương, đăng ký, kế tốn, vv

OLAP (xử lý phân tích trực tuyến/ on-line analytical processing)


Bài toand chính của hệ thống KDL



Phân tích dữ liệu và tạo quyết định


Đặc trưng phân biệt (OLTP <> OLAP):


Định hướng người dùng và hệ thống: khách hàng <>thị trường



Nội dung dữ liệu: hiện thời, cụ thể <> lịch sử, hợp nhất



Thiết kế CSDL: ER + ứng dụng <> hình sao + chủ đề



Khung nhìn: hiện thời, cục bộ <> tiến hóa, tích hợp



Mẫu truy cập: truy nhập <> chỉ đọc với câu hỏi phức
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

18


OLTP <> OLAP


Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

19


Kho dữ liệu riêng biệt




Hiệu năng cao cho cả hai hệ thống


DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ
mục, điều khiển đồng thời, khôi phục



Warehouse—phân bổ cho OLAP: truy vấn OLAP phức,
khung nhìn đa chiều, hợp nhất

Chức năng khác nhau và dữ liệu khác nhau:


Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch sử mà
CSDL tác nghiệp thường khơng duy trì




Hợp nhất dữ liệu: Hỗ trợ quyết định địi hỏi hợp nhất (tổng
hợp, tóm tắt) của dữ liệu từ các nguồn không đồng nhất



Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn,
mã hóa và khuôn dạng dữ liệu không nhất quán (cần phải
Kho dữ liệu và khai phá dữ liệu: Chương
hòa hợp)
2

May 8, 2021

20


Kho dữ liệu riêng biệt

Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

21


Từ các bảng và bảng tính tới khối dữ
liệu



Một KDL dựa trên một mơ hình dữ liệu đa chiều với khung
nhìn dữ liệu dưới dạng các khối dữ liệu



Một khối dữ liệu, như sales, cho phép dữ liệu được mô hình
hóa và được nhìn theo đa chiều





Bảng chiều, như item (item_name, brand, type), hoặc
time(day, week, month, quarter, year)



Bảng sự kiện chứa các giá trị “đo” (như dollars_sold) và
các khóa tới mỗi bảng chiều liên quan

Theo cách nói của KDL, một khối cơ sở n-D được gọi là một
cuboid cơ sở. Cao nhất là 0-D cuboid chứa tóm tắt ở mức cao
nhất (được gọi là cuboid đỉnh). Dàn các cuboid tạo thành một
khối dữ liệu.
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

22



Khối dữ liệu sales: Dàn các
Cuboid
all
time

0-D(apex) cuboid

item

location

time,location

item,supplier

time,item,supplier

time,item,location

1-D cuboids

location,supplier

item,location

time,supplier

time,item


supplier

item,location,supplier

2-D cuboids
3-D cuboids

time,location,supplier

4-D(base) cuboid
time, item, location, supplier
Kho dữ liệu và khai phá dữ liệu: Chương
2
May 8, 2021

23


Chương 3: Cơ sở về kho dữ liệu


Khái niệm kho dữ liệu



Mơ hình dữ liệu đa chiều




Kiến trúc kho dữ liệu



Thi hành kho dữ liệu



Từ xây dựng kho dữ liệu tới KPDL



Sự phát triển mới của công nghệ khối dữ
liệu

May 8, 2021

Kho dữ liệu và khai phá dữ liệu: Chương
3

24


Mơ hình khái niệm của KDL


Mơ hình KDL: chiều và giá trị đo


Sơ đồ hình sao (star schema): Một bảng sự kiện ở

trung tâm được kết nối với một tập các bảng chiều



Sơ đồi bông tuyết (Snowflake schema): Một mở
rộng của sơ đồ hình sao trong đó một vài cấu trúc
chiều được chuẩn hóa thành một tập các bảng
chiều nhỏ hơn, hình thức tương tự như bơng tuyết.



Sơ đồ chịm sao sự kiện (Fact constellations
schema): Bảng sự kiện phức chia sẻ các bảng
chiều, tạo khung nhìn một tập các “ngơi sao”, nên
còn được gọi sơ đồ ngân hà (galaxy schema) hoặc
chòm sao sự kiện
Kho dữ liệu và khai phá dữ liệu: Chương
2

May 8, 2021

25


×