Tải bản đầy đủ (.pdf) (30 trang)

Slide kho dữ liệu và khai phá dữ liệu chương 1 khái niệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (563.49 KB, 30 trang )

.c
om

an

co

ng

Chương 1
du
o

ng

th

KHÁI NIỆM CHUNG VỀ
cu

u

KHO DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU
1
CuuDuongThanCong.com

/>
1



.c
om

Nội dung
Khái niệm về kho dữ liệu.

2.

Khái niệm về khai phá dữ liệu.

3.

Các loại dữ liệu và kiểu mẫu dùng để khai phá.

4.

Các bài toán và phương pháp cơ bản trong khai

du
o

phá dữ liệu.

ng

th

an

co


ng

1.

u

Sự tích hợp của khai phá dữ liệu với một cơ sở

cu

5.

dữ liệu hoặc với kho dữ liệu.
6.

Ứng dụng của kho dữ liệu và khai phá dữ liệu.
CuuDuongThanCong.com

/>
2




.c
om

Khái niệm về kho dữ liệu
Kho dữ liệu (Data warehouse) là kho lưu trữ dữ

Các kho dữ liệu được thiết kế để hỗ trợ việc

an



co

ng

liệu lưu trữ bằng thiết bị điện tử của một tổ chức,

du
o

Kho dữ liệu có những đặc điểm:
Tích hợp (Atomicity): Từ nhiều nguồn khác nhau,



Theo chủ đề (Consistency): Có ích để khai thác,



Biến thời gian (Isolation): Dữ liệu khơng bị ảnh hưởng

u




cu



ng

th

phân tích dữ liệu và lập báo cáo.

hoặc tác động lẫn nhau khi được truy suất,


Cố định (Durable): khi đã hồn chỉnh thì khơng đổi.
CuuDuongThanCong.com

/>
3


hẹp gọi là Data Mart.

Một Data warehouse có thể hình thành nhiều Data

an



ng


th

Mart.

du
o

Thuật ngữ Data Warehousing: Quá trình xây dựng

u

và sử dụng một kho dữ liệu.

cu



ng

Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực

co



.c
om

Khái niệm về kho dữ liệu


CuuDuongThanCong.com

/>
4


Cơng cụ ETL (Extract – Transform – Load):

ng
co

Rút trích thơng tin từ những nguồn đã có,



Những phiên bản phụ thuộc thời gian của dữ liệu,



Chọn lựa dữ liệu.

ng

th

an



Chuyển đổi (Transform):


du
o



Rút trích (Extract):



Chuyển đổi các định dạng khác nhau về định dạng

u



cu



.c
om

Khái niệm về kho dữ liệu

cho trước.


Tải (Load)



Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch.
CuuDuongThanCong.com

/>
5




.c
om

Khái niệm về khai phá dữ liệu
Các các nhân, tổ chức ngập trong dữ liệu nhưng

cu

u

du
o

ng

th

an

co


ng

đói thơng tin.



Giải pháp: Kho dữ liệu và Khai phá dữ liệu
CuuDuongThanCong.com

/>
6




.c
om

Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (Data mining) là quá trình phát



an

Lượng dữ liệu lớn dùng cho khai phá gồm:
Có cấu trúc,




Bán cấu trúc,



Phi cấu trúc,



Được lưu trữ tạm thời hay ổn định.

u

du
o

ng

th



cu



co

ng


hiện và trích xuất tri thức từ lượng dữ liệu lớn,

Các thuật ngữ: knowledge discovery/mining in
data/knowledge extraction/data archeology, …
CuuDuongThanCong.com

/>
7


Tri thức đạt được từ q trình khai phá:
Mơ hình phân loại và dự đốn,



Mơ hình gom cụm,



Mẫu thường xun, các mối qua hệ, tương quan,



Mơ tả lớp/khái niệm,



Có cấu trúc, bán cấu trúc hoặc phi cấu trúc,




Có thể dùng trong điều khiển quy trình, ra quyết

u

du
o

ng

th

an

co

ng



cu



.c
om

Khái niệm về khai phá dữ liệu

định, …




CuuDuongThanCong.com

/>
8


Ý nghĩa và vai trò:

Ứng dụng được trong mọi lĩnh vực có dữ liệu,



Hỗ trợ nhiều đối tượng khác nhau:

an

co

ng



Doanh nghiệp,

-

Khách hàng,


-

Nhà khoa học,

-

Giáo dục học, …

u

du
o

ng

th

-

cu



.c
om

Khái niệm về khai phá dữ liệu

CuuDuongThanCong.com


/>
9


Dữ liệu hướng chủ thể:

ng

Dữ liệu hướng theo từng nhóm đối tượng: khách

co



Tập trung vào việc mơ hình hóa và phân tích các

th



an

hang, bệnh nhân, sản phẩm, …



du
o


ng

dữ liệu cho các nhà sản xuất quyết định
Chuyển từ hướng ứng dụng sang hướng hỗ trợ

u

quyết định.

cu



.c
om

Các loại dữ liệu và kiểu mẫu
dùng để khai phá



Không dùng cho các hoạt động hang ngày hoặc
xử lý giao dịch.
CuuDuongThanCong.com

/>
10


Tính tích hợp:


ng

Dữ liệu được tập hợp từ nhiều nguồn: có thể

co



Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu

th



an

khác kiểu, khác cấu trúc, …



du
o

ng

trúc, tập tin phẳng, …
Cần được chuẩn hóa để đảm bảo tính nhất quán

u


trong quy ước đặt tên, …

cu



.c
om

Các loại dữ liệu và kiểu mẫu
dùng để khai phá



Việc chuẩn hóa cần thực hiện trước khi tích hợp.

CuuDuongThanCong.com

/>
11


Dữ liệu biến thời gian.

Thông tin về quá khứ, hiện tại,



So sánh dữ liệu theo chiều thời gian,




Hỗ trợ quyết định cho tương lai.



Thành phần thời gian có thể tường minh hoặc

ng

th

an

co

ng



du
o



.c
om

Các loại dữ liệu và kiểu mẫu

dùng để khai phá

ngầm định.

u

Dữ liệu mang tính bền vững, chỉ đọc (non volatile):

cu





Có thể thêm vào, nhưng khơng thay thế,



Phục vụ việc nghiên cứu, phân tích
CuuDuongThanCong.com

/>
12


co

Mơ tả được một số khía cạnh của tập dữ liệu

an




ng

Khai phá dữ liệu nhằm mục đích:

du
o

ng

Dự báo về những giá trị chưa biết hoặc sẽ có
của các biến.

u



th

lớn,

cu



.c
om


Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

CuuDuongThanCong.com

/>
13


ng

Một số bài tốn cơ bản:
Mơ tả khái niệm,

2.

Quan hệ kết hợp,

3.

Gom cụm,

4.

Phân lớp,

5.

Hồi quy,


6.

Mơ hình phụ thuộc,

7.

Phát hiện thay đổi và độ lệch.

u

du
o

ng

th

an

co

1.

cu



.c
om


Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

CuuDuongThanCong.com

/>
14


Tìm ra các đặc trưng và tính chất của khái

co



ng

Bài tốn mơ tả khái niệm:

th

ng

Tổng qt hóa, tóm tắt, … để tím ra các đặc

du
o

trưng của dữ liệu.


u



an

niệm,

cu

1.

.c
om

Các bài tốn và phương pháp cơ
bản trong khai phá dữ liệu

CuuDuongThanCong.com

/>
15


ng

Bài tốn tìm quan hệ kết hợp (Association Rule):

co


 Phát hiện mối quan hệ kết hợp giữa các tập

th

an

thuộc tính trong kho dữ liệu.

du
o

 Ví dụ:

u

tiêu biểu

ng

 Bài tốn khai phá luật kết hợp là một bài toán

cu

2.

.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu


- {Tóc đen, Da vàng}  {người Châu á},

- {Mật ong, Đường}  {Ngọt}
CuuDuongThanCong.com

/>
16


ng

Bài toán gom cụm dữ liệu (clustering):

co

 Gom các dữ liệu có độ tương đồng cao thành

th

an

các “cụm” để có thể phát hiện được đặc trưng

ng

của các thuộc tính trong miền ứng dụng.

du
o


 Mục tiêu: cực đại hóa tính tương đồng giữa các

u

phần tử trong cùng cụm, và cực tiểu hóa tính

cu

3.

.c
om

Các bài tốn và phương pháp cơ
bản trong khai phá dữ liệu

tương đồng giữa các phần tử khác cụm.

 Phân cụm cịn được gọi là bài tốn “học máy
khơng có giám sát” (unsupervised learning).
CuuDuongThanCong.com

/>
17


u

du

o

ng

th

an

co

ng

Bài toán gom cụm dữ liệu (clustering):

cu

3.

.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

CuuDuongThanCong.com

/>
18



ng

Bài tốn phân lớp (classification):

co

 Xây dựng (mơ tả) các mơ hình (hàm) nhằm

th

an

đặc tả, phát hiện đặc trưng các lớp hoặc khái

ng

niệm để dự báo cho các dữ liệu tiếp theo.

du
o

 Số lớp (nhóm) được xác định trước.

u

 Một số phương pháp: cây quyết định, mạng

cu

4.


.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

Bayes, mạng neuron,…

 Phân lớp thuộc nhóm bài tốn “học máy có
giám sát” (supervised learning).
CuuDuongThanCong.com

/>
19


co

ng

Bài toán phân lớp (classification):

u

du
o

a1


b1

CuuDuongThanCong.com

th

?

?

ng

?

an

A

cu

4.

.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

?


an

a2

?
bn

/>
20


ng

Bài tốn hồi quy:

co

 Điển hình trong phân tích thống kê và dự báo.

th

an

 Dự đoán các giá trị của một hoặc một số biến

ng

phụ thuộc vào giá trị của một tập hợp các

du

o

biến độc lập.

u

 Có thể quy về việc học một hàm ánh xạ dữ

cu

5.

.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

liệu nhằm xác định giá trị thực của một biến

theo một số biến khác.
CuuDuongThanCong.com

/>
21


Bài tốn tìm mơ hình phụ thuộc:

co


ng

 Tìm ra một mơ hình mơ tả sự phụ thuộc có ý

th

an

nghĩa giữa các biến.
 Bao gồm 2 mức:

du
o

ng

 Mức cấu trúc của mơ hình: thường biểu diễn
dạng đồ thị để phát hiện sự phụ thuộc bộ giữa

u

các biến.

cu

6.

.c
om


Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

 Mức định lượng của mơ hình: Phát hiện độ
mạnh của tính phụ thuộc dựa trên trọng số

của các thuộc tính.
CuuDuongThanCong.com

/>
22


ng

Bài toán phát hiện thay đổi và độ lệch:

co

 Tập trung phát hiện sự thay đổi có ý nghĩa

th

an

dưới dạng độ đo đã biết trước hoặc giá trị

ng


chuẩn,

du
o

 Cung cấp những tri thức về sự biến đổi và độ

u

lệch cho người dùng.

cu

7.

.c
om

Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu

 Thường được ứng dụng trong bước tiền xử

lý.
CuuDuongThanCong.com

/>
23



Cần có một lượng dữ liệu đủ lớn để phân tích

co



ng

Tích hợp dữ liệu:

th

Dữ liệu có thể thu thập từ nhiều nguồn: khơng
Dữ liệu từ các nguồn khác nhau có thể là:

u



du
o

thống nhất,

ng



an


và khai phá.

cu

1.

.c
om

Sự tích hợp của khai phá dữ liệu với
một cơ sở dữ liệu hoặc với kho dữ liệu



Có cấu trúc: cơ sở dữ liệu quan hệ, …



Phi cấu trúc: Tập tin phẳng (flat file),



Được lưu trữ tạm thời hoặc ổn định, …
CuuDuongThanCong.com

/>
24


Cùng một thuộc tính nhưng có thể khơng


an



co

Hợp nhất các nguồn có thể dẫn đến:

ng

th

tương đương nhau về ý nghĩa,
Khơng tương đồng về mặt giá trị,



Dư thừa dữ liệu,





du
o



u




ng

Tích hợp dữ liệu:

cu

1.

.c
om

Sự tích hợp của khai phá dữ liệu với
một cơ sở dữ liệu hoặc với kho dữ liệu

CuuDuongThanCong.com

/>
25


×