.c
om
an
co
ng
Chương 1
du
o
ng
th
KHÁI NIỆM CHUNG VỀ
cu
u
KHO DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU
1
CuuDuongThanCong.com
/>
1
.c
om
Nội dung
Khái niệm về kho dữ liệu.
2.
Khái niệm về khai phá dữ liệu.
3.
Các loại dữ liệu và kiểu mẫu dùng để khai phá.
4.
Các bài toán và phương pháp cơ bản trong khai
du
o
phá dữ liệu.
ng
th
an
co
ng
1.
u
Sự tích hợp của khai phá dữ liệu với một cơ sở
cu
5.
dữ liệu hoặc với kho dữ liệu.
6.
Ứng dụng của kho dữ liệu và khai phá dữ liệu.
CuuDuongThanCong.com
/>
2
.c
om
Khái niệm về kho dữ liệu
Kho dữ liệu (Data warehouse) là kho lưu trữ dữ
Các kho dữ liệu được thiết kế để hỗ trợ việc
an
co
ng
liệu lưu trữ bằng thiết bị điện tử của một tổ chức,
du
o
Kho dữ liệu có những đặc điểm:
Tích hợp (Atomicity): Từ nhiều nguồn khác nhau,
Theo chủ đề (Consistency): Có ích để khai thác,
Biến thời gian (Isolation): Dữ liệu khơng bị ảnh hưởng
u
cu
ng
th
phân tích dữ liệu và lập báo cáo.
hoặc tác động lẫn nhau khi được truy suất,
Cố định (Durable): khi đã hồn chỉnh thì khơng đổi.
CuuDuongThanCong.com
/>
3
hẹp gọi là Data Mart.
Một Data warehouse có thể hình thành nhiều Data
an
ng
th
Mart.
du
o
Thuật ngữ Data Warehousing: Quá trình xây dựng
u
và sử dụng một kho dữ liệu.
cu
ng
Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực
co
.c
om
Khái niệm về kho dữ liệu
CuuDuongThanCong.com
/>
4
Cơng cụ ETL (Extract – Transform – Load):
ng
co
Rút trích thơng tin từ những nguồn đã có,
Những phiên bản phụ thuộc thời gian của dữ liệu,
Chọn lựa dữ liệu.
ng
th
an
Chuyển đổi (Transform):
du
o
Rút trích (Extract):
Chuyển đổi các định dạng khác nhau về định dạng
u
cu
.c
om
Khái niệm về kho dữ liệu
cho trước.
Tải (Load)
Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch.
CuuDuongThanCong.com
/>
5
.c
om
Khái niệm về khai phá dữ liệu
Các các nhân, tổ chức ngập trong dữ liệu nhưng
cu
u
du
o
ng
th
an
co
ng
đói thơng tin.
Giải pháp: Kho dữ liệu và Khai phá dữ liệu
CuuDuongThanCong.com
/>
6
.c
om
Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (Data mining) là quá trình phát
an
Lượng dữ liệu lớn dùng cho khai phá gồm:
Có cấu trúc,
Bán cấu trúc,
Phi cấu trúc,
Được lưu trữ tạm thời hay ổn định.
u
du
o
ng
th
cu
co
ng
hiện và trích xuất tri thức từ lượng dữ liệu lớn,
Các thuật ngữ: knowledge discovery/mining in
data/knowledge extraction/data archeology, …
CuuDuongThanCong.com
/>
7
Tri thức đạt được từ q trình khai phá:
Mơ hình phân loại và dự đốn,
Mơ hình gom cụm,
Mẫu thường xun, các mối qua hệ, tương quan,
Mơ tả lớp/khái niệm,
Có cấu trúc, bán cấu trúc hoặc phi cấu trúc,
Có thể dùng trong điều khiển quy trình, ra quyết
u
du
o
ng
th
an
co
ng
cu
.c
om
Khái niệm về khai phá dữ liệu
định, …
…
CuuDuongThanCong.com
/>
8
Ý nghĩa và vai trò:
Ứng dụng được trong mọi lĩnh vực có dữ liệu,
Hỗ trợ nhiều đối tượng khác nhau:
an
co
ng
Doanh nghiệp,
-
Khách hàng,
-
Nhà khoa học,
-
Giáo dục học, …
u
du
o
ng
th
-
cu
.c
om
Khái niệm về khai phá dữ liệu
CuuDuongThanCong.com
/>
9
Dữ liệu hướng chủ thể:
ng
Dữ liệu hướng theo từng nhóm đối tượng: khách
co
Tập trung vào việc mơ hình hóa và phân tích các
th
an
hang, bệnh nhân, sản phẩm, …
du
o
ng
dữ liệu cho các nhà sản xuất quyết định
Chuyển từ hướng ứng dụng sang hướng hỗ trợ
u
quyết định.
cu
.c
om
Các loại dữ liệu và kiểu mẫu
dùng để khai phá
Không dùng cho các hoạt động hang ngày hoặc
xử lý giao dịch.
CuuDuongThanCong.com
/>
10
Tính tích hợp:
ng
Dữ liệu được tập hợp từ nhiều nguồn: có thể
co
Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu
th
an
khác kiểu, khác cấu trúc, …
du
o
ng
trúc, tập tin phẳng, …
Cần được chuẩn hóa để đảm bảo tính nhất quán
u
trong quy ước đặt tên, …
cu
.c
om
Các loại dữ liệu và kiểu mẫu
dùng để khai phá
Việc chuẩn hóa cần thực hiện trước khi tích hợp.
CuuDuongThanCong.com
/>
11
Dữ liệu biến thời gian.
Thông tin về quá khứ, hiện tại,
So sánh dữ liệu theo chiều thời gian,
Hỗ trợ quyết định cho tương lai.
Thành phần thời gian có thể tường minh hoặc
ng
th
an
co
ng
du
o
.c
om
Các loại dữ liệu và kiểu mẫu
dùng để khai phá
ngầm định.
u
Dữ liệu mang tính bền vững, chỉ đọc (non volatile):
cu
Có thể thêm vào, nhưng khơng thay thế,
Phục vụ việc nghiên cứu, phân tích
CuuDuongThanCong.com
/>
12
co
Mơ tả được một số khía cạnh của tập dữ liệu
an
ng
Khai phá dữ liệu nhằm mục đích:
du
o
ng
Dự báo về những giá trị chưa biết hoặc sẽ có
của các biến.
u
th
lớn,
cu
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
CuuDuongThanCong.com
/>
13
ng
Một số bài tốn cơ bản:
Mơ tả khái niệm,
2.
Quan hệ kết hợp,
3.
Gom cụm,
4.
Phân lớp,
5.
Hồi quy,
6.
Mơ hình phụ thuộc,
7.
Phát hiện thay đổi và độ lệch.
u
du
o
ng
th
an
co
1.
cu
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
CuuDuongThanCong.com
/>
14
Tìm ra các đặc trưng và tính chất của khái
co
ng
Bài tốn mơ tả khái niệm:
th
ng
Tổng qt hóa, tóm tắt, … để tím ra các đặc
du
o
trưng của dữ liệu.
u
an
niệm,
cu
1.
.c
om
Các bài tốn và phương pháp cơ
bản trong khai phá dữ liệu
CuuDuongThanCong.com
/>
15
ng
Bài tốn tìm quan hệ kết hợp (Association Rule):
co
Phát hiện mối quan hệ kết hợp giữa các tập
th
an
thuộc tính trong kho dữ liệu.
du
o
Ví dụ:
u
tiêu biểu
ng
Bài tốn khai phá luật kết hợp là một bài toán
cu
2.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
- {Tóc đen, Da vàng} {người Châu á},
- {Mật ong, Đường} {Ngọt}
CuuDuongThanCong.com
/>
16
ng
Bài toán gom cụm dữ liệu (clustering):
co
Gom các dữ liệu có độ tương đồng cao thành
th
an
các “cụm” để có thể phát hiện được đặc trưng
ng
của các thuộc tính trong miền ứng dụng.
du
o
Mục tiêu: cực đại hóa tính tương đồng giữa các
u
phần tử trong cùng cụm, và cực tiểu hóa tính
cu
3.
.c
om
Các bài tốn và phương pháp cơ
bản trong khai phá dữ liệu
tương đồng giữa các phần tử khác cụm.
Phân cụm cịn được gọi là bài tốn “học máy
khơng có giám sát” (unsupervised learning).
CuuDuongThanCong.com
/>
17
u
du
o
ng
th
an
co
ng
Bài toán gom cụm dữ liệu (clustering):
cu
3.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
CuuDuongThanCong.com
/>
18
ng
Bài tốn phân lớp (classification):
co
Xây dựng (mơ tả) các mơ hình (hàm) nhằm
th
an
đặc tả, phát hiện đặc trưng các lớp hoặc khái
ng
niệm để dự báo cho các dữ liệu tiếp theo.
du
o
Số lớp (nhóm) được xác định trước.
u
Một số phương pháp: cây quyết định, mạng
cu
4.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
Bayes, mạng neuron,…
Phân lớp thuộc nhóm bài tốn “học máy có
giám sát” (supervised learning).
CuuDuongThanCong.com
/>
19
co
ng
Bài toán phân lớp (classification):
u
du
o
a1
b1
CuuDuongThanCong.com
th
?
?
ng
?
an
A
cu
4.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
?
an
a2
?
bn
/>
20
ng
Bài tốn hồi quy:
co
Điển hình trong phân tích thống kê và dự báo.
th
an
Dự đoán các giá trị của một hoặc một số biến
ng
phụ thuộc vào giá trị của một tập hợp các
du
o
biến độc lập.
u
Có thể quy về việc học một hàm ánh xạ dữ
cu
5.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
liệu nhằm xác định giá trị thực của một biến
theo một số biến khác.
CuuDuongThanCong.com
/>
21
Bài tốn tìm mơ hình phụ thuộc:
co
ng
Tìm ra một mơ hình mơ tả sự phụ thuộc có ý
th
an
nghĩa giữa các biến.
Bao gồm 2 mức:
du
o
ng
Mức cấu trúc của mơ hình: thường biểu diễn
dạng đồ thị để phát hiện sự phụ thuộc bộ giữa
u
các biến.
cu
6.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
Mức định lượng của mơ hình: Phát hiện độ
mạnh của tính phụ thuộc dựa trên trọng số
của các thuộc tính.
CuuDuongThanCong.com
/>
22
ng
Bài toán phát hiện thay đổi và độ lệch:
co
Tập trung phát hiện sự thay đổi có ý nghĩa
th
an
dưới dạng độ đo đã biết trước hoặc giá trị
ng
chuẩn,
du
o
Cung cấp những tri thức về sự biến đổi và độ
u
lệch cho người dùng.
cu
7.
.c
om
Các bài toán và phương pháp cơ
bản trong khai phá dữ liệu
Thường được ứng dụng trong bước tiền xử
lý.
CuuDuongThanCong.com
/>
23
Cần có một lượng dữ liệu đủ lớn để phân tích
co
ng
Tích hợp dữ liệu:
th
Dữ liệu có thể thu thập từ nhiều nguồn: khơng
Dữ liệu từ các nguồn khác nhau có thể là:
u
du
o
thống nhất,
ng
an
và khai phá.
cu
1.
.c
om
Sự tích hợp của khai phá dữ liệu với
một cơ sở dữ liệu hoặc với kho dữ liệu
Có cấu trúc: cơ sở dữ liệu quan hệ, …
Phi cấu trúc: Tập tin phẳng (flat file),
Được lưu trữ tạm thời hoặc ổn định, …
CuuDuongThanCong.com
/>
24
Cùng một thuộc tính nhưng có thể khơng
an
co
Hợp nhất các nguồn có thể dẫn đến:
ng
th
tương đương nhau về ý nghĩa,
Khơng tương đồng về mặt giá trị,
Dư thừa dữ liệu,
…
du
o
u
ng
Tích hợp dữ liệu:
cu
1.
.c
om
Sự tích hợp của khai phá dữ liệu với
một cơ sở dữ liệu hoặc với kho dữ liệu
CuuDuongThanCong.com
/>
25