1
1
KHAI THÁC
DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH
2
ÔN TẬP
2
3
3
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
• Hệ thống thang điểm :
– Bài thi lý thuyết : 7 điểm
– Bài tập theo nhóm : 1.5 điểm
– Bài kiểm tra giữa kỳ : 1.5 điểm
4
Cấu trúc đề thi cuối kỳ
1. Thời gian : 120’
2. Được sử dụng tài liệu, không sử dụng
Laptop.
3. Đề thi gồm 3 câu
a) Câu 1(3 điểm): nội dung thuộc chương 3
: Tập phổ biến và luật kết hợp.
b) Câu 2 (3 điểm): nội dung thuộc chương 4
và 5 : Phân lớp, gom nhóm
c) Câu 3 (1điểm): câu hỏi dạng phân tích,
tổng hợp từ kiến thức của tất cả các
chương.
3
5
ÔN TẬP
Chương 1 :
1. Khai thác dữ liệu là gì?
Quá trình không tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ,
có ích và có thể hiểu được tối đa trong
CSDL.
2. Nguyên nhân nào dẫn đến sự cần thiết của
lĩnh vực khai thác dữ liệu ?
Sự phát triển của công nghệ phần cứng,
công nghệ thu thập & quản lý DL, các thuật
toán phát triển mạnh.
Nhu cầu phân tích dữ liệu để hỗ trợ quá
trình ra quyết định.
6
ÔN TẬP
Chương 1 :
3. Các kiểu dữ liệu và các loại thông tin nào có
thể được sử dụng trong quá trình khám phá
tri thức từ dữ liệu (KDD)?
Các loại thông tin : thông tin thương mại,
sản xuất, khoa học và thông tin cá nhân.
Các kiểu dữ liệu : DL có thuộc tính dạng phi
số, dạng liên tục, DL dạng tĩnh, động, DL
phân tán, DL văn bản, web, đa phương tiện:
hình ảnh, audio, video, …
4. Trình bày một vài ví dụ thực tế có sử dụng
loại dữ liệu, thông tin đã nêu trên.
www.kdnuggets.com/solutions/index.html
4
7
ÔN TẬP
Chương 1 :
5. Khai thác dữ liệu gồm các loại nhiệm
vụ nào?
Nhiệm vụ mô tả và dự đoán.
Dựa trên kinh nghiệm bản thân, theo các
em loại nhiệm vụ nào của khai thác dữ
liệu được quan tâm nhiều nhất và được
ứng dụng nhiều trong :
Lĩnh vực kinh doanh
Lĩnh vực giáo dục
8
Chương 2 :
6. Tại sao cần chuẩn bị DL?
Do chất lượng DL trong thực tế là xấu.
Chất lượng DL sẽ ảnh hưởng đến quá trình
ra quyết định.
7. Các bước trong quá trình chuẩn bị DL ? Cho
ví dụ cụ thể từng bước.
Làm sạch DL -> Chọn lọc/ Tích hợp DL ->
Biến đổi/ mã hóa DL -> Rút gọn DL
8. Phương pháp chia giỏ, phương pháp sử dụng
biểu đồ (histogram) có thể áp dụng vào
trong các bước nào của quá trình chuẩn bị
dữ liệu ?
Làm sạch DL : khử nhiễu; Mã hóa DL : rời
rạc hóa DL; Rút gọn DL .
ÔN TẬP
5
9
ÔN TẬP
Chương 3 :
9. Phát biểu bài toán khai thác tập phổ biến,
khai thác luật kết hợp?
Bài toán khai thác tập phổ biến là bài
toán tìm tất cả các tập các hạng mục S
(hay tập phổ biến S) có độ phổ biến thỏa
mãn độ phổ biến tối thiểu minsupp:
supp(S)
minsupp
Bài toán khai thác LKH là bài toán tìm tất cả
các luật dạng X Y (X, Y I và X Y = {})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X Y ) minsupp
conf (X Y ) minconf
10
ÔN TẬP
Chương 3 :
10. Trình bày các tính chất của tập phổ biến?
Tập phổ biến tối đại, tập phổ biến đóng.
Tất cả các tập con của tập phổ biến đều là
tập phổ biến .
Nếu tập con không phổ biến thì tập bao nó
(tập cha) không phổ biến.
Tập phổ biến tối đại : là tập phổ biến &
không tồn tại tập nào bao nó là phổ biến
Tập phổ biến đóng: là tập phổ biến & không
tồn tại tập nào bao nó có cùng độ phổ biến
như nó.