Tải bản đầy đủ (.pdf) (141 trang)

Giáo trình khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.51 MB, 141 trang )

1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
NỘI DUNG
 Giới thiệu về môn học
 Giới thiệu về khai thá
c
dữ liệu (DM)
Simpo PDF Merge and Split Unregistered Version -
2
3
GIỚI THIỆU MÔN HỌC
 Tai sao chọn môn học này ?
 Thế mạnh và nền tảng kiến thức :
 TTNT, hệ QTCSDL, thống kê, kinh tế,…
 Sự quan tâm đến kiến thức, vấn đề mới.
 Mục tiêu môn học :
 Cung cấp các khái niệm và kỹ thuật cơ bản củ
a
khai thác dữ liệu (DM)
 Chuyển dữ liệu về dạng phù hợp
 Tìm tri thức từ dữ liệu
 Biểu diễn, đánh giá tri thức
 Ứng dụng của DM
 Các kỹ năng giải quyết vấn đề
4
Thông tin liên lạc
 Giảng viên lý thuyết :


 Th.s. Nguyễn Hoàng Tú Anh

Tel : 8354266 – 508 hoặc 803
 Website môn học :
 /> vào mục Hệ Hoàn chỉnh Đại Học /Khai thác
DL & UD – 05HCA
Simpo PDF Merge and Split Unregistered Version -
3
5
CHƯƠNG TRÌNH
30 tiết lý thuyết
 Tổng quan
 Chuẩn bị dữ liệu
 Tập phổ biến và luật kết hợp
 Chuỗi tuần tự
 Bài toán phân lớp
 Bài toán gom nhóm
 Các nghiên cứu xa hơn
6
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Thi lý thuyết : 7 điểm
 Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng
laptop, mang theo máy tính : thời gian 120’
 Bài tập giữa kỳ 1.5 điểm
 Bài tập làm cá nhân
 Nộp 1 lần trong học kỳ trên website môn học theo
thông báo của GV
 Bài tập theo nhóm : 1.5 điểm
 Bài tập làm theo nhóm trên lớp. Từ 8 - 12 SV/nhóm

Simpo PDF Merge and Split Unregistered Version -
4
7
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Bài tập giữa kỳ 1.5 điểm
 Bài tập làm cá nhân
 Nộp 1 lần trong học kỳ trên website môn học theo thông báo
của GV ( soft + hard copy)
 Lưu ý: khi nộp bài cần tuân theo đầy đủ quy định được thông báo
trên website môn học (về cách tổ chức file bài làm, đặt tên
file…), không nộp qua email, không chấp nhận nộp trễ.
 Các mức đánh giá:
 A – Xuất sắc 100% số điểm
 B - Đạt yêu cầu ~70% số điểm
 C - Không đạt yêu cầu ~30% số điểm
 F - Không nộp, hoặc giống bài của SV khác 0% số điểm
8
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
 Bài tập làm theo nhóm 1.5 điểm
 Bài tập làm theo nhóm trên lớp. Từ 8 -12 SV/nhóm.
 Đanh giá sự tham gia lớp học và sự chuẩn bị bài
 Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả
trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay
tại lớp.
 Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng
để chuẩn bị.
 Các mức đánh giá:
 A – Xuất sắc 100% số điểm

 B - Đạt yêu cầu ~70% số điểm
 C - Không đạt yêu cầu ~30% số điểm
 F - Không làm hoặc giống bài của nhóm khác 0% số điểm
Simpo PDF Merge and Split Unregistered Version -
5
9
Câu hỏi và đề nghị ?
 Rất mong nhận được các ý kiến phản hồi từ các
em.
 Cô cần điều chỉnh nội dung cho phù hợp
với nhu cầu của các em.
 Có thể gửi ý kiến cho Cô bất cứ lúc nào .
 Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có
những bạn khác cũng quan tâm.
 Bỏ vào càng nhiều công sức, các em sẽ đạt được
kết quả càng cao
 Điểm của các em tỷ lệ thuận với các nỗ lực đã
bỏ ra.
10
TÀI LIỆU THAM KHẢO
 J.Han, M.Kamber, “Data mining : Concepts & Technique”
(ppt) – hoặc ebook tại
địa chỉ
 P.Tan, M. Steinbach, V. Kumar, “Introduction to data
Mining”, 2006, - http://www-
users.cs.umn.edu/~kumar/dmbook/index.php
 Phần mềm WEKA - /> Trang web đầu ngành về KTDL - Kdnuggets :
www.kdnuggets.com
Simpo PDF Merge and Split Unregistered Version -
6

11
NỘI DUNG
 Giới thiệu về môn học
 Giới thiệu về khai thác
dữ liệu (DM)
12
THẾ NÀO LÀ KHAI THÁC DL
 Là quá trình lặp, không phải plug - and – play
 “Khai thác dữ liệu là quá trình không tầm thường
của việc xác định các mẫu tiềm ẩn có tính hợp lệ,
mới lạ, có ích và có thể hiểu được tối đa trong
CSDL” – U.Fayyad, …(1996)
 Một vài ví dụ minh họa ứng dụng KTDL
 FBI – theo dõi tội phạm
 Các công ty điện thoại
 Siêu thị, trung tâm mua sắm (Walmart, Costco)
 Các công ty bảo hiểm
 Ngân hàng, tài chính, chứng khoán
….
Simpo PDF Merge and Split Unregistered Version -
7
13
THẾ NÀO LÀ KHAI THÁC DL
 Tại sao cần Khai thác dữ liệu (KTDL)?
 Những đối tượng nào sử dụng KTDL ?
 Sử dụng KTDL ở đâu và khi nào?
 Sử dụng KTDL như thế nào ?
 Tại sao cần nghiên cứu KTDL?
 Lịch sử phát triển KTDL ?
….

Xem bài 1 : Tổng quan.
Lưu ý : Hạn chót đăng ký nhóm : 16/5/2007
14
Simpo PDF Merge and Split Unregistered Version -
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 1
TỔNG QUAN
3
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu (KTDL) là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
4
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh thương mại
 Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng /
thẻ tin dụng

 Máy tính mạnh hơn , rẻ hơn
 Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM –
Customer Relationship Management)
Simpo PDF Merge and Split Unregistered Version -
2
5
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh Khoa học
 Dữ liệu được thu thập
và lưu trữ với tốc độ cao(GB/h)
o Thiết bị remote sensor trên vệ tinh
o Kính thiên văn quan sát bầu trời
o Microarray tạo dữ liệu biểu diễn gien
o Thử nghiệm khoa học tạo hàng TB
 Các kỹ thuật truyền thống khơng đủ
khả năng làm việc với dữ liệu thơ
 KTDL có thể giúp các nhà khoa học
o Phân loại và phân đoạn dữ liệu
o Xây dựng giả thuyết
6
SỰ CẦN THIẾT CỦA KTDL
 DL chứa rất nhiều thơng tin giá
trị, có lợi cho qui trình ra quyết
định
 Khơng thể phân tích DL = tay
• Con người cần hàng tuần lễ để
khám phá ra thơng tin có ích
• Phần lớn dữ liệu chưa bao giờ
được phân tích cả

• “Hố sâu giữa khả năng sinh ra DL
và khả năng sử dụng DL” –
Usama Fayyad
10
6
-10
12
bytes:
Không bao giờ có
thể nhìn thấy một
cách đầy đủ tập
dữ liệu hoặc đưa
vào bộ nhớ của
máy tính
7
SỰ CẦN THIẾT CỦA KTDL
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
Hố sâu dữ liệu
Số DL thu thập (TB) từ năm 1995
Số DL được
phân tích

8
SỰ RA ĐỜI CỦA KTDL
Simpo PDF Merge and Split Unregistered Version -
3
9
SỰ DỤNG KTDL KHI NÀO?
 Dữ liệu q nhiều
 Dữ liệu lớn (chiều và kích thước)
 Dữ liệu ảnh ( kích thước)
 Dữ liệu gene (số chiều)
 Có ít tri thức về dữ liệu
10
LĨNH VỰC ỨNG DỤNG KTDL
Thông tin thương mại
-Phân tích thò trường và
mua bán
-Phân tích đầu tư
-Chấp thuận cho vay
-Phát hiện gian lận

Thông tin sản xuất
- Điều khiển và lên kế hoạch
- Quản trò mạng
- Phân tích các kết qủa thực
nghiệm

Thông tin khoa học
- Thiên văn học
- Cơ sở dữ liệu sinh học
- Khoa học đòa chất: bộ dò tìm động

đất

Thông tin cá nhân
11
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
12
THẾ NÀO LÀ KTDL
“Khai thác dữ liệu là q trình khơng tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có
thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ
Chứng minh tính đúng
Của mẫu / Mô hình
Mới lạ
Không biết trước
Có ích
Có thể sử dụng được
Có thể hiểu được
Bởi con người và máy
Simpo PDF Merge and Split Unregistered Version -
4
13

KHAI THÁC DL …
 Thế nào là mẫu ?
 Là mối quan hệ trong dữ liệu ví dụ như :
 Những người mua quần tây thường hay mua
thêm áo sơ mi
 Những người có mức tín dụng tốt thì thường
ít bị tai nạn
 Đàn ông, 37+, thu nhập : 50K-75K, -> chi
khoảng 25$-50$ cho đặt mua hàng qua
catalog
14
KHAI THÁC DL
 What is Data Mining?
– Các tên phổ biến tại khu
vực xác định của Mỹ
(O’Brien, O’Rurke,
O’Reilly… ở vùng Boston )
– Gom nhóm các tài liệu
giống nhau thu được từ
search engine dựa trên nội
dung (VD: rừng nhiệt đới
Amazon , Amazon.com)
 What is not Data
Mining?
– Tìm số điện
thoại trong danh
bạ điện thoại
– Tìm thông tin về
“Amazon” trên
serach engine

15
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
16
QUI TRÌNH KHÁM PHÁ TRI THỨC
 KTDL : Một bước
quan trọng trong qui
trình KDD (knowledge
discovery in DB)
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
1
2
3
4
5
Simpo PDF Merge and Split Unregistered Version -
5
17

QUI TRÌNH KDD
Dữ liệu được tổ chức theo chức
năng
Tạo ra/chọn lọc
CSDL đích
Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Thay thế những
giá trò thiếu
Chuẩn hoá
giá trò
Lựa chọn
nhiệm vụ DM
Biến đổi qua
biểu điễn khác
Khử nhiễu
Dữ liệu
Biến đổi
giá trò
Lựa chọn
phương pháp DM
Tạo các thuộc
Tính dẫn xuất
Trích xuất
Tri thức
Tìm thuộc tính quan
trọng &Miền giá trò
Kiểm tra
tri thức
Tính chế

Tri thức
Phát sinh ra câu hỏi và báo cáo
Các phương pháp cải tiến
kiểu kết hợp và lập dãy
Data warehousing
1
2
3
4
5
18
KIẾN TRÚC HỆ THỐNG DM TIỂU BIỂU
Data
Warehouse
Data cleaning & data integration
Filtering
Databases
Database or data
warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
19
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của DM
5. Các kỹ thuật DM

6. Các vấn đề của DM
20
CÁC NHIỆM VỤ CHÍNH CỦA DM
Simpo PDF Merge and Split Unregistered Version -
6
21
CÁC NHIỆM VỤ CHÍNH CỦA DM
Phân lớ
ớớ
ớp
Phát hiệ
ệệ
ện sự
ựự
ự thay
đổ
ổổ
ổi/lạ
ạạ
ạc hướ
ớớ
ớng
?
Tóm tắ
ắắ
ắt
Gom cụ
ụụ
ụm
Mô hình hóa

phụ
ụụ
ụ thuộ
ộộ
ộc
Hồ
ồồ
ồi qui
Phát hiện ra mô tả của một
vài lớp đã được xác định và
phân loại dữ liệu vào một
trong các lớp đó.
Ánh xạ từ một mẫu dữ liệu
thành một biến dự đoán
trước có giá trị thực .
Tìm ra một tập xác định
Các nhóm hay các cụm
để mô tả dữ liệu
Phát hiện ra một mô tả
tóm tắt cho một
tập con dữ liệu
Phát hiện ra một mô
hình mà mô tả phụ
thuộc quan trọng nhất
giữa các biến
Phát hiện ra những thay đổi
quan trọng nhất
trong dữ liệu
22
VÍ DỤ PHÂN LỚP

 Công ty Verizon Wireless :
 Công ty cung cấp thiết bị, dịch vụ không dây lớn
nhất ở Mỹ
 Số lượng khách hàng : 30.3 triệu
 90% dân số Mỹ
 Vấn đề :
 Tỷ lệ khách hàng bị mất cao : 2%/tháng ( 600,000
khách hàng rời bỏ/tháng)
 Chi phí thay thế : hàng trăm triệu $/năm
 Chi phí trung bình cho mỗi khách hàng mới : 320$
23
VÍ DỤ PHÂN LỚP
 Giải pháp thông thường :
 Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng
 Chí phí quá tốn kém, lãng phí
 Giải pháp của KTDL :
 Xây dựng mô hình dự đoán
 Dùng mô hình dự đoán để xác định các khách hàng có
khả năng rời bỏ
 Sau đó :
 Khuyến mãi, chào mời ( VD: một điện thoại mới) cho
những khách hàng có nhiều khả năng rời bỏ nhất
 Phát triển kế họach mới nhằm đáp ứng nhu cầu của khách
hàng
 Kết quả : giảm tỷ lệ mất khách hàng dưới 1.5 %/ tháng
24
VÍ DỤ PHÂN LỚP
Simpo PDF Merge and Split Unregistered Version -
7
25

Bài tập theo nhóm
 Thời gian thảo luận : 15’
 Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
 Thời gian trình bày : tối đa 5’
 Trình bày tình huống
 Hướng giải quyết và lợi ích
 Tình huống 1 : Thị trường bán lẻ
 Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa
 Dạng DL nào được thu thập
 Kiểu tri thức nào ta cần biết về khách hàng
 Có cần biết khách hàng mua các mặt hàng gì
 Có cần phân loại khách hàng
26
Bài tập theo nhóm
 Thời gian : 15’
 Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
 Thời gian trình bày : tối đa 5’
 Trình bày tình huống
 Hướng giải quyết và lợi ích
 Tình huống 2 : Quảng cáo sản phẩm
 Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran
 Gửi tờ quảng cáo sản phẩm đến tất cả các khách hàng
 Hay chỉ gửi cho 1 nhóm có chọn lọc
 Dự kiến khả năng phản hồi của khách hàng so với chi phí
gửi quảng cáo
27
PHÂN LỚP: ỨNG DỤNG 1
 Phát hiện gian lận :

 Mục đích : Dự đoán các trường hợp gian lận trong giao
dịch thẻ tín dụng
 Hướng giải quyết :
 Dùng các giao dịch thẻ tín dụng và thông tin của chủ
thẻ như thuộc tính
 Khách hàng mua cái gì, lúc nào, số lần dùng thẻ
 Gán nhãn giao dịch cũ là gian lận hay hợp lý, đúng - tạo
thành thuộc tính lớp
 Xây dựng mô hình cho lớp các giao dịch
 Dùng mô hình để khám phá gian lận trên các giao dịch thẻ
tín dụng
28
PHÂN LỚP: ỨNG DỤNG 2
 Quảng cáo :
 Mục đích : Giảm chí phí thư tín bằng cách tập trung vào
nhóm khách hàng có nhiều khả năng mua sản phẩm điện
thoại di động mới
 Hướng giải quyết :
 Sử dụng dữ liệu cho sản phẩm tương tự trước đây
 Dùng quyết định {mua, không mua} làm thuộc tính lớp
 Thu thập thông tin cá nhân, cách sống và quan hệ của tất
cả các khách hàng
 Dùng các thông tin trên như là dữ liệu đầu vào để xây
dựng mô hình phân lớp
Simpo PDF Merge and Split Unregistered Version -
8
29
PHÂN LỚP: ỨNG DỤNG 3
 Nghiên cứu thiên văn :
 Mục đích : Dự báo loại đối tượng ( ngôi sao hay thiên hà),

đặc biệt các đối tượng khó thấy dựa trên hình ảnh của kính
thiên văn
 3000 ảnh : 23040 X 23040 pixel/ảnh
 Hướng giải quyết :
 Phân đoạn ảnh
 Xác định thuộc tính(đặc trưng) ảnh : 40 đặc trưng/ảnh
 Xây dựng mô hình dựa trên các đặc trưng
 Kết quả : Đã tìm thấy 16 chuẩn tinh đỏ - đối tượng ở
rất xa khó có thể thấy được
30
Early
Intermediate
Late
Kích thước dữ liệu:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
Class:
• Các giai đoạn hình
thành
Thuộc tính:
• Đặc trưng ảnh
• Đặc điểm sóng ánh
sáng,
Nguồn:
PHÂN LỚP Thiên hà
31
GOM CỤM : Minh họa
 Gom cụm dựa trên khoảng cách Euclide trong
không gian 3-D

Intracluster distances
are minimized
Intracluster distances
are minimized
Intercluster distances
are maximized
Intercluster distances
are maximized
32
GOM CỤM : ỨNG DỤNG 1
 Gom nhóm khách hàng :
 Mục đích : Chia khách hàng thành các nhóm/cụm riêng
biệt để có thể áp dụng các biện pháp quảng cáo khác nhau
 Hướng giải quyết :
 Thu thập thông tin cá nhân, cách sống của tất cả các
khách hàng
 Xác định các cụm/nhóm khách hàng giống nhau
 Kiểm tra chất lượng của các cụm thông qua việc quan
sát đặc trưng mua hàng của khách hàng trong cùng
một cụm so với khách hàng khác cụm
Simpo PDF Merge and Split Unregistered Version -
9
33
GOM CỤM : ỨNG DỤNG 2
 Gom cụm tài liệu :
 Mục đích : Tìm nhóm tài liệu giống nhau dựa trên các từ
quan trọng
 Hướng giải quyết :
 Xác định độ phổ biến của từ trong tài liệu. Xây dựng
độ đo tương tự dựa trên độ phổ biến của các từ để gom

cụm.
 Lợi ích : Trong lĩnh vực truy vấn thông tin ( IR), có
thể dùng các cụm để liên kết tài liệu mới với các tài
liệu đã gom cụm
34
Minh họa gom cụm tài liệu
3024 bài báo của LA Times
Độ đo tương tự : bao nhiêu từ thường được
dùng trong các văn bản này.
35
Gom cụm DL cổ phiếu S&P 500
Quan sát sự biến động của giá cổ phiếu hàng ngày
Dữ liệu : Cổ phiếu – {UP/DOWN}
Độ đo tương tự : các sự kiện thường giống nhau trong
cùng một ngày
Discovered Clusters Industry Group
1
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOW N,INTEL-DOWN ,LSI-Logic-DOWN,
Micron-Tech-DOWN,Te xas-Inst-Down,Te llabs-Inc-Down,
Natl-Se miconduct-DOWN,Orac l-DOWN,SGI-DOW N,
Sun-DOWN
Technology1-DOWN
2
Apple-Comp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-Micro-Device -DOWN,Andrew-Corp-DOWN,
Computer-Assoc-DOWN,Circuit-City-DOWN,
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOWN,Micros oft-DOWN,Scientific-Atl-DOWN

Technology2-DOWN
3
Fannie-Mae-DOWN,Fed-Ho me-Loan -DOW N,
MBNA-Corp-DOWN,Morgan-Stanley-DOWN
Financial-DOWN
4
Baker-Hughes -UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Oil-UP
36
KHAI THÁC LUẬT KẾT HỢP
 Itemset X={x
1
, …, x
k
}
 Tìm mối quan hệ giữa
các thuộc tính thường
xuất hiện đồng thời
A 

 C (50%, 66.7%)
C 

 A (50%, 100%)
Customer
buys diaper
Customer
buys both

Customer
buys beer
B, E, F40
A, D30
A, C20
A, B, C10
Items boughtTransaction-id
Buy diapers
on
Friday night
Buy beer
Then
Simpo PDF Merge and Split Unregistered Version -
10
37
Khai thác LKH : ỨNG DỤNG 1
 Quảng cáo và khuyến mãi :
 Giả sử tìm được luật :
{Bia, } 

 {Khoai tây chiên}
 Khoai tây chiên là hệ quả : quyết định nên làm
gì để quảng cáo cho nó
 Bia là tiền đề : dùng để xem loại sản phẩm nào
bị ảnh hưởng nếu không bán bia nữa
 Bia và khoai tây chiên cùng xuất hiện : loại sản
phẩm nào nên bán kèm với bia để khuyến khích
mua khoai tây chiên
38
Khai thác LKH : ỨNG DỤNG 2

 Quản lý quầy hàng siêu thị:
 Mục đích : Xác định những mặt hàng được nhiều
khách hàng mua chung
 Hướng giải quyết :
 Xử lý dữ liệu bán hàng để tìm mối liên hệ
giữa các mặt hàng
 Luật cổ điển : Nếu khách hàng mua tã giấy
và sữa thì có khả năng mua bia.
39
Khai thác LKH : ỨNG DỤNG 3
 Quản lý hàng hóa:
 Mục đích : Công ty bảo trì thiết bị tiêu dùng muốn
đoán trước nguyên nhân sửa chữa các sản phẩm tiêu
dùng và trang bị các xe bảo trì các bộ phận cần thiết
để giảm thiểu số lần đến nhà khách hàng
 Hướng giải quyết :
 Xử lý dữ liệu trên các dụng cụ và bộ phận đã
yêu cầu trong các lần sửa trước để tìm các mẫu
đồng xuất hiện
40
HỒI QUI
 Dự đoán giá trị của bíến dựa trên giá trị của
các biến khác
 Ví dụ :
 Dự báo khối lượng bán hàng của sản phẩm
mới dựa trên chi phí quảng cáo
 Dự đóan tốc độ gió như một hàm của nhiệt độ,
độ ẩm, áp suất không khí, …
 Dự đoán chỉ số thị trường chứng khoán
Simpo PDF Merge and Split Unregistered Version -

11
41
Phát hiện sự Lạc hướng/
Bất bình thường
 Xác định sự lệch hướng rõ
rệt so với hành vi thông
thường
 Ứng dụng :
 Phát hiện gian lận
thẻ tín dụng
 Phát hiện xâm
nhập mạng trái phép
42
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
43
KTDL – KẾT HỢP PHƯƠNG PHÁP
Data Mining
Database
Technology
Statistics
Machine
Learning
Pattern
Recognition

Algorithm
Other
Disciplines
Visualization
44
MỘT SỐ KỸ THUẬT KTDL
 Cây quyết định, Luật qui nạp
 Phát hiện luật kết hợp
 Giải thuật di truyền
 Mạng Nơ ron , tập mờ
 Hồi qui tuyến tính, phi tuyến tính
 Tập thô (Rough Sets)
 Thống kê
 Mạng Bayes
 …
Simpo PDF Merge and Split Unregistered Version -
12
45
NỘI DUNG
1. Tại sao cần khai thác dữ liệu (DM) ?
2. DM là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
46
NHỮNG VẤN ĐỀ CỦA KTDL
 Tính có ích
 Tính hiệu quả
 Ứng dụng

 Lý thuyết
47
NHỮNG VẤN ĐỀ CỦA KTDL
 Tính có ích
Độ đo tính có ích ?
Trực quan và tương tác
 Tính hiệu quả
Phát triển thuật toán DM
nhanh
Thi hành có phương pháp :
khai thác song song, phân
tán, tăng cường
Tích hợp vào hệ thống sản
phẩm : DBMS, DW
Các tậ
ậậ
ập dữ
ữữ
ữ liệ
ệệ
ệu cự
ựự
ực lớ
ớớ

n
Và có số
ốố
ố chiề
ềề

ều lớ
ớớ
ớn
(Tính hiệ
ệệ
ệu qủ
ủủ
ủa, tí
nh co
dãn)
Xử
ửử
ử lý các kiể
ểể
ểu dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau vớ
ớớ
ới mứ
ứứ
ức
độ
ộộ
ộ quả
ảả
ản trị
ịị

ị khác
nhau
48
NHỮNG VẤN ĐỀ CỦA KTDL
 Ứng dụng
DL bị nhiễu, thiếu
DL phức tạp, không đồng
nhất
Bảo toàn tính riêng tư
 Lý thuyết
Biểu diễn tri thức
Ngôn ngữ và đại số DM
Tối ưu hóa câu truy vấn
DM
Các nguồ
ồồ
ồn dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau (Các
CSDL Phân tán và
thuầ
ầầ
ần nhấ
ấấ
ất, dữ
ữữ
ữ liệ

ệệ
ệu
không đồ
ồồ
ồng bộ
ộộ
ộ, có
nhiễ
ễễ
ễu và bị
ịị
ị mấ
ấấ
ất
mát,v.v….)
Simpo PDF Merge and Split Unregistered Version -
13
49
TẠI SAO CẦN NGHIÊN CỨU KTDL
Thảo luận và tự đưa ra câu trả lời
50
TÓM TẮT
 Khám phá mẫu có ích, chưa biết từ khối
lượng lớn DL
 Qui trình KDD
Thu thập và tiền xử lý DL -> KTDL -> Đánh
giá mẫu -> Biểu diễn tri thức
 Khai thác trên nhiều loại DL, thông tin
 Các loại mẫu cần khai thác
Luật kết hợp, mẫu tuần tự, phân lớp, gom

nhóm, mẫu hiếm, mẫu cá biệt, sai lệch
51
TÀI LIỆU THAM KHẢO
 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith.
From data mining to knowledge discovery: An
overview. U.M. Fayyad, et al. (eds.), Advances
in Knowledge Discovery and Data Mining, 1-
35. AAAI/MIT Press, 1996
 />1_d%E1%BB%AF_li%E1%BB%87u : bách
khoa toàn thư mở wikipedia
 Một số slide dùng trong bài được lấy từ các
slide của các cuốn sách về KTDL.
52
Sự phát triển của KTDL
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
 Journal of Data Mining and Knowledge Discovery (1997)
 ACM SIGKDD conferences từ 1998 và SIGKDD Explorations
 Nhiều hội nghị khác về KTDL
 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), …
 ACM Transactions on KDD từ 2007
Simpo PDF Merge and Split Unregistered Version -
14

53
BÀI TẬP
1. Thế nào là khai thác dữ liệu ?
2. Các kiểu dữ liệu, thông tin nào có khả năng
được sử dụng trong qui trình KDD?
3. Cho ví dụ về việc áp dụng KTDL đem đến
thành công trong kinh doanh (ngoài các ví
dụ có trong bài giảng). Loại nhiệm vụ nào
của KTDL được sử dụng ? Họ có thể thay
bằng phương pháp truy vấn DL hay phân
tích thống kê đơn giản không ?
54
Q & A
Simpo PDF Merge and Split Unregistered Version -
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 2
CHUẨN BỊ DỮ LIỆU
3
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
4

CÁC KIỂU DỮ LIỆU
 Dữ liệu dạng thuộc tính -
giá trị (Attribute-value data)
 Các kiểu dữ liệu
 số (numeric), phi số
(categorical)
 Tĩnh, động (thời gian)
 Các dạng dữ liệu khác
 DL phân tán
 DL văn bản
 DL web, siêu DL
 Hình ảnh, audio/video

Simpo PDF Merge and Split Unregistered Version -
2
5
CHUẨN BỊ DỮ LIỆU
 Dữ liệu trong thực tế có chất lượng xấu
DL thiếu, không đầy đủ : thiếu giá trị của thuộc
tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa
DL tích hợp
o VD : tuổi, cân nặng = “”
DL b tp, nhiu (noise) : chứa lỗi hoặc các sai
biệt
o VD : Lương =“-100 000”
DL mâu thuẫn : có sự không thống nhất trong mã
hoặc trong tên
o VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA?
6
Tại sao DL có chất lượng xấu ?

 Bài tập theo nhóm : 20’ : thảo luận và viết
tổng hợp
Tình huống : Bạn là người quản lý thông tin của
công ty điện tử X (gồm rất nhiều chi nhánh trên
toàn quốc). Bạn cần phân tích DL bán hàng của
tất cả các chi nhánh.
Sau khi thu thập DL từ các chi nhánh, bạn có
thể gặp những vấn đề gì, ví dụ và tại sao ?
Tại sao DL trong thực tế thường có chất lượng
xấu?
Np bn tng hp ý kin cho GV ( ghi rõ tên
nhóm nh qui đnh ). Vit ngn gn, súc tích .
7
Qui định trình bày bài nộp
Bài tập nộp theo nhóm
 Ngày nộp :
 Tên nhóm : (chỉ ghi tên các thành viên có
mặt)
 Thành viên 1:
 Thành viên 2:
 ….
 Thành viên 12:
 Nội dung :
8
CHUẨN BỊ DỮ LIỆU
 “DL không chất lượng, không cho kết quả
khai thác tốt”
Quyết định đúng đắn phải dựa trên các DL
chính xác
o VD : việc trùng lắp hoặc thiếu DL có thể

dẫn tới việc thống kê không chính xác,
thậm chí làm lạc lối.
Nhà kho DL cần sự tích hợp đồng nhất các
DL chất lượng
Simpo PDF Merge and Split Unregistered Version -
3
9
CHUẨN BỊ DỮ LIỆU
 Các bước của quá trình chuẩn bị DL ?
Làm sạch DL
o Điền các giá trị thiếu, khử DL nhiễu, xác định và loại
bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn
Chọn lọc/ Tích hợp DL
o Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác
nhau .
Biến đổi DL/ Mã hoá DL
o Chuẩn hoá và tổng hợp (aggregation) .
Rút gọn DL
o Giảm kích thước DL nhưng đảm bảo kết quả phân
tích .
10
CHUẨN BỊ DỮ LIỆU
11
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
12

LÀM SẠCH DỮ LIỆU
 Làm sạch DL là vấn đề quan trọng bậc
nhất của nhà kho DL
 Các nhiệm vụ của công đoạn làm
sạch DL
Điền các giá trị còn thiếu
Xác định các sai biệt và khử DL tạp,
nhiễu
Sửa chữa các DL mâu thuẫn
Simpo PDF Merge and Split Unregistered Version -
4
13
ĐIỀN DỮ LIỆU THIẾU
 Bỏ qua các mẫu tin có giá trị thiếu
Thường dùng khi thiếu nhãn của lớp ( trong phân
lớp)
Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá
trị thiếu của thuộc tính cao.
 Điền các giá trị thiếu bằng tay : vô vị +
không khả thi
 Điền các giá trị thiếu tự động :
Thay thế bằng hằng số chung: VD : “không biết”.
Có thể thành lớp mới trong DL
14
ĐIỀN DỮ LIỆU THIẾU
 Điền các giá trị thiếu tự động :
Thay thế bằng giá trị trung bình của
thuộc tính
Thay thế bằng giá trị trung bình của
thuộc tính trong một lớp

Thay thế bằng giá trị có nhiều khả năng
nhất : suy ra từ công thức Bayesian,
cây quyết định hoặc thuật giải
EM (Expectation Maximization)
15
ĐIỀN DỮ LIỆU THIẾU
 Tình huống:
Thu thập DL về sinh viên thuộc các
trường của ĐHQG Tp.HCM ( Vd : để
phân tích mức sống SV)
Các thuộc tính nào có thể có trong
CSDL ?
Ví dụ thuộc tính bị thiếu giá trị là thuộc
tính “Tiền thuê nhà”
Cách giải quyết?
16
DỮ LIỆU NHIỄU
 Các phương pháp cơ bản khử
nhiễu :
Phương pháp chia giỏ (Binning) :
o Sắp xếp và chia DL vào các giỏ có cùng độ sâu (equal-
depth)
o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ,…
Gom nhóm ( Clustering) :
o Phát hiện và loại bỏ các khác biệt
Phương pháp hồi qui ( Regression) :
o Đưa DL vào hàm hồi qui
Kết hợp sự kiểm tra giữa máy tính và con người
(Computer/human inspection)
o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người

Simpo PDF Merge and Split Unregistered Version -

×