1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
NỘI DUNG
Giới thiệu về môn học
Giới thiệu về khai thá
c
dữ liệu (DM)
Simpo PDF Merge and Split Unregistered Version -
2
3
GIỚI THIỆU MÔN HỌC
Tai sao chọn môn học này ?
Thế mạnh và nền tảng kiến thức :
TTNT, hệ QTCSDL, thống kê, kinh tế,…
Sự quan tâm đến kiến thức, vấn đề mới.
Mục tiêu môn học :
Cung cấp các khái niệm và kỹ thuật cơ bản củ
a
khai thác dữ liệu (DM)
Chuyển dữ liệu về dạng phù hợp
Tìm tri thức từ dữ liệu
Biểu diễn, đánh giá tri thức
Ứng dụng của DM
Các kỹ năng giải quyết vấn đề
4
Thông tin liên lạc
Giảng viên lý thuyết :
Th.s. Nguyễn Hoàng Tú Anh
Tel : 8354266 – 508 hoặc 803
Website môn học :
/> vào mục Hệ Hoàn chỉnh Đại Học /Khai thác
DL & UD – 05HCA
Simpo PDF Merge and Split Unregistered Version -
3
5
CHƯƠNG TRÌNH
30 tiết lý thuyết
Tổng quan
Chuẩn bị dữ liệu
Tập phổ biến và luật kết hợp
Chuỗi tuần tự
Bài toán phân lớp
Bài toán gom nhóm
Các nghiên cứu xa hơn
6
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Thi lý thuyết : 7 điểm
Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng
laptop, mang theo máy tính : thời gian 120’
Bài tập giữa kỳ 1.5 điểm
Bài tập làm cá nhân
Nộp 1 lần trong học kỳ trên website môn học theo
thông báo của GV
Bài tập theo nhóm : 1.5 điểm
Bài tập làm theo nhóm trên lớp. Từ 8 - 12 SV/nhóm
Simpo PDF Merge and Split Unregistered Version -
4
7
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập giữa kỳ 1.5 điểm
Bài tập làm cá nhân
Nộp 1 lần trong học kỳ trên website môn học theo thông báo
của GV ( soft + hard copy)
Lưu ý: khi nộp bài cần tuân theo đầy đủ quy định được thông báo
trên website môn học (về cách tổ chức file bài làm, đặt tên
file…), không nộp qua email, không chấp nhận nộp trễ.
Các mức đánh giá:
A – Xuất sắc 100% số điểm
B - Đạt yêu cầu ~70% số điểm
C - Không đạt yêu cầu ~30% số điểm
F - Không nộp, hoặc giống bài của SV khác 0% số điểm
8
HÌNH THỨC KIỂM TRA VÀ
ĐÁNH GIÁ
Bài tập làm theo nhóm 1.5 điểm
Bài tập làm theo nhóm trên lớp. Từ 8 -12 SV/nhóm.
Đanh giá sự tham gia lớp học và sự chuẩn bị bài
Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả
trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay
tại lớp.
Để có thể đạt kết quả tốt, các nhóm cần xem trước bài giảng
để chuẩn bị.
Các mức đánh giá:
A – Xuất sắc 100% số điểm
B - Đạt yêu cầu ~70% số điểm
C - Không đạt yêu cầu ~30% số điểm
F - Không làm hoặc giống bài của nhóm khác 0% số điểm
Simpo PDF Merge and Split Unregistered Version -
5
9
Câu hỏi và đề nghị ?
Rất mong nhận được các ý kiến phản hồi từ các
em.
Cô cần điều chỉnh nội dung cho phù hợp
với nhu cầu của các em.
Có thể gửi ý kiến cho Cô bất cứ lúc nào .
Chia sẻ câu hỏi, thắc mắc với cả lớp – có thể có
những bạn khác cũng quan tâm.
Bỏ vào càng nhiều công sức, các em sẽ đạt được
kết quả càng cao
Điểm của các em tỷ lệ thuận với các nỗ lực đã
bỏ ra.
10
TÀI LIỆU THAM KHẢO
J.Han, M.Kamber, “Data mining : Concepts & Technique”
(ppt) – hoặc ebook tại
địa chỉ
P.Tan, M. Steinbach, V. Kumar, “Introduction to data
Mining”, 2006, - http://www-
users.cs.umn.edu/~kumar/dmbook/index.php
Phần mềm WEKA - /> Trang web đầu ngành về KTDL - Kdnuggets :
www.kdnuggets.com
Simpo PDF Merge and Split Unregistered Version -
6
11
NỘI DUNG
Giới thiệu về môn học
Giới thiệu về khai thác
dữ liệu (DM)
12
THẾ NÀO LÀ KHAI THÁC DL
Là quá trình lặp, không phải plug - and – play
“Khai thác dữ liệu là quá trình không tầm thường
của việc xác định các mẫu tiềm ẩn có tính hợp lệ,
mới lạ, có ích và có thể hiểu được tối đa trong
CSDL” – U.Fayyad, …(1996)
Một vài ví dụ minh họa ứng dụng KTDL
FBI – theo dõi tội phạm
Các công ty điện thoại
Siêu thị, trung tâm mua sắm (Walmart, Costco)
Các công ty bảo hiểm
Ngân hàng, tài chính, chứng khoán
….
Simpo PDF Merge and Split Unregistered Version -
7
13
THẾ NÀO LÀ KHAI THÁC DL
Tại sao cần Khai thác dữ liệu (KTDL)?
Những đối tượng nào sử dụng KTDL ?
Sử dụng KTDL ở đâu và khi nào?
Sử dụng KTDL như thế nào ?
Tại sao cần nghiên cứu KTDL?
Lịch sử phát triển KTDL ?
….
Xem bài 1 : Tổng quan.
Lưu ý : Hạn chót đăng ký nhóm : 16/5/2007
14
Simpo PDF Merge and Split Unregistered Version -
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 1
TỔNG QUAN
3
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu (KTDL) là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
4
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh thương mại
Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng /
thẻ tin dụng
Máy tính mạnh hơn , rẻ hơn
Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM –
Customer Relationship Management)
Simpo PDF Merge and Split Unregistered Version -
2
5
SỰ CẦN THIẾT CỦA KTDL –
Khía cạnh Khoa học
Dữ liệu được thu thập
và lưu trữ với tốc độ cao(GB/h)
o Thiết bị remote sensor trên vệ tinh
o Kính thiên văn quan sát bầu trời
o Microarray tạo dữ liệu biểu diễn gien
o Thử nghiệm khoa học tạo hàng TB
Các kỹ thuật truyền thống khơng đủ
khả năng làm việc với dữ liệu thơ
KTDL có thể giúp các nhà khoa học
o Phân loại và phân đoạn dữ liệu
o Xây dựng giả thuyết
6
SỰ CẦN THIẾT CỦA KTDL
DL chứa rất nhiều thơng tin giá
trị, có lợi cho qui trình ra quyết
định
Khơng thể phân tích DL = tay
• Con người cần hàng tuần lễ để
khám phá ra thơng tin có ích
• Phần lớn dữ liệu chưa bao giờ
được phân tích cả
• “Hố sâu giữa khả năng sinh ra DL
và khả năng sử dụng DL” –
Usama Fayyad
10
6
-10
12
bytes:
Không bao giờ có
thể nhìn thấy một
cách đầy đủ tập
dữ liệu hoặc đưa
vào bộ nhớ của
máy tính
7
SỰ CẦN THIẾT CỦA KTDL
0
500,000
1,000,000
1,500,000
2,000,000
2,500,000
3,000,000
3,500,000
4,000,000
1995 1996 1997 1998 1999
Hố sâu dữ liệu
Số DL thu thập (TB) từ năm 1995
Số DL được
phân tích
8
SỰ RA ĐỜI CỦA KTDL
Simpo PDF Merge and Split Unregistered Version -
3
9
SỰ DỤNG KTDL KHI NÀO?
Dữ liệu q nhiều
Dữ liệu lớn (chiều và kích thước)
Dữ liệu ảnh ( kích thước)
Dữ liệu gene (số chiều)
Có ít tri thức về dữ liệu
10
LĨNH VỰC ỨNG DỤNG KTDL
Thông tin thương mại
-Phân tích thò trường và
mua bán
-Phân tích đầu tư
-Chấp thuận cho vay
-Phát hiện gian lận
…
Thông tin sản xuất
- Điều khiển và lên kế hoạch
- Quản trò mạng
- Phân tích các kết qủa thực
nghiệm
…
Thông tin khoa học
- Thiên văn học
- Cơ sở dữ liệu sinh học
- Khoa học đòa chất: bộ dò tìm động
đất
…
Thông tin cá nhân
11
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
12
THẾ NÀO LÀ KTDL
“Khai thác dữ liệu là q trình khơng tầm thường của việc xác
định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có
thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ
Chứng minh tính đúng
Của mẫu / Mô hình
Mới lạ
Không biết trước
Có ích
Có thể sử dụng được
Có thể hiểu được
Bởi con người và máy
Simpo PDF Merge and Split Unregistered Version -
4
13
KHAI THÁC DL …
Thế nào là mẫu ?
Là mối quan hệ trong dữ liệu ví dụ như :
Những người mua quần tây thường hay mua
thêm áo sơ mi
Những người có mức tín dụng tốt thì thường
ít bị tai nạn
Đàn ông, 37+, thu nhập : 50K-75K, -> chi
khoảng 25$-50$ cho đặt mua hàng qua
catalog
14
KHAI THÁC DL
What is Data Mining?
– Các tên phổ biến tại khu
vực xác định của Mỹ
(O’Brien, O’Rurke,
O’Reilly… ở vùng Boston )
– Gom nhóm các tài liệu
giống nhau thu được từ
search engine dựa trên nội
dung (VD: rừng nhiệt đới
Amazon , Amazon.com)
What is not Data
Mining?
– Tìm số điện
thoại trong danh
bạ điện thoại
– Tìm thông tin về
“Amazon” trên
serach engine
15
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
16
QUI TRÌNH KHÁM PHÁ TRI THỨC
KTDL : Một bước
quan trọng trong qui
trình KDD (knowledge
discovery in DB)
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
1
2
3
4
5
Simpo PDF Merge and Split Unregistered Version -
5
17
QUI TRÌNH KDD
Dữ liệu được tổ chức theo chức
năng
Tạo ra/chọn lọc
CSDL đích
Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Thay thế những
giá trò thiếu
Chuẩn hoá
giá trò
Lựa chọn
nhiệm vụ DM
Biến đổi qua
biểu điễn khác
Khử nhiễu
Dữ liệu
Biến đổi
giá trò
Lựa chọn
phương pháp DM
Tạo các thuộc
Tính dẫn xuất
Trích xuất
Tri thức
Tìm thuộc tính quan
trọng &Miền giá trò
Kiểm tra
tri thức
Tính chế
Tri thức
Phát sinh ra câu hỏi và báo cáo
Các phương pháp cải tiến
kiểu kết hợp và lập dãy
Data warehousing
1
2
3
4
5
18
KIẾN TRÚC HỆ THỐNG DM TIỂU BIỂU
Data
Warehouse
Data cleaning & data integration
Filtering
Databases
Database or data
warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
19
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của DM
5. Các kỹ thuật DM
6. Các vấn đề của DM
20
CÁC NHIỆM VỤ CHÍNH CỦA DM
Simpo PDF Merge and Split Unregistered Version -
6
21
CÁC NHIỆM VỤ CHÍNH CỦA DM
Phân lớ
ớớ
ớp
Phát hiệ
ệệ
ện sự
ựự
ự thay
đổ
ổổ
ổi/lạ
ạạ
ạc hướ
ớớ
ớng
?
Tóm tắ
ắắ
ắt
Gom cụ
ụụ
ụm
Mô hình hóa
phụ
ụụ
ụ thuộ
ộộ
ộc
Hồ
ồồ
ồi qui
Phát hiện ra mô tả của một
vài lớp đã được xác định và
phân loại dữ liệu vào một
trong các lớp đó.
Ánh xạ từ một mẫu dữ liệu
thành một biến dự đoán
trước có giá trị thực .
Tìm ra một tập xác định
Các nhóm hay các cụm
để mô tả dữ liệu
Phát hiện ra một mô tả
tóm tắt cho một
tập con dữ liệu
Phát hiện ra một mô
hình mà mô tả phụ
thuộc quan trọng nhất
giữa các biến
Phát hiện ra những thay đổi
quan trọng nhất
trong dữ liệu
22
VÍ DỤ PHÂN LỚP
Công ty Verizon Wireless :
Công ty cung cấp thiết bị, dịch vụ không dây lớn
nhất ở Mỹ
Số lượng khách hàng : 30.3 triệu
90% dân số Mỹ
Vấn đề :
Tỷ lệ khách hàng bị mất cao : 2%/tháng ( 600,000
khách hàng rời bỏ/tháng)
Chi phí thay thế : hàng trăm triệu $/năm
Chi phí trung bình cho mỗi khách hàng mới : 320$
23
VÍ DỤ PHÂN LỚP
Giải pháp thông thường :
Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng
Chí phí quá tốn kém, lãng phí
Giải pháp của KTDL :
Xây dựng mô hình dự đoán
Dùng mô hình dự đoán để xác định các khách hàng có
khả năng rời bỏ
Sau đó :
Khuyến mãi, chào mời ( VD: một điện thoại mới) cho
những khách hàng có nhiều khả năng rời bỏ nhất
Phát triển kế họach mới nhằm đáp ứng nhu cầu của khách
hàng
Kết quả : giảm tỷ lệ mất khách hàng dưới 1.5 %/ tháng
24
VÍ DỤ PHÂN LỚP
Simpo PDF Merge and Split Unregistered Version -
7
25
Bài tập theo nhóm
Thời gian thảo luận : 15’
Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
Thời gian trình bày : tối đa 5’
Trình bày tình huống
Hướng giải quyết và lợi ích
Tình huống 1 : Thị trường bán lẻ
Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa
Dạng DL nào được thu thập
Kiểu tri thức nào ta cần biết về khách hàng
Có cần biết khách hàng mua các mặt hàng gì
Có cần phân loại khách hàng
26
Bài tập theo nhóm
Thời gian : 15’
Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
Thời gian trình bày : tối đa 5’
Trình bày tình huống
Hướng giải quyết và lợi ích
Tình huống 2 : Quảng cáo sản phẩm
Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran
Gửi tờ quảng cáo sản phẩm đến tất cả các khách hàng
Hay chỉ gửi cho 1 nhóm có chọn lọc
Dự kiến khả năng phản hồi của khách hàng so với chi phí
gửi quảng cáo
27
PHÂN LỚP: ỨNG DỤNG 1
Phát hiện gian lận :
Mục đích : Dự đoán các trường hợp gian lận trong giao
dịch thẻ tín dụng
Hướng giải quyết :
Dùng các giao dịch thẻ tín dụng và thông tin của chủ
thẻ như thuộc tính
Khách hàng mua cái gì, lúc nào, số lần dùng thẻ
Gán nhãn giao dịch cũ là gian lận hay hợp lý, đúng - tạo
thành thuộc tính lớp
Xây dựng mô hình cho lớp các giao dịch
Dùng mô hình để khám phá gian lận trên các giao dịch thẻ
tín dụng
28
PHÂN LỚP: ỨNG DỤNG 2
Quảng cáo :
Mục đích : Giảm chí phí thư tín bằng cách tập trung vào
nhóm khách hàng có nhiều khả năng mua sản phẩm điện
thoại di động mới
Hướng giải quyết :
Sử dụng dữ liệu cho sản phẩm tương tự trước đây
Dùng quyết định {mua, không mua} làm thuộc tính lớp
Thu thập thông tin cá nhân, cách sống và quan hệ của tất
cả các khách hàng
Dùng các thông tin trên như là dữ liệu đầu vào để xây
dựng mô hình phân lớp
Simpo PDF Merge and Split Unregistered Version -
8
29
PHÂN LỚP: ỨNG DỤNG 3
Nghiên cứu thiên văn :
Mục đích : Dự báo loại đối tượng ( ngôi sao hay thiên hà),
đặc biệt các đối tượng khó thấy dựa trên hình ảnh của kính
thiên văn
3000 ảnh : 23040 X 23040 pixel/ảnh
Hướng giải quyết :
Phân đoạn ảnh
Xác định thuộc tính(đặc trưng) ảnh : 40 đặc trưng/ảnh
Xây dựng mô hình dựa trên các đặc trưng
Kết quả : Đã tìm thấy 16 chuẩn tinh đỏ - đối tượng ở
rất xa khó có thể thấy được
30
Early
Intermediate
Late
Kích thước dữ liệu:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
Class:
• Các giai đoạn hình
thành
Thuộc tính:
• Đặc trưng ảnh
• Đặc điểm sóng ánh
sáng,
Nguồn:
PHÂN LỚP Thiên hà
31
GOM CỤM : Minh họa
Gom cụm dựa trên khoảng cách Euclide trong
không gian 3-D
Intracluster distances
are minimized
Intracluster distances
are minimized
Intercluster distances
are maximized
Intercluster distances
are maximized
32
GOM CỤM : ỨNG DỤNG 1
Gom nhóm khách hàng :
Mục đích : Chia khách hàng thành các nhóm/cụm riêng
biệt để có thể áp dụng các biện pháp quảng cáo khác nhau
Hướng giải quyết :
Thu thập thông tin cá nhân, cách sống của tất cả các
khách hàng
Xác định các cụm/nhóm khách hàng giống nhau
Kiểm tra chất lượng của các cụm thông qua việc quan
sát đặc trưng mua hàng của khách hàng trong cùng
một cụm so với khách hàng khác cụm
Simpo PDF Merge and Split Unregistered Version -
9
33
GOM CỤM : ỨNG DỤNG 2
Gom cụm tài liệu :
Mục đích : Tìm nhóm tài liệu giống nhau dựa trên các từ
quan trọng
Hướng giải quyết :
Xác định độ phổ biến của từ trong tài liệu. Xây dựng
độ đo tương tự dựa trên độ phổ biến của các từ để gom
cụm.
Lợi ích : Trong lĩnh vực truy vấn thông tin ( IR), có
thể dùng các cụm để liên kết tài liệu mới với các tài
liệu đã gom cụm
34
Minh họa gom cụm tài liệu
3024 bài báo của LA Times
Độ đo tương tự : bao nhiêu từ thường được
dùng trong các văn bản này.
35
Gom cụm DL cổ phiếu S&P 500
Quan sát sự biến động của giá cổ phiếu hàng ngày
Dữ liệu : Cổ phiếu – {UP/DOWN}
Độ đo tương tự : các sự kiện thường giống nhau trong
cùng một ngày
Discovered Clusters Industry Group
1
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOW N,INTEL-DOWN ,LSI-Logic-DOWN,
Micron-Tech-DOWN,Te xas-Inst-Down,Te llabs-Inc-Down,
Natl-Se miconduct-DOWN,Orac l-DOWN,SGI-DOW N,
Sun-DOWN
Technology1-DOWN
2
Apple-Comp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-Micro-Device -DOWN,Andrew-Corp-DOWN,
Computer-Assoc-DOWN,Circuit-City-DOWN,
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOWN,Micros oft-DOWN,Scientific-Atl-DOWN
Technology2-DOWN
3
Fannie-Mae-DOWN,Fed-Ho me-Loan -DOW N,
MBNA-Corp-DOWN,Morgan-Stanley-DOWN
Financial-DOWN
4
Baker-Hughes -UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Oil-UP
36
KHAI THÁC LUẬT KẾT HỢP
Itemset X={x
1
, …, x
k
}
Tìm mối quan hệ giữa
các thuộc tính thường
xuất hiện đồng thời
A
C (50%, 66.7%)
C
A (50%, 100%)
Customer
buys diaper
Customer
buys both
Customer
buys beer
B, E, F40
A, D30
A, C20
A, B, C10
Items boughtTransaction-id
Buy diapers
on
Friday night
Buy beer
Then
Simpo PDF Merge and Split Unregistered Version -
10
37
Khai thác LKH : ỨNG DỤNG 1
Quảng cáo và khuyến mãi :
Giả sử tìm được luật :
{Bia, }
{Khoai tây chiên}
Khoai tây chiên là hệ quả : quyết định nên làm
gì để quảng cáo cho nó
Bia là tiền đề : dùng để xem loại sản phẩm nào
bị ảnh hưởng nếu không bán bia nữa
Bia và khoai tây chiên cùng xuất hiện : loại sản
phẩm nào nên bán kèm với bia để khuyến khích
mua khoai tây chiên
38
Khai thác LKH : ỨNG DỤNG 2
Quản lý quầy hàng siêu thị:
Mục đích : Xác định những mặt hàng được nhiều
khách hàng mua chung
Hướng giải quyết :
Xử lý dữ liệu bán hàng để tìm mối liên hệ
giữa các mặt hàng
Luật cổ điển : Nếu khách hàng mua tã giấy
và sữa thì có khả năng mua bia.
39
Khai thác LKH : ỨNG DỤNG 3
Quản lý hàng hóa:
Mục đích : Công ty bảo trì thiết bị tiêu dùng muốn
đoán trước nguyên nhân sửa chữa các sản phẩm tiêu
dùng và trang bị các xe bảo trì các bộ phận cần thiết
để giảm thiểu số lần đến nhà khách hàng
Hướng giải quyết :
Xử lý dữ liệu trên các dụng cụ và bộ phận đã
yêu cầu trong các lần sửa trước để tìm các mẫu
đồng xuất hiện
40
HỒI QUI
Dự đoán giá trị của bíến dựa trên giá trị của
các biến khác
Ví dụ :
Dự báo khối lượng bán hàng của sản phẩm
mới dựa trên chi phí quảng cáo
Dự đóan tốc độ gió như một hàm của nhiệt độ,
độ ẩm, áp suất không khí, …
Dự đoán chỉ số thị trường chứng khoán
Simpo PDF Merge and Split Unregistered Version -
11
41
Phát hiện sự Lạc hướng/
Bất bình thường
Xác định sự lệch hướng rõ
rệt so với hành vi thông
thường
Ứng dụng :
Phát hiện gian lận
thẻ tín dụng
Phát hiện xâm
nhập mạng trái phép
42
NỘI DUNG
1. Tại sao cần khai thác dữ liệu ?
2. Khai thác dữ liệu là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
43
KTDL – KẾT HỢP PHƯƠNG PHÁP
Data Mining
Database
Technology
Statistics
Machine
Learning
Pattern
Recognition
Algorithm
Other
Disciplines
Visualization
44
MỘT SỐ KỸ THUẬT KTDL
Cây quyết định, Luật qui nạp
Phát hiện luật kết hợp
Giải thuật di truyền
Mạng Nơ ron , tập mờ
Hồi qui tuyến tính, phi tuyến tính
Tập thô (Rough Sets)
Thống kê
Mạng Bayes
…
Simpo PDF Merge and Split Unregistered Version -
12
45
NỘI DUNG
1. Tại sao cần khai thác dữ liệu (DM) ?
2. DM là gì ?
3. Qui trình KDD
4. Các nhiệm vụ chính của KTDL
5. Các kỹ thuật KTDL
6. Các vấn đề của KTDL
46
NHỮNG VẤN ĐỀ CỦA KTDL
Tính có ích
Tính hiệu quả
Ứng dụng
Lý thuyết
47
NHỮNG VẤN ĐỀ CỦA KTDL
Tính có ích
Độ đo tính có ích ?
Trực quan và tương tác
Tính hiệu quả
Phát triển thuật toán DM
nhanh
Thi hành có phương pháp :
khai thác song song, phân
tán, tăng cường
Tích hợp vào hệ thống sản
phẩm : DBMS, DW
Các tậ
ậậ
ập dữ
ữữ
ữ liệ
ệệ
ệu cự
ựự
ực lớ
ớớ
ớ
n
Và có số
ốố
ố chiề
ềề
ều lớ
ớớ
ớn
(Tính hiệ
ệệ
ệu qủ
ủủ
ủa, tí
nh co
dãn)
Xử
ửử
ử lý các kiể
ểể
ểu dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau vớ
ớớ
ới mứ
ứứ
ức
độ
ộộ
ộ quả
ảả
ản trị
ịị
ị khác
nhau
48
NHỮNG VẤN ĐỀ CỦA KTDL
Ứng dụng
DL bị nhiễu, thiếu
DL phức tạp, không đồng
nhất
Bảo toàn tính riêng tư
Lý thuyết
Biểu diễn tri thức
Ngôn ngữ và đại số DM
Tối ưu hóa câu truy vấn
DM
Các nguồ
ồồ
ồn dữ
ữữ
ữ liệ
ệệ
ệu
khác nhau (Các
CSDL Phân tán và
thuầ
ầầ
ần nhấ
ấấ
ất, dữ
ữữ
ữ liệ
ệệ
ệu
không đồ
ồồ
ồng bộ
ộộ
ộ, có
nhiễ
ễễ
ễu và bị
ịị
ị mấ
ấấ
ất
mát,v.v….)
Simpo PDF Merge and Split Unregistered Version -
13
49
TẠI SAO CẦN NGHIÊN CỨU KTDL
Thảo luận và tự đưa ra câu trả lời
50
TÓM TẮT
Khám phá mẫu có ích, chưa biết từ khối
lượng lớn DL
Qui trình KDD
Thu thập và tiền xử lý DL -> KTDL -> Đánh
giá mẫu -> Biểu diễn tri thức
Khai thác trên nhiều loại DL, thông tin
Các loại mẫu cần khai thác
Luật kết hợp, mẫu tuần tự, phân lớp, gom
nhóm, mẫu hiếm, mẫu cá biệt, sai lệch
51
TÀI LIỆU THAM KHẢO
G. Piatetsky-Shapiro, U. Fayyad, and P. Smith.
From data mining to knowledge discovery: An
overview. U.M. Fayyad, et al. (eds.), Advances
in Knowledge Discovery and Data Mining, 1-
35. AAAI/MIT Press, 1996
/>1_d%E1%BB%AF_li%E1%BB%87u : bách
khoa toàn thư mở wikipedia
Một số slide dùng trong bài được lấy từ các
slide của các cuốn sách về KTDL.
52
Sự phát triển của KTDL
1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
Journal of Data Mining and Knowledge Discovery (1997)
ACM SIGKDD conferences từ 1998 và SIGKDD Explorations
Nhiều hội nghị khác về KTDL
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), …
ACM Transactions on KDD từ 2007
Simpo PDF Merge and Split Unregistered Version -
14
53
BÀI TẬP
1. Thế nào là khai thác dữ liệu ?
2. Các kiểu dữ liệu, thông tin nào có khả năng
được sử dụng trong qui trình KDD?
3. Cho ví dụ về việc áp dụng KTDL đem đến
thành công trong kinh doanh (ngoài các ví
dụ có trong bài giảng). Loại nhiệm vụ nào
của KTDL được sử dụng ? Họ có thể thay
bằng phương pháp truy vấn DL hay phân
tích thống kê đơn giản không ?
54
Q & A
Simpo PDF Merge and Split Unregistered Version -
1
KHAI THÁC DỮ LIỆU
& ỨNG DỤNG
(DATA MINING)
GV : ThS. NGUYỄN HOÀNG TÚ ANH
2
BÀI 2
CHUẨN BỊ DỮ LIỆU
3
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
4
CÁC KIỂU DỮ LIỆU
Dữ liệu dạng thuộc tính -
giá trị (Attribute-value data)
Các kiểu dữ liệu
số (numeric), phi số
(categorical)
Tĩnh, động (thời gian)
Các dạng dữ liệu khác
DL phân tán
DL văn bản
DL web, siêu DL
Hình ảnh, audio/video
Simpo PDF Merge and Split Unregistered Version -
2
5
CHUẨN BỊ DỮ LIỆU
Dữ liệu trong thực tế có chất lượng xấu
DL thiếu, không đầy đủ : thiếu giá trị của thuộc
tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa
DL tích hợp
o VD : tuổi, cân nặng = “”
DL b tp, nhiu (noise) : chứa lỗi hoặc các sai
biệt
o VD : Lương =“-100 000”
DL mâu thuẫn : có sự không thống nhất trong mã
hoặc trong tên
o VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA?
6
Tại sao DL có chất lượng xấu ?
Bài tập theo nhóm : 20’ : thảo luận và viết
tổng hợp
Tình huống : Bạn là người quản lý thông tin của
công ty điện tử X (gồm rất nhiều chi nhánh trên
toàn quốc). Bạn cần phân tích DL bán hàng của
tất cả các chi nhánh.
Sau khi thu thập DL từ các chi nhánh, bạn có
thể gặp những vấn đề gì, ví dụ và tại sao ?
Tại sao DL trong thực tế thường có chất lượng
xấu?
Np bn tng hp ý kin cho GV ( ghi rõ tên
nhóm nh qui đnh ). Vit ngn gn, súc tích .
7
Qui định trình bày bài nộp
Bài tập nộp theo nhóm
Ngày nộp :
Tên nhóm : (chỉ ghi tên các thành viên có
mặt)
Thành viên 1:
Thành viên 2:
….
Thành viên 12:
Nội dung :
8
CHUẨN BỊ DỮ LIỆU
“DL không chất lượng, không cho kết quả
khai thác tốt”
Quyết định đúng đắn phải dựa trên các DL
chính xác
o VD : việc trùng lắp hoặc thiếu DL có thể
dẫn tới việc thống kê không chính xác,
thậm chí làm lạc lối.
Nhà kho DL cần sự tích hợp đồng nhất các
DL chất lượng
Simpo PDF Merge and Split Unregistered Version -
3
9
CHUẨN BỊ DỮ LIỆU
Các bước của quá trình chuẩn bị DL ?
Làm sạch DL
o Điền các giá trị thiếu, khử DL nhiễu, xác định và loại
bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn
Chọn lọc/ Tích hợp DL
o Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác
nhau .
Biến đổi DL/ Mã hoá DL
o Chuẩn hoá và tổng hợp (aggregation) .
Rút gọn DL
o Giảm kích thước DL nhưng đảm bảo kết quả phân
tích .
10
CHUẨN BỊ DỮ LIỆU
11
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3. Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
5. Mã hoá dữ liệu
12
LÀM SẠCH DỮ LIỆU
Làm sạch DL là vấn đề quan trọng bậc
nhất của nhà kho DL
Các nhiệm vụ của công đoạn làm
sạch DL
Điền các giá trị còn thiếu
Xác định các sai biệt và khử DL tạp,
nhiễu
Sửa chữa các DL mâu thuẫn
Simpo PDF Merge and Split Unregistered Version -
4
13
ĐIỀN DỮ LIỆU THIẾU
Bỏ qua các mẫu tin có giá trị thiếu
Thường dùng khi thiếu nhãn của lớp ( trong phân
lớp)
Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá
trị thiếu của thuộc tính cao.
Điền các giá trị thiếu bằng tay : vô vị +
không khả thi
Điền các giá trị thiếu tự động :
Thay thế bằng hằng số chung: VD : “không biết”.
Có thể thành lớp mới trong DL
14
ĐIỀN DỮ LIỆU THIẾU
Điền các giá trị thiếu tự động :
Thay thế bằng giá trị trung bình của
thuộc tính
Thay thế bằng giá trị trung bình của
thuộc tính trong một lớp
Thay thế bằng giá trị có nhiều khả năng
nhất : suy ra từ công thức Bayesian,
cây quyết định hoặc thuật giải
EM (Expectation Maximization)
15
ĐIỀN DỮ LIỆU THIẾU
Tình huống:
Thu thập DL về sinh viên thuộc các
trường của ĐHQG Tp.HCM ( Vd : để
phân tích mức sống SV)
Các thuộc tính nào có thể có trong
CSDL ?
Ví dụ thuộc tính bị thiếu giá trị là thuộc
tính “Tiền thuê nhà”
Cách giải quyết?
16
DỮ LIỆU NHIỄU
Các phương pháp cơ bản khử
nhiễu :
Phương pháp chia giỏ (Binning) :
o Sắp xếp và chia DL vào các giỏ có cùng độ sâu (equal-
depth)
o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ,…
Gom nhóm ( Clustering) :
o Phát hiện và loại bỏ các khác biệt
Phương pháp hồi qui ( Regression) :
o Đưa DL vào hàm hồi qui
Kết hợp sự kiểm tra giữa máy tính và con người
(Computer/human inspection)
o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người
Simpo PDF Merge and Split Unregistered Version -