.+$,7+È&'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*97K61*8<ӈ1+2¬1*7Ò$1+
BÀI 1
7Ә1*48$1
2
1
1͘,'81*
1. 7ҥLVDRFҫQNKDLWKiFGӳOLӋX"
2. .KDLWKiFGӳOLӋX.7'/
OjJu"
3. 4XLWUuQK.KiPSKiWULWKӭF.''
4. &iFQKLӋPYөFKtQKFӫD.7'/
5. &iFNӻWKXұW.7'/
6. &iFWKiFKWKӭFFӫD.7'/
3
±
.KtDFҥQKWKѭѫQJPҥL
6Ͱ&ɣ17+,ɻ7&ͦ$.7'/
¾ .K͙LO˱ͫQJOͣQGͷOL͏X
ÿ˱ͫFWKXWK̵SYjO˱XWUͷ
o
Web data, e-commerce
o
+yDÿѫQPXDKjQJWҥLVLrXWKӏ
o
WUXQJWkPPXDVҳP
*LDRGӏFKQJkQKjQJ
WKҿWLQGөQJ
¾ Máy tính P̩QK K˯Q U̓ K˯Q
¾ Áp OF F̩QK tranh ṶW P̩QK
o
Cung FҩS các GӏFK Yө ÿD GҥQJ FKҩW OѭӧQJ WӕW ( CRM ±
Customer Relationship Management)
4
2
6Ͱ&ɣ17+,ɻ7&ͦ$.7'/
±
.KtDFҥQK.KRDKӑF
'ͷOL͏Xÿ˱ͫFWKXWK̵S
YjO˱XWUͷYͣLW͙Fÿ͡FDR*%K
¾
o
o
o
o
7KLӃW Eӏ remote sensor trên YӋ tinh
.tQKWKLrQYăQTXDQViWEҫXWUӡL
0LFURDUUD\WҥRGӳOLӋXELӇXGLӉQJLHQ
7KӱQJKLӋPNKRDKӑFWҥRKjQJ7HUD%\WH
&iFNͿWKX̵WWUX\͉QWK͙QJNK{QJÿͯ
NK̫QăQJOjPYL͏FYͣLGͷOL͏XWK{
KTDL có WK͋ giúp các nhà khoa K͕F
¾
¾
o
o
Phân ORҥL và phân ÿRҥQ Gӳ OLӋX
Xây GӵQJ JLҧ WKX\ӃW
5
6Ͱ5$Ĉ͜,&ͦ$.7'/
KTDL ra ÿӡL trong EӕL
FҧQK : GIÀU DL ±
NGHÈO TRI 7+Ӭ&
³We are drowning in
data, but starving for
NQRZOHGJH´
¾ KTDL - JLҧL pháp
giúp phân tích Wӵ ÿӝQJ
các núi DL và Kӛ WUӧ ra
TX\ӃW ÿӏQK .
6
3
6Ͱ&ɣ17+,ɻ7&ͦ$.7'/
¾ DL FKͱD ṶW QKL͉X thơng tin giá
WU͓ có OͫL cho qui trình ra TX\͇W
ÿ͓QK
¾ Khơng WKӇ phân tích DL = tay
Con QJѭӡL FҫQ hàng WXҫQ OӉ ÿӇ
khám phá ra thơng tin có ích
3KҫQ OӟQ Gӳ OLӋX FKѭD bao JLӡ
ÿѭӧF phân tích Fҧ
³+ӕ sâu JLӳD NKҧ QăQJ sinh ra DL
và NKҧ QăQJ Vӱ GөQJ '/´ ±
Usama Fayyad
106-1012 bytes:
Không bao giờ có
thể nhìn thấy một
cách đầy đủ tập
dữ liệu hoặc đưa
vào bộ nhớ của
máy tính
7
6Ͱ&ɣ17+,ɻ7&ͦ$.7'/
4,000,000
3,500,000
+ӕVkXGӳOLӋX
3,000,000
2,500,000
2,000,000
1,500,000
6ӕ'/WKXWKұS7HUD%
WӯQăP
1,000,000
6ӕ'/ÿѭӧF
phân tích
500,000
0
1995
1996
1997
1998
1999
8
4
6Ͱ'ͤ1*.7'/.+,1¬2"
¾ 'ӳ OLӋX quá QKLӅX
¾ 'ӳ OLӋX OӟQ FKLӅX và kích WKѭӟF
¾ 'ӳ OLӋX ҧQK ( kích WKѭӟF
¾ 'ӳ OLӋX gene Vӕ FKLӅX
¾ Có ít tri WKӭF YӅ Gӳ OLӋX
9
/Ś1+9Ͱ&ͨ1*'ͤ1*.7'/
Thông tin thương mại
Thông tin sản xuất
-Phân tích thò trường và
mua bán
-Phân tích đầu tư
-Chấp thuận cho vay
- Điều khiển và lên kế hoạch
-Phát hiện gian lận
- Quản trò mạng
g
- Phân tích các kết qủa thực
nghiệm
g
Thông tin cá nhân
Thông tin khoa học
- Thiên văn học
- Cơ sở dữ liệu sinh học
- Khoa học đòa chất: bộ dò tìm động
đất
g
10
5
Customer Relationship Management (CRM)
Customer Relationship
Management (CRM)
Ĉ͋ xây GQJ P͙L quan K͏ YͣL khách hàng, các công
ty F̯Q SK̫L EL͇W :
1.
Notice ± what its customers are doing
2.
Remember ± what it and its customers have
done over time
3.
Learn ± from what it has remembered
4.
Act On ± what it has learned to make customers
more profitable
6
'ӵDWUrQFiFGӳOLӋXJLDRGӏFK
³7UDQVDFWLRQ´'DWD
'ӵDWUrQFiFGӳOLӋXJLDRGӏFK
³7UDQVDFWLRQ´'DWD
7
3KiWKLӋQYjQҳPJLӳPӕLTXDQ
KӋOjFKuDNKRiFӫDWKjQKF{QJ
1͘,'81*
1. 7ҥLVDRFҫQNKDLWKiFGӳOLӋX"
2. .KDLWKiFGӳOLӋXOjJu"
3.
4.
5.
6.
Qui trình KDD
&iFQKLӋPYөFKtQKFӫD.7'/
&iFNӻWKXұW.7'/
&iFWKiFKWKӭFFӫD.7'/
16
8
7+ɻ1¬2/¬.7'/
³Khai thác Gӳ OLӋX là q trình khơng W̯P WK˱ͥQJ FͯD YL͏F xác
ÿ͓QK các PүX WLӅP ҭQ có tính KͫS O͏, PͣL O̩, có ích và có
WK͋ KL͋X ÿ˱ͫF W͙L ÿD trong &6'/´ ± U.Fayyad, «(1996)
Đa xử lý
Quá trình không tầm thường
Hợp lệ
Chứng minh tính đúng
Của mẫu / Mô hình
Mới lạ
Không biết trước
Có ích
Có thể hiểu được
Có thể sử dụng được
Bởi con người và máy
17
.+$,7+È&'/«
z
7KӃ nào là PүX WLӅP ҭQ ?
z
Là PӕL quan KӋ trong Gӳ OLӋX ví Gө QKѭ :
1KӳQJ QJѭӡL mua TXҫQ tây WKѭӡQJ hay mua
thêm áo Vѫ mi
z 1KͷQJ QJ˱ͥL có PͱF tín GͭQJ W͙W thì WK˱ͥQJ
ít E͓ tai Q̩Q.
z ĈjQ ơng, 37+, thu QKұS : 50K-75K, -> chi
NKRҧQJ 25$-50$ cho ÿһW mua hàng qua
catalog
z
18
9
KHAI THÁC DL ....
What is not Data
Mining?
¾
¾
What is Data Mining?
± Tìm Vӕ ÿLӋQ WKRҥL
trong danh Eҥ ÿLӋQ
WKRҥL
± &iFWrQSKәELӃQWҥLNKX
YӵF[iFÿӏQKFӫD0ӻ
2¶%ULHQ2¶5XUNH
2¶5HLOO\«ӣYQJ%RVWRQ
± Tìm thông tin YӅ
³$PD]RQ´
trên
serach engine
± *RPQKyPFiFWjLOLӋX
JLӕQJQKDXWKXÿѭӧFWӯ
VHDUFKHQJLQHGӵDWUrQQӝL
GXQJ9'UӯQJQKLӋWÿӟL
Amazon , Amazon.com)
19
1͘,'81*
1. 7ҥLVDRFҫQNKDLWKiFGӳOLӋX"
2. .KDLWKiFGӳOLӋXOjJu"
3. 4XLWUuQK.KiPSKiWULWKӭF
(KDD)
4. &iFQKLӋPYөFKtQKFӫD.7'/
5. &iFNӻWKXұW.7'/
6. &iFWKiFKWKӭFFӫD.7'/
20
10
48,75Ỵ1+.+È03+È75,7+ͨ&
z
5
KTDL : 0ӝW EѭӟF
quan WUӑQJ trong qui
trình KDD (knowledge
discovery in DB)
Pattern Evaluation
4
3
Data Mining
Task-relevant Data
2
Selection
Data Warehouse
Data Cleaning
1 Data Integration
21
Databases
QUI TRÌNH KDD
Dữ liệu được tổ chức theo chức
năng
Tạo ra/chọn lọc
CSDL đích
Data warehousing
1
Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Thay thế những
giá trò thiếu
Khử nhiễu
Dữ liệu
Chuẩn hoá
giá trò
Biến đổi
giá trò
Tạo các thuộc
Tính dẫn xuất
Lựa chọn
phương pháp DM
Trích xuất
Tri thức
2
Tìm thuộc tính quan
trọng &Miền giá trò
4
3
Lựa chọn
nhiệm vụ DM
Biến đổi qua
biểu điễn khác
Phát sinh ra câu hỏi và báo cáo
Các phương pháp cải tiến
kiểu kết hợp và lập dãy
5
Kiểm tra
tri thức
Tính chế
Tri thức
22
11
.,ɻ175Ò&+ʃ7+͐1*.7'/
7,Ç8%,ɿ8
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data
warehouse server
Filtering
Data cleaning & data integration
Databases
Data
Warehouse
23
1͘,'81*
1. 7ҥLVDRFҫQNKDLWKiFGӳOLӋX"
2. .KDLWKiFGӳOLӋXOjJu"
3. 4XLWUuQKNKiPSKiWULWKӭF.''
4. &iFQKLӋPYөFKtQKFӫD.7'/
5. &iFNӻWKXұW.7'/
6. &iFWKiFKWKӭFFӫD.7'/
24
12
&È&1+,ʃ09ͤ&+Ë1+&ͦ$.7'/
25
&È&1+,ʃ09ͤ&+Ë1+&ͦ$.7'/
z
'ӵ ÿRiQ (Predictive) :
z
6͵ GͭQJ P͡W vài EL͇Q ÿ͋ G báo giá WU͓ FK˱D EL͇W KR̿F
giá WU͓ W˱˯QJ lai FͯD các EL͇Q khác
Phân OͣS
z +͛L qui
z Phát KL͏Q V thay ÿ͝L O̩F K˱ͣQJ
Mô Wҧ ( Descriptive) :
z
z
z
Xác ÿ͓QK các P̳X mô W̫ DL mà con QJ˱ͥL có WK͋ KL͋X
ÿ˱ͫF
z
z
z
Gom FͭP
Tóm W̷W
Mô hình hóa SKͭ WKX͡F
26
13
&È&1+,ʃ09ͤ&+Ë1+&ͦ$.7'/
3KiWKLӋQUDP{WҧFӫDPӝW
YjLOӟSÿmÿѭӧF[iFÿӏQK
YjSKkQORҥLGӳOLӋXYjR
PӝWWURQJFiFOӟSÿy
7uPUDPӝWWұS[iFÿӏQK
&iFQKyPKD\FiFFөP
ÿӇP{WҧGӳOLӋX
*RPFөP
3KkQOӟS
?
ÈQK[ҥWӯPӝWPүXGӳOLӋX
WKjQKPӝWELӃQGӵÿRiQ
WUѭӟFFyJLiWUӏWKӵF
3KiWKLӋQUDPӝWP{
KuQKPjP{WҧSKө
WKXӝFTXDQWUӑQJQKҩW
JLӳDFiFELӃQ
Mô hình hóa
SKөWKXӝF
+ӗLTXL
3KiWKLӋQUDQKӳQJWKD\ÿәL
TXDQWUӑQJQKҩW
WURQJGӳOLӋX
3KiWKLӋQVӵWKD\
ÿәLOҥFKѭӟQJ
3KiWKLӋQUDPӝWP{Wҧ
WyPWҳWFKRPӝW
WұSFRQGӳOLӋX
TyPWҳW
27
9Ë'ͤ3+Æ1/͚3
z
z
Công ty Verizon Wireless :
z Công ty cung FҩS WKLӃW Eӏ GӏFK Yө không dây OӟQ
QKҩW ӣ 0ӻ. www.verizonwireless.com
z 6͙ O˱ͫQJ khách hàng : 65.7 WUL͏X FX͙L QăP 2007)
z Thu QKұS KҵQJ QăP: 43.9 Wӹ $
9ҩQ ÿӅ :
z 7ӹ OӋ khách hàng Eӏ PҩW cao : 2%/tháng (1,300,000
khách hàng UӡL EӓWKiQJ