Giới thiệu về khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (295.67 KB, 30 trang )

Khai Phá Dữ Liệu
Nguyễn Nhật Quang

Viện Công nghệ Thông tin và Truyền thông
Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011
Nội dung môn học:
 Giới thiệu về Khai phá dữ liệu
ề
 Giới thiệu v
ề
công cụ WEK
A
 Tiền xử lý dữ liệu
 Phát hiện các luật kết hợp

Các kỹ thuật phân lớpvàdự đoán

Các

kỹ

thuật

phân

lớp

và

dự

đoán
 Các kỹ thuật phân nhóm
2
Khai Phá Dữ Liệu
T
ạ
i sao cần khai
p
há dữ li
ệ
u?
ạ p ệ
 Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến
mức độ petabytes
Th hậ d liệ à ồ i ủ d liệ

Th
u t
hậ
p
d
ữ
liệ
u v
à
sự t
ồ
n tạ
i

c
ủ
a
d
ữ
liệ
u
 Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ
liệu, World Wide Web, xã hội số
Cá ồ dữ liệ hhú

Cá
c ngu
ồ
n
dữ

liệ
u p
h
ong p
hú
 Kinh doanh: Internet, thương mại điện tử, giao dịch thương
mại, chứng khoán,…

Khoa học: Tín hiệucảmbiến tin sinh thí nghiệmmô

Khoa

học:

Tín

hiệu

cảm

biến
,
tin

sinh
,
thí

nghiệm

mô

phỏng/giả lập,…
 Xã hội: Tin tức, máy ảnh số, các mạng xã hội
Chúng ta bị tràn ngập trong dữ liệu
Nhưng lạithiếu(cần) tri

Chúng

ta

bị

tràn

ngập

trong

dữ

liệu

–
Nhưng

lại

thiếu

(cần)

tri

thức
 Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất
lớn để khám phá ra các tri thức
lớn
,
để

khám

phá

ra

các

tri

thức
3
Khai Phá Dữ Liệu
Khai
p
há dữ li
ệ
u – Đ
ị
nh n
g
hĩa
p ệ
ị g
 Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức
từ dữ liệu (Knowledge discovery from data)
ẫ
 Là việc trích rút ra được các m
ẫ
u hoặc tri thức quan trọn
g
từ một

lượng dữ liệu (rất) lớn
 quan trọng = không tầm thường, ẩn, chưa được biết đến, và
có thể hữuích
có

thể

hữu

ích
 Các tên gọi khác
 Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery
in databases
KDD)
in

databases
-
KDD)
 Trích rút tri thức (Knowledge extraction)
 Phân tích mẫu/dữ liệu (Data/pattern analysis)


…
 Khai phá dữ liệu khác với…
 Tìm kiếm thông tin (Information retrieval)
ấ ố
 Xử lý các câu truy v
ấ
n (SQL) đ

ố
i với các cơ sở dữ liệu
4
Khai Phá Dữ Liệu
DM: L
ị
ch sử
p
hát triển
ị p
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
 Advances in Knowled
g
e Discover
y
and Data Minin
g

(
U. Fa
yy
ad
,
G.
g y g ( yy ,
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in

Databases and Data Mining (KDD
’
95
-
98)
Databases

and

Data

Mining

(KDD 95
98)
 Journal of Data Mining and Knowledge Discovery (1997)
 ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations
 More conferences on data mining
 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), etc.
 ACM Transactions on KDD starting in 2007
5
Khai Phá Dữ Liệu
Các bước của quá trình KD
1.Tìm hiểu lĩnh vực của bài toán (ứng dụng)
 Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực
2.Tạo nên (thu thập) một tập dữ liệu phù hợp
3.Làm sạch và tiền xử lý dữ liệu
4.Giảm kích thước của dữ liệu, chuyển đổi dữ liệu
 Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính),

biểu diễn bất biến
5.Lựa chọn chức năng khai phá dữ liệu
Tóm tắt hóa (s mmari ation) phân loại/phân lớphồiq /d

Tóm

tắt

hóa

(s
u
mmari
z
ation)
,
phân

loại/phân

lớp
,
hồi

q
uy
/d
ự
đoán, kết hợp, phân cụm
6.Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp

7
Tiến hành quá trình khai phá dữ liệu
7
.
Tiến

hành

quá

trình

khai

phá

dữ

liệu
8.Đánh giá mẫu thu được và biểu diễn tri thức
 Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, …
9
Sử dụng các tri thức được khám phá
9
.
Sử

dụng

các

tri

thức

được

khám

phá
6
Khai Phá Dữ Liệu
Quá trình khám phá tri thức (1)
 Đây là cách nhìn của giới
nghiên cứu về các hệ thống dữ
liệuvàkhodữ liệu
liệu

và

kho

dữ

liệu
 Khai phá dữ liệu đóng vai trò
quan trọng trong quá trình
khám phá tri thức
Pattern Evaluation
khám

phá

tri

thức
Task-relevant Data
Data Mining
Data Cleaning
Data Warehouse
Selection
Data

Cleaning
Data Integration
7
Khai Phá Dữ Liệu
Databases
(Han and Kamber - Data mining: Concepts and Techniques)
Quá trình khám phá tri thức (2)
(Han and Kamber - Data mining: Concepts and Techniques)
Input Data
Data
Mining
Data Pre-
Processing
Post-
Processing
Data integration
Normalization

Feature selection
Dimension reduction
Pattern discovery
Association & correlation
Classification
Clustering
Pattern evaluation
Pattern selection
Pattern interpretation
Pattern visualization
 Đây là cách nhìn của giới nghiên cứu về học máy và
thố kê
Dimension

reduction
Outlier analysis
… … … …
Pattern

visualization
thố
ng
kê
8
Khai Phá Dữ Liệu
Kiến trúc hệ thống khai phá dữ liệu
Graphical User Interface
Pattern Evaluation
Knowledge
Database or Data

Data Mining Engine
Knowledge
base
data cleaning, integration, and selection
Warehouse Serve
r
Database
Data
Warehouse
World-Wide
Web
Other Info
Repositories
(Han and Kamber -
Data mining: Concepts
9
Khai Phá Dữ Liệu
Data

mining:

Concepts

and Techniques)
Khai phá dữ liệu cho kinh doanh
Increasing potential
to support
business decisions
End User
Business

Decision
Making
Data Presentation
Analyst
Data
Analyst
Data

Presentation
Visualization Techniques
Data Mining
Information Discovery
Analyst
Information

Discovery
Data Exploration
Statistical Summary, Querying, and Reporting
DBA
Data Preprocessing/Integration, Data Warehouses
Data Sources
10
Khai Phá Dữ Liệu
Paper, Files, Web documents, Scientific experiments, Database Systems
(Han and Kamber - Data mining:
Concepts and Techniques)
DM – Các lĩnh v
ự
c liên
q

uan
ự q
 Công nghệ cơ sở dữ liệu (Database technology)
 Giải thuật (Algorithm)
 Thống kê (Statistics)
 Học máy (Machine learning)

Nhậndạng mẫu (Pattern recognition)

Nhận

dạng

mẫu

(Pattern

recognition)
 Hiển thị hóa (Visualization)
 Tính toán hiệu năng cao (High-performance computing)
11
Khai Phá Dữ Liệu
Phân tích dữ li
ệ
u
ệ
 Lượng dữ liệu rất lớn
 Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với
những tậpdữ liệulênđến hàng terabytes hoặcthậmchí
những

tập

dữ

liệu

lên

đến

hàng

terabytes
,
hoặc

thậm

chí

petabytes
 Dữ liệu được biểu diễn trong không gian nhiều chiều (số
lượng rất lớn các thuộc tính)
 Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được
biểu diễn bởi hàng chục ngàn thuộc tính
 Dữ liệu có độ phức tạp (rất) cao
Cá l ồ dữ liệ àdữ liệ th hậ từ á ả biế

Cá

c
l
u
ồ
ng
dữ

liệ
u v
à

dữ

liệ
u
th
u n
hậ
n
từ
c
á
c mạng c
ả
m
biế
n
 Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian,
chuỗi dữ liệu


Dữ liệucócấutrúc,dữ liệudạng đồ thị,cácmạng xã hội

Dữ

liệu

có

cấu

trúc,

dữ

liệu

dạng

đồ

thị,

các

mạng

xã

hội
 Các cơ sở dữ liệu hỗn tạp

 Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện
 Cần các chươn
g
trình
(
ứn
g
d
ụ
n
g)

p
hân tích dữ li
ệ
u mới
,

p
hức
g(g ụ g) p ệ ,p
tạp hơn
12
Khai Phá Dữ Liệu
DM – Nhiều cách nhìn (quan điểm)
 Dữ liệu được khai phá
 Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ
liệ h ớ đốit dữ liệ h th ộ khô i dữ liệ liê
liệ
u

h
ư
ớ
ng
đối

t
ượng,
dữ

liệ
u p
h
ụ
th
u
ộ
c
khô
ng g
i
an,
dữ

liệ
u
liê
n
tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện,
dữ liệu hỗn tạp, dữ liệu trên WWW, …

Tithứ đ khá há

T
r
i

thứ
c
đ
ược
khá
m p
há
 Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu
hướng/dịch chuyển, phân tích ngoại lai (outlier)
 Các kỹ thuật được sử dụng
 Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê,
hiển thị hóa, …
 Các ứng dụng (bài toán) thực tế
 Kinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài
chính, khai phá dữ liệu sinh học, phân tích thị trườn
g
chứn
g

ả
g g
khoán, khai phá văn b
ả
n, khai phá Web, …

13
Khai Phá Dữ Liệu
DM – Các cách
p
hân bi
ệ
t
p ệ
 Theo chức năng tổng quát

Khai phá dữ liệu
mô tả
:Tìmcácmẫu(màconngườicóthể

Khai

phá

dữ

liệu

mô

tả
:

Tìm

các

mẫu

(mà

con

người

có

thể

hiểu/diễn giải được) biểu diễn/mô tả dữ liệu
 Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá
trị (chưa biết, hoặc trong tương lai) của các biến khác
 Các cách nhìn (quan điểm) khác nhau dẫn đến các cách
phân biệt khác nhau về Khai phá dữ liệu
ể
 Dựa theo dữ liệu: Những ki
ể
u dữ liệu nào được khai phá?
 Dựa theo tri thức: Những kiểu tri thức nào được khám phá?

Dựa theo
phương pháp
:Những kiểukỹ thuật nào đượcápdụng?

Dựa

theo

phương

pháp
:

Những

kiểu

kỹ

thuật

nào

được

áp

dụng?
 Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán)
nào phù hợp để giải quyết?
14
Khai Phá Dữ Liệu
DM: Khái
q
uát hóa
q

 Tích hợp thông tin và xây dựng các kho dữ liệu
 Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô
hì h d liệ hiề hiề (li
di i l d d l)
hì
n
h

d
ữ
liệ
u n
hiề
u c
hiề
u
(
mu
l
t
i
-
di
mens
i
ona
l

d
ata mo

d
e
l)
 Công nghệ khối dữ liệu (data cube)
ể ế ề ề
 Các phương pháp hiệu quả đ
ể
tính toán k
ế
t hợp nhi
ề
u chi
ề
u của
dữ liệu
 Xử lý phân tích trực tuyến (Online analytical processing – OLAP)
 Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự
phân biệt

Tổng quát hóa tóm tắtvàtương phảncácđặc tính củadữ liệu

Tổng

quát

hóa
,
tóm

tắt

,
và

tương

phản

các

đặc

tính

của

dữ

liệu
 Vd: Các vùng khô vs. các vùng ướt
15
Khai Phá Dữ Liệu
DM: Phân tích kết hợp và tương quan
 Các mẫuhoặccác tậpmục (itemsets) thường xuyên
 Nhữn
g
m
ụ
c
(
sản

p
hẩm
)
nào thườn
g
xu
y
ên đư
ợ
cmua
g
ụ
(
p
)
g
y
ợ
cùng nhau, trong siêu thị BigC?
 Kếthợp (association), tương quan (correlation), và
nguyên
nhân
(causality)
nguyên
nhân
(causality)
 Ví dụ về mộtluậtkếthợp (association rule)
 Bánh mỳ Æ Sữa [0.5%, 75%] (độ hỗ trợ – support,
độ
ti

ậ
fid )
độ
ti
n c
ậ
y
–
con
fid
ence
)
 Các mụckếthợp ở mức cao, thì cũng tương quan ở
mức cao?
 Làm thế nào để khám phá các mẫu(luật) như vậy trong
các tậpdữ liệulớn?
16
Khai Phá Dữ Liệu
DM: Phân lớ
p
và d
ự
đoán
p ự
 Phân lớp (classification) và dự đoán (prediction)
 Xây dựng các mô hình (các hàm mục tiêu) dựa trên một số ví dụ
h /h ấ l ệ
h
ọc
/h

u
ấ
n
l
uy
ệ
n
 Mô tả và phân biệt các lớp (các khái niệm) cho việc dự đoán trong
tương lai

Phân lớpcácvídụ mớihoặcdự đoán các giá trị kiểusố

Phân

lớp

các

ví

dụ

mới
,
hoặc

dự

đoán

các

giá

trị

kiểu

số
 Các phương pháp điển hình
 Cây quyết định (Decision tree learning), Phân lớp Naïve Bayes
(Naïve Bayes classification) Máy vectơ hỗ trợ (Support vector
(Naïve

Bayes

classification)
,
Máy

vectơ

hỗ

trợ

(Support

vector

machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học
quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear
regression), …
 Các ứng dụng điển hình
 Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với
từn
g
n
g
ười
),

p
hân lo
ạ
i/d
ự
đoán các lo
ạ
i b
ệ
nh
,

p
hân lo
ạ
i các tran
g

gg ), p ạ ự ạ ệ ,p ạ g
Web, …
17
Khai Phá Dữ Liệu
DM: Phân cụm và phân tích ngoại lai
 Phân cụm (Cluster analysis)
 Phương pháp học không giám sát (unsupervised learning) –
khô ó hô i ề hlớ
khô
ng c
ó
t
hô
ng t
i
n v
ề
n
h
ãn
lớ
p
 Nhóm dữ liệu lại thành các cụm (clusters)
 Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong
cùng mộtcụm
nhưng cựctiểu hóa sự tương tự giữacácđối
cùng

một

cụm

–
nhưng

cực

tiểu

hóa

sự

tương

tự

giữa

các

đối

tượng khác cụm
 Có rất nhiều phương pháp và ứng dụng (bài toán)
 Phân tích ngoại lai (Outlier analysis/detection)
 Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng
khác (trong một cụm)
Nhiễ ủ dữ liệ hlà ilệ?


Nhiễ
u c
ủ
a
dữ

liệ
u,
h
ay
là
ngoạ
i

lệ?
 Các phương pháp: phân cụm, phân tích hồi quy, …
 Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc
phân tích các sự kiệnhiếmkhixảyra
phân

tích

các

sự

kiện

hiếm

khi

xảy

ra
18
Khai Phá Dữ Liệu
DM: Phân tích xu hướng và tiến triển
 Phân tích chuỗi (sequence), xu hướng (trend), và tiến
triển (evolution)
 Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng)
 Khai phá các mẫu kiểu chuỗi (sequential patterns)
Vd: Đầutiênmuamáyảnh số sau đómuacácthẻ nhớ SD

Vd:

Đầu

tiên

mua

máy

ảnh

số
,
sau

đó

mua

các

thẻ

nhớ

SD

dung lượng lớn, …
 Phân tích tính chu kỳ (Periodicity analysis)
Phâ tí h h ỗidữ liệ liê t th thờii (ti
i)à

Phâ
n
tí
c
h
c
h
u
ỗi

dữ

liệ

u
liê
n
t
ục
th
eo
thời
g
i
an
(ti
me-ser
i
es
)
v
à

chuỗi dữ liệu sinh học
 Phân tích dựa trên sự tương tự (Similarity-based analysis)
 Khai phá các luồng dữ liệu
 Có thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ
liệu
liệu
19
Khai Phá Dữ Liệu
DM: Phân tích mạng và cấu trúc
 Khai phá đồ thị dữ liệu (Graph mining)
 Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ

liệuXML) cáccấu trúc con (dữ liệu Web) thường xuyên xảyra
liệu

XML)
,
các

cấu

trúc

con

(dữ

liệu

Web)
…
thường

xuyên

xảy

ra
 Phân tích mạng thông tin (Information network analysis)
 Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các
mối
q

uan h
ệ

(
các c
ạ
nh
)
q ệ ( ạ )
 Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo
 Các mạng hỗn tạp (khác nhau)
 Vd: Một người có thể tham gia nhiều mạng khác nhau (bạn bè, gia
đình bạn cùng lớp/trường những người cùng sở thích nghe nhạc
đình
,
bạn

cùng

lớp/trường
,
những

người

cùng

sở

thích

nghe

nhạc

Rock,…)
 Các liên kết (links) mang rất nhiều thông tin ngữ nghĩa: Khai phá
các liên kết (Link mining)
Kh i há W b (W b i i )

Kh
a
i
p
há

W
e
b

(W
e
b
m
i
n
i
ng
)
 WWW là một mạng thông tin khổng lồ: PageRank (Google)

 Phân tích các mạng thông tin Web
Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) Khai

Khám

phá

cộng

đồng

Web
,
Khai

phá

ý

kiến

(Opinion

mining)
,
Khai

phá dữ liệu truy cập Web (usage mining)
20
Khai Phá Dữ Liệu

Tất cả các mẫu đều quan trọng?
 Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng
ngàn mẫu – Không phải tất cả các mẫu đều quan trọng
 Các đánh giá về mức độ quan trọng của các mẫu
 Một mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn
đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất
đị h) hữ d ới ẻ h ặ iú á hậ ộtiả thiếtàđó
đị
n
h)
,
hữ
u
d
ụng, m
ới
m
ẻ
,
h
o
ặ
c g
iú
p x
á
c n
hậ
n m
ột

g
iả

thiết
n
à
o
đó

của một người dùng
 Các đánh
g
iá dựa trên mục tiêu
(
ob
j
ective
)
và dựa trên
g (j )
chủ quan (subjective)
 Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu
trúc của các mẫu
Vd: dựa trên các giá trị độ hỗ trợ (support) độ tin cậy

Vd:

dựa

trên

các

giá

trị

độ

hỗ

trợ

(support)
,
độ

tin

cậy

(confidence)
 Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người
dùn
g
đối với dữ liệu
g
 Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng
21
Khai Phá Dữ Liệu

Đánh giá mức độ quan trọng của mẫu
 Mức độ đơn giản (Simplicity)

Độ dài củacácluậtkếthợp

Độ

dài

của

các

luật

kết

hợp
 Kích thước của cây quyết định học được
 Mức độ tin cậ
y

(
Certaint
y
/Confidence
)
y( y )
 Độ tin cậy (confidence) của các luật kết hợp
 Độ chính xác của phân lớp học được

 Mức độ tiện ích (Utility): khả năng hữu ích của mẫu
 Độ hỗ trợ của các luật kết hợp

Ngưỡng nhiễu đốivới phân lớphọc được

Ngưỡng

nhiễu

đối

với

phân

lớp

học

được
 Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được
biết đến
22
Khai Phá Dữ Liệu
Tìm tất cả các mẫu quan trọng?
 Tìm tất cả các mẫu quan trọng: Tính hoàn chỉnh
(completeness)
 Một hệ thống khai phá dữ liệu có thể tìm được tất cả các mẫu
quan trọng không?
 Chún

g
ta có cần
p
hải tìm tất cả các mẫu
q
uan tr
ọ
n
g
khôn
g
?
g p
q ọ gg
 Tìm kiếm vét cạn (exhaustive) vs. heuristic
 Chỉ tìm các mẫu
q
uan tr
ọ
n
g
: Bài toán tối ưu
q ọ g
 Một hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng?
 Các phương pháp

Trướchếtcứ sinh (tìm) ra tấtcả các mẫusauđóloạibỏ đicác

Trước

hết

cứ

sinh

(tìm)

ra

tất

cả

các

mẫu
,
sau

đó

loại

bỏ

đi

các

mẫu không quan trọng
 (Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan
trọng
23
Khai Phá Dữ Liệu
Hiển th
ị
các mẫu tìm đư
ợ
c
ị ợ
 Các người dùng khác nhau, các mục đích sử dụng khác
nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các
ẫ tì đ
m
ẫ
u
tì
m
đ
ược
 Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, …

Phân cấp khái niệm

Phân

cấp

khái

niệm
 Tri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn
ở mức khái quát hóa cao hơn
 Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách
hì khá h
n
hì
n
khá
c n
h
au
 Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn
khác nhau
(
đối với các mẫu tìm đư
ợ
c
)
( ợ )
 Luật kết hợp
 Phân lớp,
 Phân cụm
 …
24
Khai Phá Dữ Liệu
DM: Các ứn
g
d

ụ
n
g
tiềm năn
g
g ụ g g
 Phân tích dữ liệu và hỗ trợ quyết định
 Phân tích và quản lý thị trường
 Quảng cáo cá nhân (target marketing), quản lý quan hệ khách
hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-
selling), phân chia thị trường
Phâ tí h à ả lý ủi

Phâ
n
tí
c
h
v
à
qu
ả
n
lý
r
ủi
ro
 Dự đoán, giữ khách hàng, phân tích cạnh tranh
 Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)
 Các ứng dụng khác

 Khai phá văn bản (nhóm tin – news group, email, tài liệu)
Khai phá Web

Khai

phá

Web
 Khai phá dữ liệu luồng (chuỗi)
 Phân tích dữ liệu sinh học và tin sinh
25
Khai Phá Dữ Liệu

Giới thiệu về khai phá dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về