Tải bản đầy đủ (.pdf) (20 trang)

Bài giảng Khai phá dữ liệu: Chương 4 - TS. Võ Thị Ngọc Châu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (328.37 KB, 20 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

1


<b>Ch</b>



<b>Ch</b>

<b>ươ</b>

<b>ươ</b>

<b>ng</b>

<b>ng</b>

<b>4: </b>

<b>4: </b>

<b>Phân</b>

<b>Phân</b>

<b>lo</b>

<b>lo</b>

<b>ạ</b>

<b>ạ</b>

<b>i</b>

<b>i</b>

<b>d</b>

<b>d</b>

<b>ữ</b>

<b>ữ</b>

<b>li</b>

<b>li</b>

<b>ệ</b>

<b>ệ</b>

<b>u</b>

<b>u</b>



Học kỳ 1 – 2011-2012


Cao



Cao

Học

H

c

Ngành

Ngành

Khoa

Khoa

Học

H

c

Máy

Máy

Tính

Tính


Giáo



Giáo

trình

trình

đ

đ

iện

i

n

tử

t



Biên



Biên

soạn

so

n

bởi

b

i

: TS.

: TS.

Thị

Th

Ngọc

Ng

c

Châu

Châu


(



</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

2

Tài liệu tham khảo



‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and


Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.


‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data


Mining”, MIT Press, 2001.



‡ [3] David L. Olson, Dursun Delen, “Advanced Data Mining


Techniques”, Springer-Verlag, 2008.


‡ [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,


Methodology, Techniques, and Applications”, Springer-Verlag, 2006.


‡ [5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and


Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.


‡ [6] Daniel T. Larose, “Data mining methods and models”, John Wiley


& Sons, Inc, 2006.


‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine


learning tools and techniques”, Second Edition, Elsevier Inc, 2005.


‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,


“Successes and new directions in data mining”, IGI Global, 2008.


‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

Nội dung



‡

Ch

ươ

ng 1: T

ng quan v

khai phá d

li

u



‡

Ch

ươ

ng 2: Các v

n

đề

ti

n x

lý d

li

u


‡

Ch

ươ

ng 3: H

i qui d

li

u



‡

<b>Ch</b>

<b>ươ</b>

<b>ng 4: Phân lo</b>

<b>ạ</b>

<b>i d</b>

<b>ữ</b>

<b>li</b>

<b>ệ</b>

<b>u</b>


‡

Ch

ươ

ng 5: Gom c

m d

li

u


‡

Ch

ươ

ng 6: Lu

t k

ế

t h

p



‡

Ch

ươ

ng 7: Khai phá d

li

u v

à công ngh

c

ơ

s



d

li

u



‡

Ch

ươ

ng 8:

ng d

ng

khai phá d

li

u



‡

Ch

ươ

ng 9: Các

đề

tài nghiên c

u trong khai phá



d

li

u



</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

4


Ch

ươ

ng 4: Phân lo

i d

li

u



‡

4.1. Tổng quan về

phân loại dữ

liệu



‡

4.2. Phân loại dữ

liệu với cây quyết

định


‡

4.3. Phân loại dữ

liệu với mạng Bayesian


‡

4.4. Phân loại dữ

liệu với mạng Neural


‡

4.5. Các phương pháp phân loại dữ

liệu



khác




</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

4.0. Tình huống 1



<i>Tid </i> <b>Refund </b> <b>Marital <sub>Status </sub></b> <b>Taxable <sub>Income </sub></b> <b>Evade</b>


1 Yes Single 125K <b>No </b>


2 No Married 100K <b>No </b>


3 No Single 70K <b>No </b>


4 Yes Married 120K <b>No </b>


5 No Divorced 95K <b>Yes </b>


6 No Married 60K <b>No </b>


7 Yes Divorced 220K <b>No </b>


8 No Single 85K <b>Yes </b>


9 No Married 75K <b>No </b>


10 No Single 90K <b>Yes </b>


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

6

4.0. Tình huống 2



</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

4.0. Tình huống 3


Khơng


3.0
2.0
47
2008






Khơng

4.5
5.5
82
2007


7.5
9.5
24
2006


6.0
7.0
90
2005
Khơng


3.5
5.5
8
2004

14
3
2
1
<b>MãSV</b>







5.5
5.0
2004
Khơng

2.5
4.0
2004


8.0
6.5
2004



8.5
9.0
2004


<b>TốtNghiệp</b>
<b>…</b>


<b>MơnHọc2</b>
<b>MơnHọc1</b>


<b>Khóa</b>


</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

8

4.0. Tình huống …



</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

9


Ch



Ch

ươ

ươ

ng

ng

4:

4:

Phân

Phân

lo

lo

i

i

d

d

li

li

u

u



</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

10

Nội dung



‡

4.1. Tổng quan về

phân loại dữ

liệu



‡

4.2. Phân loại dữ

liệu với cây quyết

định


‡

4.3. Phân loại dữ

liệu với mạng Bayesian



‡

4.4. Phân loại dữ

liệu với mạng Neural



</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

4.1. T

ng quan v

phân lo

i d

li

u



‡

Phân lo

i d

li

u (classification)



„

D

ng phân tích d

li

u nh

m rút trích các mơ



hình mơ t

các l

p d

li

u ho

c d

ự đ

oán xu


h

ướ

ng d

li

u



„

Quá trình g

m hai b

ướ

c:



‡

B

ướ

c h

c (giai

đ

o

n hu

n luy

n): xây d

ng b

phân



lo

i (classifier) b

ng vi

c phân tích/h

c t

p hu

n luy

n



‡

B

ướ

c phân lo

i (classification): phân lo

i d

li

u/

đố

i



t

ượ

ng m

i n

ế

u

độ

chính xác c

a b

phân lo

i

đượ

c


đ

ánh giá là có th

ch

p nh

n

đượ

c (acceptable)



</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

12


4.1. T

ng quan v

phân lo

i d

li

u



</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

4.1. T

ng quan v

phân lo

i d

li

u



</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

14



4.1. T

ng quan v

phân lo

i d

li

u



‡

Phân lo

i d

li

u



„

D

ng h

c có giám sát (supervised learning)



Environment

Teacher



Learning


System



state X



Σ


desired



response Y


actual



response


error signal



</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

-4.1. T

ng quan v

phân lo

i d

li

u



‡

Các gi

i thu

t phân lo

i d

li

u



„

Phân lo

i v

i cây quy

ế

t

đị

nh (decision tree)


„

Phân lo

i v

i m

ng Bayesian



„

Phân lo

i v

i m

ng neural




„

Phân lo

i v

i k ph

n t

c

n g

n nh

t (k-nearest



neighbor)



„

Phân lo

i v

i suy di

n d

a trên tình hu

ng



(case-based reasoning)



„

Phân lo

i d

a trên ti

ế

n hố gen (genetic



algorithms)



</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>

16


4.2. Phân lo

i d

li

u v

i cây quy

ế

t

đị

nh



</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

4.2. Phân lo

i d

li

u v

i cây quy

ế

t

đị

nh



‡

Cây quy

ế

t

đị

nh (decision tree) – mơ hình phân lo

i



„

Node n

i: phép ki

m th

(test) trên m

t thu

c tính


„

Node lá: nhãn/mơ t

c

a m

t l

p (class label)



„

Nhánh t

m

t node n

i: k

ế

t qu

c

a m

t phép th

trên



thu

c tính t

ươ

ng

ng



Cây quyết định học được từ



</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

18


4.2. Phân lo

i d

li

u v

i cây quy

ế

t

đị

nh



‡

Gi

i thu

t xây d

ng cây quy

ế

t

đị

nh



„

ID3, C4.5, CART (Classification and Regression



</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19></div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

20


4.2. Phân lo

i d

li

u v

i cây quy

ế

t

đị

nh



‡

Đặ

c

đ

i

m c

a gi

i thu

t



„

Gi

i thu

t tham lam (khơng có quay lui), chia

để



tr

,

đệ

qui, t

trên xu

ng



„

Độ

ph

c t

p v

i t

p hu

n luy

n

<i><b>D</b></i>

g

m |

<i><b>D</b></i>

| ph

n



t

(

đố

i t

ượ

ng), m

i ph

n t

g

m

<i><b>n</b></i>

thu

c tính



‡

O(

<i>n*|D|*log|D|</i>

)



ƒ Mỗi thuộc tính ứng với mỗi mức (level) của cây.
ƒ Cho mỗi mức của cây, |D| phân tử huấn luyện được


duyệt qua.


</div>


<!--links-->

×