<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>
1
<b>Ch</b>
<b>Ch</b>
<b>ươ</b>
<b>ươ</b>
<b>ng</b>
<b>ng</b>
<b>4: </b>
<b>4: </b>
<b>Phân</b>
<b>Phân</b>
<b>lo</b>
<b>lo</b>
<b>ạ</b>
<b>ạ</b>
<b>i</b>
<b>i</b>
<b>d</b>
<b>d</b>
<b>ữ</b>
<b>ữ</b>
<b>li</b>
<b>li</b>
<b>ệ</b>
<b>ệ</b>
<b>u</b>
<b>u</b>
Học kỳ 1 – 2011-2012
Cao
Cao
Học
H
ọ
c
Ngành
Ngành
Khoa
Khoa
Học
H
ọ
c
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
i
ệ
n
tử
t
ử
Biên
Biên
soạn
so
ạ
n
bởi
b
ở
i
: TS.
: TS.
Võ
Võ
Thị
Th
ị
Ngọc
Ng
ọ
c
Châu
Châu
(
</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>
2
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>
Nội dung
Ch
ươ
ng 1: T
ổ
ng quan v
ề
khai phá d
ữ
li
ệ
u
Ch
ươ
ng 2: Các v
ấ
n
đề
ti
ề
n x
ử
lý d
ữ
li
ệ
u
Ch
ươ
ng 3: H
ồ
i qui d
ữ
li
ệ
u
<b>Ch</b>
<b>ươ</b>
<b>ng 4: Phân lo</b>
<b>ạ</b>
<b>i d</b>
<b>ữ</b>
<b>li</b>
<b>ệ</b>
<b>u</b>
Ch
ươ
ng 5: Gom c
ụ
m d
ữ
li
ệ
u
Ch
ươ
ng 6: Lu
ậ
t k
ế
t h
ợ
p
Ch
ươ
ng 7: Khai phá d
ữ
li
ệ
u v
à công ngh
ệ
c
ơ
s
ở
d
ữ
li
ệ
u
Ch
ươ
ng 8:
Ứ
ng d
ụ
ng
khai phá d
ữ
li
ệ
u
Ch
ươ
ng 9: Các
đề
tài nghiên c
ứ
u trong khai phá
d
ữ
li
ệ
u
</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>
4
Ch
ươ
ng 4: Phân lo
ạ
i d
ữ
li
ệ
u
4.1. Tổng quan về
phân loại dữ
liệu
4.2. Phân loại dữ
liệu với cây quyết
định
4.3. Phân loại dữ
liệu với mạng Bayesian
4.4. Phân loại dữ
liệu với mạng Neural
4.5. Các phương pháp phân loại dữ
liệu
khác
</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>
4.0. Tình huống 1
<i>Tid </i> <b>Refund </b> <b>Marital <sub>Status </sub></b> <b>Taxable <sub>Income </sub></b> <b>Evade</b>
1 Yes Single 125K <b>No </b>
2 No Married 100K <b>No </b>
3 No Single 70K <b>No </b>
4 Yes Married 120K <b>No </b>
5 No Divorced 95K <b>Yes </b>
6 No Married 60K <b>No </b>
7 Yes Divorced 220K <b>No </b>
8 No Single 85K <b>Yes </b>
9 No Married 75K <b>No </b>
10 No Single 90K <b>Yes </b>
</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>
6
4.0. Tình huống 2
</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>
4.0. Tình huống 3
Khơng
…
3.0
2.0
47
2008
…
…
…
…
…
…
Khơng
…
4.5
5.5
82
2007
Có
…
7.5
9.5
24
2006
Có
…
6.0
7.0
90
2005
Khơng
…
3.5
5.5
8
2004
…
14
3
2
1
<b>MãSV</b>
…
…
…
…
…
Có
…
5.5
5.0
2004
Khơng
…
2.5
4.0
2004
Có
…
8.0
6.5
2004
Có
…
8.5
9.0
2004
<b>TốtNghiệp</b>
<b>…</b>
<b>MơnHọc2</b>
<b>MơnHọc1</b>
<b>Khóa</b>
</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>
8
4.0. Tình huống …
</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>
9
Ch
Ch
ươ
ươ
ng
ng
4:
4:
Phân
Phân
lo
lo
ạ
ạ
i
i
d
d
ữ
ữ
li
li
ệ
ệ
u
u
</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>
10
Nội dung
4.1. Tổng quan về
phân loại dữ
liệu
4.2. Phân loại dữ
liệu với cây quyết
định
4.3. Phân loại dữ
liệu với mạng Bayesian
4.4. Phân loại dữ
liệu với mạng Neural
</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>
4.1. T
ổ
ng quan v
ề
phân lo
ạ
i d
ữ
li
ệ
u
Phân lo
ạ
i d
ữ
li
ệ
u (classification)
D
ạ
ng phân tích d
ữ
li
ệ
u nh
ằ
m rút trích các mơ
hình mơ t
ả
các l
ớ
p d
ữ
li
ệ
u ho
ặ
c d
ự đ
oán xu
h
ướ
ng d
ữ
li
ệ
u
Quá trình g
ồ
m hai b
ướ
c:
B
ướ
c h
ọ
c (giai
đ
o
ạ
n hu
ấ
n luy
ệ
n): xây d
ự
ng b
ộ
phân
lo
ạ
i (classifier) b
ằ
ng vi
ệ
c phân tích/h
ọ
c t
ậ
p hu
ấ
n luy
ệ
n
B
ướ
c phân lo
ạ
i (classification): phân lo
ạ
i d
ữ
li
ệ
u/
đố
i
t
ượ
ng m
ớ
i n
ế
u
độ
chính xác c
ủ
a b
ộ
phân lo
ạ
i
đượ
c
đ
ánh giá là có th
ể
ch
ấ
p nh
ậ
n
đượ
c (acceptable)
</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>
12
4.1. T
ổ
ng quan v
ề
phân lo
ạ
i d
ữ
li
ệ
u
</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>
4.1. T
ổ
ng quan v
ề
phân lo
ạ
i d
ữ
li
ệ
u
</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>
14
4.1. T
ổ
ng quan v
ề
phân lo
ạ
i d
ữ
li
ệ
u
Phân lo
ạ
i d
ữ
li
ệ
u
D
ạ
ng h
ọ
c có giám sát (supervised learning)
Environment
Teacher
Learning
System
state X
Σ
desired
response Y
actual
response
error signal
</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>
-4.1. T
ổ
ng quan v
ề
phân lo
ạ
i d
ữ
li
ệ
u
Các gi
ả
i thu
ậ
t phân lo
ạ
i d
ữ
li
ệ
u
Phân lo
ạ
i v
ớ
i cây quy
ế
t
đị
nh (decision tree)
Phân lo
ạ
i v
ớ
i m
ạ
ng Bayesian
Phân lo
ạ
i v
ớ
i m
ạ
ng neural
Phân lo
ạ
i v
ớ
i k ph
ầ
n t
ử
c
ậ
n g
ầ
n nh
ấ
t (k-nearest
neighbor)
Phân lo
ạ
i v
ớ
i suy di
ễ
n d
ự
a trên tình hu
ố
ng
(case-based reasoning)
Phân lo
ạ
i d
ự
a trên ti
ế
n hố gen (genetic
algorithms)
</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>
16
4.2. Phân lo
ạ
i d
ữ
li
ệ
u v
ớ
i cây quy
ế
t
đị
nh
</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>
4.2. Phân lo
ạ
i d
ữ
li
ệ
u v
ớ
i cây quy
ế
t
đị
nh
Cây quy
ế
t
đị
nh (decision tree) – mơ hình phân lo
ạ
i
Node n
ộ
i: phép ki
ể
m th
ử
(test) trên m
ộ
t thu
ộ
c tính
Node lá: nhãn/mơ t
ả
c
ủ
a m
ộ
t l
ớ
p (class label)
Nhánh t
ừ
m
ộ
t node n
ộ
i: k
ế
t qu
ả
c
ủ
a m
ộ
t phép th
ử
trên
thu
ộ
c tính t
ươ
ng
ứ
ng
Cây quyết định học được từ
</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>
18
4.2. Phân lo
ạ
i d
ữ
li
ệ
u v
ớ
i cây quy
ế
t
đị
nh
Gi
ả
i thu
ậ
t xây d
ự
ng cây quy
ế
t
đị
nh
ID3, C4.5, CART (Classification and Regression
</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19></div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>
20
4.2. Phân lo
ạ
i d
ữ
li
ệ
u v
ớ
i cây quy
ế
t
đị
nh
Đặ
c
đ
i
ể
m c
ủ
a gi
ả
i thu
ậ
t
Gi
ả
i thu
ậ
t tham lam (khơng có quay lui), chia
để
tr
ị
,
đệ
qui, t
ừ
trên xu
ố
ng
Độ
ph
ứ
c t
ạ
p v
ớ
i t
ậ
p hu
ấ
n luy
ệ
n
<i><b>D</b></i>
g
ồ
m |
<i><b>D</b></i>
| ph
ầ
n
t
ử
(
đố
i t
ượ
ng), m
ỗ
i ph
ầ
n t
ử
g
ồ
m
<i><b>n</b></i>
thu
ộ
c tính
O(
<i>n*|D|*log|D|</i>
)
Mỗi thuộc tính ứng với mỗi mức (level) của cây.
Cho mỗi mức của cây, |D| phân tử huấn luyện được
duyệt qua.
</div>
<!--links-->