NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÂY QUYẾT ĐỊNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (581 KB, 52 trang )

Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
PHÒNG ĐÀO TẠO SAU ĐẠI HỌC
BÀI THU HOẠCH MÔN HỌC
KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU
ĐỀ TÀI: NGHIÊN CỨU CÁC THUẬT TOÁN
PHÂN LỚP DỮ LIỆU TRÊN CÂY QUYẾT ĐỊNH
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 1
GVHD PGS.TS. ĐỖ PHÚC
HỌC VIÊN LƯƠNG VĂN NGUYÊN
NƠI SINH HÀ NAM
LỚP CAO HỌC, KHÓA 7
MSHV CH1102005
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
HÀ NỘI - 2012
LỜI CẢM ƠN

Em xin chân thành cảm ơn các Thầy Cô trong
Trường Đại học Công nghệ thông tin, đã tận tình giúp
đỡ chúng em học tập, nghiên cứu.
Em vô cùng biết ơn phó giáo sư tiến sỹ Đỗ Phúc
đã cho phép em tìm hiểu, nghiên cứu đề tài “Các thuật
toán phân lớp dữ liệu trên cây quyết định” và Thầy đã
dành nhiều thời gian, tận tình hướng dẫn em trên diễn
đàn môn học Khai phá dữ liệu và Nhà kho dữ liệu.
Học viên: Lương Văn Nguyên
MỤC LỤC
LỜI NÓI ĐẦU 4
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU TRONG DATA MINING 4
Phân lớp dữ liệu là gì? 4
Qúa trình phân lớp dữ liệu gồm 2 bước : 4

Một số ứng dụng phân lớp tiêu biểu: 6
Tiến trình phân lớp dữ liệu: 6
Tiền xử lý dữ liệu để tiến hành phân lớp: 6
Các phương pháp phân lớp: 6
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 2
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Tiêu chuẩn để đánh giá các phương pháp phân lớp: 7
Độ chính xác trong phân lớp: 7
CHƯƠNG 2: CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU 7
I.TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH: 7
1. Giới thiệu chung: 7
2. Các kiểu cây quyết định: 8
Ví dụ: 8
Ưu điểm cây quyết định: 11
II.CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH: 11
III.PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH: 12
IV.XÂY DỰNG CÂY QUYẾT ĐỊNH: 13
1. Chọn thuộc tính phân tách: 13
Phép kiểm tra để chọn phép phân tách tốt nhất: 15
CHƯƠNG 3: CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 18
I.THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ID3: 19
1. Giới thiệu: 19
Giải thuật ID3 xây dựng cây quyết định từ trên xuống 20
Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 22
2. Tìm kiếm không gian giả thuyết trong ID3 28
3. Đánh giá hiệu suất của cây quyết định: 29
4. Khi nào nên sử dụng ID3 29
II.THUẬT TOÁN PHÂN LỚP CÂY DỮ LIỆU C4.5 30
1. Giới thiệu: 30
2. Thuật toán xây dựng cây quyết định: 31

Độ đo sử dụng để xác định điểm chia tốt nhất: 32
4. Một số vấn đề với thuộc tính: 33
ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CƠ SỞ DỮ LIỆU THỰC TÊ 46
III.KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 52
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 3
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
LỜI NÓI ĐẦU
Ngày nay phân lớp dữ liệu (classification) là một trong những hướng nghiên
cứu chính
của
khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu
với nhiều thông tin ẩn con người
có
thể trích rút ra các quyết định nghiệp vụ thông
minh. Phân lớp và dự đoán là hai dạng của phân tích
dữ
liệu nhằm trích rút ra một
mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ
liệu

tương
lai.
Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị
rời
rạc, có
nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là
biết
trước.
Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục. Ví dụ mô

hình
phân
lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa
vào những thông số về
độ
ẩm, sức gió, nhiệt độ,… của ngày hôm nay và các ngày
trước đó. Hay nhờ các luật về xu hướng
mua
hàng của khách hàng trong siêu thị,
các nhân viên kinh doanh có thể ra những quyết sách đúng đắn
về
lượng mặt hàng
cũng như chủng loại bày bán… Một mô hình dự đoán có thể dự đoán được lượng
tiền
tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập
và nghề nghiệp
của
khách hàng. Những năm qua, phân lớp dữ liệu đã thu hút sự
quan tâm các nhà nghiên
cứu

trong
nhiều lĩnh vực khác nhau như học máy
(machine learning), hệ chuyên gia (expert
system),

thống
kê (statistics) Công nghệ
này cũng ứng dụng trong nhiều lĩnh vực khác nhau như:
thương

mại, nhà băng,
maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán
ra
đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory resident),
thường thao tác
với

lượng
dữ liệu nhỏ. Một số thuật toán ra đời sau này đã sử dụng kỹ
thuật cư trú trên đĩa cải thiện đáng
kể
khả năng mở rộng của thuật toán với những
tập dữ liệu lớn lên tới hàng tỉ bản
ghi.
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU TRONG
DATA MINING
Phân lớp dữ liệu là gì?
Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định
trước.
Qúa trình phân lớp dữ liệu gồm 2 bước :
Bước 1 (Learning)
Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các
khái
niệm
định trước. Đầu vào của quá trình này là một tập dữ liệu có cấu trúc
được mô tả bằng các thuộc
tính
và được tạo ra từ tập các bộ giá trị của các thuộc
tính
đó. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là

các mẫu
(sample),

ví
dụ (example), đối tượng (object), bản ghi (record) hay trường
hợp (case). Khoá luận sử dụng
các
thuật ngữ này với nghĩa tương đương. Trong tập
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 4
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc
về
một lớp định trước, lớp ở đây
là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn
lớp

hay
thuộc tính
phân lớp (class label attribute). Đầu ra của bước này thường là các quy tắc phân
lớp
dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron. Quá
trình
này

được mô tả như trong Hình 1:

a)
Hình 1 - Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình phân
lớp
Bước 2 (Classification)

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới.
Trước
tiên
độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra
được ước lượng. Holdout là
một
kỹ thuật đơn giản để ước lượng độ chính xác đó. Kỹ
thuật này sử dụng một tập dữ liệu kiểm tra
với
các mẫu đã được gán nhãn lớp.
Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong
tập
dữ liệu đào
tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các
các
mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế). Nếu
độ chính xác của
mô
hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả
thu được là rất khả quan vì mô hình
luôn
có xu hướng “quá vừa” dữ liệu. Quá vừa
dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ
liệu
thực tế vì quá trình xây
dựng mô
hình phân lớp từ tập dữ liệu đào tạo có thể kết hợp từ các đặc điểm riêng
biệt của tập dữ liệu đó
Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập
dữ liệu đào tạo. Nếu độ

chính

xác
của mô hình là chấp nhận được, thì mô hình được
sử dụng để phân lớp những dữ liệu tương
lai,
hoặc những dữ liệu mà giá trị của
thuộc tính phân lớp
là chưa biết.
b1)
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 5
A g e
C a r
Ty

p e

R

i
s k

2 0
C o m
b

i
H
ig

h1 8
S
p
o
r

t

s
H
ig

h4 0
S
p

o
r

t

s
H
ig

h5 0
F a m
i

ly

L o
w35
M
in
iv a
nL

ow

30
C o m
b

i
H
ig

h3 2
F a m
i

ly
L o
w4 0
C o m
b

iL

o w

If age <31
Or car Type = Sport
Then Rist = Hight
Tranning Data
Classification algorithm
Classifier (model)
Classifier (model)
Test Datad
A g e
C a r
T y

p e

R

i
s k

2 0
C o m
b

i
H
ig

h1 8
S

p
o
r

t

s
H
ig

h4 0
S
p
o
r

t

s
H
ig

h5 0
F a m
i

ly
L o
w3 5

M
in
iv a
nL

o w

3 0
C o m
b

i
H
ig

h3 2
F a m
i

ly
L o
w4 0
C o m
b

iL

o w

R is k

H i

g
h
L o w

L o w

H i

g
h
Test Data
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Hình 2 - Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô
hình
b2)
Hình 3 - Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu
mới
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định
tới sự
thành
công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân lớp dữ
liệu là tìm ra được một thuật
toán
phân lớp nhanh, hiệu quả, có độ chính xác cao và
có khả năng mở rộng được. Trong đó khả năng
mở
rộng được của thuật toán được
đặc biệt trú trọng và phát triển

Một số ứng dụng phân lớp tiêu biểu:
- Tín dụng: phân lớp khách hàng…
- Tiếp thị: phân lớp nhu cầu mua hàng của khách hàng…
- Chẩn đoán y khoa: từ một số triệu chứng -> xác định bệnh…
- Phân tích hiệu quả điều trị: kiểm tra tính đúng đắn của luật phân lớp
Tiến trình phân lớp dữ liệu:
Tiến trình gồm hai bước:
- Xây dựng mô hình từ tập huấn luyện, mô hình được biểu diễn bởi các luật
phân lớp, các cây quyết định hoặc các công thức toán học.
- Sử dụng mô hình: kiểm tra tính đúng đắn của mô hình và dùng nó để phân
lớp dữ liệu mới.
Tiền xử lý dữ liệu để tiến hành phân lớp:
Bao gồm các công việc:
- Làm sạch dữ liệu: dữ liệu nhiễu, các giá trị trống…
- Phân tích sự liên quan giữa các dữ liệu để chọn đặc trưng
- Biến đổi dữ liệu về dạng dữ liệu rời rạc, số hóa dữ liệu
Các phương pháp phân lớp:
- Phân lớp bằng mạng Neural lan truyền ngược
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 6
Classifier (model)
Test Data
A g e
C a r
T y

p e

R

i

s k

2 7
Sports
3 4
Minivan
5 5
Family
34
S
ports
R is k
H i

g
h
L o w

L o w

H i

g
h
Classifier (model)
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
- Phân lớp K-láng giềng gần nhất
- Suy luận dựa vào trường hợp
- Thuật giải di truyền
- Tiếp cận tập thô

- Hướng tập mờ
Tiêu chuẩn để đánh giá các phương pháp phân lớp:
Đánh giá các phương pháp phân lớp dựa trên:
- Độ chính xác
- Tốc độ
- Bền vững
- Gia/giảm: phân lớp các tập dữ liệu có hàng triệu mẫu và hàng trăm thuộc tính
với tốc độ chấp nhận được.
- Có thể biểu diễn được
- Dễ làm
Độ chính xác trong phân lớp:
Dùng một trong các cách sau để ước lượng tỉ lệ sai:
- Phân hoạch: dành cho tập dữ liệu lớn
 Dùng hai tập dữ liệu độc lập: tập huấn luyện (2/3), tập kiểm tra (1/3)
- Kiểm tra chéo: dành cho tập dữ liệu vừa
 Chia tập dữ liệu thành k mẫu con
 Sử dụng (k – 1) mẫu con làm tập huấn luyện và một mẫu con làm tập kiểm tra,
kiểm tra chéo k thành phần.
- Bootstrapping: dành cho tập dữ liệu nhỏ
Xóa dần mỗi lần 1 phần tử của tập dữ liệu để kiểm tra.
CHƯƠNG 2: CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN
LỚP DỮ LIỆU
I. TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH:
1. Giới thiệu chung:
Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả hai
nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn có thể
chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then.
Cây quyết định là cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi nút trong (internal
node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính,
mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root).

HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 7
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di
chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở phân lớp này chúng ta có thể
chuyển đổi về các luật quyết định.
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu
mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết
định là một dạng đặc biệt của cấu trúc cây.
Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự
đoán. Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành
các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp.
Lựa chọn thuộc tính để tạo nhánh thông qua Entropy và Gain.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu.
Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại
còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết
định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm
tra giá trị thuộc tính . Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất.
Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay
khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.
Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính
toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.
Dữ liệu được cho dưới dạng các bản ghi có dạng:
1 2 3
( , ) ( , , , , , )
k
x y x x x x y
=
. Biến phụ
thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa.
1 2 3

, , x x x
là các biến sẽ giúp ta thực hiện công việc đó.
2. Các kiểu cây quyết định:
Cây quyết định còn có hai tên khác:
o Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực
thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một
ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
o Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới
tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua).
Ví dụ:
Ta sẽ dùng một ví dụ để giải thích về cây quyết định:
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện
các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu
lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc
bộ lại thừa nhân viên.
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 8
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo
thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều
đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích
nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Quang cảnh (outlook), nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)). Nhiệt độ
(temperature), độ ẩm (humidity). Có gió mạnh (windy) hay không.
Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm
14 dòng và 5 cột.
Dữ liệu chơi golf
Các biến độc lập Biến phụ thuộc
Quang cảnh Nhiệt độ Độ ẩm Gió Chơi
Nắng Nóng Cao Nhẹ Không

Nắng Nóng Cao Mạnh Không
Âm u Nóng Cao Nhẹ Có
Mưa Ấm áp Cao Nhẹ Có
Mưa Mát Trung bình Nhẹ Có
Mưa Mát Trung bình Mạnh Không
Âm u Mát Trung bình Mạnh Có
Nắng Ấm áp Cao Nhẹ Không
Nắng Mát Trung bình Nhẹ Có
Mưa Ấm áp Trung bình Nhẹ Có
Nắng Ấm áp Trung bình Mạnh Có
Âm u Ấm áp Cao Mạnh Có
Âm u Nóng Trung bình Nhẹ Có
Mưa Ấm áp Cao Mạnh không
Sau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết
định kiểm tra khi nào chơi golf, khi nào không chơi.
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 9
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo
các thuộc tính dùng để dự đoán. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu.
Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc Chơi
(play), là sử dụng biến Quang cảnh. Phân loại theo các giá trị của biến Quang cảnh, ta có ba
nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và
nhóm chơi khi trời mưa.
Kết luận thứ nhất: nếu trời nhiều mây tức là âm u, người ta luôn luôn chơi golf. Và có
một số người đi chơi golf cả khi trời mưa.
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách hàng
không muốn chơi golf nếu độ ẩm cao.
Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi
golf nếu trời nhiều gió.
Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại. David cho phần lớn

nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió. Vì hầu như sẽ
chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi nhiều người sẽ đến
chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc.
Lưu ý :
o Cây quyết định trên không có sự tham gia của thuộc tính “Nhiệt độ” trong
thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư
thừa bởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô
hình của cây.
o Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá trị
liên tục hay còn gọi là kiểu số (ordered or numeric values) hoặc kiểu rời rạc
hay còn gọi là kiểu dữ liệu phân loại (unordered or category values). Ví dụ
kiểu dữ liệu độ ẩm hay lương có thể biểu diễn bằng số thực là kiểu dữ liệu
liên tục, kiểu dữ liệu giới tính là kiểu dữ liệu rời rạc (có thể rời rạc hóa thuộc
tính giới tính một cách dễ dàng).
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 10
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc
đơn giản hơn rất nhiều.
Ưu điểm cây quyết định:
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một
số ưu điểm:
• Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định sau khi
được giải thích ngắn.
• Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.
Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ
(dummy variable) và loại bỏ các giá trị rỗng.
• Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là
tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ
gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến
tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.

• Cây quyết định là một mô hình hộp trắng. Mạng nơ-ron là một ví dụ về mô hình
hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được.
• Có thể thẩm định một mô hình bằng các kiểm tra thống kê. Điều này làm cho ta
có thể tin tưởng vào mô hình.
• Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có
thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời
gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân
tích của cây quyết định.
II. CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH:
Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập các bản ghi
lớn thành các tập con nhỏ hơn bằng cách áp dụng một chuỗi các luật đơn giản. Với mỗi
phép chia liên tiếp, các tập con thu được trong tập kết quả sẽ ngày càng giống nhau. Nó có
cấu trúc như sau :
- Mỗi nút mang một thuộc tính (biến độc lập)
- Mỗi nhánh tương ứng với một giá trị của thuộc tính
- Mỗi nút lá là một lớp (biến phụ thuộc)
Đối với cây quyết định, tại mỗi nút, một thuộc tính sẽ được chọn ra để phân tách tập
mẫu thành những lớp khác nhau nhiều nhất có thể. Tiến hành lặp lại bước này đến khi kết
thúc ta sẽ có được một tập các lớp đã được định nghĩa trước. Một trường hợp mới sẽ được
phân loại dựa vào việc tìm một đường dẫn phù hợp tới nút lá.
Ví dụ về cây quyết định :
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 11
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Bảng 1 : Dữ liệu thời tiết
Quang
cảnh
Nhiệt độ Độ ẩm Gió Chơi Tennis
Nắng Nóng Cao Nhẹ Không
Nắng Nóng Cao Mạnh Không
Âm u Nóng Cao Nhẹ Có

Mưa Ấm áp Cao Nhẹ Có
Mưa Mát TB Nhẹ Có
Mưa Mát TB Mạnh Không
Âm u Mát TB Mạnh Có
Nắng Ấm áp Cao Nhẹ Không
Nắng Mát TB Nhẹ Có
Mưa Ấm áp TB Nhẹ Có
Nắng Ấm áp TB Mạnh Có
Âm u Ấm áp Cao Mạnh Có
Âm u Nóng TB Nhẹ Có
Mưa Ấm áp Cao Mạnh Không
III. PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH:
• Việc tạo cây quyết định bao gồm 2 giai đoạn : Tạo cây và tỉa cây .
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 12
Cao
Nhẹ
Âm u
Trung bình
Mạnh
Nắng
Mưa
Không
Không
Có
Có
Có
Quang cảnh
Độ ẩm
Gió
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc

 Để tạo cây ở thời điểm bắt đầu tất cả những ví dụ huấn luyện là ở gốc sau đó
phân chia ví dụ huấn luyện theo cách đệ qui dựa trên thuộc tính được chọn .
 Việc tỉa cây là xác định và xóa những nhánh mà có phần tử hỗn loạn hoặc những
phần tử nằm ngoài (những phần tử không thể phân vào một lớp nào đó) .
• Có rất nhiều biến đổi khác nhau về nòng cốt của thuật toán cây quyết định, mặc dù
vậy chúng vẫn tuân theo những bước cơ bản sau :
 Cây được thiết lập từ trên xuống dưới và theo cách thức chia để trị.
 Ở thời điểm bắt đầu, các mẫu huấn luyện nằm ở gốc của cây
 Thuộc tính được phân loại (Rời rạc hóa các thuộc tính dạng phi số )
 Chọn một thuộc tính để phân chia thành các nhánh. Thuộc tính được chọn dựa
trên độ đo thống kê hoặc độ đo heuristic.
 Tiếp tục lặp lại việc xây dựng cây quyết định cho các nhánh.
• Điều kiện để dừng việc phân chia:
 + Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)
 + Không còn thuộc tính nào có thể dùng để phân chia mẫu nữa
 + Không còn lại mẫu nào tại nút.
IV. XÂY DỰNG CÂY QUYẾT ĐỊNH:
1. Chọn thuộc tính phân tách:
Lúc khởi đầu, ta có trong tay một tập luyện chứa tập các bản ghi được phân loại
trước – tức là giá trị của biến đích được xác định trong tất cả các trường hợp. Cây quyết
định được xây dựng bằng cách phân tách các bản ghi tại mỗi nút dựa trên một thuộc tính
đầu vào. Rõ ràng nhiệm vụ đầu tiên là phải chọn ra xem thuộc tính nào đưa ra được sự
phân tách tốt nhất tại nút đó.
Độ đo được sử dụng để đánh giá khả năng phân tách là độ tinh khiết. Chúng ta sẽ
có những phương pháp xác định để tính toán độ tinh khiết một cách chi tiết, tuy nhiên chúng
đều cố gắng đạt được hiệu quả như nhau. Một sự phân tách tốt nhất là sự phân tách làm
tăng độ tinh khiết của tập bản ghi với số lượng lớn nhất. Một sự phân tách tốt cũng phải tạo
ra các nút có kích cỡ tương tự nhau, hay chí ít cũng không tạo ra các nút có quá ít bản ghi.

HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 13

Phân tách tốt
Phép
phân tách tốt
Phép phân tách kémPhép phân tách kém
DỮ LIỆU GỐC
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc

Thuật toán xây dựng cây quyết định hết sức thấu đáo. Chúng bắt đầu bằng việc
chọn mỗi biến đầu vào chưa được chọn và đo mức độ tăng độ tinh khiết trong các kết quả
ứng với mỗi biến. Sau đó một phép tách tốt nhất sẽ được sử dụng trong phép tách khởi đầu,
để tạo hai hay nhiều nút con. Nếu không phép phân tách nào có khả năng (có thể do có quá
ít bản ghi) hoặc do không có phép phân tách nào làm tăng độ tinh khiết thì thuật toán kết
thúc và nút đó trở thành nút lá.
Phép phân tách trên các biến đầu vào kiểu số: đối với sự phân tách nhị phân trên
một biến đầu vào, mỗi giá trị mà biến đó chứa đều có thể trở thành giá trị dự tuyển. Phép
phân tách nhị phân dựa trên biến đầu vào kiểu số có dạng X < N. Để cải thiện hiệu năng,
một số thuật toán không kiểm tra hết toàn bộ các giá trị của biến mà chỉ kiểm tra trên tập
mẫu giá trị của biến đó.
Phép phân tách trên các biến đầu vào định tính : thuật toán đơn giản nhất trong việc
phân tách trên một biến định tính là ứng với mỗi giá trị của biến đó, ta tạo một nhánh tương
ứng với một lớp được phân loại. Phương pháp này được sử dụng thực sự trong một số
phần mềm nhưng mang lại hiệu quả thấp. Một phương pháp phổ biến hơn đó là nhóm các
lớp mà dự đoán cùng kết quả với nhau. Cụ thể, nếu hai lớp của biến đầu vào có phân phối
đối với biến đích chỉ khác nhau trong một giới hạn cho phép thì hai lớp này có thể hợp nhất
với nhau.
Phép phân tách với sự có mặt của các giá trị bị thiếu: một trong những điểm hay
nhất của cây quyết định là nó có khả năng xử lý các giá trị bị thiếu bằng cách coi giá trị rỗng
(NULL) là một nhánh của nó. Phương pháp này được ưa thích hơn so với việc vứt các bản

ghi có giá trị thiếu hoặc cố gắng gắn giá trị nào đó cho nó bởi vì nhiều khi các giá trị rỗng
cũng có ý nghĩa riêng của nó. Mặc dù phép phân tách giá trị rỗng như là một lớp riêng rẽ khá
có ý nghĩa nhưng người ta thường đề xuất một giải pháp khác. Trong khai phá dữ liêu, mỗi
nút chứa vài luật phân tách có thể thực hiện tại nút đó, mỗi phép phân tách đó dựa vào các
biến đầu vào khác nhau. Khi giá trị rỗng xuất hiên trong biến đầu vào của phép phân tách tốt
nhất, ta sử dụng phép phân tách thay thế trên biến đầu vào có phép phân tách tốt thứ hai.
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 14
Phân tách tốt
Phép
phân tách tốt
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Phép kiểm tra để chọn phép phân tách tốt nhất:
- Độ lợi thông tin (Information gain)
• Information gain là đại lượng được sử dụng để chọn lựa thuộc tính với information
gain lớn nhất.
• Cho P và N là hai lớp và S là một tập dữ liệu có p phần tử lớp P và n phần tử lớp N .
• Khối lượng thông tin cần thiết để quyết định một mẫu tùy ý có thuộc về lớp P hay N hay
không là:
• Cho các tập {S1, S2 , …, Sv} là một phân hoạch trên tập S, khi sử dụng thuộc tính
A.
• Cho mỗi Si chứa p
i
mẫu lớp P và n
i
mẫu lớp N
• Entropy, hay thông tin mong muốn cần thiết để phân lớp các đối tượng trong tất cả
các cây con Si là:
• Thông tin có được bởi việc phân nhánh trên thuộc tính A là:
Ví dụ: Với bảng dữ liệu về dự báo thời tiết ở trên:
• Lớp P: Chơi_tennis = “Có”

• Lớp N: Chơi_tennis = “Không”
• Thông tin cần thiết để phân lớp một mẫu được cho là:
• Xét thuộc tính ‘Quang cảnh’ ta có :
○ ‘Quang cảnh’ = ‘Nắng’:
Info ([2,3]) = entropy (2/5, 3/5) = – 2/5log
2
(2/5) – 3/5log
2
(3/5) = 0.971
○ ‘Quang cảnh’ = ‘Âm u’:
Info ([4,0]) = entropy (1, 0) = – 1log
2
(1) – 0log
2
(0) = 0
Do không có log
2
(0) nên ta quy ước nó bằng 0
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 15
2 2
( , ) ( , ) log log
p n p p n n
Info p n Entropy
p n p n p n p n p n p n
= = − −
+ + + + + +
1
( ) ( , )
i i
i i

i
p n
Entropy A Info p n
p n
ν
=
+
=
+
∑
( ) ( , ) ( )Gain A Info p n Entropy A
= −
2 2
9 9 5 5
( , ) (9,5) - log - log 0.940
14 14 14 14
Info p n Info
= = =
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
○ ‘Quang cảnh’ = ‘Mưa’:
Info ([3,2]) = entropy (3/5, 2/5) = – 3/5log
2
(3/5) – 2/5log
2
(2/5) = 0.971
○ Entropy cho phép phân tách trên thuộc tính « Quang cảnh» :
= (5/14) * 0.971 + (4/14) * 0 + (5/14) * 0.971 = 0.694
Do đó ta có:
= 0.940 – 0.694= 0.246
• Xét thuộc tính ‘Độ ẩm’ ta có :

○ ‘Độ ẩm’ = ‘Cao’:
Info ([3,4]) = entropy (3/7, 4/7) = – 3/7log
2
(3/7) – 4/7log
2
(4/7) = 0.985
○ ‘Độ ẩm’ = ‘Trung bình’:
Info ([6,1]) = entropy (6/7, 1/7) = – 6/7log
2
(6/7) – 1/7log
2
(1/7) = 0.592
Entropy(Độ ẩm)= 7/14 Info(3,4) + 7/14 Info(6,1)
= 7/14* 0.985 + 7/14* 0.592 = 0.789
Gian(Độ ẩm) = Info(9,5) – Entropy(Độ ẩm)
= 0.940 – 0.798 = 0.151
Tương tự cho các thuộc tính còn lại ta có:
Rõ ràng ban đầu ta sẽ chọn thuộc tính ‘Quang cảnh’ để phân tách. Sau đó làm tương tự
ta sẽ được cây quyết định cuối cùng có dạng
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 16
5 4 5
( ) (2,3) (4,0) (3,2)
14 14 14
Entropy Quang canh Info Info Info
= + +
( ) (9,5) ( )Gain Quang canh Info Entropy Quang canh
= −
( ) 0.246
( ) 0.151
( ) 0.048

( ) 0.029
Gain Quang canh
Gain Do am
Gain Gio
Gain Nhiet do
=
=
=
=
Không Có CóKhông
Cao
Mạnh
Nhẹ
Quang cảnh
Độ ẩm
Gió
Nắng Mưa
TB
Có
Âm u
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Cây quyết định cuối cùng
V. BIẾN ĐỔI CÂY QUYẾT ĐỊNH THÀNH LUẬT:
- Biểu diễn tri thức dưới dạng luật IF-THEN .
- Mỗi luật tạo ra từ mỗi đường dẫn từ gốc đến lá.
- Mỗi cặp giá trị thuộc tính dọc theo đường dẫn tạo nên phép kết (phép AND –
và)
- Các nút lá mang tên của lớp
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 17
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc

VÍ DỤ 1:
R
1
: If (Quang cảnh=Nắng) ∧ (Độ ẩm=Cao) Then Chơi=Không
R
2
: If (Quang cảnh=Nắng) ∧ (Độ ẩm=Trung bình) Then Chơi=Có
R
3
: If (Quang cảnh=Âm u) Then Chơi=Có
R
4
: If (Quang cảnh=Mưa) ∧ (Gió=Mạnh) Then Chơi=Không
R
5
: If (Quang cảnh=Mưa) ∧ (Gió=Nhẹ) Then Chơi=Có
CHƯƠNG 3: CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT
ĐỊNH
Phần lớn các thuật toán phân lớp dữ liệu dựa trên cây quyết định có mã như sau:
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 18
Không
Có CóKhông
Cao
Mạnh
Nhẹ
Quang cảnh
Độ ẩm
Gió
Nắng Mưa
TB

Có
Âm u
Make Tree (Training Data T)
{ Partition (T) }
Partition (Data S)
{ if (all points in S are in the same class)
Then return
For each attribete A do
Evaluate splits on attribute A;
Use best split found to partition S into S1, S2, Sk
Partition (S1)
Partition (S2)
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
I. THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ID3:
1. Giới thiệu:
Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng tỏ ra
thành công trong nhiều lĩnh vực.
ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu
diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các
giá trị của nó trên một số thuộc tính nào đó.
Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụ rèn
luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data). Hay nói khác hơn,
giải thuật có:
 Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả
một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của
nó.
 Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong
tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ
chưa gặp trong tương lai.
Ví dụ, chúng ta hãy xét bài toán phân loại xem ta ‘có đi chơi tennis’ ứng với thời tiết nào đó

không. Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau:
Tập dữ liệu này bao gồm 14 ví dụ. Mỗi ví dụ biểu diễn cho tình trạng thời tiết gồm
các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộc tính phân loại ‘chơi
Tennis’ (có, không). ‘Không’ nghĩa là không đi chơi tennis ứng với thời tiết đó, ‘Có’ nghĩa là
ngược lại. Giá trị phân loại ở đây chỉ có hai loại (có, không), hay còn ta nói phân loại của tập
ví dụ của khái niệm này thành hai lớp (classes). Thuộc tính ‘Chơi tennis’ còn được gọi là
thuộc tính đích (target attribute).
Mỗi thuộc tính đều có một tập các giá trị hữu hạn. Thuộc tính quang cảnh có ba giá
trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm có hai giá trị (cao, TB)
và gió có hai giá trị (mạnh, nhẹ). Các giá trị này chính là ký hiệu (symbol) dùng để biểu diễn
bài toán.
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 19
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả năng
phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó cũng sẽ
phân loại đúng các ví dụ không nằm trong tập này.
Sau khi giải thuật đã quy nạp được cây quyết định, thì cây này sẽ được sử dụng để
phân loại tất cả các ví dụ hay thể hiện (instance) trong tương lai. Và cây quyết định sẽ không
thay đổi cho đến khi ta cho thực hiện lại giải thuật ID3 trên một tập dữ liệu rèn luyện khác.
Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại đúng
tất cả các ví dụ trong tập dữ liệu rèn luyện. Kích cỡ của các cây quyết định khác nhau tùy
thuộc vào thứ tự của các kiểm tra trên thuộc tính.
Giải thuật ID3 xây dựng cây quyết định từ trên xuống
ID3 xây dựng cây quyết định (cây QĐ) theo cách từ trên xuống. Lưu ý rằng đối với bất kỳ
thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các ví dụ rèn luyện thành những tập
con tách rời, mà ở đó mọi ví dụ trong một phân vùng (partition) có một giá trị chung cho
thuộc tính đó. ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của cây và dùng trắc
nghiệm này để phân vùng tập hợp các ví dụ; thuật toán khi đó xây dựng theo cách đệ quy
một cây con cho từng phân vùng. Việc này tiếp tục cho đến khi mọi thành viên của phân
vùng đều nằm trong cùng một lớp; lớp đó trở thành nút lá của cây.

HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 20
Quang cảnh Nhiệt độ Độ ẩm Gió Chơi tennis
Nắng Nóng Cao Nhẹ Không
Nắng Nóng Cao Mạnh Không
Âm u Nóng Cao Nhẹ Có
Mưa Ấm áp Cao Nhẹ Có
Mưa Mát TB Nhẹ Có
Mưa Mát TB Mạnh Không
Âm u Mát TB Mạnh Có
Nắng Ấm áp Cao Nhẹ Không
Nắng Mát TB Nhẹ Có
Mưa Ấm áp TB Nhẹ Có
Nắng Ấm áp TB Mạnh Có
Âm u Ấm áp Cao Mạnh Có
Âm u Nóng TB Nhẹ Có
Mưa Ấm áp Cao Mạnh Không
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng một cây QĐ đơn
giản, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc của cây.
* ID3 xây dựng cây quyết định theo giải thuật sau:
Function induce_tree(tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong
tập_ví_dụ
else
begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại
thuộc tính P;
Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả
vào nhánh V
end
end
end
 Các khả năng có thể có của các phân vùng (partition):
Trong quá trình xây dựng cây QĐ, phân vùng của một nhánh mới có thể có các dạng sau:
 Có các ví dụ thuộc các lớp khác nhau, chẳng hạn như có cả ví dụ âm và dương.
 Tất cả các ví dụ đều thuộc cùng một lớp, chẳng hạn như toàn âm hoặc toàn dương.
 Không còn ví dụ nào => giải thuật trả về mặc nhiên
 Không còn thuộc tính nào => nghĩa là dữ liệu bị nhiễu, khi đó giải thuật phải sử dụng
một luật nào đó để xử lý, chẳng hạn như luật đa số (lớp nào có nhiều ví dụ hơn sẽ
được dùng để gán nhãn cho nút lá trả về).
Từ các nhận xét này, ta thấy rằng để có một cây QĐ đơn giản, hay một cây có chiều cao
là thấp, ta nên chọn một thuộc tính sao cho tạo ra càng nhiều các phân vùng chỉ chứa các ví
dụ thuộc cùng một lớp càng tốt. Một phân vùng chỉ có ví dụ thuộc cùng một lớp, ta nói phân
vùng đó có tính thuần nhất. Vậy, để chọn thuộc tính kiểm tra có thể giảm thiểu chiều sâu của
cây QĐ, ta cần một phép đo để đo tính thuần nhất của các phân vùng, và chọn thuộc tính
kiểm tra tạo ra càng nhiều phân vùng thuần nhất càng tốt. ID3 sử dụng lý thuyết thông tin để
thực hiện điều này.
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 21
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất?
a. Entropy đo tính thuần nhất của tập ví dụ

Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin là số lượng
mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách
ngẫu nhiên từ tập S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết thông
tin, mã có độ dài tối ưu là mã gán –log
2
p bits cho thông điệp có xác suất là p.
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi ví dụ thuộc một
lớp hay có một giá trị phân loại.
 Entropy có giá trị nằm trong khoảng [0 1],
 Entropy(S) = 0  tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần
nhất.
 Entropy(S) = 1  tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha
trộn là cao nhất.
 0 < Entropy(S) < 1  tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là
không bằng nhau.
Để đơn giản ta xét trường hợp các ví dụ của S chỉ thuộc loại âm (-) hoặc dương (+).
Cho trước:
 Tập S là tập dữ liệu rèn luyện, trong đó thuộc tính phân loại có hai giá trị, giả
sử là âm (-) và dương (+)
 p
+
là phần các ví dụ dương trong tập S.
 p
-
là phần các ví dụ âm trong tập S.
Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:
Entropy(S) = -p
+
log
2

p
+
- p
-
log
2
p
-
Một cách tổng quát hơn, nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là
có c giá trị phân loại thì công thức entropy tổng quát là:
Entropy(S) =
∑
=
−
C
i
ii
pp
1
2
log
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 22
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
b. Lượng thông tin thu được đo mức độ giảm entropy mong đợi
Entropy là một số đo đo độ pha trộn của một tập ví dụ, bây giờ chúng ta sẽ định nghĩa
một phép đo hiệu suất phân loại các ví dụ của một thuộc tính. Phép đo này gọi là lượng
thông tin thu được, nó đơn giản là lượng giảm entropy mong đợi gây ra bởi việc phân chia
các ví dụ theo thuộc tính này.
Một cách chính xác hơn, Gain(S,A) của thuộc tính A, trên tập S, được định nghĩa như sau:
)(

||
||
)(),(
)(
v
AValuesv
v
SEntropy
S
S
SEntropyASGain
∑
∈
−=
Trong đó Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và S
V
là tập con
của S chứa các ví dụ có thuộc tính A mang giá trị v.
Trở lại ví dụ ban đầu, nếu không sử dụng Entropy để xác định độ thuần nhất của ví
dụ thì có thể xảy ra trường hợp cây quyết định có chiều cao lớn. Ta áp dụng phương thức
tính Entropy để xác định chắc chắn thuộc tính nào được chọn trong quá trình tạo cây quyết
định. Đầu tiên ta tính độ thuần nhất của tập dữ liệu:
Entropy(S) = - (9/14) Log
2
(9/14) - (5/14) Log
2
(5/14) = 0.940
Từ đó ta tính tiếp Gain cho từng thuộc tính để suy ra thuộc tính nào được chọn làm nút gốc
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 23
Quang cảnh

Nắng
Âm u Mưa
[2+, 3-] [4+, 0-] [3+, 2-]
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Gain(S, Quang cảnh) = Entropy(S) – (5/14)Entropy(S
Nắng
) – (4/14)Entropy(S
Âm u
) – (5/14)
Entropy(S
Mưa
) = 0.940 – (5/14)(5/14)(- (2/5)log
2
(2/5) – (3/5)log
2
(3/5)) - (4/14)(0) -
(5/14)(- (3/5)log
2
(3/5) – (2/5)log
2
(2/5)) = 0.246
Gain(S, Nhiệt độ) = Entropy(S) - (4/14)×Entropy(S
Nóng
) - (6/14)×Entropy(S
Ấm áp
) –
(4/14)×Entropy(S
Mát
)
= 0.940 – (4/14)(1) - (6/14)(- (4/6)log

2
(4/6) – (2/6)log
2
(2/6)) -
(4/14)(- (3/4)log
2
(3/4) – (1/4)log
2
(1/4)) = 0.029
Gain(S, Gió) = Entropy(S) - (6/14)×Entroy(S
Mạnh
) - (8/14)×Entropy(S
Nhẹ
)
= 0.940 - (6/14)(1) - (8/14)(- (6/8)log
2
(6/8) – (2/8)log
2
(2/8))
= 0.048
Gain(S, Độ ẩm) = Entropy(S) – (7/14)×Entropy(S
Cao
) – (7/14)×Entropy(S
TB
)
= 0.940 – (7/14)(- (3/7)log
2
(3/7) – (4/7)log
2
(4/7)) –

(7/14)(- (6/7)log
2
(6/7) – (1/7)log
2
(1/7)) = 0.151
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 24
Nhiệt độ
Nóng
Ấm áp Mát
[2+, 2-] [4+, 2-] [3+, 1-]
Gió
Mạnh Nhẹ
[3+, 3-] [6+, 2-]
Độ ẩm
Cao TB
[3+, 4-] [6+, 1-]
Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc
Ta thấy Gain(S, Quang cảnh) là lớn nhất  lấy thuộc tính quang cảnh làm nút gốc
Sau khi lập được cấp đầu tiên của cây quyết định ta lại xét nhánh Nắng
Entropy(S
Nắng
) = - (3/5)log
2
(3/5) – (2/5)log
2
(2/5) = 0.971
Gain(S
Nắng
, Nhiệt độ) = Entropy(S
Nắng

) - (2/5)×Entropy(S
Nóng
) - (2/5)×Entropy(S
Ấm áp
) –
(1/5)×Entropy(S
Mát
)
= 0.971 – (2/5)×0 - (2/5)×1 - (1/5)×0 = 0.571
Gain(S
Nắng
, Gió) = Entroy(S
Nắng
) - (2/5)×Entropy(S
Nhẹ
) - (3/5)×Entropy(S
Mạnh
)
= 0.971 - (2/5)×1 - (3/5)(- (1/3)log
2
(1/3) – (2/3)log
2
(2/3))
= 0.020
HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 25
Quang cảnh
Nắng Âm u Mưa
Có - Không Có Có - Không
Nóng Ấm áp
Nhiệt độ

Mát
Nắng
Quang cảnh
[0+, 2-] [1+, 1-] [1+, 0-]
Gió
Mạnh
Nắng
Quang cảnh
[1+, 1-] [1+, 2-]
Nhẹ

NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÂY QUYẾT ĐỊNH

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về