Tải bản đầy đủ (.pdf) (23 trang)

Bài Giảng Học Máy (Machine Learning)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (536.67 KB, 23 trang )

Chương 10: Máy Học

1


Học Máy (Machine Learning)
Học (learning) là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó
tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với
nhiệm vụ khác từ cùng một quần thể ñó. (Herbert Simon)

Học liên quan ñến vấn ñề khái quát hóa từ kinh nghiệm (dữ
liệu rèn luyện) => bài toán quy nạp (induction)
Vì dữ liệu rèn luyện thường hạn chế, nên thường khái quát
hóa theo một số khía cạnh nào ñó (heuristic) => tính thiên
lệch quy nạp (inductive bias)
Có ba tiếp cận học:
Các phương pháp học dựa trên ký hiệu (symbol-based): ID3
Tiếp cận kết nối: Các mạng neuron sinh học
Tiếp cận di truyền hay tiến hóa: giải thuật genetic

2


Cây quyết ñịnh (ID3)
Là một giải thuật học ñơn giản nhưng thành công
Cây quyết ñịnh (Qð) là một cách biểu diễn cho phép chúng ta xác
ñịnh phân loại của một ñối tượng bằng cách kiểm tra giá trị của một số
thuộc tính.

Giải thuật có:
ðầu vào: Một ñối tượng hay một tập hợp các thuộc tính mô tả một


tình huống
ðầu ra: thường là quyết ñịnh yes/no, hoặc các phân loại.

Trong cây quyết ñịnh:
Mỗi nút trong biểu diễn một sự kiểm tra trên một thuộc tính nào ñó,
mỗi giá trị có thể của nó tương ñương với một nhánh của cây
Các nút lá thể hiện sự phân loại.

Kích cỡ của cây Qð tùy thuộc vào thứ tự của các kiểm tra
trên các thuộc tính.

3


Ví dụ Cây Qð: Chơi Tennis
Mục ñích: học ñể xem có chơi Tennis không?

Cây quyết ñịnh:
nắng

Quang cảnh
Âm u

ðộ ẩm
cao
No

Trung bình
Yes


mưa

Yes

Gió
mạnh
No

nhẹ
Yes

4


Quy nạp cây Qð từ các ví dụ
Ví dụ (hay dữ liệu rèn luyện cho hệ thống) gồm:
Giá trị của các thuộc tính + Phân loại của ví dụ
Ngày

Quang cảnh

Nhiệt ñộ

ðộ ẩm

Gió

Chơi Tennis

D1


Nắng

Nóng

Cao

nhẹ

Không

D2

Nắng

Nóng

Cao

Mạnh

Không

D3

Âm u

Nóng

Cao


Nhẹ



D4

Mưa

ấm áp

Cao

nhẹ



D5

Mưa

Mát

TB

nhẹ



D6


Mưa

Mát

TB

Mạnh

Không

D7

Âm u

Mát

TB

Mạnh



D8

Nắng

ấm áp

Cao


nhẹ

Không

D9

Nắng

Mát

TB

nhẹ



D10

Mưa

ấm áp

TB

nhẹ



D11


Nắng

ấm áp

TB

Mạnh



D12

Âm u

ấm áp

Cao

Mạnh



D13

Âm u

Nóng

TB


nhẹ



D14

Mưa

ấm áp

Cao

Mạnh

không

5


Làm sao ñể học ñược cây Qð
Tiếp cận ñơn giản
Học một cây mà có một lá cho mỗi ví dụ.
Học thuộc lòng một cách hoàn toàn các ví dụ.
Có thể sẽ không thực hiện tốt trong các trường hợp
khác.

Tiếp cận tốt hơn:
Học một cây nhỏ nhưng chính xác phù hợp với các ví
dụ

Occam’s razor – cái ñơn giản thường là cái tốt nhất!
Giả thuyết có khả năng nhất là giả thuyết ñơn giản nhất thống
nhất với tất cả các quan sát.
6


Xây dựng cây Qð: Trên - xuống
Vòng lặp chính:
1.
A <- thuộc tính quyết ñịnh tốt nhất cho nút kế
2.
Gán A là thuộc tính quyết ñịnh cho nút
3.
Với mỗi giá trị của A, tạo một nút con mới cho nút
4.
Sắp xếp các ví dụ vào các nút lá
5.
If các ví dụ ñã ñược phân loại ñúng, dừng ctr; Else lặp
lại trên mỗi nút lá mới

ðể phân loại một trường hợp, có khi cây Qð không
cần sử dụng tất cả các thuộc tính ñã cho, mặc dù nó
vẩn phân loại ñúng tất cả các ví dụ.
7


Các khả năng có thể của nút con
Các ví dụ có cả âm và dương:
Tách một lần nữa


Tất cả các ví dụ còn lại ñều âm hoặc ñều dương
trả về cây quyết ñịnh

Không còn ví dụ nào
trả về mặc nhiên

Không còn thuộc tính nào (nhiễu)
Quyết ñịnh dựa trên một luật nào ñó (luật ña số)

8


+: D3, D4, D5, D7, D9, D10, D11, D12, D13
-: D1, D2, D6, D8, D14
Quang cảnh?
Nắng

Âm u

+: D9, D11

+: D3, D7, D12, D13

-: D1, D2, D8

-:

Mưa
+: D4, D5, D10
-: D6, D14


+: D3, D4, D5, D7, D9, D10, D11, D12, D13
-: D1, D2, D6, D8, D14

ðộ ẩm?
Cao

Trung bình

+: D3, D4, D12

+:

D5, D9, D10, D11, D13

-: D1, D2, D8, D14

-:

D6
9


+: D3, D4, D5, D7, D9, D10, D11, D12, D13
-: D1, D2, D6, D8, D14
Quang cảnh?
Nắng

Âm u


+: D9, D11

+: D3, D7, D12, D13

-: D1, D2, D8

-:

+:

-: D1, D2, D8

-:

Gió?
Mạnh

TB

+:

No

-: D6, D14
Yes

ðộ ẩm?
Cao

Mưa

+: D4, D5, D10

D9, D11

Yes

Nhẹ

+:

+:

-: D6, D14

-:

No

D4, D5, D10

Yes
10


ID3 xây dựng cây Qð theo giải thuật sau:

11


ðánh giá hiệu suất

Chúng ta muốn có một cây Qð có thể phân loại ñúng một
ví dụ mà nó chưa từng thấy qua.
Việc học sử dụng một “tập rèn luyện” (traning set), và
Việc ñánh giá hiệu suất sử dụng một “tập kiểm tra” (test
set):
1.
2.
3.

4.
5.

Thu thập một tập hợp lớn các ví dụ
Chia thành tập rèn luyện và tập kiểm tra
Sử dụng giải thuật và tập rèn luyện ñể xây dựng giả thuyết h (cây
Qð)
ðo phần trăm tập kiểm tra ñược phân loại ñúng bởi h
Lặp lại bước 1 ñến 4 cho các kích cỡ tập kiểm tra khác nhau ñược
chọn một cách nhẫu nhiên.
12


Sử dụng lý thuyết thông tin
Chúng ta muốn chọn các thuộc tính có thể giảm thiểu
chiều sâu của cây Qð.
Thuộc tính tốt nhất: chia các ví dụ vào các tập hợp chứa
toàn ví dụ âm hoặc ví dụ dương.
Chúng ta cần một phép ño ñể xác ñịnh thuộc tính nào cho
khả năng chia tốt hơn.
Thuộc tính nào tốt hơn?

[29+, 36-]

[21+, 6-]

A1 = ?

[29+, 36-]

A2 = ?

[8+, 30-]

[18+, 34-]

[11+,2-]

13


Entropy
Entropy(S) = số lượng mong ñợi các bit cần thiết ñể mã hóa một
lớp (+ hay – ) của một thành viên rút ra một cách ngẫu nhiên từ S
(trong trường hợp tối ưu, mã có ñộ dài ngắn nhất).

Theo lý thuyết thông tin: mã có ñộ dài tối ưu là mã gán –log2p
bits cho thông ñiệp có xác suất là p.

• S là một tập rèn luyện
• p⊕ là phần các ví dụ dương trong tập S
• pΘ là phần các ví dụ âm trong tập S

• Entropy ño ñộ pha trộn của tập S:

Entropy ( S ) = − p⊕ log 2 p⊕ − pΘ log 2 pΘ
c

Entropy ( S ) = ∑ − pi log 2 pi
i =1

14


Lượng thông tin thu ñược Information
Gain
Gain(S,A) = Lượng giảm entropy mong ñợi qua
việc chia các ví dụ theo thuộc tính A
| Sv |
Gain( S , A) = Entropy ( S ) − ∑
Entropy ( S v )
v∈Values ( A ) | S |
[29+, 36-]

[21+, 6-]

A1 = ?

[29+, 36-]

A2 = ?

[8+, 30-]


[18+, 34-]

[11+,2-]
15


Chọn thuộc tính kế tiếp
S: [9+,5 – ]

S: [9+,5 – ]

E = 0.940

E = 0.940

ðộ ẩm

Gió

Cao

TB

Nhẹ

Mạnh

[3+,4 – ]


[6+,1 – ]

[6+,2 – ]

[3+,3 – ]

E = 0.985

E = 0.592

E = 0.811

E = 1.0

Gain(S, ðộ ẩm)

Gain(S, Gió)

= .940 – (7/14).985 – (7/14).592
= .151

= .940 – (8/14).811 – (6/14)1.0
= .048
16


Tìm kiếm KG giả thuyết trong ID3 (1)
KG giả thuyết ñầy ñủ =>giả
thuyết chắc chắn thuộc KG
này

ðầu ra là một giả thuyết
(cây Qð) =>Cây nào?
Không thể chọn cây với 20
câu hỏi
Không quay lui => cực tiểu
ñịa phương
Lựa chọn tìm kiếm dựa trên
thống kê => chịu ñược dữ
liệu nhiễu
Thiên lệch quy nạp: thích
cây ngắn hơn.

17


Chuyển cây về thành các luật
Quang cảnh
nắng

Âm u

ðộ ẩm
cao
No

Trung bình
Yes

mưa


Yes

Gió
mạnh
No

nhẹ
Yes

If (Quang-cảnh =nắng) ∧ (ðộ ẩm = Cao) Then Chơi-Tennis = No
If (Quang-cảnh =nắng) ∧ (ðộ ẩm = TB) Then Chơi-Tennis = Yes
If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes


18


Khi nào nên sử dụng cây Qð
Các ví dụ ñược mô tả bằng các cặp “thuộc tính –
giá trị”, vd: Gió - mạnh, Gió - nhẹ
Kết quả phân loại là các giá trị rời rạc, vd: Yes, No
Dữ liệu rèn luyện có thể chứa lỗi (bị nhiễu)
Dữ liệu rèn luyện có thể thiếu giá trị thuộc tính
Ví dụ:
Phân loại bệnh nhân theo các bệnh của họ
Phân loại hỏng hóc thiết bị theo nguyên nhân
Phân loại người vay tiền theo khả năng chi trả
19



Ví dụ: ước lượng ñộ an toàn của một tài
khoản tín dụng

Table 13.1: Data from credit history of loan applications.

20


Figure:Một cây Qð cho bài toán ñánh giá ñộ an toàn của tín dụng.

21


Figure :Một

cây Qð ñơn giản hơn.

22


Figure : Một

Figure 13.16:

cây Qð ñang xây dựng.

Một cây Qð khác ñang xây dựng.

23




×