Tải bản đầy đủ (.ppt) (43 trang)

Lý Thuyết Học Thống Kê (Statistical Learning Theory)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (251.46 KB, 43 trang )

LÝ THUYẾT HỌC THỐNG KÊ
(statistical learning theory)


MÔ HÌNH TỔNG QUÁT CỦA HỌC TỪ VÍ
DỤ
• Giả sử có một quan hệ hàm giữa hai tập X và Y
f:XY
• Mục đích : tìm ra quan hệ hàm này khi được cho tập ví dụ

• Hàm f : hàm học hay hàm mục tiêu.

D = { (x i , yi ) / i = 1, 2,..., N}


• Mỗi đối tượng x biểu diễn bởi vectơ đặc trưng

• Hàm học giá trị thực : vấn đề hồi quy
(regression).
• Hàm học giá trị rời rạc : vấn đề phân lớp
(classification).
• Học với tập ví dụ gắn nhãn : học có giám sát (supervised learning).

x = ( x1 , x 2 ,..., x d )


Giả thiết của lý thuyết học thống kê
• Tồn tại một phân phối xác suất p(x,y) cố định và
chưa biết trên X x Y.
• Các ví dụ (x,y) được lấy mẫu độc lập theo cùng một
phân phối p(x,y)


Giả thiết i.i.d (independent and
identically distributed).
• Mục tiêu : sử dụng tập ví dụ huấn luyện để đưa ra
một hàm là xấp xỉ của hàm mục tiêu.
Học là vấn đề xấp xỉ hàm.


SAI SỐ VÀ SAI SỐ THỰC NGHIỆM.
Hàm sai lệch (loss function).


Giả sử (x,y) là một ví dụ, h : X  Y.



Ký hiệu L(y,h(x)) là độ đo sự sai khác giữa y và h(x)
L : hàm sai lệch (loss function).



Trường hợp hồi quy: Lôĩ bình phương (squared loss)

L(y, h(x)) = (y − h(x)) 2
• Đối với phân lớp : lỗi phân lớp (classification error)
L(y,h(x)) = 0 nếu y = h(x) và =1 nếu khác


• Sai số kỳ vọng hay lỗi kỳ vọng (expected risk /
expected loss) của hàm h:


R(h) = ∫∫ L(y, h(x))p(x, y)dxdy
Hàm xấp xỉ tốt nhất của hàm mục tiêu là hàm có sai số
kỳ vọng nhỏ nhất.

• Sai số thực nghiệm. Sai số thực nghiệm
(empirical risk) của hàm h:

1 N
R emp (h) = ∑ L(yi , h(x i ))
N i =1


• Ví dụ. Hàm lỗi tổng bình phương (sum-of-squares
error function):

1 N
2
R emp (h) = ∑ (yi − h(x i ))
N i =1
Lỗi phân lớp:

1 N
R emp (h) = ∑ δ(yi , h(x i ))
N i =1


NGUYÊN LÝ QUY NẠP CỰC
TIỂU SAI SỐ THỰC NGHIỆM
• Hàm mục tiêu cần học f được xấp xỉ bằng
hàm g :


g = arg min R emp (h)
h

Hai đường xấp xỉ từ 5 ví dụ.


• Giả sử H là một lớp hàm nào đó.

H : không gian các giả thuyết ( space of
hypotheses).
• Nguyên lý quy nạp : xấp xỉ hàm mục tiêu bởi
hàm g

g = arg min R emp (h)
h∈H

Nguyên lý quy nạp cực tiểu lỗi thực nghiệm
(empirical risk minimization inductive principle)


• Câu hỏi : Hàm g là xấp xỉ tốt của hàm cần học
không? Cụ thể hơn : sai số R(g) nhỏ không?
• Hàm g phụ thuộc vào lớp các hàm H, nó đóng vai trò
như là hướng quy nạp.
• Hàm mục tiêu không thuộc lớp hàm H, khó có thể g
là xấp xỉ tốt.
• Lớp hàm H chứa hàm mục tiêu, không có gì đảm bảo
hàm g có sai số nhỏ.



• Chúng ta hoàn toàn không biết gì về hàm mục tiêu,
chỉ có các thông tin trong tập huấn luyện D.
• Đưa ra lớp hàm H thích hợp cho một nhiệm vụ học ?
• Câu hỏi khác : ta không thể tính được sai số R(g) ,
làm thế nào đánh giá được khả năng tiên đoán chính
xác của nó ở ngoài tập ví dụ huấn luyện?


Thiết kế các thuật toán học dựa
trên nguyên lý quy nạp
• Đưa vào lớp các hàm H. Chẳng hạn:

H = { h(x) = w 0 + w1x1 + ... + w d x d }
w = (w 0 , w1 ,..., w d )
• Tìm vectơ tham biến sao cho sai số thực nghiệm nhỏ
nhất.
Học từ các ví dụ là vấn đề tìm kiếm tối ưu .


PHÂN LỚP BAYES VÀ
HÀM HỒI QUY
Lý thuyết xác suất và thống kê +
Lý thuyết quyết định (decision theory) 
khung làm việc để thiết kế và phân tích các thuật
toán học


Phân lớp Bayes
Hàm mục tiêu cần học :


f : X → C = { c1 ,..., c k }
• P(c ) : xác suất tiên nghiệm (prior probability)
• P(c / x): xác suất hậu nghiệm (posterior probability)
• p(x) : Hàm mật độ xác suất của các đối tượng x
• p(x / c) : Hàm mật độ xác suất của các đối tượng trong lớp c
:mật độ xác suất điều kiện trên lớp (classconditional probability density function).


Luật quyết định Bayes
Phân lớp Bayes (Bayes classifier) :
đối tượng x được phân vào lớp c có xác suất hậu
nghiệm lớn nhất :

c = arg max P ( ci / x )
ci = c1 ,...,c k


Phân lớp Bayes là
phân lớp tối ưu


Phân lớp Bayes cho sai số kỳ vọng nhỏ nhất.



Phân lớp Bayes cho xác suất lỗi nhỏ nhất.


Phân lớp Bayes :

Cách khác : đối tượng x được phân vào lớp c sao
cho tích P(x / c)P(c) là lớn nhất:

c = arg max p ( x / ci ) P ( ci )
i =1,...,k
.

Ví dụ . Phân các bệnh nhân thành hai lớp ung thư và không
ung thư theo kết quả xét nghiệm (dương/âm)
Giả sử:
P(cancer)=0,008), P(noncancer)=0,992

P ( ⊕ / cancer ) = 0, 98; P ( ⊕ / nocancer ) = 0, 03


Các cách tiếp cận
phân lớp Bayes
1. Các mô hình sinh (generative models):
• Đưa ra mô hình mô tả các mật độ xác suất
p(x /c) và các xác suất P(c ) . Đánh giá các đại
lượng đó từ các dữ liệu huấn luyện.
• Tương đương, đưa ra mô hình mô tả phân
phối kết hợp p(x,c) và đánh giá nó từ dữ liệu.
2. Các mô hình phân biệt (discriminative
models):
Mô hình hoá trực tiếp các xác suất hậu
nghiệm P(c / x) và đánh giá chúng từ dữ liệu.


Hàm hồi quy

• Cần đánh giá một hàm mục tiêu thực:
f: X Y=R
• Giả sử h là một hàm xấp xỉ của hàm mục tiêu, lỗi kỳ
vọng của hàm h là:

R ( h ) = ∫∫  h ( x ) − y  p ( x, y ) dxdy
2

• Mục đích : tìm hàm h sao cho lỗi kỳ vọng
trên là nhỏ nhất.


• Từ các kết quả cơ bản của phép tính biến phân (the
calculus of variations),

h(x) = ∫ yp(y / x)dy = E[y / x]
Trong đó
p( y / x) =
p( x) =

p ( x, y )
p( x)

∫ p ( x, y ) dy

Hàm h(x) : hàm hồi quy (regression function).


Hai hướng tiếp cận để giải quyết
vấn đề hồi quy

• Đưa ra mô hình biểu diễn hàm mật độ xác suất kết
hợp p(x,y) và đánh giá hàm mật độ từ tập dữ liệu
huấn luyện.
• Cách thứ hai : đưa ra mô hình xác suất biểu diễn
trực tiếp hàm mật độ xác suất p(y/x), rồi đánh giá
mật độ này từ dữ liệu.


HỌC KHÔNG CÓ GIÁM SÁT
Học từ tập dữ liệu không gắn nhãn :

D = { x i / i = 1, 2,..., N}
1. Đánh giá mật độ.
Giả thiết : tập dữ liệu được sinh ra từ hàm mật độ
xác suất p(x)
Nhiệm vụ : đánh giá hàm mật độ đó từ tập dữ liệu.
2. Phân cụm dữ liệu (clustering).
3. Rút gọn chiều dữ liệu. The curse of dimensionality.
4. Phát hiện các điểm dữ liệu ngoại lai (outlier).


Các phương pháp đánh giá mật độ
• Giả thiết : hàm mật độ xác suất sinh ra tập
dữ liệu có dạng hàm phụ thuộc vectơ tham
biến

p ( x / θ ) , θ = (θ1 ,..., θk )




Hai phương pháp đánh giá:
Phương pháp maximum-likelihood
Phương pháp Bayes


PHƯƠNG PHÁP MAXIMUM-LIKELIHOOD
N

p ( D / θ) = ∏ p ( xi / θ)
i =1

N

L ( θ) = ∏ p ( xi / θ)

Hàm likelihood

i =1

Đánh giá maximum-likelihood của vectơ tham biến là
vectơ :

θML = arg max L ( θ )
θ

N

Hàm log-likelihood

L ( θ ) = ∑ ln p ( x i / θ )

i =1


Tìm vectơ tham biến ML là vấn đề tìm kiếm tối ưu :
• Có thể sử dụng các phương pháp kinh điển của
phép tính vi phân .
• Sử dụng kỹ thuật tìm kiếm gradient
• Vectơ ML thoả mãn một số ràng buộc : có thể sử
dụng phương pháp nhân tử Lagrange (Lagrange
Multipliers).
• Mô hình chứa biến ẩn: Thuật toán EM
• Các kỹ thuật tìm kiếm tối ưu khác.


×