Tải bản đầy đủ (.pdf) (59 trang)

Luận Văn Thạc Sĩ Một Số Tiêu Chuẩn Lựa Chọn Mô Hình .Pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (452.44 KB, 59 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM THỊ HOA

MỘT SỐ TIÊU CHUẨN LỰA CHỌN MƠ HÌNH

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2013

z


ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM THỊ HOA

MỘT SỐ TIÊU CHUẨN LỰA CHỌN MƠ HÌNH

Chun ngành:

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC

Mã số : 60 46 15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN MẠNH CƯỜNG



Hà Nội - 2013

z


MỞ ĐẦU
Lựa chọn mơ hình (Model selection) là một bài toán cơ bản của thống kê
cũng như nhiều ngành khoa học khác như học máy (machine learning), kinh tế
lượng (econometrics), ... Theo R. A. Fisher có 3 bài tốn chính trong thống kê
suy luận và dự báo gồm
- Xác định mơ hình (model specification)
- Ước lượng tham số (estimation of model parameters)
- Dự báo (prediction)
Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán
sau với giả thiết là mơ hình đã biết. Sau khi xuất hiện cơng trình của Akaike
(1973) thì bài tốn lựa chọn mơ hình thu hút được sự quan tâm của cộng đồng
làm thống kê.
Với một bộ dữ liệu đưa ra, có thể đặt vào nó rất nhiều mơ hình và với các
mơ hình đưa ra, mơ hình nào là tốt nhất? Để trả lời cho câu hỏi trên, người ta
đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp như tiêu chuẩn
thơng tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian (BIC)... Việc
lựa chọn một mơ hình phù hợp là trung tâm cho tất cả các công tác thống kê
với dữ liệu. Lựa chọn các biến để sử dụng trong một mơ hình hồi quy là một
trong những ví dụ quan trọng. Luận văn của tơi trình bày hai tiêu chuẩn thơng
tin quan trọng đó là tiêu chuẩn thơng tin của Akaike và tiêu chuẩn thông tin
của Bayesian. Luận văn được chia làm ba chương
Chương 1. Kiến thức chuẩn bị
Trong chương này, tơi trình bày các kiến thức cơ bản về lượng thông tin Fisher,
ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyến

tính, hồi quy Poisson và hồi quy logistic.
Chương 2. Một số tiêu chuẩn lựa chọn mơ hình
Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ giữa ước lượng
hợp lí cực đại và khoảng cách Kullback-Leibler, định nghĩa AIC và mối liên hệ
giữa AIC và khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh
cho hồi quy tuyến tính và chuỗi thời gian tự hồi quy, trình bày nguồn gốc và
định nghĩa của BIC.
Chương 3. Áp dụng
Trong chương này giới thiệu về phần mềm R, đưa ra một bộ dữ liệu cụ thể về bốn
phép đo trên hộp sọ của người Ai cập ở năm thời kỳ khác nhau và được lấy trong
website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”,

i

z


áp dụng với năm mơ hình ứng cử viên và dùng phần mềm R chạy để tìm giá
trị AIC và BIC cho mỗi trong số năm mơ hình ứng cử viên để tìm ra mơ hình
tốt nhất theo AIC và BIC đối với bộ dữ liệu này, code R cũng được tham khảo
trong website trên .
Do thời gian và trình độ cịn hạn chế nên luận văn khơng tránh khỏi những
thiếu sót, tác giả hy vọng sẽ nhận được nhiều ý kiến đóng góp từ các thầy cơ
giáo và bạn đọc để luận văn được hoàn chỉnh hơn.

ii

z



LỜI CẢM ƠN
Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, Trường Đại học
Khoa học Tự nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh
Cường, tơi đã hồn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa
chọn mơ hình”.
Trong suốt q trình học tập, triển khai nghiên cứu đề tài, tôi đã nhận được
rất nhiều sự giúp đỡ của các thầy cô trong bộ môn Xác suất thống kê, các thầy
cơ trong khoa Tốn - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội, đặc biệt là TS. Trần Mạnh Cường.
Tơi xin bày tỏ lịng biết ơn chân thành và sâu sắc tới TS. Trần Mạnh Cường
– người đã tận tình chỉ bảo, giúp đỡ tơi trong q trình nghiên cứu đề tài. Tôi
xin gửi lời cảm ơn tới Ban giám hiệu, Phịng sau đại học, các thầy cơ trong khoa
Tốn - Cơ - Tin học nói chung và các thầy cô trong bộ môn xác suất thống kê Trường Đại học Khoa học Tự nhiên nói riêng đã tạo những điều kiện thuận lợi
nhất để tơi có thể hoàn thành luận văn này.
Hà nội, tháng 02 năm 2013

iii

z


Danh mục các kí hiệu

AIC
AICc

a.s.
BIC
BIC∗
BICexact

h(.)
H(.)

KL
L, Ln
`, `n
Np (ξ,

P

Op (n−1 )

Var
d



p




TIC
Tr


)

Tiêu chuẩn thông tin của Akaike
AIC hiệu chỉnh

hầu chắc chắn
tiêu chuẩn thơng tin Bayesian
xấp xỉ của BIC
BIC chính xác
tỷ lệ nguy hiểm
tỷ lệ nguy hiểm tích lũy
khoảng cách kullback - Leibler
hàm hợp lý
loga hàm hợp lý
phân phối chuẩn của p biến ngẫu nhiên với vectơ trung bình ξ và
P
ma trận phương sai
Xn = Op (n−1 ) nghĩa là Xn /n−1 hội tụ tới 0 theo xác suất
phương sai
hội tụ theo phân phối
hội tụ theo xác suất
tiêu chuẩn thông tin Takeuchi
vết của ma trận
kết thúc chứng minh hoặc ví dụ.

iv

z


Mục lục
Lời cảm ơn

iii


1 Kiến thức chuẩn bị
1.1 Lượng thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . . . . . .
1.3 Hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Giới thiệu mơ hình hồi quy tuyến tính cổ điển . . . . . .
1.3.2 Phương pháp ước lượng bình phương cực tiểu . . . . . .
1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực
tiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Hồi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Hồi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

1
1
2
4
4
5

.
.
.

7
7

8

2 Một số tiêu chuẩn lựa chọn mơ hình
2.1 Tiêu chuẩn thơng tin Akaike . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Khoảng cách Kullback- Leibler . . . . . . . . . . . . . . . .
2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler
2.1.3 Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 AIC và khoảng cách Kullback- Leibler . . . . . . . . . . . .
2.1.5 Tiêu chuẩn Takeuchi . . . . . . . . . . . . . . . . . . . . . .
2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính . . . . . . . . . . .
2.2 Tiêu chuẩn thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . .
2.2.1 Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Định nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Ai là người viết ’The Quiet Don’ ? . . . . . . . . . . . . . .

10
10
10
11
17
19
24
25
28
28
30
35

3 Áp dụng
38

3.1 Giới thiệu về phần mềm R . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Áp dụng với bộ số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 38
v

z


MỤC LỤC

Kết luận
46
Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tài liệu tham khảo

51

vi

z


Chương 1

Kiến thức chuẩn bị
1.1

Lượng thông tin Fisher

Định nghĩa 1.1.1. Cho X là biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân
bố phụ thuộc vào tham số

chưa
biết θ ∈ Θ, với mật độ f (x, θ), θ ∈ Θ. Giả sử rằng
R
df (x,θ)

f (x, θ) khả vi theo θ và

dλ < ∞. Khi đó lượng thơng tin Fisher về tham
X

số θ chứa trong X là
IX (θ) = Eθ [

dlnf (X, θ)


]2 .

Dễ dàng chỉ ra rằng Eθ [ dlnfdθ(X,θ) ] = 0. Do đó
dlnf (X, θ)

]

Với một điều kiện không quá chặt đặt lên f (x, θ) người ta cũng chứng minh được
IX (θ) = V ar[

d2 lnf (X, θ)
IX (θ) = −E[
]
dθ2


Chú ý: Nếu X1 , X2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham
số θ thì mật độ đồng thời của X1 , X2 là:
f (x1 , x2 , θ) = fX1 (θ).fX2 (θ)

Nên:

I(X1 ,X2 ) (θ) = V ar[

dlnf (X1 , X2 , θ)


= IX1 (θ) + IX2 (θ)

] = V ar[

dlnfX1 (X1 , θ)


] + V ar[

dlnfX2 (X2 , θ)


]

Do đó nếu X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher
về tham số θ chứa trong mẫu là:
1


z


Chương 1. Kiến thức chuẩn bị

I(θ) = I(X1 ,X2 ,...,Xn ) (θ) = nIX1 (θ)

Ví dụ 1.1.1. Tính lượng thơng tin trong mẫu đơn giản (X1 , X2 , . . . , Xn ) lấy từ
họ phân bố chuẩn với tham số (µ, σ 2 ) đối với tham số σ 2 .
Ta có hàm mật độ đồng thời của X1 , X2 , . . . , Xn là
n
1
1 X
p(X, µ, σ ) =
(Xi − µ)2 ]
n exp[−
2
2

(2πσ ) 2
2

i=1

n
n
n
1 X
2
lnp(X, µ, σ ) = − ln2π − lnσ − 2

(Xi − µ)2
2
2

2

i=1

∂ lnp(X, µ, σ 2 )
n
1
=− 2 + 4
2
∂σ



n
X

(Xi − µ)2

i=1

∂ lnp(X, µ, σ 2 )
∂ lnp(X, µ, σ 2 ) 2
)
=
V
ar(

)
⇒ IX (σ 2 ) = E(
∂σ 2
∂σ 2
n
n
= 8 V ar[(X1 − µ)2 ] = 4 .



Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số
θ = (θ1 , θ2 , . . . , θN )T thì ma trận thơng tin Fisher có dạng
[I(θ)]i,j = Eθ [

∂ lnf (X, θ) ∂ lnf (X, θ)
.
].
∂θi
∂θj

Đây là ma trận đối xứng, xác định khơng âm. Với một số điều kiện chính quy
người ta chỉ ra được rằng
[I(θ)]i,j = −Eθ [

1.2

∂ 2 lnf (X, θ)
].
∂θi ∂θj


Ước lượng hợp lý cực đại

Cho một mơ hình thống kê (X, B, Pθ , θ ∈ Θ), trong đó Θ là khoảng mở trong
khơng gian Euclide k chiều và Pθ  µ với µ là độ đo σ− hữu hạn trên B. Đặt
p(x, θ) =

2

z

dPθ



Chương 1. Kiến thức chuẩn bị

Nếu p(xi , θ) là hàm mật độ theo nghĩa rộng của biến ngẫu nhiên Xi thì p(x, θ) =
Qn
i=1 p(xi , θ)

Định nghĩa 1.2.1. Hàm L(X, θ) =
θ với X cố định gọi là hàm hợp lý.

Qn

i=1 p(Xi , θ)

được xét như hàm của tham ẩn

ˆ

Định nghĩa 1.2.2. Thống kê θ(X)
: X −→ Θ được gọi là ước lượng hợp lý cực
đại của tham ẩn θ nếu:
ˆ
L(X, Θ(X))
= sup L(X, θ)
θ∈Θ

Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng.
• Nếu θ ∈ R1 , ta giải phương trình sau gọi là phương trình hợp lý
∂L(X, θ)
= 0;
∂θ

phương trình trên tương đương với phương trình
∂ ln L(X, θ)
= 0.
∂θ


Nếu θ = (θ1 , . . . , θp ) thì phương trình hợp lý là
∂L(X, θ)
= 0; i = 1, p
∂θi

tương đương với phương trình
∂ lnL(X, θ)
= 0; i = 1, p
∂θi


Nghiệm của phương trình hợp lý gọi là ước lượng hợp lý cực đại. Để xét xem
nghiệm của phương trình hợp lý có là ước lượng hợp lý cực đại khơng thì khơng
dễ dàng. Người ta chứng minh được rằng nếu nghiệm của phương trình hợp lý
khơng phải là hằng số thì nghiệm đó sẽ làm cực đại hàm hợp lý, do đó nó là ước
lượng hợp lý cực đại.
Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn
N (µ; σ 2 ). Tìm ước lượng hợp lý cực đại của (µ; σ 2 ).
Ta có
L(X, µ, σ 2 ) =

P
2
1
− 2σ12 n
i=1 (Xi −µ) .
.e
n/2
2
(2πσ )

3

z


Chương 1. Kiến thức chuẩn bị

Khi đó phương trình hợp lý là
(


∂ lnL(X,µ,σ 2 )
∂µ
∂ lnL(X,µ,σ 2 )
∂σ 2

Pn

i=1 (Xi − µ) = 0
Pn
− 2σn2 + 2σ1 4 i=1 (Xi

=
=

− µ)2 = 0

Suy ra
(

µ
ˆ=

1
n

σ
ˆ2 =

1.3
1.3.1


Pn
Xi = X
Pi=1
n
1

n

i=1 (Xi

− X)2 = s2

Hồi quy tuyến tính
Giới thiệu mơ hình hồi quy tuyến tính cổ điển

Giả sử X1 , . . . , Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc
cần dự báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ
yếu vào các yếu tố sau:
• X1 là diện tích sử dụng (m2 ),
• X2 là vị trí vùng,
• X3 là giá của năm qua,
• X4 là chất lượng xây dựng (giá xây dựng trên một m2 ).
Sự phụ thuộc giữa biến Y theo các biến X1 , . . . , Xk nói chung là rất phức tạp.
Tuy nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mơ hình
hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi
(nghĩa là Y là một biểu thức bậc nhất của X1 , . . . , Xk ) và sai số ngẫu nhiên ε.
Như vậy,
Y = β0 + β1 X1 + . . . + βk Xk + ε,


trong đó βi , i = 0, k là các hệ số chưa biết.
Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , . . . , Xk , Y.
Giả sử các số liệu quan sát tuân theo mơ hình sau:

y1 = β0 + β1 x11 + . . . + βk x1k + ε1
y2 = β0 + β1 x21 + . . . + βk x2k + ε2
.....................................................
yn = β0 + β1 xn1 + . . . + βk xnk + εn

4

z


Chương 1. Kiến thức chuẩn bị

trong đó các sai số ε1 , . . . , εn thỏa mãn 3 điều kiện sau:
(i) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống),
(ii) D(εj ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau)
(iii) cov(εi , εj ) = 0 với mọi i 6= j = 1, n (các sai lệch từng bước khơng ảnh hưởng
đến nhau)
Mơ hình trên có thể viết dưới dạng ma trận như sau:
 
y1



1 x11 . . . x1k

 

β0

 
ε1

   ε 
 y  1 x
21 . . . x2k  β1 
 2
 2 
+ . 
=



 ..   .. ..
.
.
 .   . . . . . ..   ..   .. 
yn

1 xn1 . . . xnk

βk

εn

hoặc đơn giản hơn

(1.1)


Y = Xβ + ε,

ở đó


1 x11 . . . x1k



1 x

21 . . . x2k 

X = .
;
 .. ... . . . ... 
1 xn1 . . . xnk
Y = [y1 , y2 , . . . , yn ]T ; β = [β0 , β1 , . . . , βk ]T ; ε = [ε1 , ε2 , . . . , εn ]T ;


1.E(ε) = 0,
2.cov(ε) = E(εεT ) = σ 2 In .
1.3.2

(1.2)

Phương pháp ước lượng bình phương cực tiểu

Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị

quan sát hãy ước lượng vectơ tham số β và σ 2 .
Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và
5

z


Chương 1. Kiến thức chuẩn bị

b1 xj1 + . . . + bk xjk sẽ bị một độ lệch
yj − b0 − (b1 xj1 + . . . + bk xjk ),

nói chung độ lệch này sẽ khác khơng.
Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ
b sao cho

S(b) =

n
X

(yj − b0 − b1 xj1 − . . . − bk xjk )2

j=1

= (Y − Xb)T (Y − Xb) → min.

Đại lượng βˆ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β , cịn
εˆj = yj − (βˆ0 + βˆ1 xj1 + . . . + βˆk xjk ), j = 1, n


gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo
X1 , . . . , Xk là tuyến tính, nên phương trình
Yˆ = βˆ0 + βˆ1 x1 + . . . + βˆk xk

được gọi là phương trình hồi quy tuyến tính mẫu.
Ta có kết quả sau:
Đặt
yˆj = βˆ0 + βˆ1 xj1 + . . . + βˆk xjk
Yˆ = (ˆ
y1 , . . . , yˆn )T .

Mệnh đề 1.3.1. Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước
lượng bình phương cực tiểu có dạng:
βˆ = (X T X)−1 X T Y

Khi đó
Yˆ = X βˆ = X(X T X)−1 Y = HY,

trong đó,
H = X(X T X)−1 X T ; εˆ = Y − Yˆ = (In − H)Y,

6

z


Chương 1. Kiến thức chuẩn bị

thỏa mãn

X T εˆ = 0

và Yˆ T εˆ = 0, (βˆT X T εˆ = 0).

Tổng các phần dư
n
X

εˆ2j = εˆT εˆ = Y T Y − Y T X βˆ

j=1

1.3.3

Tính chất ước lượng bằng phương pháp bình phương cực tiểu

1) Ước lượng βˆ là ước lượng không chệch với
ˆ = σ 2 (X T X)−1 ,
E βˆ = β; cov(β)

2) Phần dư εˆ có tính chất: εˆ = 0 (điều này cũng tương đương với Y = Yˆ )
E(ˆ
ε) = 0; cov(ˆ
ε) = σ 2 (I − H),

P
3) σˆ 2 = εˆT εˆ/(n − k − 1) = n1 εˆ2j /(n − k − 1) là ước lượng không chệch của σ 2 ,
tức là E(ˆσ 2 ) = σ 2 ,
4) βˆ và εˆ là không tương quan
ˆ εˆ) = 0, cov(β,

ˆ σ
cov(β,
ˆ2) = 0

Định lí 1.3.2. (Định lý Gauss về ước lượng bình phương cực tiểu)
1.Trong mơ hình tuyến tính cổ điển (1.1) và (1.2) với hạng đầy đủ k + 1 ≤ n
thì ước lượng
cT βˆ = c0 βˆ0 + c1 βˆ1 + . . . + ck βˆk

của cT β = c0 β0 + c1 β1 + . . . + ck βk là ước lượng không chệch với phương sai bé nhất
so với bất kỳ ước lượng tuyến tính khơng chệch dạng aT Y = a1 y1 + . . . + an yn .
2. Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT βˆ là một ước
lượng khơng chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.

1.4

Hồi quy Poisson

Trong mơ hình hồi quy, khi biến đáp ứng là biến đếm người ta thường sử
dụng mơ hình hồi quy poisson (hay cịn gọi là mơ hình loga tuyến tính). Trong
7

z


Chương 1. Kiến thức chuẩn bị

mơ hình này biến đáp ứng Y được giả thiết là có phân bố Poisson và phụ thuộc
vào các biến độc lập theo mơ hình


ln E(Y | x) = a1 x1 + a2 x2 + . . . + ak xk + a0
= θT x; θ = (a0 , a1 , . . . , ak )T ; x = (1, x1 , . . . , xk )T .

Người ta ước lượng các tham số của mơ hình dựa trên ý tưởng phương pháp
hợp lý cực đại như sau:
Khi biết x, θ thì
T

E(Y | x) = eθ x .
T

Do đó mật độ của phân bố Poisson là (λ = eθ x )
T

eyθ x .e−e
λy
P (y | x; θ) = e−λ . =
y!
y!

θT x

.

Giả sử ta có bộ dữ liệu gồm m vectơ xi ∈ R, i = 1, m và m giá trị y1 , y2 , . . . , ym ∈ R.
Với mỗi θ, xác suất thu được bộ dữ liệu này là
P (y1 , . . . , ym | x1 , . . . , xm , θ) =

m y θT x −eθ

Y
e i i .e

yi !

i=1

Tx
i

.

Theo phương pháp hợp lý cực đại ta chọn tham số θ cực đại xác suất trên, tức
là tìm θˆ
θˆ = argmax`(θ, X, Y )

trong đó:
`(θ, X, Y ) = ln L(θ | X, Y ) =

m
X

[yi θT xi − eθ

T

xi

− ln(yi !)]


i=1

L(θ | X, Y ) =

m y θT x −eθ
Y
e i i .e
i=1

1.5

Tx

i

yi !

Hồi quy logistic

Khi biến phụ thuộc là biến nhị giá (thất nghiệp hay khơng thất nghiệp, đã
lập gia đình hay chưa lập gia đình, có tội hay vơ tội,...) người ta thường dùng
8

z


Chương 1. Kiến thức chuẩn bị

mơ hình hồi quy logistic. Trong mơ hình hồi quy logistic người ta giả sử rằng
log(


π
) = β T X,
1−π

trong đó:
π là xác suất nhận giá trị 1 của biến phụ thuộc Y, tức
(
Y =

xác suất π
0 xác suất 1 − π
1

β = (β0 , β1 , . . . , βk )T ; X = (1, x1 , . . . , xk )T

Dựa trên các quan sát (Yi , Xi ) = (yi , xi1 , xi2 , . . . , xik ) = (yi , xiT ) người ta cần ước
lượng β.
Hàm xác suất đồng thời là:
g(y1 , . . . , yn ) =

n
Y

fi (Yi ) =

i=1

n
Y


πiYi (1 − πi )1−Yi ,

i=1

trong đó
T

i

eβ x
πi = P (Yi = 1 | x ) =
T i
1 + eβ x
i

Do đó
ln[g(Y1 , . . . , Yn )] =

n
X

T

i

Yi β X −

i=1


i=1

= `(β)

Ước lượng hợp lý cực đại của β là
βˆ = argmax`(β)
β

9

z

n
X

ln[1 + eβ

T

Xi

]


Chương 2

Một số tiêu chuẩn lựa chọn mơ hình
Dữ liệu có thể được mơ phỏng bằng những cách khác nhau. Có thể có những
phương pháp đơn giản hơn mà cũng có thể có nhiều tham số hơn. Khi có nhiều
covarian được đo chúng ta có thể sử dụng tất cả chúng trong mơ hình, hoặc chỉ

một vài trong số chúng. Với một danh sách các mơ hình ứng cử viên, lựa chọn
mơ hình nào là tốt nhất? Để lựa chọn mơ hình tốt nhất người ta đưa ra các tiêu
chuẩn thơng tin. Trong chương này sẽ trình bày hai tiêu chuẩn thông tin quan
trọng là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin Bayesian.

2.1
2.1.1

Tiêu chuẩn thông tin Akaike
Khoảng cách Kullback- Leibler

Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullback- Leibler
là một ”độ đo” không đối xứng dùng để đo sự khác nhau giữa hai phân bố P và
Q. Cụ thể hơn, độ lệch Kullback- Leibler của Q khỏi P ký hiệu là KL(P k Q) là
độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn khoảng
cách Kullback- Leibler đo số bit trung bình dư ra để mã hóa một mẫu khi dùng
Q thay vì dùng P. Khái niệm này xuất hiện trong lý thuyết thông tin và được
đưa ra bởi Solomon Kullback và Richard Leibler năm 1951.

Định nghĩa 2.1.1. (i) Cho các phân phối xác suất rời rạc P và Q. Khoảng
cách Kullback- Leibler của Q từ P được định nghĩa là
KL(P k Q) =

X
i

P (i) ln

P (i)
Q(i)


(ii) Cho các phân phối xác suất liên tục P và Q. Khoảng cách Kullback- Leibler
của Q từ P được định nghĩa là tích phân
10

z


Chương 2. Một số tiêu chuẩn lựa chọn mơ hình

Z

+∞

KL(P k Q) =

p(x) ln
−∞

p(x)
dx
q(x)

ở đó p và q là kí hiệu mật độ của P và Q.

(iii) Tổng quát hơn, nếu P và Q là các độ đo xác suất trên một tập X và Q liên
tục tuyệt đối theo P, khi đó khoảng cách Kullback- Leibler từ P tới Q được
định nghĩa là
Z
dP

dP
KL(P k Q) =
ln
X

dQ

dP
là đạo hàm Radon-Nikodym của Q theo P.
ở đó dQ
Nếu µ là một độ đo nào đó trên X mà p = dP
dµ và q =
khoảng cách Kullback- Leibler từ P tới Q là
Z
p
KL(P k Q) =
p ln dµ
X

dQ


tồn tại, khi đó

q

Tính chất
(i) KL(P k Q) ≥ 0
KL(P k Q) = 0 ⇔ P = Q hầu khắp nơi.
(ii) Khoảng cách Kullback- Leibler là định nghĩa tốt cho phân phối liên tục và

bất biến dưới các phép biến đổi tham số.
(iii) Khoảng cách Kullback- Leibler là cộng tính đối với các phân phối độc lập.
Nếu P1 , P2 là các phân phối độc lập với P (x, y) = P1 (x).P2 (y) và Q(x, y) =
Q1 (x).Q2 (y) khi đó
KL(P k Q) = KL(P1 k Q1 ) + KL(P2 k Q2 )
(iv) Khoảng cách Kullback- Leibler của phân phối Q từ phân phối P không phải
là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng
Q để xấp xỉ P.
2.1.2

Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler

Mục tiêu của phần này là tìm hiểu về mối liên hệ giữa phương pháp hợp lý
cực đại và khoảng cách Kullback- Leibler trong hai trường hợp độc lập cùng
11

z


×