Tải bản đầy đủ (.pdf) (59 trang)

MỘT số TIÊU CHUẨN lựa CHỌN mô HÌNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405 KB, 59 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM THỊ HOA

MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM THỊ HOA

MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH

Chuyên ngành:

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC

Mã số : 60 46 15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN MẠNH CƯỜNG

Hà Nội - 2013




MỞ ĐẦU
Lựa chọn mô hình (Model selection) là một bài toán cơ bản của thống kê
cũng như nhiều ngành khoa học khác như học máy (machine learning), kinh tế
lượng (econometrics), ... Theo R. A. Fisher có 3 bài toán chính trong thống kê
suy luận và dự báo gồm
- Xác định mô hình (model specification)
- Ước lượng tham số (estimation of model parameters)
- Dự báo (prediction)
Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán
sau với giả thiết là mô hình đã biết. Sau khi xuất hiện công trình của Akaike
(1973) thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cộng đồng
làm thống kê.
Với một bộ dữ liệu đưa ra, có thể đặt vào nó rất nhiều mô hình và với các
mô hình đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi trên, người ta
đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp như tiêu chuẩn
thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian (BIC)... Việc
lựa chọn một mô hình phù hợp là trung tâm cho tất cả các công tác thống kê
với dữ liệu. Lựa chọn các biến để sử dụng trong một mô hình hồi quy là một
trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn thông
tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin
của Bayesian. Luận văn được chia làm ba chương
Chương 1. Kiến thức chuẩn bị
Trong chương này, tôi trình bày các kiến thức cơ bản về lượng thông tin Fisher,
ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyến
tính, hồi quy Poisson và hồi quy logistic.
Chương 2. Một số tiêu chuẩn lựa chọn mô hình
Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ giữa ước lượng
hợp lí cực đại và khoảng cách Kullback-Leibler, định nghĩa AIC và mối liên hệ

giữa AIC và khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh
cho hồi quy tuyến tính và chuỗi thời gian tự hồi quy, trình bày nguồn gốc và
định nghĩa của BIC.
Chương 3. Áp dụng
Trong chương này giới thiệu về phần mềm R, đưa ra một bộ dữ liệu cụ thể về bốn
phép đo trên hộp sọ của người Ai cập ở năm thời kỳ khác nhau và được lấy trong
website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”,

i


áp dụng với năm mô hình ứng cử viên và dùng phần mềm R chạy để tìm giá
trị AIC và BIC cho mỗi trong số năm mô hình ứng cử viên để tìm ra mô hình
tốt nhất theo AIC và BIC đối với bộ dữ liệu này, code R cũng được tham khảo
trong website trên .
Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những
thiếu sót, tác giả hy vọng sẽ nhận được nhiều ý kiến đóng góp từ các thầy cô
giáo và bạn đọc để luận văn được hoàn chỉnh hơn.

ii


LỜI CẢM ƠN
Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, Trường Đại học
Khoa học Tự nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh
Cường, tôi đã hoàn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa
chọn mô hình”.
Trong suốt quá trình học tập, triển khai nghiên cứu đề tài, tôi đã nhận được
rất nhiều sự giúp đỡ của các thầy cô trong bộ môn Xác suất thống kê, các thầy
cô trong khoa Toán - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học

Quốc gia Hà Nội, đặc biệt là TS. Trần Mạnh Cường.
Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới TS. Trần Mạnh Cường
– người đã tận tình chỉ bảo, giúp đỡ tôi trong quá trình nghiên cứu đề tài. Tôi
xin gửi lời cảm ơn tới Ban giám hiệu, Phòng sau đại học, các thầy cô trong khoa
Toán - Cơ - Tin học nói chung và các thầy cô trong bộ môn xác suất thống kê Trường Đại học Khoa học Tự nhiên nói riêng đã tạo những điều kiện thuận lợi
nhất để tôi có thể hoàn thành luận văn này.
Hà nội, tháng 02 năm 2013

iii


Danh mục các kí hiệu

AIC
AICc

a.s.
BIC
BIC∗
BICexact
h(.)
H(.)

KL
L, Ln
,

n

Np (ξ,

Op (n−1 )

Var
d



p




TIC
Tr

)

Tiêu chuẩn thông tin của Akaike
AIC hiệu chỉnh
hầu chắc chắn
tiêu chuẩn thông tin Bayesian
xấp xỉ của BIC
BIC chính xác
tỷ lệ nguy hiểm
tỷ lệ nguy hiểm tích lũy
khoảng cách kullback - Leibler
hàm hợp lý
loga hàm hợp lý
phân phối chuẩn của p biến ngẫu nhiên với vectơ trung bình ξ và
ma trận phương sai

Xn = Op (n−1 ) nghĩa là Xn /n−1 hội tụ tới 0 theo xác suất
phương sai
hội tụ theo phân phối
hội tụ theo xác suất
tiêu chuẩn thông tin Takeuchi
vết của ma trận
kết thúc chứng minh hoặc ví dụ.

iv


Mục lục
Lời cảm ơn

iii

1 Kiến thức chuẩn bị
1.1 Lượng thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . . . . . .
1.3 Hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển . . . . . .
1.3.2 Phương pháp ước lượng bình phương cực tiểu . . . . . .
1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực
tiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Hồi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Hồi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.

.
.

1
1
2
4
4
5

.
.
.

7
7
8

2 Một số tiêu chuẩn lựa chọn mô hình
2.1 Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Khoảng cách Kullback- Leibler . . . . . . . . . . . . . . . .
2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler
2.1.3 Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 AIC và khoảng cách Kullback- Leibler . . . . . . . . . . . .
2.1.5 Tiêu chuẩn Takeuchi . . . . . . . . . . . . . . . . . . . . . .
2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính . . . . . . . . . . .
2.2 Tiêu chuẩn thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . .
2.2.1 Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Định nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Ai là người viết ’The Quiet Don’ ? . . . . . . . . . . . . . .


10
10
10
11
17
19
24
25
28
28
30
35

3 Áp dụng
38
3.1 Giới thiệu về phần mềm R . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Áp dụng với bộ số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 38
v


MỤC LỤC

Kết luận
46
Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tài liệu tham khảo

51


vi


Chương 1

Kiến thức chuẩn bị
1.1

Lượng thông tin Fisher

Định nghĩa 1.1.1. Cho X là biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân
bố phụ thuộc vào tham số chưa biết θ ∈ Θ, với mật độ f (x, θ), θ ∈ Θ. Giả sử rằng
df (x,θ)
f (x, θ) khả vi theo θ và
dλ < ∞. Khi đó lượng thông tin Fisher về tham

X

số θ chứa trong X là
IX (θ) = Eθ [

dlnf (X, θ)


]2 .

Dễ dàng chỉ ra rằng Eθ [ dlnfdθ(X,θ) ] = 0. Do đó
dlnf (X, θ)

]


Với một điều kiện không quá chặt đặt lên f (x, θ) người ta cũng chứng minh được
IX (θ) = V ar[

d2 lnf (X, θ)
IX (θ) = −E[
]
dθ2

Chú ý: Nếu X1 , X2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham
số θ thì mật độ đồng thời của X1 , X2 là:
f (x1 , x2 , θ) = fX1 (θ).fX2 (θ)

Nên:

I(X1 ,X2 ) (θ) = V ar[

dlnf (X1 , X2 , θ)


= IX1 (θ) + IX2 (θ)

] = V ar[

dlnfX1 (X1 , θ)


] + V ar[

dlnfX2 (X2 , θ)



]

Do đó nếu X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher
về tham số θ chứa trong mẫu là:
1


Chương 1. Kiến thức chuẩn bị

I(θ) = I(X1 ,X2 ,...,Xn ) (θ) = nIX1 (θ)

Ví dụ 1.1.1. Tính lượng thông tin trong mẫu đơn giản (X1 , X2 , . . . , Xn ) lấy từ
họ phân bố chuẩn với tham số (µ, σ 2 ) đối với tham số σ 2 .
Ta có hàm mật độ đồng thời của X1 , X2 , . . . , Xn là
1
1
p(X, µ, σ ) =
n exp[−
2
2σ 2
(2πσ ) 2

n

2

(Xi − µ)2 ]
i=1


n
n
1
lnp(X, µ, σ ) = − ln2π − lnσ 2 − 2
2
2


n

2

∂ lnp(X, µ, σ 2 )
n
1
=− 2 + 4
2
∂σ



(Xi − µ)2
i=1

n

(Xi − µ)2
i=1


∂ lnp(X, µ, σ 2 )
∂ lnp(X, µ, σ 2 ) 2
)
=
V
ar(
)
⇒ IX (σ 2 ) = E(
∂σ 2
∂σ 2
n
n
= 8 V ar[(X1 − µ)2 ] = 4 .



Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số
θ = (θ1 , θ2 , . . . , θN )T thì ma trận thông tin Fisher có dạng
[I(θ)]i,j = Eθ [

∂ lnf (X, θ) ∂ lnf (X, θ)
.
].
∂θi
∂θj

Đây là ma trận đối xứng, xác định không âm. Với một số điều kiện chính quy
người ta chỉ ra được rằng
[I(θ)]i,j = −Eθ [


1.2

∂ 2 lnf (X, θ)
].
∂θi ∂θj

Ước lượng hợp lý cực đại

Cho một mô hình thống kê (X, B, Pθ , θ ∈ Θ), trong đó Θ là khoảng mở trong
không gian Euclide k chiều và Pθ µ với µ là độ đo σ− hữu hạn trên B. Đặt
p(x, θ) =

2

dPθ



Chương 1. Kiến thức chuẩn bị

Nếu p(xi , θ) là hàm mật độ theo nghĩa rộng của biến ngẫu nhiên Xi thì p(x, θ) =
n
i=1 p(xi , θ)

Định nghĩa 1.2.1. Hàm L(X, θ) =
θ với X cố định gọi là hàm hợp lý.

n
i=1 p(Xi , θ)


được xét như hàm của tham ẩn

ˆ
Định nghĩa 1.2.2. Thống kê θ(X)
: X −→ Θ được gọi là ước lượng hợp lý cực
đại của tham ẩn θ nếu:
ˆ
L(X, Θ(X))
= sup L(X, θ)
θ∈Θ

Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng.
• Nếu θ ∈ R1 , ta giải phương trình sau gọi là phương trình hợp lý
∂L(X, θ)
= 0;
∂θ

phương trình trên tương đương với phương trình
∂ ln L(X, θ)
= 0.
∂θ


Nếu θ = (θ1 , . . . , θp ) thì phương trình hợp lý là
∂L(X, θ)
= 0; i = 1, p
∂θi

tương đương với phương trình
∂ lnL(X, θ)

= 0; i = 1, p
∂θi

Nghiệm của phương trình hợp lý gọi là ước lượng hợp lý cực đại. Để xét xem
nghiệm của phương trình hợp lý có là ước lượng hợp lý cực đại không thì không
dễ dàng. Người ta chứng minh được rằng nếu nghiệm của phương trình hợp lý
không phải là hằng số thì nghiệm đó sẽ làm cực đại hàm hợp lý, do đó nó là ước
lượng hợp lý cực đại.
Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn
N (µ; σ 2 ). Tìm ước lượng hợp lý cực đại của (µ; σ 2 ).
Ta có
L(X, µ, σ 2 ) =

1
1
.e− 2σ2
n/2
2
(2πσ )

3

n
2
i=1 (Xi −µ)

.


Chương 1. Kiến thức chuẩn bị


Khi đó phương trình hợp lý là
∂ lnL(X,µ,σ 2 )
∂µ
∂ lnL(X,µ,σ 2 )
∂σ 2

n
i=1 (Xi − µ) = 0
n
− 2σn2 + 2σ1 4 i=1 (Xi

=
=

− µ)2 = 0

Suy ra
µ
ˆ=

1
n

σ
ˆ2 =

1.3
1.3.1


1
n

n
i=1 Xi = X
n
2
i=1 (Xi − X)

= s2

Hồi quy tuyến tính
Giới thiệu mô hình hồi quy tuyến tính cổ điển

Giả sử X1 , . . . , Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc
cần dự báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ
yếu vào các yếu tố sau:
• X1 là diện tích sử dụng (m2 ),
• X2 là vị trí vùng,
• X3 là giá của năm qua,
• X4 là chất lượng xây dựng (giá xây dựng trên một m2 ).
Sự phụ thuộc giữa biến Y theo các biến X1 , . . . , Xk nói chung là rất phức tạp.
Tuy nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình
hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi
(nghĩa là Y là một biểu thức bậc nhất của X1 , . . . , Xk ) và sai số ngẫu nhiên ε.
Như vậy,
Y = β0 + β1 X1 + . . . + βk Xk + ε,

trong đó βi , i = 0, k là các hệ số chưa biết.
Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , . . . , Xk , Y.

Giả sử các số liệu quan sát tuân theo mô hình sau:

y1 = β0 + β1 x11 + . . . + βk x1k + ε1
y2 = β0 + β1 x21 + . . . + βk x2k + ε2
.....................................................
yn = β0 + β1 xn1 + . . . + βk xnk + εn

4


Chương 1. Kiến thức chuẩn bị

trong đó các sai số ε1 , . . . , εn thỏa mãn 3 điều kiện sau:
(i) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống),
(ii) D(εj ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau)
(iii) cov(εi , εj ) = 0 với mọi i = j = 1, n (các sai lệch từng bước không ảnh hưởng
đến nhau)
Mô hình trên có thể viết dưới dạng ma trận như sau:
 
y1



1 x11 . . . x1k

 
β0

 
ε1


   ε 
 y  1 x
21 . . . x2k  β1 
 2
 2 
+ . 
=



 ..   .. ..
.
.
 .   . . . . . ..   ..   .. 
yn

1 xn1 . . . xnk

βk

εn

hoặc đơn giản hơn

(1.1)

Y = Xβ + ε,

ở đó



1 x11 . . . x1k



1 x

21 . . . x2k 

X = .
;
 .. ... . . . ... 
1 xn1 . . . xnk
Y = [y1 , y2 , . . . , yn ]T ; β = [β0 , β1 , . . . , βk ]T ; ε = [ε1 , ε2 , . . . , εn ]T ;


1.E(ε) = 0,
2.cov(ε) = E(εεT ) = σ 2 In .
1.3.2

(1.2)

Phương pháp ước lượng bình phương cực tiểu

Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị
quan sát hãy ước lượng vectơ tham số β và σ 2 .
Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và
5



Chương 1. Kiến thức chuẩn bị

b1 xj1 + . . . + bk xjk sẽ bị một độ lệch
yj − b0 − (b1 xj1 + . . . + bk xjk ),

nói chung độ lệch này sẽ khác không.
Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ
b sao cho
n

(yj − b0 − b1 xj1 − . . . − bk xjk )2

S(b) =
j=1

= (Y − Xb)T (Y − Xb) → min.

Đại lượng βˆ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β , còn
εˆj = yj − (βˆ0 + βˆ1 xj1 + . . . + βˆk xjk ), j = 1, n

gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo
X1 , . . . , Xk là tuyến tính, nên phương trình
Yˆ = βˆ0 + βˆ1 x1 + . . . + βˆk xk

được gọi là phương trình hồi quy tuyến tính mẫu.
Ta có kết quả sau:
Đặt
yˆj = βˆ0 + βˆ1 xj1 + . . . + βˆk xjk

Yˆ = (ˆ
y1 , . . . , yˆn )T .

Mệnh đề 1.3.1. Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước
lượng bình phương cực tiểu có dạng:
βˆ = (X T X)−1 X T Y

Khi đó
Yˆ = X βˆ = X(X T X)−1 Y = HY,

trong đó,
H = X(X T X)−1 X T ; εˆ = Y − Yˆ = (In − H)Y,

6


Chương 1. Kiến thức chuẩn bị

thỏa mãn
X T εˆ = 0

và Yˆ T εˆ = 0, (βˆT X T εˆ = 0).

Tổng các phần dư
n

εˆ2j = εˆT εˆ = Y T Y − Y T X βˆ
j=1

1.3.3


Tính chất ước lượng bằng phương pháp bình phương cực tiểu

1) Ước lượng βˆ là ước lượng không chệch với
ˆ = σ 2 (X T X)−1 ,
E βˆ = β; cov(β)

2) Phần dư εˆ có tính chất: εˆ = 0 (điều này cũng tương đương với Y = Yˆ )
E(ˆ
ε) = 0; cov(ˆ
ε) = σ 2 (I − H),

3) σˆ 2 = εˆT εˆ/(n − k − 1) = n1 εˆ2j /(n − k − 1) là ước lượng không chệch của σ 2 ,
tức là E(ˆσ 2 ) = σ 2 ,
4) βˆ và εˆ là không tương quan
ˆ εˆ) = 0, cov(β,
ˆ σ
cov(β,
ˆ2) = 0

Định lí 1.3.2. (Định lý Gauss về ước lượng bình phương cực tiểu)
1.Trong mô hình tuyến tính cổ điển (1.1) và (1.2) với hạng đầy đủ k + 1 ≤ n
thì ước lượng
cT βˆ = c0 βˆ0 + c1 βˆ1 + . . . + ck βˆk

của cT β = c0 β0 + c1 β1 + . . . + ck βk là ước lượng không chệch với phương sai bé nhất
so với bất kỳ ước lượng tuyến tính không chệch dạng aT Y = a1 y1 + . . . + an yn .
2. Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT βˆ là một ước
lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.


1.4

Hồi quy Poisson

Trong mô hình hồi quy, khi biến đáp ứng là biến đếm người ta thường sử
dụng mô hình hồi quy poisson (hay còn gọi là mô hình loga tuyến tính). Trong
7


Chương 1. Kiến thức chuẩn bị

mô hình này biến đáp ứng Y được giả thiết là có phân bố Poisson và phụ thuộc
vào các biến độc lập theo mô hình

ln E(Y | x) = a1 x1 + a2 x2 + . . . + ak xk + a0
= θT x; θ = (a0 , a1 , . . . , ak )T ; x = (1, x1 , . . . , xk )T .

Người ta ước lượng các tham số của mô hình dựa trên ý tưởng phương pháp
hợp lý cực đại như sau:
Khi biết x, θ thì
T

E(Y | x) = eθ x .
T

Do đó mật độ của phân bố Poisson là (λ = eθ x )
T

eyθ x .e−e

λy
P (y | x; θ) = e−λ . =
y!
y!

θT x

.

Giả sử ta có bộ dữ liệu gồm m vectơ xi ∈ R, i = 1, m và m giá trị y1 , y2 , . . . , ym ∈ R.
Với mỗi θ, xác suất thu được bộ dữ liệu này là
m

P (y1 , . . . , ym | x1 , . . . , xm , θ) =

eyi θ

T

xi .e−eθ

yi !

i=1

Tx
i

.


Theo phương pháp hợp lý cực đại ta chọn tham số θ cực đại xác suất trên, tức
là tìm θˆ
θˆ = argmax (θ, X, Y )

trong đó:
m

[yi θT xi − eθ

(θ, X, Y ) = ln L(θ | X, Y ) =

T

xi

− ln(yi !)]

i=1
m

L(θ | X, Y ) =
i=1

1.5

eyi θ

T

xi .e−eθ


Tx

i

yi !

Hồi quy logistic

Khi biến phụ thuộc là biến nhị giá (thất nghiệp hay không thất nghiệp, đã
lập gia đình hay chưa lập gia đình, có tội hay vô tội,...) người ta thường dùng
8


Chương 1. Kiến thức chuẩn bị

mô hình hồi quy logistic. Trong mô hình hồi quy logistic người ta giả sử rằng
log(

π
) = β T X,
1−π

trong đó:
π là xác suất nhận giá trị 1 của biến phụ thuộc Y, tức
Y =

xác suất π
0 xác suất 1 − π
1


β = (β0 , β1 , . . . , βk )T ; X = (1, x1 , . . . , xk )T

Dựa trên các quan sát (Yi , Xi ) = (yi , xi1 , xi2 , . . . , xik ) = (yi , xiT ) người ta cần ước
lượng β.
Hàm xác suất đồng thời là:
n

n

g(y1 , . . . , yn ) =

πiYi (1 − πi )1−Yi ,

fi (Yi ) =
i=1

i=1

trong đó
T

i

eβ x
πi = P (Yi = 1 | x ) =
T i
1 + eβ x
i


Do đó
n

n
T

i

ln[1 + eβ

Yi β X −

ln[g(Y1 , . . . , Yn )] =
i=1

i=1

= (β)

Ước lượng hợp lý cực đại của β là
βˆ = argmax (β)
β

9

T

Xi

]



Chương 2

Một số tiêu chuẩn lựa chọn mô hình
Dữ liệu có thể được mô phỏng bằng những cách khác nhau. Có thể có những
phương pháp đơn giản hơn mà cũng có thể có nhiều tham số hơn. Khi có nhiều
covarian được đo chúng ta có thể sử dụng tất cả chúng trong mô hình, hoặc chỉ
một vài trong số chúng. Với một danh sách các mô hình ứng cử viên, lựa chọn
mô hình nào là tốt nhất? Để lựa chọn mô hình tốt nhất người ta đưa ra các tiêu
chuẩn thông tin. Trong chương này sẽ trình bày hai tiêu chuẩn thông tin quan
trọng là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin Bayesian.

2.1
2.1.1

Tiêu chuẩn thông tin Akaike
Khoảng cách Kullback- Leibler

Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullback- Leibler
là một ”độ đo” không đối xứng dùng để đo sự khác nhau giữa hai phân bố P và
Q. Cụ thể hơn, độ lệch Kullback- Leibler của Q khỏi P ký hiệu là KL(P Q) là
độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn khoảng
cách Kullback- Leibler đo số bit trung bình dư ra để mã hóa một mẫu khi dùng
Q thay vì dùng P. Khái niệm này xuất hiện trong lý thuyết thông tin và được
đưa ra bởi Solomon Kullback và Richard Leibler năm 1951.

Định nghĩa 2.1.1. (i) Cho các phân phối xác suất rời rạc P và Q. Khoảng
cách Kullback- Leibler của Q từ P được định nghĩa là
KL(P


Q) =

P (i) ln
i

P (i)
Q(i)

(ii) Cho các phân phối xác suất liên tục P và Q. Khoảng cách Kullback- Leibler
của Q từ P được định nghĩa là tích phân
10


Chương 2. Một số tiêu chuẩn lựa chọn mô hình

+∞

KL(P

Q) =

p(x) ln
−∞

p(x)
dx
q(x)

ở đó p và q là kí hiệu mật độ của P và Q.


(iii) Tổng quát hơn, nếu P và Q là các độ đo xác suất trên một tập X và Q liên
tục tuyệt đối theo P, khi đó khoảng cách Kullback- Leibler từ P tới Q được
định nghĩa là
KL(P

Q) =

ln
X

dP
dP
dQ

dP
dQ là

đạo hàm Radon-Nikodym của Q theo P.
ở đó
Nếu µ là một độ đo nào đó trên X mà p = dP
dµ và q =
khoảng cách Kullback- Leibler từ P tới Q là
KL(P

Q) =

dQ



tồn tại, khi đó

p
p ln dµ
q
X

Tính chất

(i) KL(P
KL(P

Q) ≥ 0
Q) = 0 ⇔ P = Q hầu khắp nơi.

(ii) Khoảng cách Kullback- Leibler là định nghĩa tốt cho phân phối liên tục và
bất biến dưới các phép biến đổi tham số.
(iii) Khoảng cách Kullback- Leibler là cộng tính đối với các phân phối độc lập.
Nếu P1 , P2 là các phân phối độc lập với P (x, y) = P1 (x).P2 (y) và Q(x, y) =
Q1 (x).Q2 (y) khi đó
KL(P

Q) = KL(P1

Q1 ) + KL(P2

Q2 )

(iv) Khoảng cách Kullback- Leibler của phân phối Q từ phân phối P không phải
là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng

Q để xấp xỉ P.
2.1.2

Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler

Mục tiêu của phần này là tìm hiểu về mối liên hệ giữa phương pháp hợp lý
cực đại và khoảng cách Kullback- Leibler trong hai trường hợp độc lập cùng
11


Chương 2. Một số tiêu chuẩn lựa chọn mô hình

phân bố và trường hợp hồi quy. Trước hết, chúng ta bắt đầu với một minh họa
đơn giản để thấy được cách hoạt động của phương pháp hợp lý cực đại, nó sử
dụng dữ liệu và một mô hình tham số để cung cấp một mô hình ước lượng.
Ví dụ 2.1.1. Ước lượng dữ liệu trọng lượng sinh thấp
Trong bộ dữ liệu về trọng lượng sinh thấp (Hosmer and Lemeshow, 1999) có
một tổng của n = 189 phụ nữ và những đứa trẻ mới sinh. Ở đây chúng ta chỉ
ra cách mà phương pháp hợp lý cực đại sử dụng để ước lượng các tham số của
mô hình đưa ra. Các biến kết quả Y1 , . . . , Yn độc lập là các biến ngẫu nhiên nhị
phân (0-1), tức cho giá trị là 1 khi đứa trẻ có trọng lượng sinh thấp và 0 trong
trường hợp ngược lại. Các biến khác x2,i là trọng lượng của người mẹ; x3,i là
tuổi của người mẹ; x4,i chỉ chủng tộc đen; x5,i chỉ các chủng tộc khác. Chúng ta
có xi = (1, x2,i , x3,i , x4,i , x5,i )t . Hầu hết mô hình thông thường cho các tình huống
như vậy là mô hình hồi quy logistic, cho công thức
P (Yi = 1 | xi ) = pi =

exp(xti θ)
1 + exp(xti θ)


với i = 1, . . . , n; θ là một vectơ tham số 5 chiều. Hàm hợp lý Ln (θ) là tích của
các số hạng pyi i (1 − pi )1−yi , dẫn đến loga hàm hợp lý có dạng

n
n (θ)

{yi ln pi + (1 − yi ) ln(1 − pi )}

=
i=1
n

[yi xti θ − ln{1 + exp(xti θ)}]

=
i=1

Một ước lượng hợp lý cực đại cho θ được tìm thấy bằng cách cực đại
θ, θˆ = (1.307, −0.014, −0.026, 1.004, 0.443)t .

n (θ)

theo

Nhìn chung các mô hình mà chúng ta xây dựng cho các quan sát Y =
(Y1 , . . . , Yn ) chứa một số các tham số θ = (θ1 , . . . , θp )T , kí hiệu f (y, θ) là hàm
mật độ đồng thời cho Y. Khi đó hàm hợp lý sẽ là
Ln (θ) = f (yobs , θ),

với yobs là giá trị dữ liệu quan sát. Chúng ta thường làm việc với loga hàm hợp

lý n (θ) = log Ln (θ) thay vì hàm hợp lý. Ước lượng hợp lý cực đại của θ làm cực
đại Ln (θ)
12


Chương 2. Một số tiêu chuẩn lựa chọn mô hình

θˆ = θˆML = argmax(Ln ) = argmax( n ).
θ

θ

a. Trường hợp độc lập và cùng phân phối
Hàm hợp lý và loga hàm hợp lý có thể được viết là
Ln (θ) =

n
i=1 f (yi , θ)



n (θ)

=

n
i=1 log f (yi , θ)

Khoảng cách gắn liền với phương pháp hợp lý cực đại là khoảng cách KullbackLeibler
KL(g, f (., θ)) =

=

g(y) log

g(y)
f (y, θ)

dy

g(y) log g(y)dy −

(2.1)
g(y) log f (y, θ)dy

nó là khoảng cách từ mật độ đúng g tới xấp xỉ của nó là f (., θ).
Áp dụng luật số lớn
1
n

n (θ)

a.s.

−−→

g(y) log f (y, θ)dy = Eg log f (Y, θ)

Ước lượng hợp lý cực đại θˆ mà cực đại n (θ) có xu hướng hội tụ hầu chắc chắn
tới θ0 là giá trị cực tiểu của khoảng cách Kullback- Leibler từ mô hình thật tới
mô hình xấp xỉ. Như vậy

a.s.
θˆ −−→ θ0 = argmin{KL(g, f (., θ))},
θ

giá trị θ0 gọi là sai số nhỏ nhất hoặc xấp xỉ tốt nhất.
Nhận xét:
Như vậy ước lượng hợp lý cực đại nhằm cung cấp xấp xỉ tham số tốt nhất với
mật độ đúng g trong lớp tham số f (., θ). Nếu mô hình tham số là thật sự đầy
đủ và chính xác, khi đó g(y) = f (y, θ0 ) và cực tiểu của khoảng cách KullbackLeibler là bằng 0.
Ta xác định

u(y, θ) =

∂log f (y,θ)
∂θ

và I(y, θ) =

∂ 2 log f (y,θ)
∂θ∂θt

u(y, θ) là một hàm vectơ p-chiều thường gọi là vectơ điểm số của mô hình với

các thành phần ∂log∂θf (y,θ)
với j = 1, . . . , p; I(y, θ) là một ma trận cỡ p × p gọi là
j
hàm ma trận thông tin của mô hình, các thành phần của nó là các đạo hàm cấp
13



Chương 2. Một số tiêu chuẩn lựa chọn mô hình

2

f (y,θ)
hai ∂ log
với j, k = 1, . . . , p. Chú ý rằng vì tham số sai số nhỏ nhất cực tiểu
∂θj ∂θk
khoảng cách Kullback- Leibler nên

g(y)u(y, θ0 )dy = 0.

Eg u(Y, θ0 ) =

Chúng ta cũng cần xác định
J = −Eg I(Y, θ0 )

và K = Varg u(Y, θ0 )

(2.2)

Các ma trận cỡ p × p là giống nhau khi g(y) bằng với f (y, θ0 ), ∀y . Trong các
trường hợp như vậy, ma trận
J(θ0 ) =

f (y, θ0 )u(y, θ0 )u(y, θ0 )t dy = −

f (y, θ0 )I(y, θ0 )dy

(2.3)


được gọi là ma trận thông tin Fisher của mô hình.
Dưới các điều kiện chính quy và cơ bản khác nhau, có thể chứng minh rằng
θˆ = θ0 + J −1 U n + Op (n−1/2 ),

ở đó, U n = n−1 ni=1 u(Yi , θ0 ).

Ký hiệu Zn = Op (n−1/2 ), nghĩa là nZn = Op (1) hội tụ tới 0 theo xác suất.
Từ định lý giới hạn trung tâm có sự hội tụ theo phân phối


d

nU n →
− U ∼ Np (0, K).

Kết hợp với trên suy ra


d

n(θˆ − θ0 ) →
− J −1 U = Np (0, J −1 KJ −1 ).

b. Trường hợp hồi quy
Các mô hình hồi quy bao gồm các quan sát (xi , Yi ). Ký hiệu g(y | x) là mật độ
thật cho Y | x. Mô hình tham số sử dụng mật độ f (y | x, θ), khi đó loga hàm hợp
lý sẽ là
n
n (θ)


log f (yi | xi , θ).

=
i=1

Giả sử xa hơn rằng có một số phân phối covarian cơ sở C mà tạo ra các vectơ
covarian x1 , . . . , xn . Khi đó n1 ni=1 a(xi ) hội tụ tới a(x)dC(x), với một hàm a
14


Chương 2. Một số tiêu chuẩn lựa chọn mô hình

bất kỳ sao cho tích phân này tồn tại và loga hàm hợp lý
1
n

n (θ)




g(y | x) log f (y | x, θ)dydC(x)

Đối với vectơ covarian x đã cho, khoảng cách Kullback-Leibler được xác định
như sau
KLx (g(. | x), f (. | x, θ)) =

g(y | x) log


g(y | x)
f (y | x, θ)

dy

Một cách đầy đủ khoảng cách Kullback-Leibler đạt được bởi tích phân KLx theo
phân phối covarian
g(y | x) log

KL(g, fθ ) =

g(y | x)
f (y | x, θ)

dydC(x).

Ước lượng hợp lý cực đại θˆ có xu hướng hội tụ hầu chắc chắn tới giá trị tham
số sai số nhỏ nhất mà cực tiểu KL(g, fθ ).
Để đưa ra các kết quả, ta cần hàm điểm số px1 và hàm ma trận thông tin
pxp của mô hình
u(y | x, θ) =

∂log f (y|x,θ)
∂θ

và I(y | x, θ) =

∂ 2 log f (y|x,θ)
∂θ∂θt


Cho θ0,n là giá trị tham số sai số nhỏ nhất liên quan với mật độ g(y | x). Xác
định các ma trận
n

Jn = −n

−1

g(y | xi )I(y | xi , θ0,n )dy,

i=1
n

Kn = n−1

V arg u(Y | xi , θ0,n );
i=1

đây là những mô hình hồi quy tương đồng của J và K. Dưới các điều kiện bản
chất của loại tuyến tính có một sự hội tụ theo xác suất của Jn và Kn tới các giới
hạn J và K và

nU n = n−1/2

n

u(Yi | xi , θ0,n )
i=1

hội tụ theo phân phối tới U ∼ Np (0, K). Một đại diện quan trọng cho ước lượng

hợp lý cực đại là
15


Chương 2. Một số tiêu chuẩn lựa chọn mô hình



n(θˆ − θ0,n ) = J −1 nU n + Op (1),
n

mà cũng dẫn đến phân phối giới hạn chuẩn, thậm chí khi mô hình giả định
không bằng mô hình thật,

d
n(θˆ − θ0,n ) →
− J −1 U ∼ Np (0, J −1 KJ −1 ).

Các ước lượng cho Jn và Kn là
n
−1 2

ˆ | ∂θ∂θt = −n−1
∂ n (θ)

Jˆn = −n

ˆ
I(yi | xi , θ)
i=1


(2.4)

n

Kˆn = n−1

ˆ
ˆt
u(yi | xi , θ)u(y
i | xi , θ) .
i=1

Chú ý rằng Jn = Kn khi mô hình giả định bằng với mô hình thật và trong
trường hợp này Jˆn và Kˆn là các ước lượng của cùng một ma trận.
Ví dụ 2.1.2. Hồi quy tuyến tính chuẩn
Giả sử Yi = xti β + σεi với β là một vectơ p-chiều của các hệ số hồi quy, ở đó
ε1 , . . . , εn là độc lập cùng phân phối. Hàm hợp lý là

1
e
Ln (σ) = √
(σ 2π)n

n (y −xt β)2
i=1 i
i
2σ 2

.


Khi đó loga hàm hợp lý là
n
n (σ)

=
i=1

1
1
{− (yi − xti β)2 /σ 2 − ln σ − ln(2π)}.
2
2

Giả sử rằng εi không nhất thiết là chuẩn nhưng có trung bình không, độ lệch
chuẩn 1. Sau khi tính toán dẫn đến
Jn =

1
σ2

n

0

0
2


Kn =


với

n

= n−1

n
t
i=1 xi xi ,

1
σ2

n
k3 xtn

k3 xn
2 + k4

k3 = Eε3i và k4 = Eε4i − 3.

16


Chương 2. Một số tiêu chuẩn lựa chọn mô hình

Ví dụ 2.1.3. Hồi quy Poisson
Xem xét mô hình hồi quy Poisson cho dữ liệu độc lập Y1 , . . . , Yn trong các
số hạng của các vectơ covarian p-chiều x1 , . . . , xn mà Yi là Poisson với tham số

ξi = exp(xti β). Ta có:
f (Yi | xi , β) =

e−ξi .(ξi )Yi
Yi !

⇒ lnf (Yi | xi , β) = −ξi + Yi lnξi − lnYi ! = −exp(xti β) + Yi (xti β) − lnYi !
⇒ u(Yi | xi , β) =

∂ lnf (Yi | xi , β)
= −xti exp(xti β) + Yi xti ,
∂β

∂ 2 lnf (Yi | xi , β)
= −exp(xti β)xi xti
∂β∂β
⇒ I(Yi | xi , β) = −exp(xti β)xi xti
n

⇒ Jˆn = −n−1

n

ˆ = n−1
I(Yi | xi , β)
i=1

ξˆi xi xti ,
i=1


ˆ
ở đó, ξˆi = exp(xti β).
Ước lượng cho Kn là
n

Kˆn = n

−1

ˆ
ˆt
u(Yi | xi , β)u(Y
i | xi , β)
i=1
n

= n−1

(Yi − ξˆi )2 xi xti .
i=1

Khi mô hình giả định bằng mô hình thật các ma trận ước lượng này là như
nhau.
2.1.3

Định nghĩa AIC

Đối với một mô hình tham số M, tiêu chuẩn thông tin Akaike(AIC) được xác
định như sau:
ˆ − 2length(θ) = 2

AIC(M ) = 2 n (θ)

n,max

− 2length(θ),

ở đó length(θ) là số các tham số ước lượng trong mô hình,
loga hàm hợp lý.

17

n,max

(2.5)

là cực đại của


×