Tải bản đầy đủ (.docx) (111 trang)

Một số tiêu chuẩn lựa chọn mô hình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (478.04 KB, 111 trang )

ĐAI HOC QUOC GIA HÀ N®I
ĐAI HOC KHOA HOC TU NHIấN

PHAM TH HOA

MđT SO TIấU CHUAN LUA CHON Mễ HèNH

LUắN VĂN THAC SĨ KHOA HOC

Hà N®i - 2013


PHAM TH± HOA

M®T SO TIÊU CHUAN LUA CHON MƠ HÌNH

Chun ngành:

LÝ THUYET XÁC SUAT VÀ THONG KÊ TOÁN HOC

Mã so : 60 46 15

LU¾N VĂN THAC SĨ KHOA HOC

NGƯèI HƯéNG DAN KHOA HOC
TS. TRAN MANH CƯèNG

Hà N®i - 2013


Me ĐAU


Lna cHQN mơ hình (Model selection) là m®t bài toán cơ ban cna thong kê
cũng như nhieu ngành khoa HQc khác như HQc máy (machine learning), kinh te
lưong (econometrics), ... Theo R. A. Fisher có 3 bài tốn chính trong thong kê
suy lu¾n và dn báo gom
- Xác đ%nh mơ hình (model specification)
- Ưóc lưong tham so (estimation of model parameters)
- Dn báo (prediction)
Trưóc nhung năm 1970 hau het các nghiên cúu t¾p trung vào hai bài tốn
sau vói gia thiet là mơ hình đã biet. Sau khi xuat hi¾n cơng trình cna Akaike
(1973) thì bài tốn lna cHQN mơ hình thu hút đưoc sn quan tâm cna c®ng ong
lm thong kờ.
Vúi mđt bđ du liắu a ra, cú the đ¾t vào nó rat nhieu mơ hình và vói các
mơ hình đưa ra, mơ hình nào là tot nhat? Đe tra lòi cho câu hoi trên, ngưòi ta
đã đưa ra các tiêu chuan thông tin đe lna cHQN mô hình phù hop như tiêu chuan
thơng tin cna Akaike (AIC) và tiêu chuan thơng tin cna Bayesian (BIC)... Vi¾c
lna cHQN m®t mơ hình phù hop là trung tâm cho tat ca các cơng tác thong kê
vói du li¾u. Lna cHQN các bien đe su dung trong m®t mơ hình hoi quy l mđt
trong nhung vớ du quan TRQNG. Luắn vn cna tơi trình bày hai tiêu chuan thơng
tin quan TRQNG đó là tiêu chuan thơng tin cna Akaike và tiêu chuan thơng tin
cna Bayesian. Lu¾n văn đưoc chia làm ba chương
Chương 1. Kien thúc chuan b%
Trong chương này, tơi trình bày các kien thúc cơ ban ve lưong thông tin
Fisher, ưóc lưong hop lí cnc đai, và các dang cna phân tích hoi quy như hoi
quy tuyen tính, hoi quy Poisson và hoi quy logistic.
Chương 2. M®t so tiêu chuan lna cHQN mơ hình
Chương này, trình bày khoang cách Kullback- Leibler, moi liên h¾ giua ưóc
lưong hop lí cnc đai và khoang cách Kullback-Leibler, đ%nh nghĩa AIC và
moi liên h¾ giua AIC và khoang cách Kullback-Leibler, tiêu chuan Takeuchi,
AIC hi¾u chinh cho hoi quy tuyen tính và chuoi thịi gian tn hoi quy, trình bày
nguon goc và đ%nh nghĩa cna BIC.

Chương 3. Áp dung
Trong chương này giói thi¾u ve phan mem R, a ra mđt bđ du liắu cu the ve bon
phộp o trờn hđp SQ cna ngũi Ai cắp o năm thòi kỳ khác nhau và đưoc lay trong
website:
”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”,
i


áp dung vói năm mơ hình úng cu viên và dùng phan mem R chay đe tìm giá
tr% AIC và BIC cho moi trong so năm mơ hình úng cu viên đe tìm ra mơ
hình tot nhat theo AIC và BIC oi vúi bđ du liắu ny, code R cng đưoc
tham khao trong website trên .
Do thịi gian và trình đ cũn han che nờn luắn vn khụng trỏnh khoi nhung
thieu sót, tác gia hy vQNG se nh¾n đưoc nhieu ý kien đóng góp tù các thay cơ
giáo và ban ĐQc đe lu¾n văn đưoc hồn chinh hơn.


LốI CAM N
Sau mđt thũi gian HQc tắp tai khoa Tốn - Cơ - Tin HQc, Trưịng Đai HQc
Khoa HQc Tn nhiên, dưói sn hưóng dan và chi bao t¾n tình cna TS. Tran Manh
Cưịng, tơi đã hồn thành lu¾n vn tot nghiắp vúi e ti: Mđt so tiờu chuan lna
cHQN mơ hình”.
Trong suot q trình HQc t¾p, trien khai nghiên cúu đe tài, tơi đã nh¾n đưoc
rat nhieu sn giúp đõ cna các thay cơ trong b® mơn Xác suat thong kê, các thay
cơ trong khoa Tốn - Cơ - Tin HQc, trưòng Đai HQc Khoa HQc Tn nhiên, ai HQc
Quoc gia H Nđi, ắc biắt l TS. Tran Manh Cưịng.
Tơi xin bày to lịng biet ơn chân thành và sâu sac tói TS. Tran Manh Cưịng
– ngưịi đã t¾n tình chi bao, giúp đõ tơi trong q trình nghiên cúu đe tài. Tơi
xin gui lịi cam ơn tói Ban giám hi¾u, Phịng sau đai HQc, các thay cơ trong khoa
Tốn - Cơ - Tin hQc nói chung và các thay cơ trong b® mơn xác suat thong kê Trưịng Đai HQc Khoa HQc Tn nhiên nói riêng đã tao nhung đieu ki¾n thu¾n loi

nhat đe tơi có the hon thnh luắn vn ny.
H nđi, thỏng 02 nm 2013

iii


Danh mnc các kí hi¾u
AIC
AICc

a.s.
BIC
BIC∗
BICexact
h(.)
H(.)

KL
L, Ln
A, An
Np(ξ,

Σ

)

Op(n−1)

Var
d





Tiêu chuan thơng tin cna Akaike
AIC hi¾u chinh
hau chac chan
tiêu chuan thơng tin Bayesian
xap xi cna BIC
BIC chính xác
ty l¾ nguy hiem
ty l¾ nguy hiem tích lũy
khoang cách kullback - Leibler
hàm hop lý
loga hàm hop lý
phân
Σ phoi chuan cna p bien ngau nhiên vói vectơ trung bình ξ và
ma tr¾n phương sai
Xn = Op(n−1) nghĩa là Xn/n−1 h®i tu tói 0 theo xác suat
phương sai

p

h®i tu theo phân phoi
h®i tu theo xác suat

TIC
Tr



tiêu chuan thơng tin Takeuchi
vet cna ma tr¾n
ket thúc chúng minh ho¾c ví du.




iv


Mnc lnc
Lài cam ơn

iii

1 Kien thÉc chuan b%
1
1.1 Lưong thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 Ưóc lưong hop lý cnc đai . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3 Hoi quy tuyen tính . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3.1 Giói thi¾u mơ hình hoi quy tuyen tính cő đien . . . . . . .
4
1.3.2 Phương pháp ưóc lưong bình phương cnc tieu . . . . . . . 5
1.3.3 Tính chat ưóc lưong bang phương pháp bình phương
7
cnc tieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . .

1.4 Hoi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.5 Hoi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2 M®t so tiêu chuan lEa cHQN mơ hình
2.1 Tiêu chuan thơng tin Akaike . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Khoang cách Kullback- Leibler . . . . . . . . . . . . . . . .
2.1.2 Ưóc lưong hop lý cnc đai và khoang cách KullbackLeibler
2.1.3 Đ%nh nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 AIC và khoang cách Kullback- Leibler . . . . . . . . . . . .
2.1.5 Tiêu chuan Takeuchi . . . . . . . . . . . . . . . . . . . . . .
2.1.6 AIC hi¾u chinh cho hoi quy tuyen tính . . . . . . . . . . .
2.2 Tiêu chuan thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . .
2.2.1 Nguon goc cna BIC . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Đ%nh nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Ai là ngưòi viet ’The Quiet Don’ ? . . . . . . . . . . . . . .

10
10
10
11

3 Áp dnng
3.1 Giói thi¾u ve phan mem R . . . . . . . . . . . . . . . . . . . . . .
3.2 p dung vúi bđ so liắu . . . . . . . . . . . . . . . . . . . . . . . . .

38
38
38


v

17
19
24
25
28
28
30
35


MUC LUC

Ket lu¾n
46
Phn lnc................................................................................................ 47
Tài li¾u tham khao

51

vi


Chương 1

Kien thÉc chuan b%
1.1

Lưang thông tin Fisher


Đ%nh nghĩa 1.1.1. Cho X là bien ngau nhiên ho¾c vectơ ngau nhiên có phân
bo phn thu®c vào tham so chưa biet θ , vỏi mắt đ f (x, ), . Gia su
.
.

rang
∫ df (x,θ)
f (x, θ) kha vi theo θ và
. dλ < ∞. Khi đó lưang thơng tin Fisher ve tham
X . d
θ
so θ chúa trong X là
IX(θ) = Eθ dlnf (X,
[

De dàng chi ra rang Eθ[

dlnf(X,θ)

d
θ

θ)

]2 .



] = 0. Do đó


IX(θ) = V ar[ dlnf (X,
θ)

]

Vói m®t đieu ki¾n khơng q ch¾t đ¾t lên f (x, θ) ngưịi ta cũng chúng minh đưoc
d2 lnf (X, θ)
]
IX(θ) = −E[
dθ2

Chú ý: Neu X1, X2 là hai bien ngau nhiên đ®c lắp cựng phu thuđc vo
tham so thỡ mắt đ đong thòi cna X1, X2 là:
f (x1, x2, θ) = fX1 (θ).fX2 (θ)

Nên:
dlnf (X1 , X2 , θ)
dlnfX1 (X1 , θ)
dlnfX (X2 , θ)
(θ) = V ar[
] = V ar[
] + V ar[ dθ 2
]


I(X1,X2)
= IX1 (θ) + IX2 (θ)
Do đó neu X1, X2, . . . , Xn là m®t mau ngau nhiên ve X, thì lưong thơng tin
Fisher ve tham so θ chúa trong mau là:

1


Chương 1. Kien thúc

I(θ) = I(X1,X2,...,Xn)(θ) = nIX1 (θ)

Ví dn 1.1.1. Tính lưong thơng tin trong mau đơn gian (X1 , X2 , . . . , Xn ) lay tù
HQ phân bo chuan vói tham so (µ, σ 2 ) đoi vói tham so σ 2 .
Ta có hàm mắt đ ong thũi cna X1, X2, . . . , Xn là
2
p(X,
Σ µ, σ ) =

1

1

exp[−

− µ) ]
n

(X

2
n

i



(2πσ2) 2
2
i=1
n
n
1 n
2
2
ln
p(X,
µ,
σ
)
=

ln


ln
σ

Σ
(X
2
2
i=1
2σ2
2


− µ)2
i

n

∂lnp(X, µ, σ )
n
1
+
=

2
∂σ
2σ Σ2σ
(X

i

− µ)2

i=

)=


2

=

=V

ar(

∂lnp(X, µ, σ2)

IX(σ 2E(

n
4σ8

∂lnp(X, µ, σ2) )
∂σ 2

)

∂σ 2

n

2

V ar[(X1 − µ) ] =

2σ4

.□

Trưàng hap nhieu chieu: Khi phân bo cna X phu thu®c N tham so
θ = (θ1, θ2, . . . , θN )T thì ma tr¾n thơng tin Fisher có dang
[I(θ)]i,j = Eθ[


∂lnf (X, ∂lnf (X,
θ)
θ)
].
.
∂θj
∂θi

Đây là ma tr¾n đoi xúng, xỏc %nh khụng õm. Vúi mđt so ieu kiắn chớnh
quy ngưòi ta chi ra đưoc rang
[I(θ)]i,j = −Eθ[ ∂ 2 lnf (X,
θ)
].
∂θ ∂θ
i

2

j


Chương 1. Kien thúc

1.2

Ưác lưang hap lý cEc đai

Cho m®t mơ hình thong kê (X, B, Pθ, θ ∈ Θ), trong đó Θ là khoang mo trong
khơng gian Euclide k chieu v P à vúi à l đ o huu han trờn B. ắt
p(x, ) =


3

dP



Neu p(xi, ) l hm mắt đ theo ngha rđng cna bien ngau nhiên Xi thì p(x, θ) =
Qn p(x , θ)
i=
1

i

Đ%nh nghĩa 1.2.1. Hàm L(X, θ) =
θ vái X co đ%nh GQI là hàm hap lý.

Qn
i=
1

p(Xi, θ) đưac xét như hàm cua tham an

Đ%nh nghĩa 1.2.2. Thong kê θˆ(X) : X −→ Θ đưac GQI là ưác lưang hap lý
cnc đai cua tham an θ neu:
L(X, Θˆ (X)) = sup L(X, θ)
θ∈Θ

Tù đ%nh nghĩa suy ra muon tìm ưóc lưong hop lý cnc đai phai tìm điem dùng.
• Neu θ ∈ R1, ta giai phương trình sau GQI là phương trình hop lý

∂L(X, θ)
∂θ

= 0;

phương trình trên tương đương vói phương trình
∂ ln L(X,
= 0.
θ)
∂θ



Neu θ = (θ1, . . . , θp) thì phương trình hop lý là
∂L(X, θ)
= 0; i = 1, p
∂θi

tương đương vói phương trình
∂lnL(X, θ)
= 0; i = 1, p
∂θi

Nghi¾m cna phương trình hop lý GQI là ưóc lưong hop lý cnc đai. Đe xét xem
nghi¾m cna phương trình hop lý có là ưóc lưong hop lý cnc đai khơng thì khơng
de dàng. Ngưịi ta chúng minh đưoc rang neu nghi¾m cna phương trình hop lý
khơng phai là hang so thì nghi¾m đó se làm cnc đai hàm hop lý, do đó nó là ưóc
lưong hop lý cnc đai.
Ví dn 1.2.1. Gia su (X1, X2, . . . , Xn) là mau ngau nhiên tù phân phoi chuan
N (µ; σ2). Tìm ưóc lưong hop lý cnc đai cna (µ; σ2).

Ta có
1
L(X, µ, σ2 ) =
.e− 2σ
1 2Σn i=
2
n/
(2πσ )
2

(Xi−µ)2

.


Khi đó phương trình hop lý là
.
∂lnL(X,µ,σ )
=
Σn ∂

(X − µ) = 0

2

µ


i=
1



i

i

i=
1

∂σ2

∂lnL(X,µ,σ2)

=−

n

Suy
ra

+

1

Σn


(X − µ)2 = 0
. µˆ =


Σn

1

n

σˆ 2 =

1.3
1.3.1

1

i=
1
i=
n 1

Σn

Xi = X

(Xi − X)2 = s2

Hoi quy tuyen tính
Giái thi¾u mơ hình hoi quy tuyen tính co đien

Gia su X1, . . . , Xk l k bien đc lắp dùng đe dn báo và Y là bien phu thu®c
can dn báo. Ví du, ta gia su Y là giá nh o hiắn hnh. Khi ú Y phu thuđc
chn yeu vo cỏc yeu to sau:

ã X1 l diắn tớch su dung (m2),
• X2 là v% trí vùng,
• X3 là giá cna năm qua,
• X4 là chat lưong xây dnng (giá xây dnng trên m®t m2).
Sn phu thu®c giua bien Y theo các bien X1, . . . , Xk nói chung là rat phúc
tap. Tuy nhiên có m®t so trưịng hop sn phu thu®c đó tương đoi đơn gian.
Mơ hình hoi quy tuyen tính cő đien khang đ%nh rang Y phu thu®c tuyen
tính vào các Xi (nghĩa là Y là mđt bieu thỳc bắc nhat cna X1, . . . , Xk) và sai
so ngau nhiên ε. Như v¾y,
Y = β0 + β1X1 + . . . + βkXk + ε,

trong đó βi, i = 0, k là các h¾ so chưa biet.
Bây giò ta tien hành n quan sát đc lắp ong thũi ve k + 1 bien X1, . . . , Xk, Y.
Gia su các so li¾u quan sát tn theo mơ hình sau:
y1 = β0 + β1x11 + . . . + βkx1k +
ε1 y2 = β0 + β1x21 + . . . + βkx2k
+ ε2
.....................................................
yn = β0 + β1xn1 + . . . + βkxnk + εn


trong đó các sai so ε1, . . . , εn thoa mãn 3 đieu ki¾n sau:
(i) E(εj) = 0 (vi¾c đo đac khơng ch%u sai l¾ch h¾ thong),
(ii) D(εj) = σ2 (phương sai khơng đői hay đ® chuan xác đo đac như nhau)
(iii) cov(εi, εj) = 0 vói MQI i ƒ= j = 1, n (các sai l¾ch tùng bưóc khơng anh
hưong đen nhau)
Mơ hình trên có the viet dưói dang ma tr¾n như sau:
 1
y




 

 1

ε
1 x11 . . . x1k
β0
 y2   1 x21 . . . x2k  β1   ε2 
=
+


. ..
. 





. x.n1 . . . xnk
yn .
1
εn .
 βk







ho¾c đơn gian hơn

.



(1.1)

Y = Xβ + ε,

o đó


1 x11 . . . x1k
1 x21 . . . x2k

X =

.

.

..



;
. 


.
1 xn1 . . . xnk

Y = [y1, y2, . . . , yn]T ; β = [β0, β1, . . . , βk]T ; ε = [ε1, ε2, . . . , εn]T ;


1.E(ε) = 0,
2.cov(ε) = E(εεT ) = σ2In.
1.3.2

(1.2)

Phương phỏp ỏc lang bỡnh phng cEc tieu

Mđt bi toỏn ắt ra là hãy dna trên ma tr¾n X và vectơ Y cna các giá tr%
quan sát hãy ưóc lưong vectơ tham so β và σ2.
Neu chúng ta su dung b là giá tr% thu cna β thì giua các quan sát yj và


b1xj1 + . . . + bkxjk se b% m®t đ lắch
yj b0 (b1xj1 + . . . + bkxjk),

núi chung đ lắch ny se khỏc khụng.
Phng phỏp ưóc lưong bình phương toi thieu là hãy cHQN giá tr% cna vectơ
b sao cho

S(b) =

n

Σ

(yj − b0 − b1xj1 − . . . − bkxjk)2

j=1

= (Y − Xb)T (Y − Xb) → min.

Đai lưong βˆ làm cnc tieu hóa phiem hàm S(b) đưoc GQI là ưóc lưong bình phương
cnc tieu cna β , còn
εˆj = yj − (βˆ0 + βˆ1 xj1 + . . .k + ), j = 1, n
βˆ xjk

là các phan dư cna phép hoi quy. Trong trưịng hop này, vì bieu thúc theo
X1, . . . , Xk là tuyen tính, nên phương trình
GQI

Yˆ = βˆ0 + βˆ1 x1 + . . . +kβˆ xk

đưoc gQI là phương trình hoi quy tuyen tính mau.
Ta có ket qua sau:
Đ¾t
yˆj = βˆ0 + βˆ1 xj1 + . . . + βˆ x
Yˆ = (yˆ1 , . . . ,
yˆn )T .

k jk

M¾nh đe 1.3.1. Neu ma tr¾n X khơng ngau nhiên có hang k + 1 ≤ n thì ưác
lưang bình phương cnc tieu có dang:

βˆ = (X T X)−1 X T Y

Khi đó
Yˆ = Xβˆ = X(X T X)−1 Y = HY,

trong đó,
H = X(X T X)−1 X T ; εˆ = Y − = (In − H)Y,



thóa mãn
Yˆ T εˆ = 0, (βˆT X T εˆ = 0).

X T εˆ = 0

Tőng các phan dư


n
Σ

2 = Tεˆ εˆ =
T Y Y T− ˆ
εˆ
j

j=1

Y Xβ
1.3.3


Tính chat ưác lưang bang phương pháp bình phương cEc tieu

1) Ưóc lưong βˆ là ưóc lưong khơng ch¾ch vói
Eβˆ = β; cov(βˆ) = σ 2 (X T X)−1 ,
2) Phan dư εˆ có tính chat: εˆ = 0 (đieu này cũng tương đương vói Y = Yˆ )
E(εˆ) = 0; cov(εˆ) = σ 2 (I − H),
3) σˆ 2 = εˆT εˆ/(n − k − 1) =1

Σn
j

εˆ2 /(n − k − 1) là ưóc lưong khơng ch¾ch cna σ 2 ,

túc là E(σˆ 2 ) =
σ2 ,

4) βˆ và εˆ là không tương quan
cov(βˆ, εˆ) = 0, cov(βˆ, σˆ 2 ) = 0

Đ%nh lí 1.3.2. (Đ%nh lý Gauss ve ưác lưang bình phương cnc tieu)
1. Trong mơ hình tuyen tính cő đien (1.1) và (1.2) vái hang đay đu k + 1 ≤ n
thì ưác lưang
cT βˆ = c0 βˆ0 + c1 βˆ1 + . . . β+k ck ˆ

cua cT β = c0β0 + c1β1 + . . . + ckβk là ưác lưang khơng ch¾ch vái phương sai bé
nhat so vái bat kỳ ưác lưang tuyen tính khơng ch¾ch dang aT Y = a1y1 + . . . + anyn.
2. Neu thêm gia thiet rang ε có phân bo chuan Nn (0, σ 2 In ) thì cT βˆ là mđt ỏc
lang khụng chắch vỏi phng sai cnc tieu cua cT β so vái bat kỳ ưác lưang khơng
ch¾ch nào khác.


1.4

Hoi quy Poisson

Trong mơ hình hoi quy, khi bien đáp úng là bien đem ngưịi ta thưịng su
dung mơ hình hoi quy poisson (hay cịn GQI là mơ hình loga tuyen tính). Trong


mơ hình này bien đáp úng Y đưoc gia thiet là có phân bo Poisson và phu
thu®c vào các bien đc lắp theo mụ hỡnh
ln E(Y | x) = a1x1 + a2x2 + . . . + akxk + a0
= θT x; θ = (a0, a1, . . . , ak)T ; x = (1, x1, . . . , xk)T .

Ngưịi ta ưóc lưong các tham so cna mơ hình dna trên ý tưong phương pháp
hop lý cnc đai như sau:
Khi biet x, θ thì
E(Y | x) = eθT x.

Do ú mắt đ cna phõn bo Poisson l ( = eθT x)
yθT x −e θTx

y

P (y | x; θ) = e .



=


e

.e

.

y!

y!

Gia su ta cú bđ du liắu gom m vectơ xi ∈ R, i = 1, m và m giá tr% y1, y2, . . . , ym ∈ R.
Vói moi θ, xác suat thu đưoc b® du li¾u này là
θT x
P (y1, . . . , ym | x1, . . . , xm, θ) Ymi
i

y
θT
.e
i
=1 e
=
.
x
yi !

Theo phương pháp hop lý cnc đai ta cHQN tham so θ cnc đai xác suat trên, túc
là tìm θˆ
θˆ = argmaxA(θ, X, Y )


trong đó:


A(θ, X, Y ) = ln L(θ | X, Y ) =
xi

L(θ | X, Y )
=

Y

i=1
m

x
i=1

1.5

Hoi quy logistic

eyiθT

.e−
y!

i

i


T

θ xi

[yi θ − e
T

θT x

− ln(yi!)]


Khi bien phu thuđc l bien nh% giỏ (that nghiắp hay khơng that nghi¾p, đã
l¾p gia đình hay chưa l¾p gia đình, có t®i hay vơ t®i,...) ngưịi ta thưịng dùng


mơ hình hoi quy logistic. Trong mơ hình hoi quy logistic ngưịi ta gia su rang
log(

π

) = βT X,

1−
π

trong đó:
π là xác suat nh¾n giá tr% 1 cna bien phu thu®c Y, túc
.
Y =


1 xác suat π
0 xác suat 1 − π

β = (β0, β1, . . . , βk)T ; X = (1, x1, . . . , xk)T
Dna trên các quan sát (Yi, Xi) = (yi, xi1, xi2, . . . , xik) = (yi, xiT ) ngưòi ta can ưóc
lưong β.

Hàm xác suat đong thịi là:
n

g(y1, . . . , yn) =

trong đó

Do đó

Y

n

fi(Yi) =

i=
1

Y

πYi (1 − πi)1−Yi,


i

i=
1
T

πi = P (Yi = 1 | xi)
=

i

eβ x T i
1 + eβ x
n

ln[g(Y1, . . . , Yn)] =

n
Σ
i=1

Σ

Y βT X i −
i

i=1

= A(β)


Ưóc lưong hop lý cnc đai cna β là
βˆ = argmaxA(β)
β

ln[1 +T eiβ

X

]


Chng 2

Mđt so tiờu chuan lEa cHQN mụ hỡnh
Du liắu có the đưoc mơ phong bang nhung cách khác nhau. Có the có nhung
phương pháp đơn gian hơn mà cũng có the có nhieu tham so hơn. Khi có nhieu
covarian đưoc đo chúng ta có the su dung tat ca chỳng trong mụ hỡnh, hoắc chi
mđt vi trong so chỳng. Vói m®t danh sách các mơ hình úng cu viên, lna cHQN
mơ hình nào là tot nhat? Đe lna cHQN mơ hình tot nhat ngưịi ta đưa ra các tiêu
chuan thơng tin. Trong chương này se trình bày hai tiêu chuan thông tin quan
TRQNG là tiêu chuan thông tin cna Akaike và tiêu chuan thông tin Bayesian.

2.1
2.1.1

Tiêu chuan thông tin Akaike
Khoang cách Kullback- Leibler

Trong lý thuyet xác suat và lý thuyet thơng tin, khoang cách KullbackLeibler là m®t ”đ® đo” không đoi xúng dùng đe đo sn khác nhau giua hai
phõn bo P v

Q. Cu the hn, đ lắch Kullback- Leibler cna Q khoi P ký hi¾u là KL(P ǁ Q) là
đ® đo lưong thơng tin mat đi khi dùng Q đe xap xi P. Chính xác hơn khoang
cách Kullback- Leibler đo so bit trung bình dư ra đe mã hóa m®t mau khi
dùng Q thay vì dùng P. Khái ni¾m này xuat hi¾n trong lý thuyet thơng tin và
đưoc đưa ra boi Solomon Kullback và Richard Leibler năm 1951.
Đ%nh nghĩa 2.1.1. (i) Cho các phân phoi xác suat rài rac P và Q. Khoang
cách Kullback- Leibler cua Q tù P đưac đ%nh nghĩa là
KL(P Σ
Q) =
ǁ

P (i) ln
i

P (i)
Q(i)

(ii) Cho các phân phoi xác suat liên tnc P và Q. Khoang cách Kullback- Leibler
cua Q tù P đưac đ%nh nghĩa là tích phân
10


Chương 2. M®t so tiêu chuan lna cHQN mơ

KL(P ǁ Q) = ∫

+∞

−∞


p(x)
p(x) ln
dx
q(x)

á đó p và q là kí hiắu mắt đ cua P v Q.
(iii) Tng quỏt hn, neu P và Q là các đ® đo xác suat trờn mđt tắp X v Q liờn
tnc tuyắt oi theo P, khi đó khoang cách Kullback- Leibler tù P tái Q đưac đ
%nh nghĩa là
KL(P ǁ Q) = ∫
dP
ln

dQ

dP

á đó dP là đao hàm Radon-Nikodym cua Q theo P.
d
Neu µQlà m®t đ® đo nào đó trên X mà p = dP
và q = dQ ton tai, khi đó
d
d
µ
µ
khoang cách Kullback- Leibler tù P tái Q là
p
KL(P ǁ Q) = ∫ p ln

q


Tính chat
(i) KL(P ǁ Q) ≥ 0
KL(P ǁ Q) = 0 ⇔ P = Q hau khap nơi.

(ii) Khoang cách Kullback- Leibler là đ%nh nghĩa tot cho phân phoi liên tuc
và bat bien dưói các phép bien đői tham so.
(iii) Khoang cách Kullback- Leibler là c®ng tính đoi vói cỏc phõn phoi đc
lắp. Neu P1, P2 l cỏc phõn phoi đc lắp vúi P (x, y) = P1(x).P2(y) v Q(x,
y) = Q1(x).Q2(y) khi đó
KL(P ǁ Q) = KL(P1 ǁ Q1) + KL(P2 ǁ Q2)
(iv) Khoang cách Kullback- Leibler cna phân phoi Q tù phân phoi P không
phai là khoang cách thơng thưịng, mà là đ® đo lưong thơng tin mat đi
khi dùng Q đe xap xi P.
2.1.2

Ưác lưang hap lý cEc đai và khoang cách Kullback- Leibler

Muc tiêu cna phan này là tìm hieu ve moi liên h¾ giua phương pháp hop lý
cnc đai và khoang cách Kullback- Leibler trong hai trũng hop đc lắp cựng
11


phân bo và trưịng hop hoi quy. Trưóc het, chúng ta bat đau vói m®t minh
HQA đơn gian đe thay đưoc cách hoat đ®ng cna phương pháp hop lý cnc ai,
nú su dung du liắu v mđt mụ hỡnh tham so đe cung cap m®t mơ hình ưóc
lưong.
Ví dn 2.1.1. ỏc lang dE liắu TRQNG lang sinh thap
Trong bđ du li¾u ve TRQNG lưong sinh thap (Hosmer and Lemeshow, 1999) có
m®t tőng cna n = 189 phu nu và nhung đúa tre mói sinh. e đây chúng ta chi

ra cách mà phương pháp hop lý cnc đai su dung đe ưóc lưong các tham so cna
mơ hình đưa ra. Các bien ket qua Y1 , . . . , Yn đc lắp l cỏc bien ngau nhiờn nh%
phõn (0-1), tỳc cho giá tr% là 1 khi đúa tre có TRQNG lưong sinh thap và 0 trong
trưòng hop ngưoc lai. Các bien khác x2,i là TRQNG lưong cna ngưòi me; x3,i là
tuői cna ngưịi me; x4,i chi chnng t®c đen; x5,i chi các chnng t®c khác. Chúng
ta có xi = (1, x2,i, x3,i, x4,i, x5,i)t. Hau het mơ hình thơng thưịng cho các tình
huong như v¾y là mơ hình hoi quy logistic, cho công thúc
P (Y = 1 |
= p =i
i

i

exp(xitθ)
1 + expx(xi)tθ)

vói i = 1, . . . , n; θ là m®t vectơ tham so 5 chieu. Hàm hop lý Ln(θ) là tích cna
các so hang pyi (1 − pi)1−yi , dan đen loga hàm hop lý có dang
i

An(θ) =

n
Σ

{yi ln pi + (1 − yi) ln(1 − pi)}

i=1

=


Σ
n

[yi xtiθ − ln{1 + exp(xi t θ)}]

i=
1

M®t ưóc lưong hop lý cnc đai cho θ đưoc tìm thay bang cách cnc đai An(θ) theo
θ, θˆ = (1.307, −0.014, −0.026, 1.004, 0.443)t.□

Nhìn chung các mơ hình mà chúng ta xây dnng cho các quan sát Y =
(Y1, . . . , Yn) chúa m®t so các tham so θ = (θ1, . . . , θp)T , kí hi¾u f (y, ) l hm
mắt đ ong thũi cho Y. Khi ú hàm hop lý se là
Ln(θ) = f (yobs, θ),

vói yobs là giá tr% du li¾u quan sát. Chúng ta thưịng làm vi¾c vói loga hàm
hop lý An(θ) = log Ln(θ) thay vì hàm hop lý. Ưóc lưong hop lý cnc đai cna θ
làm cnc đai Ln(θ)


θˆ = θˆML = argmax(Ln ) = argmax(An ).
θ

θ

a. Trưàng hap đc lắp v cựng phõn phoi
Hm hop lý v loga hàm hop lý có the đưoc viet là
Ln(θ) =


Qn

i= f
1

(yi, θ) và An(θ) =

Σn

i= log
1

f (yi, θ)

Khoang cách gan lien vói phương pháp hop lý cnc đai là khoang cách
Kullback- Leibler
g(y)

KL(g, f (., θ)) = g(y) log
dy
f (y, θ)



=

∫ g(y) log f (y,

(2.1)


θ)dy

g(y) log g(y)dy


nó là khoang cách tù mắt đ ỳng g túi xap xi cna nú l f (., θ).
Áp dung lu¾t so lón
1
(θ)
nAn −a−.
→s.

∫ g(y) log f (y, θ)dy =

log f (Y, θ)

Eg

Ưóc lưong hop lý cnc đai θˆ mà cnc đai An(θ) có xu hưóng h®i tu hau chac
chan tói θ0 là giá tr% cnc tieu cna khoang cách Kullback- Leibler tù mơ hình
th¾t tói mơ hình xap xi. Như v¾y
a . s.
θˆ − − → θ0 = argmin{KL(g, f (., θ))},
θ

giá tr% θ0 GQI là sai so nho nhat ho¾c xap xi tot nhat.
Nh¾n xét:
Như v¾y ưóc lưong hop lý cnc đai nham cung cap xap xi tham so tot
nhat vúi mắt đ ỳng g trong lóp tham so f (., θ). Neu mơ hình tham so là

th¾t sn đay đn và chính xác, khi đó g(y) = f (y, θ0) và cnc tieu cna khoang
cách Kullback- Leibler là bang 0.
Ta xác đ%nh


θ

u(y, θ) =

∂log f (y,θ)


và I(y, θ) =

∂2log f (y,θ)

∂θ∂θ
t

u(y, θ) là m®t hàm vectơ p-chieu thưịng gQI là vectơ điem so cna mơ hình vói
các thành phan ∂ log∂f (y,θ) vói j = 1, . . . , p; I(y, θ) là m®t ma trắn cừ p ì p GQI l
j

hm ma trắn thơngθ tin cna mơ hình, các thành phan cna nó là các đao hàm cap


×