Tải bản đầy đủ (.pdf) (79 trang)

Mô hình hồi quy cho biến định tính và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.53 MB, 79 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------------

Nguyễn Thị Nhung

MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG

LUẬN VĂN THẠC SỸ KHOA HỌC

Hà Nội – Năm 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------------

Nguyễn Thị Nhung

MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG

Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Mã số: 60460106

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS.TRẦN MẠNH CƯỜNG

Hà Nội – Năm 2016



Mục lục
LỜI MỞ ĐẦU .................................................................................................................................... 2
Chương 1 - Kiến thức chuẩn bị .......................................................................................................... 5
1.1 Mô hình tuyến tính cổ điển ...................................................................................................... 5
1.1.1 Mô hình ............................................................................................................................. 5
1.1.2 Ước lượng các tham số hồi quy ........................................................................................ 7
1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu ........................................ 9
1.1.4 Khoảng tin cậy của các hệ số hồi quy β ............................................................................ 9
1.1.5 Kiểm định các giả thiết về hệ số hồi quy ........................................................................ 11
1.1.6 Kiểm tra sự phù hợp của mô hình ................................................................................... 12
1.2 Một số hàm phân bố .............................................................................................................. 13
1.2.1 Phân bố beta .................................................................................................................... 13
1.2.2 Phân bố chuẩn ................................................................................................................. 14
1.2.3 Phân bố đa thức ............................................................................................................... 14
1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm ........................................................................ 16
1.3.1 Phân bố tiên nghiệm ........................................................................................................ 16
1.3.2 Phân phối hậu nghiệm ..................................................................................................... 18
Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân ................................................................... 20
2.1 Giới thiệu mô hình ................................................................................................................. 20
2.2 Ước lượng các tham số hồi quy ............................................................................................. 28
2.2.1 Phương pháp ước lượng hợp lý cực đại .......................................................................... 30
2.2.2 Phương pháp Bayes......................................................................................................... 32
2.2.3 Ví dụ................................................................................................................................ 34
2.3 Kiểm tra sự phù hợp của mô hình .......................................................................................... 39
2.3.1 Sử dụng phương pháp cổ điển......................................................................................... 39
2.3.2 Phương pháp Bayesian .................................................................................................... 42
2.4 Biến giả .................................................................................................................................. 45
Chương 3 - Các mô hình hồi quy cho dữ liệu thứ tự ....................................................................... 49
3.1 Dữ liệu thứ tự ......................................................................................................................... 49

3.2 Ước lượng các hệ số hồi quy.................................................................................................. 54
3.2.1 Phương pháp ước lượng hợp lý cực đại .......................................................................... 56
3.2.2 Phương pháp Bayes......................................................................................................... 58

1


3.2.3 Ví dụ................................................................................................................................ 62
Chương 4 - Sử dụng mô hình probit thứ tự để phân tích chất lượng sinh trưởng của cây rừng ...... 66
4.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu .................................................... 66
4.2 Mô tả dữ liệu .......................................................................................................................... 67
4.3 Phân tích chất lượng sinh trưởng của cây .............................................................................. 70
KẾT LUẬN ...................................................................................................................................... 76
TÀI LIỆU THAM KHẢO................................................................................................................ 77

LỜI MỞ ĐẦU

2


Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi
quy là công cụ phân tích đầy sức mạnh không thể thay thế. Nó là phương pháp
thống kê dùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào
quy luật quá khứ. Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một
biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập).
Trong phân tích hồi quy, có hai loại biến chính là biến định lượng và biến định
tính.
Biến định lượng là biến mà giá trị của những quan sát đó là những con số.
Biến định tính thường biểu thị có hay không có một tính chất hoặc biểu thị các mức
độ khác nhau của một tiêu thức, thuộc tính nào đó, chẳng hạn như giới tính, tôn

giáo, chủng tộc, nơi cư trú, ....Những biến định tính này cũng có sự ảnh hưởng đối
với biến phụ thuộc và phải được đưa vào mô hình hồi quy.
Trong luận văn này đưa ra một cách tiếp cận theo phương pháp thống kê là xây
dựng mô hình hồi quy với biến phụ thuộc là biến định tính. Từ đó đưa ra các
phương pháp đánh giá hiệu quả, ít tốn kém và dễ thực hiện được áp dụng rộng rãi
trong đời sống, xã hội. Với mục tiêu như vậy, luận văn này có tên “Mô hình hồi quy
cho các biến định tính và ứng dụng”.
Luận văn được chia làm bốn chương. Chương 1 giới thiệu về mô hình hồi quy
tuyến tính cổ điển với biến phụ thuộc là biến định lượng, mô hình này được xem là
nền tảng, cơ sở để xây dựng các mô hình hồi quy khác. Trong chương này, ta
nghiên cứu các bài toán ước lượng và kiểm định giả thiết cho sự phù hợp của mô
hình. Ngoài ra một phương pháp ước lượng theo hướng suy luận Bayes cũng được
giới thiệu trong chương này.
Chương 2 trình bày về mô hình hồi quy với biến phụ thuộc là biến nhị phân, chỉ
nhận hai giá trị là 0 và 1. Trong mô hình này nghiên cứu cách thành lập mô hình,
một số dạng mô hình phổ biến, các bài toán ước lượng và kiểm định kèm theo ví dụ
minh họa.

3


Chương 3 tiếp tục trình bày về mô hình hồi quy với biến phụ thuộc là biến định
tính được săp thứ tự. Các diễn giải về kết quả mô hình này được xem như là sự mở
rộng đối với các diễn giải của mô hình hồi quy với dữ liệu nhị phân.
Chương 4 là phần ứng dụng của mô hình hồi quy thứ tự để phân tích chất lượng
sinh trưởng của cây rừng từ bộ dữ liệu được lấy thực tế. Trong chương này, một số
kết quả đạt được có ý nghĩa thực tế như chất lượng sinh trưởng của cây rừng phụ
thuộc mạnh vào những yếu tố như đường kính tán, chiều cao, đường kính 1m3. Các
loài cây khác nhau cũng có sự đánh giá khác nhau về chất lượng sinh trưởng, mức
độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó.

Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ bảo tận
tình của Ts. Trần Mạnh Cường. Thầy đã dành rất nhiều thời gian quý báu của mình
để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá trình bắt đầu tới khi hoàn
thành luận văn. Nhân dịp này, tôi xin tỏ lòng biết ơn sâu sắc nhất tới Thầy.
Qua đây, tôi xin cảm ơn các Thầy, Cô khoa Toán- Cơ- Tin, trường Đại học Khoa
học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy đã tham gia giảng dạy
khóa Cao học Toán 2013-2015.
Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để tôi có
thể khắc phục những khó khăn gặp phải trong suốt quá trình học.
Hà Nội, ngày 10 tháng 3 năm 2016
Học viên
Nguyễn Thị Nhung

4


Chương 1 - Kiến thức chuẩn bị
1.1 Mô hình tuyến tính cổ điển
1.1.1 Mô hình
Giả sử X1, …, Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự
báo. Ví dụ, ta giả sử Y là giá nhà ở. Khi đó Y phụ thuộc vào các yếu tố sau:
• X1 là diện tích sử dụng (m2).
• X2 là vị trí vùng (thành phố ).
• X3 là giá của năm trước.
• X4 là chất lượng xây dựng.
Sự phụ thuộc giữa biến Y theo các biến X1, …, Xk nói chung là rất phức tạp. Tuy
nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình hồi quy
tuyến tính cổ điển khẳng định rẳng Y phụ thuộc tuyến tính vào các Xk (nghĩa là Y là
một biểu thức bậc nhất của X1, …, Xk ) và sai số ngẫu nhiên 𝜺. Như vây:
Y = β0 + β1X1 +…+ βkXk + 𝜺.


(1.1)

Trong đó: βi, i = 0 ,…, k là các hệ số chưa biết gọi là các hệ số hồi quy; β0 gọi là hệ
số chặn; β1, …….., βk là các hệ số góc (độ dốc).
Bây giờ ta tiến hành n quan sát độc lập đồng thời về (k+1) biến X1, …, Xk, Y. Giả
sử các số liệu quan sát tuân theo mô hình sau:
y1 = β0 + β1x11 +…+ βkx1k + 𝜺1 .
y2 = β0 + β1x21 +…+ βkx2k + 𝜺2 .
....................................................
yn = β0 + β1xn1 +…+ βk xnk + 𝜺n.

5

(1.2)


Trong đó các sai số: 𝜺1, …, 𝜺n thỏa mãn 3 điều kiện sau:
a, E(𝜺j) = 0 (Việc đo đạc không chịu sai lệch hệ thống).
b, D(𝜺j) = 𝜎2 (phương sai không đổi ).
c, cov(𝜺i , 𝜺j) = 0

i ≠ j = 1, …, n (các sai lệch từng bước không ảnh hưởng đến

nhau) .
Mô hình (1.2) có thể viết dưới dạng ma trận như sau:

=
[


]

+
[

][

]

.
[

]

Hoặc đơn giản hơn:
Y = X β + 𝜺,

(1.3)

trong đó:

được gọi là ma trận thiết kế cấp n

X=
[

(k+1) của các biến độc

]


lập.
Y = [ y1, ..., yn ]Tgồm n vecto quan sát; β = [β0, …, βk]T gồm k vecto các hệ số hồi
quy; 𝜺 = [𝜺1, …, 𝜺n]T gồm n vecto sai số ngẫu nhiên.

6


Và:
i, E(𝜺) = 0.
ii, cov(𝜺) = E(𝜺𝜺T) = 𝜎2In.
1.1.2 Ước lượng các tham số hồi quy
Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và vecto Y của các giá trị
quan sát, hãy ước lượng vecto tham số β. Ở đây, chúng ta sử dụng phương pháp
bình phương cực tiểu.
Nếu chúng ta sử dụng vecto b = (b0, …, bk) là giá trị thử của β thì giữa các quan sát
yj và b0 + b1xj1 +….+ bkxjk ; ( j=1,…,n) sẽ có một độ lệch:
yj - ( b0 + b1xj1 + … + bkxjk),
nói chung độ lệch này sẽ khác 0.
Nội dung của phương pháp bình phương cực tiểu là hãy chọn giá trị của vecto b sao
cho:
S(b) = ∑
= (Y-Xb)T(Y-Xb) → min.
Đại lượng ̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β, còn:
̂ = yj – ( ̂

̂

̂


); j =1, …, n

gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo
X1,…, Xk là tuyến tính, nên phương trình :
̂=̂

̂

̂

được gọi là phương trình hồi quy tuyến tính mẫu.

7

,


Vì phiếm hàm S(b) là hàm bậc 2 theo b nên dễ thấy ̂ có thể tìm được từ hệ phương
trình sau:
= 0; i = 0, …., k.
Hoặc tương đương:

{

∑(

)

∑(


)

∑(

)

Do đó:

b0∑

(

)
+ b1 ∑



.

+ ……….+ bk∑

=∑

.

………………………………………………………………...
b0∑

+ b1 ∑


+……….+ bk∑

=∑

.

Chú ý rằng nếu đặt: xj0 =1 cho j = 1,…, n ta có phương trình sau:












=

[ ∑





8

][


]

.
[∑

]


Hoặc dưới dạng ma trận:
XTXb = XTY.

(*)

Phương trình (*) gọi là phương trình chuẩn.
Vì rank(X) = k + 1 ≤ n nên XT X là ma trận cấp (k + 1)

(k + 1) có ma trận nghịch

đảo (XT X)-1.
Từ (*), ta có nghiệm:
b = ̂ = (XT X)-1XT Y.
1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu
i. Ước lượng ̂ là ước lượng không chệch với :
E ̂ = β; cov( ̂ ) = 𝜎2(XT X)-1.
ii. Phần dư ̂ có tính chất: ̅̂ = 0 (điều này cũng tương đương với ̅

̅
̂ ).


E(̂) = 0; cov( ̂) = 𝜎2(I - H).
iii. ̂ = ̂ ̂/(n - k - 1) = ∑

̂ /(n - k - 1) là ước lượng không chệch của 𝜎2, tức là:
E (̂ ) = 𝜎2.

iv. ̂ và ̂ là không tương quan:
cov ( ̂ ̂) = 0; cov( ̂ ̂ ) = 0.
1.1.4 Khoảng tin cậy của các hệ số hồi quy β
Trong phần này ta xét mô hình hồi quy cổ điển (1.2) và (1.3)với giả thiết thêm
rằng: Các 𝜺j có cùng phân bố chuẩn N(0, 𝜎2In) và độc lập tức là: 𝜺 = (𝜺1,…….,𝜺n )T
có phân bố chuẩn Nn(0, 𝜎2In).
Mệnh đề 1
i. ̂ có phân bố chuẩn Nk+1 (β, 𝜎2(XT X)-1).

9


ii.

̂

=



̂

có phân bố χ2 với n - k - 1 bậc tự do.


iii. ̂ và ̂ là độc lập.
Mệnh đề 2
Xét mô hình hồi quy tuyến tính cổ điển Y = X β + 𝜺 với X có hạng là: k + 1 ≤ n và
𝜺 có phân bố chuẩn N(0, 𝜎2In). Khi đó miền tin cậy đồng thời mức: 1 - α của β xác
định bởi:
(β - ̂ )TXT X(β - ̂ ) ≤ (k + 1)̂ Fk + 1, n - k - 1(α).
Trong đó: Fk + 1, n - k - 1(α) là phân vị trên mức α của phân bố F với k + 1 và n - k - 1
bậc tự do. Nói cách khác, với độ tin cậy (1 - ) giá trị trân thực β phải nằm bên
trong ellipsoid:
(x - ̂ )TXT X(x - ̂ ) = (k + 1)̂ Fk + 1, n - k - 1(α).
Hơn nữa, khoảng tin cậy đồng thời mức: 1 - α của các βi, i = 0, …, k được xác định
bởi các mút:
̂
Trong đó: ̂ ̂

√̂ ̂

.

ký hiệu phần tử thứ i trên đường chéo chính của ma trận hiệp

phương sai 𝜎2(XT X)-1 và là ước lượng không chệch của D( ̂ ) .
Mệnh đề 3
Giả sử tn - k - 1(

) là phân vị trên mức

của phân bố Student với n - k -

1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của β, với mức tin cậy (1 - α)

cho bởi các đầu mút:
̂

√̂ ̂ .

10


1.1.5 Kiểm định các giả thiết về hệ số hồi quy
Xét mô hình hồi quy tuyến tính cổ điển đã xét trong (1.3). Trong khi thiết lập mô
hình, ta giả thiết tất cả các biến độc lập X1,…, Xk đều tham gia vào phương trình
hồi quy. Song, trên thực tế có một số biến độc lập không tham gia vào phương trình
hồi quy, tức là các hệ số của nó trong phương trình bằng 0. Tuy nhiên các giá trị
ước lượng của nó có thể khác 0. Vậy khi nào các hệ số ước lượng được xem là bằng
0 thực sự? Điều này dẫn ta đến bài toán kiểm định giả thiết :
H0 = βp + 1 = …. = βk (0 < p < k).

(1.4)

Với đối thiết :
K:

{p + 1, …, k} sao cho βi

.

Giả thiết H0 có nghĩa là các biến độc lập Xp+1, …, Xk không tham gia vào biểu thức
tuyến tính (1.1), ngược lại đối thiết K nói rằng: có ít nhất một trong các biến này
quả thực cần tính đến trong mô hình. Tổng quát hơn, ta xét bài toán kiểm định dạng:


H0 : {

(1.5)

Cβ= a.
Trong đó: C = [ cij] là ma trận cấp (k - p)

(k + 1); a= [a1, …, ak - p]T.

Ta giả thiết rằng: ma trân C của các hệ số của (k - p) tổ hợp tuyến tính này có hạng
(k - p).
Giả thiết H0 xác định bởi (1.4) là trường hợp đặc biệt của giả thiết (1.5) với:

C=[

]=[0

11

]; a = [0, 0, …, 0]T.


Xét giả thiết :
H0: Cβ = a (đã cho) và 𝜺 có phân bố chuẩn N (0, 𝜎2In).
Theo mệnh đề 1, ̂ có phân bố chuẩn Nk + 1(β, 𝜎2(XT X)-1) nên C ̂ là ước lượng
không chệch với phương sai nhỏ nhất của Cβ và C ̂ có phân bố chuẩn Nk2
T
p(Cβ,𝜎 C(X

X)-1CT). Vì vậy ta sẽ bác bỏ giả thiết H0: Cβ = a nếu a nằm ngoài


ellipsoid tin cậy của Cβ.
Quy tắc kiểm định: Bác bỏ giả thiết H0: Cβ = 0 nếu:
(C ̂ (C(XT X)-1CT)-1C ̂ /̂ > (k - p)Fk - p, n - k - 1 (α).
Nhận xét: Ngoài phương pháp kiểm định trên, ta có thể sử dụng mệnh đề 3, về
khoảng tin cậy của βp+1, ..., βk với các mút ̂

tn - k - 1(

)√ ̂ ̂

để kiểm định

giả thiết (1.4). Điều đó có nghĩa là: Nếu 0 không thuộc vào các khoảng đó, tức là
với 1 chỉ số i

mà:
|̂ | > ̂

tn - k - 1(

)√ ̂ ̂ .

Thì ta coi βi
1.1.6 Kiểm tra sự phù hợp của mô hình
Xét mô hình hồi quy tuyến tính (1.2). Mô hình hồi quy tuyến tính sẽ phù hợp với
dãy số liệu đang quan sát nếu các sai số 𝜺i quả thật chỉ do các yếu tố ngẫu nhiên tạo
nên, tức chúng là dãy biến ngẫu nhiên độc lập, cùng phân phối. Vì mô hình đang xét
có phân phối chuẩn, nên ta cần phải kiểm tra xem các sai số có phân bố chuẩn N(0,
𝜎


) hay không? Để kiểm tra giả thiết đó người ta thường xét các tiêu chuẩn sau

đây:
Tiêu chuẩn F
Xét đại lượng:

12


F=

.

(1.6)

Trong đó:
R2 =

̂ ̂

̅
̅

=

∑ ̂

̅




̅

=

̂

,

gọi là bình phương của hệ số xác định, đó là tỉ lệ biến thiên của các biến yj được
giải thích bởi các biến xj1, …, xjk.
Mệnh đề 4: Nếu sai số 𝜺 có phân bố chuẩn N(0, 𝜎

) và nếu βi = 0; i = 1

thì F

cho bởi (1.6) có phân bố F với k và n - k - 1 bậc tự do.
Từ mệnh đề này, ta đưa ra quy tắc: Nếu F quá lớn hoặc F gần 0 ta cần bác bỏ giả
thiết có phân bố chuẩn N(0, 𝜎

) hoặc bác bỏ β1 = ….. = βk = 0.

Chẳng hạn cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0.02/2 như sau:
+ Tra bảng phân bố F với k và (n - k - 1) bậc tự do ta được giá trị Fk, n - k - 1 (0.02/2).
+ Khi đó nếu thấy F > Fk, n - k - 1 (0.01) hoặc F <
ε có phân bố chuẩn N(0, 𝜎

ta cần bác bỏ giả thiết


) hoặc bác bỏ β1 = ….. = βk = 0.

1.2 Một số hàm phân bố
1.2.1 Phân bố beta
Công thức tổng quát cho hàm mật độ xác suất của phân bố beta là:
f(x) =

,a

x

b; p, q

0.

Trong đó: p, q là các tham số quan tâm; a, b tương ứng là các giới hạn trên và giới
hạn dưới của phân phối và B(p,q) là hàm beta. Hàm beta có công thức là:
B(α, β) = ∫

.

13


Trường hợp: a = 0, b = 1 thì được gọi là phân phối beta tiêu chuẩn. Phương trình
cho phân phối beta tiêu chuẩn là:
f(x) =
Với trung bình:


,0

x

1; p, q

0.

.

Độ lệch chuẩn: √

.

1.2.2 Phân bố chuẩn
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối cực kỳ quan trọng
trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác
tham số giá trị trung bình μ và phương sai ζ2.
Hàm mật độ xác suất của phân phối chuẩn với trung bình μ và phương sai ζ2 (hay
độ lệch chuẩn ζ) là một ví dụ của một hàm Gauss,
f(x; μ, ζ) =

exp (–



).

Nếu một biến ngẫu nhiên X có phân phối này, ta ký hiệu X


N(μ, ζ2).

Nếu μ = 0 và ζ = 1, thì phân phối được gọi là phân phối chuẩn chuẩn hóa và hàm
mật độ xác suất rút gọn thành:
f(x) =

exp (–



).

1.2.3 Phân bố đa thức
Phân phối đa thức được sinh ra từ một mở rộng của thí nghiệm nhị thức, trong đó
mỗi phép thử có k

2 các kết quả có thể.

14


Giả sử rằng chúng ta có một thí nghiệm với n phép thử độc lập, trong đó mỗi phép
thử đưa ra một cách chính xác một trong các sự kiện E1 ,…, Ek và mỗi phép thử Ej
xảy ra với xác suất πj, j = 1,…, k. Chú ý rằng: π1 + π2 + …+ πk = 1.
Định nghĩa các biến ngẫu nhiên:
X1 = số phép thử trong đó E1 xảy ra.
X2 = số phép thử trong đó E2 xảy ra.
…………………………………….
Xk = số phép thử trong đó Ek xảy ra.
Khi đó: X = (X1, X2,…, Xk) được cho là có một phân bố đa thức với chỉ số n và

tham số π = (π1, π2, …, πk). Trong hầu hết các vấn đề, n được xem là cố định và đã
biết.
Các thành phần của vecto đa thức ngẫu nhiên thì tuân theo phân phối nhị thức:
X1

Bin (n, π1 ).

X2

Bin (n, π2 ).

………………
Xk

Bin (n, πk ).

Và: X1 + X2 +…+ Xk = n.
Nếu X = (X1, X2,…, Xk) tuân theo một phân bố đa thức với chỉ số n và tham số π =
(π1, π2, …, πk) thì ta sẽ viết: X

Mult(n, π).

Xác suất mà X = (X1, X2,…, Xk) nhận một giá trị cụ thể x = (x1, x2,…, xk) là:
f(x) =

.

15



Các giá trị có thể của X là một tập vecto x mà mỗi xj

{0, 1, 2, …, n} và x1 + x2 +

…+ xk = n.

1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm
1.3.1 Phân bố tiên nghiệm
Phân bố tiên nghiệm của tham số p là một phân phối xác suất thể hiện cho sự
không chắc chắn về p trước khi quan sát dữ liệu. Từ phân bố tiên nghiệm chúng ta
có thể tìm được phân bố hậu nghiệm của p. Chúng ta sử dụng phân bố hậu nghiệm
để thực hiện tất cả các suy luận. Chúng ta không thể thực hiện bất kỳ suy luận
Bayesian hay thực hiện bất kỳ mô phỏng nào mà không sử dụng một phân phối tiên
nghiệm.
Để minh họa cho việc sử dụng một mật độ tiên nghiệm trong suy luận, chúng ta xét
ví dụ p là tỷ lệ sinh viên thuận tay trái trong một cuộc khảo sát các sinh viên trường
Đại học Khoa học tự nhiên. Khi đó p có thể là bất kỳ giá trị nào trong khoảng (0, 1).
Tất cả các giá trị của p

0,1) có thể là một tiên nghiệm hợp lý như nhau. Để mô

phỏng thông tin này, tiên nghiệm cho p có thể được chọn là một hàm mật độ đồng
đều:
g(p) = 1, 0 < p < 1.
như trong hình 1.1(trên).

16


Hình 1.1: Hai hàm mật độ tiên nghiệm cho p.


Hàm mật độ đồng đều này phản ánh niềm tin tiên nghiệm mà Pr(p < 0.25 ) = Pr(p >
0.75) = 0.25. Tiên nghiệm này thường gọi là mơ hồ hay không mang thông tin, bởi
vì nó phản ánh sự thiếu thông tin tiên nghiệm về giá trị của p.
Một tiên nghiệm thứ 2 có thể chính xác hơn về giá trị của p. Giả sử tiên nghiệm này
cho rằng: Chỉ một tỷ lệ nhỏ sinh viên thuận tay trái. Khi đó, hàm mật độ tiên
nghiệm cho p có thể tập trung vào các giá trị nhỏ trong khoảng (0, 1). Hàm mật độ
thể hiện cho tiên nghiệm này được trình bày trong hình 1.1(dưới). Quan sát thấy
rằng hầu hết phần lớn của hàm mật độ này nằm giữa 0 và 0.5. Xác suất mà p
0.25) và p

(0,

(0.75,1) cho mật độ tiên nghiệm này tương ứng là: 0.8 và xấp xỉ 0.

Phân phối này phản ánh quan điểm của một cá nhân về tỷ lệ sinh viên thuận tay trái
có khả năng dưới 25%. Một tiên nghiệm như vậy được gọi là một tiên nghiệm mang
thông tin.

17


1.3.2 Phân phối hậu nghiệm
Như trên, hàm mật độ tiên nghiệm g(p) phản ánh niềm tin của một nhà nghiên cứu
trước khi quan sát bất kỳ dữ liệu nào. Một khi đã thu được dữ liệu, hàm mật độ tiên
nghiệm được cập nhật trên cơ sở các thông tin mới. Chúng ta gọi phân bố xác suất
được cập nhật trên tham số quan tâm là phân bố hậu nghiệm, bởi vì nó phản ánh
niềm tin xác suất sau khi nhìn thấy các dữ liệu.
Theo định lý Bayes, phân bố xác suất hậu nghiệm được tính bằng cách nhân hàm
hợp lý với mật độ tiên nghiệm. Mật độ hậu nghiệm thu được theo chiến lược cập

nhật đơn giản:
Hậu nghiệm ∝ tiên nghiệm

hàm hợp lý.

Trong đó: ∝ biểu thị mối quan hệ tỷ lệ. Trong điều kiện của các hàm mật độ xác
suất,
g(p|data) ∝ g(p)L(p).
Ví dụ: Giả sử rằng một mẫu ngẫu nhiên cỡ n = 16 được chọn và có y = 5 sinh viên
được báo cáo là thuận tay trái.
Hàm hợp lý cho dữ liệu xác định bởi:
L(p) = ( ) py(1 - p)n - y, 0 < p < 1.
Mật độ hậu nghiệm thu được là:
g(p| data) ∝ g(p)( ) p5(1 - p)11, 0 < p < 1.
Trong đó: g(p) biểu thị hàm mật độ tiên nghiệm cho p được lựa chọn bởi các nhà
nghiên cứu. Nếu tiên nghiệm g(p) được chọn là hàm mật độ đồng đều như hình
1.1(trên), thì mật độ hậu nghiệm của p là:
g(p| data) ∝ ( ) p5(1 - p)11, 0 < p < 1.

18


Đối với các khả năng nhị thức, một lớp tiên nghiệm thích hợp cho p là họ beta(a, b).
Hàm mật độ tiên nghiệm beta(a,b) là tỷ lệ với:
g(p) ∝ pa - 1(1 - p)b - 1, 0 < p < 1.
Chúng ta xem cuộc khảo sát trước đây như là một mẫu có kích thước a + b, bao
gồm a thành công và b thất bại. Trong ví dụ khảo sát, chúng ta có thể giả sử thông
tin tiên nghiệm của chúng ta là tương đương với một cuộc điều tra sơ bộ mà chúng
ta đã quan sát thấy 1 sinh viên thuận tay trái và 9 sinh viên thuận tay phải. Trong
trường hợp này, chúng ta đang ngầm tuyên bố rằng chúng ta có thông tin tiên

nghiệm tương đương với một cuộc điều tra mẫu của 10 cá nhân, và dự đoán tốt nhất
của chúng ta về tỷ lệ p là: 1 / (1 + 9) = 0.1. Thông tin cụ thể này tương ứng với một
tiên nghiệm beta (2, 10) (được vẽ trong Hình 1.2, phía dưới).
Trong trường hợp mà có ít thông tin tiên nghiệm về p, để thuận tiện chúng ta
thường giả sử rằng p có mật độ đồng đều trên khoảng (0, 1). Nhìn vào công thức
tổng quát của mật độ beta, chúng ta thấy mật độ đồng đều là một trường hợp đặc
biệt của mật độ beta với a = 1 và b = 1.
Bởi vì mật độ beta là liên hợp với dữ liệu nhị thức, phân phối hậu nghiệm mà được
tạo ra từ một mật độ beta cũng có dạng hàm mật độ beta. Cụ thể, nếu chúng ta quan
sát thấy y thành công, (n - y) thất bại và sử dụng tiên nghiệm beta (a, b), thì định lý
Bayes đưa đến một mật độ hậu nghiệm cho p với hình thức:
g(p| data) ∝ [ py (1 - p)n
=



- y

][pa

- 1

(1 - p)b

- 1

].

.


Trong đó: a* = a + y và b* = b + n – y. Do đó, phân phối hậu nghiệm của p cũng là
một mật độ beta với các tham số a*và b* .

19


Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân
2.1 Giới thiệu mô hình
Để minh họa cho mô hình, trước tiên chúng ta xét ví dụ sau: Giả sử ta muốn xây
dựng mô hình hồi quy biểu diễn mối quan hệ giữa điểm thi của sinh viên trong một
lớp xác suất dựa trên điểm của môn học tiên quyết (grade) và điểm SAT-phần toán
(SAT-M) với dữ liệu cho trong bảng 2.1.
Bảng 2.1: Các mức điểm giả thiết cho một lớp các sinh viên thống kê.
Sinh viên

Điểm môn xác suất

Yi

Điểm SAT-M

Điểm môn học tiên quyết

1

D

0

525


B

2

D

0

533

C

3

B

1

545

B

4

D

`1

582


A

5

C

1

581

C

6

B

1

576

D

7

C

1

572


B

8

A

1

609

A

9

C

1

559

C

10

C

1

543


D

11

B

1

576

B

12

B

1

525

A

13

C

1

574


F

14

C

1

582

D

15

B

1

574

C

16

D

0

471


B

17

B

1

595

B

18

D

0

557

C

19

F

0

557


A

20

B

1

584

A

21

A

1

599

B

22

D

0

517


C

23

A

1

649

A

24

B

1

584

C

25

F

0

463


D

26

C

1

591

B

27

D

0

488

C

28

B

1

563


B

29

B

1

553

B

30

A

1

549

A

20


Trong bảng trên, cột thứ nhất đánh số thứ tự các sinh viên trong lớp học thống kê.
Cột thứ 2 liệt kê các điểm nhận được trong lớp học này. Cột thứ 3 chỉ rõ nếu sinh
viên thứ i thi đậu hoặc thi trượt. Cột thứ 4 và thứ 5 cung cấp số điểm trong bài kiểm
tra SAT-M và mức điểm của môn học tiên quyết. Ta quan tâm đến biến cố “thi đậu”

(điểm

C) của sinh viên. Gọi Yi là biến biểu thị kết quả của quan sát thứ i:
Yi = {

.

Dữ liệu trong đó mỗi kết quả có thể được mô tả như là một trong hai sự thi đậu hoặc
thi trượt gọi là dữ liệu nhị phân.
Gọi pi là xác suất mà sinh viên thứ i thi đậu lớp học thống kê là, có nghĩa là:
Pr (Yi = 1) = pi.
Do đó:

Pr (Yi = 0) = 1 - pi.

Để thấy được mối liên hệ giữa biến nhị phân Yi và biến SAT- M, người ta vẽ biểu
đồ hình 2.1a.

Hình 2.1a: Đồ thị vẽ chỉ số Yi dựa trên số điểm SAT- Mi. Yi chỉ nhận hai giá trị có thể là 0 và 1.
Các sinh viên được được nhóm theo số điểm SAT-M, với các nhóm được cho bởi các đường chấm
chấm.

Tuy nhiên, nhìn vào biểu đồ này khó có thể thấy mối quan hệ giữa biến nhị phân Yi
và biến SAT-M. Do đó người ta vẽ tỉ lệ của các sinh viên thi đậu trong mỗi nhóm
dựa vào điểm giữa của khoảng nhóm (Hình 2.1b).

21


Hình 2.1b: Đường bình phương tối thiểu được mô tả bởi một đường chấm chấm trong đồ thị.


Từ hình 2.1b, dường như có một mối quan hệ giữa số điểm SAT-M và xác suất thi
đậu khóa học thống kê. Để mô phỏng mối quan hệ này, chúng ta phải giải quyết các
câu hỏi sau:
1. Dạng hàm số nào là tốt nhất để mô tả mối quan hệ giữa xác suất thành công
pi và biến SAT-Mi ?
2. Cho một dạng hàm số phù hợp mô tả mối quan hệ này. Làm thế nào chúng ta
có thể ước lượng các tham số trong mô hình và làm thế nào chúng ta có thể
đánh giá sự không chắc chắn trong các ước lượng của chúng ta về những
tham số đó?
3. Mô hình mô tả tốt như thế nào mối quan hệ hàm số giữa xác suất thành công
pi và biến SAT-M?
Có lẽ giả thuyết đơn giản nhất mà chúng ta có thể thực hiện về mối quan hệ giữa
các xác suất thành công pi và số điểm SAT-M là giả định rằng chúng có mối quan
hệ tuyến tính. Do đó, chúng ta có thể giả sử xác suất thi đậu cho sinh viên thứ i, pi
là:
pi = β 0 + β 1

SAT-Mi

(2.1)

Trong phương trình này, β0 và β1 là các tham số hồi quy chưa biết cần được ước
lượng từ dữ liệu và SAT-Mi biểu thị số điểm SAT-M cho sinh viên thứ i.

22


Trong phương trình cụ thể (2.1), chúng ta đã giả định rằng xác suất mà sinh viên i
thi đậu pi, tăng (hoặc giảm) một cách tuyến tính đối với số điểm SAT-Mi của sinh

viên đó.
Xem lại hình 2.1b, giả định rằng có một mối quan hệ tuyến tính giữa các xác suất
thành công pi và các điểm số SAT-toáni. hình 2.1b mô tả đường bình phương tối
thiểu. Phương trình cho đường này là:
̂ i = −3.44 + 0.0074

SAT-Mi

(2.2)

Từ phương trình trên, chúng ta có thể dự đoán một sinh viên với số điểm SAT-M là
580 sẽ có xác suất thi đậu khóa học thống kê là:
̂ i = −3.44 + 0.0074

580 = 0.85.

Tuy nhiên, điều gì xảy ra với một sinh viên mà có số điểm SAT-M là 350? Theo
phương trình (2.2), sinh viên này thi đậu khóa học xác suất với xác suất là:
̂ i = -3,44 + 0,0074

350 = -0.85.

Tương tự như vậy, một sinh viên mà có số điểm SAT-M là 800 được dự đoán có
xác suất thi đậu là:
̂ i = -3,44 + 0,0074

800 = 2.48 .

Một cách rõ ràng, chúng ta mong muốn các xác suất được dự đoán từ mô hình hồi
quy nằm trong khoảng (0, 1). Thực tế là phương trình hồi quy tuyến tính trên của

chúng ta dự đoán các giá trị nằm ngoài khoảng này. Điều này cho thấy mối quan hệ
giữa các xác suất thành công pi và số điểm SAT-Mi nói chung là không thể được mô
hình hóa bằng một đường thẳng.
Một giải pháp cho vấn đề này là sử dụng các hàm mà chỉ nhận các giá trị trong
khoảng (0,1). Đối với các nhà thống kê, một lớp tự nhiên của các hàm như vậy được
cung cấp bởi các hàm phân phối tích lũy. Nhớ lại rằng, với bất kỳ biến X ngẫu

23


×