Tải bản đầy đủ (.pdf) (73 trang)

Phân tích thống kê chất lượng gỗ và các vấn đề liên quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.1 MB, 73 trang )

Mục lục
1 Mô hình Logit thứ bậc và mô hình Probit thứ bậc 1
1.1 Mô hình biến ẩn đối với biến thứ tự . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Giả thiết về phân phối của sai số . . . . . . . . . . . . . . . . . . . 4
1.1.2 Xác suất của giá trị quan sát . . . . . . . . . . . . . . . . . . . . . 5
1.2 Xác định mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Ước lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y

. . . . . . . . 9
1.4.2 Xác suất dự báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự báo . . . . 14
1.4.4 Biến đổi gián đoạn . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.5 Mô hình số chênh trong mô hình logit thứ bậc . . . . . . . . . . . . 18
1.5 Giả thuyết hồi quy song song . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Các mô hình liên kết đối với dữ liệu tính trạng . . . . . . . . . . . . . . . . 24
1.6.1 Mô hình hồi quy ghép nhóm . . . . . . . . . . . . . . . . . . . . . 24
1.6.2 Các mô hình khác về dữ liệu tính trạng . . . . . . . . . . . . . . . . 25
2 Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình
liên quan 26
2.1 Giới thiệu về mô hình logit đa thức . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Mô hình logit đa thức . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Mô hình MNLM được xét như mô hình xác suất . . . . . . . . . . . 30
2.2.2 Mô hình MNLM như một mô hình tỉ số . . . . . . . . . . . . . . . 31
2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc . . . . . . . . . 32
2.3 Ước lượng hợp lí cực đại . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Tính toán và kiểm tra các hệ số tương phản khác . . . . . . . . . . . . . . 34
2.5 Hai kiểm định hữu dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1 Kiểm tra biến không có ảnh hưởng . . . . . . . . . . . . . . . . . . 36
2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau . . . . . . . 37


2.6 Giải thích mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1 Xác suất dự báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.2 Biến đổi riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.3 Biến đổi rời rạc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.4 Lí giải tỉ số chênh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.5 Vẽ các hệ số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7 Mô hình logit có điều kiện . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
i
3 Sử dụng mô hình logit thứ bậc để phân tích chất lượng sinh trưởng của
cây rừng 51
3.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu . . . . . . . . . . 51
3.2 Mô tả dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3 Phân tích chất lượng sinh trưởng của cây . . . . . . . . . . . . . . . . . . 56
3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh” . . . . . . . . . . . . . . . 56
3.3.2 Phân tích phẩm chất gỗ đối với dữ liệu từ rừng trồng . . . . . . . 63
3.4 Bàn luận về các kết quả của mô hình hồi quy . . . . . . . . . . . . . . . . 66
Kết luận 68
Tài liệu tham khảo 69
ii
Lời mở đầu
Trong nghành Lâm Nghiệp, một trong những công việc rất quan trọng là
đánh giá chất lượng sinh trưởng của rừng. Từ kết quả thu được, người ta sẽ
đưa ra các phương pháp bảo tồn, phát triển hoặc khai thác rừng một cách
hiệu quả nhất. Thông thường, các chuyên gia đến tận nơi đo đạc, khảo sát và
dựa vào cả kinh nghiệm của mình để đưa ra kết luận rằng cây được xem xét
là sinh trưởng tốt, sinh trưởng trung bình hay sinh trưởng kém. Một phương
pháp như vậy là khá tốn kém và khó thực hiện khi những người có trình độ
cao, kinh nghiệm dày dặt không nhiều. Vấn đề đặt ra là có phương pháp nào
ít tốn kém hơn nhưng cũng có độ chính xác cao hay không. Trong luận văn
này đưa ra một cách tiếp cập theo phương pháp thống kê là xây dựng mô

hình hồi quy với biến phụ thuộc là chất lượng sinh trưởng, biến giải thích là
các tiêu chí đo đạc được của cây. Với mục tiêu như vậy, luận văn này có tên
“ Phân tích chất lượng gỗ và các vấn đề liên quan”.
Luận văn được chia thành ba chương. Chương 1 giới thiệu về mô hình hồi
quy thứ bậc với biến phụ thuộc là biến tính trạng có thứ tự. Trong chương
này, ta nghiên cứu các mô hình là mô hình Probit, mô hình Logit và mô hình
số chênh. Những phương pháp diễn giải các kết quả rất hữu ích của mô hình
như: hiệu quả riêng, biến đổi gián đoạn. . . cũng được giới thiệu trong chương
này.
Chương thứ 2 trình bày về mô hình Logit đa thức. Mô hình này áp dụng
với biến phụ thuộc là biến định danh. Các diễn giải về kết quả mô hình này
được xem như là sự mở rộng đối với các diễn giải của mô hình Logit thứ
bậc, tuy nhiên khi biến phụ thuộc có nhiều tính trạng hoặc có nhiều biến
giải thích thì mô hình khá phức tạp do có nhiều hệ số. Khó khăn này được
giải quyết bằng phương pháp vẽ đồ thị thể hiện mối liên hệ giữa các hệ số.
Chương thứ 3 là phần chạy các mô hình từ dữ liệu thực tế và diễn giải
các kết quả từ mô hình đã xây dựng. Trong chương này, một số các kết quả
đạt được có những ý nghĩa thực tế như: chất lượng sinh trưởng của cây rừng
phụ thuộc mạnh vào những yếu tố đường kính tán, chiều cao, đường kính
1m3. Các loài cây khác nhau cũng có sự đánh giá khác nhau về sinh trưởng,
iii
mức độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó. Đối với
chất lượng gỗ của rừng trồng thì yếu tố quyết định để phân loại chất lượng
gỗ là đường kính 1m3. Các yếu tố khác có ảnh hưởng không đáng kể.
Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ
bảo tận tình của PGS.TS Hồ Đăng Phúc. Thầy đã dành rất nhiều thời gian
quý báu của mình để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá
trình bắt đầu tới khi hoàn thành luận văn. Nhân dịp này, tôi xin bày tỏ lòng
biết ơn sâu sắc nhất tới thầy Hồ Đăng Phúc.
Qua đây, tôi xin cảm ơn tới các thầy cô khoa Toán –Cơ – Tin, trường Đại

học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các thầy đã
tham gia giảng dạy khóa Cao học Toán 2011-2013.
Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để
tôi có thể khác phục những khó khăn gặp phải trong suốt quá trình học
Hà Nội, ngày 11 tháng 12 năm 2014
Học viên
Vũ Ngọc Trìu
iv
Chương 1
Mô hình Logit thứ bậc và mô hình
Probit thứ bậc
Đối với mô hình hồi quy tuyến tính, ta làm việc với biến phụ thuộc được
giả thiết là biến định lượng liên tục. Đây là mô hình rất phổ biến và được
sử dụng rộng rãi. Tuy nhiên trong các vấn đề kinh tế- xã hội, chúng ta bắt
gặp nhiều biến phụ thuộc không liên tục và thậm chí không quan sát được.
Các biến dạng này được gọi chung là các biến phụ thuộc giới hạn (limited
dependent variable, LDV). Trong luận văn này sẽ trình bày các mô hình phi
tuyến đối với các biến phụ thuộc là biến thứ tự và biến định danh. Ta định
nghĩa các biến dạng này như sau:
Biến thứ tự (ordinal variable) là biến có các tính trạng được sắp thứ tự.
Ví dụ trong cuộc điều tra các câu hỏi được đưa ra và phương án trả lời có
thể là các lựa chọn: tuyệt đối đồng ý, đồng ý, không đồng ý và hoàn toàn
không đồng ý.
Biến định danh (nominal variable) là biến có nhiều tính trạng và các tính
trạng không có thứ hạng. Ví dụ tình trạng hôn nhân có thể là các tính trạng
sau: độc thân, đã kết hôn, li dị, góa bụa.
Đối với biến có thứ tự, các tính trạng có thể được sắp thứ tự từ thấp tới cao,
nhưng khoảng cách giữa các tính trạng gần kề chưa được xác định. Những
tính trạng này được đánh số lần lượt và mô hình hồi quy tuyến tính (LRM)
có thể được áp dụng. Tuy nhiên, ta ngầm giả thiết rằng khoảng cách giữa các

tính trạng là bằng nhau. Một vấn đề là khi dùng mô hình hồi quy tuyến tính
đối với biến LDV, ước lượng có thể chệch và vì thế dẫn tới những kết quả sai
lầm, thậm chí không chấp nhận được. Cho nên các mô hình phi tuyến được
đề xuất mặc dù những lí giải về nó phức tạp hơn nhiều.
Trong chương đầu tiên, ta xét các mô hình logit thứ bậc và probit thứ bậc
(ordered logit and ordered probit models). Hai mô hình này có quan hệ chặt
1
chẽ với nhau và được gọi chung là mô hình hồi quy thứ bậc (ordered regression
models, ORM). Một số mô hình liên quan với hai mô hình trên cũng được
giới thiệu.
1.1 Mô hình biến ẩn đối với biến thứ tự
Mô hình hồi quy thứ bậc ORM có thể nhận được từ một mô hình hồi quy
thông thường với biến phụ thuộc là một biến liên tục. Trong mô hình ORM,
biến phụ thuộc định lượng là một biến ẩn y

có thể nhận giá trị từ−∞ tới
+∞, song bị ẩn dưới biến phụ thuộc quan sát được y thông qua một ánh xạ
được xác định như sau:
y
i
= m khi τ
m−1
≤ y

< τ
m
, m = 1, , J
Các điểm τ được gọi là điểm cắt. Tính trạng đầu tiên và cuối cùng tương
ứng với m = 1 và m = J được định nghĩa bởi khoảng mở tương ứng với
τ

0
= −∞ và τ
J
= +∞. Để hiểu rõ hơn về ý tưởng trên, ta xét ví dụ sau đây
về cuộc điều tra phỏng vấn do General Social Survey. Trong một cuộc điều
tra phỏng vấn, mọi người được yêu cầu trả lời câu hỏi sau đây: “Một người
mẹ làm việc thì tình cảm và sự quan tâm tới con cái của họ có như những
người mẹ không đi làm hay không ?”. Các lựa chọn trả lời là:
Rất khác biệt (strongly disagree) SD
Khác biệt (Disagree) D
Giống nhau (Agree) A
Hoàn toàn như nhau (Strong agree) SA
Biến tính trạng này liên kết với biến ẩn liên tục y

, trong đó biến y

chỉ ra
các mức khác biệt đối với câu hỏi về “Người mẹ làm việc thì tình cảm và sự
quan tâm mà họ dành cho con cái có như người mẹ không đi làm không?”.
Biến quan sát được y được xác định thông qua y

bởi ánh xạ sau:
y
i
=



1 =⇒ SD, khi τ
0

= −∞ ≤ y

< τ
1
2 =⇒ D, khi τ
1
≤ y

< τ
2
3 =⇒ A, khi τ
2
≤ y

< τ
3
4 =⇒ SA, khi τ
3
≤ y

< τ
4
= +∞
Ánh xạ này được minh họa bằng hình vẽ sau
Đường thẳng nét liền thể hiện biến ẩn y

, các điểm cắt được xác định và
được đánh dấu bằng τ
1
, τ

2
và τ
3
. Giá trị của biến quan sát y trên mỗi khoảng
của y

được đánh dấu với đường chấm. Cấu trúc của mô hình là:
y

i
= x
i
β + ε
i
2
Trong đó, x
i
là véc tơ hàng với các số 1 ở cột đầu tiên và quan sát thứ i đối
với biến độc lập x
k
được xuất hiện ở cột thứ k + 1, β là véc tơ hệ số với hệ
số chặn β
0
.
Hình 1.1: Hồi quy với biến ẩn y

Hình 1.2: Hồi quy với biến y
Mô hình chỉ chứa một biến độc lập có cấu trúc như sau:
y


i
= α + βx
i
+ ε
i
Trong Hình 1.1, biến ẩn y

là trục tung, các giá trị 15, 0 ,-5 phân chia tỷ lệ
của y

. Các điểm cắt τ
1
, τ
2
và τ
3
được chỉ ra bởi đường ngang chấm chấm.
Đường này chia y

thành 4 miền giá trị của biến quan sát y, τ
0
= −∞ ở
vị trí dưới cùng và τ
4
ở trên cùng. Đường hồi quy E(y

|x) = α + βx với
α = 1, β = 0.1 được vẽ là đường liền. Vì y

không quan sát được nên α, β

không ước lượng được bằng hồi quy y

theo x.
Trong Hình 1.2 vẽ biến quan sát y theo x, biến y được xác định từ biến ẩn
y

bằng cách gán tất cả các trường hợp mà y

lớn hơn τ
3
tương ứng với số 4,
trường hợp y

nằm giữa τ
2
và τ
3
là số 3. Tương tự cho các trường hợp tiếp
theo của y

. Uớc lượng bình phương tối thiểu (OLS) của hàm hồi quy y theo
x, được chỉ ra bởi đường đứt với ước lượng độ dốc là 0,026.
Đường hồi quy y theo x không xấp xỉ đường hồi quy y

theo x, vì đường này
có độ dốc lớn hơn 4 lần.
Đường hồi quy trong Hình 1.1 và Hình 1.2 trông có vẻ giống nhau bởi vì tỷ
lệ của các trục là khác nhau. Nếu trục y trong Hình 1.2 được vẽ với cùng tỷ
lệ như Hình 1.1 thì đường hồi quy y theo x trông như đường ngang. Một vấn
đề khác khi hồi quy y theo x là sai số không có phân phối chuẩn và phương

sai không thuần nhất. Tổng quát, mô hình hồi quy tuyến tính (LRM) chỉ có
3
cùng kết quả như mô hình hồi quy thứ bậc (ORM) nếu những điểm cắt có
khoảng cách như nhau. Khi khoảng cách giữa các điểm này khác nhau thì
kết quả của mô hình hồi quy tuyến tính (LRM) có thể đưa tới những kết quả
sai lầm.
Hình 1.1 còn chỉ ra một tính chất quan trọng của mô hình ORM. Trong hình
này, bạn có thể thêm hoặc bỏ đi những điểm cắt mà không làm thay đổi
cấu trúc mô hình. Tưởng tượng rằng, ta vẽ một đường ngang giữa τ
1
và τ
2
.
Điều này tương ứng thêm một tính trạng khác như “ không ý kiến” giữa “
khác biệt ” và “ giống nhau”. Đường hồi quy của y

theo x sẽ không bị ảnh
hưởng. Trong Hình 1.2, nếu ta thêm một tính trạng mới sẽ tương ứng thêm
một đường ngang mới của biến quan sát y, điều này ảnh hưởng tới kết quả
của hồi quy y theo x.
1.1.1 Giả thiết về phân phối của sai số
Để dùng được phương pháp ước lượng hợp lí cực đại, ta phải giả thiết về
phân phối của sai số. Ta xét hai phân phối là phân phối chuẩn và phân phối
logistic tương ứng với mô hình probit thứ bậc và logit thứ bậc. Đối với mô
hình probit thứ bậc, sai số ε được giả thiết có phân phối chuẩn với trung
bình 0 và phương sai 1 (phân phối chuẩn tắc). Hàm mật độ của phân phối
đó là
φ(ε) =
1



exp(−
ε
2
2
)
Với hàm phân phối tích lũy
Φ(ε) =

ε
−∞
1


exp(−
t
2
2
)dt (1.1)
Với mô hình logit thứ bậc, sai số ε được giả sử có phân phối logit với
trung bình 0 và phương sai π
2
/3. Hàm mật độ của nó là
λ(ε) =
exp(ε)
[1 + exp(ε)]
2
Với hàm phân phối tích lũy
Λ(ε) =
exp(ε)

1 + exp(ε)
(1.2)
Để đơn giản kí hiệu trong chương này, ta dùng hàm F thay thế cho các hàm
phân phối Φ hoặc Λ và hàm f thay cho các hàm mật độ φ hoặc λ.
4
1.1.2 Xác suất của giá trị quan sát
Khi phân phối của sai số đã xác định, ta có thể tính được xác suất của
giá trị quan sát y với giá trị x biết trước. Hình 1.3 minh họa phân phối của
y

đối với 3 giá trị của x. Sai số có phân phối logitic hoặc chuẩn xung quanh
đường hồi quy E(y

|x) = α + βx. Xác suất để biến đầu ra nhận giá trị là m
tương ứng với điểm cắt τ
m−1
và τ
m
. Xác suất để sai số rơi vào miền mà biến
y

nằm trong khoảng [τ
m−1
; τ
m
) được tính như sau: Đầu tiên, ta tính xác
suất khi y = 1. Với y = 1 khi đó y

nhận các giá trị trong khoảng (−∞, τ
1

).
Điều này chỉ ra rằng:
Hình 1.3: Phân phối của y

theo x trong mô hình hồi quy thứ bậc
P r(y
i
= 1 | x
i
) = P r(τ
0
≤ y

< τ
1
| x
i
)
Thay y

= xβ + ε và phương trình trên, ta có
P r(y
i
= 1 | x
i
) = P r(τ
0
≤ x
i
β + ε

i
< τ
1
| x
i
)
Từ đó suy ra
P r(y
i
= 1 | x
i
) = P r(τ
0
− x
i
β ≤ ε
i
< τ
1
− x
i
β | x
i
)
Vậy, ta có kết quả:
P r(y
i
= 1 | x
i
) = F (τ

1
− x
i
β) − F(τ
0
− x
i
β)
Với cách làm tương tự, khi biến quan sát nhận giá trị y = m, ta có
P r(y
i
= m) | x
i
= F (τ
m
− x
i
β) − F(τ
m−1
− x
i
β) (1.3)
Chú ý rằng, trong công thức trên vì F (τ
0
− x
i
β) = F (−∞) = 0 và F (τ
J

x

i
β) = F (+∞ − x
i
β) = 1. Do đó, đối với mô hình có 4 biến đầu ra, như ví
5
dụ được xét ở trên, công thức xác suất của mô hình probit thứ bậc là
P r(y
i
= 1 | x
i
) = F (τ
1
− x
i
β),
P r(y
i
= 2 | x
i
) = F (τ
2
− x
i
β) − F(τ
1
− x
i
β),
P r(y
i

= 3 | x
i
) = F (τ
3
− x
i
β) − F(τ
2
− x
i
β),
P r(y
i
= 1 | x
i
) = 1 − F(τ
3
− x
i
β).
Ví dụ, nếu α = −0.5; β = 0.052; τ
1
= 0.75; τ
2
= 3.5; τ
3
= 5.0 khi x = 15.40
và 80, theo công thức trên các xác suất tính được là
Xác suất x = 15 x = 45 x = 80
dự báo

P r(y
i
= 1 | x) 0.68 0.20 0.00
P r(y
i
= 2 | x) 0.32 0.77 0.44
P r(y
i
= 3 | x) 0.00 0.03 0.47
P r(y
i
= 4 | x)) 0.00 0.00 0.09
Phương trình (1.3) có được từ các giả thiết về phân phối của sai số thông qua
việc sử dụng khái niệm về biến ẩn. Cách làm này rất hữu ích để phát triển
các mô hình. Tuy nhiên, đôi khi ý tưởng về biến ẩn là không hợp lý. Ví dụ,
học hàm là có thứ tự, nhưng thật khó tưởng tượng biến ẩn sinh ra các thứ
hạng: Trợ giảng (assistant), phó giáo sư (associate), giáo sư (full professor).
Trong những trường hợp này, ta có thể xem phương trình (1.3) như mô hình
xác suất của mối quan hệ giữa biến độc lập x và xác suất biến đầu ra nhận
một giá trị nào đó.
1.2 Xác định mô hình
Vì y

là biến ẩn, trung bình và phương sai của nó không ước lượng được.
Phương sai được xác định bằng giả thiết V ar(ε | x) = π
2
/3 đối với mô hình
logit và V ar(ε | x) = 1 với mô hình probit (ordered probit model). Mặc dù
đã giả thiết phương sai xác định nhưng trung bình của biến ẩn y


vẫn chưa
được biết. Kết quả của điều này có thể được thấy bằng việc xét mô hình
y

= α + βx + ε với điểm cắt τ
m
. Các tham số α và τ
m
được coi như tham
số “chính xác” theo nghĩa chúng đã được sử dụng để tạo ra dữ liệu được lưu
trữ. Ta định nghĩa tập tham số mới:
α

= α − δ; τ

= τ −δ (1.4)
6
trong đó, δ là hằng số bất kì. Xác suất để y = m luôn được xác định với bất
cứ tập tham số nào như vậy được dùng. Ta có
P r(y
i
= m | x
i
) = F (τ
m
− α − βx) − F(τ
m−1
− α − βx)
= F ([τ
m

− δ] −[α − δ] − βx) − F([τ
m−1
− δ] −[α − δ] − βx)
= F (τ

m
− α

− βx) − F(τ

m−1
− α

− βx)
(1.5)
Vì cả hai tập tham số đều tạo ra cùng một giá trị của xác suất nhận giá
trị cho trước của biến đầu ra nên không có cách nào để lựa chọn giữa hai
tập tham số nếu chỉ sử dụng dữ liệu quan sát được. Thật vậy, việc thay đổi
hệ số chặn α trong mô hình cấu trúc luôn có thể được điều chỉnh bằng việc
thay đổi các ngưỡng của điểm cắt τ
m
. Như vậy, có thể nói mô hình không
xác định. Tuy nhiên, có rất nhiều giả thiết có thể làm cho mô hình trở lên
xác định được. Hai giả thiết thường được dùng nhất bao gồm:
1. Giả sử rằng τ
1
= 0 . Điều này liên quan tới đặt δ = τ
1
. Đây là giả thiết
nhận dạng được dùng với mô hình nhị phân (biến quan sát nhận 2 giá

trị 0 hoặc 1)
2. Giả sử rằng α = 0. Điều này liên quan tới đặt δ = α trong phương trình
(1.4).
Cả hai giả thiết để xác định mô hình đều chứa một ràng buộc đối với tham
số của mô hình. Những giả thiết khác nhau để xác định mô hình cho ta các
cách tham số hóa khác nhau đối với mô hình đang xét. Việc lựa chọn cách
tham số hóa là bất kì miễn sao không ảnh hưởng tới các hệ số β khác với hệ
số chặn β
0
và không ảnh hưởng tới các phép kiểm định thống kê.
1.3 Ước lượng
Đặt β là véctơ tham số từ cấu trúc mô hình với hệ số chặn β
0
ở hàng
đầu tiên. Đặt τ là véctơ chứa tham số là các điểm cắt. Để mô hình được xác
định, thì hoặc β
0
hoặc τ
1
bằng 0. Từ phương trình (1.3), ta có
P r(y
i
= m | x
i
, β, α) = F (τ
m
− α − xβ) − F(τ
m−1
− α − xβ) (1.6)
Xác suất của giá trị bất kì của biến quan sát y với điều kiện x

i

p
i
=







P r(y
i
= 1 | x
i
, β, τ) khi y = 1
P r(y
i
= 2 | x
i
, β, τ) khi y = 2

P r(y
i
= J | x
i
, β, τ) khi y = J
(1.7)
7

Vì các quan sát là độc lập, phương trình hợp lí là
L(β, τ | y, x) =
N

i=1
p
i
(1.8)
Kết hợp (1.6) với (1.8), ta có hàm hợp lí
L(β, τ | y, x) =
J

j=1

y
i
=j
P r(y
i
= j | x
i
, β, τ)
=
J

j=1

y
i
=j

[F (τ
j
− x
i
β) − F(τ
j−1
− x
i
β)]
(1.9)
Trong đó

y=j
là tích chạy trên tất cả trường hợp ở đó y = j. Lấy log hàm
hợp lí, ta có
Ln(β, τ | x, y) =
J

j=1

y
i
=j
ln[F (τ
j
− x
i
β) − F(τ
j−1
− x

i
β)]
Phương trình này được cực đại hóa bằng phương pháp số để ước lượng các
giá trị của tham số τ và β. Kết quả chứng minh được rằng ước lượng hội tụ
tới cực đại lý thuyết và ước lượng là vững, tiệm cận chuẩn, tiệm cận hiệu
quả.
Ví dụ: Mô hình ORM và LRM đối với quan điểm về người mẹ làm
việc
Năm 1977 và 1989 General Social Sunver đề nghị phản hồi với ước đoán
của phát biểu sau: “ Một người mẹ đi làm có tình cảm và sự chăm sóc
con cái như người mẹ ở nhà hay không?”. Câu trả lời được mã hóa bằng
biến WARM, với các tính trạng được gán tương ứng với các số như sau:
1 = SD; 2 = D; 3 = A; 4 = SA. Mẫu gồm 2293 quan sát, tỉ lệ phần trăm
tương ứng là 13, 32, 37, 18. Các biến dùng trong phân tích được mô tả ở
Bảng 1.1. Bảng 1.2 chứa ước lượng đối với 4 mô hình. Cột 1 chứa ước lượng
đối với mô hình tuyến tính (LRM):
W ARM = β
0

1
Y R89+β
2
MALE+β
3
W HITE+β
4
AGE+β
5
ED+β
6

P RST +ε
Cột 2 chứa ước lượng đối với mô hình probit thứ bậc với ràng buộc τ
1
= 0 ;
cột 3 chứa ước lượng của mô hình probit thứ bậc với β
0
= 0 và cột 4 chứa
ước lượng của mô hình logit thứ bậc với β
0
= 0. Trong phần tiếp, ta chỉ ra
cách lí giải hệ số bằng biến ẩn và cách dùng những hệ số này để tính ảnh
hưởng về xác suất của biến quan sát.
8
Bảng 1.1: Thống kê cơ sở các biến ở ví dụ 1
Tên biến Trung bình Độ lệch Giá trị Giá trị Mô tả
chuẩn nhỏ nhất lớn nhất
WARM 2.61 0.93 1.00 4.00 1 = SD, 2 = D, 3 = A, 4 = SA
YR89 0.40 0.49 0.00 1.00 Năm điều tra 1 = 1989, 0 = 1977
MALE 0.47 0.50 0.00 1.00 1=male, 0=female
WHITE 0.88 0.33 0.00 1.00 1=white,0 =no white
AGE 44.94 16.78 18.00 89.00 Tuổi của người được điều tra
EDU 12.22 3.16 0.00 20.00 Số năm đi học
PRST 39.59 14.49 12.00 82.00 Lương
Bảng 1.2: Hệ số hồi quy của các mô hình LRM; probit và logit thứ bậc
Tên biến LRM Orderd probit Orderd probit Orderd logit
τ
1
= 0 β
0
= 0 β

0
= 0
YR89 β 0.262 0.319 0.319 0.524
Z 6.94 6.56 6.56 6.33
MALE β -0.336 -0.417 -0.417 -0.733
Z -9.19 -9.06 -9.06 -9.23
WHITE β -0.177 -0.227 -0.227 -0.391
Z -3.17 -3.23 -3.23 -3.27
AGE β -0.01 -0.012 -0.012 -0.022
Z -8.70 -8.27 -8.27 -8.52
ED β 0.031 0.039 0.039 0.067
PRST β 0.003 0.003 0.003 0.006
Z 1.73 1.71 1.71 1.84
1.4 Giải thích
1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y

Đối với mô hình hồi quy thứ bậc ORM
y

= xβ + ε
biến đổi riêng của y

theo x
k
là:
∂y

∂x
k
= β

k
Vì mô hình là tuyến tính đối với y

nên biến đổi riêng có thể được lý giải
như sau:
• Đối với việc tăng lên 1 đơn vị của x
k
, y

được kì vọng biến đổi β
k
đơn
vị nếu tất cả các biến độc lập giữ nguyên giá trị không đổi.
Vì phương sai của y

không thể ước lượng được từ dữ liệu quan sát được nên
ý nghĩa của biến đổi β đơn vị của y

là không rõ ràng. Sự lí giải nên dựa trên
9
hệ số của mô hình hồi quy chuẩn hóa đầy đủ, là mô hình hồi quy có được sau
khi biến phụ thuộc và tất cả các biến độc lập đều được đưa về dạng chuẩn
hóa, có kì vọng bằng 0 và phương sai bằng 1. Nếu σ
y

là độ lệch chuẩn của
biến ẩn y

, khi đó trong mô hình hồi quy hệ số chuẩn hóa đối với x
k


β
S
y

k
=
β
k
σ
y

Hệ số có thể được lí giải như sau
• Khi x
k
tăng 1 đơn vị thì y

được kì vọng tăng thêm β
S
y

k
lần độ lệch chuẩn
nếu các biến độc lập khác được giữ nguyên giá trị không đổi.
Hệ số chuẩn hóa chỉ ra hiệu quả của biến độc lập đối với một đơn vị đo của
ban đầu nó. Hệ số chuẩn đầy đủ tiêu chuẩn hóa biến độc lập theo nghĩa nếu
σ
k
là độ lệch chuẩn của x
k

, khi đó hệ số chuẩn đầy đủ là:
β
S
k
=
β
k
σ
k
σ
y

Hệ số chuẩn hóa đầy đủ của mô hình hồi quy được lí giải như sau:
• Đối với việc tăng lên 1 đơn vị độ lệch chuẩn của x
k
thì y

được kì vọng
tăng β
S
k
lần độ lệch chuẩn nếu các biến độc lập khác được giữ nguyên
giá trị không đổi.
Phương sai của y

được ước lượng bởi:
ˆσ
2
y


=
ˆ
β


V ar(x)
ˆ
β + V ar(ε) (1.10)
ở đó

V ar(x) là ma trận hiệp phương sai của các biến độc lập;
ˆ
β chứa ước
lượng có được bằng phương pháp hợp lí cực đại và var(ε) = 1 đối với mô
hình probit thứ bậc và var(ε) = π
2
/3 đối với mô hình logit thứ bậc.
Hệ số trong Bảng 1.3 được tính từ độ dốc trong Bảng 1.2 và mô tả thống kê
10
trong Bảng 1.1. Phương sai của y

được ước lượng bằng cách sử dụng đẳng
thức (1.9) với kết quả
ˆ
σ
2
y

= 3.77 đối với mô hình logit thứ bậc và
ˆ

σ
2
y

= 1.16
đối với mô hình probit thứ bậc. Chú ý
ˆ
σ
2
y

L
/
ˆ
σ
2
y

P
= 3, 25 tỉ số này rất gần với
tỉ số giả thiết var(ε
P
)/var(ε
L
) = 3, 29 . Sự sai khác về phương sai của y

giũa hai mô hình được phản ánh trong độ lớn của các β ở đó hệ số của mô
hình logit lớn hơn mô hình probit từ 1,0 đến 1,8 lần. Hệ số chuẩn hóa đầy
đủ và hệ số chuẩn hóa của y


gần như bằng nhau.
Bên cạnh mô hình hồi quy chuẩn hóa đầy đủ nêu trên, ta còn sử dụng mô
hình hồi quy chuẩn hóa không đầy đủ với biến phụ thuộc được chuẩn hóa,
còn các biến độc lập được giữ nguyên.
1.4.2 Xác suất dự báo
Xác suất dự báo tại y=m khi biết trước x là:
P r(y = m | x) = F (ˆτ
m
− x
ˆ
β)) − F(ˆτ
m−1
− x
ˆ
β)
Những xác suất này có thể được dùng bằng nhiều cách để phân tích mối
quan hệ giữa các biến độc lập và biến tính trạng phụ thuộc.
1. Xác định giá trị trung bình và khoảng biến đổi của xác suất dự báo Rất
hữu ích nếu ta bắt đầu việc nghiên cứu bằng khảo sát trung bình, giá
trị nhỏ nhất và giá trị lớn nhất của xác suất dự báo trên mẫu.
mean

P r(y = m | x) =
1
N
N

i=1

P r(y

i
= m | x
i
)
min

P r(y = m | x) = min
i

P r(y
i
= m | x
i
)
max

P r(y = m | x) = max
i

P r(y
i
= m | x
i
)
Ở đó, ký hiệu min
i
và max
i
dùng để chỉ việc lấy minimum (maximum)
của xác suất dự báo trên tất cả các quan sát. Trong bảng Bảng 1.4, xét

biến đầu ra SD với xác suất nhỏ nhất là 0.02 và xác suất lớn nhất là
0.47, khoảng biến động 0.45. Tương tự các kết quả được liệt kê đối với
tất cả các tính trạng trong ví dụ của chúng ta. Khi có những biến động
đủ lớn trong mỗi tính trạng những phân tích sâu sắc hơn nên được đưa
11
ra. Trong trường hợp khoảng biến động quá nhỏ sự phân tích sâu hơn
không cần thiết.
2. Vẽ xác suất dự báo
Với một biến độc lập, toàn bộ đường cong xác suất có thể được vẽ. Khi
có nhiều biến hơn , hiệu quả của từng biến được tính riêng trong khi
các biến còn lại được giữ nguyên. Ví dụ hiệu quả của độ tuổi đối với
xác suất của biến đầu ra có thể được vẽ với việc giữ nguyên giá trị của
tất cả các biến khác và chỉ cho phép độ tuổi thay đổi. Để làm điều này,
đặt x

chứa cột đầu tiên là 1, cột thứ hai là 1 để chỉ cuộc điều tra năm
1989, 0 ở cột thứ ba để chọn phụ nữ. Và các biến khác trừ biến tuổi
được gán bằng giá trị trung bình tương ứng. Khi đó:

P r(W ARM = m | x

) = F (ˆτ
m
− x

ˆ
β)) − F(ˆτ
m−1
− x


ˆ
β)
là xác suất dự báo của biến đầu ra nhận giá trị m đối với phụ nữ năm
1989 thuộc vào một nhóm tuổi cố định nào đó và các biến khác nhận
giá trị được giữ nguyên tại trung bình của nó.
Những xác suất được vẽ trong Hình 1.4. Xét xác suất đối với tính trạng
SA, đường cong này được chỉ ra bởi đường cong gắn với hình tròn, tại
20 tuổi xác suất là 0.39. Khi độ tuổi tăng lên xác suất dự báo giảm tới
0.25 ở độ tuổi 50 và 0.15 ở tuổi 80. Đường cong xác suất của tính trạng
D được chỉ ra bởi đường cong gắn với hình tam giác. Nó bắt đầu tại 0.16
ở độ tuổi 20 và kết thúc là 0.34 ở độ tuổi 80. Độ dịch chuyển hay biến
đổi về xác suất của tính trạng D nhỏ hơn của tính trạng SD, đường cong
xác suất đối với tính trạng SD được chỉ ra bởi đường cong gắn với hình
thoi, nó bắt đầu tại 0.04 và kết thúc 0.12. đường cong xác suất của tính
trạng A được chỉ ra bởi đường cong gắn với hình vuông. Đường cong
này minh họa một đặc trưng hiếm gặp của mô hình ORM. Đường cong
xác suất này bắt đầu từ 0.42 tăng tới 0.44 và sau đó giảm xuống 0.38.
Hiệu quả của độ tuổi đối với tính trạng A đầu tiên là tăng và sau đó là
giảm xuống. Điều này xảy ra là vì khi tuổi tăng từ 20 nhiều trường hợp
12
từ tính trạng SA chuyển sang tính trạng A hơn từ tính trạng A chuyển
sang tính trạng D do vậy xác suất của tính trạng A tăng lên. Khi tuổi
lớn hơn, nhiều trường hợp ở tính trạng A chuyển sang tính trạng D hơn
từ tính trạng A chuyển sang tính trạng SA kết quả là xác suất nhỏ hơn.
3. Vẽ hàm phân phối xác suất tích lũy
Hàm phân phối xác suất tích lũy là xác suất của biến đầu ra nhận giá
trị nhỏ hơn hoặc bằng giá trị nào đó. Một cách công thức, xác suất để
biến quan sát y nhận giá trị nhỏ hơn hoặc bằng m là:
P r(y ≤ m | x) =
m


j=1
P r(y = j | x) = F (τ
m
− xβ)
Trong ví dụ của ta, xác suất tích lũy sẽ là xác suất của SD, P r(y ≤ 1 | x),
xác suất tích lũy của SD hoặc D là P r(y ≤ 2 | x), Những xác suất
này với ví dụ đang xét được vẽ trong Hình 1.5.
Hình 1.4: Xác suất dự báo
Hình 1.5: Xác suất tích lũy
4. Bảng xác suất dự báo
Dạng bảng cũng có thể được dùng để biểu diễn xác suất xuất hiện các
tính trạng. Bảng 1.5 chứa các xác suất dự báo đối với Nam và Nữ qua
các năm của cuộc điều tra, có thể so sánh sự khác biệt về xác suất giữa
hai giới tính trong từng năm và giữa các năm. Thứ nhất, có thể ghi
nhận rằng đối với quan điểm cho rằng “ Không có sự khác biệt giữa
nhóm phụ nữ đi làm và nhóm phụ nữ không đi làm về sự gắn bó và cởi
mở của họ đối với con cái” thì khả năng xuất hiện câu trả lời “không
đồng tình” và “ hoàn toàn không đồng tình” sẽ cao hơn ở nhóm nam
giới so với nhóm phụ nữ, đồng thời khả năng đưa ra ý kiến “đồng tình”
và “hoàn toàn đồng tình” lại thấp hơn ở nhóm nam giới so với nhóm nữ
13
giới. Thứ hai, từ năm 1977 đến năm 1989 đã có sự dịch chuyển tích cực
hơn ở cả hai nhóm nam và nữ.
1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự
báo
Phương pháp thứ ba để giải thích mô hình ORM là tính biến đổi riêng
đối với xác suất khi biến quan sát nhận một giá trị nào đó. Nhắc lại rằng,
xác suất biến quan sát nhận giá trị bằng m với x cho trước là:
P r(y = m | x) = F (τ

m
− xβ) − F(τ
m−1
− xβ)
Lấy đạo hàm riêng theo x
k
của phương trình trên, ta có
∂P r(y = m | x)
∂x
k
=
F (τ
m
− xβ)
∂x
k

F (τ
m−1
− xβ)
∂x
k

k
[f(τ
m
− xβ) − f(τ
m−1
− xβ)]
Biến đổi riêng hay hiệu quả biên là độ dốc của đường cong liên hệ giữa x

k
và Pr(y = m | x) khi tất cả các biến khác giữ nguyên một giá trị nào đó.
Chú ý rằng dấu của hiệu quả riêng không nhất thiết phải cùng dấu với β, vì
f(τ
m
− xβ) − f(τ
m−1
− xβ) có thể âm. Thật vậy, có thể hiệu quả riêng của
x
k
thay đổi dấu khi x
k
biến đổi. Nhìn vào Hình 1.4 đối với xác suất của tính
trạng A (ký hiệu bằng các hình vuông). Ban đầu độ dốc là dương điều này
chỉ ra rằng hiệu quả riêng là tăng theo độ tuổi. Đến quá tuổi 40, hiệu quả
riêng có dấu âm cho thấy độ tuổi tăng sẽ làm giảm xác suất của tính trạng
A.
Vì hiệu quả riêng phụ thuộc vào từng mức của tất cả các biến độc lập nên
khi tính hiệu quả đó chúng ta phải xác định rõ là dựa trên giá trị cụ thể nào
của các biến. Một cách xử lý là tính hiệu quả riêng trung bình trên tất cả
14
các quan sát:
mean
∂P r(y = m | x)
∂x
k
=
1
N
β

k
[f(τ
m−1
− xβ) − f(τ
m
− xβ)]
Phổ biến hơn, hiệu quả riêng của biến x
k
được tính tại giá trị trung bình của
tất cả các biến khác:
∂P r(y = m | x)
∂x
k
= β
k
[f(τ
m−1
− ¯xβ) −f(τ
m
− ¯xβ)]
Có thể tính hiệu quả riêng tại các giá trị cố định khác của các biến. Ví dụ,
Bảng 1.6 chứa các biến đổi riêng của xác suất được tính cho nhóm phụ nữ
vào năm1989. Các tính toán được tiến hành với việc cố định giá trị của biến
Male bằng 0 và biến YR89 bằng 1, các biến còn lại được giữ nguyên tại giá
trị trung bình của chúng. Nói chung, hiệu quả riêng không chỉ ra biến đổi về
xác suất khi quan sát thấy x
k
thay đổi một đơn vị. Tuy nhiên, nếu đường
cong xác suất đối với biến độc lập gần như tuyến tính thì hiệu quả riêng có
thể được dùng để tính tác động của việc thay đổi biến độc lập một đơn vị

lên xác suất của biến đầu ra. Ví dụ, cho trước một quan hệ tuyến tính giữa
tuổi và xác suất của tính trạng D được chỉ ra trong Hình 1.4. Chúng ta kết
luận :
• Đối với nữ giới năm 1989, nếu độ tuổi tăng thêm 10 tuổi thì xác suất
của tính trạng D tăng thêm 0,032
Giá trị 0,032 bằng 10 lần hiệu quả riêng của độ tuổi đối với tính trạng D.
Chú ý rằng, lí giải này về hiệu quả riêng chỉ hợp lí khi đường cong xác suất
là gần như tuyến tính.
1.4.4 Biến đổi gián đoạn
Sự giải thích dùng hiệu quả riêng có thể không dẫn đến kết quả khi đường
cong xác suất thay đổi quá nhanh hoặc khi biến độc lập là biến giả. Đối với
15
mô hình ORM, ta nhận thấy rằng đo những biến đổi gián đoạn có nhiều
thông tin hơn.
Biến đổi gián đoạn là biến đổi về xác suất đối với sự dịch chuyển của biến
độc lập x
k
từ giá trị bắt đầu x
S
tới x
E
và được tính như sau:
P r(y = m | x)
x
k
= P r(y = m | x, x
k
= x
E
) −P r(y = m | x, x

k
= x
s
)
trong đó, kí hiệu P r(y = m | x, x
k
) là xác suất để cho y = m với x cho trước
và x
k
là một giá trị xác định.
• Khi x
k
thay đổi từ x
E
tới x
S
xác suất dự báo biến đầu ra nhận giá trị
m thay đổi P r(y = m | x)/x
k
, khi tất cả các biến khác được giữ
nguyên giá trị nào đó.
Vì mô hình đang xét là phi tuyến, giá trị của biến đổi gián đoạn phụ thuộc
vào 3 nhân tố: (1) mức của tất cả các biến khác với giá trị được giữ nguyên,
(2) giá trị ban đầu của biến x
k
, (3) lượng thay đổi của biến x
k
. Phổ biến
nhất là cách tính biến đổi gián đoạn của biến độc lập x
k

từ giá trị x
S
tới giá
trị x
E
theo công thức trên và tất cả các biến khác được lấy giá trị không đổi
và bằng giá trị trung bình của chúng. Đối với biến độc lập là biến giả, biến
đổi riêng có thể được tính ở cả hai giá trị. Ví dụ, ta có thể tính biến đổi gián
đoạn đối với tuổi cho nam và nữ riêng biệt.
Giá trị ban đầu và lượng thay đổi của biến x
k
được chọn phụ thuộc vào mục
đích của phân tích. Những lựa chọn hữu ích thường là những lựa chọn sau:
1. Tổng hiệu quả của biến x
k
được tính bằng cách cho biến này thay đổi từ
giá trị nhỏ nhất tới giá trị lớn nhất.
2. Hiệu quả của biến nhị phân tính được bằng việc cho biến x
k
thay đổi từ
0 đến 1.
3. Hiệu quả của 1 đơn vị biến đổi được tính bằng thay đổi từ ¯x tới ¯x + 1
và biến đổi gián đoạn ở trung tâm được tính bằng thay đổi từ ¯x − 1/2
tới ¯x + 1/2.
4. Hiệu quả của sự thay đổi với khoảng biến đổi bằng độ lệch chuẩn của x
k
được tính bằng biến đổi từ ¯x tới ¯x + s
k
và biến đổi tương ứng ở trung
tâm được tính bằng biến đổi từ ¯x −1/2s

k
tới ¯x + 1/2s
k
.
Bảng 1.7 chứa giá trị về biến đổi gián đoạn đối với ví dụ ta đang xét và mô
hình được dùng là mô hình logit. Đối với biến nhị phân, thay đổi về xác suất
16
dự báo khi biến độc lập thay đổi giá trị từ 0 đến 1.
• Xác suất đối với tính trạng SD của Nam cao hơn Nữ là 0.08, khi tất cả
biến khác được giữ nguyên giá trị tại giá trị trung bình của nó.
Đối với biến không phải nhị phân, ta nên kiểm tra thay đổi về xác suất dự
báo đối với 1 đơn vị biến đổi gần kề giá trị trung bình, sự thay đổi với khoảng
biến đổi là độ lệch chuẩn quanh giá trị trung bình và thay đổi khi biến độc
lập thay đổi từ giá trị nhỏ nhất tới giá trị lớn nhất. Ví dụ
• Nếu tăng thêm 1 năm đi học thì xác suất của tính trạng SA tăng lên
0.01 khi các biến khác được giữ nguyên giá trị tại giá trị trung bình của
chúng.
• Nếu độ tuổi tăng lên một lượng bằng độ lệch chuẩn của biến này thì xác
suất của tính trạng D tăng lên 0.05 khi các biến khác được giữ nguyên
giá trị tại giá trị trung bình của chúng.
• Nếu tiền lương thay đổi từ min tới max thì biến đổi về xác suất dự báo
của tính trạng SA là 0.06 khi các biến khác được giữ nguyên giá trị tại
giá trị trung bình của chúng.
Hiệu quả của mỗi biến được tính bằng trung bình của tổng của giá trị tuyệt
đối đối với biến đổi riêng của biến đầu ra theo từng tính trạng.
¯
 =
1
J
J


j=1




P r(y = j | ¯x)
x
k




Những giá trị được liệt kê trong cột
¯
 trong Bảng 1.7 là hiệu quả của từng
biến tương ứng. Rõ ràng, sự phản ánh của giới tính, giáo dục, độ tuổi có hiệu
17
quả mạnh nhất đối với quan điểm “một người mẹ làm việc có tình cảm và sự
chăm sóc con mình như người mẹ không đi làm”.
Ý tưởng về biến đổi gián đoạn có thể được mở rộng theo nhiều cách, phụ
thuộc vào ứng dụng trong phân tích. Nếu một biến độc lập có độ lệch lớn thì
việc đánh giá dựa trên biến đổi gián đoạn quanh giá trị trung bình có thể
không dẫn tới kết luận tốt, khi đó biến đổi gián đoạn quanh giá trị trung vị
của biến có thể có ích hơn. Nếu mức thay đổi theo một lượng xác định nào
đó của biến độc lập được coi là quan trọng và có ý nghĩa thực tế thì nên xét
sự thay đổi theo mức đó, chứ không dùng khoảng biến đổi có độ dài 1 đơn
vị hoặc có độ dài bằng độ lệch chuẩn.
1.4.5 Mô hình số chênh trong mô hình logit thứ bậc
Mô hình logit thứ bậc thường được lý giải bằng số chênh của xác suất

tích lũy, xác suất mà biến đầu ra nhận giá trị nhỏ hơn hoặc bằng m được
tính theo công thức sau:
P r(y ≤ m | x) =
m

j=1
P r(y = j | x), m = 1, 2, , J −1.
Số chênh là tỉ số giữa xác suất để biến đầu ra nhận các giá trị nhỏ hơn hoặc
bằng m trên xác suất để biến đó nhận giá trị lớn hơn m với x cho trước, tức
là:

m
=
P r(y ≤ m | x)
1 −P r(y ≤ m | x)
Mô hình logit thứ bậc mô tả mối quan hệ giữa số chênh đó với các biến độc
lập qua phương trình:

m
=
P r(y ≤ m | x)
1 −P r(y ≤ m | x)
= exp(τ
m
− xβ)
Lấy log của phương trình trên, ta có kết quả:
ln Ω
m
= τ
m

− xβ
Nếu không dùng khái niệm biến ẩn thì các mô hình logit thường bắt đầu từ
phương trình trên. Trong trường hợp này, mô hình có tên là mô hình logit
tích lũy (cumulative logit model).
Để xác định hiệu quả của biến độc lập x, xét hai giá trị của x : x = x
i

x = x
l
, tỉ số xác suất tại x
i
trên xác suất tại x
l
bằng:

m
(x
i
)

m
(x
l
)
=
exp(τ
m
− x
i
β)

exp(τ
m
− x
l
β)
= exp([x
l
− x
i
]β)
18
Phương trình này rất dễ giải thích ý nghĩa thực tế, khi chỉ có một biến thay
đổi. Ví dụ, nếu x
k
thay đổi một lượng δ, khi đó

m
(x, x
k
+ δ)

m
(x, x
k
)
= exp(−δβ
k
)
Điều này được giải thích như sau
• Khi biến x

k
tăng lên δ đơn vị thì tỉ số giữa xác suất để biến đầu ra nhỏ
hơn hoặc bằng m trên xác suất để biến nhận giá trị lớn hơn m thay đổi
một lượng bằng exp(−δβ) khi các biến độc lập khác được giữ nguyên tại
một giá trị cố định nào đó.
Nếu biến x
k
thay đổi 1 đơn vị, tỉ số chênh của biến đầu ra bằng:

m
(x, x
k
+ 1)

m
(x, x
k
)
= exp(−β
k
) (1.11)
Để minh họa cho việc diễn giải khi dùng tỉ số chênh này, xét hệ số rút ra từ
Bảng 1.3. Ở đó β
2
= −0.73, do vậy e
−β
2
= 2.1. Có thể diễn giải kết quả này
như sau:
• Tỉ số giữa xác suất nhận tính trạng SD trên xác suất nhận các tính

trạng D,A và SA của nam giới là gấp 2.1 lần so với phụ nữ, khi các
biến khác được giữ nguyên giá trị. Tương tự, tỉ số giữa xác suất nhận
các tính trạng SD và D trên xác suất nhận các tính trạng A và SA của
nam giới là gấp 2.1 lần so với phụ nữ.
Hệ số hồi quy đối với độ tuổi là β
4
= −0.02 và độ lệch chuẩn s
4
= 16.8.
Do đó 100[exp(−s
4
β
4
) −1] = 44, điều này có thể diễn giải như sau:
• Nếu độ tuổi tăng một khoảng bằng độ lệch chuẩn của nó thì tỉ số giữa
xác suất nhận tính trạng SD trên xác suất nhận các tính trạng SA,D,A
tăng 44 % khi các biến khác được giữ nguyên giá trị. Tương tự, tỉ số
giữa xác suất nhận các tính trạng SD và D trên xác suất nhận các tính
trạng A, SA tăng 44%.
Phương trình (1.11) chỉ ra tỉ số chênh Ω
m
(x, x
k
+ 1)/Ω(x, x
k
) bằng nhau
với tất cả giá trị của m. Điều này được biết như giả thuyết về tỉ số xác suất.
Từ những ví dụ này, ta đặt ra câu hỏi rằng sự thay đổi trong độ tuổi có cùng
hiệu quả về tỉ số giữa xác suất của câu trả lời SD đối với những tính trạng
khác, hoặc tỉ số giữa xác suất của câu trả lời là SD, D hoặc A trên xác suất

của câu trả lời là SA hay không. Điều này dẫn tới một kiểm định thống kê
về tỉ số xác suất giả thuyết, giả thuyết này được biết đến như giả thuyết hồi
quy song song. Ta xem xét vấn đề này dưới đây.
19
1.5 Giả thuyết hồi quy song song
Giả thuyết về tỉ số xác suất trong mô hình logit tương ứng với ý tưởng
tổng quát hơn về hồi quy song song đối với cả hai mô hình logit và probit
thứ bậc. Ý tưởng về hồi quy song song có thể được xem xét bằng việc viết
lại mô hình xác suất tích lũy. Đối với mô hình này, xác suất để biến đầu ra
nhận giá trị nhỏ hơn hoặc bằng m là:
P r(y ≤ m | x) = F (τ
m
− xβ) (1.12)
Xác suất tích lũy là phân phối xác suất tích lũy được tính tại τ
m
−xβ. Vì β
bằng nhau đối với tất cả các m, phương trình (1.12) định nghĩa một tập mô
hình nhị phân với các hệ số chặn khác nhau. Để thấy điều này, chú ý rằng
τ
m
− xβ = τ
m
− β
0

K

k=1
β
k

x
k
Do đó, mô hình với y ≤ 1 là:
P r(y ≤ 1) = F [(τ
1
− β
0
) −
K

k=1
β
k
x
k
]
với hệ số chặn τ
1
− β
0
.
Mô hình đối với y ≤ 2 là
P r(y ≤ 2) = F [(τ
2
− β
0
) −
K

k=1

β
k
x
k
]
Trong mô hình này, hệ số chặn được thay đổi tới τ
2
− β
0
, nhưng hệ số dốc
đối với x
k
không đổi. Ví dụ Hình 1.6 vẽ đường cong xác suất tích lũy khi
có bốn tính trạng, kết quả ba đường cong với các hệ số chặn lần lượt là:
τ
1
−β
0
, τ
2
−β
,
τ
3
−β
0
. Để thấy tại sao các đường cong là song song. Ta chọn
một giá trị xác suất của giá trị biến đầu ra. Ví dụ chọn xác suất bằng 0.5
được chỉ ra bởi đường ngang chấm chấm. Khi đó kiểm tra độ dốc của 3 đường
cong tại điểm này ta thấy

∂P r(y ≤ 1 | x)
∂x
=
∂P r(y ≤ 2 | x)
∂x
=
∂P r(y ≤ 2 | x)
∂x
Do đó, mô hình được gọi là hồi quy song song. Có ba điểm định thống kê
thường được dùng để kiểm định giả thuyết hồi quy song song là:
20
Hình 1.6: Giả thuyết hồi quy song song
Chúng ta có thể kiểm tra giả thuyết hồi quy song song bằng ước lượng J −1
hàm hồi quy nhị phân
P r(y ≤ m | x) = F (τ
m
− xβ)
Hàm hồi quy nhị phân đầu tiên là đối với biến được định nghĩa bằng 1 nếu
y ≤ 1 và 0 trong trường hợp còn lại. Hàm hồi quy thứ hai đối với biến nhận
giá trị bằng 1 nếu y ≤ 2 và 0 trong trường hợp khác. Và tiếp tục tới biến
nhận giá trị bằng 1 nếu y ≤ J − 1. Kết quả này cho J − 1 ước lượng
ˆ
β
m
.
Nếu giả thuyết hồi quy song song là đúng, khi đó
β
1
= β
2

= = β
J−1
= β
và mỗi
ˆ
β
m
là ước lượng vững của β trong phương trình (1.12). Kiểm tra sự
giống và khác nhau giữa
ˆ
β
m
từ mô hình nhị phân logit (probit) và
ˆ
β từ mô
hình logit (probit) thứ bậc cung cấp thông tin để kiểm tra giả thuyết hồi quy
song song.
Đối với ví dụ đang xét, ước lượng từ mô hình logit thứ bậc được cho ở cột
đầu tiên Bảng 1.8. Ước lượng từ ba mô hình nhị phân được cho ở cột cuối
cùng. Trong khi một vài ước lượng là gần bằng nhau qua các phương trình
nhưng có những hệ số khá khác nhau như đối với biến MALE. Để hiểu rõ
21

×