BÀI 7: LỰA CHỌN MÔ HÌNH HỒI QUY potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (646.19 KB, 24 trang )

Bài 7: Lựa chọn mô hình hồi quy

93
BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu
được những vấn đề sau đây:
• Các thuộc tính của một mô hình tốt.
• Các loại sai lầm về định dạng của
mô hình.
• Hậu quả khi chọn mô hình định dạng sai.
• Kiểm định phát hiện mô hình định
dạng sai.
• Giới thiệu mô hình dạng lôga tuyến tính.
• Giới thiệu mô hình với biến giả.

Nội dung

Hướng dẫn học
• Tiêu chuẩn cho một mô hình tốt.
• Các loại sai lầm định dạng của mô hình.
• Hậu quả nếu một mô hình định dạng sai.
• Các kiểm định phát hiện sai lầm định dạng.
• Các loại mô hình với biến giả.

Thời lượng

• 12 tiết

• Ôn lại các bài học trước để hiểu được
các loại mô hình hồi quy.
• Tập trung phân biệt các hậu quả xảy
ra khi có một loại sai lầm định dạng
nào đó.
• Tập trung vào các phương pháp kiểm
định để phát hiện các sai lầm định dạng.
• Tập trung hiểu rõ bản chất của việc
đưa biến giả vào mô hình và các loại
mô hình có biến giả.
• Xem xét kỹ các ví dụ trong giáo trình
và bài giảng.

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
94
TÌNH HUỐNG DẪN NHẬP
Tình huống
Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng
mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề
xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng
mô hình nào tốt hơn để phân tích trong tình huống này?

Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem
xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới
tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy
E(TN/D
i
) = β
1
+ β
2
D
i
trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ.

Câu hỏi

• Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập
hay không?
• Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí
nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.

Bài 7: Lựa chọn mô hình hồi quy
ơ
95
Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình
hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần
nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy
luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa
biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số
liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô

hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì
càng tốt hay không, hay một mô hình phải có phương trình hồi quy
thật phức tạp, thật đẹp về mặt toán học mới là tốt?
7.1. Các thuộc tính của một mô hình tốt
BÀI TOÁN
Xét hai mô hình hồi quy tuyến tính

i122i33i kkii
Y X X X u=β +β +β + +β + , (7.1)

i122i33i mmii
Y X X X v=β +β +β + +β + , (7.2)
trong đó
mk
<
(do vậy sai số
i
u có xu thế nhỏ hơn sai số
i
v ). Có thể kết luận là mô
hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến
nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không?
Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?
Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay
không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu
chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận
dụng rộng rãi trong thực tế, bao gồm:
•
Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy
nhiên phải chứa đựng những biến độc lập chủ yếu

ảnh hưởng đến biến phụ thuộc để giải thích được
các hiện tượng cần nghiên cứu.
Việc đánh giá biến độc lập nào ảnh hưởng một
cách có ý nghĩa đến biến phụ thuộc, một mặt phải
dựa trên ý nghĩa thực tế củ
a mô hình. Mặt khác có thể
dựa vào phép kiểm định về các hệ số trong phương
trình hồi quy.
•
Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với
một tập số liệu cho trước.
Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định
không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn
và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số
ước l
ượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô
hình hồi quy có tính xác định.
•
Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc
càng nhiều càng tốt.
Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá
tính thích hợp của mô hình so với số liệu.

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
96
• Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng.
Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và
phương sai thuần nhất của sai số, sẽ đảm bảo về mặt lý thuyết của mô hình hồi
quy tuyến tính cổ điển.

•
Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết
quả dự báo càng sát với thực tế càng tốt.
7.2. Cách tiếp cận lựa chọn mô hình
Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta
có thể tiến hành lần lượt theo các bước sau:
•
Bước 1: Xác định danh sách các biến độc lập có
thể có trong mô hình. Dựa vào ý nghĩa thực tế của
bài toán đã được đặt ta, ta cần liệt kê tất cả những
biến độc lập có thể có của mô hình, là những biến
có khả năng ảnh hưởng đến giá trị của biến phụ
thuộc. Những biến này có thể đã có sẵn trong danh
sách các biến của bộ số liệu, song cũng có thể là
biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi.
•
Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao
gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi,
tự tương quan, phân bố không chuẩn của sai số, và khắc phục các vi phạm phát
hiện được.
•
Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên
kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử
dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi
quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc
lập và biến phụ thuộc. Chẳng h
ạn nếu trên đồ thị, các chấm tương ứng với các
quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể
chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một
đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi

quy phi tuyến thích hợp.
•
Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa
chọn mô
hình. Hệ số xác định là một thước đo
thường được dùng đầu tiên để đánh giá chất lượng
của mô hình hồi quy. Nếu hệ số xác định có giá trị
lớn hơn 50% thì có thể coi mô hình khá phù hợp
với tập số liệu. Còn nếu hệ số xác định nhỏ hơn
30% thì có thể khẳng định mô hình không phù hợp
và nên tìm mô hình khác.
Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đ
ánh giá các
mô hình hồi quy như:
o Tiêu chuẩn log-hợp lý (log-likelihood):
n
22
i
i1
nn 1
Lln ln(2) u
22 2
=
=− σ − π −
∑
.

Bài 7: Lựa chọn mô hình hồi quy
ơ
97

Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương.
Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì
cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình
cho rằng không hề có quan hệ giữa các biến độc
lập và biến phụ thuộc). Trong thực hành, giá trị
của hàm L được ước lượng bằng công thức:
nRSS
L(1ln(2)ln())
2n
=− + π + .
o Tiêu chuẩn AIC (Akaike info criterion):
2k/n
RSS
AIC ( ).e ,
n
=
trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC
này càng nhỏ thì
mô hình càng phù hợp với số liệu.
o Tiêu chuẩn Schwarz (Schwarz criterion):
k/n
RSS
SC ( ).n
n
=

trong đó k là số tham số trong mô hình hồi quy. Giá trị SC
này càng nhỏ thì mô
hình càng phù hợp với số liệu.
Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều

khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:
 Nếu hai mô hình hồi quy chứa danh sách các
biến độc lập khác nhau thì hệ xác định của
hai mô hình đó (có thể bằng nhau) không
giúp kết luận được mô hình nào tốt hơn;
 Có thể việc loại bỏ bớt một số biến nào đó ra
khỏi phương trình hồi quy tuy làm giảm hệ số
xác định, song về thực chất lại không làm giảm
đáng kể chất lượng của mô hình. Mặt khác,
trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế”
hơn, mặc dù sai số ước lượng có thể lớn hơn.
Như vậy, cần dựa vào các phép kiểm định để
đánh giá, lựa chọn mô hình. Tiêu
chuẩn F
dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:
o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 1

02 3 k
1i
H: 0
H: 0
β
=β = =β =
⎧
⎨
∃β ≠
⎩

Việc chấp nhận giả thuyết

0
H
có nghĩa là tất cả các biến độc lập không hề ảnh
hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết
0
H có
nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô
hình hồi quy phù hợp với số liệu ở một mức độ nhất định.

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
98
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:
2
2
R/k
F
(1 R ) /(n k 1)
=
−−−
,
trong đó
2
R là hệ số xác định của mô hình hồi quy, k là số tham số trong mô
hình,
n
là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp
xỉ phân phối
Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được
xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã

cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết
0
H.

Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước
đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài
88
D và
biến độc lập là tổng sản phẩm quốc nội
88
Y. Thực hiện hồi quy
88
D theo
88
Y,
ta có kết quả trong bảng sau:

Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô
hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá
trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000
(rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và
log - hợp lý.
7.3. So sánh hai mô hình hồi quy
Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh
giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của

Bài 7: Lựa chọn mô hình hồi quy
ơ
99
mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình.

Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô
hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 2
0m1 m2 k
1i
H : 0
H : 0,i {m 1, m 2, , k}
++
β=β==β=
⎧
⎨
∃β ≠ ∈ + +
⎩

Việc chấp nhận giả thuyết
0
H có nghĩa các biến độc lập
m1 m2 k
X ,X , ,X
++
không có vai
trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và
(7.2) là như nhau về khả năng dự
báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết
0
H có nghĩa mô hình (7.1)
với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho
biến phụ thuộc.
Trong thực hành, nếu giả thuyết
0

H được chấp nhận
thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít
hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết
bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho
kết quả thực sự chính xác hơn.
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số
22
km
2
k
RR
nk
F
km 1R
−
−
=×
−−
,
trong đó
2
k
R là hệ số xác định của mô hình (7.1) với k tham số,
2
m
R là hệ số xác định
của mô hình (7.2) với
m
tham số,
n

là số lượng các quan sát trong bộ số liệu. Tỷ số
này có phân phối xấp xỉ phân phối
Fisher với bậc tự do (n – k, k – m), qua đó có thể
xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết
0
H.
7.4. Hậu quả của việc chọn mô hình không phù hợp
Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái
niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với
thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay
không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả
các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi
giải quyế
t một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một
trong những nguyên nhân sau gây ra:
• Chọn dạng hàm không thích hợp. Dạng hàm hồi
quy không thích hợp có thể dẫn đến các hậu quả sau:
o Các hệ số hồi quy bị ước lượng chệch, thậm chí
dấu của hệ số hồi quy bị sai, dẫn đến những
diễn giải mâu thuẫn với thực tế;
o Hệ số xác định thể hiện độ phù hợp của mô
hình với số liệu có thể không cao;

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
100
o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;
o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến
động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ

bản của mô hình hồi quy.
• Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô
hình phù hợp thực sự phải là
01122
YXXu=β +β +β + ,
nhưng ta lại sử dụng mô hình
011
YXv=α +α +
nghĩa là biến
2
X bị thiếu, trong khi biến này thực
sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác
nhau. Nếu biến
2
Xtương quan với biến
1
X thì các ước lượng
0
α

và
1
α

của
0
α
và
1
α sẽ là những ước lượng chệch và không vững của

0
β
và
1
β
, tức là
00
E( )α≠β

;
11
E( )
α
≠β

.
Thực vậy, vì hai biến
1
Xvà
2
Xtương quan với nhau nên ta có
2011
XX=γ +γ +ε,
với
0
γ ,
1
γ và
ε
lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến

2
X theo biến
1
X. Lúc đó,
1121
E( )α=β+βγ

;
002211
E( ) (X X )α=β+β −γ

.
Do vậy, tùy theo dấu của
21
β
γ mà
1
α

sẽ cho ước lượng quá cao hoặc quá thấp so
với giá trị thực của
1
β .
Trong trường hợp
2
Xvà
1
X không tương quan với nhau thì
1
0γ= và khi đó

1
α

là
ước lượng không chệch của
1
β
, nhưng
0
α

lại là ước lượng chệch của
0
β
, nếu
2
X0≠ .
Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số
cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo
theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm
định thông thường không còn hiệu lực.
•
Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại
những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là
011
YXu=β +β + , (7.3)
nhưng ta lại sử dụng mô hình
01122
YXXv=α +α +α + (7.4)

Bài 7: Lựa chọn mô hình hồi quy
ơ
101
nghĩa là dùng thừa biến
2
X. Khi đó các hệ số hồi
quy ước lượng được từ mô hình (7.4) vẫn là các
ước lượng vững, không chệch, nghĩa là ta vẫn có
00
E( )α=β

;
11
E( )α=β

và
22
E( ) 0
α
=β =

.
Đồng thời, phương sai của của sai số vẫn được ước
lượng một cách không chệch, do đó khoảng tin cậy
vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường
vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là
ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng
tương ứng thu
được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số
sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị

đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể
hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu đượ
c ước
lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động
một cách có ý nghĩa lên biến phụ thuộc).
7.5. Kiểm định phát hiện sự bỏ sót biến
Với một tập số liệu cho trước, giả sử ta sử dụng mô
hình hồi quy
i01ii
YXu
=
β+β + . (7.5)
Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến
phụ thuộc Y, còn có biến độc lập nào khác có ảnh
hưởng quan trọng đến Y
mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần
giải quyết bài toán kiểm định sau:
BÀI TOÁN KIỂM ĐỊNH 3
0
H: Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
1
H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
Việc chấp nhận giả thuyết
0
H
có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự
ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có
mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc
lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết
0

H có nghĩa là mô hình
(7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan
trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình.
Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô
hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W
i01i2ii
YXWv
=
α+α +α + . (7.6)
Với mô hình này, ta xét hai trường hợp như sau:
•
Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết
bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
102
o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi
dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô
hình (7.6) và kiểm định giả thuyết
2
0
α
= . Lúc đó, nếu giả thuyết này bị bác
bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết
2
0α= được chấp
nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô
hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau.
o Cách 2: Sử dụng hàm log-hợp lý. Xét thống

kê
10
LR 2(l l )=− − , trong đó
1
l và
0
l tương
ứng là giá trị lớn nhất của lôgarit hàm hợp lý
ứng với mô hình (7.6) và (7.5). Khi giả thuyết
0
H đúng, thống kê LR có phân phối tiệm cận
phân phối khi bình phương với 1 bậc tự do
(
2
(1)χ ). Nếu
2
LR (1)
α
≥χ (
α
thường được lấy
bằng 5%) thì ta bác bỏ
0
H và kết luận có hiện
tượng bỏ sót biến độc lập W.
o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định
2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1)
và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình
như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu
giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy.

Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong
mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc
bỏ sót
một nhóm biến độc lập trong mô hình.
Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1
biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã
kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có
mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2)
hay không.
Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng
cách lập thống kê
km
LR 2(l l )=− − , trong đó
k
l và
m
l tương ứng là giá trị lớn nhất
của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết
0
H đúng,
thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do
(
2
(k m)χ−), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa
ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.
•
Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc
lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của
các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình
đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay

chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh
hưởng đến biến ph
ụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước
như sau:

Bài 7: Lựa chọn mô hình hồi quy
ơ
103
o Bước 1: Dùng số liệu để ước lượng các giá trị
0
ˆ
β
và
1
ˆ
β
của các hệ số hồi quy
trong mô hình (7.5);
o Bước 2: Dùng các hệ số
0
ˆ
β
và
1
ˆ
β
và các giá trị quan sát được của biến độc lập
để ước lượng các giá trị của biến phụ thuộc
i01i
ˆˆ

ˆ
YX
=
β+β .
Biến
ˆ
Y
với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập
thêm các biến phụ
2
ˆ
Y
,
3
ˆ
Y
và
4
ˆ
Y
. Có thể thấy
biến
ˆ
Y
chứa phần thông tin của biến phụ thuộc
được thể hiện qua biến độc lập X. Đồng thời có
thể cho rằng các biến
2
ˆ
Y

,
3
ˆ
Y
và
4
ˆ
Y
có thể còn
chứa một phần thông tin khác của biến phụ
thuộc chưa được mô tả qua biến X. Như vậy, để
kiểm tra xem mô hình (7.5) có bỏ sót biến độc
lập nào đó hay không, ta có thể tiến hành kiểm
định để biết liệu các biến
2
ˆ
Y
,
3
ˆ
Y
và
4
ˆ
Y
đúng
là nhóm biến bị bỏ sót hay không.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Bước 3: Ta kiểm định giả thuyết

02 3 4
H: 0γ=γ=γ= bằng cách dùng thống kê
22
km
2
k
RR
nk
F
km 1R
−
−
=×
−−

với n là số quan sát có trong số liệu, k
=5, m=2, còn
2
k
R và
2
m
R lần lượt là hệ
số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với
bậc tự do n – 5 và
km3
−
= , qua đó tính được xác suất ý nghĩa để đưa ra kết
luận chấp nhận hay bác bỏ giả thuyết
0

H. Việc chấp nhận giả thuyết cho phép
khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì
có nghĩa trong mô hình (7.5) còn sót biến độc lập.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến
2
ˆ
Y,
3
ˆ
Y
và
4
ˆ
Y đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình
hồi quy (7.5),
i01ii
YXu
=
β+β + ,
và mô hình
234
i 0 1i 2i 3i 4i i
ˆˆˆ
Y XYYYv
=
γ+γ+γ+γ+γ+. (*)
o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành,
bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
104
 Thứ nhất: Dùng các hệ số
0
ˆ
β
và
1
ˆ
β
và các giá trị quan sát được của biến
độc lập để thu ước lượng biến phụ thuộc
ˆ
Y
và biến phụ
2
ˆ
Y
,
3
ˆ
Y
,
4
ˆ
Y
, đồng
thời xác định các giá trị của biến phần dư

iii
ˆ
ˆ
uYY
=
− ; i 1,2, ,n
=
.
 Thứ hai: Xét phương trình hồi quy
234
i01i2i 3i 4i i
ˆˆˆ
ˆ
u XYYYv
=γ
+
γ
+
γ
+
γ
+
γ
+

và dùng số liệu để ước lượng hệ số xác định
2
R của phương trình hồi quy đó;
 Thứ ba: Lập giả thuyết
02 3 4

H: 0γ=γ=γ=
và dùng thống kê
2
nR để kiểm định giả
thuyết ấy. Thống kê này có phân phối khi
bình phương với 3 bậc tự do, qua đó tính
được xác suất ý nghĩa để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết
0
H. Việc
chấp nhận giả thuyết này đồng nghĩa với
việc khẳng định không có hiện tượng bỏ sót
biến. Ngược lại, nếu giả thuyết bị bác bỏ thì
mô hình (7.5) còn bỏ sót biến độc lập.
Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng
của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định
được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến
và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của
chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biế
n bị bỏ
sót để cải tiến mô hình.
7.6. Kiểm định phát hiện hiện tượng thừa biến
Ta thấy bài toán kiểm định phát hiện hiện tượng thừa
biến độc lập trong mô hình hồi quy chính là một phần
của bài toán “ngược” đối với bài toán kiểm định 3
nhằm phát hiện sự bỏ sót biến độc lập trong mô hình,
với giả thuyết của bài toán này được đổi thành đối
thuyết của bài toán kia, và ngược lại, đối thuyết được
chuyển tương ứng thành giả thuyết, hơn nữa
đã có số

liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn
toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để
phát hiện hiện tượng thừa biến.
7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính
Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố
chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô
hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố
chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có
phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, v
ới số liệu về thu nhập trên đầu

Bài 7: Lựa chọn mô hình hồi quy
ơ
105
người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong
hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người”
(incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita
bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải
với dạng của phân bố chuẩn.

Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy
tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính
với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình
01
YXv=α +α + , (7.7)
ta nên dùng mô hình
10 0 1
log (Y) X u
=

β+β + . (7.8)
Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy
0
ˆ
β
và
1
ˆ
β
của phương
trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của
biến phụ thuộc nguyên thủy Y qua biểu thức:
01 0
1
ˆˆ ˆ
ˆ
X
X
ˆ
Y10 10.(10)
β+β β
β
== . (7.9)
Mô hình (7.8) được gọi là
mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn
hay dùng
mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ
thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông
thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương
10 0 1 10

log (Y) log (X) W
=
γ+γ + . (7.10)
Với các giá trị
0
ˆ
γ và
1
ˆ
γ của phương trình hồi quy tuyến
tính trên ước lượng được bằng phương pháp bình phương
bé nhất, ta có thể xây dựng công thức để dự báo giá trị
của biến phụ thuộc nguyên thủy
Y như sau:
01 0
1
ˆˆ ˆ
ˆ
log(X)
ˆ
Y10 10.(X)
β+β β
β
==. (7.11)
Trên đây, các mô hình (7.8)-(7.11) được trình bày cho
trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập.
Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn
tương tự.

Bài 7: Lựa chọn mô hình hồi quy

Ơơ[
106
Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý
nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại
giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn
như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước.
7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả
Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc
theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến
trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được
là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lậ
p,
yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là
biến định lượng mà
là
biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với
các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc
tính, tính chất, đặc điểm, nào đó của đối tượng.
Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một
chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh
hưởng đến khả năng sẵn sàng chi trả củ
a khách. Các yếu tố đó có thể bao gồm tuổi,
giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa
tiến hành chuyến du lịch, Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời
gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng.
Như vậy, trước tiên ta cần mã hóa lại các biến định tính
để có các biến nhận các giá trị s
ố đại diện cho biến
định tính trong phương trình. Có thể dùng các biến giả
nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các

biến định tính. Cách mã hoá bằng các biến giả như vậy
khá đơn giản và có thể giúp diễn giải các hệ số ước lượng
được của phương trình hồi quy một cách rất rõ ràng.
Chẳng hạn, ta có thể mã hóa biến giới tính thành biến
giả GT nhận giá trị 0 nếu khách hàng là nam giới, nh
ận giá trị 1 nếu khách hàng là phụ
nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy
01
YGTu=α +α + ,
trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn
0
α chính bằng giá trị
chi phí trung bình của nhóm khách hàng nữ,
0
E(Y GT 0)α= = .
Đồng thời, hệ số dốc
1
α chính là giá trị chênh lệch giữa chi phí trung bình của nhóm
khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng
01
α
+α
của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách
hàng nữ,
01
E(Y GT 1)α+α= = .
Phép kiểm định giả thuyết
01
H: 0
α

= về sự bằng không của hệ số dốc trong mô hình
này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam
có ngang bằng với chi phí của nhóm khách hàng nữ hay không.

Bài 7: Lựa chọn mô hình hồi quy
ơ
107
Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định
tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng
với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các
quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến
giả
1
D,
2
D,
3
D,
4
D và
5
D để mã hóa biến định tính “quốc tịch” như trong bảng sau:
Quốc tịch D
1
D
2
D
3
D
4

D
5

Pháp 1 0 0 0 0
Nga 0 1 0 0 0
Nhật 0 0 1 0 0
Mỹ 0 0 0 1 0
Trung Quốc 0 0 0 0 1
Việt Nam 0 0 0 0 0
Trong bảng trên, biến
1
D ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối
với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến
2
D
ứng với nhóm khách mang quốc tịch Nga, nhận giá trị
1 đối với quan sát của khách đến từ nước Nga, nhận
giá trị 0 đối với các quan sát nhóm khác; Riêng đối
với nhóm quan sát ứng với khách nội địa Việt Nam, tất
cả các biến giả từ
1
D đến
5
D đều nhận giá trị bằng 0.
Nhóm này được lấy làm nhóm “nền” (hay còn gọi là
nhóm “chứng”), với các kết quả được lấy làm mức cơ
sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy
01122334455
Y DDDDDu.=β +β +β +β +β +β + (7.12)
để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả

ước lượng được của hệ số chặn
0
β
cho biết mức chi phí trung bình của nhóm khách
nội địa
0 12345
E(Y D D D D D 0)β= =====
Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các
nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm
khách Pháp được ước lượng bằng
01
β
+β
01 1
E(Y D 1)
β
+
β
==
chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng
bằng
1
β ; chi phí trung bình của nhóm khách Nga được ước lượng bằng
02
β+β
02 2
E(Y D 1)β+β= =
chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng
bằng
2

β ;

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
108
Các phép kiểm định
1
01
H: 0β= ,
2
02
H: 0
β
= ,
3
03
H: 0
β
= ,
4
04
H: 0
β
= và
5
05
H: 0
β
= sẽ
lần lượt cung cấp các kết luận so sánh chi phí trung

bình của từng nhóm khách phân theo quốc tịch với chi
phí trung bình của nhóm khách nội địa.
Chú ý: Các phép kiểm định trên chỉ so sánh chi phí
trung bình của các nhóm khách nước ngoài với chi phí
của nhóm “nền” (khách nội địa), chứ không so sánh
được chi phí trung bình của các nhóm khách nước ngoài
với nhau.
7.9. Mô hình hồi quy với một biến lượng và một biến chất
Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi
phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên
quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô
hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của
chuyến du lịch), vừa có biến định tính là biến bi
ểu diễn quốc tịch của khách du lịch.
Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã
trình bày trên đây. Ta xét phương trình hồi quy
01122334455
Y DDDDDTGu=β +β +β +β +β +β +γ + . (7.13)
Ta thấy trong mô hình này, hệ số dốc
γ
cho biết chi
phí hàng ngày của khách du lịch, không phân biệt
người khách đó đến từ nước nào. Như vậy hệ số này
đại diện cho tính chất chung của tất cả các khách về
mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ
số còn lại thể hiện đặc thù riêng của các nhóm khách
du lịch đến từ các nước khác nhau. Có thể nói mô hình
(7.13) là mô hình tổng hợp của 6 mô hình hồi quy
tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biế
t quy luật chi tiêu của khách

hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự
báo chi phí của khách du lịch nội địa theo phương trình
0
ˆ
ˆ
ˆ
YTG=β +γ
;
chi phí của khách Pháp bằng
01
ˆˆ
ˆ
ˆ
Y( ) TG=
β
+
β
+
γ
;
chi phí của khách Nga bằng
02
ˆˆ
ˆ
ˆ
Y( ) TG=
β
+
β
+

γ
;
chi phí của khách Nhật bằng
03
ˆˆ
ˆ
ˆ
Y( ) TG=
β
+
β
+
γ
;
chi phí của khách Mỹ bằng:
04
ˆˆ
ˆ
ˆ
Y( ) TG
=
β+β +γ ;
chi phí của khách Trung Quốc bằng:
05
ˆˆ
ˆ
ˆ
Y( ) TG
=β
+

β
+
γ
.

Bài 7: Lựa chọn mô hình hồi quy
ơ
109
Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các
đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên
đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau.

Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn,
nên các phép kiểm định
1
01
H: 0
β
= ,
2

02
H: 0
β
= ,
3
03
H: 0
β
= ,
4
04
H: 0β= và
5
05
H: 0β= về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự
báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của
nhóm khách nội địa. Nếu giả thuyết
k
0k
H: 0
β
= được chấp nhận thì hai mô hình
0k
ˆˆ
ˆ
ˆ
Y( ) TG=β+β +γ
và
0
ˆ

ˆ
ˆ
YTG=β +γ
được coi là như nhau, chi phí của khách du lịch
của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy.
7.10. Mô hình hồi quy với một biến lượng và hai biến chất
Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du
lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là
giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành
các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau:
0 1 11 22 33 44 55
YGTDDDDDTGu=α +α +β +β +β +β +β +γ + . (7.14)
Với mô hình này, hệ số dốc γ vẫn thể hiện quy luật chung về chi phí hàng ngày của
khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù
riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số
1
α
cho biết sự khác nhau
giữa khách nam và khách nữ; các hệ số
12345
,,,,
β
ββββ biểu diễn sự khác biệt về chi
phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số
0
α lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu.
Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do
đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn
được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút
ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và

nữ nội địa,
0
YTGu=α +γ + (đối với nam),
01
YTGu=α +α +γ + (đối với nữ);
TG
Y

β+β
0k
β+β
01
β
0

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
110
hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp,
01
Y( ) TGu=α+β +γ + (đối với nam),
011
Y( ) TGu=α+α+β +γ + (đối với nữ);
. . .
và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người
Trung Quốc,
05
Y( ) TGu=α+β +γ + (đối với nam),
015
Y( ) TGu=α+α+β +γ + (đối với nữ).

Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song
song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung.
Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12
mô hình trên đây. Cụ thể, phép kiểm định giả thuyết
01
H: 0
α
= cho phép chúng ta
đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính
thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định
1
01
H: 0β= ;
2
02
H: 0β= ;
3
03
H: 0
β
= ;
4
04
H: 0
β
= và
5
05
H: 0
β

= sẽ lần lượt cung cấp
các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số
chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn
của mô hình ứng với nhóm khách nội địa).
7.11. Sử dụng biến giả trong phân tích mùa
Tại các thời điểm khác nhau trong năm, có sự khác
nhau về giá phòng của các khách sạn và giá các dịch
vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây
dựng mô hình biểu diễn được đặc điểm “mùa” của quy
luật. Trong thực tế, đối với các địa phương, các mùa
“cao điểm”, “thấp điểm” đối với du lịch thường kéo
dài khác nhau và vào quãng thời gian khác nhau trong
năm. Tuy nhiên, để tiệ
n trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”,
“Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả
1
M,
2
M và
3
M để mã hóa biến
“Mùa” theo bảng sau:
Mùa M
1
M
2
M
3

Xuân 1 0 0

Hạ 0 1 0
Thu 0 0 1
Đông 0 0 0
Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính
theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là
11
TG M *TG= ,
22
TG M *TG= và
33
TG M *TG= , từ đó xây dựng và tiến hành phân tích mô hình
0112233
YTGTGTGTGu=α+γ +γ +γ +γ + . (7.15)

Bài 7: Lựa chọn mô hình hồi quy
ơ
111
Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với
quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn
α , chỉ khác
nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành
01
Y()TGu=α+ γ +γ + .
Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là:
02
Y( )TGu=α+ γ +γ + (mùa Hạ); (7.15b)
03
Y()TGu=α+ γ +γ + (mùa Thu) (7.15c)
và
0

YTGu=α+γ + (mùa Đông). (7.15d)
Các phép kiểm định
1
01
H: 0γ= ,
2
02
H: 0γ= và
3
03
H: 0γ=
được thực hiện khi phân tích mô hình
(7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số
dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với
hệ số dốc của mô hình (7.15d), cho biết chi phí hàng
ngày của khách du lịch vào mỗi mùa Xuân, Hạ và
Thu có khác biệt một cách có ý nghĩa thống kê so
với chi phí hàng ngày của khách du lịch vào mùa
Đông hay không.
Chú ý:
• Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả
1
M, M
2
và M
3
nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp
so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô
hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô
hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại

nhóm nền và lập các biến giả một cách thích hợp,
hoàn toàn có thể tiến hành kiểm định so sánh các
cặp hệ số dốc tùy ý nào đó.
• Có thể kết hợp mô hình (7.15) với mô hình (7.13)
hoặc (7.14) để có một mô hình diễn tả được cả quy
luật chung và các quy luật riêng cho các nhóm
khách du lịch và cho các mùa trong năm. Chẳng
hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình
0 1 11 22 33 44 55 0 1 1 2 2 3 3
Y GTDDDDDTGTGTGTGu=α +α +β +β +β +β +β +γ +γ +γ +γ +
biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách
du lịch.
•
Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh
họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này
có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp.

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
112
7.12. Hồi quy tuyến tính từng khúc
Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa
thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của
mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối
với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô
hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù h
ợp.
Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh
viên sau khi ra trường phụ thuộc vào thâm niên công tác,
trong đó có xét đến ảnh hưởng của chính sách điều chỉnh

mức lương tối thiểu được nhà nước tiến hành hàng năm.
Trong mô hình này, thu nhập
Y được ấn định là biến phụ
thuộc cùng với biến độc lập chính là TN
(thâm niên), số
liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết
năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu
được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến
giả
1
N,
2
N,
3
N,
4
N và
5
N để biểu diễn khoảng thời gian của các năm như trong
bảng sau:
Năm N
1
N
2
N
3
N
4
N
5

2005
1 0 0 0 0
2006
0 1 0 0 0
2007
0 0 1 0 0
2008
0 0 0 1 0
2009
0 0 0 0 1
2004
0 0 0 0 0
Ta thành lập các biến định lượng mới là
11
TN N *TN
=
,
22
TN N *TN= ,
33
TN N *TN= ,
44
TN N *TN= và
55
TN N *TN
=
, từ đó xây dựng và tiến hành
phân tích mô hình
01122334455

0 1122334455
YNNNNN
TN TN TN TN TN TN u .
=α +α +α +α +α +α +
+γ +γ +γ +γ +γ +γ +

Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình
hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau:
00
YTNu=α +γ + (năm 2004);
01 01
Y( )( )TNu=α+α +γ+γ + (năm 2005);
02 02
Y( )( )TNu=α+α +γ+γ + (năm 2006);
03 03
Y( )( )TNu=α+α +γ+γ + (năm 2007);
04 04
Y( )( )TN=α+α +γ+γ + (năm 2008);
05 05
Y( )( )TNu=α+α +γ+γ + (năm 2009).

Bài 7: Lựa chọn mô hình hồi quy
ơ
113
Chú ý:
• Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có
thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô
hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập
số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp
hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm

định trong phân
tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô
hình hồi quy của các năm.
•
Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có
sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức”
(Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo
(chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp
“Phân tích nhiều mức”.
7.13. Mô hình hồi quy đa thức
Mô hình hồi quy tuyến tính là mô hình khá đơn giản,
có các hệ số dễ dàng ước lượng được bằng các thuật
toán quen thuộc, hơn nữa lại khá thuận tiện cho việc
diễn giải ý nghĩa thực tế của mô hình. Tuy nhiên, trong
thực hành lại có nhiều bài toán không phù hợp với mô
hình tuyến tính mà phù hợp với mô hình phi tuyến.
Chẳng hạn khi có một mặt hàng mới được tung ra thị
trường, số lượng hàng tiêu thụ trong mỗi tháng sẽ
tăng
lên rất nhanh do tính hấp dẫn của mặt hàng. Nhưng sau
một thời gian, thị trường sẽ dần dần bão hòa đối với mặt hàng đó và số lượng tiêu thụ
mặt hàng đó sẽ từng bước chững lại rồi giảm xuống. Đối với trường hợp này, một mô
hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính. Trong số các mô hình phi tuyến,
bên cạnh mô hình hồi quy lôga tuyến tính đã nói tớ
i trong mục 7.7, các mô hình hồi
quy đa thức cũng là những mô hình hay được xét đến. Sau đây chúng ta sẽ xem xét
mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây
dựng hoàn toàn tương tự.
Mô hình hồi quy đa thức bậc hai với m biến độc lập có dạng tổng quát là
mmm

ii iji j
i1 i1 j1
YX XX
===
=α+ β + γ +ε
∑∑∑
, (7.16)
trong đó Y là biến phụ thuộc,
i
X ;i 1,2, ,m;
=
là các
biến độc lập;
iij
, , ;i, j 1,2, ,m;αβ γ =
là các hệ số hồi
quy cần ước lượng, còn
ε là sai số hồi quy. Bằng cách
lập các biến mới
ij i j
Z X X ; i, j 1,2, ,m;==
mô hình hồi quy trên đây sẽ chuyển về dạng
mmm
ii ijij
i1 i1 j1
YX Z
===
=α+ β + γ +ε
∑∑∑
. (7.17)

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
114
Đây là mô hình hồi quy tuyến tính thông thường với
2
mm
+
biến độc lập. Sử dụng
các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị
ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của
mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến.
Chú ý:
Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng
tuyến giữa biến
i
X và biến
ii
Z,
i 1,2, ,m
=
. Do vậy, trước khi tiến hành ước lượng
các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp
2
mm
+

biến độc lập của mô hình.
7.14. Ảnh hưởng tương tác
Trong mô hình hồi quy bội với một biến phụ thuộc và nhiều biến độc lập, ngoài ảnh

hưởng riêng rẽ của từng biến độc lập, biến phụ thuộc có thể còn chịu ảnh hưởng của
sự tương tác giữa các cặp biến độc lập, giữa bộ ba, bộ bốn các biến độc lập, Các
ảnh hưởng tương tác có thể làm giá trị của biến phụ thu
ộc tăng lên, song tương tác
cũng có thể làm giá trị của biến phụ thuộc giảm xuống.
Trong mô hình (7.17) trên đây, hệ số
ij
γ
cho ta biết ảnh
hưởng tương tác của hai biến độc lập
i
X và
j
X tác
động lên giá trị của biến phụ thuộc Y . Phép kiểm định
giả thuyết
ij
0ij
H: 0
γ
=
cho phép chúng ta đưa ra kết
luận về ảnh hưởng của sự tương tác đó. Nếu giả thuyết
được chấp nhận thì ta có thể kết luận sự tương tác
không gây ra tác động mang tính thống kê đối với giá
trị của Y
. Nếu ngược lại, giả thuyết bị bác bỏ, thì tương tác của hai biến độc lập
i
X
và

j
X có tác động thực sự lên giá trị của biến phụ thuộc Y . Khi đó, nếu
ij
0γ> thì giá
trị của Y sẽ tăng lên khi cả
i
X và
j
X tăng lên (tương tác có tác động đồng biến); còn
nếu
ij
0γ<
thì giá trị của Y sẽ tăng lên khi cả
i
X và
j
X
tăng lên (tương tác có tác
động nghịch biến).
Chú ý:
• Việc diễn giải ảnh hưởng của tương tác sẽ rõ ràng và dễ hiểu hơn, khi các biến độc
lập đều là các biến nhị phân (chỉ nhận hai giá trị 0-1). Tuy nhiên, sự tương tác có
thể xuất hiện giữa các biến định tính, giữa các biến định lượng, cũng như giữa biến
định và biến định lượng (trước khi đưa vào mô hình hồi quy để xét tính tương tác,
các biến định tính nên được đư
a về các biến nhị phân bằng cách sử dụng biến giả).
•
Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập.
Để phân tích các tương tác bộ ba, bộ bốn, giữa các biến độc lập, ta cần sử dụng
các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp.

Bài 7: Lựa chọn mô hình hồi quy
ơ
115
TÓM LƯỢC CUỐI BÀI
• Một mô hình được coi là có những thuộc tính tốt cần có những tiêu chuẩn sau:
o Có khả năng sự báo tốt.
o Phải mô tả được lí thuyết kinh tế liên quan .
o Không có những quan hệ giữa các biến độc lập và các yếu tố ngẫu nhiên.
o Giá trị của các tham số phải ổn định, nếu không dự báo sẽ không đáng tin cậy.
o Mô hình phải phản ánh được số liệu (các nhiễu phải thực sự ngẫu nhiên).
o Mô hình phải là phù hợp nhất trong số các mô hình có thể có.
• Các loại sai lầm định dạng của mô hình?
Ví dụ: Giả sử ta có mô hình hàm tổng chi phí dạng bậc 3 như sau:
i 1 2i1 3i2 4i3 i
YXXXu=β +β +β +β + (1)
Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau:
o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến X
i3
.
o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến X
i4
.
o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng
có dạng tuyến tính, ta nói mô hình sai dạng hàm.
o Định dạng sai cho sai số ngẫu nhiên.
o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn.
• Hậu quả nếu một mô hình định dạng sai.
o Mô hình thừa biến.
o Dạng hàm sai & thiếu biến.

Do vậy:
Khoảng tin cậy và kiểm định giả thiết thường cho kết quả không đúng về các tham số.
Dự báo dựa trên các mô hình này thường không đáng tin cậy.
• Các kiểm định phát hiện sai lầm định dạng.
o Kiểm định thừa biến.
Kiểm định thừa 1 biến: kiểm định T.
Kiểm định thừa từ 2 biến trở lên: Kiểm định F (thu hẹp của hàm hồi quy).
o Dạng hàm sai & thiếu biến: Kiểm định RESET.
• Phương pháp biến giả:
o Trong mô hình hồi quy, khi xem xét sự phụ thuộc của biến Y vào các yếu tố định tính
(thu nhập vào giới tính, trình độ học vấn, ), ta cần lượng hóa các biến định tính này.
o Để lượng hóa các biến định tính này, ta sử dụng biến giả (Dummy variables). 1 biến giả D
được thành lập nhận 2 giá trị 0 (nếu một thuộc tính nào đó xuất hiện) và 1 (nếu thuộc tính
đó không xuất hiện).
o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường.

Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
116
CÂU HỎI THƯỜNG GẶP
1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy?
2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như
thế nào?
3. Hậu quả của việc mô hình bị định dạng sai là gì?
4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên?
5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến định
tính lên biến phụ thuộc?
6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của biến đó là 1?
7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông

thường không?
8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?
BÀI TẬP TRẮC NGHIỆM
1. Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình:
A. Mô hình thiếu biến cần thiết. B. Mô hình thừa biến.
C. Mô hình bị sai dạng hàm. D. Tất cả các loại trên.
2. Trong phương pháp biến giả, biến giả có thể nhận bất cứ giá trị bằng số nào:
A. Đúng. B. Sai.
3. Nếu biến độc lập gồm có 2 biến định tính, mỗi biến định tính gồm 3 thuộc tính, nếu sử dụng
phương pháp biến giả, số biến giả được thiết lập trong mô hình là:
A. 3 B. 4
C. 5 D. 6
4. Trong phân tích hồi quy, chỉ có biến độc lập mới có thể là biến định tính:
A. Đúng. B. Sai.
5. Nếu mô hình có biến giả, ta không thể sử dụng phương pháp OLS để ước lượng mô hình.
A. Đúng. B. Sai.
6. Nếu một mô hình có biến độc lập bao gồm 1 biến định lượng và 2 biến định tính, mỗi biến có
2 thuộc tính, khi đó mô hình có bao nhiêu biến độc lập nếu ta giả thiết các thuộc tính khác
nhau cả hệ số chặn và hệ số góc, đồng thời có tương tác giữa 2 biến định tính:
A. 3 B. 4
C. 5 D. 6.
7. Khi đặt biến giả trong mô hình, ta có thể cho bất cứ thuộc tính nào nhận giá trị bằng 0 hoặc
bằng 1.
A. Đúng. B. Sai.

BÀI 7: LỰA CHỌN MÔ HÌNH HỒI QUY potx

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về