Chọn mô hình và kiểm định chọn mô hình
CHƯƠNG 9
1. Chọn mô hình
- Tiết kiệm: Mô hình đơn giản nhưng phải chứa
các biến chủ yếu ảnh hưởng đến biến phụ thuộc
nhằm giải thích bản chất của vấn đề nghiên cứu.
- Tính đồng nhất: Với một tập dữ liệu đã cho, các
tham số ước lượng phải duy nhất.
2
-Tính thích hợp (R2): Mô hình có R2 (hoặc R
càng gần 1 được coi càng thích hợp.
- Tính bền vững về mặt lý thuyết: mô hình phải
phù hợp với lý thuyết nền tảng.
- Khả năng dự báo cao
CHỌN MÔ HÌNH VÀ KIỂM ĐỊNH CHỌN
MÔ HÌNH
4
1
4
2. Các sai lầm khi chọn mô hình- Hậu quả
CHỌN MÔ HÌNH
MỤC
TIÊU
•Bỏ sót biến thích hợp: dẫn đến một số hậu
quả như
i. Các tham số ước lượng sẽ bị chệch và
không vững.
ii. Khoảng tin cậy và các kiểm định không
chính xác.
iii. Dự báo dựa trên mô hình sai sẽ không
đáng tin cậy.
1. Biết cách tiếp cận để lựa chọn
mô hình
2. Biết cách kiểm định việc chọn
mô hình
5
2
2
5
2. Các sai lầm khi chọn mô hình- Hậu quả
NỘI DUNG
1
Chọn mô hình- Các sai lầm khi chọn mô hình
2
Cách tiếp cận để lựa chọn mô hình
3
Kiểm định việc chọn mô hình
•Đưa vào mô hình những biến không phù
hợp:
các ước lượng thu được từ mô hình thừa
biến không hiệu quả, khoảng tin cậy rộng.
4
3
3
6
6
1
2. Các sai lầm khi chọn mô hình- Hậu quả
Kiểm định việc chọn mô hình
•Lựa chọn mô hình không chính xác:
i. Ước lượng chệch các hệ số hồi quy,
thậm chí dấu của hệ số hồi quy có thể
sai.
ii. Có ít hệ số hồi quy ước lượng được có
ý nghĩa thống kê
iii. R2 không cao
iv. Phần dư các quan sát lớn và biểu thị
sự biến thiên có tính hệ thống.
a. Kiểm định thừa biến (kiểm định Wald)
Xét hai mô hình:
(U ) : Y 1 2 X 2 ... m 1 X m 1 m X m k X k U
( R ) : Y 1 2 X 2 ... m 1 X m 1 V
(U): mô hình không bị ràng buộc (Unrestricted
model)
(R): mô hình bị ràng buộc (Restricted model).
Điều kiện ràng buộc là các hệ số hồi quy của các
biến Xm , Xm+1 , Xk đồng thời bằng 0
7
7
10
10
Ví dụ
a. Kiểm định Wald
• Về hàm chi phí của doanh nghiệp, dạng hàm đúng
Xây dựng giả thiết để kiểm định đk ràng buộc
Yi = b1 + b2Xi + b3Xi2 + b4Xi3 + u1i
• Bỏ sót biến quan trọng (Xi3):
Yi = a1 + a2Xi + a3Xi2 + u2i
• Đưa biến không liên quan vào mô hình (Xi4):
Ho : m ... k 0
H1: có ít nhất một j khác 0
B1: Hồi quy mô hình (U) có k tham số, tính RSSU
có n-k bậc tự do
B2: Hồi quy mô hình (R) có m tham số, tính
RSSR có n-m bậc tự do
B3: Tính F
Yi = l1 + l2Xi + l3Xi2 + l4Xi3 + l5Xi4 + u3i
• Dạng hàm sai.
lnY = g1 + g2Xi + g3Xi2 + g4Xi3 + u4i
F
( RSS R RSS U ) /( k m ) ( R 2 U R 2 R ) /( k m )
RSS U /( n k )
(1 R 2 U ) /( n k )
8
8
11
11
Cách tiếp cận để lưa chọn mô hình
a. Kiểm định Wald
1. Xác định số biến độc lập: có hai hướng tiếp cận:
Từ đơn giản đến tổng quát: bổ sung biến độc lập từ từ
vào mô hình
Từ tổng quát đến đơn giản: Xét mô hình hồi quy có đầy
đủ các biến độc lập đã được xác định, sau đó loại trừ
những biến không quan trọng ra khỏi mô hình
2. Kiểm định mô hình có vi phạm giả thiết như đa cộng
tuyến, phương sai thay đổi, tự tương quan. Nếu mô
hình vi phạm thì cần có biện pháp khắc phục.
3. Chọn dạng hàm; dựa vào
Các lý thuyết kinh tế
Các kết quả nghiên cứu thực nghiệm
4. Sử dụng các tiêu chuẩn thông dụng để chọn mô
hình
B4: Tra bảng F với mức ý nghĩa α có giá
trị Fα (k-m, n-k)
Quy tắc quyết định:
Nếu F> Fα (k-m, n-k): bác bỏ Ho, tức mô
hình (U) không thừa biến.
Nếu dùng kết quả p-value thì quy tắc
quyết định như sau:
• Nếu p ≤ : Bác bỏ H0
• Nếu p > : Chấp nhận H0
9
9
12
12
2
b. Kiểm định bỏ sót biến giải thích
Tiêu chuẩn lựa chọn mô hình
Để kiểm định các biến giải thích bỏ sót, ta dùng
kiểm định Reset của Ramsey, gồm các bước:
Bước 1: Dùng OLS để ước lượng mô hình
Yi = b1 + b2X2i + ui
Từ đó ta tính Yˆi và R2old
Bước 2: dùng OLS để ước lượng mô hình
•
•
•
•
•
Yi 1 2 X 2i 3Yˆ 2 4Yˆ 3 ... vi
R2,
R2 điều chỉnh,
Giá trị của hàm hợp lý log-likelihood (L),
Tiêu chuẩn thông tin Akaike (AIC),
Tiêu chuẩn thông tin Schwarz (SIC)
Tính R2new
Kiểm định giả thiết H0: b3 = b4 =… = bk = 0
16
13
13
16
Tiêu chuẩn R2
b. Kiểm định bỏ sót biến giải thích
Bước 3: Tính
F
2
2
( R new
Rold
) m
2
(1 R new ) ( n k )
• R2 đo lường % biến động của Y được giải thích bởi
các Xi trong mô hình.
n: số quan sát, k: số tham số trong mô hình mới; m: số
biến đưa thêm vào.
Bước 4: Nếu F > F(m,n-k): Bác bỏ H0, tức các hệ số
b3,b4,…bk không đồng thời bằng 0, mô hình cũ đã bỏ
sót biến.
Nếu dùng kết quả p-value thì quy tắc quyết định như
sau:
Nếu p ≤ : Bác bỏ H0
Nếu p > : Chấp nhận H0
• R2 càng gần 1, mô hình càng phù hợp.
• Lưu ý:
– Nó chỉ đo lường sự phù hợp “trong mẫu”
– Khi so sánh R2 giữa các mô hình khác nhau, các biến phụ
thuộc phải giống nhau.
– R2 không giảm khi tăng thêm biến độc lập.
17
14
14
17
Tiêu chuẩn R2 điều chỉnh
(R2)
c. Kiểm định giả thiết phân phối chuẩn của ui
Để kiểm định phân phối chuẩn của Ui, ta dùng kiểm
định χ2, hay kiểm định Jarque-Bera:
Kiểm định giả thiết H0: ui có phân phối chuẩn
R 2 1
S 2 ( K 3) 2
JB n
24
6
S
(u
i
u )3
n.SE
3
u
K
(u
i
• Ta thấyR2 £ R2.R2 chỉ tăng khi giá trị tuyệt
đối của giá trị t của biến được thêm vào mô
hình lớn hơn 1.
• Do vậy,R2 là tiêu chuẩn tốt hơn R2.
• Lưu ý, các biến phụ thuộc cũng phải giống
nhau.
u )4
n.SE u4
Nếu JB > χ2, Bác bỏ H0, ngược lại, chấp nhận H0
18
15
15
RSS /( n k )
n 1
1 (1 R 2 )
TSS /( n 1)
nk
18
3
Giá trị của hàm hợp lý log-likelihood (L)
6. Các chỉ tiêu đánh giá mô hình dự báo
• Sai số dự báo
n
n
1
L ln 2 ln( 2 ) U i2
2
2
2
et Yt Yˆt
• Giá trị L càng lớn chứng tỏ mô hình càng phù
hợp
• Mẫu chia thành hai phần
Mẫu khởi động: gồm các quan sát t=1,2,3...S-1
Mẫu kiểm tra: gồm các quan sát t=S, S+1,…S+h
19
19
22
22
Tiêu chuẩn thông tin Akaike (AIC)
hay
6.1 Trung bình sai số bình phương
RSS 2 k / n
AIC
.e
n
2k
RSS
ln AIC ln
n
n
Mean Squared Error
MSE
1 S h 2
et
h 1 tS
• Trong đó k là số biến được ước lượng (gồm cả
hệ số tự do) và n là cỡ mẫu.
• Giá trị AIC càng nhỏ chứng tỏ mô hình càng phù
hợp.
20
20
23
23
6.2 Căn bậc hai của trung bình sai số bình
phương
Tiêu chuẩn thông tin Schwarz (SC)
RSS k / n
SC
.n
n
hay
ln SC
• Root Mean Squared Error
k
RSS
ln n
n
n
RMSE MSE
• SC còn khắt khe hơn AIC.
• SC càng nhỏ, mô hình càng tốt.
21
21
24
24
4
6.3 Trung bình sai số tuyệt đối
6.6 Tỷ lệ độ chệch
• Mean Absolute Error
• Bias Proportion: trung bình của giá trị dự báo
khác so với trung bình giá trị thực tế
1 S h
MAE
et
h 1 tS
Yˆ Y
2
BP
1 S h ˆ
(Yt Yt )2
h 1 t S
• Các chỉ tiêu MSE, RMSE, MAE phụ thuộc đơn
vị đo của biến dự báo.
25
25
28
28
6.4 Trung bình của phần trăm sai số tuyệt đối
6.7 Tỷ lệ phương sai
• Variance Proportion: cho biết mức độ biến
thiên của giá trị dự báo khác mức độ biến
thiên của giá trị thiực tế
• Mean Absolute Percentage Error
MAPE
1 S h et
h 1 t S Yt
VP
SYˆ
( SYˆ SY ) 2
1 S h ˆ
(Yt Yt )2
h tS
1 S h ˆ ˆ 2
(Yt Yt )
h tS
SY
1 S h
(Yt Yt )2
h tS
26
26
29
29
6.5 Hệ số bất đẳng thức Theil
6.8 Tỷ lệ hiệp phương sai
• Mean Absolute Error
TIC
• Covariance Proportion: cho biết tỷ lệ phần sai
số của dự báo không mang tính hệ thống
2(1 r ) S S
CP S h YˆY Yˆ Y
1
(Yˆt Yt )2
h tS
RMSE
1 S h ˆ 2
1 S h 2
Y
Yt
t h 1
h 1 t S
t S
• TIC thuộc [0;1]
• TIC =0: hàm hồi quy dự báo chính xác
• BP+VP+CP=1
• Mô hình dự báo tốt: BP và VP nhỏ
27
27
30
30
5
B2 Chạy mô hình R
Ví dụ 1
• Cho Y: lượng hàng bán được của mặt hàng A
(kg/tháng)
• X2: giá bán mặt hàng A (ngàn đồng/kg)
• X3: giá bán của mặt hàng B (ngàn đồng/kg)
• Z= 0 nếu khu vực khảo sát ở nông thôn, Z=1
nếu kv khảo sát ở thành phố
Sử dụng Eviews, hãy kiểm định Wald để phát
hiện thừa biến
31
31
34
34
X2
2
3
3
4
4
3
4
4
5
5
5
6
6
7
7
5
4
7
8
8
X3
14
13
15
16
11
16
10
17
13
12
14
15
13
14
12
16
15
18
16
20
Z
1
0
1
0
1
1
0
1
1
1
0
1
0
1
0
1
0
1
0
1
Y
20
19
18
18
17
17
16
16
15
15
14
14
13
12
12
15
16
12
10
11
B3 Tính F
F
( RSS R RSS U ) /( k m ) ( R 2 U R 2 R ) /( k m )
RSS U /( n k )
(1 R 2 U ) /( n k )
• B4 Tra bảng F (α, k-m, n-k) và quyết định bác bỏ
hoặc chấp nhận Ho.
Ho: Thừa biến
H1: Không thừa biến
32
32
35
35
B1. Chạy mô hình U
Ví dụ 1
Giả sử mô hình hồi quy
Yi 1 2 X 2 i 3 X 3i 4 Z i u i
B1: Chạy mô hình hồi quy mẫu
B2: Xác định hệ số hồi quy không có ý nghĩa
thống kê (có p>α). Lập giả thuyết Ho
B3: Chạy kiểm định Wald, xem giá trị F và p của F
để quyết định bác bỏ hay chấp nhận Ho
33
33
36
36
6
B1: Chạy hồi quy
• Ta có F= 0.082219, p=0.9215> α nên ta chấp
nhận giả thuyết H0: β3=β4 =0. Tức biến X3, Z
không cần thiết đưa vào mô hình.
• Kết luận: Lượng hàng trung bình bán được của
mặt hàng A chỉ phụ thuộc vào giá bán của mặt
hàng A, không phụ thuộc vào giá bán mặt
hàng B và khu vực bán.
37
37
40
40
• Giả sử α=5%, ta thấy hệ số hồi quy của biến X3
và Z có p > α nên biến X3 và Z khác 0 không có
ý nghĩa.
• B2: Chạy kiểm định Wald cho giả thiết
H0: β3=β4 =0 , ta có kết quả
38
38
39
39
7