1
ĐIỀU KIỆN VẬN DỤNG MÔ
HÌNH
2
Các nội dung chính
Kiểm tra các giả thiết áp dụng
mô hình
Số liệu quan sát sai lệch
Các biến giả (dummy)
Phương pháp từng bước
Sự tương tác (Interaction)
3
Các điều kiện vận dụng mô hình
Các điều kiện về dạng mô hình :
Tuyến tính của các biến độc lập so với biến phụ thuộc
Các điều kiện về sai số mô hình (error):
Các sai số mô hình là độc lập (không tự tương quan)
và phân phối giống nhau theo phân phối chuẩn với
trung bình bằng 0 và variance
σ
2
(homoscedasticity)
Các điều kiện về các số dự đoán:
Các biến độc lập không ngẫu nhiên
Các giá trị của các biến độc lập được đo lường không
có sai số
Các số dự đoán là độc lập theo đường thẳng, (không
có bội tương quan giữa các biến độc lập -
multicollinearity)
Các điều kiện về quan sát:
Tất cả các quan sát có cùng một vai trò
4
Mô hình với ảnh hưởng cố định ngược
với mô hình với ảnh hưởng ngẫu nhiên
Về nguyên tắc, hồi qui được thực hiện đối với
các mô hình có ảnh hưởng cố định
Các biến độc lập được kiểm soát
Mô hình cũng hoạt động đối với các biến có
ảnh hưởng ngẫu nhiên
Các biến độc lập là ngẫu nhiên
Về nguyên tắc, các biến này phải tuân theo một phân
phối chuẩn đa biến
5
Tuyến tính
Vẽ biểu đồ từng phần (partial plots)
Để đánh giá đặc trưng tuyến tính của một
biến X
j
so với Y, chúng ta hồi qui Y về
toàn bộ các biến độc lập trừ X
j
, và chúng
ta hồi qui X
j
bằng các biến độc lập khác
Chúng ta vẽ biểu đồ các phần dư
(residues) của hai hồi qui. Như vậy,
chúng ta loại bỏ ảnh hưởng của các biến
độc lập khác.
6
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
surface
3000200010000-1000-2000
prix
200000
100000
0
-100000
-200000
7
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
age
806040200-20
prix
200000
100000
0
-100000
-200000
8
Scatterplot
Dependent Variable: prix
Regression Adjusted (Press) Predicted Value
4000003000002000001000000
Regression Studentized Residual
4
2
0
-2
-4
Biểu đồ phần dư (residues)
9
Biểu đồ (histogram) phần dư
(residues)
Regression Standardized Residual
Histogram
Dependent Variable: prix
Frequency
60
50
40
30
20
10
0
Std. Dev = 1,00
Mean = 0,00
N = 319,00
10
Normal probability plot
(Đồ thị theo hàm chuẩn)
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: prix
Observed Cum Prob
1,00,75,50,250,00
Expected Cum Prob
1,00
,75
,50
,25
0,00
11
Hai kiểm định nhanh để kiểm
tra phân phối chuẩn
Nhờ vào hệ số đối xứng (skewness)
Trong đó, n là kích thước mẫu
Nhờ vào kurtose
Trong đó, n là kích thước mẫu
Nếu giá trị tuyệt đối của Z lớn hơn 1.96, phân
phối là không chuẩn với sai số ở mức rủi ro 5%
JB
n
6
skewness
=Z
n
24
kurtose
=Z
12
Phép biến đổi các biến
Các điều kiện vận dụng mô hình thường
xuyên không đạt được:
Tuyến tính
Phương sai không đổi của các sai số (errors) của
mô hình
Một mô hình là tuyến tính nếu các tham
số hiện diện trong mô hình là tuyến
tính, ngay cả khi các biến độc lập không
tuyến tính
13
• Thống kê JB1
Đây là một thống kê thường được sử dụng để kiểm định xem một biến có phân phối
chuẩn hay không. Trong hồi qui tuyến tính cổ điển, thống kê này rất quan trọng cho
việc kiểm định phần dư của mô hình hồi theo phương pháp OLS có phân phối chuẩn
hay không.
Giả thiết H0: Chuỗi (biến) có phân phối chuẩn
Công thức:
⎥
⎥
⎦
⎤
⎢
⎢
⎣
−⎡
+
−
=
4
) 3 K (
S
6
k N JB
2
2
(2.1)
Trong đó, S là độ nghiêng của phân phối, K là độ nhọn của phân phối, N là số quan
sát, và k là số hệ số lượng được sử dụng để tạo ra chuỗi dữ liệu (N-k là bậc tự do)
2
.
Khi một chuỗi có phân phối chuẩn thì S = 0 và K = 3, nên JB = 0. Chúng ta sẽ biết ở
chương 3 rằng thống kê JB có phân phối Chi bình phương với số bậc tự do là 2
(χ2
(2))
3
. Xác suất được báo cáo kèm theo giá trị thống kê JB là xác suất mà thống kê
14
15
Phép biến đổi các biến
Các ví dụ của các mô hình tuyến tính:
Ví dụ mô hình không tuyến tính:
tiếp
εββ
++= XY
21
εβββ
+++=
2
321
XXY
εββ
++= XY log
21
εββ
++= XY
21
εβ
β
++=
X
eY
2
1
16
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
β
α= XY
Xlog'X,Ylog'Y ==
'Xlog'Y β+α=
17
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
eY
β
α=
Yln'Y =
Xln'Y β+α=
tiếp
18
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
XlogY β+α=
Xlog'X =
'XY β+α=
tiếp
19
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
β−α
=
X
X
Y
tiếp
X
1
'X,
Y
1
'Y ==
'X'Y β−α=
20
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
X
e1
e
Y
β+α
β+α
+
=
tiếp
Y1
Y
ln'Y
−
=
X'Y β+α=
21
Diễn giải các hệ số
Nếu biến phụ thuộc là một biến
logarithm
Hệ số của biến độc lập X
k
có thể được hiểu là :
sự biến đổi một đơn vị của X
k
dẫn đến 100(b
k
)%
thay đổi của số trung bình (mean) của Y
Nếu biến độc lập là một số logarithm
Hệ số của biến độc lập X
k
có thể được hiểu là: sự
biến đổi 100% dẫn đến một sự thay đổi b
k
đơn vị
của số trung bình của Y
22
Diễn giải các hệ số
Nếu biến phụ thuộc và biến độc lập là
các số logarithms
Hệ số của biến độc lập X
k
có thể được hiểu là : 1%
biến đổi X
k
dẫn đến một phần trăm biến đổi trung
bình của Y của b
k
. b
k
là tính đàn hồi (elasticity) của
Y so với X
k
.
tiếp
23
Những quan sát lệch lạc (outliers)
Ba dạng:
Các điểm bẫy (leverage values)
Được đánh dấu bằng các giá trị của ma trận mũ
(hat values)
Những quan sát cho thấy ảnh hưởng (influential)
Sự hủy bỏ của các quan sát này nói chung làm thay
đổi quan trọng ước lượng các tham số của mô hình
Được đánh dấu bằng các khoảng cách Cook
Những quan sát lệch lạc (outliers):
Những quan sát mà đối với nó, biến phụ thuộc có
một giá trị “không bình thường” (anormal) so với
các giá trị của các biến độc lập
Những quan sát có giá trị lớn hơn hai hoặc ba lần
độ lệch chuẩn của đường trung tâm trong đồ thị
phần dư (residues)
Được đánh dấu bằng các “studentized deleted
residuals”
24
Các yếu tố của ma trận mũ “hat
matrix” h
i
Mỗi giá trị có thể được biểu thị theo các y
i
h
iji
chỉ ra trong chừng mực nào Y
i
có thể ảnh hưởng đến
Nếu h
ij
là lớn, quan sát thứ i
ème
có thể có một ảnh hưởng
quan trọng đến giá trị được điều chỉnh thứ j
ème
Chúng ta có thể chứng tỏ rằng
h
j
=h
jj
tóm lược ảnh hưởng tiềm tàng của y
i
đến tất cả các
giá trị được điều chỉnh
nnjiij2j21j1j
Yh Yh YhYhY
ˆ
+++++=
∑
=
j
2
ijii
hh
j
Y
ˆ
j
Y
ˆ
25
Các yếu tố của ma trận mũ “hat
matrix” h
i
Các giá trị nằm giữa 0 và 1 và giá trị trung bình
bằng (k)/n
Nếu p lớn hơn hoặc bằng 10 và n lớn hơn hoặc
bằng 50, quan sát được xem là một điểm bẫy
nếu nó lớn hơn 2(k)/n
Nếu không, quan sát được xem như là một điểm
bẫy nếu nó lớn hơn 3(k)/n (với ví dụ:
9/319=0,028)
Một điểm bẫy là một giá trị sai lệch trong khoảng
không (trên đồ thị) của các biến độc lập.
tiếp