1
Ch
ương 4: Mô hình hồi quy với
biến giả
I. Bản chất của biến giả - Mô hình có biến giả
1. Khái niệm:
• Biến chất lượng:
Là biến mà nhận những giá trị thuộc tính (phạm trù)
nhất định. Một biến chất lượng có thể nhận 2, 3 hoặc
nhiều hơn các thuộc tính.
• Biến giả:
Là biến chỉ nhận 2 giá trị với mục đích để lượng hoá
các biến chất nhằm đưa các biến chất vào mô hình
khi phân tích một hiện tượng kinh tế xã hội.
• Ví dụ:
Một loại hàng được sản xuất trong nước hoặc là được
nhập khẩu.
D = 1 khi là hàng sản xuất trong nước,
= 0 khi không phải được sản xuất trong nước (nhập
khẩu)
2. Biến chất có 2 thuộc tính:
Ví dụ: Giả sử một công ty sử dụng 2 quá trình sản xuất
A và B để sản xuất ra một loại sản phẩm.
• Phương trình HQ: Y
i
= β
1
+β
2
D
i
+U
i
Y
i
: Sản lượng sản phẩm gắn với quá trình thứ i
• Thoả mãn các giả thiết cơ bản của OLS:
E(U
i
/D
i
) = 0
Var(U
i
/D
i
) = Var(U
j
/D
j
) = σ
2
Cov(U
i
,U
j
) = 0
• D
i
là biến giả:
D
i
= 1 nếu sản lượng sản phẩm thu được từ A
= 0 nếu sản lượng sản phẩm thu được từ B
• Mô hình cho biết sản lượng trung bình giữa A và B có
khác nhau không.
• Hệ số chặn β
1
cho biết sản lượng trung
bình gắn với B
E(Y
i
/D
i
=0) = β
1
• Hệ số góc β
2
cho biết sự khác nhau về
sản lượng trung bình của A so với B
E(Y
i
/D
i
=1) = β
1
+ β
2
• Kiểm định GT: H
0
: β
2
= 0
Cho biết không có sự khác nhau về sản
lượng trung bình giữa A và B
2
• Ví dụ 4.1:
Để so sánh kết
quả sản lượng
do 2 quá trình
sản xuất A và B
có khác nhau
hay không người
ta tiến hành lấy
một mẫu như
sau:
A:D
i
=1;B:D
i
=0 Sản lượng 1 ca
1 22
0 19
0 18
1 21
0 18,5
1 21
1 20,5
0 17
0 17,5
1 21,2
3. Biến chất có 3 thuộc tính trở lên
Ví dụ: Giả sử có 3 quá trình sản xuất A, B, C
Đưa vào 2 biến giả D
1
và D
2
Xét mô hình:
Y
i
= β
1
+ β
2
D
1i
+ β
3
D
2i
+ U
i
Trong đó:
D
1
= 1 nếu sản lượng sản phẩm thu được từ A
D
1
= 0 nếu sản lượng sản phẩm thu được từ quá
trình khác
D
2
= 1 nếu sản lượng sản phẩm thu được từ B
D
2
= 0 nếu sản lượng sản phẩm thu được từ quá
trình khác
• Ta có các kết hợp:
• Lấy kỳ vọng:
E(Y
i
/D
1
=1;D
2
=0)=β
1
+ β
2
E(Y
i
/D
1
=0;D
2
=1)=β
1
+ β
3
E(Y
i
/D
1
=0;D
2
=0)=β
1
Hệ số chặn cho biết sản lượng trung bình của C
Hệ số góc β
2
cho biết sự thay đổi trung bình của sản
lượng khi chuyển từ C sang A
Hệ số góc β
3
cho biết sự thay đổi trung bình của sản
lượng khi chuyển từ C sang B
Quá trình sản xuất D
1
D
2
A 1 0
B 0 1
C 0 0
• Kiểm định giả thiết:
H
0
: β
2
= 0 cho biết không có sự khác nhau giữa
sản lượng trung bình của A và C
H
0
: β
3
= 0 cho biết không có sự khác nhau giữa
sản lượng trung bình của B và C
• Lưu ý:
Để phân biệt n thuộc tính ta dùng n -1 biến giả
Thuộc tính cơ sở là thuộc tính khi tất các biến
giả bằng 0: D
1
= D
2
= … = D
n
= 0. Các thuộc
tính khác được so sánh với thuộc tính cơ sở.
3
• Ví dụ 4.2:
Dựa vào bảng số
liệu dưới đây để
so sánh về sản
lượng của 3 quá
trình sản xuất
A (D
1
=1, D
2
=0),
B (D
1
=0,D
2
=1),
C (D
1
=0,D
2
=0).
D
1
D
2
Y D
1
D
2
Y
1 0 22 0 0 17,1
0 1 19 1 0 20,5
0 0 18,5 0 1 17
1 0 21 0 0 16
0 1 18 1 0 21,2
0 0 16 0 1 17,5
1 0 21 0 0 16,2
0 1 18,5
II. Mô hình hồi quy một biến lượng và một biến chất
1. Trường hợp biến chất chỉ có 2 thuộc tính
• Xét mô hình: Y
i
= β
1
+ β
2
D
i
+ β
3
X
i
+ U
i
Trong đó:
Y
i
: Tiền lương hàng tháng của công nhân cơ khí thứ i
X
i
: Bậc thợ của công nhân i
D
i
= 1 nếu công nhân i làm việc trong khu vực tư nhân
D
i
= 0 nếu công nhân i làm việc trong khu vực quốc doanh
Tiền lương trung bình của công nhân cơ khi trong khu
vực nhà nước:
E(Y
i
/X
i
, D
i
=0) = β
1
+ β
3
X
i
Tiền lương trung bình của công nhân cơ khí trong khu
vực tư nhân:
E(Y
i
/X
i
, D
i
=1) = (β
1
+ β
2
) + β
3
X
i
• Kiểm định H
0
: β
2
= 0
Cho biết liệu có sự khác nhau về mức lương
ở 2 khu vực hay không.
• Ví dụ 4.3:
Dựa vào bảng số liệu sau đây để lập phương
trình hồi quy mô tả sự phụ thuộc của tiền
lương công nhân vào khu vực làm việc (D
i
=
1: tư nhân, D
i
= 0: nhà nước) và bậc thợ (3
bậc).
Lương D
i
Bậc thợ
X
i
Lương D
i
Bậc thợ
X
i
1,1 1 1 0,9 0 1
1,6 1 2 1,3 0 2
2,1 1 3 1,65 0 3
0,8 0 1 1,2 1 1
1,2 0 2 1,7 1 2
1,85 0 3 2,2 1 3
1,05 1 1 0.75 0 1
1,55 1 2 1,15 0 2
2,05 1 3 1,5 0 3
4
2. Trường hợp biến chất có nhiều hơn 2 thuộc tính
Ví dụ: Hồi quy thu nhập hàng năm của cán bộ giảng
dạy với tuổi nghề giảng dạy và khu vực giảng dạy
(Bắc, Trung, Nam).
• Mô hình:
Y
i
= β
1
+ β
2
D
1i
+ β
3
D
2i
+ β
4
X
i
+ U
i
Trong đó:
Y: thu nhập hàng năm của giảng viên
X: tuổi nghề của giảng viên
D
1
= 1 nếu thuộc một trường miền Bắc
= 0 nếu không thuộc một trường miền Bắc
D
2
= 1 nếu thuộc một trường miền Nam
= 0 nếu không thuộc một trường miền Nam
Coi giảng viên ở miền Trung là phạm trù cơ sở
Hệ số β
2
, β
3
cho biết sự khác nhau về thu nhập
của giảng viên các vùng khác so với miền Trung
• Thu nhập trung bình của giảng viên ở miền
Trung:
E(Y
i
/D
1
=0, D
2
=0, X
i
) = β
1
+ β
4
X
i
Thu nhập trung bình của giảng viên ở miền Bắc:
E(Y
i
/D
1
=1, D
2
=0, X
i
) = (β
1
+ β
2
) + β
4
X
i
Thu nhập trung bình của giảng viên ở miền
Nam:
E(Y
i
/D
1
=0, D
2
=1, X
i
) = (β
1
+ β
3
) + β
4
X
i
III. Hồi quy với một biến lượng và hai biến chất
• Số biến giả phụ thuộc vào số biến chất và các thuộc
tính mà mỗi biến chất có
• Ví dụ: Thu nhập giảng viên phụ thuộc vào Vùng và
Giới tính
Vùng có 3 thuộc tính: Bắc, Trung, Nam
Giới tính có 2 thuộc tính: Nam, Nữ
Mô hình có dạng:
Y
i
=β
1
+β
2
D
1i
+β
3
D
2i
+β
4
D
3i
+β
5
X
i
+U
i
Trong đó:
Y
i
là thu nhập hàng năm của giảng viên
X
i
là tuổi nghề của giảng viên
D
1i
=1 nếu giảng viên thuộc miền Bắc
=0 nếu giảng viên không thuộc miền Bắc
D
2i
=1 nếu giảng viên thuộc miền Nam
=0 nếu giảng viên không thuộc miền Nam
D
3i
=1 nếu giảng viên là nam
=0 nếu giảng viên là nữ
Phạm trù cơ sở là giảng viên thuộc miền
Trung
5
Thu nhập trung bình của một giảng viên nữ ở miền
Trung: E(Y
i
/D
1
=0,D
2
=0,D
3
=0,X
i
)=β
1
+β
5
X
i
Thu nhập trung bình của một giảng viên nam ở miền
Trung: E(Y
i
/D
1
=0,D
2
=0,D
3
=1,X
i
)=β
1
+β
4
+β
5
X
i
Thu nhập trung bình của một giảng viên nữ ở miền
Bắc: E(Y
i
/D
1
=1,D
2
=0,D
3
=0,X
i
)=β
1
+β
2
+β
5
X
i
Thu nhập trung bình của một giảng viên nam ở miền
Bắc: E(Y
i
/D
1
=1,D
2
=0,D
3
=1,X
i
)=β
1
+β
2
+β
4
+β
5
X
i
Thu nhập trung bình của một giảng viên nữ ở miền
Nam: E(Y
i
/D
1
=0,D
2
=1,D
3
=0,X
i
)=β
1
+β
3
+β
5
X
i
Thu nhập trung bình của một giảng viên nam ở miền
Nam: E(Y
i
/D
1
=0,D
2
=1,D
3
=1,X
i
)=β
1
+β
3
+β
4
+β
5
X
i
IV. Kết hợp hai hồi quy
Ví dụ:
Có hồi quy của tiết kiệm và thu nhập trước và
sau mốc chuyển đổi kinh tế của một quốc gia
Thời kỳ trước cải tổ: Y
i
=β
1
+β
2
X
i
+U
1i
(i=1 n)
Thời kỳ sau cải tổ:Y
j
=α
1
+α
2
X
j
+U
2j
(j=1 m)
Có 4 khả năng:
+ α
1
= β
1
và α
2
= β
2
: 2 hồi quy đồng nhất
+ α
1
≠ β
1
và α
2
= β
2
: 2 hồi quy có cùng hệ số góc
+ α
1
= β
1
và α
2
≠ β
2
: 2 hồi quy có cùng hệ số chặn
+ α
1
≠ β
1
và α
2
≠ β
2
: 2 hồi quy hoàn toàn khác nhau
Dùng biến giả để kết hợp 2 hồi quy:
Gộp tất cả n và m quan sát
Ước lượng hồi quy: Y
i
=β
1
+β
2
D
i
+β
3
X
i
+β
4
(D
i
X
i
)+U
i
Trong đó: Y
i
: Tiết kiệm; X
i
: Thu nhập
D
1
=1 đối với quan sát trước thời kỳ chuyển đổi
= 0 đối với quan sát từ thời kỳ chuyển đổi về sau
E(Y
i
/D
i
=0,X
i
)= β
1
+β
3
X
i
E(Y
i
/D
i
=1,X
i
)= (β
1
+β
2
)+(β
3
+β
4
)X
i
Ví du: Số liệu tiết kiệm và thu nhập cá nhân ở nước Anh từ nằm 1946
và 1963 (Triệu pound). Chia làm hai giai đoạn 1946 – 1954 (thời kỳ
sau chiến tranh thế giới thứ II: thời kỳ tái thiết) và 1955-1963 (thời kỳ
hậu tái thiết). Hãy đánh giá xem mối quan hệ giữa tiết kiệm Y và thu
nhập X có thay đổi giữa hai thời kỳ hay không?
TKI Y X TKII Y X
1946 0,36 8,8 1955 0,59 15,5
1947 0,21 9,4 1956 0,90 16,7
1948 0,08 10,0 1957 0,95 17,7
1949 0,20 10,6 1958 0,82 18,6
1950 0,10 11,0 1959 1,04 19,7
1951 0,12 11,9 1960 1,53 21,1
1952 0,41 12,7 1961 1,94 22,8
1953 0,50 13,5 1962 1,75 23,9
1954 0,43 14,3 1963 1,99 25,2
6
V. Ảnh hưởng tương tác giữa các biến giả:
Xét mô hình: Y
i
=β
1
+β
2
D
2i
+β
3
D
3i
+β
4
X
i
+U
i
Trong đó: Y
i
là chi tiêu hàng năm về quần áo
X
i
là thu nhập
D
2
= 1 nếu là nữ; = 0 nếu là nam
D
3
= 1 nếu là sinh viên; = 0 nếu là công nhân viên
Chi tiêu quần áo trung bình:
D
2i
D
3i
Phân loại E(Y)
1 1 Nữ sinh viên β
1
+β
2
+β
3
+β
4
X
i
0 0 Nam công nhân viên β
1
+β
4
X
i
1 0 Nữ công nhân viên β
1
+β
2
+β
4
X
i
0 1 Nam sinh viên β
1
+β
3
+β
4
X
i
Giả thiết của mô hình:
+ Ảnh hưởng của biến giới tính đến chi tiêu quần áo là
giống nhau giữa 2 tầng lớp sinh viên và công nhân viên.
+ Ảnh hưởng của biến tầng lớp đến chi tiêu quần áo là
giống nhau giữa 2 giới tính nam và nữ.
Hai biến giới tính và tầng lớp trong mô hình trên không
tương tác với nhau.
Ảnh hưởng của chúng lên trung bình Y là phép cộng
đơn giản.
Trong thực tế có sự tương tác giữa các biến giả: nữ sinh
viên có mức chi tiêu quần áo nhiều hơn hẳn.
Mô hình có tương tác:
Y
i
=β
1
+β
2
D
2i
+β
3
D
3i
+β
4
(D
2i
D
3i
) + β
5
X
i
+U
i
Chi tiêu trung bình về quần áo của nữ sinh viên:
E(Y/D
2
=1,D
3
=1,X
i
)= (β
1
+β
2
+β
3
+β
4
)+ β
5
X
i
Kiểm định giả thiết: H
0
: β
4
=0
Cho biết sự tương tác có ý nghĩa về mặt thống kê hay
không
6. Sử dụng biến giả trong phân tích mùa:
6.1. Yếu tố mùa vụ chỉ ảnh hưởng đến hệ số chặn
Giả sử ở các hộ gia đình có sự phụ thuộc thu nhập
vào chi tiêu và thời gian trong năm
Y
i
=β
1
+β
2
D
2i
+β
3
D
3i
+β
4
D
4i
+β
5
X
i
+U
i
Trong đó: Y
i
: chi tiêu; X
i
: thu nhập;
D
1
= 1 nếu quan sát nằm ở quý 2
= 0 nếu quan sát nằm ở quý khác
D
2
= 1 nếu quan sát nằm ở quý 3
= 0 nếu quan sát nằm ở quý khác
D
3
= 1 nếu quan sát nằm ở quý 4
= 0 nếu quan sát nằm ở quý khác
Chi tiêu trung bình trong quý 1 là:
E(Y
i
/D
2
=0,D
3
=0,D
4
= 0,X
i
)= β
1
+β
5
X
i
Chi tiêu trung bình trong quý 2 là:
E(Y
i
/D
2
=1,D
3
=0,D
4
=0,X
i
)= (β
1
+β
2
)+ β
5
X
i
7
Chi tiêu trung bình trong quý 3 là:
E(Y
i
/D
2
=0,D
3
=1,D
4
=0,X
i
)= (β
1
+β
3
)+ β
5
X
i
Chi tiêu trung bình trong quý 4 là:
E(Y
i
/D
2
=0,D
3
=0,D
4
=1,X
i
)= (β
1
+β
4
)+ β
5
X
i
Các hệ số β
2
,β
3
,β
4
cho biết chi tiêu trung bình ở
mỗi quý khác với quý 1 như thế nào
6.2 Yếu tố mùa vụ đến cả hệ số góc
Mô hình: Y
i
=β
1
+β
2
D
2i
+β
3
D
3i
+β
4
D
4i
+β
5
X
i
+ β
6
(D
2i
X
i
) +
β
7
(D
3i
X
i
) + β
8
(D
4i
X
i
)+U
i
Y
i
=(β
1
+β
2
D
2i
+β
3
D
3i
+β
4
D
4i
)+ (β
5
+ β
6
D
2i
+ β
7
D
3i
+β
8
D
4i
)X
i
+U
i
7. Hồi quy tuyến tính từng khúc
Là mô hình có dạng đồ thị thay đổi độ dốc
nhưng vẫn đảm bảo tính liên tục.
Xét mối quan hệ phụ thuộc của tiêu dùng Y
và thu nhập X của nước ta trong 2 thời kỳ
trước và sau chuyển đổi.
Gọi năm chuyển đổi là t
0
Mô hình: Y
t
=β
1
+β
2
X
t
+β
3
(X
t
– X
t0
)D
t
+ U
t
D
t
= 1 nếu t > t
0
= 0 nếu t ≤ t
0
Trung bình của tiêu dùng trong những năm trước
chuyển đổi kinh tế là:
E(Y
t
/D
t
=0,X
t
)= β
1
+β
2
X
t
Trung bình của tiêu dùng trong những năm sau
chuyển đổi kinh tế là:
E(Y
t
/D
t
=1,X
t
)= β
1
- β
3
X
t0
+(β
2
+β
3
)X
t
β
2
cho độ dốc của đường hồi quy trước khi chuyển
đổi
(β
2
+β
3
) cho độ dốc của đường hồi quy sau khi
chuyển đổi
Không có sự gián đoạn trên đồ thị vì:
E(Y
t0
) = β
1
+β
2
X
t0
= β
1
- β
3
X
t0
+(β
2
+β
3
)X
t0
Kiểm định H
0
:β
3
= 0 cho biết có sự thay đổi độ dốc
hay không
Nếu mô hình có nhiều thay đổi về cấu trúc ứng với t
0
và t
1
, ta có:
Y
t
=β
1
+β
2
X
t
+β
3
(X
t
– X
t0
)D
1t
+ β
4
(X
t
– X
t1
)D
2t
+U
t
Trong đó:
D
1
= 1 nếu t > t
0
; = 0 nếu t nhận giá trị khác
D
2
= 1 nếu t > t
1
; = 0 nếu t nhận giá trị khác
Phương trình cho 3 giai đoạn là:
E(Y
t
) = β
1
+β
2
X
t
nếu 0 < t ≤ t
0
= β
1
- β
3
X
t0
+(β
2
+β
3
)X
t
nếu t
0
< t ≤ t
1
= β
1
- β
3
X
t0
– β
4
X
t1
+(β
2
+β
3
+ β
4
)X
t
nếu t > t
1
8
Ví dụ: Cho bảng số liệu tương ứng với hai giai đoạn I và II
a) Hãy thiết lập mô hình tuyến tính đơn cho 2 giai đoạn
riêng biệt.
b) Lập mô hình: Y
t
=β
1
+β
2
X
t
+β
3
(X
t
– X
t0
)D
t
+ U
t
Với D
1
= 0 nếu số liệu ở giai đoạn I; = 1 nếu số liệu ở
giai đoạn II; X
t0
= 15,5
I
Y 0,36 0,21 0,08 0,2 0,1 0,12 0,41 0,5 0,43
X 8,8 9,4 10 10,6 11 11,9 12,7 13,5 14,3
II
Y 0,59 0,9 0,95 0,82 1,04 1,53 1,94 1,75 1,99
X 15,5 16,7 17,7 18,6 19,7 21,1 22,8 23,9 25,2