HỒI QUY VỚI
BIẾN GIẢ
Chương 4
Các biến độc lập X
i
trong các mô hình đã nghiên
cứu thông thường là những biến định lượng, giá trị
quan sát là những con số
Tuy nhiên có những trường hợp các biến độc lập
này là những biến định tính.
Ví dụ : Thu nhập, chi tiêu, chi phí, doanh thu .v.v
Ví dụ : tốt – xấu, cao – thấp, nhanh – chậm…
I. BẢN CHẤT CỦA BIẾN GIẢ
I. BẢN CHẤT CỦA BIẾN GIẢ
Biến định tính thường biểu thị có hay không có một tính
chất hoặc là các mức độ khác nhau của một tiêu thức
thuộc tính nào đó
Ví dụ : giới tính (nam hay nữ), tôn giáo, dân tộc, nơi
sinh, hình thức sở hữu, ngành nghề kinh doanh .v.v…
Để lượng hoá các biến định tính, trong phân tích hồi quy
người ta dùng biến giả (dummy variables)
Ví dụ, giữa hai ngôi nhà có cùng các đặc trưng, một có
hồ bơi trong khi ngôi nhà còn lại không có.
1. Trường hợp các biến định tính chỉ có hai lựa
chọn
Tương tự, giữa hai nhân viên của một công ty có
cùng tuổi, học vấn, kinh nghiệm, một người là nam
và người kia là nữ…
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
Lấy ví dụ về lương và đặt Y
i
là tiền lương hàng tháng
của nhân viên thứ i trong công ty. Để đơn giản, ở đây
chúng ta bỏ qua các biến khác có ảnh hưởng đến
lương và chỉ tập trung vào giới tính
1. Trường hợp các biến định tính chỉ có hai lựa chọn
Vì biến giới tính không phải là một biến định lượng
một cách trực tiếp được nên chúng ta định nghĩa một
biến giả gọi là D (Dummy variables)
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
Lưu ý là cách định nghĩa này là hoàn toàn ngẫu
nhiên. Nhóm mà giá trị D bằng 0 gọi là nhóm điều
khiển (Control group).
Biến giả này là biến nhị nguyên chỉ nhận giá trị 1
với nam nhân viên và 0 với nữ nhân viên.
Bây giờ chúng ta sẽ thiết lập và ước lượng một mô
hình sử dụng biến giả như một biến giải thích. Dạng
đơn giản nhất của mô hình như sau:
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
iii
UDY ++=
21
ββ
Đối với nam:
1 2
Y
β β
⇒ = +
Tạm thời bỏ qua sai số U
i
Đối với nữ:
1
Y
β
⇒ =
1D
=
0D
=
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
β
1
là lương trung bình của nhóm điều khiển
(nhân viên nữ)
Lưu ý: Thủ tục ước lượng phương trình hồi quy
được tiến hành bình thường như những mô hình
ở các chương trước bằng phương pháp OLS.
β
2
là chênh lệch về lương trung bình của
một nhân viên nam so với nhân viên nữ.
Để xét xem giữa hai nhân viên có
sự phân biệt về giới hay không ta tiến
hành kiểm định giả thiết
H
0
: β
2
=0
H
1
:β
2
≠ 0.
(Dùng kiểm định t với bậc tự do n-2).
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Số các lựa chọn có thể có của một biến định
tính có thể nhiều hơn hai.
Ví dụ
Gọi Y
i
là tiền tiết kiệm của một hộ gia đình thứ i.
Chúng ta kỳ vọng rằng các hộ gia đình thuộc các
nhóm tuổi khác nhau sẽ có mức tiết kiệm khác
nhau.
Chú ý: số các biến giả luôn luôn ít hơn một
biến so với số các lựa chọn.
Nếu chúng ta có tuổi chính xác của người chủ hộ, biến
này có thể đưa vào mô hình như là biến định lượng.
II.
II.
Hồi qui với biến độc lập đều là
Hồi qui với biến độc lập đều là
biến định tính.
biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Tuy nhiên, nếu chúng ta chỉ có nhóm tuổi (ví dụ người
chủ hộ thuộc nhóm tuổi dưới 25, từ 25 đến 55 và trên 55),
chúng ta sẽ có biến định tính "nhóm tuổi của chủ hộ” có 3
lựa chọn
II.
II.
Hồi qui với biến độc lập đều
Hồi qui với biến độc lập đều
là biến định tính.
là biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Cụ thể hơn, chúng ta định nghĩa:
Nhóm điều khiển là nhóm mà cả D
2i
và D
3i
đều bằng 0, có
nghĩa là tất cả những hộ gia đình mà chủ hộ dưới 25 tuổi.
=
0
1
2i
D
Nếu chủ hộ từ 25 đến 55 tuổi
Nếu chủ hộ thuộc nhóm tuổi khác
=
0
1
3i
D
Nếu chủ hộ trên 55 tuổi
Nếu chủ hộ thuộc nhóm tuổi khác
II.
II.
Hồi qui với biến độc lập đều
Hồi qui với biến độc lập đều
là biến định tính.
là biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Một mô hình đơn giản mô tả quan hệ giữa tiền tiết
kiệm và nhóm tuổi như sau:
iiii
UDDY +++=
33221
βββ
Đối với hộ gia đình dưới 25 tuổi
Đối với hộ gia đình từ 25 đến 55 tuổi:
Đối với hộ gia đình trên 55 tuổi
1
Y
β
⇒ =
1 2
Y
β β
⇒ = +
II.
II.
Hồi qui với biến độc lập đều
Hồi qui với biến độc lập đều
là biến định tính.
là biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
1 3
Y
β β
⇒ = +
2 3
0
i i
D D= =
2 3
1, 0
i i
D D= =
2 3
0, 1
i i
D D
= =
II.
II.
Hồi qui với biến độc lập đều
Hồi qui với biến độc lập đều
là biến định tính.
là biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Như vậy, β
1
cho chúng ta biết tiền tiết kiệm trung bình
một tháng của một hộ gia đình mà chủ hộ dưới 25 tuổi.
β
2
biểu thị chênh lệch về tiền tiết kiệm trung bình một
tháng của một hộ gia đình mà chủ hộ thuộc nhóm tuổi từ 25
đến 55 tuổi so với nhóm tuổi dưới 25
β
3
biểu thị chênh lệch về tiền tiết kiệm trung bình một
tháng của một hộ gia đình mà chủ hộ thuộc nhóm tuổi
trên 55 so với nhóm tuổi dưới 25.
II. Hồi qui với biến độc lập định
lượng và định tính.
1. Trường hợp có một biến định tính với 2 lựa chọn:
Bước tiếp theo trong phân tích là thêm các biến độc lập có thể
định lượng được. Để minh họa, ta lấy lại ví dụ về tiền lương ở
trên.
•
Đặt Y
i
: là tiền lương hàng tháng của nhân viên thứ i.
•
Gọi X
i
: là kinh nghiệm của nhân viên thứ I
•
Với D
i
=1 : nhân viên nam
•
Với D
i
=0 : nhân viên nữ
Nếu bỏ qua yếu tố giới tính, chỉ xét mối quan hệ giữa tiền
lương hàng tháng và kinh nghiệm, một mô hình hồi quy đơn cho
quan hệ này là:
iii
UXY ++=
21
ββ
Lúc này, câu hỏi đặt ra là :"Giữa hai nhân viên có
cùng kinh nghiệm, có sự khác biệt trong tiền lương
tháng do giới tính không?"
1. Trường hợp có một biến định tính với 2 lựa chọn:
Khi đó, nếu tính đến biến giả , mô hình sẽ trở thành
iiii
UXDY
+++=
321
βββ
II. Hồi qui với biến độc lập định
lượng và định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1. Trường hợp có một biến định tính với 2 lựa chọn:
Đối với
Nữ
1 3i i
Y X
β β
= +
Đối với Nam
1 2 3
( )
i i
Y X
β β β
= + +
Một giả thiết tự nhiên cần kiểm định là "không có sự
khác biệt trong quan hệ giữa hai nhóm".
Vì vậy, chúng ta kiểm định giả thiết
H
0
: β
2
=0
H
1
: β
2
≠0.
Kiểm định t với bậc tự do n-3
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
2. Trường hợp có một biến định tính với nhiều hơn
2 lựa chọn
1 2 1 3 2 4i i i i i
Y D D X U
ββββ
=++++
Ví dụ , trường hợp biến giả có 3 lựa chọn :
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
3. Trường hợp có nhiều hơn một biến định tính.
Chúng ta có thể xác định số biến giả được đưa vào
mô hình như sau:
1
( 1)
k
i
i
n n
=
= −
∑
Trong đó: n - là số biến giả cần thiết
đưa vào mô hình
k - là số biến định tính
n
i
- là số lựa chọn của biến
định tính thứ i
Ví dụ minh hoạ
Bảng dưới đây là số liệu giả thiết về mức lương giáo sư
đại học (Y), số năm kinh nghiệm giảng dạy (X) và giới
tính (D
i
=1:nam; D
i
=0:nữ)
Y
i
X
i
D
i
23,0 11 1
19,5 9 0
24,0 10 1
21,0 12 0
25,0 13 1
22,0 12 0
26,5 14 1
23,1 14 0
Y
i
X
i
D
i
25,0 15 0
28,0 15 1
29,5 16 1
26,0 16 0
27,5 17 0
31,5 18 1
29,0 18 0
Ví dụ minh hoạ
1)Tìm hàm hồi quy
2)Giới tính có ảnh hưởng đến mức lương của giáo
sư đại học hay không ?
3)Dự báo mức lương của một giáo sư nam có số năm
kinh nghiệm giảng dạy là 17 năm với độ tin cậy
95%
4)Dự báo mức lương của một giáo sư nữ có số năm
kinh nghiệm giảng dạy là 19 năm với độ tin cậy
95%
1 2 3
ˆ ˆ ˆ
ˆ
i i i
Y X D
β β β
= + +