1
CHƯƠNG 8. TƯƠNG QUAN VÀ HỒI QUY
Trong các chương trước, ta đề cập chủ yếu các phương pháp nghiên cứu một biến đơn lẻ, hoặc các
biến ngẫu nhiên độc lập.
Trong chương này, ta sẽ nói đến mối liên hệ giữa hai biến ngẫu nhiên với hai phương pháp: tương
quan và hồi quy.
1. TƯƠNG QUAN
Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và .
Trong phân tích này, và được xem là hai biến ngẫu nhiên “ngang nhau”- không phân biệt biến
độc lập và biến phụ thuộc.
Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ mối liên hệ tuyến tính
giữa và .
1.1.Hệ số tương quan
Giả sử và là hai biến ngẫu nhiên, với trung bình và phương sai lần lượt là , , , .
Hệ số tương quan thể hiện cường độ và chiều hướng tuyến tính giữa và ;
được gọi là hệ số tương quan của tổng thể. Ta có −1 ≤ ≤1.
< 0 thì giữa và có mối liên hệ nghịch, nghĩa là khi một biến giảm đi thì biến kia sẽ
tăng lên và ngược lại.
> 0 thì giữa và có mối liên hệ thuận, nghĩa là khi biến này tăng thì biến kia cũng tăng
và ngược lại.
= 0 thì giữa và không có mối liên hệ tuyên tính.
Trị tuyệt đối của càng lớn thì mối liên hệ tuyến tính giữa và càng chặt chẽ.
Trong thực tế, ta không biết và phải ước lượng nó từ dữ liệu mẫu thu thập được.
Gọi
(
,
)
,
(
,
)
,…,
(
,
)
là mẫu gồm n cặp giá trị quan sát thu thập ngẫu nhiên từ và .
Hệ số tương quan tổng thể được ước lượng từ hệ số tương quan mẫu (còn được gọi là hệ số
tương quan Pearson):
=
∑
( − )( − )
( − 1)
Ví dụ: Số lượng về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu thụ ở một công ty
sản xuất đồ chơi trẻ em:
Thời gian quảng cáo trong tuần
(phút)
28
37
44
36
47
35
26
29
33
32
31
28
2
Lượng tiêu thụ trong tuần
(1000 sản phẩm)
41
32
49
42
38
33
27
24
35
30
34
25
Gọi và lần lượt là thời gian quảng cáo trên truyền hình (phút) và lượng sản phẩm tiêu thụ trong
tuần (1000 sản phẩm).
Áp dụng công thức trên ta có = 0.63882
1.2.Kiểm định giả thuyết về mối liên hệ tương quan
Bên cạnh việc thể hiện mức độ chặt chẽ của mối liên hệ, vấn đề chủ yếu là dùng r để xét xem có
hay không mối liên hệ tương quan giữa hai biến , , tức là kiểm định giả thuyết cho rằng hệ số
tương quan của tổng thể bằng không.
Giả sử có mẫu n cặp quan sát chọn ngẫu nhiên từ , có phân phối chuẩn.
Gọi r là hệ số tương quan mẫu.
Kiểm định giả thuyết tương quan về tổng thể như sau:
: = 0 ( ô ó ê ệ ữ à )
: ≠ 0 ( ó ê ệ ữ à )
Giá trị kiểm định
=
| |
1 −
− 2
Quy tắc quyết định ở mức ý nghĩa bác bỏ nếu >
( )
, /
Với
( )
, /
là tra bảng phân phối Student với bậc tự do ( − 2) với mức ý nghĩa /2.
Kiểm định hai phía trên đây sử dụng khi không biết trước chiều hướng của mối liên hệ.
Nếu có thể xác định được chiều hướng của mối liên hệ, ta thực hiện kiểm định một phía,bên trái
hoặc bên phải: : > 0hoặc : < 0.
Ta làm hoàn toàn tương tự như kiểm định hai phía, chỉ lưu ý trong tra bảng phân phối Student giá
trị
( )
,
thay vì
( )
, /
.
2. HỒI QUY ĐƠN GIẢN
2.1. Lý thuyết Keynes về tiêu dùng
2.1.1. Lý thuyết của Keynes đã đặt ra mối quan hệ giữa tiêu dùng và thu nhập
= ( ).
Ví dụ: Kết quả điều tra về thu nhập (triệu đồng/tháng) và tiêu dùng (triệu đồng/tháng) cho bởi
bảng giá trị sau:
3
Thu nhập
5
10
15
Tiêu dùng
2.038
4.038
6.038
Minh họa các số liệu trên hình vẽ, quan hệ giữa tiêu dùng và thu nhập = ( ), là mối quan hệ
tuyến tính.
Dependent Variable: TIEUDUNG
Method: Least Squares
Date: 12/11/09 Time: 15:34
Sample: 1 3
Included observations: 3
Variable
Coefficient
Std. Error
t-Statistic
Prob.
THUNHAP
0.400000
1.60E-16
2.50E+15
0.0000
C
0.038000
1.73E-15
2.20E+13
0.0000
R-squared
1.000000
Mean dependent var
4.038000
Adjusted R-squared
1.000000
S.D. dependent var
2.000000
S.E. of regression
1.13E-15
Sum squared resid
1.28E-30
F-statistic
6.23E+30
Durbin-Watson stat
1.114255
Prob(F-statistic)
0.000000
Khi đó ta có quan hệ ở dạng
= 0.038 + 0.4
Ý nghĩa của phương trình này như sau:
Nếu = 0thì = 0.038, điều này có ý nghĩa rằng người không có thu nhập vẫn tiêu dùng
ở mức tối thiểu là 0.038 triệu đồng/tháng.
Hệ số 0.4 (hay khuynh hướng tiêu dùng theo thu nhập) cho biết, nếu tăng thu nhập lên
1 triệu/tháng thì tiêu dùng tăng lên 0.4 triệu đồng/tháng. Tức là mức tăng tiêu dùng không
nhanh bằng mức tăng thu nhập.
Về trung bình, khi thu nhập tăng thì tỷ lệ giữa thu nhập và tiêu dùng ( ) ngày càng giảm
2.038
5
>
4.038
10
>
6.038
15
Như vậy có một tỷ lệ lớn hơn thu nhập được đưa vào tiết kiệm khi người ta giàu lên.
Một cách tổng quát, hàm mô tả tốt nhất khuynh hướng tiêu dùng theo thu nhập của Keynes có dạng
tuyến tính
= + ( >0, ∈ (0,1)
Ví dụ: Số liệu về tiêu dùng trung bình và thu nhập khả dụng theo giá cố định của nền kinh tế Mỹ
trong 10 năm từ 1970-1979
4
Đơn vị: tỷ dollars
Năm
Thu nhập khả dụng
Tiêu dùng trung bình
1970
751.6
672.1
1971
779.2
696.8
1972
810.3
737.1
1973
864.7
767.9
1974
857.5
762.8
1975
874.9
779.4
1976
906.8
823.1
1977
942.9
864.3
1978
988.8
903.2
1979
1015.7
927.6
Dependent Variable: TIEUDUNGTRUNGBINH
Method: Least Squares
Date: 12/11/09 Time: 15:40
Sample: 1 10
Included observations: 10
Variable
Coefficient
Std. Error
t-Statistic
Prob.
THUNHAPKHADUNG
0.979267
0.031607
30.98253
0.0000
C
-67.58065
27.91071
-2.421316
0.0418
R-squared
0.991735
Mean dependent var
793.4300
Adjusted R-squared
0.990702
S.D. dependent var
84.96543
S.E. of regression
8.193028
Akaike info criterion
7.221301
Sum squared resid
537.0056
Schwarz criterion
7.281818
Log likelihood
-34.10650
F-statistic
959.9172
Durbin-Watson stat
1.566424
Prob(F-statistic)
0.000000
Mặc dù dữ liệu xem ra thể hiện khá tốt quy luật tuyến tính.
Nhưng rõ ràng mối quan hệ có tính xác định đó là không đủ để mô tả thực tiễn, vì còn rất nhiều
yếu tố khác ảnh hưởng đến tiêu dùng (như giới tính, tuổi tác, tâm lý…)
Nói chung, chúng ta không có tham vọng đưa hết tất cả mọi yếu tố ảnh hưởng tới tiêu dùng vào mô
hình mà chỉ những yếu tố quan trọng, thiết yếu nhất.
Vì vậy, để có thể biểu diễn quy luật tiêu dùng trên thế giới thực, ta cần đưa thêm vào mô hình tuyến
tính trên một thành phần khác nữa mang tính ngẫu nhiên, thể hiện sự tác động tổng hợp của các
nhân tố nhỏ, không ổn định tới tiêu dùng.
5
Tức là những yếu tố làm cho quan sát thật về tiêu dùng và thu nhập bị lệch khỏi xu thế ổn định,
tuyến tính nêu trên.
Tức là ta muốn biểu diễn mối quan hệ giữa các cặp dữ liệu quan sát được về thu nhập và tiêu dùng
{
,
}
như sau:
= + + , =1,2,…,
Trong đó
(
,
)
= ( , )lần lượt là tiêu dùng và thu thập thực tế của mẫu quan sát thứ .Xét vế
phải của phương trình này ta có:
- Thành phần thứ nhất + là quy luật xác định, mà ta cần ước lượng.
- Thành phần thứ hai là nhiễu (tức là bao gồm sự tác động tổng hợp của mọi yếu tố
khác của hoàn cảnh, có tính ngẫu nhiên, làm quan sát bị lệch khỏi khuynh hướng hay ổn
định).
Cả hai phần này, tính xu thế - xác định và yếu tố ngẫu nhiên được gộp lại trong phương trình trên
để mô tả lý thuyết tiêu dùng của Keynes.
2.1.2. Ước lượng quy luật tiêu dùng
Ta muốn ước lượng xu thế tiêu dùng bằng quy luật tuyến tính:
= +
trong đó là ước lượng về tiêu dùng, khi cho trước quan sát thu nhập ;
và là các tham số ước lượng của các tham số tổng thể, chưa biết , .
Mức độ tốt của việc ước lượng được đo lường qua số dư
= −
Tổng bình phương các sai số, ký hiệu là ESS
=
(
−
)
= − −
Một cách tổng quát, chúng ta muốn rằng tổng bình phương sai số phần dư là nhỏ nhất theo phương
pháp bình phương cực tiểu:
, = − − → min( , )
Sử dụng cực trị có điều kiện ta có
6
,
= 0
,
= 0
→
2 − −
(
−1
)
= 0
2 − −
(
−
)
= 0
→
= − ̅
=
∑
( − ̅)( − )
∑
( − ̅)
=
Trong đó là Covariance mẫu;
là phương sai mẫu của .
Ý nghĩa của phương trình = + ̅ chỉ ra rằng điểm
(
,
)
nằm trên đường hồi quy
= + .
2.1.3. Đo lường độ phù hợp của ước lượng
Sử dụng các điều kiện tìm cực trị ta có
(
−
)
=
(
−
)
+
Vế trái là tổng bình phương các dao động trong tiêu dùng, ký hiệu là TSS.
Vế phải phân ra thành tổng bình phương phần được giải thích bằng mô hình hồi quy RSS;
tổng sai số ước lượng ESS.
Hay = + → = 1 − .
Ký hiệu = 1 − → 0 ≤ ≤ 1
2.2. Mô hình hồi quy tuyến tính đơn
Công thức tổng quát của mô hình hồi quy tuyến tính đơn là:
= + + , =1,2,…,
Trong đó , là quan sát thứ n của biến độc lập và biến phụ thuộc;
, là các tham số chưa biết và sẽ được ước lượng;
là sai số không quan sát được và được giả thiết là một biến ngẫu nhiên với một số đặc
tính sẽ được nghiên cứu kỹ ở phần sau.
Khi đó , được gọi là các hệ số hồi quy.
7
Thuật ngữ đơn trong mô hình hồi quy tuyến tính đơn được sử dụng để chỉ rằng chỉ có duy nhất một
biến giải thích được sử dụng trong mô hình.
Mục tiêu đầu tiên là làm sao sử dụng dữ liệu thu thập được để ước lượng hàm hồi quy tổng thể, đó
là ước lượng tham số tổng thể , .
Ký hiệu là ước lượng mẫu của ;
là ước lượng mẫu của .
Khi đó mối quan hệ trung bình ước lượng là = + . Đây được gọi là hàm hồi quy mẫu.
Ứng với giá trị quan sát cho trước ta sẽ có = + , đây là giá trị dự báo của với một giá
trị cho trước là .
Phần dư ước lượng hay phần dư là = − = − − . Hay = + + .
Cần phân biệt giữa hàm hồi quy của tổng thể = + và hàm hồi quy mẫu = + .
2.2.1. Bản chất thống kê của mô hình hồi quy tuyến tính đơn
Phương pháp LS (bình phương nhỏ nhất) là xác định đường hồi quy sao cho tổng bình phương phần
dư là nhỏ nhất.
Theo phương pháp LS ta có ước lượng của tham số tổng thể (Tương tự có thể sự dụng cho ).
= =
∑
( − ̅)( − )
=
∑
( − ̅)
Do
∑
( − ̅) = 0.
Đặt =
̅
, ta có thể suy ra
∑
= 0,
∑
= 1.
Khi đó chỉ phụ thuộc vào các quan sát { } .
Ta chứng minh được = +
∑
, suy ra ước lượng bị ảnh hưởng bởi các yếu tố ngẫu nhiên
làm giá trị của nó không trùng khít với tổng thể.
2.2.2. Các yếu tố ngẫu nhiên
Các đặc trưng thống kê của nhiễu ngẫu nhiên: Các yếu tố ngẫu nhiên là các biến ngẫu
nhiên độc lập, có phân phối chuẩn như nhau
~
(
0,
)
( )
Xu thế tổng thể: + là phần xác định của mô hình và là trung bình có điều kiện của
theo , đó là
( | )
= + .
8
Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể , là tuyến tính (bậc
nhất) chứ không phải tuyến tính.
Số hạng (hay còn gọi là số hạng ngẫu nhiên) là thành phần ngẫu nhiên không quan sát được và là
sai biệt giữa và phần xác định + .
2.2.3. Những đặc trưng thống kê của ước lượng bình phương cực tiểu
Tính tốt của ước lượng theo các tiêu chuẩn thống kê.
Từ phương trình = +
∑
ta có:
= + = + ( ) =
= − = − = =
( )
= = .
( Vì
∑
=
∑
̅
= = ).
Ý nghĩa của giá trị trong thực tế sẽ nhỏ đi hay hiệu quả ước lượng sẽ tăng lên, nếu độ đa
dạng của thông tin quan sát đo bởi tăng lên.
2.2.4. Kiểm định giả thuyết thống kê
Ta xét vấn đề kiểm định thông qua ví dụ sau:
Một công ty bảo hiểm của Mỹ muốn kinh doanh bảo hiểm nhân thọ. Họ tiến hành nghiên cứu tiềm
năng của thị trường sở tại.
Lý luận kinh tế chỉ ra rằng: yêu cầu mua bảo hiểm tăng lên cùng với khả năng xảy ra rủi ro, với quy
mô về tổn thất tài chính khi xảy ra rủi ro và với tâm lý lo ngại rủi ro cá nhân.
Họ nhận định rằng, gia đình càng giàu có về kinh doanh, thì người chủ gia đình càng chịu nhiều
Stress. Tức là những người lệ thuộc càng ngại rủi ro gây nên bởi stress cho người chủ gia đình hơn
là tại những gia đình thu nhập thấp, ít tham dự vào kinh doanh.
Vì vậy ban nghiên cứu thị trường của công ty bảo hiểm này đề xuất mô hình sau
= + .
Trong đó: là giá trị hợp đồng bảo hiểm, được trả cho bên mua bảo hiểm nếu xảy ra rủi ro;
là thu nhập, đơn vị của cả hai là nghìn dollas.
Dữ liệu điều tra và kết quả ước lượng được ghi trong các bảng dưới đây:
obs
INS
INC
1
90
25
9
2
165
40
3
220
60
4
145
30
5
114
29
6
175
41
7
145
37
8
192
46
9
395
105
10
339
81
11
230
57
12
262
72
13
570
140
14
100
23
15
210
55
16
243
58
17
335
87
18
299
72
19
305
80
20
205
48
Dependent Variable: INS
Method: Least Squares
Date: 12/11/09 Time: 15:44
Sample: 1 20
Included observations: 20
Variable
Coefficient
Std. Error
t-Statistic
Prob.
INC
3.880186
0.112125
34.60601
0.0000
C
6.854991
7.383473
0.928424
0.3655
R-squared
0.985192
Mean dependent var
236.9500
Adjusted R-squared
0.984370
S.D. dependent var
114.8383
S.E. of regression
14.35730
Akaike info criterion
8.261033
Sum squared resid
3710.375
Schwarz criterion
8.360606
Log likelihood
-80.61033
F-statistic
1197.576
Durbin-Watson stat
3.175965
Prob(F-statistic)
0.000000
Dependent Variable: INS
Method: Least Squares
Date: 12/11/09 Time: 15:44
Sample: 1 20
Included observations: 20
Variable
Coefficient
Std. Error
t-Statistic
Prob.
INC
3.880186
0.112125
34.60601
0.0000
C
6.854991
7.383473
0.928424
0.3655
R-squared
0.985192
Mean dependent var
236.9500
Adjusted R-squared
0.984370
S.D. dependent var
114.8383
S.E. of regression
14.35730
Akaike info criterion
8.261033
Dependent Variable: INS
Method: Least Squares
Date: 12/11/09 Time: 15:44
Sample: 1 20
Included observations: 20
Variable
Coefficient
Std. Error
t-Statistic
Prob.
INC
3.880186
0.112125
34.60601
0.0000
C
6.854991
7.383473
0.928424
0.3655
R-squared
0.985192
Mean dependent var
236.9500
Adjusted R-squared
0.984370
S.D. dependent var
114.8383
S.E. of regression
14.35730
Akaike info criterion
8.261033
Sum squared resid
3710.375
Schwarz criterion
8.360606
Log likelihood
-80.61033
F-statistic
1197.576
Durbin-Watson stat
3.175965
Prob(F-statistic)
0.000000
Kết quả ước lượng được tóm tắt lại như sau:
= 6.85 + 3.88
(7.38) (0.11)
= 20; = 0.985; = 3710
10
Điều đó có nghĩa là nếu thu nhập gia đình tăng thêm 1 nghìn dollars thì chi cho bảo hiểm sẽ
tăng lên trong khoảng từ 3 nghìn đến 5 nghìn dollas.
Tuy nhiên chúng ta không biết giá trị tăng lên với độ tin cậy là bao nhiêu. Nghĩa là cần xác định
khoảng tin cậy tham số của tổng thể.
a. Khoảng tin cậy
Trước hết ta có ~ ( ; ). Sau khi chuẩn hóa ta có = ~ (0,1).
Để công thức có ý nghĩa ứng dụng, ta thay thế bởi =
∑
= .
Khi đó thống kê chuyển thành thống kê = =
( )
~
( )
.
Khoảng tin cậy
(
1 −
)
100% của thống kê =
( )
là:
−
,
<
−
<
,
= 1 −
Hay khoảng ước lượng của là −
,
∗ ≤ ≤ +
,
∗ với độ tin cậy
(1 − ).
Ví dụ trên ta có = 3.88; = 0.11và
,
=
, .
= 2.101, nên độ tin cậy 95% của
tổng thể là
3.88 −2.011 ∗ 0.11 ≤ ≤ 3.88 +2.011 ∗ 0.11
b. Kiểm định giả thuyết thống kê
Tiến hành kiểm định giả thuyết sau:
: =
: ≠
ứ ý
Tính giá trị kiểm định =
Quy tắc quyết định: Bác bỏ ( ) ở mức ý nghĩa nếu ≥
,
.
Ngược lại, không có cơ sở bác bỏ ( )ở mức ý nghĩa nếu <
,
.
Chúng ta có thể sử dụng giá trị − trong phân bảng kết xuất Eview như sau:
11
− = { > }
Và như vậy ta có quy tắc quyết định:
Bác bỏ ( ) ở mức ý nghĩa nếu ≥ − .
Không có cơ sở bác bỏ ( ) ở mức ý nghĩa nếu < − .
2.3.Hệ số xác định và kiểm định F trong phân tích hồi quy đơn
a. Hệ số xác định
Hay = + → = 1 − .Ký hiệu = 1 − →0 ≤ ≤ 1
chính là bình phương của hệ số tương quan mẫu r đã nói ở trên, nó thể hiện sự thích hợp của mô
hình hồi quy đối với dữ liệu. càng lớn thì mô hình tuyến tính đã xây dựng được xem là càng
thích hợp.
b. Kiểm định
Tương tự trong phân tích phương sai ANOVA
Biến thiên
Tổng các chênh
lệch bình phương
Bậc tự do
Trung bình các
chênh lệch bình
phương
Giá trị kiểm định
Hồi quy
1
=
1
=
Sai số
− 2
=
− 2
Tổng
− 1
Tra bảng Fisher
(
, ,
)
.