Chương 1
TƯƠNG QUAN,
HỒI QUI TUYẾN TÍNH
www.nguyenngoclam.com
4
I.TƯƠNG QUAN TUYẾN TÍNH
1. Hệ số tương quan đơn: được gọi là đại lượng đo
lường mối tương quan tuyến tính của 2 đại lượng ngẫu nhiên
X và Y nếu:
• -1 1
• < 0: X, Y có mối liên hệ nghịch
• > 0: X, Y có mối liên hệ thuận
• = 0: X, Y không có mối liên hệ.
•: càng lớn thì X, Y có mối liên hệ càng chặt chẽ.
• Ký hiệu: XY
5
I.TƯƠNG QUAN TUYẾN TÍNH
Mô hình (a) tuyến tính kém chặt chẽ hơn mô hình (b)
6
I.TƯƠNG QUAN TUYẾN TÍNH
2. Hệ số tương quan mẫu Pearson :
Chọn ngẫu nhiên n cặp quan sát (Xi, Yi) từ hai tổng thể X,Y.
Ta có hệ số tương quan Pearson:
n
n
( X i X )(Yi Y )
rXY
i 1
n
n
2
2
( X i X ) (Yi Y )
i 1
i 1
xi yi
Cov( X , Y ) S XY
i 1
n 2 n 2 S X SY
S X SY
xi yi
i 1 i 1
xi ( X i X ), yi (Yi Y )
• rXY = rYX
• Trường hợp |r| ≥ 0,8 chúng ta có thể kết luận X, Y có mối
tương quan tuyến tính chặt chẽ.
7
I.TƯƠNG QUAN TUYẾN TÍNH
3. Kiểm định tương quan tuyến tính:
Chọn ngẫu nhiên n cặp quan sát (Xi, Yi) từ hai tổng thể X,Y
có phân phối chuẩn. Ta có hệ số tương quan Pearson:
• Giả thuyết:
• Giả trị kiểm định: t
H 0 : 0
H1 : 0
r
(1 r 2 ) /( n 2)
• Bác bỏ giả thuyết H0: t tn2, / 2
8
I.TƯƠNG QUAN TUYẾN TÍNH
5305
9094
2
5320
9229
3
5320
9347
4
5492
9098
5
5507
9282
6
5538
9525
7
5540
9138
8
5692
9756
9
5871
10282
10
5907
11307
11
6124
11432
12
6157
10662
13
6186
11449
14
6224
11697
15
6342
11019
6000
1
Chitieu
Thu nhập X
5500
Chi tiêu Y
5000
Code
6500
Ví dụ: Xem tương quan tuyến tính giữa chi tiêu và thu nhập
9000
10000
11000
12000
Thunhap
9
I.TƯƠNG QUAN TUYẾN TÍNH
Code
Chi tiêu Y
Thu nhập X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
5,305
5,320
5,320
5,492
5,507
5,538
5,540
5,692
5,871
5,907
6,124
6,157
6,186
6,224
6,342
9,094
9,229
9,347
9,098
9,282
9,525
9,138
9,756
10,282
11,307
11,432
10,662
11,449
11,697
11,019
Tổng
86,525
152,317
E(X)=10,154.5
xi=(Xi-EX)
-1,060.5
-925.5
-807.5
-1,056.5
-872.5
-629.5
-1,016.5
-398.5
127.5
1,152.5
1,277.5
507.5
1,294.5
1,542.5
864.5
yi=(Yi-EY)
-463.3
-448.3
-448.3
-276.3
-261.3
-230.3
-228.3
-76.3
102.7
138.7
355.7
388.7
417.7
455.7
573.7
xiyi
491,349.6
414,917.6
362,014.2
291,937.0
228,004.6
144,987.2
232,093.2
30,416.3
13,093.4
159,818.0
454,376.0
197,261.3
540,683.4
702,881.0
495,954.0
xi2
yi2
1,124,589.6
856,488.6
652,002.4
1,116,121.8
761,198.1
396,228.3
1,033,204.5
158,775.7
16,264.8
1,328,333.1
1,632,091.4
257,590.1
1,675,816.6
2,379,409.1
747,417.9
214,677.8
201,002.8
201,002.8
76,360.1
68,295.1
53,053.4
52,136.1
5,826.8
10,540.4
19,228.4
126,498.8
151,061.8
174,445.4
207,632.1
329,093.4
4,759,787.7 14,135,532.7 1,890,855.3
E(Y) = 5,768.3
r = 0,921
t = 8,524
10
I.TƯƠNG QUAN TUYẾN TÍNH
• Giả thuyết:
• Giá trị kiểm định:
• Quyết định:
H 0 : 0
H1 : 0
0,921
t
8,524
(1 0,9212 ) /(15 2)
t 8,524 t13,5% 1,771 => BBH0
p = 1,1087E-06 <10%
• Kết luận: Có tương quan tuyến tính giữa X và Y
11
I.TƯƠNG QUAN TUYẾN TÍNH
12
I.TƯƠNG QUAN TUYẾN TÍNH
4. Kiểm định tương quan hạng Spearman:
(X,Y không có phân phối chuẩn)
Xếp hạng xi, yi theo thứ tự tăng dần, các giá trị bằng nhau
nhận hạng trung bình của các hạn liên tiếp. di là chênh lệch
hạng từng cặp của xi, yi.
H 0 : s 0
• Giả thuyết:
H1 : s 0 6 n d 2
i
• Giá trị kiểm định: rs 1 i 1
n(n 2 1)
• Bác bỏ H0: rs rn, / 2 .rn,α/2: Tra bảng phân phối Spearman
• Nếu n ≥ 30: kiểm định phân phối chuẩn z rs n 1
13
I.TƯƠNG QUAN TUYẾN TÍNH
Ví dụ:
Code Chi tiêu Y Rank(Y) Thu nhập X Rank(X) di=r(Y)-r(X)
1
5,305
1
9,094
1
0
2
5,320
2.5
9,229
4
-1.5
3
5,320
2.5
9,347
6
-3.5
4
5,492
4
9,098
2
2
5,507
9,282
5
5
5
0
5,538
9,525
6
6
7
-1
5,540
9,138
7
7
3
4
5,692
9,756
8
8
8
0
5,871
10,282
9
9
9
0
10
5,907
10
11,307
12
-2
11
6,124
11
11,432
13
-2
12
6,157
12
10,662
10
2
13
6,186
13
11,449
14
-1
6,224
11,697
14
14
15
-1
6,342
11,019
15
15
11
4
rs = 0,883
d i2
0
2.25
12.25
4
0
1
16
0
0
4
4
4
1
1
16
65.5
14
I.TƯƠNG QUAN TUYẾN TÍNH
H 0 : s 0
• Giả thuyết:
H1 : s 0
• Giá trị kiểm định: rs 1
n
6 di2
i 1
2
0,883
n(n 1)
• Bác bỏ H0: rs 0,883 r15,5% 0,441
• Kết luận: Có tương quan tuyến tính giữa X và Y
15
I.TƯƠNG QUAN TUYẾN TÍNH
16
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
1. Khái niệm hồi qui:
Ví dụ, Nghiên cứu mối liên hệ giữa chi tiêu Y và thu nhập X
của hộ gia đình:
X
80
100
120
140
160
180
200
220
240
260
55
60
65
70
75
65
70
74
80
85
88
79
84
90
94
98
102
107
110
116
118
125
110
115
120
130
135
140
120
136
140
144
145
77
89
113
125
137
135
137
140
152
157
160
162
149
137
145
155
165
175
189
65
80
93
95
103
108
113
115
101
150
152
175
178
180
185
191
173
Y
E(Y/Xi)
161
17
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Đồ thị:
18
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
• E(Y/X) = f(X)
: Phương trình hồi qui
• E(Y/X1) = β1 + 2X
: Phương trình hồi qui tuyến tính
• Y = β1 + 2X + U
: Giá trị thực của Y
Trong đó:
• X: biến giải thích (độc lập);
• Y: biến được giải thích (phụ thuộc)
• β1: Tham số chặn
• 2: Tham số của biến
• U: Yếu tố ngẫu nhiên
• X,Y không có mối quan hệ hàm số mà có mối quan hệ
nhân quả và thống kê
19
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
2. Xây dựng mô hình hồi qui mẫu: Ta cần ước lượng 1, 2,
giả sử đó là B1,B2. Chọn n cặp quan sát (Xi,Yi) từ X,Y:
Yi B1 B2 X i ei : Giá trị thực tế
: Giá trị lý thuyết
Yˆi B1 B2 X i
Ta cần tìm B1, B2 sao cho 2 giá trị trên càng gần càng tốt.
Phương pháp bình phương bé nhất (OLS):
SSE
n
2
ei
i 1
n
n
(Yi Yˆi ) (Yi B1 B2 X i ) 2 min
i 1
2
i 1
20
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
n
Xét hàm số 2 biến: f ( B1, B2 ) (Yi B1 B2 X i ) 2 min
i 1
n
f B1 2(Yi B1 B2 X i )(1) 0
i 1
n
f B 2(Yi B1 B2 X i )( X i ) 0
2 i 1
Sử dụng Hessian đây là
B ( X i X )(Yi Y ) xi yi
2
điểm cực tiểu toàn cục =>
2
2
(Xi X )
xi
min
B Y B X
1
2
Y 1 2 X : Hồi qui tuyến tính tổng thể PRF
Yˆ B1 B2 X : Hồi qui tuyến tính mẫu SRF
21
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Code Chi tiêu Y Thu nhập X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
5,305
5,320
5,320
5,492
5,507
5,538
5,540
5,692
5,871
5,907
6,124
6,157
6,186
6,224
6,342
9,094
9,229
9,347
9,098
9,282
9,525
9,138
9,756
10,282
11,307
11,432
10,662
11,449
11,697
11,019
Tổng
86,525
152,317
Xi-EX
Yi-EY
-1,060.5
-925.5
-807.5
-1,056.5
-872.5
-629.5
-1,016.5
-398.5
127.5
1,152.5
1,277.5
507.5
1,294.5
1,542.5
864.5
-463.3
-448.3
-448.3
-276.3
-261.3
-230.3
-228.3
-76.3
102.7
138.7
355.7
388.7
417.7
455.7
573.7
x i yi
491,349.6
414,917.6
362,014.2
291,937.0
228,004.6
144,987.2
232,093.2
30,416.3
13,093.4
159,818.0
454,376.0
197,261.3
540,683.4
702,881.0
495,954.0
x i2
1,124,589.6
856,488.6
652,002.4
1,116,121.8
761,198.1
396,228.3
1,033,204.5
158,775.7
16,264.8
1,328,333.1
1,632,091.4
257,590.1
1,675,816.6
2,379,409.1
747,417.9
yi2
ei
214,677.8
201,002.8
201,002.8
76,360.1
68,295.1
53,053.4
52,136.1
5,826.8
10,540.4
19,228.4
126,498.8
151,061.8
174,445.4
207,632.1
329,093.4
4,759,786.7 14,135,531.7 1,890,855.3
Yˆ 2.349,07 0,34 X
E(X)=10.154,5
E(Y) = 5.768,3
B2 = 0,34
-106.2
-136.7
-176.4
79.4
32.4
-18.4
113.9
57.8
59.7
-249.4
-74.5
217.8
-18.2
-63.7
282.6
ei 2
11,288.6
18,688.4
31,130.8
6,305.2
1,052.9
337.7
12,981.5
3,345.5
3,566.8
62,210.4
5,551.8
47,422.7
332.5
4,063.1
79,838.3
0.0 288,116.3
B1 = 2.349,07
22
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
3. Tính chất của phương pháp OLS:
• Bi: được xác định duy nhất với n cặp quan sát (Xi,Yi).
• Bi: là các ước lượng điểm của βi và là các đại lượng ngẫu
nhiên, với các mẫu khác nhau thì giá trị khác nhau.
Tính chất của SRF:
• SRF đi qua trung bình mẫu: Y B1 B2 X
• Trung bình của yˆi bằng trung bình các quan sát Yˆ Y
• Trung bình phần dư bằng 0 ei 0
• Các phần dư ei không tương quan với Yˆi Yˆi ei 0
X i ei 0
• Các phần dư không tương quan với X i
24
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
4. Các giả thiết cơ bản của phương pháp OLS:
Để ước lượng là ước lượng tuyến tính, không chệnh và có
phương sai nhỏ nhất cần thỏa các điều kiện sau:
Giả thiết 1: Các biến giải thích là phi ngẫu nhiên. Điều này là
đương nhiên vì Hồi qui là trung bình có điều kiện.
Giả thiết 2: Kỳ vọng của các yếu tố ngẫu nhiên bằng 0.
E (U / X ) 0 E (Y / X ) 1 2 X
Điều này phương pháp OLS thỏa mãn.
25
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Giả thiết 3: Phương sai của các Ui bằng nhau.
Var (U i / X i ) Var (U j / X j ) 2
Điều này có thể vi phạm do những người có thu nhập cao sẽ
có nhiều sự lựa chọn khác nhau. Người có nhiều kinh
nghiệm thì sai lầm càng ít.
26
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Phương sai thay đổi:
X
80
100
120
140
160
180
200
220
240
260
55
65
79
80
102
110
120
135
137
150
60
70
84
93
107
115
136
137
145
152
65
74
90
95
110
120
140
140
155
175
70
80
94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
113
125
140
160
189
185
Y
88
115
E(Y/Xi)
Var(Y/Xi)
65
77
89
101
87.50 141.57
206.57
323.55
162
113
125
137
191
149
161
173
372.90 548.81 743.90 742.13
1,202.24
1,162.70
27
II.HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Đồ thị phương sai bằng nhau:
28