Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
160
Chương 7
Tương quan và
H i qui tuy n tính
1. H S
TƯƠNG QUAN M U
nh nghĩa và các tính ch t c a H s tương quan ρ c a hai bi n ng u
nhiên X và Y ã ư c
c p n trong o n 2.7. Trong th c t , chúng ta không
bi t ρ mà ch d a vào m u suy oán v ρ.
1.1. nh nghĩa. Gi s (X1, Y1); (X 2, Y2); . . .; (Xn, Yn) là m u ư c
thành l p t vectơ ng u nhiên (X, Y). Bi n ng u nhiên
n
∑ ( X i − X ).( Yi − Y )
R=
i =1
( n − 1) S X SY
ư c g i là H s tương quan m u c a X và Y.
V i m u c th , giá tr h s tương quan m u ư c tính b i:
r =
∑ xi yi
− n x. y
=
(n − 1) s X .sY
∑ xi yi
− n x. y
( ∑ xi2 − n.x 2 ) ( ∑ yi2 − n. y 2 )
n
trong ó, ký hi u Σ ch
∑
i =1
2. KI M
NH GI THI T V H S
TƯƠNG QUAN
Gi s (X1, Y1); (X2, Y2); . . .; (Xn, Yn) là m u ư c thành l p t t ng th
(X,Y) có phân ph i chu n hai chi u. Chúng ta mu n ki m nh các gi thi t liên
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
161
quan n các giá tr khác nhau c a h s tương quan t ng th , ký hi u ρ, d a trên
phân ph i m u c a h s tương quan m u R.
2.1. Ki m
nh gi thi t:
H0: ρ = 0
i v i H1: ρ ≠ 0 (ho c ρ > 0 ho c ρ < 0)
Ngư i ta ch ng minh ư c r ng v i gi thi t H0, phân ph i m u c a R
x ng; t ó, th ng kê
n−2
T= R
i
~ Student (n − 2)
1 − R2
Tr c nghi m t ư c dùng trong trư ng h p này.
2.2. Ki m
nh gi thi t:
H0: ρ = ρo ≠ 0
i v i H1: ρ ≠ ρo
V i gi thi t H0, phân ph i m u c a R b l ch nên không th dùng tr c ti p
R. Trong trư ng h p này, Fisher ã ngh m t phép bi n i ưa n th ng kê
1+ R
Z = 1 ln
( )
2
1− R
có phân ph i ti m c n chu n v i kỳ v ng và phương sai l n lư t là
1 + ρo
ρo
2
1
µ Z = 1 ln
+ 2(n − 1) và σ Z = n − 3
2 1 − ρo
Tr c nghi m U ư c dùng v i U = Z*, bi n chu n hóa c a Z.
Phép bi n i trên ư c g i là phép bi n i Fisher; nó cũng ư c dùng
tìm kho ng tin c y cho h s tương quan t ng th .
2.3. Thí d . D a vào m u ng u nhiên c 18 ư c ch n t t ng th (X,Y)
có phân ph i chu n 2 chi u, ngư i ta tính ư c giá tr h s tương quan m u r =
0,32. m c ý nghĩa 5%, có s tương quan tuy n tính gi a X và Y khơng?
Gi i.
Chúng ta ph i có quy t
nh gi a hai gi thi t:
H0 : ρ = 0
và
H1: ρ ≠ 0.
N u H0 úng thì BNN
T= R
18 − 2
1 − R2
V i m c α = 5% , giá tr t i h n là:
v i m u c th , chúng ta có:
~ t(16)
(16)
t0,975 = 2,1199 ;
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
162
t=
0,32. 16
1 − (0,32)2
= 1,35
m c ý nghĩa α = 5%.
Vì |t| < 2,12 nên gi thi t H0 không th b bác b
Nói cách khác, chúng ta ch p nh n r ng X và Y không tương quan m c ý nghĩa
5%.
2.4. Thí d . H s tương quan ư c tính trên m u c 24, ch n t t ng th
có phân ph i chu n 2 chi u, là r = 0,75. m c ý nghĩa α = 5%, hãy cho nh n xét
v tài li u cho r ng h s tương quan t ng th b ng 0,65.
Gi i.
Ki m
nh gi thi t H0: ρ = 0,65
i v i H1: ρ ≠ 0,65.
Tr c nghi m U 2 uôi ư c s d ng, v i
U =
Z − µZ
~ N (0,1) .
σZ
V i m c α = 5% , gtth = u0,975 = 1, 96 ;
v i m u c th , chúng ta có :
(
)
1 + 0,75
z = 1 ln
= 0,9730 ,
2
(
)
1 + 0,65
µ Z = 1 ln
+
2
và
1 − 0,65
u=
1 − 0,75
0,65
= 0,7894;
2(24 −1)
σZ = 1 ,
21
z − µZ
= 0,8414
σZ
Vì u < gtth nên m c ý nghĩa α = 5%, gi thi t H0 ư c ch p nh n,
i.e.tài li u ư c ch p nh n. .
3. PHÂN TÍCH H I QUI
Phân tích tương quan ph n trên giúp chúng ta bi t m c
ph thu c
tuy n tính gi a các bi n ng u nhiên. Bài toán Phân tích h i qui ư c trình bày
trong ph n này s giúp chúng ta thi t l p c u trúc c a m i liên h ph thu c c a
m t bi n (g i là bi n ph thu c) v i m t hay nhi u bi n khác (g i là bi n c
l p); chúng ta mu n th hi n m i liên h ph thu c gi a các bi n dư i d ng toán
h c b ng m t phương trình n i các bi n ó. Phương trình ó cho phép chúng ta
d oán v m t bi n ph thu c trên cơ s ã bi t v các bi n c l p. Giáo trình
này ch trình bày trư ng h p có m t bi n c l p duy nh t (h i qui ơn).
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
163
3.1.
nh nghĩa. Cho hai BNN X và Y trên cùng m t khơng gian xác su t
có h.m. . ng th i f . Kỳ v ng i u ki n c a Y khi bi t X l y giá tr x, ký hi u
E(Y/x) ư c xác nh b i:
E (Y / x) = ∑ y. f ( y / x) n u X và Y r i r c,
y
+∞
E (Y / x) =
ho c
∫
y. f ( y / x) dy
n u X và Y liên t c
−∞
ϕ(x) = E(Y/x) là m t hàm c a x. ϕ ư c g i là hàm h i qui c a Y theo X.
th c a hàm ϕ ư c g i là ư ng h i qui c a Y theo X.
nh nghĩa tương t cho khái ni m kỳ v ng i u ki n c a X khi bi t Y l y
giá tr y, ký hi u E(X/y). ψ(y) = E(X/y) là m t hàm c a y. ψ ư c g i là hàm h i
qui c a X theo Y.
th c a hàm ψ ư c g i là ư ng h i qui c a X theo Y.
3.2.
nh nghĩa. Cho hai BNN X và Y trên cùng m t không gian xác su t.
(a) N u ϕ(x) = E(Y/x) = a + bx thì ngư i ta nói r ng ϕ là hàm h i qui
tuy n tính c a Y theo X. b ư c g i là h s h i qui tuy n tính Y theo X.
(b) N u ψ(y) = E(X/y) = c + dx thì ngư i ta nói r ng ψ là hàm h i qui
tuy n tính c a X theo Y. d ư c g i là h s h i qui tuy n tính X theo Y.
Chúng ta công nh n
3.3.
nh lý sau:
nh lý. Cho hai BNN X và Y tuân theo lu t phân ph i chu n hai
2
chi u v i các kỳ v ng µ1 và µ 2 , các phương sai dương σ1 và σ 2 , và h s
2
tương quan ρ. Khi ó, hàm h i qui c a Y theo X và hàm h i qui c a X theo Y là
các hàm tuy n tính. C th :
(a) ϕ(x) = E(Y/x) = a + bx, v i:
b= ρ
σ2
σ1
và
a =µ 2 − bµ1
(b) ψ(y) = E(X/y) = c + dx, v i:
d= ρ
σ1
σ2
và
c =µ1 − dµ 2
3.4. Bài tốn. Gi s X là bi n ng u nhiên c l p và Y là bi n ng u
nhiên ph thu c vào X. N u chúng ta mu n ư c lư ng giá tr c a Y b ng giá tr
c a bi n ng u nhiên θoX, v i θ là m t hàm th c nào ó, thì chúng ta m c m t sai
s
S(θ) = E[(Y − θoX)2],
g i là
sai d báo. V n
t ra là ch n θ như th nào
t t nh t, theo nghĩa S(θ) t giá tr nh nh t.
3.5.
nh lý. Bi u th c S(θ) = E[(Y − θ oX)2]
E(Y/x) v i m i x.
cho s ư c lư ng là
t c c ti u khi θ(x) =
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
164
3.6. Chú ý. Khi dùng hàm h i qui c a Y theo X
sai d báo là:
tính x p x Y thì
2
σY . X = σ2 ( 1 − ρ2 )
2
càng g n 1. Do ó,
Chúng ta nh n th y r ng sai s càng nh khi ρ
chúng ta ch nên dùng hàm h i qui x p x Y trên cơ s bi t X khi ρ
g n
b ng 1.
Chúng ta có th tìm kho ng tin c y cho trung bình c a Y khi X l y giá tr
x0. Tuy nhiên, trong giáo trình này chúng ta t m hài lòng v i d báo c a Y b ng
cách thay giá tr x0 vào phương trình ư ng th ng h i qui c a Y theo X.
4. HÀM H I QUI TUY N TÍNH M U
Trong th c t , chúng ta không kh o sát h t t ng th , chưa bi t phân ph i
c a vectơ ng u nhiên (X,Y) nên khó có th xác nh ư c d ng tốn h c c a hàm
h i qui t ng th . Chúng ta ph i d a trên m u
xây d ng hàm h i qui m u sao
cho nó là ư c lư ng t t nh t hàm h i qui t ng th .
Gi s (x1, y1), (x2, y2), . . ., (xn, yn) là n c p quan sát ư c trên m u ư c
thành l p t vectơ ng u nhiên (X,Y).
có m t hình nh tr c quan v m i tương
quan gi a X và Y, ngư i ta bi u di n m i c p s (xi, yi) b ng i m Mi có to
(xi, yi), (i = 1, 2, . . ., n) trên m t ph ng to
Oxy. T p h p các i m Mi (i = 1,
phân
2, . . ., n) t o nên m t “ ám mây th ng kê” và thư ng ư c g i là Bi u
tán. Bi u
phân tán cho chúng ta cái nhìn khái quát v m c
cũng như c u
trúc c a s tương quan gi a Y và X. T bi u
phân tán, ngư i ta thư ng nh n
th y có m t ư ng (cong ho c th ng) x p x d li u (các i m (xi, yi) t t p g n
ư ng ó). N u ư ng nói trên là ư ng th ng thì Y có h i qui tuy n tính theo X.
H i qui tuy n tính
y
30
20
10
2
y
4
6
H i qui phi tuy n
8
x
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
165
30
20
10
0
2
4
6
8
x
T m u trên, ngư i ta xây d ng ư ng h i qui tuy n tính m u b ng cách
thay các s
c trưng c a t ng th b ng các ư c lư ng i m tương ng:
Hàm h i qui tuy n tính m u c a Y theo X: y = A + Bx, v i
B = r.
v i
sY
sX
và
A = y − Bx ,
sai d báo m u:
2
2
sY . X = (1 − r 2 ) sY
Hàm h i qui tuy n tính m u c a X theo Y:
s
x = x + r. X ( y − y ) ,
sY
v i
sai d báo m u:
2
s X .Y = (1 − r 2 ) s 2
X
4.1. Thí d . Gi s các giá tr quan sát ư c trên m t m u c a VTNN
(X,Y) tuân theo lu t phân ph i chu n hai chi u ư c cho trong b ng sau:
xi
1
3
4
6
8
9
11
14
yi
1
2
4
4
5
7
8
9
(a) V bi u
phân tán cho d li u trong b ng trên.
(b) Hãy tính giá tr h s tương quan m u.
(c) Vi t phương trình ư ng th ng h i qui m u c a Y theo X. Hãy d báo
giá tr c a Y khi X l y giá tr 12.
Gi i.
(a) Bi u
phân tán:
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
166
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
x
(b) Chúng ta l p b ng tính sau:
xi
yi
xi2
xi yi
yi2
1
1
1
1
1
3
2
9
6
4
4
4
16
16
16
6
4
36
24
16
8
5
64
40
25
9
7
81
63
49
11
8
121
88
64
14
9
196
126
81
Σxi = 56
Σyi = 40
∑ x 2 = 524
i
Σxiyi = 364
∑ y 2 = 256
i
Các giá tr trung bình m u và
l ch chu n n u:
x = 7, sX = 4,342,
sY = 2,828.
y = 5,
Giá tr h s tương quan m u:
r =
∑ xi yi
− n x. y
364 − 8 × 7 × 5
=
= 0,977
(n − 1) s X . sY
7 × 4,342 × 2,828
r = 0,977.
(c) VTNN (X,Y) tuân theo lu t phân ph i chu n hai chi u nên hàm h i qui
m u c a Y theo X là hàm tuy n tính y = A + Bx, v i
s
B = r. Y = 6364
sX
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
167
A = y − Bx = 0,5455
và
Phương trình ư ng h i qui m u c a Y theo X là:
y = 0,6364x + 0,5455.
Khi X l y giá tr 12 thì d báo Y có giá tr là:
yo = 0,6364 × 12 + 0,5455 = 8,1823
BÀI T P
Trong m i bài t p dư i ây, gi s r ng vectơ ng u nhiên ang xét tuân theo
lu t phân ph i chu n hai chi u.
7.1. Xem vectơ ng u nhiên (X,Y) mà m t m u ng u nhiên g m 8 c p ư c
ch n ra như sau:
xi
1
2
3
4
5
6
7
8
yi
4
8
12
16
20
24
28
32
Hãy tính giá tr h s tương quan m u c a X và Y và cho nh n xét.
7.2.
M t cơ s s n xu t ã ghi l i s ti n ã chi cho vi c nghiên c u phát
tri n và l i nhu n hàng năm c a cơ s trong 6 năm v a qua như sau: ( ơn v 106
VN )
Chi nghiên c u
5
11
4
5
3
2
L i nhu n
31
40
30
34
25
20
(a) V bi u
phân tán cho d li u trong b ng trên.
(b) Hãy tính giá tr h s tương quan m u gi a chi nghiên c u và l i nhu n.
(c) Chi nghiên c u và l i nhu n có th c s tương quan không? (k t lu n
m c ý nghĩa α = 2%).
(d) Vi t phương trình ư ng h i qui tuy n tính m u c a l i nhu n theo chi
phí nghiên c u.
7.3.
o chi u cao Y (cm) và chi u dài chi dư i X (cm) c a m t nhóm
thanh niên, ngư i ta thu ư c s li u sau:
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
168
yi
160
161,5
163
165
167
168
171
172
xi
78
79
80
81
82
83
84
85
(a). Tính giá tr h s tương quan m u c a X và Y.
(b).
m c ý nghĩa α = 5%, hãy cho nh n xét v tài li u cho r ng h s
tương quan c a X và Y là 0,9.
(c). Vi t phương trình ư ng h i quy m u c a Y theo X.
7.4.
M t gi ng viên d y môn th ng kê yêu c u m i sinh viên ph i làm
m t
án phân tích d li u và d kỳ thi h t mơn. Sau ó, m t m u g m 10 sinh
viên ư c ch n ng u nhiên, i m s ư c ghi l i như sau:
i m thi
i m
81
74
78
93
69
72
83
90
84
76
án
62
71
69
76
87
62
80
75
92
79
(a) Tìm kho ng tin c y 95% cho i m thi trung bình c a m t sinh viên
(b)
m c ý nghĩa 5%, hãy ánh giá v s tương quan tuy n tính gi a hai
lo i i m trên.
7.5.
th c hi n m t cơng trình nghiên c u v m i quan h gi a chi u
cao Y(m) và ư ng kính X(cm) c a m t lo i cây, ngư i ta quan sát trên m t m u
ng u nhiên và có k t qu sau:
xi
28
28
24
30
60
30
32
42
43
49
yi
5
6
5
6
10
5
7
8
9
10
(a). Hãy tính giá tr h s tương quan m u c a X và Y và cho nh n xét.
(b) Vi t phương trình ư ng th ng h i quy m u c a Y theo X. Hãy d báo
chi u cao c a cây có ư ng kính 45 cm.
7.6.
X (%) và Y(kg/mm2) là hai ch tiêu ch t lư ng c a m t lo i s n
ph m. i u tra m t s s n ph m, ngư i ta ư c các giá tr (xi, yi) c a vectơ
ng u nhiên (X, Y) như sau:
(2, 5);
(8, 15);
(4, 15);
(4, 10);
(2, 10);
(8, 25);
(2, 5);
(6, 10);
(4, 10);
(8, 20);
(6, 10);
(8, 15);
(6, 10);
(6, 15);
(4, 15);
(6, 15);
(6, 15);
(8, 20);
(6, 20);
(6, 10);
(6, 20);
(6, 15);
(6, 25);
(8, 20);
(6, 15);
(6, 20);
(8, 15);
(6, 15);
(8, 25);
(8, 15).
(a) Tìm kho ng tin c y 98% cho trung bình ch tiêu Y.
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
169
(b) Có tài li u cho r ng trung bình ch tiêu X là 6,5%. Hãy cho nh n xét v
tài li u trên m c ý nghĩa 5%.
(c) Tính giá tr h s tương quan m u c a X và Y.
(d) X và Y có th c s tương quan nhau không? ( m c ý nghĩa α = 3%).
(e) Vi t phương trình ư ng th ng h i quy m u c a Y theo X.
7.7. Nghiên c u lư ng phân bón (X kg) ư c dùng bón cho ru ng trong
m t v ; Y(kg/1000m2) là năng su t lúa. Th ng kê 30 h gia ình, k t qu như
sau:
S h
3
5
2
6
4
3
5
2
xi
40
40
50
50
50
60
60
60
yi
270
280
280
290
300
300
310
320
(a) Tính giá tr h s tương quan m u c a X và Y.
(b) Ki m nh gi thi t cho r ng h s tương quan c a X và Y b ng 0,9
m c ý nghĩa α = 5%
7.8.
nghiên c u s tương quan gi a chi u cao X (cm) và s c n ngY
(kg) con ngư i, quan sát trên m t m u ng u nhiên, ngư i ta có k t qu sau:
yk
xi
[140, 145)
[145, 150)
[40, 45)
[45, 50)
1
4
2
[50, 55)
[55, 60)
[60, 65)
6
1
[150, 155)
10
8
2
[155, 160)
8
6
3
1
1
[160, 165)
(a) Tìm kho ng tin c y 95% cho µX và µY.
(b)
(c)
Tính giá tr h s tương quan m u c a X và Y.
Có tài li u cho bi t h s tương quan gi a X và Y là 0,65. Hãy cho
nh n xét v tài li u ó, m c α = 5%.
(d) Vi t phương trình ư ng th ng h i quy tuy n tính m u c a Y theo X.
7.9. Nghiên c u v giá bán X và s lư ng hàng bán ư c trong m t tháng
Y c a m t lo i hàng, ngư i ta i u tra ng u nhiên m t s i m bán hàng và có
s li u sau:
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
170
yi (t n)
xi (ngàn
24
25
26
26
25
27
28
30
5
4,9
4,8
4,7
5,2
5
4,6
4,5
ng)
yi (t n)
xi (ngàn
30
ng)
30
29
29
29
28
28
28
4,2
4,3
4,4
4,3
4,2
5
4,8
4,6
Cho bi t X và Y tuân theo lu t phân ph i chu n hai chi u.
(a)
Tìm kho ng tin c y 90% cho lư ng hàng bán ư c trung bình trong
m t tháng (cho bi t bi n ng u nhiên Y tuân theo lu t phân ph i chu n).
(b) M t báo cáo cho r ng lư ng hàng bán ư c trung bình trong m t tháng
khơng dư i 28,5 t n. Hãy cho nh n xét v báo cáo ó m c ý nghĩa
1%.
(c) Tính giá tr h s tương quan m u c a X và Y.
(d) Tài li u m t công ty tư v n cho r ng h s tương quan c a X và Y là
− 0,75 thì có ch p nh n ư c không? (k t lu n m c ý nghĩa α =
5%).
(e) Vi t phương trình ư ng h i quy m u c a lư ng hàng bán ư c trong
m t tháng theo giá bán.
7.10. Chi u dài xương ùi X(cm) và chi u cao Y(cm) c a nh ng ngư i
àn ông
tu i 20 - 30 là các bi n ng u nhiên tuân theo lu t phân ph i chu n. o
chi u dài xương ùi và chi u cao c a 10 ngư i àn ông, ư c ch n ng u nhiên,
tu i trên. K t qu ư c cho trong b ng sau:
xi (cm)
44
46
47
47
48
49
50
50
51
52
yi (cm)
155
159
163
166
169
172
174
176
176
179
(a) Tìm kho ng tin c y 96 % cho chi u cao trung bình c a nh ng ngư i àn
ơng
tu i 20 - 30.
(b) Tính giá tr h s tương quan m u c a X và Y. Hãy cho nh n xét v
m c
tương quan gi a X và Y.
(c) M t tài li u y khoa cho r ng h s tương quan c a X và Y là 0,90. Hãy
cho nh n xét v tài li u trên m c ý nghĩa 5%.
(d) Vi t phương trình ư ng h i qui tuy n tính m u c a Y theo X. Hãy d
báo xem n u giá tr c a X gi m b t 1cm thì giá tr tương ng c a Y
bi n thiên th nào? T i sao?
Chng 7
TNG QUAN VÀ H I QUI TUY N TÍNH
171
XS
2008
TK