37
Do
ñ
ó, b
1
= 1261 / 98 = 12,867 b
0
= 77,286 – 12,867×5,00 = 12,949
Do
ñ
ó
ñườ
ng h
ồ
i quy tuy
ế
n ntính bình ph
ươ
ng be nh
ấ
t là
xy 87,1295,12
ˆ
+
=
Giá trị hồi quy b
0
:
Khi x = 0 (lúc sinh ra), tr
ọ
ng l
ượ
ng trung bình là 12,95 kg.
ðộ nhọn b
1
:
C
ứ
thêm m
ỗ
i tháng tu
ổ
i thì tr
ọ
ng l
ượ
ng c
ủ
a bê t
ă
ng 12,87 kg.
Phần dư và giá trị theo ñường hồi quy
Tu
ổ
i (x
i
)
Kh
ố
i l
ượ
ng
(y
i
)
Gí tr
ị
h
ồ
i quy
ii
xy 87.1295.12
ˆ
+
=
Ph
ầ
n d
ư
iii
yy
ˆ
res
−
=
2
res
i
0 18 12,95 5,05 25,51
2 32 38,68 -6,68 44,67
3 64 51,55 12,45 154,98
4 45 64,42 -19,42 377,07
6 91 90,15 0,85 0,72
8 127 115,89 11,11 123,48
12 164 167,36 -3,36 11,27
35 541 541,00 0,00 737,70
L
ư
u ý r
ằ
ng giá tr
ị
trung bình c
ủ
a ph
ầ
n d
ư
b
ằ
ng không
[Phân d
ư
so v
ớ
i
ñườ
ng h
ồ
i quy bình ph
ươ
ng] 70,737res
7
1
2
==
∑
=i
i
N
ế
u l
ự
a ch
ọ
n b
0
và b
1
là các giá tr
ị
khác s
ẽ
làm t
ă
ng ph
ầ
n d
ư
này.
Giá tr
ị
theo
ñườ
ng h
ồ
i quy )
ˆ
(
i
y
ñượ
c dùng
ñể
ướ
c tính kh
ố
i l
ượ
ng trung bình c
ủ
a bê
ñố
i
v
ớ
i m
ộ
t ngày tu
ổ
i cho tr
ướ
c.
Có th
ể
ướ
c l
ượ
ng kh
ố
i l
ượ
ng trung bình c
ủ
a bê 10 tháng tu
ổ
i nh
ư
sau
12,95 + 12,87×10 = 141,62 kg.
Ước lượng
σ
σσ
σ
2
Ta quay tr
ở
l
ạ
i v
ớ
i gi
ả
thi
ế
t
ñố
i v
ớ
i mô hình h
ồ
i quy:
y
i
~ N(β
0
+ β
1
x
i
, σ
2
) ho
ặ
c t
ươ
ng
ñươ
ng v
ớ
i ε
i
~ N(0, σ
2
).
trong
ñ
ó σ
2
là ph
ươ
ng sai c
ủ
a ph
ươ
ng trình h
ồ
i quy.
Nó
ñượ
c
ướ
c tính nh
ư
sau s
2
)(
2
.XY
s
( )
)2(
ˆ
)2(SS Residual
1
2
2
−−=
−=
∑
=
nyy
ns
n
i
ii
ðố
i v
ớ
i s
ố
li
ệ
u vê kh
ố
i l
ượ
ng c
ủ
a bê: s
2
= 79,70 / 5 = 147,54, and ∴s = 12,15 kg.
38
5.5. Kiểm ñịnh giả thuyết
5.5.1.
H
ệ
s
ố
h
ồ
i quy
Gi
ả
thuy
ế
t H
0
: β
0
= 0 vs H
0
: β
0
≠ 0 (
ñườ
ng h
ồ
i quy
ñ
i qua g
ố
c to
ạ
ñộ
)
Ki
ể
m
ñị
nh th
ố
ng kê:
)se(
0
0
b
b
t = df = n - 2 trong
ñ
ó
∑
∑
=
=
−
=
n
i
i
n
i
i
xxn
x
sb
1
2
1
2
0
)(
)se(
ðố
i v
ớ
i ví d
ụ
v
ề
kh
ố
i l
ươ
ng c
ủ
a bê:
66,7
987
273
15,12)se(
0
=
×
×=b
t = 12.95 / 7.66 = 1.69, v
ớ
i b
ậ
c t
ự
do df = 7 – 2 = 5.
P-value: P = 2×P(T
5
> 1.69) = 0.15
Nh
ư
v
ậ
y gi
ả
thuy
ế
t H
0
ñượ
c
ch
ấ
p nh
ậ
n: k
ế
t lu
ậ
n r
ằ
ng
ñườ
ng h
ồ
i quy
ñ
i qua g
ố
c to
ạ
ñộ
.
Chú ý: khi β
0
= 0, thì mô hình
ñượ
c rút g
ọ
n nh
ư
sau y
i
= β
1
x
i
+ ε
i
có ngh
ĩ
a là y ‘t
ỷ
l
ệ
’
v
ớ
i x.
5.5.2.
ðộ
d
ố
c
Gi
ả
thuy
ế
t H
0
: β
1
= 0 v
ớ
i H
1
: β
1
≠ 0 (
ñộ
d
ố
c b
ằ
ng không: không có quan h
ệ
tuy
ế
n tính)
Ki
ể
m
ñị
nh th
ố
ng kê:
)se(
1
1
b
b
t =
df = n - 2 trong
ñ
ó
∑
=
−
=
n
i
i
xx
s
b
1
2
1
)(
)se(
ðố
i v
ớ
i s
ố
li
ệ
u v
ề
kh
ố
i l
ượ
ng c
ủ
a bê:
23.1
98
15.12
)se(
1
==b
t = 12.87 / 1.23 = 10.49, v
ớ
i b
ậ
c t
ự
do df = 7 – 2 = 5.
P-value: P = 2×P(T
5
> 10.49) = 0.00
Nh
ư
v
ậ
y gi
ả
thuy
ế
t H
0
b
ị
bác b
ỏ
: K
ế
t lu
ậ
n r
ằ
ng kh
ố
i l
ượ
ng c
ủ
a bê t
ă
ng m
ộ
t cách có ý
ngh
ĩ
a v
ớ
i
ñộ
tu
ổ
i.
5.5.3.
B
ả
ng phân tích ph
ươ
ng sai (ANOVA)
ñố
i v
ớ
i h
ồ
i quy
C
ũ
ng nh
ư
trong phân tích ph
ươ
ng sai (ANOVA), chúng ta c
ũ
ng có th
ể
chia s
ự
bi
ế
n
ñộ
ng c
ủ
a s
ố
li
ệ
u (y) thành các thành ph
ầ
n
ñượ
c gi
ả
i thích trong mô hìmh và thành ph
ầ
n
không gi
ả
i thích
ñượ
c:
T
ổ
ng bình ph
ươ
ng (SS):
T
ổ
ng SS = SS h
ồ
i quy + SS ph
ầ
n d
ư
b
ậ
c t
ự
do: (n – 1) = 1 + (n – 2)
Giá tr
ị
SS trong ví d
ụ
ñượ
c tính toán nh
ư
sau:
39
T
ổ
ng SS =
∑
=
−
n
i
i
yy
1
2
)( = Σ(Quan sát − Trung bình)
2
= (18 − 77.29)
2
+ (32 − 77.29)
2
+ … + (164 − 77.29)
2
= 16,963
SS h
ồ
i quy =
∑
=
−
n
i
i
yy
1
2
)
ˆ
( = Σ(H
ồ
i quy − Trung bình)
2
= (12.95 − 77.29)
2
+ (38.68 − 77.29)
2
+ … + (167.36 − 77.29)
2
= 16,226
SS ph
ầ
n d
ư
=
∑
=
−
n
i
ii
yy
1
2
)
ˆ
( = Σ(Quan sát − H
ồ
i quy)
2
= Σ(Ph
ầ
n d
ư
)
2
= (18 − 12.95)
2
+ (32 − 38.68)
2
+ … + (164 − 167.36)
2
= 738
Chú ý r
ằ
ng SS c
ủ
a h
ồ
i quy có th
ể
xác
ñị
nh b
ằ
ng s
ử
d
ụ
ng ph
ươ
ng trình sau
ñ
ây,
SS h
ồ
i quy =
∑
=
−
n
i
i
xxb
1
22
1
)( = 12.87
2
× 98 = 16,226
c
ũ
ng nh
ư
trên, apart from some round off error.
K
ế
t qu
ả
phân tích
ñượ
c trình bày
ở
b
ả
ng ANOVA
Ngu
ồ
n T
ổ
ng bình B
ậ
c t
ự
do TB bình
bi
ế
n
ñộ
ng ph
ươ
ng (SS) (df) ph
ươ
ng (MS)
H
ồ
i quy Reg SS 1 Reg SS
Ph
ầ
n d
ư
Res SS
n − 2 Res SS / (n − 2)
T
ổ
ng Tot SS
n − 1
V
ớ
i s
ố
li
ệ
u v
ề
bê, b
ả
ng ANOVA là
Ngu
ồ
n T
ổ
ng bình B
ậ
c t
ự
do TB bình
bi
ế
n
ñộ
ng ph
ươ
ng (SS) (df) ph
ươ
ng (MS)
H
ồ
i quy 16,226 1 16,226
Ph
ầ
n d
ư
738 5 147.5
T
ổ
ng 16,963 6
Chúng ta cungc có th
ể
xác
ñị
nh ý ngh
ĩ
a c
ủ
a
ñộ
d
ố
c v
ớ
i ph
ươ
ng pháp th
ử
F.
Ki
ể
m
ñị
nh th
ố
ng kê:
2,1
MS
Residual
MS Regression
−== ndfF
Trong ví d
ụ
vè bê: F = 16,226 / 147.5 = 110.0 v
ớ
i df = 1, 5
So sánh v
ớ
i phân b
ố
F
1,5
, ta có P = 0.00.
Nh
ư
v
ậ
y ta có giá tr
ị
P t
ươ
ng t
ự
nh
ư
ph
ầ
n ki
ể
m
ñị
nh t nh
ư
trên.
ðố
i v
ớ
i
hồi quy tuyến tính ñơn giản,
ta có m
ố
i quan h
ệ
ch
ặ
t tr
ẽ
gi
ữ
a t-test và F-test:
t
2
= F (10.49
2
= 110.0) Chú ý b
ậ
c t
ự
do b
ằ
ng nhau (b
ằ
ng 5)
R
2
- Ph
ầ
n bi
ế
n
ñộ
ng
ñượ
c gi
ả
i thích b
ằ
ng mô hình. V
ớ
i s
ố
li
ệ
u v
ề
bê, R
2
= 16,226 /
16,963 = 0.957, hay 96% bi
ế
n
ñộ
ng
ñượ
c gi
ả
i thích b
ằ
ng
ñộ
tu
ổ
i c
ủ
a bê.
40
Minitab example: Khối lượng (y) và tuổi (x) của 7 bê
MTB > NAME C1 'Tuoi' C2 'Khoi luong'
MTB > REGR C2 1 C1
Stat > Regression > Regression
Regression Analysis
The regression equation is
Khoi luong = 12.9 + 12.9 Tuoi
Predictor Coef StDev T P
Constant 12.949 7.663 1.69 0.152
Tuoi 12.867 1.227 10.49 0.000
S = 12.15 R-Sq = 95.7% R-Sq(adj) = 94.8%
Analysis of Variance
Source DF SS MS F P
Regression 1 16226 16226 109.97 0.000
Residual Error 5 738 148
Total 6 16963
Lưu ý:
Ki
ể
m
ñị
nh, n
ế
u tr
ọ
ng l
ượ
ng có t
ươ
ng quan v
ớ
i
ñộ
tu
ổ
i, Chúng ta ki
ể
m tra gi
ả
thuy
ế
t H
0
: β
1
= 0 vs H
1
: β
1
≠ 0. Khi ch
ỉ
có m
ộ
t bi
ế
n
ướ
c tính x, Thì chúng ta có th
ể
dùng t-test
ho
ặ
c F-test
ñể
th
ự
c hi
ệ
n phép th
ử
. C
ả
2 ph
ươ
ng pháp
ñề
u cho ta giá tr
ị
P nh
ư
nhau
(b
ằ
ng 0.000), và chú ý r
ằ
ng
t
2
= (10.49)
2
= 109.97 = F.
Bi
ế
n
ñộ
ng c
ủ
a t
ă
ng tr
ọ
ng
ñượ
c tính toán theo l
ứ
a tu
ổ
i là
SS h
ồ
i quy / T
ổ
ng SS = 16226 / 16963 = 0.957
Gí tr
ị
R
2
cho ta th
ấ
y giá tr
ị
h
ồ
i quy (R-sq=95.7%)
41
6. Tương quan
6.1. Giới thiệu
Chúng ta có th
ể
s
ử
d
ụ
ng h
ệ
s
ố
t
ươ
ng quan
ñể
xác
ñị
nh m
ứ
c
ñộ
quan h
ệ
tuy
ế
n tính gi
ữ
a 2
bi
ế
n. H
ệ
s
ố
t
ươ
ng quan có giá tr
ị
t
ừ
-1
ñế
n +1. N
ế
u m
ộ
t bi
ế
n có xu h
ướ
ng t
ă
ng còn bi
ế
n
kia gi
ả
m thì h
ệ
s
ố
t
ươ
ng quan là âm. Còn n
ế
u c
ả
hai bi
ế
n có xu h
ướ
ng cùng t
ă
ng thì h
ệ
s
ố
t
ươ
ng quan là d
ươ
ng. H
ệ
s
ố
t
ươ
ng quan c
ủ
a qu
ầ
n th
ể
ñượ
c ký hi
ệ
u b
ằ
ng ρ và r v
ớ
i
m
ẫ
u. M
ứ
c
ñộ
t
ươ
ng quan có th
ể
ñượ
c ki
ể
m
ñị
nh b
ằ
ng phép th
ử
t
ừ
2 phía:
H
0
:
ρ
= 0 versus H
1
:
ρ
≠ 0 trong
ñ
ó
ρ
là t
ươ
ng quan gi
ữ
a 2 bi
ế
n.
6.2. Tính hệ số tương quan
ðố
i v
ớ
i 2 bi
ế
n x và y,
( )
yx
n
i
ii
n
i
i
n
i
i
n
i
ii
ssn
yyxx
yyxx
yyxx
r
1
))((
)()(
))((
1
1
2
1
2
1
−
−−
=
−−
−−
=
∑
∑∑
∑
=
==
=
trong
ñ
ó
x
và s
x
là giá tr
ị
trung bình và
ñộ
l
ệ
ch chu
ẩ
n c
ủ
a m
ẫ
u th
ứ
nh
ấ
t,
y
và s
y
là giá
tr
ị
trung bình và
ñộ
l
ệ
ch chu
ẩ
n c
ủ
a m
ẫ
u th
ứ
2. Chú ý r
ằ
ng:
r = 0 ⇒ không có m
ố
i quan h
ệ
tuy
ế
n tính;
r = +1 ⇒ quan h
ệ
tuy
ế
n tính d
ươ
ng lý t
ưở
ng; và
r = –1 ⇒ quan h
ệ
tuy
ế
n tính âm lý t
ưở
ng;
Chúng ta có th
ể
s
ử
d
ụ
ng ví d
ụ
v
ề
t
ă
ng tr
ọ
ng c
ủ
a bê
ở
ví d
ụ
h
ồ
i quy tuy
ế
n tính
ñơ
n gi
ả
n
ñể
tính toán. Các s
ố
li
ệ
u v
ề
ñộ
d
ố
c (b
1
)
ñ
ã
ñượ
c tính toán trong trong ph
ầ
n h
ồ
i quy
tuy
ế
n tính
ñơ
n gi
ả
n (xem b
ả
ng tính
ở
ph
ầ
n này).
Tu
ổ
i (x
i
)
Kh
ố
i l
ượ
ng (y
i
)
xX
ii
−
=
yyY
ii
−
=
ii
YX
0 18 -5 -59,29 296,43
2 32 -3 -45,29 135,86
3 64 -2 -13,29 26,57
4 45 -1 -32,29 32,29
6 91 1 13,71 13,71
8 127 3 49,71 149,14
12 164 7 86,71 607,00
35 541 0 0,00 1.261,00
00,5
=
x
286,77
=
y
s
x
= 4,04 s
y
= 53,2 n = 7
Ta có: r = 1261/(6)(4,04)(53,2)
= 0,978
ð
ây là s
ự
t
ươ
ng quan r
ấ
t ch
ặ
t tr
ẽ
(giá tr
ị
t
ố
i
ñ
a là 1).
42
6.3. Những ví dụ về sự tương quan
r
= - 1
x
y
r
= 1
x
y
r
= -0.9
x
y
r
= 0.9
x
y
r
= 0.5
x
y
r
= –0.5
x
y
r
= 0
x
y