CHƯƠNG 9. Tương quan và hồi quy tuyến tính đơn
9.1. Tương quan tuyến tính đơn
9.2. Hồi quy tuyến tính đơn
9.3. Một số mô hình phi tuyến có thể tuyến tính hoá
Bài 9.1. Tương quan tuyến tính đơn
1. Hệ số tương quan mẫu:
Giả sử X và Y là 2 BNN. Trong nhều trường hợp X
và Y phụ thuộc lẫn nhau, ví dụ, GS X là chiều dài
của bàn chân của 1 người và Y là chiều cao của
người đó.
Để đo mức độ phụ thuộc tuyến tính giữa 2 BNN X và Y,
người ta đưa ra khái niệm hệ số tương quan ρ:
[ ]
YX
YX
YXE
σσ
µµ
ρ
))((
−−
=
Người ta đã chứng minh được
11
≤≤−
ρ
.
Khi ρ=0 thì không có sự tương quan tuyến tính giữa X và
Y. Đặc biệt khi (X, Y) có phân phối chuẩn đồng thời thì
ρ=0 khi và chỉ khi X, Y độc lập. Ngược lại, khi |ρ| càng
gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng
mạnh.
Nếu |ρ|=1 thì Y là một hàm tuyến tính của X.
Muốn biết ρ chúng ta phải biết phân bố của tập chính bao
gồm tất cả các giá trị của cặp (X, Y). Tuy nhiên, điều này
là không thực tế.
Vì vậy, chúng ta có bài toán ước lượng và kiểm định hệ
số tương quan ρ dựa vào mẫu ngẫu nhiên: (x
1
, y
1
), (x
2
,
y
2
), …, (x
n
, y
n
) các giá trị của (X, Y).
1
Để ước lượng hệ số tương quan ρ, chúng ta sử dụng hệ
số tương quan mẫu:
∑ ∑
∑
=
= =
=
−−
−−
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
Chúng ta thường áp dụng công thức tính toán sau cho
thuận lợi:
2222
)()(
))(()(
∑∑∑ ∑
∑∑∑
=
−−
−
yynxxn
yxxyn
r
Chú ý:
11
≤≤−
r
Ví dụ 1. Tính hệ số tương quan mẫu r dựa trên mẫu gồm
10 quan sát sau:
i 1 2 3 4 5 6 7 8 9 10
x
i
80 85 88 90 95 92 82 75 78 85
y
i
2.4 2.8 3.3 3.1 3.7 3 2.5 2.3 2.8 3.1
Giải
Cách 1. Tính trực tiếp
Đầu tiên tính các tổng
∑ ∑∑∑∑
22
,,,, yxxyyx
Và thay vào công thức tính r:
858983.0
=
r
Cách 2 : Dựa vào Excel
2
GS 10 giá trị của x
i
được xếp vào các ô từ A1 đến J1, 10
giá trị của y
i
được xếp vào các ô từ A2 đến J2. Khi đó,
chỉ cần viết =CORREL(A1:J1,A2:J2), kết quả nhận được
là 0.858983
Tiếp theo chúng ta đề cập đến bài toán kiểm định giả
thiết về hệ số tương quan lý thuyết ρ.
Bài toán đầu tiên và quan trọng nhất là kiểm định xem X
và Y có tương quan với nhau hay không.
2. Bài toán kiểm định giả thiết:
- Giả thiết H
0
:
ρ
=0
- Đối thiết H
1
:
ρ≠
0
Tiêu chuẩn kiểm định được xây dựng dựa trên định lý
sau:
Định lý: Nếu (X, Y) có phân bố chuẩn 2 chiều thì dưới
giả thiết H
0
, BNN
2
1
2
r
nr
T
−
−
=
Có phân bố Student với n-2 bậc tự do.
Với mức ý nghĩa α, ta sẽ bác bỏ H
0
nếu |T|>t
n-2
(α/2).
Ví dụ: Trong một mẫu gồm 42 quan sát (x
i
, y
i
) rút ra từ
tập hợp chính các giá trị của (X, Y), chúng ta tính được
hệ số tương quan mẫu là r=0.22. Giả sử cặp BNN (X, Y)
có phân phối chuẩn đồng thời. Với mức ý nghĩa α=5%,
có thể kết luận rằng X và Y có tương quan hay không?
Giải
Ta có
3
43.1
154.0
22.0
22.01
4022.0
1
2
22
====
−−
−
r
nr
T
Với bậc tự do 40, α=5% ta tra bảng
=TINV(0.05,40)=2.021075
So sánh, ta thấy |T|<2.021075, vì vậy chưa đủ cơ sở bác
bỏ giả thiết H
0
.=>chấp nhận Ho
3. Với bài toán kiểm định giả thiết:
- Giả thiết H
0
:
ρ
=
ρ
0
- Đối thiết H
1
:
ρ≠ρ
0
ở đây
ρ
0
là một giá trị khác 0 cho trước.
Chúng ta sẽ xây dựng tiêu chuẩn thống kê
σ
mu
T
−
=
Trong đó:
3
1
1
1
2
1
1
1
2
1
;ln;ln
0
0
−
−
+
−
+
===
n
r
r
mu
σ
ρ
ρ
Người ta chứng minh được rằng nếu H
0
đúng, thì T có
phân bố xấp xỉ phân bố chuẩn tắc N(0,1). Do đó, H
0
sẽ bị
bác bỏ ở mức ý nghĩa α nếu |T|>u
α
/2
.
Ví dụ: Từ mẫu cỡ n=35 rút ra từ tập chính các giá trị của
(X, Y), ta tính được hệ số tương quan là mẫu là r=0.8.
Với mức ý nghĩa α=5%, kiểm định giả thiết:
- Giả thiết H
0
:
ρ
= 0.9
- Đối thiết H
1
:
ρ≠
0.9
Giải
Ta có
4
177.0
;472.1lnln
;009.1lnln
32
1
3
1
9.01
9.01
2
1
1
1
2
1
8.01
8.01
2
1
1
1
2
1
0
0
===
===
===
−
−
+
−
+
−
+
−
+
n
r
r
m
u
σ
ρ
ρ
Từ đó
11.2
177.0
472.1099.1
−===
−−
σ
mu
T
Với α=5%, ta tìm được u
α
/2
= 1.96.
Vì |T|=2.11> u
α
/2
= 1.96, nên ta bác bỏ giả thiết H
0
, chấp
nhận đối thiết H
1
, nghĩa là chấp nhận kết luận ρ≠0.9.
Tiêu chuẩn thống kê
σ
mu
T
−
=
cũng cho phép ta xác
định được khoảng tin cậy cho hệ số tương quan lý thuyết
ρ.
Ví dụ: Trong một mẫu có cỡ n=52 được rút ra từ tập hợp
chính các giá trị của (X, Y), ta tính được hệ số tương
quan mẫu là r=0.53. Căn cứ trên kết quả đó hãy xác định
khoảng tin cậy 95% cho hệ số tương quan lý thuyết ρ
giữa X và Y.
Giải
Ta có
143.0
;59.0lnln
7
1
49
1
3
1
53.01
53.01
2
1
1
1
2
1
====
===
−
−
+
−
+
n
r
r
u
σ
5
Với α=5%, tra bảng ta có u
α
/2
=1.96. Với xác suất 95% ta
có:
σσ
αα
2/2/
umuu
<−<−
σσ
αα
2/2/
uumuu
+<<−⇔
Thay giá trị của
σ
α
,,
2/
uu
vào ta được
87.031.0
<<
m
Hay
87.0ln31.0
1
1
2
1
<<
−
+
ρ
ρ
74.1ln62.0
1
1
<<⇔
−
+
ρ
ρ
74.1
1
1
62.0
ee
<<⇔
−
+
ρ
ρ
7.5858.1
1
1
<<⇔
−
+
ρ
ρ
Giải bất đẳng thức trên ta tìm được:
7.03.0
<<
ρ
Đây là khoảng tin cậy 95% cho ρ.
4. Kiểm tra tính độc lập
Giả sử ta có mẫu ngẫu nhiên cỡ n các quan sát đồng
thời về hai biến ngẫu nhiên X và Y: (x
1
, y
1
), (x
2
,y
2
), …,
(x
n
, y
n
).
6
Giả thiết H
0
: X và Y độc lập với nhau
Đối thiết H
1
: X và Y không độc lập.
- Ta ghép các giá trị mẫu (x
1
, x
2
, …, x
n
) thành các
khoảng, chẳng hạn r khoảng. Ghép các giá trị mẫu
(y
1
, y
2
, …, y
n
) thành s khoảng. Khi đó ta nhận được
bảng hai lối vào gồm rs ô chữ nhật con. Gọi (i, j) là
ô ở hàng i cột j.
- Đếm số các quan sát từ mẫu đã cho rơi vào ô (i, j).
Ký hiệu số đó là
sjrin
ij
,1,,1,
==
.
Nói cách khác
ij
n
là số các giá trị mẫu mà có giá trị
mẫu theo X rơi vào khoảng thứ i và có giá trị mẫu
theo Y rơi vào khoang thứ j.
Cần lưu ý rằng, các khoảng theo X và các khoảng theo
Y không nhất thiết được phân chia theo định lượng,
mà có thể theo định tính, chẳng hạn tốt, trung bình,
xấu hoặc giỏi, khá, trung bình, kém hoặc màu xanh,
đỏ, trắng, vàng, ...
- Tính
∑
=
=
s
j
iji
nn
1
.
(lấy tổng theo hàng)
∑
=
=
r
i
ijj
nn
1
.
(lấy tổng theo cột)
∑∑
= =
=
r
i
s
j
ij
nn
1 1
- Đối với mỗi ô (i, j) ở trong bảng, ta tính
.
..
n
xnn
ji
Để
tiện tính toán, ta đặt số này trong ô (i, j) cạnh số
ij
n
,
nhưng ta đặt trong ngoặc.
7
- Tính
−==
∑∑∑∑
= == =
−
r
i
s
j
nn
n
r
i
s
j
n
ji
ij
n
j
n
i
n
n
j
n
i
n
ij
n
1 11 1
)(
2
1
..
2
..
2
..
χ
- Với α đã cho, tra bảng phân phối khi-bình phương
( )
2
χ
với (r-1)(s-1) bậc tự do ta tìm được
).(
2
)1)(1(
αχ
−− sr
- Nếu
)(
2
)1)(1(
2
αχχ
−−
≥
sr
ta bác bỏ tính độc lập của X
và Y. (Thực chất tiêu chuẩn này là ứng dụng tiêu
chuẩn phù hợp
2
χ
).
Trong thực hành ta hay sử dụng công thức :
−=
∑∑
= =
r
i
s
j
nn
n
ji
ij
n
1 1
2
1
..
2
χ
Khi r=s=2 thì :
.2.12.1.
2221
1211
..
2
1 1
2
1
nnnn
nn
nn
n
r
i
s
j
nn
n
ji
ij
n
=
−=
∑∑
= =
χ
Ví dụ : Ở các cây ngọc trâm lá có hai dạng, « lá phẳng »
hoặc « lá nhăn », hoa có hai dạng, « hoa bình thường »
hoặc « hoa hoàng hậu ».
Quan sát một mẫu gồm 560 cây ngọc trâm ta thu được
kết quả sau :
Hoa
Lá
Bình thường Hoàng hậu Tổng số
Phẳng 328 122 450
Nhăn 77 33 110
Tổng số 405 155 560
8
Có thể chấp nhận giả thiết hai đặc tính về hoa và lá nói
trên là độc lập hay không ? Hay giữa chúng có sự tương
quan ?
Giải
Ta có
368.0
)155).(405).(110).(450(
3377
122328
560
2
.2.12.1.
2221
1211
===
nnnn
nn
nn
n
χ
Với mức ý nghĩa 5%, tra bảng phân phối
2
χ
với 1 bậc
tự do ta được
841.3)05.0(
2
1
=
χ
. Do
2
χ
<
841.3)05.0(
2
1
=
χ
, nên ta chấp nhận giả thiết H
0
,
chấp nhận giả thiết hai đặc tính về hoa và lá nói trên là
độc lập.
Ví dụ : Giả sử X và Y tương ứng là số đo huyết áp và
trọng lượng (tính bằng pound) (1pound=0.454 kg) của trẻ
em 14 tuổi.
Để thuận tiện, số đo huyết áp X được chia thành các
mức :
B
1
={X≤99 }
B
2
={99<X≤110 }
B
3
={110<X≤120 }
B
4
={X>120 }
Và Y chia làm 2 mức :
A
1
={Y≤102 }
A
2
={Y>102 }
Dựa vào mẫu ngẫu nhiên gồm 200 trẻ em được đo huyết
áp và trọng lượng cho thấy số liệu sau :
Huyết áp B
1
B
2
B
3
B
4
Tổng
9