08/02/15 1
Hồi quy tuyến tính và tương quan
Lớp CN YTCC K10
08/02/15 2
Thể tích huyết tương và trọng lượng cơ thể
ở 8 người đàn ông khỏe mạnh
Ðối tượng trọng lượng cơ thể (kg) Thể tích huyết tương (lít)
1 58,0 2,75
2 70,0 2,86
3 74,0 3,37
4 63,5 2,76
5 62,0 2,62
6 70,5 3,49
7 71,0 3,05
8 66,0 3,12
08/02/15 3
•
Chiều cao và FEV1 của 20 sinh viên
Ví dụ 2
Chiều cao FEV
154.0 3.54
157.0 3.54
160.4 3.19
161.2 2.85
161.2 3.42
161.3 3.20
162.0 3.60
08/02/15 4
Ví dụ 3
Tuổi thai Cân nặng
41 2600
40 3160
37 2390
38 2900
40 2610
41 4230
34 1890
40 2700
40 3500
40 3290
08/02/15 5
08/02/15 6
08/02/15 7
08/02/15 8
Hồi quy tuyến tính
•
Sự liên quan giữa hai biến định lượng
thông qua mô hình hồi quy
08/02/15 9
Hồi quy tuyến tính
•
Mô hình hồi quy tuyến tính
y= α + βx + e
•
Trong đó
y = biến phụ thuộc
x = biến độc lập
α = giao điểm
β = độ dốc
ε = giá trị sai số
x
y
α
β
y= α+ βx + ε
08/02/15 10
Hồi quy tuyến tính
•
Có nhiều đường hồi quy
Vậy đường hồi quy nào là tốt nhất?
x
y
08/02/15 11
Đường hồi quy tốt nhất
3
3
41
1
4
(1,2)
2
2
(2,4)
(3,1.5)
T ng bình ph ng =ổ ươ (2 - 1)
2
+ (4 - 2)
2
+(1.5 - 3)
2
+
(4,3.2)
(3.2 - 4)
2
= 6.89
T ng bình ph ng =ổ ươ (2 -2.5)
2
+ (4 - 2.5)
2
+ (1.5 - 2.5)
2
+ (3.2 - 2.5)
2
= 3.99
2.5
Hãy so sánh hai đ ng th ngườ ẳ
Tổng bình phương càng
nhỏ thì đường thẳng phù
hợp với bộ số liệu tốt
hơn.
08/02/15 12
Đường hồi quy tốt nhất
Là một đường thẳng mà từ đó trung bình
tổng bình phương tới đường thẳng là nhỏ
nhất (tối thiểu)
08/02/15 13
Làm thế nào để xây dựng đường hồi quy
Chiều cao FEV1
154.0 3.54
157.0 3.54
160.4 3.19
161.2 2.85
161.2 3.42
161.3 3.20
162.0 3.60
Biến độc lập x
Biến phụ thuộc y
Đường hồi quy:
y = a + bx
Hệ số
a = ?, b = ?
08/02/15 14
Tính hệ số hồi quy
∑
∑
∑
∑ ∑
∑
∑
=
=
=
= =
=
=
−
−
=
−
−−
=
n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
i
i
n
i
ii
n
x
x
n
yx
yx
xx
yyxx
b
1
1
2
2
1
1 1
1
2
1
)(
))((
)(
))((
xbya
−=
08/02/15 15
Ví dụ
•
Đường hồi quy mô tả mối quan hệ giữa
FEV và chiều cao sẽ là:
FEV=-8,45 + 0,0744*chiều cao
FEV=-8,45 + 0,0744*chiều cao
Đây là giá trị độ dốc, phiên giải:
Với mỗi cm cao lên thì FEV1 sẽ tăng 0,0744 lít
08/02/15 16
Ví dụ
•
Đường hồi quy mô tả mối quan hệ giữa tuổi
thai và trọng lượng sơ sinh
TLSS = -4865.245 + 206.641 x tuổi thai (tính
theo tuần).
Phiên giải?
08/02/15 17
Đánh giá đường hồi quy
•
Vấn đề:
–
Phương pháp bình phương tối thiểu sẽ cho chúng ta
đường hồi qui kể cả khi không có mối quan hệ tuyến
tính giữa x và y
•
Như vậy:
–
Chúng ta cần phải đánh giá xem đường hồi qui có
phải là tốt nhất hay không?
–
Chúng ta đánh giá độ dốc (slope) của đường hồi qui
(ít khi đánh giá điểm cắt – Intercept)
08/02/15 18
Đánh giá độ dốc
–
Khi không có mối quan hệ tuyến tính giữa
hai biến, đường hồi qui sẽ nằm ngang
các giá tr (x) khác nhau cho ị
k t qu khác nhau (y)ế ả ở
đ d c ộ ố β khác không (0)
Kh. Có mối quan hệ tuyến tính
các giá trị (x) khác nhau cho kết
quả không khác nhau ở (y)
đ d c ộ ố β b ng không (0)ằ
Có m i quan h tuy n tínhố ệ ế
08/02/15 19
•
Chúng ta có thể suy luận β
từ b
bằng cách kiểm
định:
H
0
: β = 0
H
1
: β
≠ 0 (or < 0,or > 0)
–
Nếu sai số có phân bố chuẩn thì thống kê này sẽ có
phân bố t-student với df=n-2
b
s
b
t
β
−
=
sai s chu n c a b.ố ẩ ủ
∑
−
=
2
2
)( xx
s
s
i
b
trong đó
Kiểm định độ dốc
( )
∑∑
−−−
−
=
2222
)()(
2
1
xxbyy
n
s
ii
08/02/15 20
•
Như vậy:
•
b=0,0744
•
s
b
=0,025
•
Tra bảng t với bậc tự do n-2=20-2=18
•
Kết luận: độ dốc đường hồi qui khác 0 có ý
nghĩa TK, đường hồi qui là mô tả tốt nhất.
031,3
025
00744,0
=
−
=
−
=
.
s
b
t
b
β
Tính toán
08/02/15 21
Ví dụ 1
Trong 1 NC về cao huyết áp, số liệu cân nặng (X) và
cholesterol (Y) của 15 người thu được như sau
Xây dựng phương trình hồi quy mô tả mối liên quan giữa
2 biến số này
Đường hồi quy này có ý nghĩa hay không? (Kiểm định độ
dốc)
08/02/15 22
Hướng dẫn cách làm
Công thức
∑
∑
∑
∑ ∑
∑
∑
=
=
=
= =
=
=
−
−
=
−
−−
=
n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
i
i
n
i
ii
n
x
x
n
yx
yx
xx
yyxx
b
1
1
2
2
1
1 1
1
2
1
)(
))((
)(
))((
∑
−
=
2
2
)( xx
s
s
i
b
( )
∑∑
−−−
−
=
2222
)()(
2
1
xxbyy
n
s
ii
08/02/15 23
Lập bảng số liệu tính theo công thức
08/02/15 24
Kết quả
08/02/15 25
Hệ số tương quan
•
Hệ số tương quan
•
Tính chất
–
Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
–
Hệ số tương quan r dương chứng tỏ hai biến số là đồng
biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch
biến.
–
Nếu r=0 (hay r < 0,1) , không có mối liên hệ tuyến tính giữa
hai biến số. Nếu r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến
0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh.
–
Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên
quan giữa hai biến số.
–
R
2
nói lên tỉ lệ sự biến thiên của biến số phụ thuộc được giải
thích bởi biến số độc lập
1
/)(
)()(
))((
22
−
×
×
×−Σ
=
−−
−−
=
∑ ∑
∑
n
n
ss
yxnxy
yyxx
yyxx
r
yx
ii
ii