Tương quan &
Hồi quy tuyến tính
Ðỗ Dũng - Tương quan & Hồi quy
1
Thể tích huyết tương và trọng lượng cơ
thể ở 8 người đàn ông khỏe mạnh
Ðối tượng
trọng lượng cơ thể (kg) Thể tích huyết tương (lít)
1
58,0
2,75
2
70,0
2,86
3
74,0
3,37
4
63,5
2,76
5
62,0
2,62
6
70,5
3,49
7
71,0
3,05
8
66,0
3,12
x=66.875 ; s=5.417
x =3.003 ; s=0.311
Ðỗ Dũng - Tương q
2
201.912
Phi tham số - Phân tích đa biến – Biến sống còn
Chọn lựa kiểm định phù hợp
Biến phụ thuộc
(hậu quả)
Biến độc lập (nguyên nhân)
Nhị giá
Danh định
Thứ tự -Định lượng
Đa biến
Định lượng
T-test
ANOVA
Hồi quy tuyến tính
Thứ tự
MannWhitney
Kruskal-Wallis
TQ Spearman
Nhị giá
Chi bình
Chi bình
phương (cc, phương
cs, ir)
Sống còn
Ðỗ Dũng -
Wilcoxon
tổng
Tương q quát
Logrank
Wilcoxon tổng
quát
Logrank
Hồi quy logistic
Hồi quy Poisson
Hồi quy Cox
3
Phân loại biến số
Theo giá trị của biến số
Ðịnh tính: Nhị giá, Danh định, Thứ tự
Ðịnh lượng
Theo quan hệ của biến số
Biến số giải thích (độc lập)
Biến số đáp ứng (phụ thuộc)
Biến số gây nhiễu
Ðỗ Dũng - Tương q
4
Liên hệ giữa hai biến số
định tính - định tính
Chi bình phương
z-test (biến số nhị giá)
định tính - định lượng
Biến định lượng ~ N và phương sai đồng nhất
Anova
t-test (biến định tính là nhị giá)
T-test với phương sai khơng đồng nhất (biến số định tính là
nhị giá – cịn gọi là z-test khi cỡ mẫu lớn)
định lượng - định lượng
Tương quan và hồi quy
Ðỗ Dũng - Tương q
5
Phân tán đồ của thể tích huyết tương và trọng lượng
cơ thể cùng với đườ hồi quy tuyến tính
ng
Ðỗ Dũng - Tương q
6
Ðỗ Dũng - Tương q
7
–
–
–
–
–
–
(a) Khơng tương quan
–
–
–
(c) tương quan dương khơng hồn tồn
–
–
–
(eTương quan âm khơng hồn tồn
Ðỗ Dũng - Tương q
–
(d tương quan dưong hoàn toàn
)
–
(f tương quan âm hoàn toàn
)
8
Hệ số tương quan
(coefficient correlation)
Hệ số tương quan
r=
∑ ( x − x )( y − y )
∑ (x − x) ∑ ( y − y)
i
2
i
i
i
2
=
(Σxy ) / n − x × y
n
×
sx × s y
n −1
Tính chất
Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số
tương quan r âm chứng tỏ hai biến số là nghịch biến.
R2 nói lên tỉ lệ sự biến thiên của biến số phụ thuộc được giải thích
bởi biến số độc lập
Nếu r=0 (hay r < 0,1) , khơng có mối liên hệ tuyến tính giữa hai
biến số. Nếu r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ
trung bình và trên 0,5 là quan hệ mạnh.
Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan
giữa hai biến số.
Ðỗ Dũng - Tương q
9
Ðỗ Dũng - Tương q
10
Ðỗ Dũng - Tương q
11
Ðỗ Dũng - Tương q
12
Tương quan giữa trọng lượng cơ thể và
thể tích huyết tương là thuận hay
nghịch?
Trọng lượng cơ thể giải thích cho bao
nhiêu phần của sự thay đổi của thể tích
huyết tương?
0.57623281
Ðỗ Dũng - Tương q
13
Tính hệ số tương quan với
calculator
Vào chế độ hồi quy:
Xóa thống kê cũ: Shift – Mode 1- =
Nhập từng cặp số liệu
x , y M+
X, y M+
Shift – 2
Mode – 3 (reg) – 1 (linear)
Dùng mũi tên qua phải để chuyển đến r
Nhấn 3 (chọn r) và dấu = để xem
Với máy tính khơng có khả năng tính hệ số tương
quan theo hướng dẫn ở trang 124 (cơng thức cũng
có ở trang 171)
Ðỗ Dũng - Tương q
14
Kiểm định hệ số tương quan
Giả thuyết Ho: hệ số tương quan = 0
Kiểm định t với n-2 độ tự do
S.E.(r) = √ [ (1-r2)/(n-2) ] =0,265
t=
r
1− r 2
n−2
=
0,76
= 2,87, d . f . = n − 2
0,265
Tính giá trị p: 0,02
Kết luận: Có sự tương quan giữa thể tích huyết tương
và trọng lượng cơ thể với r=0,7591 (giá trị p=0,028)
Ðỗ Dũng - Tương q
15
Hồi quy tuyến tính
Phương trình mơ tả sự biến thiên của y theo x
y = a + bx
Cực tiểu hoá bình phương khoảng cách từ giá trị
quan sát đến số liệu của đường thẳng
sy
Σ( x − x )( y − y ) Sxy
b=
=
=r
2
Σ( x − x )
Sxx
sx
a = y - bx
Ðỗ Dũng - Tương q
16
Ðỗ Dũng - Tương q
17
Phương trình hồi quy
Y= a + bx
Y: biến số phụ thuộc (định lượng)
X: biến số độc lập (định lượng)
A: hằng số - constant (điểm chặn)
B: hệ số - coefficient (hệ số góc)
Hệ số:
khi biến độc lập thay đổi một đơn vị thì
biến phụ thuộc thay đổi như thế nào
Ðỗ Dũng - Tương q
18
SS: sum of square –
tổng bình phương
sai lệch
df: degree of freedom
Độ tự do
MS: Mean of square: trung
bình bình phương
Source |
SS
df
MS
-------------+-----------------------------Model | .390684335
1 .390684335
Residual | .287265681
6 .047877614
-------------+-----------------------------Total | .677950016
7 .096850002
Number of obs
F( 1,
6)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
8
8.16
0.0289
0.5763
0.5057
.21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------weight |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
.0857244
1.023998
0.08
0.936
-2.419909
2.591358
------------------------------------------------------------------------------
Cons: Hằng số
R=0,7591
Ðỗ Dũng - Tương q
Coef: hệ số
19
SS: sum of square –
tổng bình phương
sai lệch
Source |
SS
df
MS
-------------+-----------------------------Model | .390684335
1 .390684335
Residual | .287265681
6 .047877614
-------------+-----------------------------Total | .677950016
7 .096850002
df: Độ tự do
MS: Mean of square: trung
Number of obs =
8
bình bình 6) =
phương
F( 1,
8.16
Prob > F
= 0.0289
R-squared
= 0.5763
Adj R-squared = 0.5057
Root MSE
= .21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------weight |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
.0857244
1.023998
0.08
0.936
-2.419909
2.591358
------------------------------------------------------------------------------
Plasma vol= .0857244 + .0436153 * weight
R=0,7591
Ðỗ Dũng - Tương q
20
Tổng bình phương các đoạn
thẳng màu đỏ là SS total
Ðỗ Dũng - Tương q
21
Tổng bình phương các đoạn màu
xanh là SS residual
Ðỗ Dũng - Tương q
22
Tổng bình phương các đoạn thẳng
màu đỏ là SS total
Tổng bình phương các đoạn màu
xanh là SS residual
Ðỗ Dũng - Tương q
23
SS: sum of square –
tổng bình phương
sai lệch
Source |
SS
df
MS
-------------+-----------------------------Model | .390684335
1 .390684335
Residual | .287265681
6 .047877614
-------------+-----------------------------Total | .677950016
7 .096850002
df: Độ tự do
MS: Mean of square: trung
Number of obs =
8
bình bình 6) =
phương
F( 1,
8.16
Prob > F
= 0.0289
R-squared
= 0.5763
Adj R-squared = 0.5057
Root MSE
= .21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------weight |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
.0857244
1.023998
0.08
0.936
-2.419909
2.591358
------------------------------------------------------------------------------
R=0,7591
Ðỗ Dũng - Tương q
24
SS: sum of square –
tổng bình phương
sai lệch
. regress plasma weight
Source |
SS
df
MS
-------------+-----------------------------Model | .390684335
1 .390684335
Residual | .287265681
6 .047877614
-------------+-----------------------------Total | .677950016
7 .096850002
df: Độ tự do
MS: Mean of square: trung
bình bình phương
Number of obs
F( 1,
6)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
8
8.16
0.0289
0.5763
0.5057
.21881
-----------------------------------------------------------------------------plasma |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------weight |
.0436153
.0152684
2.86
0.029
.006255
.0809757
_cons |
.0857244
1.023998
0.08
0.936
-2.419909
2.591358
------------------------------------------------------------------------------
R=0,7591
Ðỗ Dũng - Tương q
25