11/18/2011
Nội dung
1. PHÂN TÍCH HỒI QUY
1.
2.
3.
4.
Hồi quy đơn (Simple linear regression)
Hồi quy bội (Multiple regression)
Hồi quy đa thức (Polynomial regression)
Xây dựng mô hình tuyến tính từ nhiều biến
2. PHÂN TÍCH TƯƠNG QUAN
1. Hệ số tương quan (Correlation coefficient)
2. Biểu đồ tương quan
18/11/2011
Biostatistics - Bùi Tấn Anh
PHÂN TÍCH HỒI QUY
Hồi quy đơn (Simple linear regression)
• Khái niệm:
• Hàm hồi quy:
– Phân tích hồi qui là nghiên cứu sự phụ thuộc của
một biến (biến phụ thuộc) vào một hay nhiều biến
khác (biến độc lập)
y = 0 + 1 x
trong đó
– b0 (intercept) được gọi là tung độ góc = hệ số chặn
(giá trị lúc xi = 0)
– b1 (slope) được gọi là độ dốc
– x là biến độc lập (còn gọi là predictors)
– y là biến phụ thuộc (còn gọi là response).
• Mục đích:
– ước lượng (hay dự đoán) giá trị trung bình của
biến phụ thuộc trên cơ sở các giá trị đã biết của
biến độc lập.
18/11/2011
Biostatistics - Bùi Tấn Anh
2
3
Hồi quy đơn (Simple linear regression)
18/11/2011
Biostatistics - Bùi Tấn Anh
4
Hồi quy đơn (Simple linear regression)
• Các tham số 0 và 1 có thể được ước lượng từ
hai điểm bất kỳ, chẳng hạn (x1, y1) và (x2, y2):
1
y2 y1
x2 x1
và
0 y1 1 x1 y2 1 x2
18/11/2011
Biostatistics - Bùi Tấn Anh
5
18/11/2011
Biostatistics - Bùi Tấn Anh
6
1
11/18/2011
Hồi quy đơn (Simple linear regression)
Hồi quy đơn (Simple linear regression)
• Thí dụ: trọng lượng (kg) và tuổi (tháng) của 7
con bê
• Biểu đồ phân tán (scatter plot) cho thấy giữa
trọng lượng và tuổi có mối tương quan tuyến
tính dương.
Tuổi (x)
0
2
3
4
6
8
12
18/11/2011
Trọng lượng (y)
18
32
64
45
91
127
164
Biostatistics - Bùi Tấn Anh
7
18/11/2011
Biostatistics - Bùi Tấn Anh
Hồi quy đơn (Simple linear regression)
Hồi quy đơn (Simple linear regression)
• Mô hình:
yi
= 0
Trọng lượng = 0
• Các giả định (Assumptions):
Dữ liệu
+
+
1xi
+
1*Tuổi +
= [Thành phần tuyến tính] +
– dữ liệu có phân bố chuẩn
– phương sai không đổi (s2)
– mô hình tuyến tính là đúng:
ei
ei
[Sai số]
yi ~ N( 0 + 1 xi , s2) hoặc ei ~ N(0, s2)
• Như vậy với mỗi giá trị xác định của x, y sẽ có
phân bố chuẩn với:
• trong đó các dữ liệu có dạng
(x1, y1), (x2, y2), ..., (xn, yn).
18/11/2011
Biostatistics - Bùi Tấn Anh
8
– trung bình là 0 + 1xi
– phương sai là s2.
9
Hồi quy đơn (Simple linear regression)
18/11/2011
Biostatistics - Bùi Tấn Anh
10
Ước lượng các tham số
• Nếu gọi ước lượng của 0 là b0 và ước lượng của
1 là b1 thì mô hình hiệu chỉnh sẽ là:
yˆ i b0 b1 xi
• Sai số là:
resi yi yˆi yi b0 b1 xi
• Phương pháp thường dùng nhất là chọn các giá trị
của b0 và b1 sao cho tổng bình phương sai số
(SSE) là nhỏ nhất. Phương pháp này được gọi là
ước lượng bình phương tối thiểu (least square
estimates)
18/11/2011
Biostatistics - Bùi Tấn Anh
11
18/11/2011
Biostatistics - Bùi Tấn Anh
12
2
11/18/2011
Ước lượng các tham số
Ước lượng b0 và b1
y
n
y5
res5
i 1
res4
y1
i 1
i 1
( x x )( y y )
y4
i
b1
i
i 1
n
(x x )
res2
res1
n
• Để tổng bình phương sai số là nhỏ nhất, ta
n
chọn:
y3
res3
n
SSE resi2 ( yi yˆi )2 ( yi b0 b1 xi )2
2
i
i 1
y2
và
b0 y b1 x
x
18/11/2011
Biostatistics - Bùi Tấn Anh
13
Ước lượng b0 và b1
Tuổi (xi) Trọng lượng (yi)
0
18
2
32
3
64
4
45
6
91
8
127
12
164
35
541
X i xi x
Yi yi y
X i2
–5
–3
–2
–1
1
3
7
0
–59.29
–45.29
–13.29
–32.29
13.71
49.71
86.71
0.00
25
9
4
1
1
9
49
98
Yi 2
X iYi
3,514.80 296.43
2,050.80 135.86
176.51
26.57
1,042.37
32.29
188.08
13.71
2,471.51 149.14
7,519.37 607.00
16,963.43 1,261.00
b1 = 1261/98 = 12.867
b0 = 77.286 – 12.867*5.00 = 12.94
18/11/2011
Biostatistics - Bùi Tấn Anh
14
Ước lượng b0 và b1
y 77.286
x 5.00
18/11/2011
Biostatistics - Bùi Tấn Anh
15
• Phương trình hồi quy:
yˆ 12.95 12.87 x
• Tung độ góc: b0 = 12.95 (khi x = 0)
• Độ dốc:
b1 = 12.87
• Giá trị hiệu chỉnh là trọng lượng trung bình của
bê được ước lượng cho một độ tuổi nhất định.
• Thí dụ: một con bê 10 tháng tuổi sẽ có trọng
lượng trung bình được ước lượng là:
12.95 + 12.87*10 = 141.62 kg.
18/11/2011
Biostatistics - Bùi Tấn Anh
16
Ước lượng s2
Kiểm định giả thuyết
• Ước lượng của s2 là s2 ( sY2. X )
s2 = SSE/(n-2)
• Tung độ góc (Intercept)
H0 : b 0 = 0
(đường thẳng hồi quy đi qua trục tung)
H1 : b 0 ≠ 0
• Độ dốc (Slope)
H0 : b 1 = 0
(không có tương quan tuyến tính)
H1 : b 1 ≠ 0
n
( y yˆ )
i
=
2
i
i 1
n2
• Trong thí dụ trên: s2 = 737.70/5 = 147.54
và s = 12.15 kg
18/11/2011
Biostatistics - Bùi Tấn Anh
17
18/11/2011
Biostatistics - Bùi Tấn Anh
18
3
11/18/2011
Kiểm định tung độ góc
t
• Trong thí dụ trên:
b0
se(b0 )
se(b0 ) 12.15*
df = n – 2
n
i 1
n
i 1
18/11/2011
• t = 12.95/7.66 = 1.69 với df = 7 – 2 = 5
• P-value: P = 2*P (T5 > 1.69) = 0.15 > 0.05
Không thể bác bỏ H0 đường thẳng hồi quy
đi qua trục tung.
2
i
x
n ( x x )
se (b0 ) s *
273
7.66
7*98
2
i
Biostatistics - Bùi Tấn Anh
19
18/11/2011
Biostatistics - Bùi Tấn Anh
20
Kiểm định độ dốc
• Trong thí dụ trên:
b
t 1
se(b1 )
se (b1 )
df = n – 2
se(b1 )
• t = 12.87/1.23 = 10.49 với df = 7 – 2 = 5
• P-value: P = 2*P (T5 > 10.49) = 0.00 < 0.05
Bác bỏ H0 trọng lượng bê tăng có ý nghĩa
theo độ tuổi.
s
n
i 1
( xi x ) 2
18/11/2011
Biostatistics - Bùi Tấn Anh
21
Bảng ANOVA
18/11/2011
Biostatistics - Bùi Tấn Anh
22
Bảng ANOVA
Nguồn
Tổng
Độ tự do
biến động Bình phương
Regression
SSR
1
Residual
SSE
n–2
Total
SST
n–1
18/11/2011
12.15
1.23
98
Biostatistics - Bùi Tấn Anh
• Trong thí dụ trên
Trung bình
Bình phương
MSR = SSR
MSE = SSE/(n – 2)
23
Nguồn
biến động
Regression
Residual
Total
18/11/2011
Tổng
Bình phương
16,226
738
16,964
Độ tự do
Biostatistics - Bùi Tấn Anh
1
5
6
Trung bình
Bình phương
16,226
147.5
24
4
11/18/2011
Áp dụng Minitab
Bảng ANOVA
• Nhập liệu:
• Trong hồi quy tuyến tính đơn, có một mối liên
hệ giữa t-test và F-test:
t2 = F
• Tỉ lệ của biến thiên được giải thích bởi mô
hình:
R2
18/11/2011
Regression SS SSR
Total SS
SST
Biostatistics - Bùi Tấn Anh
25
Phân tích
18/11/2011
Biostatistics - Bùi Tấn Anh
26
Biostatistics - Bùi Tấn Anh
28
Phân tích
1
2
18/11/2011
3
Biostatistics - Bùi Tấn Anh
27
Kết quả
18/11/2011
Giải thích
• s = 12.1466 là sai số chuẩn của ước lượng
(standard error of estimate
s=
18/11/2011
Biostatistics - Bùi Tấn Anh
29
18/11/2011
SSE
n-2
Biostatistics - Bùi Tấn Anh
30
5
11/18/2011
Giải thích
Giải thích
• Phương trình hồi qui đơn là :
y (trọng lượng) = 12.949 + 12.867 x (độ tuổi)
• Tỉ lệ của biến động chung của trọng lượng
theo độ tuổi là:
R-sq = RSS / TSS = 16226 / 16963 = 0.957
= 95.7%
được gọi là hệ số xác định R2 (coefficient of
determination)
• R2 = 95.7%, có nghĩa là phương trình tuyến
tính giải thích khoảng 96% các khác biệt về
trọng lượng giữa các độ tuổi.
• Trị số R2 có giá trị từ 0 đến 100% (hay 1).
• R2 càng cao là một dấu hiệu cho thấy mối liên
hệ giữa hai biến số độ tuổi và trọng lượng càng
chặt chẽ.
18/11/2011
Biostatistics - Bùi Tấn Anh
31
18/11/2011
Biostatistics - Bùi Tấn Anh
32
Biostatistics - Bùi Tấn Anh
34
Biostatistics - Bùi Tấn Anh
36
Biểu đồ
Giải thích
• R-sq (adj) = Adjusted R squared = hệ số xác
định hiệu chỉnh. Đây là hệ số cho ta biết mức
độ cải tiến của phương sai sai số (residual
variance) do yếu tố độ tuổi có mặt trong mô
hình tuyến tính.
n 1
R-sq(adj) = 1 (1 R 2 )
n
1 k
18/11/2011
Biostatistics - Bùi Tấn Anh
33
Biểu đồ
18/11/2011
18/11/2011
Biểu đồ
Biostatistics - Bùi Tấn Anh
35
18/11/2011
6
11/18/2011
Biểu đồ
Thí dụ 2
• Khi nuôi loài bọ cánh cứng Tribolium
confusum ở môi trường có độ ẩm khác nhau,
người ta nhận thấy trọng lượng chúng bị giảm
do sự mất nước.
• 25 con bọ được chia thành 9 nhóm. Lượng
nước bị mất (mg) được ghi nhận ở mỗi nhóm
sau 6 tuần nuôi (không cho ăn) như bảng bên
dưới.
• Liệu sự mất nước có liên quan gì đến độ ẩm
môi trường hay không?
18/11/2011
Biostatistics - Bùi Tấn Anh
37
18/11/2011
Biostatistics - Bùi Tấn Anh
38
Biostatistics - Bùi Tấn Anh
40
Biểu đồ
độ ẩm tương đối
0
12
29.5
43
53
62.5
75.5
85
93
18/11/2011
Giảm trọng
8.89
8.14
6.67
6.08
5.90
5.83
4.68
4.20
3.72
Biostatistics - Bùi Tấn Anh
39
18/11/2011
Kết quả phân tích hồi qui
Hồi qui bội
Predictor
Constant
X
• Phương trình hồi qui:
Ŷ = a + b1x1 + b2x2 + ... + bk xk + ei
• Các hệ số b1, b2, ... bk trong phương trình hồi
quy bội được gọi là độ dốc từng phần
(partial slope).
Coef
SE Coef
T
P
8.6665 0.1844
46.99 0.000
-0.052676 0.003135 -16.80 0.000
S = 0.285635 R-Sq = 97.6% R-Sq(adj) = 97.2%
• Dựa trên các kết quả thu được sau khi phân tích hãy
thiết lập phương trình hồi quy, rút ra các nhận xét và
kết luận. Từ phương trình hồi quy, hãy ước lượng
xem bọ sẽ bị mất bao nhiêu mg khi độ ẩm tương đối
là 50%.
18/11/2011
Biostatistics - Bùi Tấn Anh
41
18/11/2011
Biostatistics - Bùi Tấn Anh
42
7
11/18/2011
Hồi qui bội
Thí dụ 1:
• Bảng dưới đây là kết quả nghiên cứu của một
nhà hoá học về sự giảm khối lượng (y) của một
hợp chất theo thời gian tiếp xúc với không khí
(x1) và độ ẩm của môi trường (x2).
18/11/2011
Biostatistics - Bùi Tấn Anh
43
Sự giảm khối lượng (pound) Thời gian (giờ) Độ ẩm tương đối
4.3
4
0.2
5.5
5
0.2
6.8
6
0.2
8.0
7
0.2
4.0
4
0.3
5.2
5
0.3
6.6
6
0.3
7.5
7
0.3
2.0
4
0.4
4.0
5
0.4
5.7
6
0.4
6.5
7
0.4
18/11/2011
Biostatistics - Bùi Tấn Anh
44
Kết quả phân tích bằng Minitab
Kết quả phân tích bằng Minitab
• The regression equation is
Khối lượng = 0.667 + 1.32 Thời gian - 8.00 Độ ẩm
• Hãy dự đoán xem khối lượng của hợp chất bị
giảm bao nhiêu khi thời gian tiếp xúc với
không khí là 6.5 giờ và độ ẩm tương đối của
môi trường là 0.35.
Predictor Coef
Constant 0.6667
Thời gian 1.31667
Độ ẩm
-8.000
SE Coef
T
0.6942
0.96
0.09981 13.19
1.367
-5.85
P
0.362
0.000
0.000
S = 0.386580 R-Sq = 95.9% R-Sq(adj) = 94.9%
18/11/2011
Biostatistics - Bùi Tấn Anh
45
18/11/2011
Biostatistics - Bùi Tấn Anh
46
Thí dụ 2
Heat
• Dưới đây là kết quả nghiên cứu của Woods,
Steinour & Starke về lượng nhiệt phát ra khi
cho tác dụng giữa bột hàn răng với bốn loại
hóa chất:
78.5
104.3
95.9
102.7
93.1
113.3
74.3
87.6
109.2
72.5
115.9
83.8
109.4
– X1 = tricalcium aluminate
– X2 = tricalcium silicate
– X3 = tetracalcium aluminoferrite
– X4 = beta-dicalcium silicate
18/11/2011
Biostatistics - Bùi Tấn Anh
47
18/11/2011
X1
X2
7
11
7
3
2
11
1
11
11
1
21
1
10
X3
26
56
52
71
54
66
29
31
55
31
47
40
68
Biostatistics - Bùi Tấn Anh
X4
6
8
6
17
18
9
15
8
9
22
4
23
8
60
20
33
6
22
12
52
47
22
44
26
34
12
48
8
11/18/2011
Hồi qui đa thức
Hồi qui đa thức bậc 2
• Phương trình hồi qui:
Ŷ = a + bX + cX2 + dX3 + ...
• Khi X và Y có mối liên hệ phụ thuộc bậc 2:
Ŷ = a + bX + cX2
• Khi X và Y có mối liên hệ phụ thuộc bậc 3:
Ŷ = a + bX + cX2 + dX3
• Để nghiên cứu về khả năng sinh sản của châu
chấu, một nhà côn trùng học thí nghiệm trên
một mẫu gồm 30 châu chấu cái. Chỉ tiêu
nghiên cứu là trọng lượng con cái (g) và số
lượng trứng do mỗi con đẻ ra.
• Dữ liệu được ghi nhận trong bảng sau:
18/11/2011
Biostatistics - Bùi Tấn Anh
49
18/11/2011
Biostatistics - Bùi Tấn Anh
50
Hồi qui đa thức bậc 3
SL trứng TL con cái
27
2.1
32
2.3
39
2.4
48
2.5
59
2.9
67
3.1
71
3.2
65
3.3
73
3.4
67
3.4
78
3.5
72
3.5
81
3.5
74
3.6
83
3.6
18/11/2011
Mẫu Hàm lượng gỗ cứng (x) Độ căng (y)
6.3
1.0
1
11.1
1.5
2
20.0
2.0
3
24.0
3.0
4
26.1
4.0
5
30.0
4.5
6
33.8
5.0
7
34.0
5.5
8
38.1
6.0
9
39.9
6.5
10
42.0
7.0
11
46.1
8.0
12
53.1
9.0
13
52.0
10.0
14
52.5
11.0
15
48.0
12.0
16
42.8
13.0
17
27.8
14.0
18
21.9
15.0
19
SL trứng TL con cái
75
3.6
84
3.6
77
3.7
83
3.7
76
3.7
82
3.8
75
3.9
78
4
77
4.3
75
4.4
73
4.7
71
4.8
70
4.9
68
5
65
5.1
Biostatistics - Bùi Tấn Anh
51
18/11/2011
Biostatistics - Bùi Tấn Anh
Hồi quy phi tuyến (Nonlinear Regression)
Hồi quy phi tuyến (Nonlinear Regression)
• Ngoài các dạng hồi quy tuyến tính như đã trình
bày ở trên, trong thực tế nghiên cứu ta còn gặp
phải nhiều dạng liên hệ phi tuyến.
• Trong trường hợp này, trước tiên ta phải
chuyển chúng thành các dạng liên hệ tuyến
tính để phân tích và tính các hệ số.
• Trong một số trường hợp sau đó phải chuyển
về biến số thực để thiết lập phương trình hồi
quy phi tuyến chính tắc.
• Thí dụ: Y = a + ebX
• Có thể tuyến tính hóa bằng cách chuyển dạng
biến phụ thuộc Y thành Ln Y. Do đó phương
trình tuyến tính có dạng là:
Y' = a' + b X
18/11/2011
18/11/2011
Biostatistics - Bùi Tấn Anh
53
52
– trong đó Y' = Ln Y và a' = Ln a
Biostatistics - Bùi Tấn Anh
54
9
11/18/2011
Thí dụ
Tương quan giữa tỉ lệ triền quang và chỉ số diện tích lá.
X
75.0
72.0
42.0
29.0
27.0
10.0
9.0
5.0
2.0
2.0
1.0
0.9
• Tương quan giữa tỉ lệ triền quang (Y) và chỉ số
diện tích lá (X) ở giống lúa IR8 được ghi nhận
trong bảng dưới đây (theo Gomez, 1987)
18/11/2011
Biostatistics - Bùi Tấn Anh
55
18/11/2011
Y
1
1
2
3
3
5
6
7
9
10
10
12
Biostatistics - Bùi Tấn Anh
56
Regression Analysis: LnY versus X
• The regression equation is
LnY = 4.46 - 0.403 X
• Từ kết quả trên ta có
a = 4.45789
b = -0.40342
• Dùng các kết quả này để lập phương trình phi
tuyến chính tắc
Predictor
Coef
SE Coef
T
P
Constant 4.45789 0.07817 57.03 0.000
X
-0.40342 0.01153 - 34.99 0.000
S = 0.152682 R-Sq = 99.2% R-Sq(adj) = 99.1%
18/11/2011
Biostatistics - Bùi Tấn Anh
57
18/11/2011
Biostatistics - Bùi Tấn Anh
58
Phân tích tương quan
• Hệ số tương quan (correlation coefficient)
được dùng để đo mức độ liên hệ tuyến tính
giữa hai biến.
• Hệ số tương quan (HSTQ) có thể có giá trị
nằm giữa -1 và +1.
• Nếu một biến có xu hướng tăng trong khi biến
kia lại giảm thì HSTQ có giá trị âm. Ngược lại
nếu cả hai biến cùng tăng thì HSTQ có giá trị
dương.
Fitted Line Plot
Y = 89.6025 * exp(-0.403 * X)
80
70
60
Y
50
40
30
20
10
0
0
2
4
6
8
10
12
X
18/11/2011
Biostatistics - Bùi Tấn Anh
59
18/11/2011
Biostatistics - Bùi Tấn Anh
60
10
11/18/2011
Hệ số tương quan (r)
Biểu đồ tương quan
• Stat > Basic Statistics > Correlation...
• r = 0 không có mối tương quan tuyến tính
giữa x và y.
• r = +1 hoặc –1 tương quan hoàn hảo
đường thẳng
• r gần = +1 hoặc –1 cho thấy tương quan rất
chặt.
• Tổng quát: Tương quan rất chặt khi r > 0. 7
hoặc < –0.7.
18/11/2011
Biostatistics - Bùi Tấn Anh
61
18/11/2011
Biostatistics - Bùi Tấn Anh
62
11