Tải bản đầy đủ (.pdf) (11 trang)

Chương 6 Thống kê sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (677.17 KB, 11 trang )

11/18/2011

Nội dung
1. PHÂN TÍCH HỒI QUY
1.
2.
3.
4.

Hồi quy đơn (Simple linear regression)
Hồi quy bội (Multiple regression)
Hồi quy đa thức (Polynomial regression)
Xây dựng mô hình tuyến tính từ nhiều biến

2. PHÂN TÍCH TƯƠNG QUAN
1. Hệ số tương quan (Correlation coefficient)
2. Biểu đồ tương quan

18/11/2011

Biostatistics - Bùi Tấn Anh

PHÂN TÍCH HỒI QUY

Hồi quy đơn (Simple linear regression)

• Khái niệm:

• Hàm hồi quy:

– Phân tích hồi qui là nghiên cứu sự phụ thuộc của


một biến (biến phụ thuộc) vào một hay nhiều biến
khác (biến độc lập)

y = 0 + 1 x
trong đó
– b0 (intercept) được gọi là tung độ góc = hệ số chặn
(giá trị lúc xi = 0)
– b1 (slope) được gọi là độ dốc
– x là biến độc lập (còn gọi là predictors)
– y là biến phụ thuộc (còn gọi là response).

• Mục đích:
– ước lượng (hay dự đoán) giá trị trung bình của
biến phụ thuộc trên cơ sở các giá trị đã biết của
biến độc lập.

18/11/2011

Biostatistics - Bùi Tấn Anh

2

3

Hồi quy đơn (Simple linear regression)

18/11/2011

Biostatistics - Bùi Tấn Anh


4

Hồi quy đơn (Simple linear regression)
• Các tham số  0 và  1 có thể được ước lượng từ
hai điểm bất kỳ, chẳng hạn (x1, y1) và (x2, y2):
1 

y2  y1
x2  x1


 0  y1  1 x1  y2  1 x2

18/11/2011

Biostatistics - Bùi Tấn Anh

5

18/11/2011

Biostatistics - Bùi Tấn Anh

6

1


11/18/2011


Hồi quy đơn (Simple linear regression)

Hồi quy đơn (Simple linear regression)

• Thí dụ: trọng lượng (kg) và tuổi (tháng) của 7
con bê

• Biểu đồ phân tán (scatter plot) cho thấy giữa
trọng lượng và tuổi có mối tương quan tuyến
tính dương.

Tuổi (x)
0
2
3
4
6
8
12
18/11/2011

Trọng lượng (y)
18
32
64
45
91
127
164


Biostatistics - Bùi Tấn Anh

7

18/11/2011

Biostatistics - Bùi Tấn Anh

Hồi quy đơn (Simple linear regression)

Hồi quy đơn (Simple linear regression)

• Mô hình:
yi
= 0
Trọng lượng =  0

• Các giả định (Assumptions):

Dữ liệu

+
+

 1xi
+
 1*Tuổi +

= [Thành phần tuyến tính] +


– dữ liệu có phân bố chuẩn
– phương sai không đổi (s2)
– mô hình tuyến tính là đúng:

ei
ei
[Sai số]

yi ~ N( 0 +  1 xi , s2) hoặc ei ~ N(0, s2)
• Như vậy với mỗi giá trị xác định của x, y sẽ có
phân bố chuẩn với:

• trong đó các dữ liệu có dạng
(x1, y1), (x2, y2), ..., (xn, yn).

18/11/2011

Biostatistics - Bùi Tấn Anh

8

– trung bình là  0 +  1xi
– phương sai là s2.
9

Hồi quy đơn (Simple linear regression)

18/11/2011

Biostatistics - Bùi Tấn Anh


10

Ước lượng các tham số
• Nếu gọi ước lượng của 0 là b0 và ước lượng của
1 là b1 thì mô hình hiệu chỉnh sẽ là:
yˆ i  b0  b1 xi
• Sai số là:
resi  yi  yˆi  yi  b0  b1 xi
• Phương pháp thường dùng nhất là chọn các giá trị
của b0 và b1 sao cho tổng bình phương sai số
(SSE) là nhỏ nhất. Phương pháp này được gọi là
ước lượng bình phương tối thiểu (least square
estimates)

18/11/2011

Biostatistics - Bùi Tấn Anh

11

18/11/2011

Biostatistics - Bùi Tấn Anh

12

2



11/18/2011

Ước lượng các tham số

Ước lượng b0 và b1

y

n

y5
res5

i 1

res4

y1

i 1

i 1

 ( x  x )( y  y )

y4

i

b1 


i

i 1

n

 (x  x )

res2

res1

n

• Để tổng bình phương sai số là nhỏ nhất, ta
n
chọn:

y3
res3

n

SSE   resi2  ( yi  yˆi )2   ( yi  b0  b1 xi )2

2

i


i 1

y2



b0  y  b1 x

x
18/11/2011

Biostatistics - Bùi Tấn Anh

13

Ước lượng b0 và b1
Tuổi (xi) Trọng lượng (yi)
0
18
2
32
3
64
4
45
6
91
8
127
12

164
35
541

X i  xi  x

Yi  yi  y

X i2

–5
–3
–2
–1
1
3
7
0

–59.29
–45.29
–13.29
–32.29
13.71
49.71
86.71
0.00

25
9

4
1
1
9
49
98

Yi 2

X iYi

3,514.80 296.43
2,050.80 135.86
176.51
26.57
1,042.37
32.29
188.08
13.71
2,471.51 149.14
7,519.37 607.00
16,963.43 1,261.00

b1 = 1261/98 = 12.867
b0 = 77.286 – 12.867*5.00 = 12.94
18/11/2011

Biostatistics - Bùi Tấn Anh

14


Ước lượng b0 và b1

y  77.286

x  5.00

18/11/2011

Biostatistics - Bùi Tấn Anh

15

• Phương trình hồi quy:
yˆ  12.95  12.87 x
• Tung độ góc: b0 = 12.95 (khi x = 0)
• Độ dốc:
b1 = 12.87
• Giá trị hiệu chỉnh là trọng lượng trung bình của
bê được ước lượng cho một độ tuổi nhất định.
• Thí dụ: một con bê 10 tháng tuổi sẽ có trọng
lượng trung bình được ước lượng là:
12.95 + 12.87*10 = 141.62 kg.
18/11/2011

Biostatistics - Bùi Tấn Anh

16

Ước lượng s2


Kiểm định giả thuyết

• Ước lượng của s2 là s2 ( sY2. X )
s2 = SSE/(n-2)

• Tung độ góc (Intercept)
H0 : b 0 = 0
(đường thẳng hồi quy đi qua trục tung)
H1 : b 0 ≠ 0
• Độ dốc (Slope)
H0 : b 1 = 0
(không có tương quan tuyến tính)
H1 : b 1 ≠ 0

n

 ( y  yˆ )
i

=

2

i

i 1

n2


• Trong thí dụ trên: s2 = 737.70/5 = 147.54
và s = 12.15 kg
18/11/2011

Biostatistics - Bùi Tấn Anh

17

18/11/2011

Biostatistics - Bùi Tấn Anh

18

3


11/18/2011

Kiểm định tung độ góc
t

• Trong thí dụ trên:

b0
se(b0 )

se(b0 )  12.15*

df = n – 2

n

i 1

n

i 1

18/11/2011

• t = 12.95/7.66 = 1.69 với df = 7 – 2 = 5
• P-value: P = 2*P (T5 > 1.69) = 0.15 > 0.05
Không thể bác bỏ H0  đường thẳng hồi quy
đi qua trục tung.

2
i

 x
n ( x  x )

se (b0 )  s *

273
 7.66
7*98

2

i


Biostatistics - Bùi Tấn Anh

19

18/11/2011

Biostatistics - Bùi Tấn Anh

20

Kiểm định độ dốc
• Trong thí dụ trên:
b
t 1
se(b1 )

se (b1 ) 

df = n – 2

se(b1 ) 

• t = 12.87/1.23 = 10.49 với df = 7 – 2 = 5
• P-value: P = 2*P (T5 > 10.49) = 0.00 < 0.05
Bác bỏ H0  trọng lượng bê tăng có ý nghĩa
theo độ tuổi.

s




n
i 1

( xi  x ) 2

18/11/2011

Biostatistics - Bùi Tấn Anh

21

Bảng ANOVA

18/11/2011

Biostatistics - Bùi Tấn Anh

22

Bảng ANOVA

Nguồn
Tổng
Độ tự do
biến động Bình phương
Regression
SSR
1

Residual

SSE

n–2

Total

SST

n–1

18/11/2011

12.15
 1.23
98

Biostatistics - Bùi Tấn Anh

• Trong thí dụ trên

Trung bình
Bình phương
MSR = SSR
MSE = SSE/(n – 2)

23

Nguồn

biến động
Regression
Residual
Total

18/11/2011

Tổng
Bình phương
16,226
738
16,964

Độ tự do

Biostatistics - Bùi Tấn Anh

1
5
6

Trung bình
Bình phương
16,226
147.5

24

4



11/18/2011

Áp dụng Minitab

Bảng ANOVA

• Nhập liệu:

• Trong hồi quy tuyến tính đơn, có một mối liên
hệ giữa t-test và F-test:
t2 = F
• Tỉ lệ của biến thiên được giải thích bởi mô
hình:

R2 

18/11/2011

Regression SS SSR

Total SS
SST

Biostatistics - Bùi Tấn Anh

25

Phân tích


18/11/2011

Biostatistics - Bùi Tấn Anh

26

Biostatistics - Bùi Tấn Anh

28

Phân tích

1
2

18/11/2011

3

Biostatistics - Bùi Tấn Anh

27

Kết quả

18/11/2011

Giải thích
• s = 12.1466 là sai số chuẩn của ước lượng
(standard error of estimate


s=

18/11/2011

Biostatistics - Bùi Tấn Anh

29

18/11/2011

SSE
n-2

Biostatistics - Bùi Tấn Anh

30

5


11/18/2011

Giải thích

Giải thích

• Phương trình hồi qui đơn là :
y (trọng lượng) = 12.949 + 12.867 x (độ tuổi)
• Tỉ lệ của biến động chung của trọng lượng

theo độ tuổi là:
R-sq = RSS / TSS = 16226 / 16963 = 0.957
= 95.7%
được gọi là hệ số xác định R2 (coefficient of
determination)

• R2 = 95.7%, có nghĩa là phương trình tuyến
tính giải thích khoảng 96% các khác biệt về
trọng lượng giữa các độ tuổi.
• Trị số R2 có giá trị từ 0 đến 100% (hay 1).
• R2 càng cao là một dấu hiệu cho thấy mối liên
hệ giữa hai biến số độ tuổi và trọng lượng càng
chặt chẽ.

18/11/2011

Biostatistics - Bùi Tấn Anh

31

18/11/2011

Biostatistics - Bùi Tấn Anh

32

Biostatistics - Bùi Tấn Anh

34


Biostatistics - Bùi Tấn Anh

36

Biểu đồ

Giải thích
• R-sq (adj) = Adjusted R squared = hệ số xác
định hiệu chỉnh. Đây là hệ số cho ta biết mức
độ cải tiến của phương sai sai số (residual
variance) do yếu tố độ tuổi có mặt trong mô
hình tuyến tính.
n 1 

R-sq(adj) = 1   (1  R 2 )
n

1  k 


18/11/2011

Biostatistics - Bùi Tấn Anh

33

Biểu đồ

18/11/2011


18/11/2011

Biểu đồ

Biostatistics - Bùi Tấn Anh

35

18/11/2011

6


11/18/2011

Biểu đồ

Thí dụ 2
• Khi nuôi loài bọ cánh cứng Tribolium
confusum ở môi trường có độ ẩm khác nhau,
người ta nhận thấy trọng lượng chúng bị giảm
do sự mất nước.
• 25 con bọ được chia thành 9 nhóm. Lượng
nước bị mất (mg) được ghi nhận ở mỗi nhóm
sau 6 tuần nuôi (không cho ăn) như bảng bên
dưới.
• Liệu sự mất nước có liên quan gì đến độ ẩm
môi trường hay không?

18/11/2011


Biostatistics - Bùi Tấn Anh

37

18/11/2011

Biostatistics - Bùi Tấn Anh

38

Biostatistics - Bùi Tấn Anh

40

Biểu đồ
độ ẩm tương đối
0
12
29.5
43
53
62.5
75.5
85
93
18/11/2011

Giảm trọng
8.89

8.14
6.67
6.08
5.90
5.83
4.68
4.20
3.72

Biostatistics - Bùi Tấn Anh

39

18/11/2011

Kết quả phân tích hồi qui

Hồi qui bội

Predictor
Constant
X

• Phương trình hồi qui:
Ŷ = a + b1x1 + b2x2 + ... + bk xk + ei
• Các hệ số b1, b2, ... bk trong phương trình hồi
quy bội được gọi là độ dốc từng phần
(partial slope).

Coef

SE Coef
T
P
8.6665 0.1844
46.99 0.000
-0.052676 0.003135 -16.80 0.000

S = 0.285635 R-Sq = 97.6% R-Sq(adj) = 97.2%
• Dựa trên các kết quả thu được sau khi phân tích hãy
thiết lập phương trình hồi quy, rút ra các nhận xét và
kết luận. Từ phương trình hồi quy, hãy ước lượng
xem bọ sẽ bị mất bao nhiêu mg khi độ ẩm tương đối
là 50%.

18/11/2011

Biostatistics - Bùi Tấn Anh

41

18/11/2011

Biostatistics - Bùi Tấn Anh

42

7


11/18/2011


Hồi qui bội
Thí dụ 1:
• Bảng dưới đây là kết quả nghiên cứu của một
nhà hoá học về sự giảm khối lượng (y) của một
hợp chất theo thời gian tiếp xúc với không khí
(x1) và độ ẩm của môi trường (x2).

18/11/2011

Biostatistics - Bùi Tấn Anh

43

Sự giảm khối lượng (pound) Thời gian (giờ) Độ ẩm tương đối
4.3
4
0.2
5.5
5
0.2
6.8
6
0.2
8.0
7
0.2
4.0
4
0.3

5.2
5
0.3
6.6
6
0.3
7.5
7
0.3
2.0
4
0.4
4.0
5
0.4
5.7
6
0.4
6.5
7
0.4
18/11/2011

Biostatistics - Bùi Tấn Anh

44

Kết quả phân tích bằng Minitab

Kết quả phân tích bằng Minitab


• The regression equation is
Khối lượng = 0.667 + 1.32 Thời gian - 8.00 Độ ẩm

• Hãy dự đoán xem khối lượng của hợp chất bị
giảm bao nhiêu khi thời gian tiếp xúc với
không khí là 6.5 giờ và độ ẩm tương đối của
môi trường là 0.35.

Predictor Coef
Constant 0.6667
Thời gian 1.31667
Độ ẩm
-8.000

SE Coef
T
0.6942
0.96
0.09981 13.19
1.367
-5.85

P
0.362
0.000
0.000

S = 0.386580 R-Sq = 95.9% R-Sq(adj) = 94.9%
18/11/2011


Biostatistics - Bùi Tấn Anh

45

18/11/2011

Biostatistics - Bùi Tấn Anh

46

Thí dụ 2
Heat

• Dưới đây là kết quả nghiên cứu của Woods,
Steinour & Starke về lượng nhiệt phát ra khi
cho tác dụng giữa bột hàn răng với bốn loại
hóa chất:

78.5
104.3
95.9
102.7
93.1
113.3
74.3
87.6
109.2
72.5
115.9

83.8
109.4

– X1 = tricalcium aluminate
– X2 = tricalcium silicate
– X3 = tetracalcium aluminoferrite
– X4 = beta-dicalcium silicate

18/11/2011

Biostatistics - Bùi Tấn Anh

47

18/11/2011

X1

X2
7
11
7
3
2
11
1
11
11
1
21

1
10

X3
26
56
52
71
54
66
29
31
55
31
47
40
68

Biostatistics - Bùi Tấn Anh

X4
6
8
6
17
18
9
15
8
9

22
4
23
8

60
20
33
6
22
12
52
47
22
44
26
34
12
48

8


11/18/2011

Hồi qui đa thức

Hồi qui đa thức bậc 2

• Phương trình hồi qui:

Ŷ = a + bX + cX2 + dX3 + ...
• Khi X và Y có mối liên hệ phụ thuộc bậc 2:
Ŷ = a + bX + cX2
• Khi X và Y có mối liên hệ phụ thuộc bậc 3:
Ŷ = a + bX + cX2 + dX3

• Để nghiên cứu về khả năng sinh sản của châu
chấu, một nhà côn trùng học thí nghiệm trên
một mẫu gồm 30 châu chấu cái. Chỉ tiêu
nghiên cứu là trọng lượng con cái (g) và số
lượng trứng do mỗi con đẻ ra.
• Dữ liệu được ghi nhận trong bảng sau:

18/11/2011

Biostatistics - Bùi Tấn Anh

49

18/11/2011

Biostatistics - Bùi Tấn Anh

50

Hồi qui đa thức bậc 3
SL trứng TL con cái
27
2.1
32

2.3
39
2.4
48
2.5
59
2.9
67
3.1
71
3.2
65
3.3
73
3.4
67
3.4
78
3.5
72
3.5
81
3.5
74
3.6
83
3.6
18/11/2011

Mẫu Hàm lượng gỗ cứng (x) Độ căng (y)

6.3
1.0
1
11.1
1.5
2
20.0
2.0
3
24.0
3.0
4
26.1
4.0
5
30.0
4.5
6
33.8
5.0
7
34.0
5.5
8
38.1
6.0
9
39.9
6.5
10

42.0
7.0
11
46.1
8.0
12
53.1
9.0
13
52.0
10.0
14
52.5
11.0
15
48.0
12.0
16
42.8
13.0
17
27.8
14.0
18
21.9
15.0
19

SL trứng TL con cái
75

3.6
84
3.6
77
3.7
83
3.7
76
3.7
82
3.8
75
3.9
78
4
77
4.3
75
4.4
73
4.7
71
4.8
70
4.9
68
5
65
5.1


Biostatistics - Bùi Tấn Anh

51

18/11/2011

Biostatistics - Bùi Tấn Anh

Hồi quy phi tuyến (Nonlinear Regression)

Hồi quy phi tuyến (Nonlinear Regression)

• Ngoài các dạng hồi quy tuyến tính như đã trình
bày ở trên, trong thực tế nghiên cứu ta còn gặp
phải nhiều dạng liên hệ phi tuyến.
• Trong trường hợp này, trước tiên ta phải
chuyển chúng thành các dạng liên hệ tuyến
tính để phân tích và tính các hệ số.
• Trong một số trường hợp sau đó phải chuyển
về biến số thực để thiết lập phương trình hồi
quy phi tuyến chính tắc.

• Thí dụ: Y = a + ebX
• Có thể tuyến tính hóa bằng cách chuyển dạng
biến phụ thuộc Y thành Ln Y. Do đó phương
trình tuyến tính có dạng là:
Y' = a' + b X

18/11/2011


18/11/2011

Biostatistics - Bùi Tấn Anh

53

52

– trong đó Y' = Ln Y và a' = Ln a

Biostatistics - Bùi Tấn Anh

54

9


11/18/2011

Thí dụ

Tương quan giữa tỉ lệ triền quang và chỉ số diện tích lá.
X
75.0
72.0
42.0
29.0
27.0
10.0
9.0

5.0
2.0
2.0
1.0
0.9

• Tương quan giữa tỉ lệ triền quang (Y) và chỉ số
diện tích lá (X) ở giống lúa IR8 được ghi nhận
trong bảng dưới đây (theo Gomez, 1987)

18/11/2011

Biostatistics - Bùi Tấn Anh

55

18/11/2011

Y
1
1
2
3
3
5
6
7
9
10
10

12

Biostatistics - Bùi Tấn Anh

56

Regression Analysis: LnY versus X
• The regression equation is
LnY = 4.46 - 0.403 X

• Từ kết quả trên ta có
a = 4.45789
b = -0.40342
• Dùng các kết quả này để lập phương trình phi
tuyến chính tắc

Predictor
Coef
SE Coef
T
P
Constant 4.45789 0.07817 57.03 0.000
X
-0.40342 0.01153 - 34.99 0.000
S = 0.152682 R-Sq = 99.2% R-Sq(adj) = 99.1%
18/11/2011

Biostatistics - Bùi Tấn Anh

57


18/11/2011

Biostatistics - Bùi Tấn Anh

58

Phân tích tương quan
• Hệ số tương quan (correlation coefficient)
được dùng để đo mức độ liên hệ tuyến tính
giữa hai biến.
• Hệ số tương quan (HSTQ) có thể có giá trị
nằm giữa -1 và +1.
• Nếu một biến có xu hướng tăng trong khi biến
kia lại giảm thì HSTQ có giá trị âm. Ngược lại
nếu cả hai biến cùng tăng thì HSTQ có giá trị
dương.

Fitted Line Plot
Y = 89.6025 * exp(-0.403 * X)
80
70
60

Y

50
40
30
20

10
0
0

2

4

6

8

10

12

X

18/11/2011

Biostatistics - Bùi Tấn Anh

59

18/11/2011

Biostatistics - Bùi Tấn Anh

60


10


11/18/2011

Hệ số tương quan (r)

Biểu đồ tương quan

• Stat > Basic Statistics > Correlation...
• r = 0  không có mối tương quan tuyến tính
giữa x và y.
• r = +1 hoặc –1  tương quan hoàn hảo 
đường thẳng
• r gần = +1 hoặc –1 cho thấy tương quan rất
chặt.
• Tổng quát: Tương quan rất chặt khi r > 0. 7
hoặc < –0.7.
18/11/2011

Biostatistics - Bùi Tấn Anh

61

18/11/2011

Biostatistics - Bùi Tấn Anh

62


11



×