Tải bản đầy đủ (.doc) (20 trang)

Bài giảng Thống kê y học Bài 16 Tương quan và hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (243.09 KB, 20 trang )

TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH
Mục tiêu:
Sau khi nghiên cứu chủ đề học viên có khả năng:
- Vẽ phân tán đồ và sử dụng phân tán đồ để lí giải sự tương quan giữa hai biến số
- Trình bày được cơng thức và tính được hệ số tương quan của hai biến số định lượng
- Xây dựng được phương trình hồi quy tuyến tính của biến số phụ thuộc theo một biến số
độc lập.
- Trình bày cơng thức và lí giải ý nghĩa của sai số chuẩn hồi quy.
- Trình bày cơng thức của sai số chuẩn của hệ số tương quan, hệ số góc, điểm chặn và giá
trị tiên đóan thể và áp dụng trong kiểm định và ước lượng các số thống kê trên.
Mục tiêu:
Sau khi nghiên cứu bài này học viên có khả năng:
- Nêu được 2 phương pháp mô tả sự quan hệ giữa hai biến số định lượng: đồ thị
và hệ số tương quan
- Trình bày và lí giải được mối quan hệ giữa hai biến số bằng phân tán đồ
- Nêu được ý nghĩa của hệ số tương quan, tính hệ số tương quan giữa hai biến số
(trong trường hợp số liệu đơn giản) với máy tính cầm tay
- Xây dựng phương trình hồi quy giữa hai biến số sử dụng máy tính cầm tay
- Kiểm định giả thuyết hệ số góc của phương trình hồi quy tuyến tính bằng khơng.
1. Giới thiệu
Trong bài này chúng ta quan tâm đến liên hệ giữa hai biến số định lượng và tập trung
chủ yếu đến phương pháp tương quan và hồi quy tuyến tính để xác định mối liên hệ tuyến
tính (linear) giữa hai biến liên tục. Tương quan (correlation) đo lường sự chặt chẽ của
mối liên hệ trong khi hồi quy tuyến tính (linear regression) cho biết phương trình đường
thẳng mơ tả sự liên hệ tốt nhất và cho phép tiên đoán biến số này từ biến số khác.
Bảng 9.1 Thể tích huyết tương và trọng lượng cơ thể của 8 người đàn ông khỏe mạnh
Ðối
tượng

trọng lượng cơ thể
(kg)



Thể tích huyết tương
(lít)

1

58,0

2,75

2

70,0

2,86

3

74,0

3,37

4

63,5

2,76

5


62,0

2,62

6

70,5

3,49

7

71,0

3,05

8

66,0

3,12


t hể t ích huyết t ương

3.5
3.3
3.1
2.9
2.7

2.5
55

60

65

70

75

trọng lượng cơ thể
Hình 9.1 Phân tán đồ của thể tích huyết tương và trọng lượng cơ thể cùng với đường hồi
quy tuyến tính













(a) Khơng tương quan








(c) Tương quan dương
khơng hồn tồn







(e) Tương quan âm
khơng hồn tồn

(b) mối liên hệ khơng tuyến tính



(d) Tương quan dương hồn
tồn



(f) Tương quan âm hồn tồn

Hình 9.2 phân tán đồ minh họa các giá trị khác nhau của hê số tương quan. Trong đây
cũng có các đường hồi quy.


2. Tương quan
Bảng 9.1 trình bày trọng lượng cơ thể và thể tích huyết tương của 8 người đàn ông khỏe
mạnh. Để đánh giá sự liên quan giữa hai biến số định lượng trọng lượng cơ thể và thể tích
huyết tương chúng ta có thể sử dụng phân tán đồ hay hệ số tương quan r:
Phân tán đồ
Phân tán đồ là đồ thị thể hiện các giá trị của các quan sát bằng kí hiệu trên hệ toạ độ
gồm hai trục: trục hoành thể hiện cho biến số độc lập và trục tung thể hiện biến số phụ
thuộc. Hình 9.1 trình bày phân tán đồ của thể tích huyết tương lớn có liên quan đến trọng
lượng cơ thể cao.


Hình dạng của phân tán đồ thể hiện mối liên hệ giữa hai biến số. Nếu phân tán đồ có
dạng một đám mây nằm ngang thì khơng có sự liên hệ giữa hai biến số (hình 9.2 a). Nếu
phân tán đồ có hình dạng ellipse đi từ dưới bên trái lên phía trên bên phải thì hai biến số
có liên hệ thuận (hình 9.2 c và d). Nếu phân tán đồ có hình dạng ellipse đi từ phía trên
bên trái xuống phía dưới bên phải thì hai biến số có liên hệ nghịch (hình 9.2 e và f). Trục
ngắn của ellipse càng ngắn thì mối liên hệ càng mạnh và nếu ellipse bị biến thành một
đường thẳng thì mối tương quan được xem như là hồn tồn (hình 9.2 d và f). Nếu hình
dạng của phân tán đồ khơng phải là dạng ellipse hay đường thẳng thì hai biến số cũng có
mối liên hệ nhưng sự tương quan này được gọi là khơng tuyến tính (hình 9.2 b).
Áp dụng lí luận trên chúng ta có thể xác định giữa thể tích huyết tương và trọng lượng cơ
thể có tương quan tuyến tính, thuận và khơng hồn tồn.
Hệ số tương quan
Nếu hai biến số định lượng có quan hệ tuyến tính thì chúng ta có thể đo lường mức độ
tương quan một cách chính xác hơn bằng cách tính hệ số tương quan (correllation
coefficient), r. Cơng thức tính r thể hiện bản chất của hệ số tương quan như sau:
∑( x − x )( y − y )
r=
∑ ( x − x ) 2 ∑( y − y ) 2

Để tính hệ số tương quan dễ dàng hơn Chúng ta có thể sử dụng cơng thức tính hệ số
tương quan như sau:
r=

∑ ( x − x )( y − y )
∑ ( x − x) ∑ ( y − y)
i

i

2

i

i

2

=

(Σxy) / n − x × y
n
×
sx × sy
n −1

Trong đó x là biến số độc lập (trọng lượng), y là biến số phụ thuộc (thể tích huyết tương),
x và y là các số trung bình tương ứng. Phân tán đồ minh họa những hệ số tương quan
khác nhau đươc trình bày trong hình 9.2.
Sử dụng cơng thức này để tính tốn r, trước tiên chúng ta hãy tính trung bình và độ lệch

chuẩn của biến số x và y:
Trọng lượng cơ thể: x=66.875
s=5.4166
n=8
Thể tích huyết tương x=3.0025
s=0.31121
n=8
Tích của hai biến số x=201.91
s=34.849
n=8
Sau đó hãy tính tốn hệ số tương quan.
(Σxy ) / n − x × y
n
1.086375
8
r=
×
=
× = 0.758
sx × s y
n − 1 5.417 × 0.311 7
Lí giải ý nghĩa của hệ số tương quan:
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm
chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên
hệ.


- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu
trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hồn tồn tuyến tính nghĩa là tất cả các

điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có
các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).
- Bình phương của hệ số tương quan (r 2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc
được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1)
khơng có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số
khơng phải là tuyến tính (hình 9.2b)
- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung
bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho
thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.
3. Hồi quy tuyến tính
Hồi quy tuyến tính cho phương trình đường thẳng mơ tả nếu biến x tăng thì biến y tăng
như thế nào. Không giống như tương quan, việc lựa chọn biến nào để làm biến y là quan
trọng bởi vì hai phương pháp không cùng cho một kết quả, y thường được gọi là biến số
phụ thuộc (dependent variable) và x là biến số độc lập hay giải thích (independent or
explanatory variable). Trong thí dụ này, rõ ràng chúng ta cần quan tâm sự phụ thuộc thể
tích huyết tương và trọng lượng cơ thể.
Phương trình hồi quy là
y = a + bx

a: là điểm chặn (intercept) hay hằng số (constant)
b: là độ dốc (slope) của đường thẳng hay hệ số (coefficient) của phương trình (Hình 9.3).
Giá trị đối với a và b được tính sao cho cực tiểu hóa bình phương khoảng cách theo chiều
đứng từ các điểm số liệu tới đường thẳng. Nó được gọi là phù hợp bình phương tối thiểu
(least squares fit) (Hình 9.4). Ðộ dốc b đôi khi được gọi là hệ số hồi quy (regression
coefficient). Nó có cùng dấu với hệ số tương quan. Khi khơng có sự tương quan, b bằng
zero, tương ứng với một đường thẳng hồi quy nằm ngang đi qua điểm y.
sy
∑( x − x )( y − y )
b=

=r
2
sx
∑( x − x )




a = y - bx

y

b
1

a

x
Hình 9.3 Giao điểm và độ dốc của phương trình hồi quy y = a + bx. Giao điểm a là điểm mà
đường thẳng cắt trục y và cho giá trị y ở x = 0. Ðộ dốc b là mức tăng của y tương ứng với
sự gia tăng một đơn vị của x.

Trong thí dụ này
b = 8,96/205,38 = 0,0435

Và:
a = 3,0025 - 0,04354 × 66,875 = 0,0907

Do đó sự phụ thuộc của thể tích huyết tương vào trọng lượng cơ thể được mô tả bằng
Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng


và được vẽ trên Hình 9.1.
Ðường hồi quy được vẽ bằng cách tính tọa độ của hai điểm của đường thẳng. Thí dụ
chúng ta có thể tính toạ độ của đường thẳng tại giá trị x = 60 và x = 70
x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032


x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386

Như vậy đường thẳng hồi quy phải đi qua điểm (60, 2.7) và (70, 3.1). Hiển nhiên đường
thẳng phải đi qua điểm (x,y) = (66.9 , 3.0)


4. Kiểm định và ước lượng trong tương quan và hồi quy

t hể t ích huyết t ương

Khái niệm về phương sai phần dư
3.5
3.3
3.1
2.9
2.7
2.5
55

60

65


70

75

trọng lượng cơ thể
Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, được làm phù hợp bằng bình
phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình phương của các độ lệch
thẳng đứng (vẽ bằng các đường thẳng đứng) của các điểm đối với đường thẳng, mỗi độ
lệch bằng hiệu số giữa số y quan sát và tiểm tương ứng trên đường thẳng a + bx

Do các giá trị của các quan sát không nằm trên một đường thẳng nên chúng có một
khoảng cách áo với phương trình hồi quy. Con số thể hiện mức độ phân tán của số liệu
quanh đường thẳng hồi quy được gọi là sai số chuẩn của hồi quy (standard error of
regression).
Sai số chuẩn của hồi quy được tính theo cơng thức sau:

s=

∑ ( y − y ′)

2

∑ ( y − a − bx)

2

=
n−2
n−2
Sai số chuẩn của hồi quy còn được triển khai thêm như sau

 ∑( y − ( y − bx ) − bx) 2 
 ∑ ( y − y ) 2 − b 2 ∑( x − x ) 2 
s= 
=



( n − 2)
( n − 2)




s = ( s y2 − b 2 s x2 )

n −1
n −1
1− r2
1− r2
= s y (1 − r 2 )
= sy n −1
= ∑( y − y ) 2
n−2
n−2
n−2
n−2

s = ∑( y − y ) 2

1− r2

n−2

s là độ lệch chuẩn của các điểm số liệu so với đường thẳng, có (n-2) độ tự do.
s=

0.6780 − 0.0436 2 × 205.38
= 0.2189
6


hoặc
s = sy

s = ( s y2 − b 2 s x2 )

n −1
8 −1
= (0.3112 − 0.0436 2 5.417 2 )
= 0.21855
n−2
8−2

1− r2
n −1
= 0.311 × 7 × 0.265 = 0.218321
n−2

Điều này có nghĩa là nếu ta áp dụng phương trình hồi quy để tiên đốn thể tích huyết
tương thì chúng ta khơng thể tiên đốn một cách chính xác: chúng ta sẽ mắc một sai số
trung bình là 0.218.

Bình phương của sai số hồi quy được gọi là phương sai phần dư:

n −1
1− r2
2
s = (s − b s )
= s y × (n − 1) ×
n−2
n−2
2

2
y

2 2
x

Kiểm định ý nghĩa hệ số tương quan
Khi chúng ta đã có hệ số tương quan, có hai phương pháp kiểm định hệ số tương quan
này. Một phương pháp để kiểm định giả thuyết Ho: hệ số tương quan r = 0 và một
phương pháp kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠ 0)
- Kiểm định t được dùng để xem r có khác zero một cách có ý nghĩa hay khơng. Nói
cách khác đi, kiểm định này để xem sự tương quan quan sát được có phải là thực sự này
chỉ do tình cờ. Việc kiểm định này dựa trên cơ sở của công thức ước lượng sai số chuẩn
của r: s.e.(r) = (1-r2)/(n-2)
s.e.( r ) =

1− r2
=
n−2


s
∑( y − y ) 2

n−2
t=r 
, d. f . = n − 2
2
1 − r 
Thí dụ để kiểm định giả thuyết hệ số tương quan giữa thể tích huyết tương và trọng lượng
cơ thể bằng khơng, chúng ta tiến hành các tính tốn sau:
s.e.(r ) =

1− r2
1 − 0.76 2
=
= 0.265
n−2
8−2

 8−2 
t = 0.76 
= 2.86, d . f . = 6
2
1 − 0.76 
Ðiều này có ý nghĩa ở mức 5% xác nhận ý nghĩa của sự liên hệ giữa thể tích huyết tương
và trọng lượng cơ thể
Mức ý nghĩa phụ thuộc của cả vào độ lớn của mối tương quan và số các quan sát. Lưu ý
rằng tương quan yếu có thể có ý nghĩa thống kê nếu nó dựa trên một số lớn quan sát,
trong khi sự tương quan mạnh có thể khơng đạt được mức ý nghĩa nếu chỉ có một ít quan

sát.
- Kiểm định z để kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠ 0)


Trước tiên chúng ta tìm hiểu về phép biến đổi z của Fisher. Fisher đã chứng minh z(r)
(đọc là hàm số z của hệ số tương quan r):
1 1+ r 
z (r ) = ln

2 1− r 
sẽ có phân phối bình thường với trung bình là z(ρ) và độ lệch chuẩn là √1/(n-3)
Như vậy để kiểm định hệ số tương quan r = ρ (với ρ ≠ 0), chúng ta phải tính:
1 1+ r 
z (r ) = ln

2 1− r 
1 1+ ρ 

ln
2  1 − ρ  (chúng ta lưu ý nếu ρ = 0 thì hàm số z của ρ sẽ trở thành
không xác định)
z (r ) − r ( ρ )
z=
= [ z ( r ) − r ( ρ )] × n − 3
1 /(n − 3)

Thí dụ giả sử tác giả X tìm được hệ số tương quan giữa thể tích huyết tương và trọng
lượng cơ thể là 0.4, hãy kiểm định xem hệ số tương quan chúng ta đã tìm ra có thực sự
lớn hơn hệ số tương quan được báo cáo do tác giả X hay khơng:
Chúng ta tính được:

1  1 + r  1  1 + 0.76 
z (r ) = ln
 = ln
 = 0.9962
2  1 − r  2  1 − 0.76 
z( ρ ) =

z( ρ ) =
z=

1  1 + ρ  1  1 + 0.4 
 = ln
ln
 = 0.4236
2  1 − ρ  2  1 − 0.4 
z (r ) − r ( ρ )
1 /(n − 3)

=

0.9962 − 0.4236
1 /(8 − 3)

= 1.280


Tra bảng phân phối chuẩn một đi chúng ta tính được giá trị p > 0.05 vì vậy chúng ta
khơng có bằng chứng thống kê để cho rằng hệ số tương quan của chúng ta tìm ra thực sự
lớn hơn 0.4.
Sai số chuẩn của các ước lượng dùng phương trình hồi quy

Đường thẳng hồi quy cũng tương tự như các giá trị thống kê các đều có khả năng bị sai
số và phương trình hồi quy được tính từ một mẫu chỉ là ước lượng cho phương trình hồi
quy thực sự của tồn bộ dân số.
Giá trị a và b là các ước lượng mẫu của giá trị giao điểm và độ dốc của đường thẳng hồi
quy mô tả mối liên hệ tuyến tính giữa x và y trong tồn bộ dân số. Do đó chúng bị các
biến thiên lấy mẫu và độ chính xác của chúng có thể đo lường bằng sai số chuẩn. Từ sai
số chuẩn chúng ta có thể dễ dàng tính được khoảng tin cậy của các ước lượng này hay
kiểm định chúng có khác với một giá trị cụ thể nào hay không
Sai số chuẩn của a
Sai số chuẩn của a được tính theo cơng thức sau


1

x2
s.e.( a ) = s  +
2
 n ∑( x − x ) 
khoảng tin cậy của a :
a ± tc × s.e.(a)
Và để kiểm định a có khác so với α
a −α
t=
, d. f . = n − 2
s.e.(a )

 1 66.9 2 
s.e.(a) = 0.2819  +
 = 1.3197
8

205
.
38


Áp dụng vào thí dụ ở trên ta có
Khoảng tin cậy 95% của điểm chặn a bằng:
Khoảng tin cậy 95% : a ± tc × s.e.(a) = 0.0857 ± 2.45 × 1.3197 = -3.148 – 3.319
Một nghiên cứu trước đây đã báo cáo phương trình hồi quy của thể tích huyết tương theo
cân nặng với giá trị điểm chặn a là 2.1. Có thể kiểm định giá trị điểm chặn trong nghiên
cứu của chúng ta có khác với giá trị 2.1 đã báo cáo hay không bằng phép kiểm t:
a −α
0.0857 − 2.1158 − 2.0301
t=
=
=
= 1.53, d . f . = n − 2
s.e.(a )
1.3197
1.3197
tra bảng ta có p >0.05 (p = 0.177) chúng ta không thể bác bỏ giả thuyết Ho và như vậy
chúng ta có thể kết luận khơng có sự khác biệt có ý nghĩa thống kê về giá trị điểm chặn
của nghiên cứu của chúng ta và nghiên cứu đã báo cáo.
Sai số chuẩn của b
Sai số chuẩn của b được tính theo cơng thức sau
s
s.e.(b) =
∑( x − x ) 2
khoảng tin cậy của b :
b ± tc × s.e.(b)

Và để kiểm định b có khác so với β
b−β
t=
, d. f . = n − 2
s.e.(b)
Thí dụ:
Áp dụng vào trường hợp phương trình hồi quy của thể tích huyết tương theo cân nặng ta
s
0.2189
s.e.(b) =
=
= 0.0153
2
205.38

(
x

x
)
được:
Giả sử chúng ta muốn kiểm định xem b có khác biệt có ý nghĩa với zero hay khơng.
Kiểm định này cho kết quả


t=

b − β 0.0436
=
= 2.85

s.e.(b) 0.0153

Lưu ý kết quả này giống như kết quả của kiểm định hệ số tương quan có kác khơng hay
khơng. Với giá trị 2,85 chúng ta có thể kết luận thể tích huyết tương tăng có ý nghĩa
(P<0,05) đối với trọng lượng cơ thể.
Giả sử có tài liệu cho rằng khi trọng lượng tăng 1 kg thì thể tích huyết tương tăng 0.03 L
(nói cách khác phương trình hồi quy của thể tích huyết tương theo cân nặng là 0.03) và
chúng ta muốn kiểm tra hệ số góc trong nghiên cứu của chúng ta có khác tài liệu nêu trên
hay khơng chúng ta cũng có thể sử dụng phép kiểm t:
b − β 0.0436 − 0.03 0.0136
t=
=
=
= 0.88, d . f . = n − 2
s.e.(b)
0.0153
0.0153
tra bảng ta có p >0.05 (p = 0.41) chúng ta không thể bác bỏ giả thuyết Ho và như vậy
chúng ta có thể kết luận khơng có sự khác biệt về hệ số góc của phương trình hồi quy của
chúng ta với tài liệu nêu trên.
Khoảng tin cậy 95% của hệ số góc b bằng:
Khoảng tin cậy 95% : b ± tc × s.e.(b) = 0.0436 ± 2.45 × 0.0153 = 0.006 – 0.081
Tiên đốn
Trong một số tình huống, có thể sử dụng phương trình hồi quy để tiên đoán giá trị y cho
một giá trị đặc biệt của x được gọi là x'. Giá trị tiên đoán là:
y' = a + bx'
Và sai số chuẩn của nó là

 1
( x'− x ) 2 

s.e.( y ' ) = s 1 + +
2
 n ∑( x − x ) 
Sai số chuẩn này tối thiểu khi x' gần với trung bình x. Nói chung phải thận trọng khi sử
dụng đường hồi quy để tính các giá trị ngồi phạm vi của x trong số liệu gốc, bởi vì quan
hệ tuyến tính khơng nhất thiết sẽ đúng ở ngồi phạm vi mà nó được làm phù hợp.
Khoảng tin cậy của tiên đốn:
y' ± tc × s.e.(y') với tc tra từ bảng t (student) với n-2 độ tự do
Trong thí dụ này, sự đo lường thể tích huyết tương tốn nhiều thời gian và do đó trong một
số trường hợp, có thể tiên đốn từ trọng lượng cơ thể. Thí dụ thể tích plasma huyết tương
của một người đàn ơng nặng 66 kg là
0,0832 + 0,0436 × 66 = 2,96 lít

Và sai số chuẩn bằng

 1
 1 (66 − 66.9) 2 
( x'− x ) 2 
s.e.( y ' ) = s 1 + +
= 0.218 1 + +
 = 0.23l
2 
205.38 
 n ∑( x − x ) 
 8


Khoảng tin cậy 95% của giá trị tiên đoán y' là
y ± tc×s.e.(y')
với tc được tra từ bảng t (hai đi) với n-2 độ tự do

5. Giả thiết
Có hai giả thiết nền tảng trong phương pháp hồi quy tuyến tính. Giả thiết thứ nhất là đối
với bất cứ giá trị x nào, y có phân phối bình thường. Giả thiết thứ hai là độ phân tán của
các điểm quanh đường thẳng là như nhau trong suốt đoạn thẳng. Ðộ phân tán được đo
lường bằng độ lệch chuẩn s của các điểm số liệu so với đường thẳng như đã định nghĩa ở
trên. Sự thay đổi thang đo có thể thích hợp nếu các giả thuyết trên không thỏa hay quan
hệ dường như phi tuyến tính (xem Chương 19). Các quan hệ phi tuyến được thảo luận ở
chương 10.
6. Bài tập
Bài tập1:
Một nhà nghiên cứu tìm hiểu mối liên hệ giữa hai biến số: biến số giải thích x là lượng
chì trong máu tính bằng µm /100mL và biến số phụ thuộc y: số bất thường nhiễm sắc thể
trong 100 tế bào (Forni et al., 1995) trên 30 nữ công nhân nhà máy acquy. Số liệu ghi
nhận được như sau:
x = 36.37; y = 5,97; Σxy=6974,237; Σx2 = 42986,28 ; Σy2 = 1502,20.
a. H ãy tính hệ số tương quan r
b. Kiểm định hệ số tương quan này có thực sự khác khơng hay khơng?
c. Viết phương trình hồi quy của số bất thường nhiễm sắc thể trong 100 tế bào theo lượng
chì trong máu.
d. Tính sai số chuẩn của độ dốc của phương trình hồi quy.
e. Kiểm định giả thuyết: độ dốc của phương trình hồi quy bằng zero (hai đuôi)
Bài làm bài tập 1
a. Từ các thông tin kể trên chúng ta có thể xây dựng bảng các giá trị thống kê như sau:
n=30; Σxy=6974,237
ước lượng
Trung bình

Biến
độc
lập:

Lượng chì trong máu

Biến
phụ
thuộc:
Số đột biến nhiễm sắc thể

36.67

5.97

độ lệch chuẩn

9.5513

3.8639

Căn Tổng bình phương độ
lệch

51.435

20.808

và tính được hệ số tương quan r
(Σxy ) / n − x × y
n
6974.237 / 30 − 36.67 × 5.97 30
r=
×

=
×
= 0.37995
sx × s y
n −1
9.5513 × 3.8639
29
b. Kiểm định r=0


- Xây dựng giả thuyết Ho: r=0; đối thuyết Ha: r<>0
- Sử dụng kiểm định t 2 đuôi với độ tự do = 28;
Ta có thể xác định t tới hạn: tc=2,05
- Tính giá trị t
1− r2
1 − 0,38 2
=
= 0,0306 = 0,175
n−2
28
r
0,385
t=
=
= 2,20
s.e.(r ) 0,175
s.e.(r ) =

- Tìm p: tra bảng t (bảng student) với 28 độ tự do ta có p <0,05
Hoặc dựa vào t > tc= 2.05 ta kết luận p <0.05

- Kết luận: Bác bỏ giả thuyết Ho với mức ý nghĩa p<0,05 hay nói khác đi có sự tương
quan có ý nghĩa thống kê giữa lượng chì trong máu và số lượng đột biến.
c. Phương trình hồi quy:
Hệ số góc b:
sy
3.8639
b=r
= 0.38
= 0.1537
sx
9.5513

a = y - bx = 5,97 - 0,1537×36,37 = 0,3338

Như vậy phương trình hồi quy của số lượng bất thường nhiễm sắc thể theo lượng chì
trong máu là:
Số lượng bất thường NST (/100 tế bào) = 0,3338 + 0,1537 x lượng chì trong máu
(µg/100mL)
d. Sai số chuẩn của độ dốc:
Độ lệch chuẩn hồi quy bằng:
1− r2
1 − 0.37995 2
= 20.808
= 3.6374
n−2
30 − 2
s
3.6374
=
= 0.0707

2
51.435
∑( x − x )

s = ∑( y − y ) 2
s.e.(b) =

Như vậy sai số chuẩn của độ dốc là 0.0707
e. Kiểm định b=0
- Xây dựng giả thuyết Ho: b=0: Ha: b<>0
- Sử dụng kiểm định t 2 đi với độ tự do = 28
Ta có thể xác định t tới hạn: tc=2,05
- Tính giá trị t
b−0
0,1537
t=
=
= 2,17
s.e.(b) 0,0707
- Tìm p: tra bảng t (bảng student) với 28 độ tự do ta có p <0,05


Hoặc dựa vào t > tc= 2.05 ta kết luận p <0.05
- Kết luận: Bác bỏ giả thuyết Ho với mức ý nghĩa p<0,05
Bài tập 2:
Một nhà nghiên cứu nghiên cứu trẻ em bị hồng cầu liềm thể đồng hợp tử và ghi nhận
chiều cao của đứa trẻ 5 tuổi bị bệnh hồng cầu và mức độ cốt hoá của xương (được tính
bằng thang điểm dựa trên 20 điểm cốt hoá của bàn tay và cổ tay). Kết quả như sau:
Chiều cao


Mức độ cốt hoá

Chiều cao

Mức độ cốt hoá

111.6

47

107.9

53

109.8

42

113.2

51

105.0

31

102.1

41


107.0

33

105.0

37

104.2

33

99.0

26

108.9

52

101.7

18

103.3

45

100.3


29

104.5

47

107.9

51

108.3

42

114.5

41

99.7

50

106.0

34

108.1

41


Với mục tiêu là xem có phải trẻ bị chậm trưởng thành xương (mơ tả bằng biến số giải
thích) có liên quan đến rối loạn phát triển chiều cao (biến số đáp ứng) hãy tính:
a. Hệ số tương quan giữa chiều cao và mức độ cốt hố
b. Có phải có sự tương quan thuận giữa mức độ cốt hoá và chiều cao hay khơng?
c. Viết phương trình hồi quy của chiều cao theo điểm cốt hố
d. Tính sai số chuẩn của độ dốc của phương trình hồi quy.
e. Ở trẻ em bình thường (không bị hồng cầu liềm) độ dốc của phương trình hồi quy chiều
cao theo mức độ cốt hố là 0.4 cm/điểm cốt hố. Có phải độ dốc của phương trình ở trẻ bị
hồng cầu liềm thấp hơn ở trẻ bình thường?
Bài làm bài tập 2
a. Từ các số liệu trên ta có thể tính các số thống kê như sau:
n=21; Σxy/n=4283.2
ước lượng

Biến
độc
Mức độ cốt hố

lập:

Biến
phụ
Chiều cao

Trung bình

40.19

106.1


độ lệch chuẩn

9.5217

4.276

thuộc:


Căn Tổng bình phương độ
lệch

42.582

19.123

và tính được hệ số tương quan r
(Σxy ) / n − x × y
n
4283.2 − 40.19 × 106.1 21
r=
×
=
×
= 0.49105
sx × s y
n −1
9.5217 × 4.276
20
b. Kiểm định r=0

- Xây dựng giả thuyết Ho: r=0; đối thuyết Ha: r>0
- Sử dụng kiểm định t một đi với độ tự do = 19
ta có giá trị t tới hạn tc =1.73
- Tính giá trị t
1− r2
1 − 0,49105 2
s.e.(r ) =
=
= 0,03994 = 0,19985
n−2
19
r
0,49105
t=
=
= 2,457
s.e.(r ) 0,19985
- Tìm p: tra bảng t (bảng student) với 19 độ tự do ta có p <0,025
Hoặc tính từ t > tc = 1.73 nên p < 0.05
- Kết luận: Bác bỏ giả thuyết Ho với mức ý nghĩa p<0,025
Như vậy có tương quan thuận giữa mức độ cốt hố và chiều cao
c. Phương trình hồi quy:
Hệ số góc b:
sy
4.276
b=r
= 0.49105
= 0.2205
sx
9.5217



a = y - bx = 106.1 - 0,2205× 40,19 = 97,24
Như vậy phương trình hồi quy của chi ều cao theo mức độ cốt hóa bàn tay là
Chiều cao (cm) = 97,1 + 0,222 × Ðiểm cốt hóa
d. Sai số chuẩn của độ dốc:
Độ lệch chuẩn hồi quy bằng:
1− r2
1 − 0.49105 2
= 19.123
= 19.123 × 0.19985 = 3.8217
n−2
21 − 2
Sai số chuẩn của độ dốc b:
s
3.8217
s.e.(b) =
=
= 0,08975
∑( x − x ) 2 42.582
s = ∑( y − y ) 2

e. Để trả lời câu hỏi trên chúng ta phải kiểm định giả thuyết độ dốc phương trình ở trẻ
hồng cầu liềm bằng với độ dốc phương trình ở trẻ em bình thường = 0.4


- Xây dựng giả thuyết Ho: b=0.4: Ha: b<0.5
- Sử dụng kiểm định t 1 đuôi với độ tự do = 19
Ta có thể xác định t tới hạn: tc=1.73
- Tính giá trị t

β − b 0,4 − 0.2205
t=
=
= 2,00
s.e.(b)
0,08975
- Tìm p: tra bảng t (bảng student) với 19 độ tự do ta có p <0,05
Hoặc dựa vào t > tc= 1.73 ta kết luận p <0.05
- Kết luận: Giá trị t nói trên giúp chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận
mức độ tăng trưởng chiều cao so với mức độ cốt hoá ở trẻ hồng câu liềm thấp hơn trẻ
bình thường (p<0,05)
Bài tập 3:
Một nhà nghiên cứu đo đạc chiều cao và cân nặng trên 8 đối tượng nhằm tìm mối liên
hệ giữa hai biến số trên. Kết quả được ghi nhận như sau:
Chiều cao (cm) 172.9

162.7

165.3

162.7

150

155.1

162.7

152.6


Cân nặng (kg)

50.8

58

55.8

42.2

44.4

50.3

42.2

68.5

a. Hãy tính hệ số tương quan giữa chiều cao và cân nặng?
b. Theo anh chị, có phải hệ số tương quan tính được là lớn hơn giá trị 0,75 là hệ số tương
quan giữa cân nặng và chiều cao thường được báo cáo trong y văn.
c. Viết phương trình hồi quy của cân nặng dựa trên chiều cao.
d. Hãy tính khoảng tin cậy 95% của trọng lượng tiên đốn của một người có chiều cao
160 cm.
Bài làm bài tập 3
a. Từ các số liệu trên ta có thể tính các số thống kê như sau:
n=8; Σxy/n=8326.9
ước lượng

Biến

độc
Chiều cao

lập:

Biến
phụ
Cân nặng

Trung bình

160.5

51.525

độ lệch chuẩn

7.4943

9.0637

Căn Tổng bình phương độ
lệch

19.828

23.98

và tính được hệ số tương quan r
(Σxy ) / n − x × y

n
8326.9 − 160.5 × 51.525 8
r=
×
=
× = 0.96134
sx × s y
n −1
7.4943 × 9.0637
7

thuộc:


b. Ðể xác định hệ số tương quan tính được r = 0,96 có lớn hơn giá trị 0,75, ta có thể sử
dụng kiểm định z (một đi) và phép biến đổi Fisher z(r)= ln[(1+r)/(1-r)]/2
- Xây dựng giả thuyết Ho: z(r)=z(0,75); Ha: z(r)>z(0.75)
- Sử dụng kiểm định z một đuôi; giá trị tới hạn zc=1.64
- Tính giá trị z
z (0,96134) =
z (0,75) =

1  1 + r  1  1 + 0,96134 
ln
 = 1,9633
 = ln
2  1 − r  2  1 − 0,96134 

1  1 + r  1  1 + 0,75 
ln

 = 0,97296
 = ln
2  1 − r  2  1 − 0,75 

1
= 0,447
n−3
z (r ) − z ( ρ ) 1,9633 − 0,97296 0,99034
z=
=
=
= 2,215
0,447
1 /( n − 3)
1/ 5

s.e.( z ) =

- Tìm p: tra bảng z ta có p =P(|z|>2,19) <0,025
Hoặc dựa vào z > zc = 1.64 chúng ta kế luận p <0.05
- Kết luận: Bác bỏ giả thuyết Ho với mức ý nghĩa p<0,025 nghĩa là hệ số tương quan tìm
được trong nghiên cứu này cao hơn số liệu được báo cáo trong y văn (p <0.025)
c. Phương trình hồi quy:
Ta có x =160,5; y=51,525
Hệ số góc b:
sy
9.0637
b=r
= 0.96134
= 1,163

sx
7.4943

a = y - bx = 51,525 - 1,163 × 160,5 = -135,1
Như vậy phương trình hồi quy của chi ều cao theo mức độ cốt hóa bàn tay là
Cân nặng (kg) = -135.1 + 1,163 × Chiều cao
d.Khoảng tin cậy 95% của trọng lượng tiên đoán của một người cao 160 cm.
Độ lệch chuẩn hồi quy bằng:
1− r2
1 − 0.96134 2
= 23.98
= 23.98 × 0.11242 = 2.6958
n−2
8−2
Sai số chuẩn của tiên đoán:
s = ∑( y − y ) 2

 1
( x'− x ) 2 
s.e.( y ' ) = s 1 + +
= 2.6958
2 
 n ∑( x − x ) 

 1  160 − 160,5  2 
  = 2,8601
1 + + 
 8  19.828  

Ứng với chiều cao là 160, trọng lượng tiên đoán là:



Cân nặng (kg) = -135.1 + 1,163 × 160 = 50,98
Vì vậy khoảng tin cậy 95% của trọng lượng tiên đốn là:
y ± tc×s.e.(y')
với tc được tra từ bảng t (hai đi) với n-2 độ tự do
50.98 ± 2.45 × 2.8601 = 43,97 đến 57,99 kg
Bài tập 4:
Ghi nhận trọng lượng (kg) và tuổi thai (tuần tuổi) của 515 trẻ sơ sinh sinh tại trung tâm y
tế huyện X được trình bày trong bảng sau:
Tuần tuổi

2.5-3.0

3.0-3.5

3.5-4.0

Tổng cộng

34-36

14

1

0

15


36-38

42

20

9

71

38-40

60

138

71

269

40-42

20

81

59

160


Tổng cộng

136

240

139

515

a. Hãy tính hệ số tương quan giữa tuổi thai và trọng lượng sơ sinh.
b. Có phải có sự tương quan thuận giữa tuổi thai và trọng lượng sơ sinh hay không?
c. Viết phương trình hồi quy của cân nặng so sinh dựa trên tuần tuổi.
d. Hãy tính khoảng tin cậy 95% của trọng lượng tiên đốn của trẻ sơ sinh có tuổi thai là
40 tuần.
e. Hãy ước lượng khoảng tin cậy 95% của hệ số góc của phương trình hồi quy. Lí giải
khoảng tin cậy nói trên.
Bài làm bài tập 4
a.
Sử dụng giá trị trung bình của mỗi nhóm là giá trị của tất cả các quan sát trong một nhóm,
ta có thể trình bày số liệu như sau:
Tuần tuổi

2.75

3.25

3.75

Tổng cộng


35

14

1

0

15

37

42

20

9

71

39

60

138

71

269


41

20

81

59

160

Tổng cộng

136

240

139

515

Sử dụng máy tính cầm tay với chức năng thống kê để tính x, sx, y, sy.


- Sử dụng chức năng nhớ của máy tính để tính tổng ∑xy = 35 × 14 × 2.75 + 35 × 1 ×
3.25 + .....+ 41 × 59 × 3.5 = 65 818.25 (gồm tổng cộng 12 số hạng)
a. Từ các số liệu trên ta có thể tính các số thống kê như sau:
n=515; ∑xy = 65818.25 ; ∑xy/n=127.80
ước lượng


Biến
độc
Tuổi thai (tuần)

lập:

Biến
phụ
Cân nặng (kg)

Trung bình

39.229

3.2529

độ lệch chuẩn

1.4873

0.36571

Căn Tổng bình phương độ
lệch

19.828

23.98

thuộc:


và tính được hệ số tương quan r
(Σxy ) / n − x × y
n
127.80 − 39.229 × 3.2529 515
r=
×
=
×
= 0.35365
sx × s y
n −1
1.4873 × 0.36571
514
b. Kiểm định r=0
- Xây dựng giả thuyết Ho: r=0 (khơng có sự tương quan giữa tuổi thai và trọng lượng sơ
sinh):
Ha: r>0 (trọng lượng sơ sinh và tuổi thai có tương quan thuận)
- Sử dụng kiểm định t (một đuôi) với 513 độ tự do. Phân phối t với 513 độ tự do có thể
được xem là phân phối chuẩn.
Giá trị t tới hạn: tc = 1.64
- Tính giá trị t
1− r2
1 − 0,35365 2
=
= 0,0017056 = 0,0413
n−2
513
r
0,35365

t=
=
= 8,563
s.e.(r ) 0,0413
s.e.(r ) =

- Tìm p: tra bảng t (bảng student) với vơ cực độ tự do ta có p <0,0001
Hoặc dựa vào t = 8.563 > tc = 1.64, ta kết luận p <0.05
- Kết luận: Bác bỏ giả thuyết Ho với mức ý nghĩa p<0,0001
Như vậy có sự tương quan thuận giữa tuổi thai và trọng lượng sơ sinh (p <0.001). Nếu
chúng ta dựa vào t tới hạn (tc) chúng ta có thể kết luận có sự tương quan thuận giữa tuổi
thai và trọng lượng sơ sinh (p<0.05). Lưu ý: trong trường hợp này việc tra bảng để tìm ra
giá trị p cho kết luận mạnh hơn so với chỉ dựa vào giá trị t tới hạn. Vì vậy nếu điều kiện
cho phép, khi viết báo cáo khoa học, chúng ta nên tra bảng thống kê (hoặc sử dụng
chương trình máy tính) để xác định được giá trị p.
c. Phương trình hồi quy:
Ta có x =39,229; y=3,2529
Hệ số góc b:


b=r

sy
sx

= 0.035365

0.36571
= 0.08696
1.4873



a = y - bx = 3,2529 - 0,08696 × 39,2229 = -0,1585
Như vậy phương trình hồi quy của cân nặng theo tuổi thai là
Cân nặng (kg) = -0,1585 + 0,08696 × tuổi thai
d. Khoảng tin cậy 95% của trọng lượng tiên đoán của trẻ sơ sinh với 40 tuần tuổi thai.
Độ lệch chuẩn hồi quy bằng:
1− r2
1 − 0.35365 2
= 8.2912
= 8.2912 × 0.0413 = 0.34242
n−2
515 − 2
Sai số chuẩn của tiên đoán:
s = ∑( y − y ) 2

 1
( x '− x ) 2 
s.e.( y ' ) = s 1 + +
= 0.34242
2 
 n ∑( x − x ) 

2

1
 40 − 39.229  
+
  = 0.34283
1 +

 515  33.719  

Ứng với tuổi thai tính theo tuần là 40, trọng lượng tiên đoán là:
Cân nặng (kg) = -0.1585 + 0.08696 × 40 = 3.3199
Vì vậy khoảng tin cậy 95% của trọng lượng tiên đốn là:
y' ± tc×s.e.(y')
với tc được tra từ bảng t (hai đuôi) với n-2=513 (xem như là vơ cực) độ tự do. tc=1.96
3.3199 ± 1.96 × 0.34283 = 2.648 đến 3.992 kg
e. Khoảng tin cậy 95% của hệ số góc
Sai số chuẩn của hệ số góc của phương trình hồi quy cân nặng theo tuổi thai
s
0.34242
s.e.(b) =
=
= 0.001032
2
331.79
∑( x − x )
Vì vậy khoảng tin cậy 95% của độ dốc phương trình hồi quy cân nặng theo tuổi thai là:
b ± tc×s.e.(b)
với tc được tra từ bảng t (hai đuôi) với n-2=513 (xem như là vô cực) độ tự do. tc=1.96
0.08696 ± 1.96 × 0.001032 = 0.08494 đến 0.08898 kg/tuần tuổi thai.
Lí giải của khoảng tin cậy trên như sau:Với mức độ tin cậy 95%, khi tuổi thai tăng thêm 1
tuần tuổi, tăng trọng trung bình sẽ nằm trong khoảng từ là 84,94 gram đến 88,98 gram.



×