Thống kê sinh học phần 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.1 MB, 104 trang )

THỐNG KÊ SINH HỌC

55

Chương 4
.
KIỂM ĐỊNH GIẢ THUYẾT

I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA)
Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì
trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu
sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất
không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết
quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu.
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình
này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và
chuyển dạng theo hàm logarit.
Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển
dạng tối ưu nhất.

Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu
(hematocytometer) (Fisher, 1990).

Dữ liệu
Số tế bào máu:

0 1

2

3

4

5

6

7

8

9

10

11

12

Tần số:

0 20

43

53

86

70

54

37

18

10

5

2

2

(1) Nhập dữ liệu vào Minitab

Cách 1. Dùng các lệnh từ thanh Menu
C
alc > Make Patterned Data > Arbitrary Set of Numbers
Store patterned data in: C1
Arbitrary set of numbers: 1 (số tế bào máu)
Numbers of times to list each value: 20 (tần số)
Number of times to list the sequence: 1
Lặp lại
Calc > Make Patterned Data > Arbitrary Set of Numbers
Store patterned data in: C2

Arbitrary set of numbers: 2 (số tế bào máu)
Numbers of times to list each value: 43 (tần số)
Number of times to list the sequence: 1

Tiến hành tương tự với các giá trị còn lại từ 3 đến 12.
Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12.
Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13).
Đặt tên cột này là Count
Data > Stack >/Column
Stack the following columns: C1 – C12
Store stacked data in:
 Column of current worksheet: C13  OK
Data > Display data

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

56

Cách 2. Gõ lệnh vào Session Window

Ed
itor > Enable commands

MTB > SET C1
DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10
DATA> (10)5 (11)2 (12)2
DATA> END
MTB> NAME C1 ‘Count’

MTB > PRINT C1

Kết quả dữ liệu xuất ra trên cửa sổ session như sau

Data Display

Count
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

6 6 6 6 6 6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 8 8 8 8 8 8 8 8 8 8 8 8
8 8 8 8 8 8 9 9 9 9 9 9 9 9 9
9 10 10 10 10 10 11 11 12 12

(2) Mô tả dữ liệu

S
tat > Basic Statistics > Display Descriptive Statistics

Descriptive Statistics: Count

Variable N Mean SE Mean StDev Minimum Q1 Median
Count 400 4.680 0.106 2.114 1.000 3.000 4.000

Variable Q3 Maximum
Count 6.000 12.000

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

57

12.09.67.24.82.4
Median

Mean
5.04.84.64.44.24.0
A nderson-D arling N ormality T est
V ariance 4.4688
S kew ness 0.531363
K urtosis 0.311605
N 400
M inimum 1.0000
A -S quared
1st Q uartile 3.0000
M edian 4.0000
3rd Q uartile 6.0000
M aximum 12.0000
95% C onfidence Interv al for M ean
4.4722
4.94
4.8878
95% C onfidence I nterv al for M edian
4.0000 5.0000
95% C onfidence Interv al for S tD ev
1.9769 2.2716
P -V alue < 0.005
M ean 4.6800
S tD ev 2.1139
9 5 % C o nfidence I nte r vals
Summary for Count

Counts

Probability
129630
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
4.68
StDev 2.114
N 400
A D 4.938
P-Value
Probability Plot of Counts

 Dữ liệu có phân bố lệch dương

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

58

Chuyển dạng căn bậc 2

Minitab output
Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công
cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là
SqrtCnt.

Calc > Calculator

Mô tả dữ liệu trong cột SqrtCnt

S
tat > Basic Statistics > Display Descriptive Statistics

Descriptive Statistics: SqrtCnt

Variable N Mean SE Mean StDev Minimum Q1
SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321

Variable Median Q3 Maximum
SqrtCnt 2.0000 2.4495 3.4641

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

59

3.22.82.42.01.61.2
Median
Mean
2.252.202.152.102.052.00
A nderson-D arling N ormality T est
V ariance 0.2540
S kew ness -0.137839
K urtosis -0.132102
N 400
M inimum 1.0000
A -S quared
1st Q uartile 1.7321
M edian 2.0000
3rd Q uartile 2.4495
M axim um 3.4641

95% C onfidence Interv al for M ean
2.0544
4.50
2.1535
95% C onfidence I nterv al for M edian
2.0000 2.2361
95% C onfidence Interv al for S tD ev
0.4713 0.5415
P -V alue < 0.005
M ean 2.1040
S tD ev 0.5040
9 5 % C o nfidence I nte r vals
Summary for SqrtCnt

SqrtCnt
Probability
4.03.53.02.52.01.51.00.5
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2

0.1
0.05
0.01
0.001
Mean
<0.005
2.104
StDev 0.5040
N 400
A D 4.497
P-Value
Probability Plot for Square Root Count

Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa
đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và
histogram có đối xứng.  Chuyển dạng thành công.

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

60

Chuyển dạng Log
Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’)
sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm
Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô
Expression.

Minitab output

Calc > Calculator

Mô tả dữ liệu trong cột LogCnt

Stat > Basic Statistics > Display Descriptive Statistics

Descriptive Statistics: LogCount

Variable N Mean SE Mean StDev Minimum Q1
LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986

Variable Median Q3 Maximum
LogCount 1.3863 1.7918 2.4849

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

61

2.42.01.61.20.80.40.0
Median

Mean
1.601.551.501.451.40
A nderson-D arling N ormality T est
V ariance 0.2776
S kew ness -0.868773
K urtosis 0.707780
N 400
M inimum 0.0000
A -S quared
1st Q uartile 1.0986
M edian 1.3863
3rd Q uartile 1.7918
M axim um 2.4849
95% C onfidence Interv al for M ean
1.3716
9.39
1.4752
95% C onfidence I nterv al for M edian
1.3863 1.6094
95% C onfidence Interv al for S tD ev
0.4927 0.5662
P -V alue < 0.005
M ean 1.4234
S tD ev 0.5269
9 5 % C o nfidence I nte r vals
Summary for LogCount

LogCount

Probability
3.02.52.01.51.00.50.0
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
1.423
StDev 0.5269
N 400
A D 9.388
P-Value
Probability Plot of LogCount

Chuyển dạng không phù hợp (quá mạnh). Biên trái (Left hand tail) có số lạ
(outlier)

Thí dụ 2. Số nang trứng trong các mẫu phân của 100 con dê
Dữ liệu có phân bố lệch dương (trang 30)

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

62

Chuyển dạng căn bậc hai
Calc > Calculator
Stat > Basic Statistics > Display Descriptive Statistics

Descriptive Statistics: SqrtOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29

140120100806040
Median
Mean
75.072.570.067.565.0
A nderson-D arling N ormality T est
V ariance 490.039
S kew ness 0.806398
K urtosis 0.471601
N 100
M inimum 34.641
A -S quared
1st Q uartile 53.852
M edian 67.082
3rd Q uartile 81.700

M aximum 146.287
95% C onfidence Interv al for M ean
66.782
1.30
75.567
95% C onfidence I nterv al for M edian
63.624 73.659
95% C onfidence Interv al for S tD ev
19.436 25.716
P -V alue < 0.005
M ean 71.175
S tD ev 22.137
9 5 % C o nfidence I nte r vals
Summary for SqrtOocy

SqrtOocy
Probability
160140120100806040200
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2

0.1
0.05
0.01
0.001
Mean
<0.005
71.17
StDev 22.14
N 100
A D 1.299
P-Value
Probability Plot of SqrtOocy

Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

63
Chuyển dạng Log
Calc > Calculator
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: LogOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3
LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061

Variable Maximum
LogOocy 9.9711

9.69.08.47.87.2

Median
Mean
8.608.558.508.458.408.358.30
A nderson-D arling N ormality T est
V ariance 0.3688
S kew ness 0.099690
K urtosis -0.459615
N 100
M inimum 7.0901
A -S quared
1st Q uartile 7.9725
M edian 8.4118
3rd Q uartile 8.8061
M axim um 9.9711
95% C onfidence Interv al for M ean
8.3180
0.24
8.5590
95% C onfidence I nterv al for M edian
8.3059 8.5989
95% C onfidence Interv al for S tD ev
0.5332 0.7055
P -V alue 0.757
M ean 8.4385
S tD ev 0.6073
9 5 % C o nfidence I nte r vals
Summary for LogOocy

LogOocy
Probability

109876
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
0.757
8.438
StDev 0.6073
N 100
A D 0.244
P-Value
Probability Plot of LogOocy
Normal

Chuyển dạng thành công – Phân bố đối xứng
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

64

II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT
Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng
thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay
sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm
định giả thuyết (hypothesis testing).
Giả thuyết đưa ra kiểm định được ký hiệu là H
0
và được gọi là giả thuyết
không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài
ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate
hypothesis), ký hiệu là H
1
. H
1
sẽ được chấp nhận khi H
0
bị bác bỏ.
Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách
nào?. Các nhà thống kê đều nhất trí nguyên lý sau:
“Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ
không xảy ra”
Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H
0
nếu xác suất xuất hiện
của một sự kiện quan sát được là “nhỏ”

Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 10
2

). Ở một
giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị
quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của
giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác?

Cách giải:
Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày.
Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc <275 ngày
(nghĩa là m  10 ngày).
Xác suất của biến cố này là:
P(X < 275 hoặc X>295)
=
275 285 295 285
or
10 10
P Z Z
 
 
 
 
 

= P (Z < -1 hoặc Z > 1)
= 2 * P(Z < - 1)
= 2 * 0.1587 = 0.3174
275
0.159 0.159
295

Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết

trung bình tổng thể là 285 ngày.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

65
Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305
ngày. Ta có thể kết luận gì?

Cách giải:
Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m < 265 ngày
Xác suất của biến cố này là:
P(X < 265 hoặc X>305)
=
265 285 305 285
or
10 10
P Z Z
 
 
 
 
 

= P (Z < -2 hoặc Z > 2)
= 2 * P(Z < - 2)
= 2 * 0.0228 = 0.0456

265 305
0.02280.0228

Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình
tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý
nghĩa so với 285 ngày.
Khi phải lựa chọn giữa hai giả thuyết H
0
và H
1
, ta có thể phạm một trong hai
loại sai lầm:
(1) Bác bỏ H
0
khi thực ra H
0
là đúng  sai lầm loại I
(2) Chấp nhận H
0
khi thực ra H
0
là sai  sai lầm loại II
Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây:

Kết luận

Thực tế
Chấp nhận H
0
Bác bỏ H
0

H
0
đúng Kết luận đúng Sai lầm loại I
H
0
sai Sai lầm loại II Kết luận đúng

III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH)
1. Kiểm định Z
Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn,
trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 10
2
).
Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò:
307 293 293 283 294 297
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

66

Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có
bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác
với 285 ngày?

Cách giải:
Giả định  = 10 ngày dùng z-test

Giả thuyết không: H
0
: m = 285 ngày

Giả thuyết đối: H
1
: m  285 ngày
với m = trung bình thời gian mang thai của giống bò mới
x
= (307+293+293+283+294+297)/6 = 294.5 ngày
Kiểm định:
2
( ) ( )
( )
/
x x
z
se x
n
m m

 
 

Trong thí dụ trên

2
294.5 285
2.33
10 / 6
z

 

Nếu giả thuyết H
0
là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc
(standard normal distribution).
Chúng ta tính xác suất để:

( 275.5 294.5)
( 2.33 2.33)
2* ( 2.33)
2*0.010 0.020
or
= or
=
=
P P x x
P Z Z
P Z
  
  
 


- 2.33
0.01
2.33
0.01

Nếu H
0
là đúng, chỉ có 2% cơ hội để nhận được giá trị này của

x
. Do đó chúng ta
bác bỏ giả thuyết H
0
.

Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý
nghĩa so với 285 ngày.
Tổng quát:
P < 0.05 (ít hơn 1/20)  bác bỏ H
0

P > 0.05 (lớn hơn 1/20)  chấp nhận H
0

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

67
Khi H
0
được chấp nhận cũng chưa có nghĩa là H
0
hoàn toàn đúng; cỡ mẫu có thể
quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H
0
bị bác bỏ, vẫn có khả
năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi
H

0
đúng.

Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ
epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay
đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây
mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml
-1
và độ lệch chuẩn là 0.2
ng.ml
-1
.

Các bước tiến hành
Bước 1. Nhập liệu

Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này:
0.64 0.74 0.48 0.66 0.34 0.70

Bước 2. Mô tả dữ liệu

S
tat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’

Descriptive Statistics: Hormone

Variable N Mean SE Mean StDev Minimum Median Maximum
Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400

Bước 3. Kiểm tra tính phân bố chuẩn

Graph > Boxplot …/Simple
0.80.70.60.50.40.3
Hormone

Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ
(outlier).

Bước 4. Kiểm định

Stat > Basic Statistics > 1-sample Z…/
Samples in Columns: Hormone
Standard deviation: 0.2
Test mean: 0.4
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

68

One-Sample Z: Hormone

Test of mu = 0.4 vs not = 0.4
The assumed standard deviation = 0.2

Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.081650

Variable 95% CI Z P
Hormone (0.433303, 0.753364) 2.37 0.018

Giả thuyết không và giả thuyết đối được viết bởi Minitab là:

Test of mu = 0.4 vs not = 0.4
Chúng ta sẽ viết lại như sau:
Giả thuyết không: H
0
: m = 0.4 ng.ml
-1

Giả thuyết đối : H
1
: m ≠ 0.4 ng.ml
-1
Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng
phương pháp gây mê mới.

Bước 5. Kết luận

Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp
gây mê mới

2. Kiểm định t

Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định
rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống
cũ. Kết quả phân tích sẽ thay đổi như thế nào?

Cách giải

Không thể giả định  = 10 ngày  dùng t-test

Giả thuyết không: H
0
: m = 285 ngày
Giả thuyết đối: H
1
: m  285 ngày
x
= 294.5 ngày và s = 7.74 ngày
Kiểm định

2
( ) ( )
/
x x
t
se
s n
m m
 
 
độ tự do: df = n – 1

Trong thí dụ trên:

2
294.5 285 9.5

3.01
3.16
(7.74) / 6
t

  
df = 6 – 1 = 5
nếu giả thuyết H
0
là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

69
7.55.02.50.0-2.5-5.0
0.4
0.3
0.2
0.1
0.0
z
t

Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch
chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ
tự do tăng lên, t  phân bố chuẩn.
Giá trị P của t-test là:
P =
( 275.5 or 294.5)

P x x
 

=
5 5
( 3.01 or T 3.01)
P T   

=
5
2* ( 3.01)
P T  

= 2*0.0015 = 0.03
Kết luận: Vì P < 0.05 nên ta bác bỏ giả thuyết H
0
và kết luận rằng giống bò mới có
thời gian mang thai dài hơn.

Thí dụ 2: giống thí dụ trong kiểm định z

Bước 4. Kiểm định

Stat > Basic Statistics > 1-sample t…/
Samples in Columns: Hormone
Test mean: 0.4

One-Sample T: Hormone

Test of mu = 0.4 vs not = 0.4

Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.062325

Variable 95% CI T P
Hormone (0.433121, 0.753546) 3.10 0.027

3.

Khoảng tin cậy của trung bình tổng thể (m)
Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một
giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp
với trung bình mẫu
x
?
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

70

Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval)
Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân
bố chuẩn N(285, 10
2
). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới,
giá trị trung bình mẫu là
x
= 294.5 ngày.

Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai

tổng thể, ta sẽ có  = 10 ngày và xác định khoảng tin cậy cho kiểm định z.

( /2) 2 (0.025)
* / *
x z n x z se


  

Trong đó z
(/2)
= z
(0.025)

= 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc.
Trong thí dụ trên
2
95% CI 294.5 1.96* 10 / 6 294.5 8.00 (286.5, 302
.5)
    

Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò
mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5
ngày.

Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với
phương sai tổng thể, ta sẽ phải ước lượng  bằng độ lệch chuẩn mẫu s và dùng
khoảng tin cậy cho kiểm định t.

( /2) 2 (0.025)
1
* / *
df n
x t s n x t se


  

Trong đó
/2 (0.025)
1df n
t t



là đuôi bên phải của phân bố t với độ tự do df = n – 1.

Trong thí dụ trên:
độ lệch chuẩn mẫu là s = 7.74 ngày
với df = n – 1 = 5 thì
(0.025)
5
t
= 2.57
2
95% CI 294.5 2.57* 7.74 / 6 294.5 8.1 (286.4, 30
2.6)
    

Như vậy một lần nữa ta có thể tin đến 95% rằng trung bình thời gian mang thai của
giống bò mới nằm đâu đó trong khoảng 286.4 đến 302.6 ngày.

Lưu ý:
- khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z.
- ta cũng có thể tính khoảng tin cậy 99% và 99.9%.
- Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI.

IV. KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU)
Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu
trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của
chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua
các phương pháp kiểm tra thống kê sinh học. Mục đích nhằm khẳng định giữa các
số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có
ý nghĩa thống kê ở mức độ bao nhiêu.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

71
1. Hai mẫu độc lập, phương sai bằng nhau
Thí dụ: So sánh trọng lượng của hai giống bò. Giống 1 khảo sát 12 con, giống 2
khảo sát 15 con. Kế quả ghi nhận được như trong bảng 4.1
Bảng 4.1. Trọng lượng (kg) của hai giống bò (Peter, 2001)

Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3
203.8
190.2 201.0 194.7 221.1 186.7 203.1

Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3

163.5 146.6 162.4 140.2 159.4 181.8
165.1 165.0 141.6

Dữ liệu thống kê mô tả cho thấy:

Giống 1 Giống 2
Trung bình mẫu (kg)
Độ lệch chuẩn mẫu (kg)
196.2
10.62
153.7
12.3
Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không?
Số liệu thu thập được có dạng:

1
11 12 13 1
, , , ,
n
x x x x
nhóm mẫu 1

2
21 22 23 2
, , , ,
n
x x x x

nhóm mẫu 2
trong trường hợp trên n

1
= 12 và n
2
= 15

Các số liệu có thể được mô hình hóa dưới dạng:
[ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ]

x
ij
= m
i
+ 
ij

i = 1, 2 (nhóm mẫu) j = 1, 2, , n
i
(số lần lặp lại của mỗi mẫu)
Ở thí dụ trên:
m
1
= trung bình trọng lượng của bò (kg) thuộc Giống 1
m
2
= trung bình trọng lượng của bò (kg) thuộc Giống 2

Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh
hai trung bình mẫu. Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải
thỏa các yêu cầu:

(1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau.
(2) Dữ liệu có phân bố chuẩn, x
ij
~N(m,
2
), cở mẫu nhỏ (n < 30)
(3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau.

Có thể so sánh hai phương sai mẫu bằng hai cách:

Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn

độ lệch chuẩn lớn nhất

độ lệch chuẩn nhỏ nhất

<1.5

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

72

trong thí dụ trên: s
2
/s
1
= 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần
bằng nhau.

Cách 2: Tiến hành kiểm tra F (F test)

Stat > Basic Statistic >/ 2 Variances
Tuỳ chọn:
 Samples in one column
 Samples in different column
 Sumarized Data  OK

Kết quả:
2
1
2220181614121086
Test Statistic 0.74
P-Value 0.631
F-Test
Test for Equal Variances

Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau.

Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai
phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt
nhau.
X
m1
m2

Giả thiết:
H
0

: m
1
= m
2
H
1
: m
1
 m
2

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

73
Công thức tính t :

1 2 1 2
2
1 2
1 1
( )
p
x x x x
t
se
s
n n
 

 


trong đó
2
)1()1(
21
2
22
2
11



nn
snsn
s
p
sp là độ lệch chuẩn gộp (p = pool)

2)1()1(
2121
 nnnndf
df = độ tự do (degree of freedom)

Như vậy trong thí dụ về trọng lượng bò nêu trên:

1 2

196.2 153.7 42.5 kg
x x   

2 2
2
11*(10.62) 14*(12.30)
134.33 kg
25
p
s

 

134.33 11.59 kg
p
s  

Cần lưu ý rằng s
p
phải luôn luôn nằm trong khoảng giữa s
1
và s
2

10.62 kg <s
p
<12.30 kg.

Sai số chuẩn (se) cho sự khác biệt của hai trung bình là:

1 1
134.33 4.489 kg
12 15
se
 
  
 
 

Do đó:
1 2
42.5
9.46
4.489
x x
t
se

  
với độ tự do df = 12+15 – 2 =25
Nếu giả thuyết H
0
(nghĩa là m
1
= m

2
) là đúng thì t = 9.46 thuộc phân bố t với độ tự
do =25.
Giá trị P cho kiểm định t là:

1 2 1 2
( 42.5 or 42.5)
P P x x x x     

=
25 25
( 9.46 or 9.46)
P T T  

=
25
2 x ( 9.46)
P T  

= 2 x 0.0000 = 0.0000
Nhận xét: Kết quả cho thấy

P (hai đuôi) < 0.05  giả thiết H
0
bị bác bỏ  sự sai khác của hai trung bình mẫu là
có ý nghĩa về mặt thống kê với độ tin cậy 95%  giống thứ nhất có trọng lượng lớn
hơn giống thứ hai.

Khoảng tin cậy (Confidence Interval) cho sự sai khác giữa hai trung bình mẫu.
Ước lượng tốt nhất cho hai trung bình tổng thể m

1

và m
2
là hai trung bình mẫu
1
x
và
2
x
. Do đó ước lượng tốt nhất cho sự khác biệt m
1
- m
2
là
1 2
x x

, gọi là ước lượng
điểm (point estimate).
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

74

Trong thí dụ trên hiệu giữa hai trung bình mẫu là
kgxx 5.42
21

cho thấy nếu tính

trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg.
Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau:
1 2
( /2) 2 (0.025)
1 2 1 2 2
1 2
1 1
* *
df n n
x x t s x x t se
n n

 
 
     
 
 

trong đó
1 2
(0.025)
2
n n
t
 
là đuôi bên phải (2.5%) của phân bố t với độ tự do là n
1
+ n
2
– 2.

vì n
1
+ n
2
-2 = 25, t
2
= 2.06 và se =
)
15
1
12
1
(*33.134 
= 4.489 kg nên:
95% CI = 42.5 kg  2.06 x 4.498 = (33.2 , 51.7) kg

Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu
nằm trong khoảng từ 33.2 kg đến 51.7 kg.

Cách tính bằng Minitab: Worksheet: Cattle weights
Bước 1. Kiểm tra sự giống nhau giữa hai độ lệch chuẩn

Stat > Basic Statistics > Display Descriptive Statistics

Descriptive Statistics: Group A, Group B

Variable N Mean StDev Minimum Q1 Median Q3 Maximum
Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10
Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80

Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 
1
= 
2
Như vậy có thể dùng phương pháp kiểm tra t gộp.

Bước 2. Kiểm tra sự phân bố chuẩn
Graph > Boxplot / Multiple Y’s/Simple

Group B
Group A
230220210200190180170160150140
Trọng lượng (kg)

Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

75
Bước 3. Kiểm định t gộp (pooled t-test)

Stat > Basic Statistics > 2-Sample t /
Sample in different columns
Assume equal variances

Two-Sample T-Test and CI: Group A, Group B

Two-sample T for Group A vs Group B

N Mean StDev SE Mean

Group A 12 196.2 10.6 3.1
Group B 15 153.7 12.3 3.2

Difference = mu (Group A) - mu (Group B)
Estimate for difference: 42.4750
95% CI for difference: (33.2301, 51.7199)
T-Test of difference = 0(vs not =):T-Value = 9.46
P-Value = 0.000 DF = 25
Both use Pooled StDev = 11.5901

Bước 4. Nhận xét và kết luận (giống như trên)

2. Hai mẫu độc lập, phương sai không bằng nhau
Trong trường hợp hai mẫu có phương sai không bằng nhau (tỉ lệ giữa hai độ lệch
chuẩn > 1.5 hoặc giá trị P của F-test <0.05) thì có hai cách để tiến hành so sánh và
kiểm định (1) dùng phương pháp kiểm định t-Satterthwaite, (2) chuyển dạng số liệu
để các phương sai bằng nhau.

Thí dụ (Peter, 2001)
Một thí nghiệm về sinh lý động vật được tiến hành nhằm nghiên cứu sự thu nhận
nước của hai loài lưỡng thê. Cóc và ếch được nhúng chìm trong nước hai giờ. Tỉ lệ
phần trăm tăng trọng của chúng chúng được ghi nhận trong bảng 4.2.

Bảng 4.2. % tăng trọng của cóc và ếch sau 2 giờ nhúng ngập nước

Cóc 2.31 25.23 28.37 14.16 28.39 27.94 17.68
Ếch 0.85 2.90 2.47 17.72 3.82 2.86 13.71 7.38
Dữ liệu thống kê mô tả cho thấy:
Trung bình

Độ lệch chuẩn

Ếch

6.46 6.10
Cóc

20.58 9.84

Cóc hay ếch có khả năng thu nhận nước nhiều hơn?
Vì hai nhóm có độ lệch chuẩn rất khác nhau (ếch: 6.10 ; cóc: 9.84): 9.84/6.10 = 1.61
> 1.50 nên không thể dùng phương pháp kiểm tra t gộp.

Giả thiết:
H
0
: m
1
= m
2
H
1
: m
1
 m
2

Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH

76

Phương pháp tính
Cách 1. Dùng phương pháp kiểm định t Satterthwaite

a. Dùng các hàm để tính :
t tính (t Stat)
)//(
2
2
21
2
1
21
nsns
xx
t




độ tự do


1
)/(
1
)/(
)/()/(

2
2
2
2
2
1
2
1
2
1
2
2
2
21
2
1





n
ns
n
ns
nsns
df
(làm tròn)

khoảng tin cậy

)/()/(.
2
2
21
2
12/21
nsnstxx 


b. Dùng Minitab :
Bước 1. Nhập liệu
Nhập dữ liệu vào bảng tính. Cột C1 chứa dữ liệu, tên nhãn là %Change, cột
C2 chứa nhóm, tên nhãn là Species.
Data Display

Row

%C
hange
Species

Row

%Change
Species

1
2

3
4
5
6
7
2.31
25.23
28.37
14.16
28.39
27.94
17.68
Toad
Toad
Toad
Toad
Toad
Toad
Toad

8
9
10
11
12
13
14
15
0.85
2.90

2.47
17.72
3.82
2.86
13.71
7.38
Frog
Frog
Frog
Frog
Frog
Frog
Frog
Frog

Bước 2. Mô tả dữ liệu

Stat > Basic Statistics > Display Descriptive Statistics…/
Variables: %Change
By Variable: Species

Descriptive Statistics: %Change

Variable Species N Mean SE Mean StDev Minimum
%Change Frog 8 6.46 2.16 6.10 0.850
Toad 7 20.58 3.72 9.84 2.31

Variable Species Q1 Median Q3 Maximum
%Change Frog 2.57 3.36 12.13 17.72
Toad 14.16 25.23 28.37 28.39

G
raph > Boxplot…/ One Y/With Groups
Graph Variables: %Change
Categorical variables for grouping: Species
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

77

Toad
Frog
302520151050
Species
%Change
Boxplot of %Change

Hai nhóm có độ lệch chuẩn rất khác nhau (Ếch: 6.10 vs Cóc: 9.84) vì vậy không thể
dùng phương pháp kiểm định t gộp. Boxplot cũng cho thấy phương sai không bằng
nhau. Do đó ta phải dùng kiểm định t Satterthwaite.

Bước 3. Kiểm định

Stat > Basic Statistics > 2-sample t…/Samples in one column
Samples: ‘%Change’
Subscripts: Species
Assume equal variances
:
không check

 kiểm định Satterthwaite

Two-Sample T-Test and CI: %Change, Species

Two-sample T for %Change

Species N Mean StDev SE Mean
Frog 8 6.46 6.10 2.2
Toad 7 20.58 9.84 3.7

Difference = mu (Frog) - mu (Toad)
Estimate for difference: -14.1191
95% CI for difference: (-23.8430, -4.3952)
T-Test of difference = 0 (vs not =): T-Value = -3.28
P-Value = 0.009 DF = 9

Bước 4. Nhận xét & Kết luận
Qua kết quả phân tích ta thấy P = 0.009 < 0.05 chứng tỏ cóc thu nhận nhiều
nước hơn ếch.

Simpo PDF Merge and Split Unregistered Version -

BÙI TẤN ANH

78

Cách 2. Chuyển dạng số liệu (chuyển dạng log)

Bước 1. Đặt nhãn cho cột C3 là ‘log cha’. Chuyển toàn bộ số liệu trong cột C1 sang
log cơ số e.

Calc > Calculator…/
Store result in variable: ‘log cha’
Functions: Natural log
Expression: LOGE( ‘%Change’ )

Row

log cha Species

Row

log cha Species

1
2
3
4
5

6
7
0.83725

3.22803

3.34533

2.65042

3.34604

3.33006

2.87243

Toad
Toad
Toad
Toad
Toad
Toad
Toad

8
9
10
11
12
13

14
15
-0.16252

1.06471
0.90422
2.87469
1.34025
1.05082
2.61813
1.99877

Frog
Frog
Frog
Frog
Frog
Frog
Frog
Frog

Bước 2. Mô tả dữ liệu

Stat > Basic Statistics > Display Descriptive Statistics…/
Variables: log cha
By Variable: Species

Descriptive Statistics: log cha

Variable Species N Mean SE Mean StDev Minimum
log cha Frog 8 1.461 0.351 0.994 -0.163
Toad 7 2.801 0.343 0.907 0.837

Variable Species Q1 Median Q3 Maximum
log cha Frog 0.941 1.202 2.463 2.875
Toad 2.650 3.228 3.345 3.346

Phương sai hai mẫu đã xấp xỉ nhau  có thể dùng phương pháp kiểm định t gộp.

Graph > Boxplot…/ One Y/With Groups
Graph Variables: log cha
Categorical variables for grouping: Species

Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC

79

Species
log cha
ToadFrog
3.5
3.0
2.5
2.0

1.5
1.0
0.5
0.0
Boxplot of log cha vs Species

Bước 3. Kiểm định t gộp.

Stat > Basic Statistics > 2-sample t…/Samples in one column
Samples: ‘log cha’
Subscripts: Species
Assume equal variances
:
check

Two-Sample T-Test and CI: log cha, Species

Two-sample T for log cha

Species N Mean StDev SE Mean
Frog 8 1.461 0.994 0.35
Toad 7 2.801 0.907 0.34

Difference = mu (Frog) - mu (Toad)
Estimate for difference: -1.34023

95% CI for difference: (-2.40782, -0.27264)
T-Test of difference = 0 (vs not =):
T-Value = -2.71 P-Value = 0.018 DF = 13
Both use Pooled StDev = 0.9548

Bước 4. Nhận xét & Kết luận
Cũng giống như trên, cóc thu nhận nhiều nước hơn ếch (P = 0.018). Ở thang log sự
khác biệt là 2.80 - 1.46 = 1.34. Chuyển dạng ngược lại (chọn Calc > Calculator .>
Function Exponentiate) e
1.34
= 3.81, nghĩa là trung bình cóc tăng trọng gấp 3.81 lần
so với ếch.
Simpo PDF Merge and Split Unregistered Version -

Thống kê sinh học phần 2

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về