Tải bản đầy đủ (.pdf) (159 trang)

Công nghệ sinh học và việc ứng dụng tin học: Phần 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (34.96 MB, 159 trang )

Ch ương 5
XỬ LỶ THỐNG KÊ s ó LIỆU NGHIÊN c ứ u SINH HỌC

5.1. M Ơ H ÌN H H O Á Q U Y L U Ậ T C Ấ U TR Ú C T Ấ N s ố

5.1.1. Ý n g h ĩ a c ủ a v iệ c m ơ h ì n h h o á q u y l u ậ t c ấ u t r ú c t ầ n s ố
Việc mơ hình hố các quy luật cấu trúc tần sơ" trong thực tiễn và
trong nghiên cứu Sinh, Y, Nịng, Lâm nghiệp có ý nghĩa to lớn. Một một,
nó cho biết các quy luật phân bô vốn tồn tại khách quan trong tổng thể,
m ặt khác, các quy lu ật phân bổ này có thể biểu thị một cách gần đúng
b ằng các biểu thức toán học cho phép xác định t ầ n sô" tuyệt dối tương
ứng với mỗi m ẫu của đại lượng điểu tra nào đó.

Ví dụ: Sự phụ thuộc của trao đổi cơ bản (tính bằng Kcal/kg khôi
lượng cơ th ể trong 24 giờ) vào khối lượng của các con vượn gam arin được
th ể hiện bằng đường hồi quy hyperbol giủa khôi lượng các con vật tính
bằng kg và hàm Y chỉ sự trao đổi chất cơ bản (Kcal/ kg cơ th ể trong 24
giờ). Q u an sát sự ph át triển của các con khỉ đực giơng khỉ mõm dài
trong thịi kỳ th à n h thục sinh sản cho thấy rằng sự p h á t triển cơ thế
(kg) biến đổi theo tuổi (tính theo nỏm). Quy luật p h ân bố* sơ' cây theo
đường kính th â n (n/Dj ;), quy luật phân bô" sô" cây theo chiều cao (n/Hv(l)
được xem là nhữ ng quy luật phân bô' quan trọng n h ấ t của quy luật kết
cấu lâm phần, biêt được các quy luật phân bỏ này, có thế dễ dàng xác
định dược sơxcây tương ứng từng cỡ đường kính hay câ chiều cao, làm cơ
sở xây dựng các loại biểu chuyên dùng phục vụ kinh doanh rừng: Biểu
th ể tích, biểu thương phẩm, biểu sản lượng,...
N ắm được các quy luật phân bơ cịn là cù sỏ để xác định các phương
pháp thông kê ứng dụng, chảng hạn, nếu tống thể có phân bỏ' chuẩn thì
việc ưốc lượng tru n g bình tống thể có thể dùng m ẫu nhỏ theo tiêu chuẩn
t của S tudent, còn nêu tổng thể khơng tn theo luật chuẩn thì phải



C h jo n g

5. XỬLÝTHỐNG KẺsố HÉUNGHIẾNcửu SINHHỌC

_

____107

ílùng mẫu lỏn để ước lượng theo tiêu chuẩn u của phân bơ chu ẩn
‘‘huấn, ...

tièu

Có nhiều p h ân bỏ lý thuyct khác nhau, trong tài liệu này chúng tôi
tập trung giới thiệu một sơ" phương pháp ỈÌ1 Ơ hình hố 3 quy luật phân
bỏ lý thuyết thường gặp trong Sinh, Y, Nông, Lâm nghiệp: P h â n bô' mũ,
phân bo'Weibull, phản bô"khoảng cách vỏi ngôn ngữ của phẩn mềm Excel.

5.1.2. M ột sô p h â n bô lý th u y ế t th ư ờ n g gập
5 .1.2.1. P h á n bò g iả m (plutn b ố m ủ h à m M eyer)

Biến ngẫu nhiên liên tục X có phân bơ mù, nếu hàm m ật độ xác suất
có dạng:

Px (x) = y = x e 'llx

(5.1)

Chăng hạn trong lâm nghiệp, thường dùng phân bô" giảm dạng hàm

Meyer (õ.l) để mô phỏng quy luật cấu trúc tầ n sơ" cây theo đưịng kính
(n/Dj Ằ) ỏ những lâm phan hổn giao, khác tuối qua khai thác chọrụ khỏng
quy tắc nhiều lần, vối y là sơ" cây, X là cỏ đương kính.
Đổ xác định các tham sơ của phân bơ, trước hết phải tuyến tính hố
phưdng trình (5.1) bằng cách lơgarit hố cơ sơ" 10 hai v ế của (5.1):
• lgy = 1go. - p X lge X X
Đặt:

lg y = ỷ
lg a = a
-p X lge = b

N hận được phương trình hồi quy tuyến tính 1 lớp:
ý = a + bx

(5.2)

Để xác định các tham số’ a và b của hồi quy tuyến tính 1 lớp (Õ.2),
dùng phương pháp binh phương tối thiêu vói hệ phương trìn h tiêu
chuẨn sau:

n

n

2 > i = n a .b £ x j
'

JL1




Yy j Xj = a ỷ x j - b g x f
i=l
i=l
i=l

( 5 -3 )


ƯNG DỤNG TIN HỌC TRONG SINH HCC

108

Giải hệ phương trình tiêu chuẩn (Õ.3) sẽ xác định được các tham sô" a
và b cũng như xác định được các mức độ liên hệ giữa hai đại lượng y và x:
b=

Qxy

(5.4)

Qx

(5.5)

a = ỹ - bx
Q xy

r=


(5.6)

■ y /Q x Q y

("
» .
M

Trong đó:

V

I “

(5.7)

n

... t (f> .
(5.3)

i~í
n

Qxy = z * . y .

n
'JL




Vi=i

Ai =i

ẴxiI í yi

i=l

n

/

(5.9)

Chú ý: Trên đây trình bày 1 trong những phương pháp xác định các
th am sô"của phương trình hồi quy tuyến tính 1 lớp dựa vào các tổng biỏn
sai. Trong phần phân tích thơng kê nhiều biến sị' sẽ trình bày kỹ hơn về
vấn đê phân tích mối liên hệ giữa các đại lượng (Chương 6. P h ân tích
tương quan hồi quy).
Sau khi xác định được các tham số a và b của liên hộ tuyến tính 1
lớp, các tham sơ”a và p của các phân bơ' giảm sẽ là:
a = 10“

(5.10)

và p = -b/lge

(5.11)


Ví dụ:
Kiểm định ph ân bơ" sơ'cây theo đưịng kính và giả thiêt về luật phân
bô" n/D13, theo tài liệu điều tra trên ơ tiêu chuẩn điển hình 2000 in
trạn g th ái rừng IIIAị.


Ch:/ơng_5 XỬ LÝ THĨNG KẺ-SỊ LIỆU NGHIẾN cứu SINH HO C_____________ 109
B á n g 5 .1 : Kiểm định phản bò n/D,

3 theo

hàm Meyer trạng thải rừng IIỈA,

A

B

c

D

E

F

G

H


1

D,3(x)

f,

iof,(y)

X2

y2

X Xy

Ft

Kiểm tra

2

8

13 1 113943

64

1.24087

8.91154


20.95594

3.02048

3

12

17 1 230449

144

1.514

14.7653

15.95714

0 06815

4

16

14 1 146128

256

1.3136


18.3380 12.15074

0.28144

5

20

10

1

400

1

20

9.252318

0 06042

24

11

1 041393

576


1 0845

24.9934

7 045281

2.21989

784 0.714191

23.6627

5 364708

0.02184

0 30103

1024 0 090619

963296

4.085017

74 6 678041

3248 6.957792

120 304


74.81115

I 6
I

28

7 0.845098

8

32

2

9

140

10

20

ì 7

X2x=

0.954

11


Qx=

448

12

Qy=

0.586902

13

Q^=

-13.2567

15

r=

-0.81755

16

b=

-0.02959

a= 35.1419


17

a=

1 545826

p=

5.9134

14

0.06808

Trình tự thực hiện như sau:


P h ư ơ n g p h á p lín h 5. / (P P T 5.1)

- Bước 1: Nạp sơ" liệu vào bảng tính:
+ Cột A (từ A2 đến A8) là cõ đường kính (D j ¿).
+ Cột B (từ B2 đến B8) là tần sô" tương ửng (f,).
- Bưỏc 2: Logarit tần sô"f„ kết quả để ỏ cột c (từ C2 đến C8). Để tính
logarit tầ n sô" f, bàng chức nãng hàm Wizard làm như sau:


110

ƯNG DỤNG TIN HỌC TRONG SINH \ \ọz


+ Chọn fx trên th a n h công cụ chuẩn hộp thoại Function Wizard step
1 of 2 chọn Function Category.
+ Trong hộp thoại Function Category chọn Math & Trig.
+ Trong hộp thoại Function Name chọn Log. Bấm trên nút Next.
Hộp thoại Function Wizard step 2 of 2 hiện ra. Chọn Number và đưa đủi
mục vào hàm, cụ thể ở ví dụ này dịi mục là ơ B2.
+ Copycơng thức tính logarit ở ô C2 cho các ô còn lại (từ ô C3 đcn
ƠC8).
- Bưốc 3: Tính bình phương và tích sơ"các trị sô* quan sát của biến y
và kết quả ở các cột D (Từ D2 đến D8), cột E (từ E2 đến E8), cột F (từ
F2 đến F8) bằng cách nạp công thức 1 lần cho các ỏ D2 (=A2A2), ô
E2 (=C2A2), và F2 (=A2*C2), sau đó Copy cho các ơ cịn lọi.
- Bước 4: Tính Ix, ly , Ix", ly-’, Ix.y. Kết quả tính các tổng này đê ỏ
hàng 9
- Bước 5: Tính trị sơ" trung bình của biên X và biến y, kết quả dô ỏ ô
A10 và CIO.
- Bưóc 6: Tính các tổng biên sai QX,QVvà QXy, kết quả đê ơ các ô 1)11,
D12, D13, trê n cd sỏ các cơng thức (5.7), (5.8), (5.9).
- Bước 7: Tính hệ số tương quan r (công thức 5.6), kết quả để ỏ ơ Dlõ.
Tính hệ sơ" hồi quy b (cơng thức 5.4), kết quả để ở ơ D16.
Tính hệ sơ"a (cơng thức 5.5), kêt quả để ỏ ơ D17.
- Bưóc 8: Tính tham sơ' p và a theo các cơng thức (5.10), (5.11), kết
quả để ở ô F16 và F17.
- Bưóc 9: Tính tần sơ' lý thuyết (f|t) cho từng cỏ đưịng kính. Có 2
cách tính tầ n sổ» lý thuyết này:
• Cách thứ nhất: Tính tần số lý thuyết từ phương trình hồi quy
tuyến tính một lớp: ỷ =1,5458261 - 0,02959.x. và ý = l g f n e n đổi
logarit ỳ sẽ nhận cỉược tần số’ lý thuyết tương ứng mỗi cõ đường
kính.

• Cách thứ hai: Tính tần sơ" lý thuyết từ phương trình chính tăc
của phân bơ" mũ:


a = lga nên a = 10" = 35.1419

(ơ F17)


Chưcng 5. xử LÝ THỐNG KÍ SỎ LIẾU NGHIÊN cửu SINH HOC

111
(ị F 16)

Phương trình chính tắc phân ho’cây (heo đường kính (n/ Dj ) có dạng:
f(x) = 35.1419. e
Kêt q tính tần sỏ lý tlìuyet (f.) theo phương trình chính tắc để ỏ
( ộ ; ( (tií C«2 dén (Ỉ 8 ), bang cách nạp công thức 1 lan cho ỏ G2:
C2=$F$17*exp(-$FSHỈ)*A2= 35.1419*2.72 A(-0.06808*A2)
Sau dỏ nhấn ENTER , tiôp theo dùng lộnlì Copy cơng thức từ ơ 0 2
( ho các ơ cịn lại từ G3 den G8 .
Bước 1 0 : Kiếm tra già thiêt về luật phản bơ" theo tiêu chuẩn y 1 (khi
b ình phương) có phù hợp hay không?
:)ê kiêm tra xem việc lựa chọn quy luật phân bô' lý thuyết mô phỏng
chu lỊuy luật phân bỏ vòn tồn tại khách quan trong tống cỏ phự hp
khOiv-ợ, dựng tiờu crhuan X (khi bỡnh phng) sau:
(5.12)
rr

f.,


ã Nêu X“ tính theo (5.12) < XV k (tra bang vối bậc tự do k = m - r -1
thì giả thiêt về sự phù hợp của phân bô" lý thuyết đă chọn được
chấp nhận (gia thiết II,,)• Nêu
tính theo (5.12) > X 2 tra bảng vối bậc tự do k = m - r -1
thì giá thiêt vổ sự phù hộp của phân bô lv thuyết đả chọn bị bác
bỏ (giả thiêt H().

chú VV
Nếu tỏ nào có tầ n số’ lý thuyết f)i < 5 thi phải ghép với tố trên hoặc
tơ đíu^i nó đế sao cho fị, > 5.
• Khi đó bậc tự do k = m - r - 1, m lồ SỎI tỏ sau khi gộp, r là tham số
của p iâ n bô" lý thuyết cần ước lương. Trường hợp nếu phân bô* lý thuyết
dã C:h>n không được chấp nhận thông qua việc kiểm tra bằng tiêu chuẩn
X", t. lì tùy thuộc phân bơ thực nghiệm mà có thể chọn phân bơ" lý thuyết
kháic Je mỏ phỏng, khi đó trình tự các bước và kiểm tra giả thiêt vể luật
phâỉn >ố được lặp lại từ đầu.
Kỉt quả kiểm tra được cho ỏ cột ỉỉ (từ H2 đến H7). Vì tầ n số lý
thúy.'ế*. (fị.J cua tô thứ 7 < 5. nên phải gộp với tổ thử 6 và trị sơ"ỵ~ được tính
X" = 5.9134 < X-Of,' (k = 3) = 7.815

(5.13)


112

ƯNG DUNG TIN HOC TRONG SINH HCC

nên gia thiết về lu ậ t ph ân bơ" được chấp nhận nghía là p h ân bổ sơ cày
theo đường kính (n/Dj 3) lâm phần 111Ai là tuân theo luật p h ân btVgiảm.

Bước 1 1 : Vẽ biểu đổ phân bỗf sơ"cây theo đường kính ở mức ngang
ngực (Dl3), thực nghiệm (fj) và lý thuyết (fit). Đẻ vẽ biểu đồ cần qua các
bưốc sau (tạo một biểu đồ nhúng bằng ChartWizard trên th a n h công cụ
chuẩn, xem lại chương 3) :
• Chọn khối dữ liệu để vẽ biểu đồ.
• Bấm trên n ú t ChartWizard của thanh công cụ chuẩn.
• Đưa con trỏ chuột đến vị trí đật góc trên bên trái của đồ thị. Giũ
chìm phím trối chuột, rê đe xác định kích thước và hướng của
biểu đồ.
• Thả n ú t trá i chuột, hộp thoại ChartVỉixard step 1 of 5 hiện ra.
Bấm trên n ú t Next, hộp thoại ChartWizard step 2 of 5, người sử
dụng chọn kiểu biểu đồ (Graph Type).
• Bấm trên n ú t Next, hộp thoại ChartWizard step 3 0/ 5 hiện ra
yêu cầu người sử dụng định dạng kiểu đồ thị ( 1 biến thể của loạ
biểu đồ đã chọn ỏ bước trên).
• Tiếp tục bấm trên Nexty hộp thoại ChartWizard siep 4 of 5 hiệr
ra, nhắc người sử dụng xác định chính xác cách vẽ các dãy ải
liệu.
• Bấm trên n ú t Next, hộp thoại ChartWizard step 5 of5 hiện ra i
cầu ngưịi sử dụng đưa thêm chú thích (Legcnd), tiêu đề (Title)
nhãn cốc trục X và Y.
• Bấm trên n ú t Fỉnish, biểu đồ hoàn thiện hiện trên một bảng tínl
hiện thịi có hình dạng như sau:


Chương 5 xử t Y [HCNGJ Í .6 l II' 11NG*HÊN cứu SINH HOC

113

*>.1.2.2. rilan hó \\ eibỉill

Phân bơ Weibull là phân bố xác suất của biến ngẫu nhiên liên tục
vởĩ miền giá trị (0 , + /). lỉàm mật độ có dạng:
R íl - đ
,
_(cỉ~d‘‘Míi)P
f (X) s £ ( « I i s ! ! L ) ß - i .e
a
a
Đụt y = - ~ và nếu dmill = 0 thì :

a

fx (x) = p.y.x^_1 e ”/(JÍ

(5.14)
(5.15)

‘Trong đó: X là trị số quan sát;
đ là trị số’giửa cô;
dmiI1 là trị sô' quan sát bé nhất;
p và Ỵlà hai tham sô"của phân bô Weibull.
Khi các tham số của phân bô> Wcibull thay dổi thì dạng đường cong
ph ân hố cũng thay đổi theo. Tham sô" Ỵ đặc trưng cho độ nhọn của phán

bố. th am sô*p biểu thị độ lệch của phân bơ"
Nếu:

p=

1


thì đồ thị p h ân bơ"có dạng giảm;

ß = 3 thi đồ thị phân bc> có dạng đơi xứng;
ß > 3 thì dồ thị p h ân bố* có dạng lệch phải;
p < 3 thì đồ thị p h ân bó"có dạng lệch trái.
T h am sơ"Y được ưỏc lượng từ công thức Y = ----------------

(5.16)

¿ f , ( X ; -a )"
il

n ể phân bô* thực nghiệm

theo hàm Weibull, trước hết người làm

công tác thông kê phải căn cứ vào sô" liệu phân bô" của một n hân tơ" điều
tra nào đó đẻ ước lượng tham sô" p cho phù hợp, tùy thuộc vào kinh
nglhiệm. Sau khi kiểm định phân bô" phải tiên hành kiểm tra mức độ
p h ù hợp của phan bô" lý thuyết theo tiêu chuẩn phù hợp X".
Theo kinh nghiệm, tham sô" ß được chọn nêu kết quả tính trị số X2 là
bé n h ấ t và nhỏ hớn Xo Of»2 (tra bảng với bạc tự do k =m - r -1).
Dưới đây là phương pháp kiêm định một phản bô" thực nghiệm theo
hàirn Weibull bằng phan mềm Excel.


1 1 4 ____________________________ ỨNG DỤNG TIN HỌC TRONG SINH nọc
B á n g 5.2: Kiểm định phân bô theo hàm V V eib u ll


X,

f,

x ,- a

xr a

(1)

(2)

(3)

(4)



n

(x,-a f (xr a f f.(va)p
(6)

(5)

Ợ)

u,

e u‘


p,

(8)

(9)

(10)

Kiểm
tra
(11)

(12)

X2

Trong bảng này:
- C ộ t 1: X, l à t r ị s ố t r u n g b ì n h c ủ a lớp, c ủ a m ộ t n h â n tô' đ iể u t r a nàiO dó.

- Cột 2: f, là tầ n sơ' thực nghiệm, tổng tần sơ" thực nghiệm = kích
thước m ẫu (n).
- Cột 3: (x, - a) là trị sơ" trung bình của lốp trừ đi trị số quan s át bé
nhất.
- Cột

4: (Xj • a ) là t r ị sơ' giới h ạ n t r ê n c ủ a lớ p t r ừ t r ị số q u a n s á t b é n h ấ t . .

- C ộ t 5: G i á t r ị c ộ t (3) m ũ


p , n g h ĩ a là : (X; - a ) p.

- Cột 6 : Giá trị cột (4) mũ

p, nghĩa là: (Xj - a)p.

- Cột 7: Tích số cột (2) với cột (õ) , nghĩa l à : f,(x,- T ổ n g c ộ t (7) l à

Ỵ ' fj(x i ~ a )p

i=l
- Cột 8 : Tính các trị sơ' u, tương ứng từng lố p vói:
Ui = y.(x, - a)p
t r o n g đó:

n

Y = —-----------------------

ỉ f,(x, ¡=1

a)p

- Cột 9: Tính các giá trị e u‘ bằng hàm exp(-Uị).

a)1’.


Ohựơng 5. XỬ LÝ THỐNG KẺ số LIÊU NGHIẾN cứu SINH HỌC______________ 1_15
Xác suất đ ô g ặ p m ộ t p h ầ n t ử ở lớp t h ứ i (p,), x á c suất

(ỉưic t í n h n h ư sau:
. C ộ t 10:

p,

L ỏ p 1: p , = 1- e U|
L ớ p 2: p = e “l - e
L ớ p 3:

P;; = e

- e Ut

Tô m: p m = e 11,11

1

- e 11"'

ni
ẳP i» i-0
1=1

- C ộ t 11: f|, là t ầ n s ố lý t h u y ế t , f|t = n .p ;.
- C ộ t 12: là c ộ t k i ể m t r a t h e o t i ê u c h u ẩ n X“ứ n g v ớ i m ỗ i lóp, t í n h đ ư ợ c (f, -



t ổ n g c ộ t (1 2 ) c h í n h l à t r ị sơ’ X".


Rái tốn ví dụ:

K i ể m đ ị n h p h â n bố» sỏ c â y (n) t h e o đ ư ờ n g k í n h n g a n g n g ự c ( k í h i ệ u

E\ J cưa m ộ t ô t i ê u c h u ẩ n đ i ể n h ì n h ( m ỗ i ô 5 0 0 nr) t ạ i rừng gỗ Mõ trồng
t h u ầ n lo à i, c ù n g sô n ă m t u ồ i t ạ i l â m t r ư ờ n g A đ ư ợ c c h o trong bảng 5 .3 .
B á n g 5 .3 : Kiểm dịnh phản bố n/ D1 3 theo hàm VVeibuỉl, với ịl = 3

E

F

G



A

B

c

0

ể»

D,3

X,


í,

(va)


6-B

7

2

1

2

1

8

2

V

8-10

9

7


3

4

27

64

189



10-12

11

14

5

6

125

216

1750

t.


12-14

13

19

7

8

343

512

6

14-16

15

11

9

10

7 29

7


16-18

17

6

11

12

6

18-A)

19

4

13

9

>0 - n

21

1

15


1f

H

(x,-a)
u
0014

J

e

L

M

p.

u

K iểm
tra

0013

089

0.1118 0 8941


0092

5.89

0,733

0.3774

06855

0 209

13 34

0 031

6517

0 8947

0 4 08 5

0 277

17.71

0092

1000


8019

1.7474

0.174

0.234

15

1 07

1331

1728

7986

30195

0 0487

0.125

802

0.511

14


2197

2744

8788

4 .7948

00082

004

259

1.205

16

3375

4096

3375

7.1573

0 .0008

0007


0.48

0 999

63 95

36626

64

09861

K

1
1;

Y=

0 0 01747

X2 = 3 ,64 48


116

ỨNG DỤNG TIN HỌC TRONG SINH HOC

Kết quả kiểm định và kiểm tra giả thiết về luật phân bố XVcibư/l số
cây theo đường kímh (n/D| 3) lâm p h ần mõ trồng th u ầ n loài, đều tuổi VỚI

các th am sô p = 3 và y = 0,001747 cho thấy:
Trị số X' tính được bằng 3,644 < X‘o.o6 (k =3) =7.81, nghĩa là phân bố
lý thuy ết đã chọn vổi các tham sô' cụ thể là phù hợp với phân bơ' thực
nghiệm.

5.1.2.3. Phân bố khốnfỉ cách
a) Khái niệm
P h â n bô" khoảng cách là phân bô’ xác su ất của biến ngẫu nhiên
khơng liên tục, hàm tốn học có dạng:
f(x) =

y
(1 - y ) ( l - a ) a

,

v ố ix < l
vối

(5.17)

X>1

Trong đó: Y= f,/n vối f0 là tầ n số quan sát ứng vỏi lốp đầu tiên,
n là kích thước mẫu.
X = (dị • d|)/k vổi k là khoảng cách của tổ, di là đường
kính cỡ thứ i, dj là đường kính lốp thứ nhất.
N h ư v ậ y X l ấ y c á c g i á t r ị > 0. P h â n bô ' k h o ả n g c á c h t h ư ờ n g có 1 đ ỉ n h
v à g iả m d ầ n k h i X tă n g . T r o n g đ iề u k iệ n r ừ n g c h ư a bị tá c đ ộ n g n h iề u th ì


đỉnh của p h â n bơ ứng với cỡ đường kính từ

10

cm đến

12

cm (x = 1 . 1 2 ).

Khi 1 - Ỵ= a thì p h â n bơ khoảng cách trở vể dạng phán bơ" hình học:
P(x) = (1 - a).a* vói X > 0

(5.18)

b) Ước ỉượng các tham số của phân bố khoảng cách
Bằng phương pháp hàm tôl đa hợp lý cỏ thể xác định được các tham
sô' của phân bố khoảng cách như sau:
y = f0 / n
« = 1-

(5.19)
(5.20)

í> ,
ả~l

Như vậy y chính là tầ n s u ấ t của tổ đầu tiên. Trong thực tiễn các
ngành Sinh, Y, Nông, Lâm nghiệp p h ân bô' khoảng cách được dùng (lê
mơ phỏng quy lu ật phân bcí khoảng cách giữa các cây trong hàng của

rừng trồng sau một thòi gian đê tỉn th ư a tự nhiên, quy luật phân bô" sô


Chương 5. XỬ LÝ I HÓNG KẺ số Liệu NGHIẾN cứu SINH HỌC

_____

117

c â y t h e o d ư ị n g k í n h ( n / l ) 13) ỏ r ừ n g t ự n h i ê n , k h o ả n g c á c h g i ữ a c á c ô
n u ô i t r ồ n g t h u ỷ s a n .. ..

Vi dụ: K i ể m đ ị n h p h â n bcí t h ự c n g h i ệ m

s ố c â y th e o đ ư ờ n g k ín h

(n/D| .;) l â m p h ầ n r ừ n g t ự n h i ê n h ồ n g i a o , k h á c t u ô i t ạ i đ ị a đ i ể m B đ ư ợ c
t r i n h b à y t r o n g b ả n g 5.4 d ư ớ i d à y .
B a n g 5 .4 : Kiểm đinh phân bò n/D, 3 theo phàn bị khống cách

A

B

c

D

E


p

G

1

Đt 3

f,

X,

f, X,

P(x.)

f.

Kiểm tra

2

7

19

0

0


0.157

19

0

3

9

32

1

32

0

266

32.21

0 001376

4

11

17


2

34

0

182

2204

1.152024

5

13

16

3

48

0.125

15.079

0.056232

6


15

11

4

44

0.085

10.317

0.045171

7

17

9

5

45

0.058

7.059

0.53357


8

19

9

6

54

0 04

4.829

3.600202

9

21

3

7

21

0 027

3.304


0.003599

10

23

1

8

8

0.019

2.258

11

25

3

9

27

0 .0 1 3

1.547


12

27

1

10

10

0 .0 0 9

1.058

323

0981

118.7

í'

!

13

121

14
15


16

Y

= 0.157

x2 = 5.392

u = 0.684

Trong bảng 5.4 :
- Cột A: Là các lốp đường kính (Dj 3) với khoang cách lớp k = 2 cm.
- Cột 13: Là tần sơ" tương ứng vói mỗi lớp đường kính, tổng tầ n sơ" là

n= 121.
- Cột C: Là các trị sô" X, = (d, - dj).k, vỏi đại lượng dj = 7 cm.


ỬNG DỤNG TIN HỌC TRONG SINH HOC

118

- Cột D: Là tích số giữa tầ n sơ' (f|) vỏi các trị số X,, Xfị.x, = 323.
- Cột E: là tầ n số tương ứng vói mỗi lóp đường kính. Tần s u ấ t này
được tính như sau:
+ Lớp thứ nhất: Tần s u ấ t (P, chính bằng tỷ sơ" giữa tần số tổ 1 chia
cho kích thước mẫu f,/n).
+ Lốp th ứ 2 đến tổ thứ 10, tầ n su ất được tính theo cơng thức (5.1?)
vối:

+ Lốp thứ 9 (ô E3):
p, = (1 - 0.1Õ7)*(1-0.684)*0.684A(X; - 1)
+ Các lớp còn lại (từ E4 đến E12), dùng Fill handle (hay các phương
pháp như đã trình bày ở p h ần trên) để tính tần su ất Pj.
- Cột F: Là tầ n số lý thuyết (fit), được tính theo công thức: f|( = n*]’,,
nạp công thức

1

lần cho ô F2 như sau: = 121*E2 và nhấn ENTER, sau

đó Copy cơng thức cho các ô từ F3 đến F12. Tổng cột F (từ F2 đến F l2 )
là tổng tầ n số lý thuyết được tính theo phân bơ khoảng cách: U|, = 118.7.
- Cột G: là cột kiếm tra giả th iết về luật phân bô” theo tiêu chuân
phù hợp X2 (công thức 5.12). Kết quả kiểm tra cho thấy X" = 5,392< x 200&
vối bậc tự do k =

6

bằng 12,592. Nghĩa là p h ân bô" khoảng cách đã chọn

vối các tham số cụ thể, phản án h đúng quy lu ật vốn tồn tại khách quan
trong tổng thể hay phân bô' cây rừng tại địa điểm B tuân theo p h ân bố
khoảng cách.
5.2.

P H Ư Ơ N G P H Á P SO S Á N H C Á C M A U

5.2.1.


q u a n s á t v à t h í n g h iệ m

Ý n g h ĩa

Trong nghiên cứu thí nghiệm ta thường phải so sánh kết quả giữa
các công thức, các phương á n để tìm ra những cơng thức, những phương
án thí nghiệm nghiên cứu tốt n h ấ t dựa vào các sô" liệu quan sát thực
nghiệm vối mảu.

Ví dụ: Trong Sinh, Y, Nơng, Lâm nghiệp người ta thường so sánh tý
lệ nảy mầm của 2 lô h ạ t giông được xử lý bằng 2 cách khác nhau, so
sánh tốc độ sinh trưởng của một loại cây trên những điều kiện khác


Chương 5 xử LÝ THỐNG KẺ số LIÉU NGHIÊN cửu SINH HOC

119

n h a u , so sánh sần lượng th u hoạch hoa m àu trên những khu thí nghiệm
khac n h a u vơ lượng phân bón, so sánh sự tăng trưỏng của gia súc trong
n h ữ n g điểu kiện cho ãn với những chê độ khác n h a u v.v... Nói chung ta
Cỉ‘m xét đặc trư ng sinh học, mà dối với nó có hai giả thuyết (hai kha
nãng) dược đưa ra dê cân nhấc, bàn bạc và phải chọn lấy một trong hai
giả thuyêt đó. Cẩn chọn cái nào đê khả nàng đúng được nhiều hơn, khả
n ã n g sai ít hơn. Đo cho tiện, một trong hai giả thuyết đang xét được ký
hiệu H«, (giả thiết H J, cái cịn lại được ký hiệu Hj (đối thiết 11,).
Khi có hai giả thiết Ho và IIỊ, thì kiêm định giả thiết là đưa ra một
quy tắc, dựa trên đó để lựa chọn H , hay H t. Thông tin duy n h ấ t mà
chú n g ta có là m ẵu quan sát vối kích thước n. Để quyết định xem chọn
Hu h a y Hj ta chia tập hợp giá trị có th ể của m ẫu ngẫu nhiên (cịn gọi là

không gian mẫu) th àn h 2 miền loại trừ n h au s và s . Giả thiết ỉỉ được
chấp n h ận khi m ẫu nằm trong vùng s ; còn bị bác bỏ khi mẫu nằm trong
vũn.g s. Đây chính là quy tắc đơ kiếm định giả thiết thống kê.
Trong chương này sẽ trình bày nội dung và phương pháp so sánh
các m ẫu độc lập, các m ẫu liên hệ bằng nhiều tiêu chuẩn khác nhau.
Ngịi làm nghiên cứu thí nghiệm có th ế lựa chọn một hoác một vài tiêu
chuéỉn dể vận dụng và từ dó rút ra ìứiững kết luận đủ độ tin cậy cạn thiết.

5.2. 2. T rư ờ n g h ợ p các m ẫu độc lậ p
5 .2 .2 ./. K hái niệm các m ả u dộc lụp

Người ta gọi m ẫu độc lập hay thí nghiệm độc lập nẽu một q trình
thí n g h iệ n nào đó được tiến hành một cách độc lập vói những thí nghiệm
khác theo nghía rộng. Trong nghiên cứu Sinh, Y, Nơng, Lâm nghiệp
nhữmg th í nghiệm độc lập là những thí nghiệm thường bơ" trí khác nhau
vể k h ơ n g gian, thịi gian đê có thể loại bỏ những tác dụng giông nhau về
điểu kiện đất đai, khí hậu, v.v... Với quan điếm như vậy, tính độc lập
ctưỢc nói d đay củng chỉ mang tính chất tương đốỉ.
5 .2 .2 .2 .T rư tm g h ợ p hai m ầ u dộc lụp

iaj Kiểm tra giả thiết Hti: Hị-ỊẰ^ Hi:

bằng tiêu chuẩn t của Student

'Tièu chuẩn này thường được dùng khi biết trước luật phân bô" của
hai tơ n g thể mà đại biểu là có hai mẫu p h ân bô"chuẩn và hai phương sai


120


ỬNG DỤNG TIN HỌC TRONG SINH HỌC

bằng nhau. Trong trường hợp này cần kiểm tra sự bằng n h au của hai
tru n g bình tổng thể mà ta đã giả thiết ỏ trên qua việc kiểm tra sai khá?
của h a i trung bình m ẫu vói cơng thức.

Trong đó: Xj và X 2 là hai trung bình của hai mẫu quan sá t

1

và 2

Sị 2 và S 22 là phương sai của hai mẫu quan s á t 1 và 2;
m1 và n 2 là kích thước của hai mẫu quan sát 1 và 2.
Đại lượng t được xác định theo quy luật phân bỏ" t với bậc tự d)
k = n ì + n2 -2 . Ngưịi ta đã chứng minh rằng nếu Xj và X 2 khác n h ai
một cách ngẫu nhiên thì 100 lần r ú t m ẫu chỉ có khơng q 5 lần trị 8)
tu y ệt đơi của t tính theo (công thức 5.21) lớn hơn t tra ở bảng p hân bơ't
vói các bậc tự do k = nj + n 2 - 2. Nếu qua một lần rú t mẫu mà ta gặ)
phải trị sơ" t tính theo (cơng thức 5.21) lớn hơn t (tra bảng ứng với xá:
su ấ t a = 0,05) thì khơng thể xem Xị và X 2 khác nhau ngẫu nhiêi
được. Sự khác n h a u giữa chúng là có ý nghĩa; cũng tức là tru n g bình củi
hai tổng thể khác nhau và kết quả 2 thí nghiệm là khác nhau. Tron*
trường hợp này mẫu nào có giá trị tru n g bình cao hơn thì xem nó là mẫi
có giá trị trội hơn m ẫu cịn lại. Ở một thí nghiệm về năng suất cây trổnĩ,
n ăn g suất sinh khôi của vi sinh vật hay năng suất thủy sản của rriit
th u ỷ vực nào đó.... ta xem thí nghiệm đó là tốt hơn những thí nghiện
cịn lại.



P h ư ơ n g p h á p tín h 5.2 (P PT5.2)

( 1 ): Nhập số liệu của 2 mẫu vào bảng tính.
(2): Tính trung bình và phương sai của mẫu bằng hàm f„ trên th am
công cụ.
Chọn một ô để chuẩn bị ghi ra kết quả.
(3): Dùng con trỏ chuột gọi hàm fx trên th a n h công cụ.
(4): Chọn hàm thông kê (khung thực đơn bên phải) và chọn hàm T-test
(5): Chọn Next và ta có 4 dãy khai báo:


; 5 <ử I Y ĩ MÓNG KẺ SỔ LIÉu NGHIÊN cửu SINt Ị HỌC___

_____

121

- Dảv 1 và 2 khai báo sô liệu của 2 mẫu (dùng trỏ chuột quét từng
(tà số liậỉ hoặc khai báo từ bàn phím).
- Dãy 3 (Tail) ghi 2 (với ý nghĩa kiểm tra hai chiều).
- Dăy 4 (Type) ghi 2 (trường hợp 2 phương sai bằng nhau của hai
tóỉig the)
(6 ): Chọn Finish.
Nếu kêt qua tính tốn chơ p < 0.05 thì sự sai khác của trung bình 2
rmiu là co ý nghĩa, giả thiết H„ bị bác bỏ, chấp nhận đối thiết H t. Nếu
p > 0,05 sự sai khác nhau của trung bình 2 mẫu là chưa có ý nghĩa, tức
].i chap nhận giả thiết Hn.
Trường hợp cần thiết có thể tảng kích thước mẫu quan s á t lên
nhiều lầr. dể kiểm tra lại, hoặc dùng thêm một vài tiêu chuẩn kiểm tra
khác ỏ cá: mục sau đây đế có kết luận chắc chắn hơn.


Chú y Phương pháp tính 5.2 chí dùng khi:
- Đạ. lượng quan sát ỏ 2 mẫu là liên tục, có phân bơ"chuẩn vối
phương s.ũ bàng nhau, 11 ị và n 2 < 30. Nếu lu ật phân bố và phương sai
khơng bitt trước có bàng nhau hay khơng thì dùng các tiêu chuẩn khác
như tiêu chuẩn u của M ann và Whitney hay tiêu chuẩn biên sai hạng
của Siegel và Tukey sẽ trình bày ỏ các mục sau.
- Trng hợp phân bơ' biết được là phân bơ" chuẩn nhung sự bằng
n h a u của 2 phương sai chưa biết thì có thể kiểm tra sự bằng n h au của
hai phương sai theo cách sau:


P ìtư ơ n g p h á p tín h 5 .3 (P P T 5 .3 )

(1):Dủng sô" liệu của phương pháp tính 5.2.
(2)

(3 : Như phương pháp tính 5.2.

(4): Chọn hàm thông kê (khung thực đơn bên phai) và chọn F .test
(bên trái)
(5): Chọn Next và ta có 2 dày khai báo. Dùng chuột hốc bàn phím
đẻ đưa sơ liệu vào hai dãy khai báo như trường hợp kiểm tra ỏ phương
pháp tính 5.2.
(tì): Chọn Finish. Kết qua cho p > 0.05 thì xem như phương sai hai
tỏng thể Vằng nhau.


122


ỨNG DỤNG TIN HỌC TRONG SINH HOC

Ngược lại, nếu p < 0.05 ta có thế kiểm tra cơng thức (5.21) »ầng
phương pháp tính sau:
• Phương pháp linh 5.4 (PPTS.4)
- Kiểm tra sự sai khác của hai tru n g bình mẫu:
Cốc bước ( 1 ), (2), (3), (4) như phương pháp tín h 5.2.
(5): - Dày khai báo (1) (2) (3) như phương pháp tính 5.2;
- Dãy 4 cType) ghi sơ'3 cho trường hđp phương sai khơng bằng lÌKi u
(6 ): Chọn Finish và cũng kết luận như phương ph áp tính 5.2:
Nếu kết quả tính tốn cho p < O.Oõ thì sự sai khác của trung rình
hai m ẫu là cỏ ý nghía, gia thiết H0 bị bác bỏ, chấp nhận đỏi thiế Hj
Nếu p > 0,05 thì sự sai khác nhau của trung bình hai mẫu là chưa cố ý
nghĩa, tức là chấp n h ậ n giả thiết H0.
Sau đây là một ví dụ kiểm tra mức độ sai khác của hai trung rình
mẫu theo tiêu chuẩn t của Student theo các phương pháp tính 5.2, 5.3,5. 4.

Ví dụ ỉ:
Gọi Xj là chiểu cao cúa thơng mã vĩ (Pinus massoniana Lamb) ì inh
trương ỏ chân đồi và XL, là chiều cao của thơng mã vĩ (Pinus ìnassonanũ
Lamb) trồng ỏ sưịn và đính đồi. c ả hai lơ thông đều ở thời kỳ rirfớ(!
khép tán, trồng cùng một thịi gian, cùng mật độ và có chê độ chăn Sióc*
như nhau, chỉ khác nhau vế diều kiện nơng hóa thố nhưỡng, kết qiuả
quan trắc được cho trong bảng 5.5.
B à n g 5 .5 : Kết quả chiểu cao của thơng mã v ĩ tro ng thí nghiệm ví dụ 1

Chiéu cao khu 1
X, (m)

4.5 4.7 4 9 3.8 3.9 4.3 4.7 4.2 5.3 3.9 5.4 5.3


Chiều cao khu 2
x2 (m)

3.4 4.2 4.5 4.9 4.6 4.4 3 9

3.0 4 7

3 7 5.0 3.0 3.4 4 1

Hỏi chiều cao trung bình của 2 tổng thể thơng mà vĩ trồng « hmi
khu vực khác nhau về điều kiện nông hoa thổ nhưỡng có thực sự ;h.á<:
n hau hay khơng?

Bài giải:
Để giải quyết nhiệm vụ đặt ra của bài toán trên, ta thực hiệi c:á<:
bước sau:


I 5 XỬ LÝ ĩ HÓNG KẺ SỐ LIỆU NGHIẾN cứu SINH HOC________________ 123
1

; Dặt giá thiết II,,: Uj = J.I. và đối thiết I ỉ ị: |.1 |* ịir.

Do đạc điếm là rừng cây ỏ thời kỳ trưóc lúc khép tán nón có thê thừa
nhận luật phán bỏ cây theo chiểu cao là luật phán bô chiúin (tửc sự sai
khóc vể chiều cao của các cây rừng là ngẫu nhiên).
2; Kiểm tra điểu kiện: S ị2 = s ./ theo phương pháp tính 5.3:
- Gọi hàm f, và chọn F tcsí ủ hàm thơng kê (Statistical)
- Chọn N ext và đưa sô" liệu mau 1 vào khung

liệu mau 2 vào khung 2 (Array 2).

1

(Array 1) và đưa sô'

- Chọn F inish.
Kết quii cho p = 0,596 > 0.05, chấp nhộn sự bằng nhau của hai
phương sai tổng thế, có nghía Là những điêu kiện cùa bài tốn kiêm tra
theo công thức (5.21) đã thỏa mãn và tiếp lục thực hiện PPT5.2.
3)

Kiếm tra giả thiết II,.: Ị.I, = |Xj và H,: Uj * Ị.Ị. theo phương pháp tính 5.2

- Gọi hàm fx và chọn T 'icst trong hàm thông kê (statistical).
- Chọn Next và đưa scí liệu mẫu 1 vào khung A rray ly đưa sô" liệu
mẫu 2 vào khung Array 2.
- Killing Tail ghi

2

(kiểm tra hai chiều).

- Khung Type ghi 2 (hai phương sai của hai tống thể bằng nhau).
- Chọn F inish và cho kết quả p = 0,047132 < 0.05.
Xác suất tính được nhơ hơn 0.05 nên giả thiết
bị bác bỏ. Như vậy
híii khu rừng có hai sơ" trung bình mẫu khác nhau một cách có ý nghía.
Cũng tức là chúng có trung bình tống thể khác nhau. Khi bác bỏ giả
thiêt Ht, thì cũng có nghĩa là ta thừa nhận đỏi thiết Hị : chiểu cao trung

bình tổng thể của 2 khu rừng là khác nhau, nhưng chưa có thể nói khu
rùng nào tốt hờn. Mn biết điểu đó ta căn cứ vào trung bình mẫu.
Trong trường hợp này khu rừng 1 có trung bình mẫu cao hơn (4,575 m)
non ta tạm coi khu rừng này là tốt hờn khu rừng 2 (TB=4,108 m).
Ở một sô" bài toán cụ thể, so sánh hai trung binh mẫu khơng địi hỏi
phải có sự phán đốn này mà chỉ dừng lại ỏ kết luận hai trung bình tổng
thể khác nhau là đủ.
Ví dụ 2: Sinh trưỏng chiểu cao của 11 cây lim xanh (E rythrophlocum
fo 'd ii) trồng dưói tán các cây khác và 1 0 cây lim cùng loại trồng nơi

qv.amg đàng, kết quá cho ỏ bảng Õ.6 .


1 2 4 _______________________________ ỨNG DỤNG TIN HỌC TRONG SINH HỌC
B à n g 5 .6 : Kết quả ch iế u cao của Lim xanh tro n g th i nghiệm ví dụ 2

Chiều cao lim
trổng nơi quang
đảng X (m)
Chiéu cao lim
trổng dưới tán
Y (m )

2 35

2 48

2.49

2.52


249

2.47

2.11

1.64

2.19

2 38

2.47

2.47

2.49

2 48

2.57

2.59

2.64

2.48

2.58


2.49

Cho biết chiểu cao trung bình cùa hai lơ thí nghiệm trên
nhau hay khơng?



2.48

khấc

Bài giíii:

Dùng các hàm thơng kê (xem chương 2) ta có thể tính được c(\0
trung bình và phương sai như sau:
S x2

vỏi lim trồng nơi quang đăng ta có x = 2.31 m và phương sai
= 0.0747 cịn lim trồng dưối tán ta có Y = 2.522 m và phương sai

Sy2 = 0.003696.
Nếu dùng phương pháp tính toán Õ.3, ta kiểm tra sự bằng nhau của
hai phương sai của hai tổng thể ta được p = 5.59E-05 (< 0.05) như vậy có
nghĩa là giả thiết về sự bằng nhau của hai phương sai là không thể chấp
nhận được.
Do phương sai không bằng nhau nên ta kiếm tra sự bằng nhau của
hai trung bình tổng thể (H0: ịx ì - ị i 2) bằng phương pháp tính 5.4, khai
báo dãy Typc không phải bằng 2 mà khai bằng 3 (khác vói trường hợp
PPT5.2).

Vói sự khai báo này, chúng ta có kêt quả p = 0.0395, xác suất này
nhỏ hơn O.Oõ nên giả thiết về sự bằng nhau của hai trung bình tổng thế
là khơng thể chấp nhộn được. Điều đó có nghía là sự sinh trưởng và phá',
triển của lin xanh trong giai đoạn cịn non khơng cần nang nhiều. Nêi
trồng chúng dưới tán cây khác sẽ phát triển tốt hơn.
Ngoài việc dùng hàm fx để kiểm tra giả thiết H „ : ịix = f i y ngưịi ta r ị i
có thể dùng D ata a n a lysis trong menu Tooỉs để kiểm tra theo một quj
trình hầu như gần giống nhau cho trường hợp phương sai hai tong thế
bằng nhau và không bằng nhau như sau:


Chương 5. xử LÝ THỖNG KẺ sỗ LIỆU NGHIẾN cứu SINH HỌC

125

• Phương pháp lính 5.5 (77r/’5.5)
1- Chọn Data analysis trong menu Tools.
2- Chọn t-Tcst Two •Sa m p le A ssu m in g E q u a l Variances (gọi tát là
T-D-E-V).
3* Khai báo sỏ liệu mẫu 1 vào khung Variable 1 range.
■I- Khai báo sô liệu mẫu

2

vào khung Variable 2 range.

5- Trong khung H ypothesized M ean D iffircnce ghi 0 (giả thyêt H :
Hi •ịh = 0 ).
6


- Chọn 1 Cell trên vùng trông đê định vùng O utput.

Kết quả cho ta bang sau:
B ắ n g 5.7: Kết quà phản tich số liệu bàng 5.6 th e o T-D-E-V

t-Test Two-Sample Assuming Equal Variances
Dưới tán

Nơi quang dàng
Mean
Variance
Observations
Pooled Variance
Hypothesized Mean Difference

2.312

2.521818

0.074795556

0 0 03696

10

11

0.037374928
0
19


(if
t Stat

-2 46393159

P(T<=t) one-tail

0 011244328

t Critical one-tail

1 729131327

P(T<=t) two-tail

0 022488655

t Critical two-tail

2 093024705

Như vậy p=0.0224 <0.05, ta bác bỏ giả thiết H0 về sự bằng nhau
của hai sơ" trung bình, hoặc t-Stat = - 2.4839 > t Critcal two-tail = 2.093
cùng cho kết luận như vậy.
Tóm tắt 4 phương pháp tính kiểm tra giả thuyết H0: ịii = ịi-2 như
sau:


126


ỨNG DUNG TIN HỌC TRONG SINH HOC
P P T 5 3 F-test

ơ,= ơ2
P P T 5.2: T-test
Tail =2

PPT 5 4 T-test

Type =2

Tail = 2 Type =3
Cho moi

PP T5.5

trưòng
hơp

TDEV

Trường hợp nếu phương sai của cả hai tông thể khỏng biết được
mà kích thưổc mẫu nj và n.j đều lớn hơn 30 thì việc kiểm tra mức ý nghĩa
sai khác của hai trung bình mẫu được thực hiện theo cơng thức sau:
Ư_

X, - x

2


(5.22)

Đây là trường hợp kiểm tra theo tiêu chuẩn u của hàm phân bổ*
chuẩn .
• Nếu |u| > 1.96 thì giữa Xj và X 2 có sai khác rõ rệt. Cũng có
nghĩa là ỏ các tổng thể, 2 sơ" trung bình |ij và ịi., là khác nhau
(hai kết quả nghiên cứu nào đó khơng thể xem là như nhau).
• Trường hợp |u| < 1.96 ta xem như hai kết quả nghiên cứu nào đó
là chưa khác nhau một cách có ý nghĩa về mặt thống kê. Nếu cẩn
táng kích thước mẫu lên để kiểm tra lại hoặc kiểm tra thêm một
vài tiêu chuẩn khác để có kết luận đủ độ tin cậy hơn.
Công thức (5.22) là một công thức sử dụng rộng rãi cho trường hợp
khi hai tổng thể mà đại biểu là hai mẫu có phân bơ" lệch trái hay lệch
phải so vỏi phân bô"chuẩn và phương sai khác nhau, nhưng mức độ hiệu
nghiệm thấp hơn tiêu chuẩn t khi cả hai tổng thê có phản bị chuẩn vồ
phương sai băng nhau và trong những trường hợp như vậy ta cũng c:hi
có thể kết luận sự bằng nhau hay khác nhau của hai trung binh tổng


Cthương 5 xử LÝ THỔNG KL số LIỆU NGHIỀN cứu SINH HỌC________________ 127
thơ mà chưa có két luận gì vê sự giông nhau hay khác nhau của hai
p úm bỏ cùa hai tông thỏ.
Trong phần mềm Excel 5.0 hoặc Q uatro 3.0 và 4.0 chưa có hàm
í hóng kẻ để tinh cơng thức (5. 22). Tuy nhiên ta có thể dỗ dàng lập cơng
thức này sau khi đă tính Xị , X 2 , Sj 2 và s / theo các hàm thơng kẻ
tr ong bang tính bằng các hưđc đơn gián.
Trường hợp giả thiêt 2> phương sai tống thế đà biết qua việcthay
thỏ hai phương sai mau tính từ hai dãy quan sát bằng hàm f,ta có thể
dung mục Data analysis trong menu Tools như sau:

• 1'hưoĩỉg pháp tính 5.6 (1*1*15.6)
1

- Chọn Data analysis trong menu Tools.

2* Chọn Z - T c s t (ta thường thay bằng u, gọi tắt là T-D-A-Z).
3* Khai báo sỏ liệu mẫu

1

vào khung Variable 1 range.

4* Khai báo sô"liệu mẫu 2 vào khui

Variable 2 range.

5 Khung Hypothesized Mean Diffirence ghi 0 (Giả thiết Hu: Ịiị - ịio = 0)
- Khai báo phương sai mẫu 1 (tính theo fx) vào hàng K now n
UGiriice ỏ cột Variable 1 và phương sai mẫu 2 vào cột Variable 2 .
6

7- Chọn 1 Cell bất kỳ ỏ trên một vùng trốhg đê làm vùng O utput.
Bài loán ví dụ:

Phân tích hàm lượng izozym EST tống sơ" trong máu ngoại vi của
haũ nhóm ngưịi, mỗi nhóm phân tích 35 mẫu máu. Nhóm thí nghiộm là
những người tiếp xúc lâu dài trực tiếp vỏi hố chất diệt cơn trùng nhóm
lâm hữu cơ, nhóm đốỉ chứng là nhóm khỏng tiếp xúc trực tiếp với hố
chìất trên (bàng 5.8).
Kết quă phân tích theo T-D-A-Z cho ta ỏ bảng Õ. 8 từ trên xuống dưỏi

nh sau:
- Trung bình của mẫu 1 và mẫu 2.
- Phương sai của mẫu

1

và mẫu 2.

- Sô quan sát (kích thưỏc mẫu) cúa mẫu 1 và mẫu 2
- Giả thiết

H, vồ chênh lệch giữa 2 trung bình tống thể (= 0).


128___________________ ______________ỨNG DỤNG TIN HỌC TRONG SINH HỌC
B á n g 5 .8 : Kết quả phàn tích lượng izozym EST tổ n g s ố ớ 2 nhóm tiếp xú c trự c tiế p

lảu dài, gọi là TN vả kh ô n g tiế p xúc gọi là ĐC theo PPT5.6
TT

DC

TN

TT

DC

TN


TT

ĐC

TN

1

2.35

247

14

2.52

2.51

27

2.11

2.64

2

2 48

2 47


15

2.49

2.68

28

1.64

2.65

3

2.49

2.49

16

2 47

2.5 7

29

2.19

2.51


4

2.52

2.48

17

2.11

2.59

30

2.38

2.68

5

2.49

2.57

18

1.64

2.64


31

2.35

2.57

6

2.47

2 59

19

2.19

2 48

32

2 48

2-59

7

2.11

2.64


20

2.38

2.58

33

2 49

2.64

8

1.64

2.48

21

2.35

2.49

34

2.52

2.48


9

2.19

2.58

22

2.48

2.48

35

2.49

2.58

10

2.38

2.49

23

2.49

2 48


11

2.35

2.48

24

2.52

2.58

12

2.48

2.64

25

2 49

2.49

xtb

2.334

2.554


13

2.49

265

26

2.47

2 48

p .s

0.0629

0.00508

Tính trung binh, phương sai

Z-Test Two Sample for Means
TN

DC
Mean
Known Variance
Observations
Hypothesized Mean Difference
Z


iU

2.334

2.554857

0.062907

0.00508

35

35

0
-5.01113

P(Z<=z) one-tail

2 71E-07

z Critical one-tail

1 644853

P(Z<=z) two-tail

1.354E-07

z Critical two-tail


1.959961

/ z / > 1.96


129

Ch rong 5 xử LÝ THỐNG KẺ SỐ LIÊU NGHIÊN cửu SINH HỌC
. Trị sô" z (ta ký hiệu là U).
•Xác suât

1

chiều của z.

Trị số z tiêu chuẩn theo xác suất 0.05 trường hợp

1

chiểu.

•Xác suất hai chiều của trị sơ z tính tốn.
Trị số’z tiẽu chuấn với xác suất O. trong trường hợp hai chiều.
Như vi dụ trên thì giả thiết II, bị bác bơ vì giá trị tuyệt đơi cùa z lớn
hơn 1.959, hoặc giá trị p hai chiểu của z nhỏ hơn xác suất bang 0.05.
|)1 <‘U đó cho phép kết luận hàm lượng izozym EST cua nhóm nghiên cứu
(tức là nhỏm ngươi tiếp xúc trực tiếp và lâu dài vói thuốc trừ sâu nhỏm
làiỉ hữu cơ) cao hơn nhỏm đỏi chứng một cách có ý nghĩa. Kết luận này
t in cậy vối độ tin a = 0,05.

b) K iểm tra sự th u ầ n nhất của hai m ẫu độc lập bằng tiêu chuân ư
cứu M ann và W hitney

Đây là một tiêu chuẩn phi tham sơ" cịn gọi là tiêu chuẩn Wilcoxon.
Với tiêu chuẩn này việc kiểm tra sự thuần nhất của hai mẫu dựa vào
phướng pháp xếp hạng các trị sô quan sát của hai mẫu mà khơng địi hỏi
phải tính trung bình và phướng sai của hai mẫu như khi ứng dụng tiêu
chuẩn t. Vì vậy mà người ta cùng khơng biêt gì về luật phân bỗ» của hai
tỏng thể với những tham sơ" của nó nên gọi là phương phốp phi tham sô"
(N onparam etric m ethods). Khi so sánh hai mẫu độc lập bằng phương
pháp này cùng hàm ý là đă so sánh và kiểm tra cùng một lúc dạng phân
b ố và tham sơ* của nó. Cho nên gia thiết trong trưàng hợp này thường
đặt:
Hu: F(x) = F(y)
và H,: F(x) * F(y)
})ây là một phương pháp rất thuận tiện và thích hợp vỏi những
chun gia khơng chun vể thơng kê tốn hoc mậc dù độ hiệu nghiêm
của phương pháp có hcạn chê hơn so với phương pháp tham số.
Theo E. Weber trong trường hợp so sánh hai mẫu, nó băng 95% độ
hiệu nghiệm của tiêu chuẩn t. Điều khó khăn nhất của phương pháp
này là việc xếp hạng khi mẫu q lớn mà khơng có những phương tiện
tính tốn.


130

ƯNG DỤNG TIN HỌC TRONG SINH HỌC

Tuy nhiên trong điều kiện có máy tính cá nhãn vỏi các chương trinh
như Excel hoặc Q uattro 4.0 ta có thê thực hiện rất nhanh chóng. Ngồi

ra người ta có thê dùng phương pháp chia tổ, ghép nhóm và xây dựng
một thuật tốn xếp hạng cho nó củng rất dễ thực hiện.
Trưỏc khi đi vào phần kiêm tra giả thiết H0: F(x) = F(y) can giỏi
thiệu phương pháp xếp hạng vối việc vận dụng chương trình Excel c h o
hai và nhiều mẫu độc lập.


Phương pháp xếp hạng các giá trị quan sát ở các máu quan sái (lục lọp

Khi so sánh hai hay nhiều mẫu quan sát với nhau trong trường hợp
các mẩu độc lập, nguyên tắc chung là sắp xếp các giá trị từ nhỏ đến lỏn
cho tất cả các mẫu và tính tổng hạng riêng cho từng mẫu. Việc kiểm tra
thuần nhất của các mẫu chú yếu là dựa vào sự so sánh của các tống
hạng đó thơng qua một sô"tiêu chuẩn thông kê.
Chẳng hạn, nếu so sánh hai mẫu thì người ta dựa vào tiêu chuẩn u
của Mann và Whitney, nếu so sánh nhiều mẫu độc lập thì dựa vào tiêu
chuẩn của Kruskal và Wallis (sẽ trình bày sau).
Ví dụ bảng 5.9 là kết quả xếp hạng cho hai dày quan sát theo ví dụ
ở bảng 5.6.
B á n g 5.9: Bảng xếp hạng các giả trị quan sát theo ví dụ 2

X

xếp

2.35

2.48

2.49


(10.5) (14.5)

hang

4

Y

2 47

2.47

Xếp
hang

(7)

(7)

2 49

2.52
17
2.48

(14.5) (10.5)

2 49 2.47
(14.5) (7)

2.5 7 2.59
18

20

2.11

1.64

2.19

2 38

2

1

3

5

2.64

2.48

2 58

2.49

2.48


21

(10.5)

19

(14,5)

(10.5)

R,=78.r,

152.5

Ta đem tất cả các trị sô của X và Y sấp xếp theo thứ tự từ nhó (tên
lỏn. Số nhỏ nhất là 1.64 được xếp sô" 1; sô" 2.11 được xếp thứ 2 và cứ lần
lượt cho cho đến sô" lớn nhất là 2.16 ứng vói sơ hạng 21. Trong q trinh
xếp có những số trùng nhau ta lây sơ" hạng trung binh. Ví dụ có 3 số 2.47
sẽ nhận sơ hạng trung bình của các sò" hạng 6 ; 7; 8 . Những sỏ hang
tương tự được cho vào ngoặc ỏ bảng (Õ.9).


×