Tải bản đầy đủ (.doc) (189 trang)

phương pháp thống kê môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (792.23 KB, 189 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Xuân Cự
BÀI GIẢNG
PHƯƠNG PHÁP THỐNG KÊ
TRONG KHOA HỌC NÔNG NGHIỆP
VÀ MÔI TRƯỜNG
(Lưu hành nội bộ)
Hà Nội , 2008
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
MỤC LỤC
I H C QU C GIA HÀ N IĐẠ Ọ Ố Ộ 1
TR NG I H C KHOA H C T NHIÊNƯỜ ĐẠ Ọ Ọ Ự 1
Nguy n Xuân Cễ ự 1
BÀI GI NGẢ 1
PH NG PHÁP TH NG KÊƯƠ Ố 1
TRONG KHOA H C NÔNG NGHI PỌ Ệ 1
VÀ MÔI TR NGƯỜ 1
(L u h nh n i b )ư à ộ ộ 1
H N i , 2008à ộ 1
M C L CỤ Ụ 2
PH N 1. PH NG PHÁP TH NG KÊ MÔ TẦ ƯƠ Ố Ả 3
CH NG 3. LÝ THUY T XÁC SU TƯƠ Ế Ấ 25
CH NG 4. GI I THI U V CÁC KHÁI NI M L Y M UƯƠ Ớ Ệ Ề Ệ Ấ Ẫ 46
Ch ng 5. C L NG CÁC THAM Sươ ƯỚ ƯỢ Ố 62
S TRUNG BÌNH VÀ T L PH N TR MỐ Ỷ Ệ Ầ Ă 62
PH N 3. KI M NH GI THI T TH NG KÊẦ Ể ĐỊ Ả Ế Ố 71
V CÁC THAM S C TR NG M UỀ ỐĐẶ Ư Ẫ 71
Ch ng 6. KI M NH GI THI T TRONG TR NG H P M T M Uươ Ể ĐỊ Ả Ế ƯỜ Ợ Ộ Ẫ 71
Ch ng 7. KI M TRA GI THI T TRONG TR NG H P HAI M Uươ Ể Ả Ế ƯỜ Ợ Ẫ 88


Ch ng 8. PHÂN T CH PH NG SAIươ Í ƯƠ 101
PH N 4 PH NG PHÁP KI M NH PHI THAM SẦ ƯƠ Ể ĐỊ Ố 124
CH NG 9 PHÂN T CH KHI BÌNH PH NG ( 2)ƯƠ Í ƯƠ χ 124
Ch ng 10. M T S PH NG PHÁP KHÁCươ Ộ Ố ƯƠ 138
KI M NH PHI THAM SỂ ĐỊ Ố 138
PH N 5. KI M TRA S LIÊN K T VÀ D OÁNẦ Ể Ự Ế ỰĐ 152
Ch ng 11. T NG QUAN VÀ H I QUY N GI Nươ ƯƠ Ồ ĐƠ Ả 152
Ch ng 12. T NG QUAN B I (H I QUI NHI U BI N)ươ ƯƠ Ộ Ồ Ề Ế 171
2
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
PHẦN 1. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ
Chương 1. GIỚI THIỆU CHUNG
Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thích
các kết quả nghiên cứu. Học phần này nhằm cung cấp những khái niệm và các yêu
cầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường.
Từ thống kê có nghĩa riêng và có nghĩa chung. Theo nghĩa riêng thống kê
(statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môi
trường, theo nghĩa chung nó là những tập hợp các số liệu được thu thập được.
Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán. Thống
kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyết
định tốt hơn.
Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu
và được áp dụng cho nhiều ngành khoa học khác nhau. Ví dụ các nhà khoa học
trồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồng
ruộng có nhiều khác biệt với các vùng sản xuất khác nhau. Các nhà kinh tế nông
nghiệp lại sử dụng để dự báo yêu cầu trong tương lai.
Chương 2. PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ
Mục tiêu:
- Tổ chức và tóm tắt số liệu một cách có hiệu quả

- Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu
(số liệu trung bình, trung vị, số trội, và ý nghĩa của nó).
- Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệch
chuẩn) và ý nghĩa của chúng.
3
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
2.1. Giới thiệu về thống kê mô tả
Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệp
nói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khó
đánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này. Tập
hợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau. Thông thường có thể
tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất. Cách sắp xếp này có thể
cung cấp được nhiều thông tin có ý nghĩa.
Ví dụ 2.1. Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của
Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua. Có 50 cây cà
chua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫu
nhiên, sau 14 ngày xử lý cho kết quả như sau:
Bảng 2.0. Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua
(cm)
21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,9
22,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,7
22,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,2
22,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,5
22.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6
Giải:
Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như
ở Bảng 2.1. Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ cao
của cây cà chua dao động từ 21,5 đến 24,5 cm. Sự chênh lệch giữa cây thấp nhất và
cây cao nhất quan sát dược là 2,7 cm. Số cây có độ cao 21,5 - 22,8 cm chiếm 50%

số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm. Hơn nữa sự sắp xếp
này cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh
độ cao trung bình. Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 -
22,9 và 23,2 cm. Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm.
Bảng 2.1. dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn
21,5 22,8
4
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
21,6
21,8
21,8
21,8
21,9
21,9
22,0
22,1
22,1
22,1
22,2
22,2
22,3
22,4
22,5
22,5
22,5
22,5
22,6
22,6
22,6

22,7
22,7
22,8
22,8
22,9
22,9
22,9
22,9
23,0
23,0
23,0
23,1
23,2
23,2
23,2
23,2
23,3
23,3
23,4
23,5
23,5
23,6
23,7
23,8
23,9
24,0
24,2
Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trung
bình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn.
5

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tần
suất xuất hiện của chúng và được gọi là sự phân bố tần suất.
2.2. Phân bố tần suất
Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dần
của các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2).
Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1
Chiều cao cây cà chua (cm) Tần suất
21,5
21,6
21,8
21,9
22,0
22,1
22,2
22,3
22,4
22,5
22,6
22,7
22,8
22,9
23,0
23,1
23,2
23,3
23,4
23,5
23,6

1
1
3
2
1
3
2
1
1
4
3
2
3
4
3
1
4
2
1
2
1
6
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
23,7
23,8
23,9
24,0
24,2
1

1
1
1
1
Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặp
nhau. Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc. Khi
các só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn. Tuy nhiên thông
thường người ta chia thành 5 đến 15 nhóm giá trị khác nhau. Theo Sturges (1926) số
lượng các nhóm được xác định theo công thức sau:
k= 1+3,322(lgn) [2.1]
Trong đó: k = Số lượng nhóm
n= số lần quan trắc
Theo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sau
được trình bày ở Bảng 2.3. Trong đó số nhóm k được xác định như sau:
k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7
Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành
7 nhóm (Bảng 2.3).
Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giá
trị quan trắc của chúng. Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độ
cao 21,9 - 22,2 cm, Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạng
biểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm.
-Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thị
dưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm.
Tần suất tương đối
n
Fi
=

Trong đó: Fi = tần suất của nhóm thứ i
7

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
n = số lần quan trắc
Bảng 2.3 Phân bố tần suất theo nhóm
Nhóm Độ cao (cm) Tần
suất
1
2
3
4
5
6
7
21,5-21,8
21,9-22,2
22,3-22,6
22.7-23,0
23,1-23,4
23,5-23,8
23,9-24,2
5
8
9
12
8
5
3
Ví dụ như ở nhóm 2 (Bảng 2.3) ta có:
Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16
hay biểu diễn dưới dạng phần trăm ta có:

Số phần trăm là
%16100
50
8
100 == xx
n
Fi

Từ số liệu bảng 2.1 có thể biểu diễn dưới dạng tần suất tương đối như sau
(Bảng 2.4).
Bảng 2.4 Tần suất tương đối và phần trăm cho số liệu ở Bảng 2.3
Nhóm chiều cao
(cm)
Tần
suất (f)
Tần suất
tương đối (f/n)
Phần trăm
(f/n) x100
21,5-21,8
21,9-22,2
22,3-22,6
22,7-23,0
23,1-23,8
5
8
9
12
8
0,10

0,16
0,18
0,24
0,16
10
16
18
24
16
8
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
23,5-23,8
23,9-24,2
5
3
0,10
0,06
10
6
n =
50
2.3. Xác định xu hướng tập trung của các giá trị quan trắc
Thông thường người ta hay nói đến giá trị trung bình. Tuy nhiên giá trị
trung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc. Do
vậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sử
dụng như số trung bình cộng, số trung vị và số trội.
- Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổng
các giá trị quan trắc với số lần quan trắc được biểu diễn là
X

:

]32[ −=

N
X
X


=
=
+++
=
n
i
n
n
Xi
n
XXX
X
1
21

Nếu Xi có tần suất là m
i
ta có
∑∑
==
=

+++
+++
=
k
i
iii
k
i
k
kk
mXm
mmm
XmXmXm
X
11
21
2211


Chú ý:
∑ ∑
= =
=
k
i
n
i
iii
XXm
1 1



=
=
k
i
i
nm
1
Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác
định giá thóc trung bình được bán ra?
Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg)
1
2
3
2000
3500
2100
11
12
13
2200
2250
1750
9
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
4
5
6

7
8
9
10
3000
2400
3100
2600
2300
3000
2100
14
15
16
17
18
19
20
1800
3200
2900
3100
3600
3400
3800
Giải:
2705
20
38003400 35002000
=

++++
=X
(đ/kg)
Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg.
Ý nghĩa của số trung bình cộng:
+ Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu cho
toàn bộ các giá trị quan trắc của một tập hợp.
+ Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trên
một đặc trưng giống nhau. Nhưng trung bình cộng chưa biểu thị được đặc điểm thứ
hai của một mẫu là xu hướng phân tán của các số liệu. .
+ Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luôn
bằng 0. Tức là:

( )
0
1
=−

=
n
i
i
xx
- Số trung bình trọng số (Weighted mean):
Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm có
những dặc tính khác nhau. Số trung bình chung được tính từ các số trung bình của
từng nhóm riêng rẽ. Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đóng
góp của các nhóm là như nhau. Để phân biệt sự tham gia không ngang nhau của các
10
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng

________________________________________________________________________
nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trung
bình chung.
Ta có:
w
wX
wX


=
Trong đó w = trọng số áp dụng cho giá trị X
X = Gía trị quan trắc
Ví dụ: Một nhà khoa học nông nghiệp xác định năng suất ngô của các giống
khác nhau. Số liệu quan trắc được ghi ở Bảng 2.5.
Bảng 2.5 Năng suất ngô trong thí nghiệm
Giống
ngô
X
(tạ/ha)
diện tích
(ha)
Sản lượng
A
B
C
D
Tổng
130,7
144,3
140,0

120,0
64
63
66
51
254
8364,8
9090,9
9240,0
6120,0
32.815,7
Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trị
trung bình X= 133,75 tạ/ha. Tuy nhiên trong trường hợp này các giống dược trồng
trên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từng
giống ngô. Hay ta nhân cột (1) với cột (2). Theo cách tính số trung bình trọng số ta
có:
49,134
254
7,32815
===


w
wX
wX
(tạ/ha)
- Số trung vị (Median):
11
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________

Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu được
sắp xếp theo trật tự giảm dần hoặc tăng dần. Trong trường hợp tỏng số quan trắc là
lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó
có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu.
Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳ
theo phân bố của chúng. Nếu phân bố của biến ngẫu nhiên đối xứng và có một số
trội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và số
trội (Mode) là trùng nhau. Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất,
trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) để
định vị sẽ tốt hơn.
Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành
2 phần bằng nhau. Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa có
giá trị lớn hơn số trung vị.
Ví dụ 2.5: Tỷ P
2
O
5
trong 6 loại phân bón có chứa phốt pho như sau, xác định
Med của chúng.
Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P
2
O
5
của các loại phân bón
theo thứ tự tăng dần như sau: 20-34-39-46-48-62. Áp dụng công thức tính Med ta
có:
5,42
2
4639
=

+
=Med
12
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc
đó ta có Med = 39
Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là số
thứ (n+1)/2. Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị
số thứ (n/2) và [(n/2)+1].
- Số trung vị trong phân bố tần suất:
Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệu
thành từng lớp thì cũng làm tương tự như trường hợp trên. Số trung vị dược xác định
theo công thức:
( )
i
f
CFn
LMed







+=
2
[2-7]
Trong đó: L = Giá trị thấp hơn giới hạn dưới của lớp có chứa trung vị

n = Tổng số các tần suất
CF = Tần suất tích luỹ tính đến lớp có chứa số trung vị
i = Khoảng cách của lớp
f = Tần suất của lớp chứa số trung vị
Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông
nghiệp đã thu được các số liệu ở Bảng 2.7. Hãy tính số trung vị về thu nhập của
người dân trong các nhóm được điều tra.
Bảng 2.7. Tính toán số trung vị của phân bố tần xuất
Thu nhập hàng năm
(triệu đồng)
Số người dân
(f)
Tần suất tích luỹ
(CF)
10,000-14,999
15,000-19,999
20,000-24,999
24,999-29,999
5
7
10
12
5
12
22
34
13
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
30.000-34,999

35,000-39,999
40,000-44,999
45,000-49,999
50,000 trở lên
Tổng
14
20
16
19
17
120
48
68
84
103
120
Giải:
- Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60. Chúng
ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cả
nhóm đã được điều tra.
- Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7. Các gía
trị này cho biết n/2 nằm ở vị trí nào. Từ bước thứ nhất ta biết rằng số trung bình sẽ
nằm ở lớp có chứa tần suất tích luỹ là 60. Tức là ở lớp có thu nhập 35,000-39,999
triệu động/năm. Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơn
giới hạn trên là 39,9995. Theo phương pháp tính toán đã nói ở trên chúng ta sử dụng
giá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị. Bởi vì tần suất tích luỹ
của 5 lớp đầu là 48 và 6 lớp đầu là 68. Do vậy số trung vị sẽ nằm ở vị trí nào đó giữa
lớp thứ 5 và thứ 6.
- Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từ
lớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp. Vì lớp 5 có tần suất tích luỹ là 48,

nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6. Như vậy số trung vị sẽ lấy
giá trị 12/20 trong khoảng 34,9995 và 39,9995.
Áp dụng công thức [2-7] ta có:
( ) ( )
9995,37000,5
20
482120
9995,34
2
=







+=







+= i
f
CFn
LMed
14

Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệu
đồng/năm. Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệu
đồng/năm và một nửa còn lại sẽ có thu nhập cao hơn.
- Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suất
lớn vượt trội. Số trội được ký hiệu là Mod.
Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệu
hoặc biểu đồ tần suất. Nó cho biết giá trị thường gặp nhất của X trong một dãy số
liệu quan trắc.
Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt
giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 –
4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày. Hãy xác định Mod của tập hợp số
liệu này.
Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trường
hợp là nhiều nhất. Do vậy số trội của dãy số liệu này là 5 ngày.
Cần chú ý rằng có nhiều dãy số liệu không có số trội. Ví dụ như 4 giá trị
quan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày. Ngược lại cũng có dãy số
liệu có thể có hai hay nhiều số trội. Ví dụ dãy quan trắc sự nảy mầm của hạt vào các
ngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5. Ta có hai số trội là 4 ngày và 5 ngày.
Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớp
trội. Lớp trội cũng là lớp có tần suất lớn nhất. Để xác định số trội trong trường hợp
này cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp. Trong ví dụ
này, lớp thứ 6 có tần suất 20 là lớp trội. Do vậy số trội được tính như sau:
4995,37
2
999,4
000,35 =+
Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo công
thức:

( )
i
dd
d
LMod






+
+=
21
1
15
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội
d
1
: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớp
trước nó
d
2
: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo
i: Khoảng cách của lớp trội
Với ví dụ ở Bảng 2.7, ta có:
( )
i

dd
d
LMod






+
+=
21
1
=
( )
9995,37000,5
)1620()1420(
1420
9995,34 =






−+−

+
Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trung
bình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt. Trong

khi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội. Tuy
nhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫu
khi có vấn đề trong lấy mẫu. Trong trường hợp này số trung bình cộng sẽ có ý
nghĩa tốt hơn. Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nó
không bị ảnh hưởng bởi dạng đường cong phân bố. Tuy nhiên hạn chế của số trội là
nó không có sự tính toán chính xác. Hơn nữa do điều kiện lấy mẫu, số trội là ít có
tính xác thực hơn.
2.4. Xác định sự biến động hay độ phân tán mẫu
Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của các
giá trị quan trắc so với giá trị trung bình. Nhìn chung khoảng cách từ gía trị quan
trắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn.
Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biến
thiên, độ lệch trung bình, phương sai, độ lệch chuẩn.
-Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhất
trong dãy số liệu:
R= X max – X min [2-9]
Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là:
R= 7,9-2,3=5,6
16
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giá
trị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu.
- Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định
là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng. Khi
tính toán, tổng của các độ lệch này luôn luôn bằng 0.
( )

=− 0XXi
Từ số liệu của ví dụ 2.8 ta có:

( )
( ) ( ) ( ) ( ) ( )
9,49,79,43,29,44,39,47,69,42,4 −+−+−+−+−=−

XXi

00,36,25,18,17,0 =+−−+−=
Trong xác định độ lệch trung bình, chúng ta cần thay đổi cách tính để được
một số có ý nghĩa bằng cách không chú ý đến các dấu số học. Khi đó ta lấy tổng các
gía trị tuyệt đối của các độ lệch rồi chia cho n sẽ được độ lệch trung bình:
n
xx
AD


=
[2-10]
Trong đó AD = độ lệch trung bình
x = Giá trị của mỗi lần quan trắc

X
= Số trung bình cộng
n = Số lần quan trắc
Ví dụ 2.9: Lấy số liệu từ ví dụ 2.8 ta có
92,1
5
0,36,25,18,17
5
9,49,7 9,47,69,42,4
=

++++
=
−++−+−
=AD
Như vậy giá trị độ lệch trung bình của mẫu là 1,92.
- Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bình
phương của các giá trị quan trắc so với giá trị trung bình. Phương sai của biến ngẫu
nhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung
quanh tâm của nó.
17
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Công thức tính phương sai của một tổng thể như sau:
( )
2
2
N
X
i


=
µ
σ
Trong đó
2
σ
= Phương sai của một tổng thể
x = Giá trị quan trắc


µ
= Giá trị trung bình của tổng thể
N= Số quan trắc trong tổng thể
Đối với một mẫu, thì phương sai được tính theo công thức:
( )
2
2
1−

=

n
xx
S
i
Trong đó: S
2
= Phương sai mẫu
x= Giá trị quan trắc
x
= Số trung bình mẫu
n= Số quan trắc trong mẫu
Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại
dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn.
Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nước
biển như sau, hãy xác định phương sai của quần thể vi sinh vật này.
32 56 72 45 52 74 53 42 58 61
59 40 36 76 55 75 62 48 35 39
Giải:
95,53

20
1079
===

N
X
µ
Ta có:
( )
0,189
20
9,3780
2
2
==

=

N
X
µ
σ
18
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
X
µ
−X
( )
2

µ
−X
32
65
72
45
52
74
53
42
58
61
59
40
36
76
55
75
62
48
35
39
-21,95
11,05
18,05
-8,95
-1,95
20,05
-0,95
-11,95

4,05
7,05
5,05
-13,95
-17,95
22,05
1,05
21,05
8,05
-5,95
-18,95
-14,95
48,18
122,1
325,8
80,1
3,8
402,0
0,9
142,8
16,4
49,7
25,5
191,6
322,2
486,2
1,1
443,1
64,8
35,4

359,1
223,5
19
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
1079 0,0 3780,9
Giá trị phương sai chỉ có nghĩa để so sánh độ phân tán mẫu của 2 hoặc nhiều
mẫu nghiên cứu. Trong một mẫu giá trị phương sai không có ý nghĩa so sánh vì số
189 không phải là số lượng vi khuẩn thực tế mà là số bình phương. Do vậy để sử
dụng chúng người ta phải chuyển phương sai thành độ lệch chuẩn bằng cách khai
căn bậc 2 giá trị phương sai.
5,13189 ==
σ
(vi khuẩn)
Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn.
Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thức
sau:
2
2
2








−=
∑∑

N
X
N
X
σ
Với ví dụ 2.10 ta có:
0,189
20
39 6532
20
39 6532
2
222
2
=






+++

+++
=
σ
- Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 của
phương sai. Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để so
sánh sự phân tán của các mẫu khác nhau. Khi mẫu có độ lệch chuẩn càng lớn chứng
tỏ mức độ phân tán của mẫu cũng càng lớn. Công thức để tính độ lệch chuẩn cho

một tổng thể như sau:
( )
N
X


=
2
µ
σ
[2-14]
Hoặc ngắn gọn hơn, có thể áp dụng công thức:
2
2








−=
∑∑
N
X
N
X
σ
[2-15]

20
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Đối với một mẫu ta áp dụng công thức sau:
( )
1
2


=

n
XX
S
[2-16]
Hoặc tính ngắn gọn theo công thức:
( )
1
2
2


=


n
n
X
X
S

[2-17]
Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1. Theo Mason
(1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tính
của tổng thể, đặc biệt là khi kích thước của mẫu nhỏ.
Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp
được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng.
Tính độ lệch chuẩn của mẫu.
Giải:
25
8
200
===

n
X
X
X
XX −
( )
2
XX −
24
32
28
22
20
26
28
20
Tổ

-1
7
3
-3
-5
1
3
-5
0
1
49
9
9
25
1
9
25
128
21
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
ng
( )
28,428,18
18
128
1
2
==


=


=

n
XX
S
Theo cách rút gọn ta có:
X X
2
24
32
28
22
20
26
28
20
200
576
1024
784
484
400
676
784
400
5128
( )

( )
28,4
7
128
7
50005128
18
8
200
5128
1
2
2
2
==

=


=


=


n
n
X
X
S

Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác định
theo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có
[1-(1/k
2
)] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu
đó xung quanh giá trị trung bình".
Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quan
trắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình. Ít
nhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và
ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình.
22
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai
ba và năm lần độ lệch chuẩn như sau:
Với khoảng 75% ta có:
75,0
4
1
1
2
1
1
1
1
22
=−=−=−
k
Với khoảng 88,9% ta có:
88,0

9
1
1
3
1
1
1
1
22
=−=−=−
k
Với khoảng 96% ta có:
96,0
25
1
1
5
1
1
1
1
22
=−=−=−
k
Áp dụng định lý Chebyshev cho ví dụ 2.11, với giá trị trung bình là 25, độ
lệch chuẩn là 4,28 ta có ít nhất 75% số các giá trị quan trắc nằm trong khoảng (25 -
4,28 x 2) = 16,44; và (25 + 4,28 x 2) =33,56. It nhất 88,9% các giá trị nằm trong
phạm vi (25-4,28x3)=12,16 và (25+4,28x3)=37,84; và 96% giá trị thì nằm trong
phạm vi (25 - 4,28 x 5) = 3,60 và (25 + 4,28 x 5) = 46,40.
- Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợp

của các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau:
( )
1
2
2


=


n
n
fx
fx
S
[2-18]
Trong đó: x = Điểm giữa của lớp
f = Tần xuất của lớp
n = Số lượng quan trắc
Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây
dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau. Người ta đã thống
kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó.
Giải:
Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính
độ lệch chuẩn.
Mức đóng góp (triệu Số đơn vị tài trợ
23
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
đồng)

0,00 - < 5,00
30
5,00 - < 10,00
35
10,00- < 15,00
42
15,00- < 20,00
10
20,00- < 25,00
3
25,00- < 30,00
5
30,00- < 35,00
7
Bảng 2.8. Tính các gía trị cho các nhóm số liệu
(1)
Mức đóng góp
(triệu đồng)
(2)
Tần
suất
(f)
(3)
Điểm
giữa
(x)
(4)
(fx)
(5)
fx.x

(fx
2
)
0,00 - < 5,00
30 2,5 75,00 187,50
5,00 - < 10,00
35 7,5 262,50 1968,75
10,00- < 15,00
42 12,5 525,00 6526,50
15,00- < 20,00
10 17,5 175,00 3062,50
20,00- < 25,00
3 22,5 57,50 1518,75
25,00- < 30,00
5 27,5 137,50 3781,25
30,00- < 35,00
7 32,5 227,50 7393,75
Cộng 132 1.470,00 24.475,0
0
( )
( )
87,787,61
1132
132
1470
24475
1
2
2
2

==


=


=


n
n
fx
fx
S
24
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
________________________________________________________________________
Phần 2. THỐNG KÊ SUY LUẬN TRONG
KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG
CHƯƠNG 3. LÝ THUYẾT XÁC SUẤT
3.1. Giới thiệu
Ở chương trước đã đề cập đến phương pháp thống kê mô tả. Tuy nhiên
phương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưng
mẫu. Do vậy ta phải sử dụng phương pháp thống kê suy luận. Quan điểm lí thuyết
xác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận.
Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việc
phải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế.
Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn
về kinh phí cũng như thời gian. Lí thuyết sác xuất có liên quan đến quan niệm và sự
xác định các sự kiện không chắc chắn.

Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạn
chế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện không
chắc chắn. Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựa
vào lí thuyết xác suất. Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suất
như một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trong
kết quả của xuất hiện của một sự kiện hoặc thí nghiệm.
3.2 Các khái niệm và phương pháp xác định xác suất
- Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quả
không chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của một
quan trắc hay một thí nghiệm nào đó. Hay nói cách khác, sự kiện là kết quả của 1
phép thử. Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B,
Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng. Kết qủa
cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện. Khi
nói đến sự kiện ta cần chú ý có sự kiện là tất yếu (Ω), nó nhất định sẽ xảy ra khi tiến
25

×