Tải bản đầy đủ (.pdf) (65 trang)

Giáo trình Thống kê và phương pháp thí nghiệm (Nghề: Bảo vệ thực vật - Cao đẳng): Phần 1 - Trường Cao đẳng cộng đồng Đồng Tháp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.95 MB, 65 trang )

UỶ BAN NHÂN DÂN TỈNH ĐỒNG THÁP
TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG ĐỒNG THÁP

GIÁO TRÌNH
MƠN HỌC: THỐNG KÊ VÀ PHƯƠNG PHÁP
THÍ NGHIỆM - BVTV
NGÀNH, NGHỀ: - BẢO VỆ THỰC VẬT
TRÌNH ĐỘ: CAO ĐẲNG
(Ban hành kèm theo Quyết định Số:…./QĐ-CĐCĐ-ĐT ngày… tháng… năm
2017 của Hiệu trưởng Trường Cao đẳng Cộng đồng Đồng Tháp)

Đồng Tháp, năm 2017


TUYÊN BỐ BẢN QUYỀN
Tài liệu này thuộc loại sách giáo trình nên các nguồn thơng tin có thể được
phép dùng nguyên bản hoặc trích dùng cho các mục đích về đào tạo và tham khảo.
Mọi mục đích khác mang tính lệch lạc hoặc sử dụng với mục đích kinh doanh
thiếu lành mạnh sẽ bị nghiêm cấm.

i


LỜI GIỚI THIỆU
Thống kê phép thí nghiệm là một mơn khoa học thông dụng được giảng dạy
trong một số trường đại học, cao đẳng có liên quan đến lĩnh vực Nông Nghiệp
như Bảo Vệ Thực Vật, Khoa Học Cây Trồng, Thủy Sản, Chăn Nuôi… nhằm phục
vụ cho công tác thu thập số liệu, xử lý số liệu, bố trí thí nghiệm.
Giáo trình này được viết cho sinh viên bậc cao đẳng ngành, nghề Bảo vệ
thực vật nên giáo trình chỉ trình bày các nội dung thống kê cơ bản mang tính ứng
dụng như khái niệm cơ bản về thống kê, cách bố trí thí nghiệm ngồi đồng và


cách sử dụng chương trình Excel phần mềm MstatC để kiểm định giá trị trung
bình của các nghiệm thức trong bố trí thí nghiệm 1 và 2 nhân tố.
Nội dung tài liệu gồm 5 chương
Chương 1. Một vài khái niệm thường dùng trong thống kê
Chương 2: Các dạng phân bố của biến ngẫu nhiên
Chương 3. So sánh hai mẫu độc lập
Chương 4: Bố trí thí nghiệm
Chương 5: Phân tích kết quả thí nghiệm một nhân tố
Chương 6: Phân tích kết quả thí nghiệm hai nhân tố
Giáo trình được biên soạn nhằm phục vụ cho việc giảng dạy trình độ cao đẳng
ngành, nghề Bảo Vệ Thực Vật tại trường CĐCĐ Đồng Tháp. Trong quá trình biên soạn
khơng tránh khỏi nhiều thiếu sót. Rất mong nhận được sự đóng góp ý kiến quý báu của
anh chị em đồng nghiệp và bạn đọc để chúng tôi bổ sung, chỉnh sửa cho giáo trình ngày
càng hồn thiện, góp phần vào sự nghiệp đào tạo nghề Bảo vệ thực vật trong tỉnh được
tốt hơn.
Xin bày tỏ lòng biết ơn với Lãnh đạo trường CĐCĐ Đồng Tháp, Hội Đồng thẩm
định đã đóng góp nhiều ý kiến quý báu để hồn chỉnh giáo trình. Cảm ơn các tác giả
biên soạn những tài liệu tôi tham khảo và bạn bè đồng nghiệp đã giúp đỡ, cung cấp
nhiều tài liệu để tôi hồn thành giáo trình này.

Đồng Tháp, ngày…..tháng ... năm 2017
Chủ biên
Nguyễn Thị Quế Phương

ii


MỤC LỤC
Trang


Table of Contents
LỜI GIỚI THIỆU .......................................................................................... ii
CHƯƠNG 1 .................................................................................................. 1
1. Một số khái niệm................................................................................... 1
1.1. Thống kê và thống kê sinh học ...................................................... 1
1.2. Tổng thể và mẫu............................................................................. 2
1.3. Các loại biến số .............................................................................. 9
1.4. Các loại thang đo trong thống kê ................................................. 10
2. Dữ liệu ................................................................................................. 11
2.1. Khái niệm ..................................................................................... 11
2.2. Các loại dữ liệu ............................................................................ 12
2.3. Các phương pháp thu thập dữ liệu ............................................... 12
2.4. Mô tả và trình bày dữ liệu ............................................................ 14
3. Thực hành............................................................................................ 18
3.1. Tính tốn các tham số mơ tả bộ dữ liệu ....................................... 18
3.2. Mơ tả và trình bày dữ liệu ............................................................ 19
CHƯƠNG 3 ................................................................................................ 41
KIỂM ĐỊNH GIẢ THIẾT SỬ DỤNG 2 MẪU .......................................... 41
1. Nguyên tắc .......................................................................................... 41
1.1. So sánh trung bình hai mẫu .......................................................... 41
1.2. So sánh cặp................................................................................... 44
1.3. So sánh tỉ lệ hai mẫu .................................................................... 45
2. Thực hành............................................................................................ 45
2.1. T-test ............................................................................................ 45
2.2. Z- tesst .......................................................................................... 52
iii


CHƯƠNG4 ................................................................................................. 57
THIẾT KẾ THÍ NGHIỆM .......................................................................... 57

1. Một số định nghĩa thường dùng trong bố trí thí nghiệm..................... 57
1.1. Đơn vị thí nghiệm (Experimental unit) ........................................ 57
1.2 Nhân tố (Factor) ............................................................................ 58
1.3. Nghiệm thức (treatment) .............................................................. 58
1.4. Sai số thí nghiệm (Experimental error)........................................ 59
1.5. Lặp lại (Replication) .................................................................... 60
2. Thiết kế thí nghiệm một nhân tố ......................................................... 60
2.1. Bố trí hồn tồn ngẫu nhiên ......................................................... 61
2.2. Bố trí khối hồn tồn ngẫu nhiên ................................................. 64
2.3. Bố trí thí nghiệm theo kiểu hình vng Latin .............................. 67
3. Thiết kế thí nghiệm hai nhân tố .......................................................... 70
3.1. Bố trí thí nghiệm kiểu khối hồn tồn ngẫu nhiên ....................... 71
3.2. Bố trí thí nghiệm theo kiểu thừa số lơ phụ .................................. 72
4. Thực hành: Các kiểu bố trí thí nghiệm ............................................... 74
CHƯƠNG 5 ................................................................................................ 76
PHÂN TÍCH KẾT QUẢ THÍ NGHIỆM MỘT NHÂN TỐ ....................... 76
1. Bố trí hồn tồn ngẫu nhiên ................................................................ 76
1.1. Phân tích phương sai .................................................................... 76
Bảng 4.1. Phân tích phương sai (CRD) .................................................. 77
1.2. Kiểm định sự khác biệt ................................................................ 79
2. Bố trí khối hồn tồn ngẫu nhiên ........................................................ 82
2.1. Phân tích phương sai .................................................................... 82
2.2. Kiểm định sự khác biệt ................................................................ 84
3. Thực hành............................................................................................ 84
3.1. Phương pháp nhập số liệu ............................................................ 84
3.2. Bố trí hồn tồn ngẫu nhiên một nhân tố ..................................... 87
3.3. Bố trí khối hồn tồn ngẫu nhiên một nhân tố............................. 92
iv



CHƯƠNG 6 .............................................................................................. 107
PHÂN TÍCH KẾT QUẢ THÍ NGHIỆM HAI NHÂN TỐ ....................... 107

v


GIÁO TRÌNH MƠN HỌC
Tên mơn học: THỐNG KÊ VÀ PHƯƠNG PHÁP THÍ NGHIỆM- BVTV
Mã mơn học: NN206
Vị trí, tính chất, ý nghĩa và vai trị của mơn học/mơn học:
- Vị trí: Mơn học thống kê phép thí nghiệm được bố trí sau mơn Tin học,
trước mơn học Thực tập tốt nghiệp
- Tính chất: Là mơn học cơ sở, hướng dẫn cách bố trí thí nghiệm, sắp xếp,
xử lý số liệu, đọc kết quả thống kê, làm nền tảng cho môđun Thực tập tốt nghiệp
- Ý nghĩa và vai trò của môn học: giúp cho sinh viên tiếp cận môn học dễ
dàng, hiểu được các ứng dụng thực tế của môn học trong thực tập cuối khóa và
nghiên cứu khoa học.
Mục tiêu của môn học/môn học:
- Về kiến thức:
+ Phát biểu được các khái niệm dùng trong thống kê;
+ Giải thích được số liệu đã qua xử lý thống kê của thí nghiệm 2 mẫu
độc lập;
+ Phát biểu được các khái niệm dùng trong bố trí thí nghiệm 1 và 2 nhân
tố
+ Phát biểu được các phương pháp bố trí thí nghiệm một nhân tố và 2 nhân
tố.
+ Giải thích được số liệu đã qua xử lý thống kê thí nghiệm 1 nhân tố
- Về kỹ năng:
+ Sắp xếp các số liệu theo nhóm, lớp
+ Tính tốn được các số đo mơ tả

+ Trình bày dữ liệu bằng excel
+ Sử dụng phần mềm thống kê để xử lý số liệu từ kết quả thí nghiệm
+ Chọn lựa và thực hiện được cơng tác bố trí thí nghiệm để thu thập số
liệu cho cơng tác nghiên cứu;
+ Tính tốn được các số đo mơ tả, bảng phân tích phương sai và kiểm định
sự khác biệt giữa các nghiệm thức;
vi


+ Trình bày kết quả thống kê
- Về năng lực tự chủ và trách nhiệm:
+ Rèn luyện tính cẩn thận, chính xác, ham học hỏi. có thể tự xác định các
chỉ tiêu thu thập, đánh giá kết quả thí nghiệm và đưa ra nhận định cho kết
quả đã phân tích
Nội dung của mơn học:
Thời gian (giờ)
Thực
hành,
Tổng

thínghiệm,
số
thuyết
thảo luận,
bài tập

Tên chương, mục

Số TT


Kiểm
tra

Chương 1: Một vài khái niệm
thường dùng trong thống kê
1 Tập hợp
2 Mẫu và cỡ mẫu

4

4

0

4

4

0

5

1

4

8

3


4

3 Biến ngẫu nhiên
4 Các số đo mô tả
Chương 2: Các dạng phân bố
của biến ngẫu nhiên
1 Phân bố nhị thức
2 Phân bố chuẩn
3 Phân bố của trung bình mẫu
4 Phân bố của số tỉ lệ mẫu
5 Phân bố Student
6 Phân bố Fisher
Chương 3: So sánh hai mẫu
độc lập
1. T-test
3

2. Z-test
3. Tương quan, hồi qui
4. Thực hành

4

Chương 4: Thiết kế thí nghiệm

vii

1LT



1 Một số định nghĩa thường dùng
trong bố trí thí nghiệm
2 Thiết kế thí nghiệm một nhân tố
3. Thiết kế thí nghiệm hai nhân tố
4. Thực hành
Chương 5: Phân tích kết quả
thí nghiệm một nhân tố
5

1. Bố trí hồn tồn ngẫu nhiên
2. Bố trí khối hồn tồn ngẫu
nhiên

12

4

8

7

3

3

1TH

40

19


19

2

3. Thực hành
Chương 6: Phân tích kết quả
thí nghiệm hai nhân tố
6

1. Bố trí khối hồn tồn ngẫu
nhiên
2. Bố trí lơ phụ
3. Thực hành
Cộng

viii


CHƯƠNG 1
MỘT VÀI KHÁI NIỆM THƯỜNG DÙNG TRONG THỐNG KÊ
NN206-01
Giới thiệu
Chương học trình bày các khái niệm dùng trong thống kê, phương pháp thu
thập, mơ tả và trình bày dữ liệu thống kê
Mục tiêu:
Kiến thức:
+ Phát biểu được các khái niệm dùng trong thống kê
Kỹ năng:
+ Sắp xếp các số liệu theo nhóm, lớp

+ Tính tốn được các số đo mơ tả
+ Trình bày dữ liệu bằng excel
Năng lực tự chủ và trách nhiệm: Rèn luyện tính cẩn thận, chính xác, ham
học hỏi. Quyết định phương pháp trình bày dữ liệu phù hợp tình huống cụ thể
1. Một số khái niệm
1.1. Thống kê và thống kê sinh học
Thuật ngữ thống kê có hai nghĩa: Nghĩa thứ nhất, thống kê là những con số
được ghi chép để phản ánh các hiện tượng của tự nhiên (lượng mưa, nhiệt độ), kỹ
thuật, kinh tế, xã hội (dân số, lao động)... Theo nghĩa thứ hai, thống kê là hệ thống
các phương pháp thu thập và phân tích các con về những hiện tượng nói trên để
tìm hiểu bản chất và tính quy luật vốn có của nó. Chẳng hạn qua số liệu về chiều
cao, đường kính, năm tuổi, độ che phủ, tỉ lệ dịch hại, năng suất... của một loại cây
trồng, ta có thể tìm hiểu được mức độ quan hệ giữa các đại lượng, dự báo chiều
cao hoặc độ che phủ của cây qua năm tuổi và đường kính của nó,... từ đó giúp
người quản lý quyết định về mật độ trồng, kế hoạch chăm sóc, khai thác, một cách
hợp lý. Trong giáo trình này, phần thống kê chủ yếu trình bày các vấn đề theo
nghĩa thứ hai.
Thống kê sinh học bắt nguồn từ tiếng Hy Lạp bios sự sống và metron đo đạc
nên người ta gọi đây là sinh trắc (biological measurement). Thống kê sinh học là
khoa học về sự ứng dụng các phương pháp thống kê để giải quyết các vấn đề trong
sinh học.
Để thực hiện một thống kê đầy đủ, thông thường thực hiện hai loại sau:
1


- Thống kê mô tả: Thu thập và kiểm tra số liệu, mơ tả và trình bày số liệu,
tính các tham số mẫu đặc trưng của số liệu mẫu.
- Thống kê suy diễn: Thực hiện việc ước lượng, kiểm định, phân tích mối
liên hệ, dự đốn,... trên cơ sở các thông tin thu thập từ mẫu.
1.2. Tổng thể và mẫu

1.2.1. Tổng thể (Population)
Tổng thể hay còn gọi là tập hợp bao gồm tất cả các phần tử (đơn vị) thuộc
đối tượng nghiên cứu. Giá trị một phần tử trong tập hợp gọi là biến số. Mỗi phần
tử trong tập hợp gọi là cá thể. Số cá thể của tổng thể được ký hiệu là N.
Tổng thể có thể là hữu hạn hoặc vơ hạn (infinite)
Ví dụ: tập hợp chiều cao của tất cả sinh viên trong lớp học là tổng thể hữu
hạn vì có thể xác định được số sinh viên trong lớp học là bao nhiêu. Nhưng tập
hợp chiều cao của giống lúa IR50404 trong ruộng thí nghiệm là tổng thể vơ hạn
vì khơng thể đo chiều cao tất cả cây trong ruộng được.
Một ví dụ khác như tập hợp của hàm lượng Vitamin C của các trái quýt hồng
chín trong vườn cây là tổng thể vơ hạn vì số trái qt hồng chín trong vườn rất
nhiều, ta khơng thể định lượng hàm lượng Vitamin C một cách chính xác hết tất
cả các trái nên trường hợp này được xem là tổng thể vơ hạn.
1.2.2. Mẫu (Sample)
Nhìn chung trong lĩnh vực nghiên cứu khoa học thuộc ngành nông nghiệp,
tổng thể thường là vô hạn, chúng ta không thể nào quan sát hết tất cả các cá thể
trong tổng thể mà chỉ có thể quan sát một nhóm cá thể được rút ra từ tổng thể gọi
là mẫu.
Mẫu là một bộ phận hay một số cá thể (phần tử) được rút ra từ tập hợp. Số
phần tử chứa trong mẫu gọi là cỡ mẫu hay kích thước mẫu (Sample size). Ký hiệu
cỡ mẫu là n
a. Phương pháp chọn mẫu
Mẫu phải đảm bảo tính đại diện, khách quan, chính xác và dựa trên quan
điểm toán học xác suất thống kê. Tuy nhiên, để đạt mục đích trên cịn phải kết
hợp với cả độ lớn của mẫu nghiên cứu mới đầy đủ.
- Chọn mẫu ngẫu nhiên: đây là phương pháp chọn mẫu mà các cá thể được
lấy ra quan sát, đo đếm là hoàn toàn ngẫu nhiên. Cách thực hiện: toàn bộ các cá
thể trong ơ thí nghiệm được đánh số sau đó bốc thăm hoặc tra bảng ngẫu nhiên
(Phụ lục 1) để chọn ra được các cá thể của mẫu (loại trừ các cá thể ở hàng biên).
2



+ Ưu điểm: mẫu nghiên cứu mang tính khách quan và các giá trị thu được
tuân theo quy định của đại lượng ngẫu nhiên, do đó các tham số của mẫu mang
tính đại diện, nhưng các cá thể trong mẫu mang tính biến động (khơng đồng đều).
Song đó là hiện trạng của thí nghiệm (tính chân thực) độ chính xác của kết quả
nghiên cứu cao.
+ Nhược điểm: khi số lượng mẫu (cỡ mẫu) khơng đủ lớn có thể dẫn đến kết
quả khơng chính xác (tính đại diện thấp). Bên cạnh đó việc thực hiện lấy mẫu
phức tạp và tốn thời gian.
- Chọn mẫu phân phối đều: Chọn phân phối đều ở đây có thể thực hiện trên
ơ thí nghiệm, hoặc trên khu vực điều tra. Phân phối đều có 2 dạng: đường chéo
góc và đường phân tuyến

(a) Đường chéo góc

(b) Đường phân tuyến

Hình 1.1 Cách chọn mẫu phân phối đều.

b. Tham số đặc trưng của mẫu
* Các số đo trung tâm
- Số trung bình cộng (arithmetical mean) được tính bằng tổng các giá trị
quan sát trong bộ số liệu chia cho tổng số phần tử quan sát là giá trị ở giữa, số
trung bình thường được sử dụng làm giá trị đại diện cho bộ số liệu
- Trung bình của tập hợp: ký hiệu là µ
Cơng thức tính giá trị trung bình:
µ=

N

X1 + X 2 +  + X N
=  Xi / N
N
i =1

Thường trong thực tế chúng ta khơng biết được µ do kích thước của tập hợp
thường quá lớn mà chúng ta chỉ có thể ước lượng được µ bằng X (trung bình của
mẫu). Do đó nếu n cá thể của mẫu được rút ra từ tập hợp (tổng thể) thì trị số trung
bình của mẫu là
3


n



X + X2 +  + Xn
= X = 1
=
n

X

i

i =1

n

Ví dụ: Chiều cao (cm) của giống lúa IR50404 vào thời điểm 20 ngày sau khi

sạ là: 15, 21, 20, 19, 22, 21, 16, 19, 20, 16, 17, 24, 16, 21, 15 và 22.


304

= X =

16

= 19 cm

Nếu số liệu được trình bày theo bảng phân bố thực nghiệm, trung bình có thể
được tính theo hai cách sau:
- Dựa trên tần số
N

X =

X f

i i

Xi : là giá trị của biến quan sát thứ i

i =1

fi : là tần số của giá trị Xi

n


- Dựa trên tần suất:

N

X =  X i Fi
i =1

Xi là giá trị của biến quan sát thứ i
fi là tần suất của giá trị Xi
Bảng 1.1. Bảng phân bố thực nghiệm



Chiều cao
(cm)

Tần số
(f)

Tần suất
(F)

fX

FX

15

2


0.1250

30

1.8750

16

3

0.1875

48

3.0000

17

1

0.0625

17

1.0625

19

2


0.1250

38

2.3750

20

2

0.1250

40

2.5000

21

3

0.1875

63

3.9375

22

2


0.1250

44

2.7500

24

1

0.0625

24

1.5000

16

1

304

19

n

X

=


 X f / n = 304/16 = 19 cm
i i

i =1

hoặc

n

X

=

 X F = 19 cm
i

i =1

4

i


- Số trung vị (Median) – Me: Là trị số giữa của một chuỗi số liệu đã được
sắp xếp thứ tự
Cách xác định số trung vị:
Khi bộ số liệu là các giá trị rời rạc
- Nếu n là số lẻ, trung vị là số thứ (n+1)/2
Ví dụ:


3

7

9

10

12

Có n = 5 vậy vị trí số trung vị = (5+1)/2 = 3
Số trung vị ở vị trí thứ 3 trong bộ số liệu là số 9 (khơng phải là số trung bình)
- Nếu n là số chẵn: trung vị là giá trị trung bình của 2 trị số thứ (n/2) và
(n/2)+1
Ví dụ: 1

3

7

8

12

16

Me = (7+8)/2 = 7.5 nghĩa là số trung bình của số hạng thứ 3 và số hạn thứ 4
Số trung vị là số đại diện cho một nhóm số, nó có tính trội hơn số trung bình
là khơng bị ảnh hưởng bởi một vài số liệu quá lớn hay quá nhỏ ở một đầu của
chuỗi số liệu. Do đó, trong một số trường hợp số trung vị được xem là một giá trị

trung tâm điển hình hơn cho chuỗi số liệu so với số trung bình. Tuy nhiên, trong
trường hợp số liệu được phân nhóm thì cách xác định số trung vị đơi khi dài dịng.
* Các số đo phân tán
- Phương sai (variance)
Là tham số đặc trưng tiêu biểu nhất cho tính chất phân tán của tổng thể
- Phương sai của tổng thể là trung bình độ lệch bình phương của các giá trị
quan sát (Xi) so với giá trị trung bình cộng (), ký hiệu 2
N

2 =

 ( X i − ) 2

N: kích thước của tổng thể

i=1

N

- Phương sai của mẫu. Thường trong thực tế chúng ta khơng biết được trị số
thật của 2, vì khơng biết , mà chỉ ước lượng 2 bằng cách dùng số thống kê từ
một mẫu ngẫu nhiên, gọi là phương sai mẫu.

Giả sử có n cá thể

5


n


s2 =
X:

(X

=

i

− X )2

i 1

(1)

n -1

ước lượng của tập hợp (trung bình mẫu)
n

s2 =

X
i=1

n

2
i


− [( X i ) 2 / n]
i=1

n −1

Công thức:
n

(X

− X) =
2

i

i=1

X

n

2
i

− [(  X i ) 2 / n ]
i =1

Đây là cơng thức tính tổng bình phương các độ lệch gọi tắt là tổng bình
phương (sum of squares) ký hiệu SS
* n-1: độ tự do (degree of freedom = df)

n

*

X )
i

2

/ n : yếu tố hiệu chỉnh (correction factor = C.F.)

i=1

Đối với các số liệu được viết dưới dạng tần số
n

2
 ( Xi − X ) fi

s2 =

i =1

n-1
n

n

i=1


i =1

2
2
 X i f i − [( X i f i ) / n]

s2 =

n −1

Ví dụ: Lấy lại chiều cao cây lúa trong ví dụ trước
6


Xi − X

( X i − X )2

(X)2

15

-4

16

225

21


2

4

441

20

1

1

400

19

0

0

361

22

3

9

484


21

2

4

441

16

-3

9

256

19

0

0

361

20

1

1


400

16

-3

9

256

17

-2

4

289

24

5

25

576

16

-3


9

256

21

2

4

441

15

-4

16

225

22

3

9

484

304


0

120

5896

X

n

s2 =

hoặc

(X

=

i

− X )2

i 1

=

n -1

120


15

 n

 Xi 
n

X i2 −  i =1

n
s2 = i =1
n −1

2

304 2
16 = 8
15

5896 −

=

- Độ lệch chuẩn (Standard deviation): là căn bậc hai của phương sai. Nhà
toán học người Nga P.L. Chebychev (1821 - 1894) đã dùng số đo độ lệch chuẩn
để đo lường độ phân tán của tổng thể. Số đo này có ưu điểm là cùng đơn vị với số
liệu đo trong khi phương sai là đơn vị bình phương
7



 =  2 (tổng thể)
s = s2

( mẫu)

- Hệ số biến thiên = hệ số biến động (Coefficient of Variation): c.v%
Hệ số biến động cũng được dùng để đo lường độ phân tán của tổng thể. Đó
là phần trăm tỉ số giữa độ lệch chuẩn và trung bình
c.v.(%) =


.100


Vì  và  không biết nên hệ số này được ước lượng bằng hệ số biến thiên
của mẫu
c.v..(%) =

s
.100
X

Với số liệu Vit.C, c.v. được tính như sau:

c.v..(%) =

2,8284
.x100 = 14,89%
19


Số đo độ lệch chuẩn là một trị số tuyệt đối có cùng đơn vị với trị số trung
bình. Tuy nhiên, số đo này không thể dùng để so sánh mức độ biến động của hai
hay nhiều chuỗi số liệu có đơn vị đo lường khác nhau. Để khắc phục tình trạng
biến động của đơn vị, Pearson đã đưa ra khái niệm hệ số biến thiên (cv). Đây là
một trị số tương đối chỉ độ chính xác của việc so sánh các giá trị trung bình và là
chỉ số cho phép đánh giá mức độ tin cậy của thí nghiệm. Giá trị của c.v. càng cao
thì độ tin cậy của thí nghiệm càng thấp.
Hệ số biến động có ưu điểm hơn độ lệch chuẩn ở chỗ giúp ta so sánh độ phân
tán của hai tập hợp số liệu có số trung bình khác nhau và có đơn vị đo lường khác
nhau.
Ví dụ : Số liệu về chiều cao và trọng lượng 1000 hạt của 100 mẫu lúa như
sau:
* Chiều cao

X

* Trọng lượng

= 110 cm,  = 10 và cv = 10%
X

= 35,  = 5 và cv = 20%

Như vậy, số liệu về trọng lượng phân tán hơn số liệu về chiều cao
Giá trị c.v. thay đổi theo từng kiểu thí nghiệm, cây trồng và tính trạng đo
lường. Tuy nhiên, một nghiên cứu viên có kinh nghiệm có thể quyết định một
cách hợp lý việc chấp nhận giá trị của c.v. cho kiểu thí nghiệm đang khảo sát. Ví
dụ, đối với tính trạng năng suất lúa của các thí nghiệm ngồi đồng, khoảng c.v. có
8



thể chấp nhận là 6 - 8% cho các thí nghiệm về giống; 10 - 12% cho các thí nghiệm
về phân bón và 13 - 15% cho các thí nghiệm về thuốc trừ sâu và thuốc trừ cỏ.
Giá trị c.v. của các tính trạng khác thường khác với c.v. của năng suất. Ví
dụ, với các thí nghiệm ngồi đồng thì c.v. của năng suất lúa khoảng 10%, c.v. của
số chồi khoảng 20% và c.v. của chiều cao cây khoảng 3%.
Bằng cách so sánh c.v., chúng ta có thể đánh giá mức độ chính xác trong việc
tiến hành thí nghiệm. Ngồi ra, vì tính chất ổn định của c.v. nên trong nhiều trường
hợp có thể dùng c.v. để ước lượng độ lệch chuẩn (s) và xác định cỡ mẫu (n) để
thu thập.
1.3. Các loại biến số
Biến ngẫu nhiên là một đại lượng bằng số mà giá trị của nó tuỳ thuộc vào
cách lấy ngẫu nhiên do cân, đong, đo, đếm, quan sát… có được.
Gọi Xi là giá trị của biến X trong quan sát lần thứ i. Nếu có n biến quan sát
thì giá trị của các biến lần lượt là X1, X2,…, Xn.
Ví dụ: độ ngọt của dưa hấu lúc chín được xác định thơng qua độ brix. Đây
là một đại lượng ngẫu nhiên quan sát trên nhiều trái dưa hấu khác nhau thu trên
ruộng. Mỗi một độ brix đo được trên một trái dưa hấu được xem là một giá trị của
biến ngẫu nhiên X, đo độ brix của bao nhiêu cây mía sẽ thu được bấy nhiêu giá
trị X.
Có hai loại biến số:
1.3.1 Biến số định tính (số liệu thuộc tính = qualitative data)
Là dữ liệu đối với thơng tin chỉ tính chất của đối tượng được khảo sát, dữ
liệu này khơng dùng các phép tính để tính toán được như giống cây trồng, màu
hoa, màu sắc thịt trái, những loại số liệu rất khó có khả năng định lượng chính
xác, trong trường hợp này người ta định ra các tiêu chuẩn, trên cơ sở đó sẽ sắp
xếp các số liệu thu thập được vào nhóm như cấp độ nhiễm sâu, bệnh hại: rất nặng,
nặng, trung bình, nhẹ, cấp bệnh 1, 3,5…
1.3.2 Biến số liệu định lượng (quantitative data)
Là số liệu có được thơng qua việc đo lường hay tính tốn như: chiều cao cây,

trọng lượng trái, năng suất,... Biến số định lượng cũng được phân thành hai loại
+ Biến ngẫu nhiên rời rạc (discrete random variable): Là biến ngẫu nhiên có
giá trị là những con số nguyên thơng qua tác động đếm
Ví dụ: - Số hạt lúa trên bông lúa, số chồi của một bụi lúa
- Số hạt sen trên một gương sen
9


+ Biến ngẫu nhiên liên tục (continuous random variable): Là biến ngẫu nhiên
mà các giá trị của nó có được thơng qua đo lường hay tính tốn. Biến liên tục có
thể nhận giá trị bất kỳ trong một khoảng các số thực. Các giá trị này lập thành
những khoảng liên tục trên trục số.
Ví dụ: Tập hợp chiều cao của giống lúa ST1 trong khoảng 100cm đến 110cm,
chỉ tiêu chiều cao cũng là một biến ngẫu nhiên liên tục vì trong khoảng số này lấy
ra một số bất kỳ đều có thể là chiều cao của một cây lúa nào đó của giống lúa ví
dụ 105,2cm…
Tóm lại biến số ngẫu nhiên được mơ mơ tả trong Hình 1.1
Hình 1.2: Sơ đồ mô tả biến số ngẫu nhiên.
Biến số ngẫu nhiên

Định tính

Định lượng

Rời rạc

- Giống cây trồng
- Nhãn hiệu
- Màu sắc, cấp bệnh ...


- Số hạt/ bông
- Số chồi/ bụi..

Liên tục

- Độ ngọt của trái
- Hàm lượng vitamin
- Năng suất...

Thường các chỉ tiêu thu thập trong các thí nghiệm đa số là biến ngẫu nhiên
liên tục như: hàm lượng đường trong nước mía, hàm lượng vitamin C trong trái
cây, hàm lượng enzyme amylase trong hạt lúa, chiều cao của cây, năng suất cây
trồng…
1.4. Các loại thang đo trong thống kê
Có 4 thang đo được dùng với các biến số: thang đo định danh, thang đo thứ
bậc, thang đo khoảng và thang đo tỷ lệ. Thang đo định danh và thứ bậc gọi chung
là thang đo định tính, thang đo khoảng và tỷ lệ gọi chung là thang do định lượng.
1.4.1. Thang đo định danh
Là loại thang đo sử dụng cho các tiêu thức thuộc tính, khơng có sự hơn kém,
khơng có thứ bậc. Người ta thường dùng các mã số để phân loại các đối tượng.
Ngồi vai trị này, các mã số khơng mang ý nghĩa nào khác. Ví dụ:
• Giới tính: 1. Nam 2. Nữ
• Giống cây trồng: 1. Dưa hấu 2. Dưa lê 3. Dưa lưới 4. Loại dưa khác
10


• Màu sắc: 1. Xanh

2. Đỏ 3. Vàng


1.4.2. Thang đo thứ bậc
Là loại thang đo sử dụng các con số hoặc tự có sự hơn kém nhau, có thứ tự
nhưng khơng có khoảng cách giữa các điểm khác nhau trong thang Sự chênh lệch
giữa các biểu hiện không nhất thiết phải bằng nhau trong thang.
Ví dụ:
Thể trạng của vật ni:
1. Rất gầy

2. Gầy,

3. Trung bình,

4. Béo

5.Rất béo.

Mức độ độc hại của chất amiăng đối với cơng nhân:
1. Thấp

2. Trung bình,

3. Cao

1.4.3. Thang đo khoảng
Thang đo khoảng thường dùng cho các đặc điểm số lượng và đôi khi cũng
được áp dụng cho các đặc điểm thuộc tính. Thang đo khoảng là thang đo thứ bậc
có các khoảng cách đều nhau. Các phép tính cộng trừ đều có ý nghĩa.
Ví dụ: Ơng (Bà) cho biết ý kiến của mình về một số đặc điểm của giống lúa
IR504 qua hai năm canh tác:
- Năng suất: 1: Rất thấp 2: thấp 3: Trung bình 4: cao 5: rất cao

1.4.4. Thang đo tỷ lệ
Là loại thang đo dùng cho đặc tính số lượng. Thang đo tỷ lệ có đầy đủ các
đặc tính của thang đo khoảng.
2. Dữ liệu
2.1. Khái niệm
Để nghiên cứu một vấn đề nào đó ta phải quan sát, ghi nhận, thu thập,... các
thuộc tính, số đo, số lượng, phản ánh bản chất của nó. Các q trình đó sẽ tạo ra
một tập dữ liệu cho vấn đề quan tâm. Dữ liệu thường được đo ở dạng thang số
hoặc phân loại thành nhóm rồi sau đó mã hóa dưới dạng số. Vấn đề quan trọng
của việc thu thập dữ liệu là xác định rõ ràng những dữ liệu nào cần thu thập, thứ
tự ưu tiên của các loại dữ liệu này. Vấn đề nghiên cứu và mục tiêu nghiên cứu
càng cụ thể thì việc xác định dữ liệu cần thu thập càng dễ dàng. Dữ liệu ln đóng
một vai trị vơ cùng quan trọng trong nghiên cứu thống kê ứng dụng.

11


2.2. Các loại dữ liệu
2.2.1. Dữ liệu sơ cấp và thứ cấp
Dữ liệu từ các nguồn có sẵn (thường đã qua tổng hợp, xử lý) gọi là dữ liệu
thứ cấp (secondary data). Loại dữ liệu này có ưu điểm là thu thập nhanh, ít tốn
kém chi phí, nhưng đơi khi ít chi tiết và không đáp ứng đúng nhu cầu nghiên cứu.
Ngồi ra mức độ chính xác của nó tùy thuộc vào cơ quan cơng bố số liệu. Ta có
thể lấy dữ liệu này tại các báo cáo tài chính của các tổ chức, công ty ; các cơ quan
thống kê về dân số, lao động, việc làm,..., các công ty và tổ chức nghiên cứu, cung
cấp thông tin theo yêu cầu, tìm qua internet,...
Dữ liệu sơ cấp (primary data) là dữ liệu thu thập trực tiếp, ban đầu từ đối
tượng nghiên cứu. Loại dữ liệu này đáp ứng tốt nhu cầu nghiên cứu nhưng tốn.
kém chi phí và thời gian để thu thập.
2.2.2. Dữ liệu định tính và định lượng

Trước khi thu thập dữ liệu cần phân biệt rõ tính chất của dữ liệu. Dữ liệu
định tính phản ánh tính chất, sự hơn kém của các đối tượng nghiên cứu và được
thu thập bằng thang đo định danh hay thứ bậc. Dữ liệu định lượng phản ánh mức
độ hơn kém và thu thập bằng thang đo khoảng hay tỷ lệ. Dữ liệu định tính dễ thu
thập hơn định lượng, nhưng dữ liệu định lượng thường cung cấp nhiều thông tin
hơn và dễ áp dụng nhiều phương pháp phân tích hơn. Khi thực hiện nghiên cứu,
trong giai đoạn lập kế hoạch nghiên cứu và thu thập dữ liệu, người nghiên cứu
cần xác định trước các phương pháp phân tích cần sử dụng, từ đó xác định loại dữ
liệu cần thu thập, có nghĩa là xác định thang đo phù hợp cần sử dụng trong khi
thiết kế biểu mẫu hay bảng câu hỏi dùng để thu thập dữ liệu mong muốn. Thí dụ,
ta muốn nghiên cứu ảnh hưởng của việc đi làm thêm đối với kết quả học tập của
sinh viên Các dữ liệu thu thập được có thể dưới dạng định tính hoặc định lượng.
Sinh viên có đi làm thêm hay khơng ? (có, khơng) là định tính. Kết quả học tập
của sinh viên là định tính (xuất sắc, giỏi, khá...) hoặc định lượng (điểm trung
bình).
2.3. Các phương pháp thu thập dữ liệu
2.3.1. Phương pháp thực nghiệm
Tiến hành thực hiện các thực nghiệm, các thí nghiệm theo chủ định, thu thập
các số liệu định tính, định lượng qua từng giai đoạn theo yêu cầu để có được bộ
số liệu. Một kế hoạch thực nghiệm dựa trên ý tưởng cơ bản xác định trước yếu tố
quan tâm. Một số nhân tố ảnh hưởng được lựa chọn, sẽ được điều khiển hoặc thay
đổi sao cho tác động của chúng lên yếu tố quan tâm có thể đo đạc được hoặc quan
sát được. Phương pháp này cho độ chính xác cao, theo đúng yêu cầu của người
12


nghiên cứu, nhưng nó địi hỏi nhiều kinh phí, thời gian và khơng phải lúc nào
cũng thành cơng.
Ví dụ: Một nhà máy chế biến khoai tây chiên cần thực hiện các nghiên cứu
về quá trình sản xuất khoai tây. Khách hàng mua khoai tây chiên của họ đặt ra

những yêu cầu nghiêm ngặt về chất lượng khoai mà họ mua vào, một yêu cầu
quan trọng là màu sắc của khoai thành phẩm phải có màu vàng nâu đồng đều,
khơng q nhạt màu cũng khơng q sậm màu. Q trình sản xuất phải qua các
giai đoạn: gọt vỏ, xắt lát, tẩy trắng, nấu chín một phần và được làm lạnh khơ. Tuy
nhiên, khoai tây thu mua về vốn khác nhau ở nhiều mặt hàm lượng đường, độ ẩm,
thời gian tẩy trắng, nhiệt độ lúc nấu,... Các nhân viên kĩ thuật tiến hành thí nghiệm
bằng cách nhóm các củ khoai tây khác nhau vào những mẻ có tính chất tương tự
nhau về môi trường nhiệt độ và thời gian tẩy xác định. Sau khi kiểm tra chất lượng
thành phẩm của mẻ đó, họ lại tiếp tục thay môi trường và làm mẻ khác và tiến
hành kiểm tra chất lượng. Ghi chép kết quả lại và so sánh các mỏ khoai với nhau.
2.3.2. Phương pháp quan sát
Nhân viên điều tra phải trực tiếp tiếp xúc với đối tượng điều tra để tiến hành
hoặc giám sát việc cân, đong, đo, đếm và sau đó ghi chép những thông tin thu
được vào phiếu điều tra. Phương pháp này cho độ chính xác cao nhưng địi hỏi
nhiều nhân lực và thời gian, đôi khi một số hiện tượng không thể trực tiếp quan
sát được nên phạm vi áp dụng của phương pháp này còn hạn chế.
2.3.3. Phương pháp phỏng vấn
Đây là phương pháp được sử dụng nhiều nhất. Việc thu thập số liệu được
thực hiện qua quá trình hỏi - đáp giữa nhân viên điều tra và người cung cấp thông
tin. Phương pháp này cũng mang lại hiệu quả cao, dễ tổng hợp và tập trung vào
những nội dung chủ yếu thông qua bảng câu hỏi hoặc phiếu điều tra. Phỏng vấn
gồm 2 loại:
- Phỏng vấn trực tiếp: Là việc hỏi đáp trực tiếp giữa nhân viên điều tra và
người cung cấp thơng tin. Có thể gọi điện thoại hoặc gặp trực tiếp, nhân viên điều
tra hỏi và ghi nhận câu trả lời, đồng thời có thể ghi âm cuộc phỏng vấn để làm tài
liệu đối chứng. Do tiếp xúc trực tiếp nên điều tra viên có thể có nhận xét sâu sắc
hơn về đối tượng thơng qua cử chỉ, thái độ, đồng thời có thể giải thích câu hỏi rõ
ràng hơn, phát hiện sai sót và chỉnh sửa kịp thời. Do đó có thể nâng cao chất lượng
phòng vấn. Tuy nhiên, phương pháp này khá tốn kém và mất thời gian do việc bố
trí gặp đối tượng cần điều tra. Nếu gọi điện thoại thì khả năng người được phỏng

vấn từ chối rất cao,

13


- Phỏng vấn gián tiếp: Là phương pháp mà người được phỏng vấn nhận một
phiếu điều tra (gửi qua tay hoặc gửi qua email), tự mình ghi câu trả lời vào phiếu
rồi trả lại cho cơ quan điều tra.
2.3.4. Thu thập từ nguồn có sẵn
Khi thực hiện một nghiên cứu cụ thể, người nghiên cứu có thể sử dụng dữ
liệu từ một nguồn có sẵn đã cơng bố hay chưa công bố. Với sự phát triển của công
nghệ thông tin, đặc biệt là internet và sự quan tâm ngày càng nhiều của các tổ
chức nhà nước doanh nghiệp,... trong các báo cáo tổng kết, lưu trữ số liệu thì cách
thu thập dữ liệu này ngày càng được người nghiên cứu sử dụng. Điều đáng lưu ý
trong cách thu thập dữ liệu này là phải chọn lựa nguồn dữ liệu đáng tin cậy.
2.4. Mơ tả và trình bày dữ liệu
2.4.1. Mơ tả dữ liệu
Các số đo mô tả (Desciptive measures)
Là những con số được dùng để mô tả bộ số liệu như là tham số (parameter)
hay số thống kê (statistic)
- Tham số: số đo mô tả dùng cho tập hợp như: µ, σ, N
- Số thống kê: đặc trưng cho mẫu
. Gom nhóm số liệu
- Số liệu gom nhóm (Grouping data): Việc gom nhóm các số liệu nhằm làm
cho bộ số liệu phức tạp trở nên dễ hiểu hơn.
- Nhóm = Lớp (classes) là các lớp (hoặc các nhóm) khác nhau của bộ số liệu
gom nhóm.
- Tần số (frequency) là số lần xuất hiện của một giá trị (hoặc một nhóm) nào
đó trong bộ số liệu.
- Tần suất (relative frequency) là tỉ số giữa tần số và cỡ mẫu n.

- Phân bố tần số (frequency distribution) là sự liệt kê các giá trị (hoặc các
nhóm) và tần số (f) của chúng.
- Phân bố thực nghiệm (relative-frequency distribution) là sự liệt kê các giá
trị (hoặc các nhóm), tần số (f) và tần suất (F = f / n) của chúng.
- Giới hạn dưới của nhóm (lower class limit) là giá trị nhỏ nhất của một
nhóm.
- Giới hạn trên của nhóm (upper class limit) là giá trị lớn nhất của một nhóm.

14


- Điểm giữa của nhóm (mark class) là giá trị ở giữa của một nhóm. Đó là giá
trị trung bình cộng của giới hạn trên và giới hạn dưới của một nhóm.
- Độ rộng của nhóm (class width) là hiệu số giữa giá trị giới hạn dưới và giá
trị giới hạn trên của nhóm đang ghi nhận.
2.4.2. Trình bày bằng biểu bảng
Biểu bảng thống kê là sự sắp xếp có hệ thống số liệu về các chỉ tiêu thống kê
trên các hàng và cột. Việc sắp xếp này rất đa dạng tùy theo chủ ý của người thực
hiện. Trong xử lý thống kê ta sử dụng bảng tần số. Bảng này có thể sử dụng cho
dữ liệu định tính và định lượng.
- Cách lập bảng tần số cho dữ liệu định tính
Đối với loại dữ liệu định tính như giới tính, vùng địa lý, ngoại hình,... Chúng
ta lập bảng tần số với những thông tin sau:
Cột 1: Cột này liệt kê tất cả các biểu hiện có thể có của đối tượng theo đặc
điểm ta muốn lập bảng tần số để tóm tắt dữ liệu.
Cột 2: Ghi tần số, tức số quan sát có cùng biểu hiện tương ứng với biểu hiện
ghi ở cột 1.
Cột 3: Ghi tần suất, được tính bằng cách lấy các tần số chia cho tổng số quan
sát của tập dữ liệu và nhân cho 100 %.
- Cách lập bảng tần số cho dữ liệu định lượng

+ Dữ liệu định lượng mà đặc điểm quan tâm có ít biểu hiện: Thực hiện giống
như cách lập bảng tần số cho dữ liệu định tính vừa trình bày ở trên, lúc này mỗi
giá trị xem như một biểu hiện
+ Dữ liệu định lượng mà đặc điểm quan tâm có nhiều biểu hiện: Trường hợp
này liệt kê từng biểu hiện một sẽ khơng cịn phù hợp vì bảng tần số sẽ rất dài và
mất đi tác dụng tóm lược thông tin. Lúc này chúng ta sẽ lập bảng tần số dựa trên
cơ sở dữ liệu đã được phân tổ. Phân tổ dữ liệu là căn cứ vào một hay một số đặc
điểm nào đó để sắp xếp các đơn vị quan sát vào các tổ, nhóm có tính chất khác
nhau. Hay nói cách khác là các đơn vị trong cùng một tổ có tính chất giống nhau
(hoặc tương tự nhau), giữa các tổ có tính chất khác nhau.
- Phương pháp phân tổ dữ liệu: Tùy theo mục đích thể hiện dữ liệu cũng như
đặc điểm phân bố đều đặn hay khơng đều đặn của dữ liệu mà có thể tiến hành
phân tổ đều hoặc phân tổ không đều. Trong nội dung dưới đây chúng ta sẽ tập
trung tìm hiểu phương pháp phân tố đều.
- Một số điều kiện phải tuân thủ khi tiến hành phân tử:
15


- Các tổ không được trùng nhau, nghĩa là một quan sát bất kì chỉ thuộc vào
một tổ. Nếu một giá trị quan sát bằng với giới hạn trên của một tổ thì quan sát đó
được xếp vào tổ kế tiếp.
- Tất cả các tổ được phân chia phải đảm bảo bao quát được hết tất cả các giá
trị hiện có của tập dữ liệu.
- Tránh khơng để tổ rỗng do khơng có quan sát nào thuộc về tổ đó.
- Các bước tiến hành phân tổ dữ liệu:
+ Xác định số tổ cần chia k. Khơng có một con số qui định chính xác về số
tổ cần chia là bao nhiêu, nhưng theo kinh nghiệm người ta thấy nên chia từ 5 đến
15 tổ. Ta có thể tham khảo cơng thức sau để xác định số tổ cần chia: k = (2n) , với
n là số quan sát của tập dữ liệu.
+ Xác định khoảng cách tổ h: Chênh lệch giữa giới hạn trên và giới hạn dưới

là trị số khoảng cách tổ h = Xnxx -xmin k Với xa... là giá trị lớn nhất và giá trị
nhỏ nhất của tập dữ liệu.
+ Xác định giới hạn dưới và giới hạn trên của các tổ: Khi xác định giới hạn
trên của tổ cuối cùng thì phải bằng hoặc lớn hơn giá trị x dưới của tố đầu tiên thì
giá trị đó phải bằng hoặc nhỏ hơn giá trị xa giới hạn.
Ví dụ 1: Nghiên cứu những nhu cầu đề xuất của các hộ nông dân sản xuất
nấm rơm để đưa ra phương hướng đầu tư sản xuất đạt hiệu quả cao. Phỏng vấn
nhu cầu trên 96 hộ được bộ số liệu và trình bày trong bảng phân bố thực nghiệm
(Bảng 1.1) như sau:
Bảng 1.1: Những nhu cầu đề xuất của các hộ nông dân sản xuất nấm rơm

(Nguồn:Văn Viễn Lương, Đồn Hồi Nhân, 2013)
Mơ hình nấm rơm
Yếu tố

Số hộ (Tần số)

Tần suất

Tỉ lệ (%)

Vay vốn

51

0.53

53.1

Được tập huấn kỹ thuật


30

0.31

31.3

Có nơi cung cấp meo tin cậy

5

0.52

5.2

Hỗ trợ phương tiện chở rơm

1

0.1

1.0

Nhu cầu khác

9

0.94

9.4


96

1.00

100.0

Tổng

16


×