Tải bản đầy đủ (.pdf) (51 trang)

máy tính và thống kê sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 51 trang )



TRƯỜNG ĐẠI HỌC NHA TRANG









BÀI GIẢNG

MÁY TÍNH & THỐNG KÊ SINH HỌC

(Dành cho Sinh viên ngành Nuôi trồng Thủy sản)









Giảng viên TRƯƠNG THỊ MAI HƯƠNG


1
BÀI MỞ ĐẦU





I. KHÁI NIỆM VỀ THỐNG KÊ :
1. Mục đích của công tác thống kê :
Tất cả các sự kiện, hiện tượng xảy ra trong tự nhiên hay trong xã hội
đều tuân theo một quy luật nhất đònh. Để tìm hiểu các quy luật biến đổi đó,
chúng ta phải xuất phát từ việc quan sát các sự kiện một cách khách quan.
Nếu quan sát được nhiều sự kiện, nhiều hiện tượng, hoặc nhiều lần một sự
kiện, một hiện tượng thì sự hiểu biết sẽ có cơ sở chắc chắn. Từ các quan sát
đó, tiến hành phân tích, suy diễn, giải thích và kết luận để tìm ra quy luật
biến đổi của các sự kiện, hiện tượng.
Trong nghiên cứu khoa học, đây chính là quá trình thu thập và xử lý
dữ liệu. Để thực hiện được công việc này, chúng ta phải dựa vào một công cụ
đắc lực là Lý thuyết Thống kê.
2. Chức năng của công tác thống kê :
Thống kê (Statistics) là một hệ thống các phương pháp bao gồm thu
thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên
cứu nhằm phục vụ cho quá trình phân tích, suy luận, dự đoán để cuối cùng
đưa ra kết luận về bản chất hay quy luật biến đổi của các sự kiện, hiện
tượng.
Chức năng của công tác thống kê gồm :
- Thu thập và trình bày số liệu;
- Tính toán các đặc trưng thống kê của đối tượng nghiên cứu dựa
vào các số liệu thu thập được;
- Phân tích mối liên hệ giữa các hiện tượng nghiên cứu, suy luận,
dự đoán, rồi đưa ra kết luận trên cơ sở các dữ liệu thu thập được
từ các quan sát.
3. Thống kê sinh học :
Thống kê sinh học (Biostatistics) là môn khoa học thực nghiệm, vận

dụng các phương pháp và kết quả nghiên cứu của lý thuyết thống kê để tìm
hiểu các quy luật biến đổi của các sự kiện sinh học, giúp cho sự hiểu biết của
chúng ta càng tiến dần đến bản chất của các quá trình và nguyên lý sinh học.


2
II. PHẦN MỀM XỬ LÝ THỐNG KÊ :
Quá trình phân tích và xử lý số liệu thống kê là quá trình thực hiện
một chuỗi các bài toán với nhiều công thức phức tạp. Việc tính toán bằng tay
như trước đây thường rất mất thời gian, lại thiếu chính xác, chưa kể đến việc
phải nhớ các công thức tính toán cho từng trường hợp cụ thể.
Ngày nay, với sự phát triển của KHKT, máy vi tính được ứng dụng
trong mọi lónh vực của đời sống xã hội, thì công tác thống kê cũng được hỗ
trợ đáng kể. Ngoài việc dùng máy tính như một phương tiện tính toán tiết
kiệm nhiều thời gian công sức và cho kết quả chính xác, tin cậy, hiện nay đã
có nhiều phần mềm chuyên dụng để xử lý dữ liệu thống kê như SPSS, SAS,
MINITAB Mặc dù kết quả xử lý từ các phần mềm chuyên dụng này là rất
chính xác nhưng sự phổ cập còn chưa rộng rãi và khá đắt tiền, việc sử dụng
gặp nhiều khó khăn.
EXCEL là một phần mềm trong bộ phần mềm điện toán văn phòng
Microsoft Office. Lâu nay người ta vẫn sử dụng EXCEL để thực hiện các
bảng tính điện tử phục vụ công tác quản lý, kế toán. Ít người biết đến chức
năng xử lý thống kê của EXCEL. Công cụ xử lý thống kê trong EXCEL cũng
khá đơn giản khi sử dụng và có khả năng phân tích gần như chuyên nghiệp.
Trong phạm vi môn học này, chúng tôi quyết đònh sử dụng EXCEL làm công
cụ hỗ trợ cho công tác thống kê, một phần vì tính phổ cập của nó, một phần
vì thời lượng dành cho môn học không nhiều để có thể hướng dẫn từ đầu nếu
sử dụng một phần mềm công cụ khác (Sinh viên đã được làm quen với
EXCEL trong chương trình môn Nhập môn Tin học). Tuy nhiên, khi đã quen
với các công cụ phân tích dữ liệu trên EXCEL thì có thể sử dụng các phần

mềm khác một cách dễ dàng.

1. Sơ lược một số khái niệm trong EXCEL:
 Một tập tin tạo bởi phần mềm MS-Excel gọi là Workbook. Trong 1
Workbook có thể chứa nhiều bảng tính, gọi là WorkSheet (hay Sheet).
 Màn hình chính của Excel là một bảng tính gồm nhiều hàng (row) và
nhiều cột (column). Có tối đa 256 cột (gọi tên bằng các ký tự chữ cái: A, B, …,
AA, AB, …, IV), và tối đa 65.536 hàng (gọi tên bằng các số đếm: 1, 2, 3, …).
Giao điểm của hàng và cột là ô (cell).


 Đòa chỉ cell : là tên cột và hàng của cell đó. Có 2 loại đòa chỉ: đòa chỉ
tương đối và đòa chỉ tuyệt đối.
 Vùng cell : là vùng bao gồm nhiều cell gộp lại. Ký hiệu vùng cell gồm
đòa chỉ cell đầu tiên và đòa chỉ cell kết thúc, cách nhau bởi hai dấu chấm ( )
hoặc dấu hai chấm (:) tuỳ theo cách ấn đònh của máy.

2. Nhập dữ liệu vào bảng tính:
Dữ liệu được lưu trong các cell của bảng tính có các dạng: số, chữ, công
thức, hay hàm.
 Dữ liệu dạng chữ: nhập bình thường.
 Dữ liệu dạng số:
Dữ liệu nhập vào máy có thể là số tự nhiên hay số thập phân.
Nếu dữ liệu là số thập phân thì khi nhập vào máy cần lưu ý xem máy
đang ấn đònh dấu thập phân là dấu phẩy hay dấu chấm. Nếu không quan tâm
đến vấn đề này thì có thể phải mất nhiều thời gian để nhập lại từ đầu khi
dùng sai dấu.
Lời khuyên: khi nhập số liệu vào máy, nên dùng các phím số (ở góc bên
phải của bàn phím), thì thao tác nhập sẽ nhanh hơn và không cần quan tâm
đến cách ấn đònh dấu thập phân của máy.


3


4
 Dữ liệu dạng công thức:
Có thể nhập một công thức toán học vào cell. Bắt đầu một công thức
phải là dấu bằng (=) để phân biệt với dữ liệu dạng chữ.
Các toán hạng trong công thức có thể là hằng số hoặc đòa chỉ cell. Nếu
trong công thức có đòa chỉ cell thì giá trò của ô chứa công thức sẽ thay đổi
theo giá trò của ô được khai báo trong công thức đó.
Có 5 toán tử được dùng trong công thức: cộng (+), trừ (-), nhân (*),
chia (/) và phép mũ (^).
Độ ưu tiên của các toán tử: Mũ → Nhân/Chia → Cộng/Trừ. Có thể
dùng các cặp dấu ngoặc đơn để nhóm các phép toán theo thứ tự thực hiện, số
dấu ngoặc đóng phải bằng số dấu ngoặc mở.
Có thể sao chép công thức từ một ô đến nhiều ô khác. Lưu ý: khi sao
chép công thức, đòa chỉ cell trong công thức sẽ thay đổi theo chiều sao chép.
Nếu muốn giữ nguyên đòa chỉ cell trong công thức thì ta phải cố đònh đòa chỉ
đó bằng cách thêm dấu $ vào trước tên cột và tên hàng trong đòa chỉ cell (có
thể bấm phím F4 để cố đònh nhanh).

 Dữ liệu dạng hàm:
Hàm là công cụ tự động đã được cài đặt sẵn trong bảng tính để tính
toán giá trò của một biểu thức toán học hay kết quả thực hiện một công việc.
Cú pháp chung của hàm: = Tên_Hàm (Danh_sách_tham_số)
Mỗi hàm có một công dụng riêng và cú pháp riêng, vì vậy khi sử
dụng hàm phải gõ tên hàm đúng chính tả. Lưu ý chế độ gõ tiếng Việt khi gõ
tên hàm.
Tuỳ theo từng hàm mà số lượng tham số là nhiều hay ít, kiểu dữ liệu

của các tham số như thế nào. Khi sử dụng hàm, phải cung cấp giá trò cho các
tham số với kiểu dữ liệu của chúng phải đúng như trong cú pháp hàm quy
đònh.
Việc gõ hàm trực tiếp từ bàn phím có thể gây rắc rối do phải nhớ
chính xác tên hàm cùng với các tham số đi kèm. Vì vậy có thể gọi hàm từ nút
Function Wizard f
x
trên thanh công cụ, chương trình sẽ cung cấp danh sách
các hàm và hướng dẫn cách sử dụng (tất nhiên bằng tiếng Anh), ta chỉ việc
chọn hàm cần dùng và truyền giá trò cho các tham số.

3. Các công cụ phân tích và xử lý số liệu thống kê :
Có thể xử lý thống kê bằng 2 công cụ sau đây trong Excel:
¾ Bộ hàm Thống kê (Statistical Functions) :
Việc sử dụng hàm có ưu điểm là khi ta thay đổi hay cập nhật số
liệu vào bảng số liệu, kết quả phân tích sẽ thay đổi theo.
¾ Chương trình phân tích số liệu (Data Analysis) :
Có những bài toán phân tích thống kê đòi hỏi thực hiện nhiều công
thức phức tạp, khó nhớ, dễ nhầm lẫn. Phần mềm Excel sẽ hỗ trợ chúng ta Bộ
chương trình Phân tích số liệu, với công cụ này ta chỉ cần chọn đúng chương
trình cần thực hiện, máy sẽ tính toán tự động và thông báo kết quả.
Để mở bộ chương trình xử lý số liệu: mở thực đơn Tools

Data
Analysis. Hộp thoại lựa chọn chương trình như hình sau:




Trong trường hợp

mở thực đơn Tool nhưng
không thấy mục Data
Analysis, tức là bộ chương
trình xử lý số liệu chưa
được cài đặt vào, ta khởi
động việc cài đặt bằng
cách: vào thực đơn Tools →
Add-Ins. Chọn Analysis
ToolPak (đánh dấu vào ô
vuông bên cạnh) → OK.
Tuy nhiên với công cụ này, kết quả xử lý chỉ đúng với những số
liệu tại thời điểm thực hiện chương trình, nếu sau đó có sự cập nhật hay thay
đổi dữ liệu, kết quả xử lý không thay đổi theo, do đó phải thực hiện lại
chương trình.

5


6
Chương I :
THU THẬP & TRÌNH BÀY DỮ LIỆU



I. TỔNG THỂ VÀ MẪU:
1. Khái niệm :
¾ Tổng thể (Population) :
Là tập chứa mọi phần tử thuần nhất theo một tiêu chuẩn nào đó
mà ta cần nghiên cứu. Mỗi cá thể là một phần tử của tổng thể. Ký hiệu số cá
thể của tổng thể là N.

Trong sinh học, số lượng các phần tử của một tổng thể có thể là rất
lớn, việc nghiên cứu toàn bộ các cá thể của tổng thể nhiều lúc không thể
thực hiện được. Vì vậy, ta chỉ có thể chọn ra một số cá thể từ tổng thể để tiến
hành nghiên cứu.
¾ Mẫu (Sample) :
Là một bộ phận của tổng thể được chọn ra để quan sát và kết quả
thu được từ tập mẫu dùng để suy diễn cho toàn bộ tổng thể.
Số phần tử của mẫu gọi là kích thước mẫu, ký hiệu là n. Kích thước
mẫu càng lớn thì các đặc trưng của tổng thể càng được thể hiện chính xác
thông qua mẫu.
2. Chọn mẫu :
Để có kết quả thống kê chính xác, đòi hỏi số lượng mẫu phải đủ lớn và
phải mang tính đại diện cho tổng thể. Số lượng mẫu càng nhiều thì kết quả
tính toán từ mẫu suy ra cho tổng thể càng chính xác. Khi kích thước mẫu tiến
đến vô cùng thì đặc trưng của tổng thể thể hiện trên mẫu càng rõ và càng ít
sai số.
Để mẫu mang tính đại diện thì việc chọn mẫu phải khách quan và đúng
phương pháp. Có 3 phương pháp cần áp dụng trong việc chọn mẫu :
- Chọn mẫu ngẫu nhiên đơn giản: chọn ngẫu nhiên n mẫu từ tổng thể,
sao cho mỗi phần tử của tổng thể đều có khả năng rơi vào mẫu như nhau.


7
- Chọn mẫu ngẫu nhiên hệ thống: các phần tử của tổng thể được đưa
vào mẫu cách nhau một khoảng thời gian hay một khoảng không gian xác
đònh.
- Chọn mẫu phân lớp: chia tổng thể thành các lớp theo một tiêu chuẩn
phụ nào đó sao cho các phần tử trong mỗi lớp đồng đều hơn, sau đó mới lấy
ngẫu nhiên một số phần tử của mỗi lớp để đưa vào mẫu.


II. THU THẬP SỐ LIỆU :
Số liệu thu được là từ việc đo đếm, quan sát các đối tượng trong tập
mẫu. Các số liệu này sẽ là những dữ liệu tham gia vào các tính toán thống kê
để từ đó ước lượng hay kiểm đònh các đặc trưng sinh học trên tổng thể nghiên
cứu.
Do mẫu có kích thước hữu hạn, thường là rất bé so với số phần tử của
tổng thể, vì thế những kết luận được suy ra từ mẫu cho tổng thể sẽ phải có sai
số.
Sai số là độ lệch giữa giá trò quan sát được trên mẫu với giá trò thực
của tổng thể.
Có 3 loại sai số gặp phải khi thu thập số liệu :
- Sai số thô: phát sinh do vi phạm các điều kiện cơ bản khi thu thập số
liệu, thực chất là do bất cẩn của người làm công tác này.
- Sai số hệ thống: phát sinh do sự sai lệch của dụng cụ hay phương
pháp nghiên cứu.
- Sai số ngẫu nhiên : phát sinh do các nguyên nhân khách quan ngoài
sự kiểm soát của người thống kê.
Trong các loại sai số trên, sai số ngẫu nhiên là không thể hạn chế và
được chấp nhận. Còn sai số thô phải bò loại bỏ, sai số hệ thống có thể được
chấp nhận nhưng phải tính toán hiệu đính lại trước khi đưa vào thống kê.
Trong các số liệu thu được sẽ xuất hiện một số số liệu khác thường,
tức là nó lớn quá hay bé quá so với các số liệu khác. Để đảm bảo tính khách
quan của kết luận, ta phải loại bỏ những giá trò bất thường này. Tuy nhiên ta
phải xác đònh chúng có đúng là giá trò bất thường không và có nên loại bỏ
chúng không. Cách để xác đònh đâu là giá trò bất thường được giới thiệu trong
Chương III.



III. SẮP XẾP VÀ TRÌNH BÀY SỐ LIỆU :

1. Phương pháp phân nhóm (tổ) :
Các số liệu thu thập là rất nhiều. Để trình bày số liệu một cách có hệ
thống, đáp ứng được yêu cầu phân tích thống kê, người ta căn cứ vào 1 hay
một số tiêu chuẩn để chia các phần tử của tổng thể thành các nhóm có tính
chất khác nhau, sau đó sắp xếp các dữ liệu thu thập được vào các nhóm .
Đối với các nghiên cứu đònh tính (dữ liệu không phải là số liệu): việc
phân nhóm thường dựa vào tính chất nghiên cứu để xác đònh số nhóm và
thành phần của mỗi nhóm.
Ví dụ: Nghiên cứu đặc tính bệnh trên cá thì chỉ chia 2 nhóm là cá bệnh
và cá khoẻ. Nghiên cứu màu mắt người thì chia 3 nhóm là mắt đen, mắt nâu và
mắt xanh.
Đối với các nghiên cứu đònh lượng (dữ liệu dạng số): dựa giá trò của
các số liệu để phân nhóm. Trước khi phân nhóm phải xác đònh được số nhóm,
độ dài (khoảng cách) mỗi nhóm, giá trò biên của từng nhóm.
Giá trò biên là giá trò chặn trên của nhóm, những giá trò bé hơn và lớn
hơn giá trò biên sẽ thuộc 2 nhóm khác nhau. Nếu có K nhóm thì sẽ có (K-1)
giá trò biên.
Sau đó sắp xếp số liệu vào các nhóm theo quy ước : số liệu có giá trò
là x được xếp vào nhóm i sao cho: X
bi-1
< x

X
bi
(X
bi-1
và X
bi
là 2 giá trò biên
của 2 nhóm liền nhau)

* Phân nhóm chủ quan: người thống kê đã có chủ ý về số nhóm, độ
dài mỗi nhóm và các giá trò biên nhóm căn cứ vào mục đích thống kê.
Ví dụ: Điểm của SV cho theo thang điểm 10. Để đánh giá phân loại học
tập thì chia thành 4 nhóm: Giỏi, Khá, Trung bình và Yếu. Để đánh giá kết quả
môn học thì chia 2 nhóm: đạt, không đạt.
* Phân nhóm khách quan: trường hợp không có tiêu chuẩn để phân
nhóm thì có thể phân nhóm khách quan dựa vào lý thuyết thống kê:
+ Xác đònh số nhóm : K =
3
n . 2
(n: kích thước mẫu)
+ Độ dài mỗi nhóm: d =
K
XX
minmax


+ Xác đònh các giá trò biên của các nhóm : X
bi
= X
bi-1
+ d
2. Bảng phân bố tần số – tần suất :

8

Sau khi phân nhóm và sắp xếp dữ liệu, ta sẽ xác đònh tần số, tần số
tích luỹ, tần suất, tần suất tích luỹ cuả mỗi nhóm.
Tần số là số lần xuất hiện đặc tính nhóm (đối với nghiên cứu đònh
tính), hoặc số số liệu có giá trò thuộc phạm vi nhóm (đối với nghiên cứu đònh

lượng).
Tần suất là tỷ lệ % của tần số nhóm so với kích thước mẫu.
Tần số tích luỹ - tần suất tích luỹ (chỉ xác đònh đối với nghiên cứu
đònh lượng) là tần số - tần suất cộng dồn tính đến nhóm đề cập.
Bảng phân bố tần số – tần suất có thể bố trí như sau :

Nhóm
Biên
nhóm
Tần số Tần số tích luỹ Tần suất
Tần suất t. luỹ
1 X
b1
f
1
fc
1
=f
1
n
f
p
1
1
=
1
p

2 X
b2

f
2
fc
2
=f
1
+f
2
n
f
p
2
2
=
21
pp +

… … … …
k X
bk-1
f
k
f
ck
= n

n
f
p
k

k
=
100%
3. Biểu đồ phân bố tần số – tần suất :
Để trình bày dữ liệu một cách rõ ràng, sinh động và dễ nắm bắt ta
dùng biểu đồ.
Biểu đồ phân bố tần số : dùng biểu đồ cột (column chart)
Biểu đồ phân bố tần suất : dùng biểu đồ hình quạt (pie chart)


9


29%
21%
33%
17%
4
8
7
5
0
1
2
3
4
5
6
7
8

9
1234

IV. ỨNG DỤNG EXCEL :
1. Hàm tính phân bố tần số:
Công thức hàm: FREQUENCY (DataRange, BinRange)
DataRange: vùng cell chứa số liệu thu thập được.
BinRange: vùng cell chứa các giá trò biên .
Hàm Frequency kết xuất K giá trò nguyên tương ứng với K nhóm số
liệu (căn cứ vào các giá trò biên).
Lưu ý: tại cell có công thức hàm, khi gõ xong hàm nhấn enter chỉ thấy
kết xuất giá trò đầu tiên trong dãy số kết quả của hàm. Để kết xuất các số còn
lại, ta phải bôâi đen các cell kế tiếp cell chứa công thức hàm (theo chiều dọc),
bấm phím F2, rồi gõ tổ hợp phím Shift+Ctrl+Enter.

2. Chương trình tính phân bố tần số:
Vào chức năng DataAnalysis, chọn chương trình Histogram.
Hộp thoại của chương trình Histogram như sau:

• Input Range: vùng cell chứa dữ liệu.
• Bin Range: vùng cell chứa các biên nhóm .
• Labels: đánh dấu nếu cell đầu tiên là tên dữ liệu.
• Output Range: kết xuất trong bảng tính hiện thời.
• New worksheet: kết xuất trong một bảng tính khác.
• New workbook: kết xuất trong một tập tin khác.
• Pareto: bảng kết xuất có sắp xếp theo tần số.
• Cumulative %: kết xuất kèm tần suất tích luỹ.
• Chart Output: kết xuất kèm biểu đồ tần số.

10


Chương II :
MÔ TẢ THỐNG KÊ MẪU



I. CÁC ĐẶC TRƯNG VỀ GIÁ TRỊ TRUNG BÌNH :
1.
Số trung bình (Mean):
Là giá trò trung bình của các số liệu thu được.
Ý nghóa: Trung bình cộng là một trò số tổng hợp cô đọng, đặc trưng
tiêu biểu cho toàn bộ các cá thể của tập hợp, biểu thò hướng tập trung của các
giá trò vào một điểm
Công thức tính số trung bình mẫu:
 Nếu số liệu chưa phân nhóm:

=
=
n
1i
i
X
n
1
X

(n: kích thước mẫu; X
i
: giá trò của các số liệu thu được)
 Nếu số liệu đã được phân nhóm:

()

=
=
k
1i
ii
Xf
n
1
X

(k: số nhóm; f
i
: tần số của nhóm i; X
i
: giá trò của nhóm i)
Trường hợp các số liệu được phân nhóm có độ dài nhóm là một
khoảng giá trò thì X
i
là số ở giữa khoảng giá trò đó, gọi là trọng số.
2.
Số trung vò (Median):
Là giá trò của số liệu đứng giữa trong tập hợp số liệu đã được xếp thứ
tự.
Ý nghóa: số trung vò chia tập hợp số liệu thành 2 phần có số phần tử
bằng nhau (50% số mẫu lớn hơn và 50% số mẫu bé hơn trung vò).
Cách xác đònh số trung vò:
 Trường hợp số liệu chưa phân nhóm:
- Sắp xếp dãy số liệu theo thứ tự tăng dần hay giảm dần;

- Xác đònh số đứng giữa của dãy số liệu: nếu n là số lẻ, trung vò là
trò số của số đứng giữa, nếu n là số chẵn, trung vò là trung bình cộng của 2 số
đứng giữa.
 Trường hợp số liệu đã phân nhóm:
- Xác đònh nhóm có chứa trung vò dựa vào tần số tích luỹ ;

11

- Nếu phân nhóm có khoảng cách thì trung vò (Me) thuộc nhóm i,
được tính theo công thức sau:
i
1i
i1i
f
fc
2
n
dbMe



+=

(b
i-1
: biên dưới của nhóm i; d
i
: độ dài của nhóm i; n: kích thước mẫu;
f
i

: tần số của nhóm i; fc
i-1
: tần số tích lũy của nhóm trước nhóm i)
3. Số trội (Mode)
Là giá trò có tần số lớn nhất trong chuỗi số liệu.
Ý nghóa: cho biết giá trò gặp nhiều nhất trong các quan sát .
 Trường hợp số liệu đã phân nhóm có khoảng cách nhóm:
- Xác đònh nhóm có tần số lớn nhất (nhóm i)
- Số trội (Mo) được tính theo công thức sau:
()()
1ii1ii
1ii
i1i
ffff
ff
dbMo
+−


−+−

+=
(b
i-1
: biên dưới của nhóm i; d
i
: khoảng biến thiên của nhóm i;
f
i
: tần số của nhóm i; f

i-1
: tần số của nhóm trước, f
i+1
: tần số của nhóm sau)


II. CÁC ĐẶC TRƯNG VỀ ĐỘ PHÂN TÁN CỦA SỐ LIỆU :
1.
Độ lệâch trung bình (Average Deviation)
Là sai số tuyệt đối của các số liệu so với số trung bình.
Ý nghóa: cho biết mức độ sai lệch giữa các số liệu thu được.
Công thức tính :

=
−=
n
1i
i
XX
n
1
ΔX

2. Phương sai (Variance)
Là trung bình của bình phương độ lệch giữa các số liệu quan sát với
giá trò trung bình.
Ý nghóa: Diễn tả độ phân tán của dữ liệu xung quanh giá trò trung
bình (dạng bậc hai)
Công thức tính :
()


=


=
n
1i
2
i
2
XX
1n
1
S


12

3. Độ lệch chuẩn (Standard deviation)
Là căn bậc hai của phương sai.
Ý nghóa: Diễn tả độ phân tán của dữ liệu xung quanh giá trò trung
bình (dạng bậc nhất)
Công thức tính :
()

=


=
n

1i
2
i
XX
1n
1
S


4.
Hệ số phân tán (Coefficient of variation)
Hệ số phân tán được sử dụng để so sánh mức độ phân tán của các giá
trò xung quanh giá trò trung bình khi các mẫu khác nhau về thứ nguyên (đơn
vò đo lường) hay khác nhau về gía trò trung bình.
Công thức tính :
100
X
S
(%)C
v
=


5.
Sai số chuẩn (Standard error)
Là độ lệch giữa trung bình mẫu so với trung bình của tổng thể.
Công thức tính :
n
S
S

e
=


II. ỨNG DỤNG EXCEL :

1. Các hàm mô tả thống kê mẫu :
AVERAGE (DataRange) Trung bình
MEDIAN (DataRange) Trung vò
MODE (DataRange) Số trội
AVEDEV (DataRange) Độ lệch trung bình
VAR (DataRange) Phương sai mẫu
STDEV (DataRange) Độ lệch chuẩn mẫu

2. Chương trình Descriptive Statistics :
Là công cụ tính nhanh các đặc trưng thống kê. Thay vì phải thực hiện
nhiều hàm thì ta chỉ gọi chương trình này, sẽ có các giá trò cần tìm. Tuy nhiên
như đã nói ở chương I, các chương trình phân tích thống kê chỉ cho kết quả
với bảng số liệu tại thời điểm gọi thực hiện chương trình.

13

Chọn chương trình Descriptive Statistics trong bộ Data Analysis.
Hộp thoại của chương trình Descriptive Statistics:
• Input Range: vùng cell
chứa số liệu.

14
àng.
• Grouped By: số liệu

nhập theo cột hay h
• Labels in First Row:
đánh dấu nếu cell đầu
tiên (trong Input Range)
là tên dữ liệu.
• Summary statistics: kết
xuất đặc trưng thống kê
(phải đánh dấu vào ô
này).
• Confidence level for
Means: ước lượng độ sai
lệch giữa trung bình tổng
thể và trung bình mẫu
(phần này thuộc chương
III).


Kết xuất của chương trình Descriptive Statistics:

Mean Trung bình mẫu
Standard Error Sai số chuẩn
Median Trung vò
Mode Số trội
St. Deviation Độ lệch chuẩn
Sample Variance Phương sai mẫu
Kurtosis Hệ số Kurtosis
Skewness Hệ số Skewness
Range Khoảng biến biên
Minimum Số bé nhất
Maximum Số lớn nhất

Sum Tổng các giá trò
Count Kích thước mẫu



15
Chương III :
ƯỚC LƯNG CÁC ĐẶC TRƯNG
CỦA TỔNG THỂ



I. Một số khái niệm :
1. Độ tin cậy và mức ý nghóa:
¾ Độ tin cậy (Confidence level) là tỉ lệ phần trăm khả năng để sự
kiện có thể xảy ra, hay là xác suất xảy ra sự kiện. Ký hiệu: P.
¾ Mức ý nghóa (Significance level) là tỉ lệ phần trăm nằm ngoài độ
tin cậy, hay là xác suất để sự kiện không xảy ra.
Ký hiệu:
α (với α = 1 – P ).
2. Luật phân bố xác suất (Distribution):
Khi nghiên cứu một sự kiện bất kỳ, trong thực tế sự kiện đó có thể
chắn chắn sẽ xảy ra, hoặc chắc chắn không xảy ra. Sự kiện chắc chắn xảy ra
gọi là sự kiện tất yếu. Sự kiện chắc chắn không xảy ra gọi là sự kiện không
thể. Sự kiện chưa biết có thể xảy ra hay không (hoàn toàn khách quan) được
gọi là sự kiện ngẫu nhiên.
Ví dụ: khi ta gieo hạt thóc, hạt thóc có thể nảy mầm hoặc không, nếu
hạt thóc nảy mầm thì chắc chắn nó sẽ phát triển thành cây lúa chứ không thể
thành cây đậu. Sự kiện “hạt thóc nảy mầm” là sự kiện ngẫu nhiên, sự kiện
“hạt thóc nảy mầm thành cây lúa” là sự kiện tất yếu. Sự kiện “hạt thóc nảy

mầm thành cây đậu” là sự kiện không thể.
Xác suất xảy ra sự kiện tất yếu là 1. Xác suất xảy ra sự kiện không thể
là 0. Xác suất xảy ra sự kiện ngẫu nhiên là 0 < P < 1.
Trong một quan sát, xác suất xảy ra sự kiện ngẫu nhiên gọi là biến
ngẫu nhiên. Khi ta quan sát sự kiện rất nhiều lần (số lần tiến đến vô hạn) thì
tập hợp các biến ngẫu nhiên sẽ biến đổi theo một quy luật nào đó, gọi là
Luật phân bố xác suất.
Xét về mặt toán học: Luật phân bố xác suất là hàm phụ thuộc vào
biến ngẫu nhiên (xác suất sự kiện), gọi chung đó là hàm f(x) .

Trong thống kê, người ta sử dụng các Luật phân bố xác suất để giải
thích cho các kết quả thí nghiệm, từ đó phân tích, suy diễn để đi đến kết
luận.
Các Luật phân bố xác suất được biểu diễn bằng hàm với những công
thức tính toán riêng. Hầu hết các công thức này đếu rất phức tạp và khó nhớ.
Tuy nhiên, với sự hỗ trợ đắc lực của máy tính, tất cả những công thức phức
tạp đều trở nên đơn giản, bởi phần mềm Excel đã có sẵn các hàm tương ứng
với các hàm phân phối xác suất.
Sau đây xin giới thiệu một số Luật phân bố xác suất có liên quan đến
các quy luật của các sự kiện sinh học:
? Phân bố chuẩn: đây là phân bố quan trọng nhất trong thống kê, hầu
hết các biến số ngẫu nhiên trong các thí nghiệm về sinh học đều tuân theo
Luật phân bố chuẩn.
Tương ứng với một giá trò trung bình tổng thể
μ và độ lệch chuẩn của
tổng thể
σ, ta có hàm mật độ của phân bố chuẩn như sau :
()
2
2

2
2
1
)(
σ
μ
πσ
−−
=
x
exf

Đồ thò của hàm
phân phối chuẩn có
dạng hình chuông, đối
xứng qua trục tung và đạt
cực đại ở đây. f (x)
giảm nhanh khi ở xa vò
trí trung bình và tiệm cận
về 2 phía của trục
hoành.
Trong EXCEL, để tính giá trò của hàm f(x), tức là tìm xác suất P để xảy
ra sự kiện x, ta sử dụng hàm: NORMDIST (x,mean,stdev)
(với mean là trung bình, stdev là độ lệch chuẩn)
Ngược lại, ứng với xác suất P, giá trò x được xác đònh bằng hàm:
NORMINV (P, mean, stdev)
Thông thường khi tiến hành công tác thống kê, nếu việc thu thập số liệu
không có sai số thô và sai số hệ thống thì sai số thu mẫu sẽ là một đại lượng
ngẫu nhiên có phân phối chuẩn.


16

? Phân bố chuẩn tắc (Z) : biến số ngẫu nhiên trong các thí nghiệm tuân
theo Luật phân phối chuẩn, với
μ=0 và σ=1 thì phân bố chuẩn được gọi là
Phân bố chuẩn tắc. Hàm mật độ của phân bố chuẩn tắc có dạng :
2
2
2
1
)(
x
exf

=
π

Trong EXCEL, ta có thể tìm phân bố Z

bằng hàm :
NORMSDIST (x) = P hoặc NORMSINV (1-
α
) = x
? Phân bố Student (t) : Với mỗi bậc tự do (degree of freedom- viết tắt: df)
có một đường biểu diễn. Đường biểu diễn của hàm phân bố Student khi n càng
lớn có hình dạng càng giống đường biểu diễn hàm phân bố chuẩn. Hàm mật độ
của phân bố Student có dạng:
2
1n
2

2
x
1
2
n
.n.
2
1n
)x(f
+









+













+
=
Γπ
Γ
với

∞+
−−
=
0
x1a
dxex)a(
Γ
Trong EXCEL, ta có thể tìm phân bố Student

bằng hàm :
TDIST (x,df,2) =
α
hoặc TINV (
α
, df) = x
(
α
=1-P; df: số bậc tự do).
? Phân bố Khi bình phương (χ
2
) : hàm mật độ xác suất có dạng:







=
−−
2
n
2
ex
)x(f
2
n
2
x
1
2
n
Γ

Trong EXCEL, ta có thể tìm phân bố
χ
2
bằng hàm :
CHIDIST (x,df) =
α
hoặc CHIINV (
α
, df) = x

? Phân bố Fisher (F) :
Trong EXCEL, ta có thể tìm phân bố Fisher bằng hàm :
FDIST (x,df
X
,df
Y
) =
α
hoặc FINV (
α
,df
X
,df
Y
) = x
(df
X
: số bậc tự do của tử số; df
Y
: số bậc tự do của mẫu số)


17

3. Ước lượng :
Gọi
θ
là 1 đặc trưng nào đó của tổng thể X mà ta cần biết. Trên thực tế
ta không thể có được giá trò thực của
θ

mà ta chỉ có thể ước lượng được nó
trên cơ sở thống kê từ mẫu.
Với các số liệu thu được từ mẫu, ta tính được đặc trưng
θ
ˆ
của mẫu.
θ
ˆ

được gọi là ước lượng điểm của
θ
.
Do X là một đại lượng ngẫu nhiên, giá trò của nó có tính chất biến đổi,
nên đặc trưng
θ
của tổng thể X sẽ nhận giá trò trong một khoảng giá trò nào
đó.
Dựa vào luật phân bố xác suất của
θ
, với một độ tin cậy cho trước, ta
có thể tính toán ước lượng khoảng giá trò cho
θ
. Khoảng giá trò này được gọi
là khoảng tin cậy (hay khoảng dao động) cho đặc trưng
θ
của tổng thể X.
Các đặc tính của ước lượng:
? Ước lượng không chệch (unbisaed): kích thước mẫu rất lớn thì số
trung bình của ước lượng chính là thông số của tổng thể.
? Ước lượng vững (consistent): kích thước mẫu càng lớn thì ước

lượng càng gần với thông số của tổng thể.
? Ước lượng hiệu quả (efficient): ít mẫu (có khi chỉ là 1) vẫn ước
lượng sát với thông số của tổng thể.

II. ƯỚC LƯNG TRUNG BÌNH của tổng thể:
Gọi
μ
là trung bình của tổng thể X,
X
là trung bình của n mẫu.
X
được xem là ước lượng điểm của
μ
.
μ
là đại lượng tuân theo luật phân bố Student với mức ý nghóa
α
và với
số bậc tự do df=n-1 (n là kích thước mẫu).
Trong chương II ta đã tính được Sai số chuẩn (S
e
) – đó là độ sai khác
giữa trung bình mẫu và trung bình tổng thể.
Gọi
ε
là độ sai khác giữa
μ

X
. ε được tính như sau:

n
S
tSt
e
αα
ε
==

Khoảng ước lượng cho trung bình của tổng thể X là :
X -
ε



μ


X +
ε



18

III. ƯỚC LƯNG PHƯƠNG SAI - ĐỘ LỆCH CHUẨN của tổng thể:
Gọi
σ
2
là phương sai của tổng thể X, S
2

là phương sai của n mẫu.

σ
là độ lệch chuẩn của tổng thể X, S là độ lệch chuẩn mẫu.
S
2
là ước lượng điểm của
σ
2
. S là ước lượng điểm của
σ
.
Ước lượng khoảng cho phương sai của tổng thể X với độ tin cậy P là:
2
2
α
1
2
2
2
2
α
2
χ
S1)(n
σ
χ
S1)(n



<<


Ước lượng khoảng cho độ lệch chuẩn của tổng thể X là:
2
2
α
1
2
2
2
α
2
χ
S1)(n
σ
χ
S1)(n


<<


σ
2
là đại lượng biến đổi theo luật phân bố Khi-bình-phương với n-1 bậc
tự do và ở các mức ý nghóa (
α/2) và (1-α/2).
Phương sai S
2

là ước lượng không chệch, vững cho phương sai của
tổng thể. Độ lệch chuẩn S là ước lượng hiệu chỉnh (hơi chệch) cho độ lệch
chuẩn của tổng thể.


IV. ƯỚC LƯNG TỶ LỆ trong tổng thể :
Nghiên cứu đặc tính T của tổng thể X.
Với n mẫu lấy từ X thấy có f mẫu mang đặc tính T.
Gọi
p
)
là tỷ lệ phần tử mang đặc tính T trên mẫu,
n
f
p =
)

p là tỷ lệ phần tử mang đặc tính T trong tổng thể X, hay nói cách
khác là xác suất gặp đặc tính T khi chọn ngẫu nhiên 1 phần tử từ X.
Ước lượng điểm của p là
p
)
.
Giá trò của p biến đổi theo luật phân bố Student, với (n-1) bậc tự do và
với mức ý nghóa
α.
Gọi
ε
là độ sai khác của
p

)
so với p . ε được tính như sau:
(
)
n
p
ˆ
1p
ˆ
t

=
α
ε

Khoảng ước lượng cho p là :
p
)
-
ε


p


p
)
+
ε



19

V. XÁC ĐỊNH KÍCH THƯỚC MẪU trong ước lượng tỷ lệ:
Trong các nghiên cứu, việc xác đònh chính xác kích thước mẫu là rất cần
thiết, vì nếu lấy quá nhiều mẫu hơn yêu cầu thì sẽ gây lãng phí, còn lấy quá
ít mẫu thì các kết luận sẽ không chính xác. Vì vậy ta cần có một lượng mẫu
đủ để có kết luận chính xác đạt độ tin cậy theo yêu cầu, tức là tìm kích thước
mẫu tối thiểu.
Trong ước lượng tỷ lệ cho tổng thể, nếu gọi
ε là khoảng sai lệch thì ε tỷ
lệ nghòch với n, tức là n đạt cực tiểu khi
ε đạt cực đại. Khi ε đạt cực đại thì
giá trò
()
[
]
p
ˆ
1p
ˆ
t −
α
đạt cực đại, tức là khi
p
)
=50% va ø
α→∞
.


Tức là từ công thức tính
ε
trong ước lượng tỷ lệ:
(
)
n
p
ˆ
1p
ˆ
t

=
α
ε
suy ra
min
max
n
5,0*5,0
t
α
ε
=


2
max
2
min

25,0*t
n
ε
α
=
Vậy số mẫu cần thiết để khoảng dao động trong ước lượng tỷ lệ đạt
sai khác tối đa cho phép là
ε
max
với độ tin cậy P cho trước:
2
max
2
4
t
n
ε
α


(với t
α
tra từ phân bố t với mức ý nghóa
α
và với số bậc tự do là

)


III. PHƯƠNG PHÁP LOẠI BỎ GIÁ TRỊ BẤT THƯỜNG:

Khi thu thập số liệu, có những giá trò bất thường, có thể là lớn quá hay
bé quá so với số đông các số liệu thu được. Vấn đề là ta phải xác đònh nó có
thực sự bất thường không (sai số thô) hay chỉ là sai số ngẫu nhiên. Nếu là sai
số thô thì phải loại bỏ để không ảnh hưởng đến sự chính xác của kết quả
thống kê.
Gọi X
*

là giá trò bất thường mà ta nghi ngờ. Với n mẫu đã được chấp
nhận (không kể các giá trò X
*
) ta tính được trung bình mẫu là
X
và độ lệch
chuẩn là S. Tính giá trò t theo công thức:
S
XX
t
*

=

Giá trò t có phân bố Student với mức ý nghóa
α
và với df=n-1.
Nếu t
≤ t
α
: X
*

được chấp nhận để đưa vào thống kê
t > t
α
: X
*
là giá trò bất thường.

20


21
Chương IV :
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ



I. KHÁI NIỆM VÀ QUY TẮC:
1. Giả thiết thống kê:
Trong thống kê, khi cần phải so sánh về một đặc trưng nào đó của 2
tổng thể, người ta phải khảo sát trên các mẫu thu thập từ 2 tổng thể đó.
Thông thường thì sẽ có sự khác nhau về giá trò của các đặc trưng trên mẫu.
Nếu sự sai khác là nhỏ thì xem như đó là do ngẫu nhiên và có thể bỏ qua.
Nhưng nếu sự sai khác là lớn thì khó có thể cho đó là ngẫu nhiên mà phải
nghó đến sự khác nhau về bản chất giữa chúng.
Để giải quyết vấn đề này, ta phải đặt ra một giả thiết và sẽ tiến hành
kiểm đònh giả thiết đó.
Giả thiết được đặt ra gọi là giả thiết H
0
(Null hypothesis). Ngược lại
với H

0
là đối thiết H
1
(Alternative hypothesis), chứa các tình huống không có
trong H
0
.
Quá trình kiểm đònh phải chứng minh được giả thiết H
0
là đúng. Nếu
không có đủ căn cứ chứng minh H
0
đúng thì ta phải bác bỏ H
0
. Nếu H
0
sai thì
H
1
được xem là đúng, tức là ta mặc nhiên công nhận H
1
mà không cần phải
chứng minh H
1
đúng.
Việc kiểm đònh được tiến hành dựa vào kết quả tính toán trên mẫu, rồi
kết luận cho tổng thể, vì vậy có thể vi phạm 1 trong 2 sai lầm sau đây:
Sai lầm loại 1: Giả thiết H
0
thực ra là đúng, nhưng qua kiểm đònh ta

lại kết luận giả thiết này sai, vì thế bác bỏ H
0
.
Sai lầm loại 2: Giả thiết H
0
thực ra là sai, nhưng qua kiểm đònh ta
lại kết luận giả thiết này đúng, vì thế chấp nhận H
0
.
Cả 2 loại sai lầm trên đều có thể xảy ra. Tuỳ thuộc vào cách đặt giả
thiết H
o
mà sai lầm gặp phải là sai lầm loại 1 hay loại 2. Sở dó phân biệt 2
loại sai lầm là do mức độ nghiêm trọng khác nhau của chúng. Do ta chỉ tìm
các chứng cứ để chứng minh H
0
đúng, nên khả năng xảy ra sai lầm loại 1 là ít
hơn so với sai lầm loại 2. Vì vậy nên chọn cách đặt giả thiết sao cho sai lầm
nghiêm trọng hơn là sai lầm loại 1 để ta có nhiều khả năng hạn chế hơn. Sai
lầm loại 2 nếu có sẽ ít nghiêm trọng hơn.

Khả năng mắc phải sai lầm phụ thuộc vào độ tin cậy của phép kiểm
đònh. Nếu gọi P là độ tin cậy của kiểm đònh thì khả năng mắc phải sai lầm là
(1-P), tức là ở mức độ
α.
2. Quy tắc kiểm đònh:
Trong thống kê, các vấn đề nghiên cứu thường liên quan đến việc so
sánh các đặc trưng của các tổng thể. Để giải quyết vần đề này, người ta đặt
ra giải thiết về các đặc trưng của tổng thể, rồi tiến hành kiểm đònh giả thiết
này thông qua mẫu.

Gọi
θ
X

θ
Y
là đặc trưng
θ
của 2 tổng thể X và Y.
Từ mẫu người ta tính được và . Thấy rằng . Vấn đề
đặt ra là phải kiểm đònh xem sự sai khác giữa 2 giá trò này là do ngẫu nhiên
(thực ra đặc trưng
θ
của 2 tổng thể là bằng nhau, nhưng quá trình thu mẫu có
sai số ngẫu nhiên), hay sự khác nhau này do bản chất (đặc trưng
θ
của 2 tổng
thể thực sự khác nhau).
X
ˆ
θ
Y
ˆ
θ
YX
ˆˆ
θθ

Đặt giả thiết : H
0

:
θ
X
=
θ
Y
(sự sai khác trên mẫu là ngẫu nhiên)
H
1
:
θ
X



θ
Y
(thực sự có sự sai khác)
Với độ tin cậy đã cho là P, người ta sẽ tìm giá trò K. K là đại lượng
thể hiện độ lệch ước lượng giữa
θ
X

θ
Y
. Với giả thiết H
0
đã nêu, K sẽ có
một luật phân phối xác suất nhất đònh.
Khi đó với với

α cho trước (α là mức ý nghóa của kiểm đònh), sẽ có
một khoảng giá trò (K
1
K
2
) sao cho xác suất để K rơi vào khoảng này là 1-
α, tức là : P (K
1
<K<K
2
) = 1-α .
Nguyên lý xác suất nhỏ trong Thống kê cho rằng: các sự kiện ngẫu
nhiên có xác suất nhỏ được coi như không xảy ra và các sự kiện có xác suất
gần 1 được coi như chắc chắn xảy ra trong thực tế.

Miền bác bỏ
K
1
Miền chấ
p
nha
ä
n
K
2
Miền bác bỏ
α’






22

Theo nguyên lý trên, với mức ý nghóa α = 1-P, nếu K nằm trong
khoảng (K
1
K
2
), hoặc α ≤ α’ thì giả thiết H
0
được chấp nhận, ngược lại H
0

bò bác bỏ (
α’ được xem là mức ý nghóa cho phép).
Tóm lại, để so sánh về một đặc trưng nào đó của 2 tổng thể, ta làm các
bước sau:
+ Đặt giả thiết: đặc trưng của 2 tổng thể có giá trò bằng nhau.
+ Tính giá trò kiểm đònh K: tùy theo từng trường hợp K sẽ được tính
theo một công thức xác đònh.
+ Tìm phân bố xác suất của K: với
α ta có K
α
(hàm ~inv)
hoặc với K ta có
α’ (hàm ~dist)
+ Kết luận:
H
0

đúng nếu ⏐K⏐≤ K
α
hoặc α ≤ α’⇒ chấp nhận H
0
.
H
0
sai nếu ⏐K⏐> K
α
hoặc α > α’ ⇒ bác bỏ H
0
.


II. SO SÁNH PHƯƠNG SAI của hai tổng thể :
Với n
x
mẫu thu từ tổng thể X và n
y
mẫu thu từ tổng thể Y, ta tính được
và . Thấy rằng
≠ .
2
x
S
2
y
S
2
x

S
2
y
S
Vấn đề đặt ra là ta phải kiểm đònh xem sự khác nhau về phương sai của
2 mẫu có phải xuất phát từ sự khác nhau về phương sai của 2 tổng thể X và Y
không, hay chỉ là sự sai khác ngẫu nhiên.
Gọi và là phương sai của 2 tổng thể X và Y .
2
x
σ
2
y
σ
Đặt giả thiết : H
0
: =
2
x
σ
2
y
σ
H
1
:
2
x
σ ≠
2

y
σ


Giá trò kiểm đònh :
2
y
2
x
S
S
F =
(với > )
2
x
S
2
y
S
Trong trường hợp này, F có phân bố Fisher với (n
x
-1) bậc tự do của tử số
và (n
y
-1) bậc tự do của mẫu số, ở mức ý nghóa. Tìm phân bố của F bằng hàm
Finv(
α,n
x
-1,n
y

-1) ta có F
α
, hoặc hàm Fdist(F,n
x
-1,n
y
-1) có α’.
So sánh F với F
α
hoặc α với α’ để kết luận:
Nếu F
≤ F
α
hoặc α ≤ α’: chấp nhận H
0
(H
0
đúng)
F > F
α
hoặc α > α’: bác bỏ H
0
(H
1
đúng).


23

 Chương trình F-Test : Two-sample for Variances




• Variable 1 range: vùng cell chứa dãy số liệu có phương sai lớn hơn.
• Variable 2 range: vùng cell chứa dãy số liệu có phương sai bé hơn.
• Alpha: mức ý nghóa của kiểm đònh.
Kết xuất của chương trình F-Test Two-Sample for Variances:
X Y
Giải thích
Mean
X

Y

Trung bình mẫu
Variance
2
x
S
2
y
S
Phương sai mẫu
Observations
n
x
n
y
Kích thước mẫu
df

n
x
-1
n
y
-1
Số bậc tự do
F
F

Giá trò kiểm đònh F
P(F<=f) one-tail
α


Mức ý nghóa để F

F
α
F Critical one-tail
F
α

Phân bố xác suất F
α


III. SO SÁNH TRUNG BÌNH của hai tổng thể :
Thu n
X

mẫu tổng thể X và n
Y
mẫu tổng thể Y, ta tính được
X

Y

các giá trò trung bình của mẫu X và mẫu Y, thấy rằng các giá trò này khác
nhau. Vấn đề là phải kiểm đònh xem sự khác nhau này là do ngẫu nhiên (do
sai số thu mẫu) hay do bản chất (trung bình của 2 tổng thể khác nhau), với
mức ý nghóa của kiểm đònh là
α.
Gọi μ
x
và μ
y
là giá trò trung bình của 2 tổng thể X và Y.
Đặt giả thiết : H
0
: μ
x
= μ
y

H
1
: μ
x
≠ μ
y


24

×