Tải bản đầy đủ (.pdf) (171 trang)

Giáo trình Lý thuyết xác suất và thống kê toán: Phần 2 - Mai Chi, Trần Doãn Phú

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.43 MB, 171 trang )

PHẦN II. THỐNG KÊ TOÁN

127



Chương VI
LÝ THUYẾT MẪU
§1. KHÁI NIỆM VỀ ĐÁM ĐƠNG VÀ MẪU
1.1. Đám đông

Giả sử ta cần nghiên cứu một hay nhiều dấu hiệu thể hiện trên một
tập hợp gồm N phần tử, thì tập hợp N phần tử này được gọi là đám
đơng (cịn được gọi là tổng thể hay tập nền), N được gọi là kích thước
của đám đơng.
Dấu hiệu cần nghiên cứu có thể là định lượng hoặc định tính.
Chẳng hạn đối với cơng nhân một ngành kinh tế thì dấu hiệu định
lượng có thể là mức lương hàng tháng của cơng nhân hoặc bậc thợ, cịn
dấu hiệu định tính có thể là giới tính của cơng nhân hoặc khu vực kinh
tế công nhân đang làm việc. Tuy nhiên dấu hiệu định tính có thể
chuyển về dấu hiệu định lượng bằng phương pháp biến giả (xem
chương 5. [10]).
Thông thường kích thước N của đám đơng là hữu hạn, song trong
trường hợp số lượng các phần tử của đám đơng là q lớn hoặc khơng
thể nắm bắt được tồn bộ các phần tử của đám đơng thì ta có thể coi
kích thước của đám đơng là vơ hạn.
*
Ví dụ r. Cần nghiên cứu mức tiêu thụ X một loại thực phẩm của
các gia đình ở một quận nội thành Hà Nội trong một tháng, thì đám
đơng là tập hợp tất cả các gia đình trong quận, cịn kích thước của đám
đơng là số gia đình trong quận.


Ví dụ 2: Cần nghiên cứu trọng lượng X của các gói hàng do một
máy tự động đóng thì đám đơng là tất cả các gói hàng do máy đóng. Vì
máy đã đórig, đang đóng và sẽ cốn tiếp tục đóng nên ta có thể coi kích
thước của đám đơng N = +00.

Xét một đám đơng kích thước N hữu hạn. Giả sử dấu hiệu định
lượng cần nghiên cứu X chỉ có thể nhận các giá trị Xj,..., Xị,..., xk với
129


k

các tần số tương ứng Nị,..., Nj,.., Nk. Tất nhiên ta có ^Nj = N, trong
i=l

đó 0 < Nị < N với Vi. Theo định nghĩa cổ điển về xác suất, ta có P(X
= Xj) = Nj/N = Pi, (i'= 1,.., k). Như vậy ta có thể coi X là một ĐLNN rời
rạc với bảng phân phối xác suất:
X

xt .. •

Xi

•• xk

p

P1 •• •


Pi

•• Pk

ĐLNN X được gọi là ĐLNN gốc, phân phối xác suấtcủa^x được

gọi là phân phối lý thuyết còn các tham số đặc trưng của X được gọi là
các tham số của đám đông (hay các tham số lý thuyết). Điều này cũng

đúng nếu dấu hiệu cần nghiên cứu X phân phối liên tục.
1.2. Mẫu

Để nghiên cứu dấu hiệu X thể hiện trên một đám đơng kích thước
N, đáng lẽ ta phải điều tra tất cả các phần tử của đám đông nhưng điều
này thường không thể thực hiện được vì những lý do:
- Khi N = +00 rõ ràng ta không thể điều tra được tất cả các phần tử
của đấm đông.

- Trong một số trường hợp các phần tử sau khi nghiên cứu bị phá
huỷ, lúc đó việc nghiên cứu tồn bộ đám đơng là vô nghĩa.

- Điều chủ yếu là khi N lớn việc nghiên cứu tồn bộ đám đơng địi
hỏi nhiều chi phí về vật chất và thời gian.
Vì vậy từ đám đơng người ta lấy ra một tập hợp nhỏ hơn gồm n
phần tử để nghiên cứu và dựa vào đó mà đưa ra những kết luận về dấu
hiệu X trên toàn bộ đám đông. Tập hợp n phần tử này được gọi là mẫu,
n được gọi là kích thước mẫu.
1.3. Các phương pháp chọn mẫu

Vì từ thơng tin của mẫu ta sẽ đưa ra kết luận về dấu hiệu cần


nghiên cứu trên tồn bộ đám đơng nên ta phải Ịấy mẫu một cách khoa
học, sao cho mẫu đại diện một cách khách quan, trung thực cho đám

130


đông theo dấu hiệu cần nghiên cứu. Nếu mẫu không đại diện trung
thực, khách quan cho đám đơng thì từ những thơng tin thu được trên

mẫu ta sẽ có những kết luận sai lệch về dấu hiệu cần nghiên cứu. Tuỳ
từng trường hợp cụ thể ta có thể áp dụng một trong những cách chọn

mẫu thông dụng sau:

- Chọn ngẫu nhiên đơn giản có hồn lại
- Chọn ngẫu nhiên đơn giản khơng hồn lại

- Chọn điển hình
- Chọn máy móc.

Ngồi các cách chọn mẫu trên, cịn có nhiều cách chọn mẫu khác
(xem [8]).
Để hiểu được thế nào là chọn ngẫu nhiên đơn giản có hồn lại,
chọn ngẫu nhiên đơn giản khơng hồn lại trước hết ta đi nghiên cứu
xem thế nào là chọn ngẫu nhiên đơn giản. Chọn ngẫu nhiên đơn giản là
cách chọn trong đó các phần tử của mẫu được chọn một cách ngẫu
nhiên từng phần tử một từ đám đơng. Ví dụ để có một mẫu kích thước
n từ một đám đơpg kích thước N ta có thể tiến hành như sau: Đánh số
các phần tử của đám đơng từ 1 đến N. Sau đó viết các số tự nhiên từ 1

đến N lên N tấm thẻ giống nhau. Xáo trộn đều N tấm thẻ này rồi rút
ngẫu nhiên ra từng thẻ một, rút ra n thẻ. Sau đó, những phần tử nào có
số trùng với số ở n thẻ rút ra sẽ là các phần tử của mẫu. Tuy nhiên
trong thực tế để chọn mẫu ngẫu nhiên đơn giản người ta không dùng
thẻ mà thường dùng các bảng số ngẫu nhiên, hoặc dùng phần mềm
máy tính để tạo ra những số ngẫu nhiên. Sau đây ta đi nghiên cứu kỹ
hơn từng cách chọn.
1. Chọn ngẫu nhiên đơn giản có hồn lại là chọn ngẫu nhiên đơn
giản ra từng phần tử một, nhưng phần tử thứ hai được chọn sau khi đã
trả phần tử thứ nhất vào đám đông, phần tử thứ ba được chọn sau khi đã
trả phần tử thứ hai vào đám đông.... Mẫu được chọn như vậy được gọi
là mẫu lặp.

131


2. Chọn ngẫu nhiên đơn giản khơng hồn lại là chọn ngẫu nhiên
đơn giản ra từng phần tử một nhưng không trả lại đám đông những

phần tử đã được chọn (hoặc chọn ngẫu nhiên liền một lúc cả n phần

tử). Mẫu được chọn như vậy gọi là mẫu không lặp.

Như vậy đối với mẫu lặp, một phần tử có thể được chọn nhiều lần
cịn đối với mẫu khơng lặp các phần tử được chọn nhiều nhất một lần.
3. Chọn điển hình là cách chọn trong đó mẫu được chọn ra khơng

phải từ tồn bộ đám đơng mà từ các bộ phận “điển hình” của nó. Ví dụ:

để kiểm tra chất lượng các sản phẩm được sản xuất từ nhiều máy khác


nhau, người ta không chọn mẫu từ kho sản phẩm chung của các máy,
11 à chọn từ mỗi lô sản phẩm của mỗi máy.
4. Chọn máy móc là cách chọn trong đó đám đơng được chia ngẫu

nhiên ra một số nhóm đúng bằng số phận tử của mẫu. Sau đó từ mỗi

nhóm ta chọn ngẫu nhiên ra một phần tử.

Trong thực tế người ta thường phối hợp các cách chọn mẫu nói
trên. Người'ta cịn chứng minh đượG rằng (xem §3 chương IV) khi kích
thước của đám đơng khá lớn và kích thước mẫu khá nhỏ so với kích
thước của đám đơng thì cách chọn mẫu có hồn lại và khơng hoàn lại
cho kết quả xấp xỉ như nhau. Đặc biệt khi kích thước của đám đơng N
= +oo thì sự khác biệt giữa hai cách chọn mẫu trên khơng cịn nữa. Do
đó, trong thực tế người ta thường dùng cách chọn mẫu không lặp,
nhưng lại áp dụng căc công thức của mẫu lặp. Trong giáo trình này, ta
giả thiết mẫu được lấy theo cách chọn ngẫu nhiên đơn giản có hồn lại,
cịn những trường hợp khác ta sẽ nói cụ thể sau.
1.4. Mẫu ngẫu nhiên

Giả sử ta lấy mẫu kích thước n. Gọi Xj là giá trị quan sát của dấu
hiệu cần nghiên cứu X thể hiện trên phần tử thứ i của mẫu i = 1,..., n.
Vì mẫu lấy từ đám đông theo phương pháp ngẫu rihiên đơn giản có

hồn lại, nên Xị (i = 1, 2,..., n) là các ĐLNN độc lập có cùng luật phân
phối xác suất với ĐLNN gốc X.

132



Định nghĩa: Mẫu ngẫu nhiên kích thước n là tập hợp của n ĐLNN
độc lập Xị, X2,..., Xn được rút ra từ ĐLNN gốc X và có cùng luật phân

phối xác suất với X.
Mẫu ngẫu nhiên kích thước n được ký hiệu là:
W = (X1,X2,...,Xn)

Trong một lần lấy mẫu, ĐLNN thành phần Xị nhận giá trị Xj (i = 1,
2,..., n). Tập hợp n giá trị X],..., xn tạo nên một giá trị của mẫu ngẫu
nhiên w = (Xj, x2,..., Xn) và được gọi là một mẫu cụ thể, ký hiệu là:

w = (xb x2 ,...,xn)

§2. CÁC PHƯƠNG PHÁP MƠ TẢ MẪU

2.1. Dãy số liệu thống kê

Giả sử trong một lần lấy mẫu kích thước n ta được một mẫu cụ thể:

w = (x1,x2,...,xn)

Trong đó Xj là giá trị quan sát của dấu hiệu X thể hiện trên phần tử
thứ i của mẫu (i = 1, 2, ..., n).
Dãy các giá trị quan sát Xj, x2,..., xn được gọi là dẫy số liệu thống kê.

Ví dụ: Theo dõi doanh thu của một cửa hàng trong 10 ngày ta được

dẫy số liệu thống kê (đơn vị là triệu đồng): 10, 15, 9, 12, 8, 11, 14, 13,


16, 11.
2.2. Bảng phân phối thực nghiệm

Dãy số liệu thống kê chưa được trình bày ngắn gọn theo một trật tự

nhất định nên gây khó khăn cho việc nghiên cứu. Vì vậy, sau khi đã có

dãy số liệu thống kê người ta thường sắp xếp và hệ thống chúng lại
theo thứ tự tâng dần hoặc giảm dần rồi viết chúng dưới dạng bảng phân
phối tần số thực nghiệm hoặc bảng phân phối tần suất thực nghiệm.
133


Bảng phân phối tần số thực nghiệm tổng quát có dạng:

Xj (hoặc X)

Xj

x2 ■ . .

Xi ...

xk

ni

ni

n2 • • .


n, ...

nk

Trong đó nj (i= 1, 2,..., k) là tần số của giá trị quan sát Xp Tất nhiên
k

ta CÓ ^nị = n.
i=l

Bảng phân phối tần suất thực nghiệm tổng quát có dạng:

Xj (hoặc X)

Xj

x2

í

ĩ;

f2



...

Xi ...


... • fi ...

xk
ĨT-

Trong đó fj = nj/n (i= 1, 2,..., k) là tần suất của giá trị quan sát Xj.
Tất nhiên ta cũng có

* 0 < fj< l(i= 1, 2,..., k)
* ±f,=i
i=l

Ví dụ 1: Kiểm tra đường kính của 10 trục máy do một máy tự động
sản xuất ra ta có dãy số liệu thống kê (đơn vị là cm):
19,9; 20,1; 20,1; 20,0; 19,9; 20,0; 19,8; 20,0; 19,9; 20,0

Gọi X là đường kính của các trục máy khi đó ta có

- Bảng phân phối tần số thực nghiệm:
X

19,8

19,9

20,0

20,1


ni

1

3

4

2

Bảng 6.1

Bảng phân phối tần suất thực nghiệm:

X

19,8

19,9

20,0

20,1

0,1

0,3

0,4


0,2

Bảng 6.2
Các bảng phân phối thực nghiệm ở trên còn được gọi là các bảng
phân phối thực nghiệm rời rạc.
134


Trong trường hợp ĐLNN X liên tục hoặc X rời rạc nhưng kích
thước mẫu n lớn, các giá trị của X sai khác nhau ít, người ta thường
chia các giá trị của X ra thành từng lớp. Khi đó bãng phân phối thực
nghiệm có dạng:

Lớp
*
*■
X1 - x2

Xi

*

- xi+1

*

xk* - Xk+1*

Tần suet fị


Trung tâm lớp Xj

Tần son.

X]

nj

Xi

ni

fi

,xk

nk

fk

'

f|

Trong đó: lớp (Xj*- xi+]*) là lớp thứ i; i = 1, 2,..., k

Xj là trung tâm của lớp thứ i

n, là tần số của lớp thứ i
fj là tần suất của lớp thứ i.


Ví dụ 2: Để theo dõi quá trình làm việc của một máy tự động
người ta kiểm tra ngẫu nhiên 100 sản phẩm do máy đó sản xuất và có
bảng phân phối thực nghiệm của chiều dài các sản phẩm như sau (đơn

vị tính bằng cm):

Lớp

Trung tâm lớp Xj

Tần số nj

Tần suất fị

5,78 - 5,80

5,79

14

0,14

5,80 - 5,82

5,81

23

0,23


5,82 - 5,84

5,83

29

0,29

5,84 - 5,86

5,85

25

0,25

5,86 - 5,88

5,87

9

0,09

Bảng 6.3
135


2.3. Biểu đồ


Muốn có một hình ảnh về tình hình phân phối của các giá trị Xị,

người ta sử dụng biểu đồ. Có hai loại biểu đồ: biểu đồ hình gậy và biểu
đồ hình cột.

Để có biểu đồ hình gậy, trước hết ta biểu diễn các giá trị Xj lên

trục hoành và tần số nj (hoặc tần suất fj) lên trục tung của một hệ
trục toạ độ vng góc. Sau đó dựng các đoạn thẳng vng góc từ

các điểm (xr, n,), (x2, n2),..., (xk, nk) (hoặc từ các điểm (X|, fị), (x2,
f2),..., (xk, fk)) đến trục hồnh. Lúc đó ta có biểu đồ hình gậy tần số

(hoặc biểu đồ hình gậy tần suất).
Nếu nối các điểm (xt, nj, (x2, n2),..., (xk, nk) (hoặc các điểm (Xị,

fj), (x2, f2),..., (xk, fk)) lại bằng các đoạn thẳng ta được một đường gấp
khúc gọi là đa giác tần số (hoặc đa giác tần suất).
Ví dụ: Hình 6.1 là biểu đồ hình gậy tần số và đa giác tần số của X

với bảng phân phối tần số thực nghiệm là bảng 6.1.

Trường hợp có bảng phân phối thực nghiệm chia lớp thì trên trục
hồnh ta đặt các khoảng có chiều dài bằng khoảng cách các lớp, từ các
khoảng đó ta dựng các hình chữ nhật có chiều rộng là các khoảng trên,
cịn chiều dài bằng các tần số (hoặc tần suất) tương ứng. Tất cả các
hình chữ nhật này lập nên biểu đồ hình cột.

136



Ví dụ: Hình 6.2 là biểu đồ hình cột tần số của X cho bởi bảng 6.3.

2.4. Hàm phân phối thực nghiệm
Cho X với bảng phân phối tần số thực nghiệm:

X

X1

x2

... Xj. .. xk

ni

ni

n2

.. nj .. nk

Giả sử X là số thực bất kỳ. Ký hiệu nx là số các quan sát có giá trị
nhỏ hơn X, n là kích thước mẫu. Ta thấy rằng nx/n là tần suất của biến
cố (X < x). Khi X thay đổi thì nói chung nx thay đổi nên nx/n cũng thay
đổi theo, vậy nx/n là hàm số của biến X.

2.4.1. Định nghĩa. Hàm phân phối thực nghiệm của X, ký hiệu là
F*(x) được định nghĩa bởi cơng thức:


F*(x) = nx/n

Trong đó X là một số thực bất kỳ.
2.4.2. Tính chất

1/ Giá trị của hàm F*(x) nằm trong đoạn [0, 1].

2/ F*(x) là hàm không giảm.
3/ Néu X| là giá trị quan sát nhỏ nhất và xk là giá trị quan sát lớn
nhất của X trên mẫu thì

137


F*(x) = 0 với X < X| và
F*(x) = 1 với X > xk
Ví dụ: Lập và vẽ đồ thị hàm phân phối thực nghiệm của X cho bởi

bảng 6.1

Ta có: n = 10.

Với X < 19,8 thì nx = 0 vì khơng có giá trị quan sát nào của X bé
hơn X, do đó: F*(x) = nx/n = 0/10 = 0

Với 19,8 < X < 19,9 thì nx = 1, do đó F*(x) = nx/n = 1/10 = 0,1
Với 19,9 < X < 20 thì nx = 1 + 3 = 4, do đó F*(x) = nx/n = 4/10 = 0,4

Với 20 < X < 20,1 thì nx = 1 + 3 + 4 = 8, do đó F*(x) = nx/n = 8/10 = 0,8

Với X > 20,1 thì nx = 1 + 3 + 4 + 2 = 10, do đó F*(x) = nx/n = 10/10 = 1

Như vậy ta có:
'0

khi

x<19,8

0,1

khi

19,8
F*(x) = • 0,4

khi

19,9
0,8

khi

20,0 < X < 20,1

1

khi


20,1 < X

Dưới đây là đồ thị của hàm F*(x)

Hình 6.3

138


Ý nghĩa của hàm phân phối thực nghiệm: Hàm phân phối thực

nghiệm F*(x) xác định với mọi X, là tần suất của biến cố (X < x). Còn

hàm phân phối xác suất F(x) cũng xác định với mọi X, là xác suất của
biến cố (X'< x) (xem §2 chương II). Theo định lý Bernoulli ta có: khi n
tăng lên vơ hạn thì F*(x) hội tụ theo xác suất về F(x). Nghĩa là khi n lớn
thì về mặt thực hành chắc chắn rằng F*(x) xấp xỉ bằng F(x). Hơn thế nữa
hàm phân phối thực nghiệm F*(x) lại có tất cả các tính chất của hàm

phân phối lý thuyết F(x), nên ta có thể nói: khi n lớn hàm F*(x) là hình
ảnh thực nghiệm của hàm F(x) (ta chủ trương không điều tra cả đám
đông nên thường không biết F(x), nhưng từ mẫu ta ln tìm được F*(x)).

Ta cần chú ý rằng khi các giá trị quan sát của ĐLNN X được chia

thành lớp thì thay cho các lớp ta chỉ quan tâm đến các trung tâm lớp Xị.

§3. CÁC ĐẶC TRƯNG MAU quan trọng


Để nghiên cứu ĐLNN gốc X thể hiện trên một đám đơng kích

thước N, từ đám đơng ta rút ra một một mẫu ngẫu nhiên kích thước n:
w = (Xị, x2,..., Xn). Để có thể có những nhận xét nhanh chóng, sơ bộ
về mẫu người ta tìm cách “tóm tắt“, “cơ đặc“ mẫu lại bằng một vài đặc

trưng. Có hai loại đặc trưng mẫu:

+ Đặc trưng vị trí dùng để nghiên cứu vị trí của các giá trị của
mẫu như trung bình mẫu, trung vị, mốt...

+ Đặc trưng phân tán dùng để nghiên cứu tình hình phân tán của
các giá trị của mẫu như phương sai mẫu, độ lệch tiêu chuẩn mẫu,
khoảng biến thiên...
Sau đây ta sẽ nghiên cứu các đặc trưng mẫu quan trọng nhất.
3.1. Trung bình mẫu

3.1.1. Định nghĩa'. Giả sử từ ĐLNN gốc X ta rút ra một mẫu ngẫu

nhiên kích thước n: w = (X|, x2,..., Xn).
139


Khi đó trung bình mẫu ký hiệu là X được định nghĩa bằng công
thức: x=-ỷxi
n i=i

Ta chú ý rằng trung bình mẫu là một ĐLNN, tuân theo một quy luật

phân phối xác suất nào đó. Khi mẫu ngẫu nhiên nhận một giá trị cụ thể

w = (xlf x2,...,xn) thì trung bình mẫu cũng nhận một giá trị cụ thể:

1 xk ì
hoặc X - — y'nixi
n

¡=1

nếu có bảng phân phối tần số thực nghiệm:

X

X1

x2

. .

Xj...

ni

ni

n2

. .

nj ...


nk

3.1.2. Tính chất của trung bình mẫu\ Nếu ĐLNN gốc X có E(X)

= p và Var(X) = ơ2 thì
E(X) = p


(6.1)

Var(X) = ơ2/n

(6.2)

Thật vậy, vì X], x2 ,...,Xn là các ĐLNN độc lập có cùng phân phối
xác suất với X nên: E(Xj) = E(X) = p; Var(Xj) = Var(X) = ơ2 (i = 1, 2

..., n). Theo các tính chất của kỳ vọng tốn và phương sai ta có:
E(X) = E(ỊẳX,) = ỊỈE(X,) = Ịn(l = |l
n i=i
ntĩ'
n

Var(X) = Var4£x;) =

Var(X,) =

n

140


= ịn2

n


Như vậy, không phụ thuộc vào quy luật phân phối xác suất của

ĐLNN gốc, kỳ vọng toán của ĐLNN trung bình mẫu ln ln bằng kỳ
vọng tốn của ĐLNN gốc, cịn phương sai của ĐLNN trung bình mẫu
chỉ bằng một phần n phương sai của ĐLNN gốc! Nghĩa là khi n lớn
trung bình mẫu phân tán rất ít xung quanh kỳ vọng toán của ĐLNN gốc.

Độ lệch tiêu chuẩn của ĐLNN trung bình mẫu được tính bằng
cơng thức
ơjj = ựVar(X) =-?=
(6.3)
Vn
Trên đây ta giả thiết mẫu được xây dựng là mẫu lặp. Nếu mẫu

được xây dựng là mẫu không lặp thì:
Var(X) = ^-4
N-l
x N-n
Rõ ràng, khi n rất nhỏ so với N thì -7-—- « 1, đặc biệt khi N —> +00 thì
N-l
N-n
,
s
z 4

lim —- = 1. Nên trong những trường hợp này, mặc dù mâu được
n—>+oo

_ I

xây dựng là mẫu khơng lặp nhưng ta vẫn có thể dùng cơng thức (6.2).
Xét một loại đám đơng thường gặp, đó là trường hợp đám đơng có
tỷ lệ phần tử mang dấu hiệu A là p (p chính là xác suất lấy ngẫu nhiên
một phần tử từ đám đơng thì được một phần tử mang dấu hiệu A). Nếu
gọi X là số phần tử mang dấu hiệu A có được khi lấy ngẫu nhiên từ
đám đơng ra một phần tử, thì X chỉ có thể nhận các giá trị 0 và 1 với
các xác suất tương ứng: P(X = 1) = p và P(X = 0) = 1 - p = q. Vậy X
tuân theo quy luật phân phối không - một với tham số là p ( X ~ A(p))
(xem §1. chương IV). Do đó ta có E(X) = p, Var(X) = p.q. Giả sử từ
đám đông lấy ra mẫu ngẫu nhiên kích thước n: w = (Xj, x2,..., Xn). Vì
mẫu chọn theo phương pháp có hồn lại nên các ĐLNN Xj có cùng
phân phối xác suất với X, tức là Xị ~ A(p). Mặt khác, nếu ký hiệu nA
là số phần tử mang dấu hiệu A trên mẫu, ta dễ dàng thấy rằng

nA = V Xj. Khi đó tần suất mẫu f = —— chính là trung bình mẫu của
M
n
loại đám đơng này. Thật vậy ta có

141


f=Bi = ỉỷxi = x
n nn “i=17'
n

Theo tính chất của trung bình mẫu ta có

(6.4)

E(f) = p; Var(f)= —
n

Thật vậy, ta có E(f) = E(X) = E(X) = p và
Var(f)=Var(X) = ^® = W
n
n

Chú ý: Ở đây p là tỷ lệ dấu hiệu A trên đám đông và là hằng số.
Còn f là tỷ lệ dấu hiệu A trên mẫu và là ĐLNN. Các số đặc trưng của f

tính theo công thức (6.4).
3.2. Trung vị (Median)

Trung vị ký hiệu là Xd là giá trị nằm ở chính giữa tức là giá trị chia
các số liệu mẫu thành hai phần bằng nhau.
Có hai trường hợp như sau:
1. Giả sử ta có mẫu ngẫu nhiên w = (Xj, x2,..., Xn). Sau khi sắp
xếp các giá trị quan sát X|, X2, ..., Xn theo thứ tự tăng dần ta được X1 <
X? < ... < xn.

+ Nếu n là số chẵn, tức là n = 2q thì trung vị được tính bằng cơng

+ Nếu n là số lẻ, tức là n = 2q - 1 thì xd = xq.

Ví dụ: Quan sát dấu hiệu X trên mẫu kích thước n = 100 ta được

kết quả

X

142

1

2

3

4

5

6

‘4

6

22

16

36

16



Ta thấy n - 100 là số chẵn n = 2q, suy ra q = 50 nên ta có
v
d

X5O+X51
2

5 + 5 _c
2

2. Nếu mẫu quan sát được chia thành lớp thì trung vị được tính
bằng cơng thức:

?’s
Xd =L + Ị—.h
nd

Trong đó L là giới hạn dưới của lớp chứa trung vị

n là kích thước mẫu
s là tổng tần số của các lớp đứng trước lớp chứa trung vị
nd là tần số của lớp chứa trung vị

h là độ dài của lớp chứa trung vị.

Ví dụ: Tìm trung vị của mẫu cho trong bảng 6.3:
Lớp

Trung tâm lớp Xj


Tần số n.

Tần suất fj

5,78-

5,80

5,79

14

0,14

5,80 -

5,82

5,81

23

0,23

5,82 -

5,84

5,83


29

0,29

5,84 -

5,86

5,85

25

0,25

5,86 -

5,88

5,87

9

0,09

Ta có n/2 = 100/2 = 50 vậy trung vị nằm ở lớp thứ ba. Từ đó ta có
xd =5,82+
d

50-37 ..................

_ .0,02 «5,83
29

3.3. Mốt (Mode)

Mốt ký hiệu là Xo là giá trị có tần số lớn nhất trong dẫy số liệu mẫu.
Có hai trửờng hợp sau:

143


1. Nếu mẫu cho dưới dạng bảng

X

X1

ni

nj

x2

... Xi... xk

n2

.. n, ... nk

thì mốt là giá trị quan sát của X mà tần ổố xuất hiện giá ưị đó lớn nhất.

Ví dụ: Cho bảng phân phối mẫu

X

15

17

18

19

2

3

4

1

thì X() = 18.

2. Nếu mẫu cho dưới dạng lóp thì mốt được tính theo cơng thức
X0=L + —i—h
d,+d2

Trong đó:
L là giới hạn dưới của lớp chứa mốt (lớp có tần số lớn nhất),

dị là hiệu số giữa tần số của lóp chửa mốt và tần số của lóp đứng trước.

d2 là hiệu số giữa tần số của lớp chứa mốt và tần số của lớp đứng sau.

h là độ dài của lớp chứa mốt.

Chú ý: Nếu d! = d2 = 0 thì mốt là trung tâm của lớp đang xét.
Ví dụ: Hãy tìm giá trị mốt của mẫu cho trong bảng 6.3.

Ta có x0 = 5,82 + -^-.0,02 = 5,832
6+4
3.4. Khoảng biến thiên

Khoảng biến thiên ký hiệu là R, là hiệu số giữa giá trị quan sát lớn

nhất và giá trị quan sát nhỏ nhất
R = Xmax - Xmin

Nếu các số liệu mẫu được chia thành lớp thì khoảng biến thiên là
hiệu số giữa cận trên của lớp cuối cùng và cận dưói của lớp đầu tiên

trong dẫy phân phối các giá trị của mẫu.
144


Khoảng biến thiên R cho ta biết mức độ phân tán của các giá trị
của ĐLNN X nhưng chưa xét đến tất cả các giá trị mà chỉ xét đến hai
giá trị lớn nhất và bé nhất trong bảng phân phối mẫu.

Việc tính khoảng biến thiên khá đơn giản song không mang lại
nhiều thông tin về độ phân tán của các giá trị của mẫu, nên việc sử
dụng nó cũng bị hạn chế.

3.5. Phương sai mẫu

3.51. Định nghĩa. Giả sử từ ĐLNN gốc X ta rút ra một mẫu ngẫu
nhiên kích thước n: w = (Xị, x2,..., Xn). Khi đó phương sai mẫu, ký
hiệu là s2 được định nghĩa bằng cồng thức
S2 = Ịtn i=I

3.5.2. Tính chất của phương sai mẫu\ Giả sử ĐLNN gốc X có

E(X) = p và Var(X) = ơ2, khi đó
E(S2) = —ơ2
n

(6.5)
-

Thật vậy, ta có

s2=TẺ«. - X)2=èỉ[n i=i
n i=1 L

- p)]

= 7-Ẻ[. n i=l

= éẺ

(X, - H) + (X- n)2
n

=^(X,-U)2-(X-H)2
n M
Vì E(Xi - p.)2 = Var(Xj) - Var(X) = ơ2 và

E(X-|1)2 = Var(X) = —n

145


Do đó E(S2) = - Ỷ E(Xj -p)2 - E(X - p)2 = ơ2 - — = — ơ2
n
n
n

Như vậy kỳ vọng toán của phương sai mẫu khác với phương sai
của ĐLNN gốc. Để khắc phục điều này người ta đưa ra một đặc trưng

mẫu mới là phương sai mẫu điều chỉnh.
3.5.3. Phương sai mẫu điêu chỉnh

Định nghĩa-. Phương sai mẫu điều chỉnh ký hiệu là s’2 và được định
nghĩa bằng cơng thức:
S'2=-Ì-£(X,-X)2
n-1 M

(6.6)


Khi đó dễ dàng thấy rằng E(S’2) = ơ2.
Cũng như đối với X, ta cần chú ý rằng s2 và s’2 là những ĐLNN,

chúng tuân theo những quy luật phân phối xác suất nào đó. Khi mẫu

ngẫu nhiên nhận một giá trị cụ thể w = (xb x2,..., xn) thì phương sai mẫu
cũng như phương sai mẫu điều chỉnh cũng nhận những giá trị cụ thể:

s2 =7-¿Ui -x)2 và
n Í=1
1
n-1
Hoặc

i= l

s2 =


n ¡=1

1

Ền,(x,-x)2

n-1

i= l

nếu có bảng phân phối tần số thực nghiệm:


146

X

•X]

x2

... Xị. -Xk

ni

n>

n2

.. n, .. nk


Chú ý 1: Biết s2 ta có thể tính s'2 theo cơng thức: s'2 =

n-1

Chú ý 2: Để tính giá trị của phương sai mẫu ta có thể dùng trực

tiếp công thức trên, nhưng để cho đơn giản người ta có thể dùng cơng
thực sau:

hoặc


¿niX2-n(x)2
i=l

Thật vậy, ta có

= 7 £niX*-n(x)2
ns2

Chú ỷ 3: Vì s'2 =

n-1

nên người ta thường tính phương sai mẫu

điều chỉnh theo công thức
s'2 = —!—(^n^-nx2)

n-1

i=i

Lưu ý rằng: đơn vị đo của phương sai mẫu cũng như của phương
sai mẫu điều chỉnh bằng bình phương đơn vị đo của ĐLNN gốc X. Để

trở về đơn vị đo của X người ta đưa ra các đặc trưng mẫu mới là độ
lệch tiêu chuẩn mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh.

147



3.5.4. Độ lệch tiêu chuẩn mẫu, độ lệch tiêu chuẩn mẫu điều chỉnh
Định nghĩa: Căn bậc hai của phương sai mẫu s2 được gọi là độ
lệch tiêu chuẩn mẫu và được ký hiệu là S:

S=íỉ(x‘-X)2
Định nghĩa: Căn bậc hai của phương sai mẫu điều chỉnh S’2 được
gọi là độ lệch tiêu chuẩn mẫu điêu chỉnh và được ký hiệu là S’:

s'=feỉ(x‘-*)2
s và S’ là các ĐLNN, còn các giá trị của chúng trên một mẫu cụ
thể là những số xác định, ký hiệu tương ứng là s và s:

và s' = a/s^ = J-^Ỳ((xi-x)2

Vn-lt/
Để tính trung bình mẫu và phương sai mẫu được dễ dàng người ta
thường lập bảng tính tốn.

Ví dụ 1: Qho X với bảng phân phối tần số thực nghiệm (bảng 6.1):
19,8

X

1

ni

19,9


20,0

20,1

3

4

2

Ta lập bảng tính tốn (đưa về dạng cột) iihư sau:
Xi

148

nixi

nixi2

19,8

1

19,8

392,04

19,9

3


59,7

1188,03

20,0

4

80,0

1600,00

20,1

2

40,2

808,02

Zjìị= n =10

ZniXi=199,7

Zn,xj2= 3988,09


Khi đó
_1"’7_1QQ7


1

X = — > n;X. =
nè H

'
10

= 19,97

s2 = -(ỳ nixi2-nx2) = ¿(3988,09 -10.(19,97)2) = 0,0081

10

n tĩ'
^s = ựo,0081 =0,09

s'2

-^s2 = ¿.0,0081 = 0,009
n -1
9

s' = V0,009 «0,094868

Theo chú ý 3, tã có thể tính phương sai mẫu điều chỉnh trực tiếp

theo cồng thức
1


k

1

s'2 = —¿(E^x2 - nx2) = ^(3988,09 -10.(19,77)2) = 0,009

Như ta đã biết, trong trường hợp X liên tục hoặc nếu X rời rạc
nhưng kích thước mẫu n lớn, các giá trị của X sai khác nhau ít thì
người ta chia các giá trị của X ra thành từng lớp. Khi đó, để tính các số

đặc trưng mẫu người ta lấy giá trị trung tâm của mỗi lớp đại diện cho

lớp đó để tính tốn.
Ví dụ 2: Hãy tìm trung bình mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh

của chiều dài của các sản phẩm với bảng phân phối mẫu là bảng (6.3).
Ta có bảng tính tốn sau:
nịXị2

Xi

ni

nixi

5,79
5,81
5,83


14

81,06

469,3374

23

133,63

776,3903

29

169,07

985,6781

5,85

25

146,25

855,5625

5,87

9
100


52,83
582,84

310,1121
3397,0804

149


ws... lv__.
582,84 'O^OA
Vậy X = — Vn.x. =
'„■ = 5,8284
nér
100
1

k

1

s'2 = —(y.ni? - nx2) = ¿-[3397,0804 -100.(5,8284)2]« 0,000563
n-1 tr ‘
99
s' = 70^00056307 « 0,023729
3.6. Hệ số bất đối xứng mẫu, hệ số nhọn mẫu

Dựa vào định nghĩa của hệ số bất đối xứng, hệ số nhọn (xem §5


Chương III) người ta đưa ra định nghĩa hệ số bất đối xứng mẫu, hệ số
nhọn mẫu.

Giả sử từ ĐLNN gốc X ta rút ra một mẫu ngẫu nhiên kích thước n:
w = (Xb x2,..., Xn). Hệ số bất đối xứng mẫu ký hiệu là Sk và được định
nghĩa bằng công thức:

^¿(X,-X)’
C

i=l_____________________

_

k
s3
Hệ số nhọn mẫu ký hiệu là K và được định nghĩa bằng công thức:

iỵcx.-x)4
K = n i=1

----------3

s4
Trong cả hai công thức trên:
x = -tx, là ĐLNN trung bình mẫu,
nt/

________


s = I—V(Xj - X)2 là ĐLNN độ lệch tiêu chuẩn mẫu.
Vn
Trong một mẫu cụ thể w = (xb x2,..., xn) ta có cơng thức tính hệ số
¡=1

bất đối xứng mẫu và hệ số nhọn mẫu như sau:
^¿(xi“x)4

|É(xi-x)3
sk=Ä^--------------------- ;

S'

150

-------------------------- 3

k =

s


|Èni(xi_x)4

lỀn/Xi-x)3

Hoặc sk =

;


S’

k=

—------------3
s

nếu có bảng phân phối thực nghiệm:
X

X1

x2

... Xị. .. xk

ni

n.

n2

.. ni

•• nk

Ví dụ: Tiếp tục ví dụ 1 trong mục 3.5. Ta đã tìm được X = 19,97; s

= 0,09. Để tìm hệ số bất đối xứng mẫu và hệ số nhọn mẫu ta lập thêm
bảng sau:

Xi

ni

Xj - X

ni (Xi - X )3

ni (Xị - X )4

19,8

1

-0,17

-0,004913

0,00083521

19,9

3

-0,07

- 0,001029

0,00007203


20,0

4

0,03

0,000108

0,00000324

20,1

2

0,13

0,004394

0,00057122

- 0,001440

0,00148,170

10

Từ bảng này ta tìm được:

^¿n/Xi-x)3
sk =-^—,----- —= ((1/10).(-0.001440))/ 0,093 =-0,197530864


lịn^-x)4
k = -2-^— ----------- 3 = ((1/10). 0.00148170)/ 0,094 - 3
s


= 2,258344765-3 =-0,741655235

151


×