Tải bản đầy đủ (.docx) (69 trang)

Khóa luận THỐNG KÊ TOÁN NÂNG CAO

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (670.47 KB, 69 trang )

TRƯỜNG ĐẠI HỌC QUẢNG NAM
KHOA TOÁN
----------

NGUYỄN THỊ NHẬT HÀ

THỐNG KÊ TỐN NÂNG CAO

KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC

Quảng Nam, tháng 5 năm 2017


TRƯỜNG ĐẠI HỌC QUẢNG NAM
KHOA TỐN

----------

KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC

Tên đề tài:

THỐNG KÊ TOÁN NÂNG CAO

Sinh viên thực hiện
NGUYỄN THỊ NHẬT HÀ
MSSV: 2113010111
CHUN NGÀNH: SƯ PHẠM TỐN
KHĨA 2013 – 2017
Cán bộ hướng dẫn
ThS. PHẠM NGỌC HOÀNG



Quảng Nam, tháng 5 năm 2017


LỜI CẢM ƠN
Trong suốt thời gian thực hiện khóa luận của mình, tơi đã gặp khơng ít khó khăn,
vướng mắc về hình thức lẫn nội dung nghiên cứu. Nhưng dưới sự giúp đỡ và hướng
dẫn tận tâm tận tình của các thầy cơ, tơi đã hồn thành khóa luận của mình.
Tơi xin gửi lời cảm ơn sâu sắc đến Th.S Phạm Ngọc Hồng, giảng viên hướng dẫn
tơi nghiên cứu đề tài khóa luận này. Thầy đã hướng dẫn, chỉ bảo, góp ý và cung cấp
cho tơi những kiến thức nền tảng vô cùng quan trọng và cần thiết cho việc nghiên cứu.
Nhờ có sự giúp đỡ nhiệt tình của thầy, tơi đã hồn thành tốt bài khóa luận của mình.
Tơi xin gửi lời cảm ơn chân thành đến tất cả thầy cơ trong khoa Tốn. Trong suốt
bốn năm học đại học, thầy cô đã truyền dạy cho tôi vô vàn kiến thức bổ ích, giúp tơi
vận dụng những kiến thức này để hồn thành khóa luận.
Tơi xin cảm ơn gia đình, bạn bè đã ln động viên, cổ vũ tinh thần và tạo mọi điều
kiện để tơi tập trung hồn tồn vào việc nghiên cứu khóa luận.
Khơng có thành cơng nào mà khơng có sự nỗ lực của bản thân mình cùng với sự
giúp đỡ từ mọi người. Một lần nữa, tôi xin chân thành cảm ơn.
Đề tài này được nghiên cứu trong phạm vi và thời gian có hạn, vì thế khơng tránh
khỏi những thiếu sót hay kiến thức chưa đủ sâu rộng để giải quyết tất cả các vấn đề. Vì
vậy, kính mong nhận được sự đóng góp ý kiến đến từ thầy cơ, bạn bè để khóa luận
ngày càng hoàn thiện hơn.


MỤC LỤC
Phần 1. MỞ ĐẦU.........................................................................................................1
1. Lí do chọn đề tài........................................................................................................1
2. Mục tiêu của đề tài.....................................................................................................1
3. Đối tượng và phạm vi nghiên cứu..............................................................................1

4. Phương pháp nghiên cứu...........................................................................................2
5. Đóng góp của đề tài...................................................................................................2
6. Cấu trúc đề tài............................................................................................................2
Phần 2: NỘI DUNG NGHIÊN CỨU..........................................................................3
CHƯƠNG 1: BÀI TỐN ƯỚC LƯỢNG THAM SỐ...............................................3
1.1. Bài tốn ước lượng điểm.........................................................................................3
1.1.1. Ước lượng không chệch.......................................................................................3
1.1.2. Ước lượng vững...................................................................................................4
1.1.3. Ước lượng hiệu quả.............................................................................................6
1.1.4. Ước lượng hợp lý cực đại....................................................................................7
1.2. Bài toán ước lượng khoảng.....................................................................................9
1.2.1. Bài toán ước lượng hiệu hai giá trị trung bình.....................................................9
1.2.2. Bài tốn ước lượng hiệu hai giá trị xác suất.......................................................10
CHƯƠNG 2: BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT.............................................12
2.1. Khái niệm bài toán kiểm định giả thiết.................................................................12
2.2. Bài toán kiểm định giả thiết bằng phương pháp P – giá trị...................................13
2.3. Kiểm định giả thiết về giá trị của nhiều xác suất..................................................15
2.4. Tiêu chuẩn kiểm định phi tham số........................................................................17
2.4.1. Kiểm định giả thiết về luật phân phối................................................................17
2.4.2. Kiểm định giả thiết về tính độc lập....................................................................19
2.4.3. Tiêu chuẩn Mann – Whitney..............................................................................21
2.4.4. Tiêu chuẩn Wilcoxon.........................................................................................24


2.5. Bài toán so sánh mở rộng......................................................................................27
2.5.1. Bài toán so sánh (kiểm định) nhiều tỉ lệ.............................................................27
2.5.2. So sánh các phân bố...........................................................................................28
2.5.3. Phân tích phương sai một nhân tố......................................................................31
2.5.4. Phân tích phương sai hai nhân tố.......................................................................34
CHƯƠNG 3: PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY..................................42

3.1. Phân tích tương quan tuyến tính...........................................................................42
3.2. Phân tích tương quan phi tuyến.............................................................................44
3.3. Phân tích hồi quy tuyến tính.................................................................................47
3.4. Hồi quy phi tuyến.................................................................................................50
3.5. Hồi quy bội...........................................................................................................52
Phần 3. KẾT LUẬN...................................................................................................55
Phần 4. TÀI LIỆU THAM KHẢO...........................................................................56
Phần 5. PHỤ LỤC......................................................................................................57


Phần 1. MỞ ĐẦU
1. Lí do chọn đề tài
Thống kê là quá trình nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm
phân tích, giải thích, trình bày và tổ chức dữ liệu. Chúng ta áp dụng thống kê để
nghiên cứu các lĩnh vực khoa học, công nghiệp hoặc các vấn đề xã hội. Thống kê rất
cần thiết để bắt đầu nghiên cứu một tiến trình. Thống kê học là một ngành lớn, với
nhiều phương pháp khác nhau để dùng cho các tình huống khác nhau và có nhiều điểm
cần chú ý để khỏi dẫn đến các kết luận thống kê sai lệch. Ngày nay, cùng với sự phát
triển của khoa học máy tính thì lí thuyết xác suất thống kê ngày càng phát triển, có
nhiều ứng dụng trong thực tiễn và được các nhà khoa học trong và ngồi nước quan
tâm nghiên cứu.
Thống kê tốn học có thể coi là tổng thể các phương pháp toán học, dựa trên lý
thuyết xác suất và các công cụ khác, nhằm đưa ra được những thông tin mới, kết luận
mới, có giá trị, từ những bảng số liệu thơ ban đầu và nhằm giải quyết những vấn đề
nảy sinh từ thực tế. Có thể kể tên một số mục đích chính của thống kê như sau: mơ tả
số liệu, ước lượng và dự đốn các đại lượng, tìm ra các mối quan hệ giữa các đại
lượng, kiểm định các giả thiết.
Hiện nay, lí thuyết thống kê được đưa vào chương trình giảng dạy đại học cho hầu
hết các ngành học. Tuy nhiên, do thời lượng chương trình nội dung của lí thuyết thống
kê chỉ đề cập đến việc ước lượng và kiểm định các tham số cơ bản. Do đó, nhằm cung

cấp một cách đầy đủ và có hệ thống kiến thức về lý thuyết thống kê và các dạng bài
toán ứng dụng trong thống kê kèm theo lời giải chi tiết cho từng bài tập liên quan,
đồng thời bổ sung một số ứng dụng nâng cao khác, tôi chọn đề tài: “Thống kê tốn
nâng cao” làm đề tài khóa luận của mình.
2. Mục tiêu của đề tài
Nghiên cứu nội dung lý thuyết thống kê.
Trình bày có hệ thống các ứng dụng thống kê cơ bản.
Đồng thời cung cấp một số ứng dụng thống kê nâng cao.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Bài toán ước lượng tham số, bài tốn kiểm định giả thiết,
phân tích tương quan và hồi quy.
Phạm vi nghiên cứu: Lý thuyết thống kê và ứng dụng.

1


4. Phương pháp nghiên cứu
Phương pháp phân tích và tổng hợp lý thuyết.
Phương pháp nghiên cứu tài liệu.
Tham khảo ý kiến chuyên gia.
5. Đóng góp của đề tài
Hệ thống kiến thức và các dạng bài toán ứng dụng trong thống kê.
Trình bày các bước thực hiện và giải chi tiết các bài tập liên quan đến từng dạng
bài tốn đó.
Cung cấp cho học sinh, sinh viên một số ứng dụng thống kê nâng cao khơng được trình
bày trong chương trình học, giúp các em có thêm tài liệu để tham khảo và nghiên cứu.
6. Cấu trúc đề tài
Bài khóa luận ngồi phần mở đầu và kết luận thì nội dung được chia làm 3 chương:
Chương 1: Bài toán ước lượng tham số.
Chương 2: Bài toán kiểm định giả thiết.

Chương 3: Phân tích tương quan và hồi quy.

2


Phần 2: NỘI DUNG NGHIÊN CỨU
CHƯƠNG 1: BÀI TOÁN ƯỚC LƯỢNG THAM SỐ
* Khái niệm bài toán ước lượng tham số
X ,K , X n 
Giả sử  1
là mẫu ngẫu nhiên từ phân phối f ( x, ),  �U (  là tham số).
Trên cơ sở mẫu ( X 1 , X 2 ,..., X n ) đã cho ta cần ước lượng tham số  (hoặc hàm số của
tham số  ).
Chẳng hạn: X có phân phối Poisson P( ) thì    , X có phân phối chuẩn

N (  , 2 ) thì   (  ,  2 ) . Phân phối của X được xác định nếu ta tìm được hay ước
lượng được giá trị của  .

$
Bài tốn tìm một thống kê  để thay thế (hay ước lượng) cho tham số  chưa biết

được gọi là bài toán ước lượng điểm của  . Do giá trị của  chưa biết nên không thể
$
$
so sánh  với  để đánh giá chất lượng của  , vì vậy người ta đưa ra các tiêu chuẩn

sau: ước lượng không chệch, ước lượng vững, ước lượng hiệu quả.
1.1. Bài toán ước lượng điểm
* Định nghĩa: Ước lượng điểm của tham số  (hoặc hàm số tham số  ( ) ) là đại
lượng ngẫu nhiên Tn   ( x1 , x2 ,..., xn ) chỉ phụ thuộc vào các quan sát x1 , x2 ,..., xn và

không phụ thuộc vào tham số  .
* Ví dụ: Giả sử ( X 1 , X 2 ,..., X n ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn
2
dạng tổng quát N (  ; ) . Khi đó:
X  X 2  ...  X n
X 1
n
+
là ước lượng điểm của kỳ vọng  . Ta thấy trong biểu

thức của X khơng có mặt  mà chỉ chứa các quan sát X 1 ,K , X n .
1 n
S n2 ( X )  �( X i  X ) 2
2
n i 1
+
là ước lượng điểm của phương sai  . Ta thấy trong
*2
2
2
biểu thức của S n ( X ), S n ( X ) khơng có mặt  mà chỉ chứa các quan sát X 1 ,K , X n .
1 n
*2
Sn ( X ) 
( X i  X )2

2
n  1 i 1
+
cũng là ước lượng điểm của  .


1.1.1. Ước lượng không chệch
* Định nghĩa: Ước lượng Tn của tham số  (hoặc hàm số tham số  ( ) ) được gọi
là ước lượng không chệch nếu ETn   ( ETn    .

3


$
* Ý nghĩa: Từ định nghĩa ta có E (   )  0 (trung bình của độ lệch (sai số) giữa
ước lượng với giá trị thực bằng 0). Sai số trung bình bằng 0 được gọi là sai số ngẫu
$
nhiên, ngược lại gọi là sai số hệ thống. Như vậy  là ước lượng không chệch của 

khi sai số ước lượng là sai số ngẫu nhiên.
* Ví dụ: Một số ước lượng không chệch sau:
1 n
X  �X i
n i 1
+
là ước lượng không chệch của  .
n
�1 n
� 1 n
E ( X )  E � �X i � �EX i 

n
n
n
i


1
i

1




1 n
( X i  X )2

2
n  1 i 1
+
là ước lượng không chệch của  .
�1 n

E ( S n*2 ( X ))  E � �( X i  X )2 �
�n  1 i 1


1
�n


E�
( X i  X )2 �

n  1 �i 1


Sn*2 ( X ) 





1 �n

E  X i2   nE  X 2  �


n  1 �i 1


E  X i2    2   2
E X 2 

Nên

n
1 �n
�  2   2 n 1 2
2
E
(
X
)

2

EX
EX



� i �
i
j�
n2 �
n
n
i 1
�i 1


E ( S n*2 ( X )) 

1 � 2
n 2
2
2
2 � n 1 2
n









n

1


 2








n 1 �
n
� n 1

1 n
( X i  X )2

2
n i 1
+
không là ước lượng khơng chệch của  .
Thật vậy, ta có:
n 1 2
�1 n
� n 1

2
E ( Sn ( X ))  E � �( X i  X )2 �
E  Sn*2 ( X )  
 � 2
n
�n i 1
� n
1.1.2. Ước lượng vững
* Định nghĩa: Ước lượng Tn của tham số  được gọi là ước lượng vững nếu với
S n2 ( X ) 

Tn     �

� 1 .
  0 cho trước tùy ý ta có: lim P �
$
* Ý nghĩa: Với n đủ lớn thì xác suất gần 1 ta có  � .

4


* Ví dụ: Giả sử

 X 1 ,K , X n 

là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng

1 n
X  �X i
N (  ,  2 ) . Chứng minh rằng

n i 1
là ước lượng vững của  .
Chứng minh
Vì X 1 ,K , X n là dãy biến ngẫu nhiên độc lập có EX1  EX 2  ...  EX n   và

DX 1  DX 2  ...  DX n   2 .

X 1  X 2  ...  X n P
��
�
n
Theo hệ quả 1 của định lý Tsêbưsép, ta có
khi n � �.

Theo định nghĩa ước lượng vững, X là ước lượng vững của  .
* Ví dụ: Giả sử k là số lần xuất hiện biến cố A trong dãy n phép thử Bernoulli.
P( A) là xác suất xuất hiện biến cố A trong mọi phép thử, không đổi và bằng p .

k
Chứng minh rằng n là ước lượng vững của p .
Chứng minh
Gọi X i là số lần xuất hiện biến cố A trong phép thử thứ i . Vậy
k  X 1  X 2  ...  X n .

Ta biết rằng X 1 ,K , X n là độc lập và X i có phân phối xác suất là
X

0
1 p


1
p
2

1
�n

EX i  �xi pi  p, DX i  �x pi  �
xi pi � p  p 2  p (1  p) �

4
i 1
i 1
�i 1

Ta có
1
1
DX

DX

1
2
X ,K , X n độc lập, EX1  EX 2  ...  EX n  p và
4,
4 ,…,
Vậy dãy 1
n


n

2
i

1
DX n �
4.

X 1  ...  X n P
��
�p
n
Theo hệ quả 1 của định lý Tsêbưsép ta có
khi n � �, nghĩa

k P
k
��
� p khi n � �
là n
. Vậy n là ước lượng vững của p .

5


1.1.3. Ước lượng hiệu quả
* Định nghĩa: Ước lượng Tn được gọi là ước lượng không chệch với phương sai
bé nhất của hàm tham số  ( ) nếu:
E (Tn )     

1)
.
D T �D  Vn 
2)   n 
trong đó Vn là ước lượng khơng chệch bất kì của  ( ) .
D X là kí hiệu phương sai của X khi  đã cho.
$
* Định nghĩa: Thống kê  được gọi là ước lượng hiệu quả của  nếu nó là ước
lượng khơng chệch và có phương sai bé nhất trong các ước lượng không chệch của  .
Nếu hàm mật độ xác suất của X thỏa mãn một số điều kiện nhất định thì ta có bất
đẳng thức Crame – Rao:
V ( * ) �

1

;  * : E *  
��ln f ( X , ) �
nE �


� �

1
V ($) 
2
��ln f ( X , ) �
nE �

$


� �



Và là ước lượng hiệu quả của khi
n
1
X  �X i
2
n i 1
* Ví dụ: Nếu X : N (  ,  ) thì
là ước lượng hiệu quả của  .
Giải
2
Với X : N (  ,  ) ta có

2

E  X   , V  X  

2
n .

 X   2


1
2
  ( , ), f ( X , ) 
e 2

 2
Ta lại có
.
2
�ln f ( X , ) �� ( X   )
1 � X 


 ln

�
2
2



 � 2
 2 � 
2

2

2


�ln f ( X , ) �
nV ( X ) n
�X   � n
nE �
 nE � 2 � 4 E ( X   )2 

 2

4





 .




Vậy
2
1
V X 

2
n
��ln f ( X , ) �
nE �


� �
�.
Từ đó
Vậy X là ước lượng hiệu quả của  .

6



1.1.4. Ước lượng hợp lý cực đại
* Định nghĩa hàm hợp lý: Giả sử

 X 1 ,K , X n 

là mẫu ngẫu nhiên độc lập từ phân

phối f ( x, ),  �U . Gọi tích L( X /  )  f ( X 1 , ) f ( X 2 , )... f ( X n ,  ) là hàm hợp lý.
$ X ,K , X n 
* Định nghĩa ước lượng hợp lý cực đại: Uớc lượng  1
được gọi là ước
$
lượng hợp lý cực đại của tham số  nếu L( X /  ( X )) �L( X /  ) với mọi  �U .
Từ định nghĩa ước lượng hợp lý cực đại ta rút ra phương pháp tìm ước lượng như

$
$
sau: Tìm giá trị  ( X ) của  sao cho L( X /  ) đạt cực đại tại  ( X ) .
- Trường hợp  là một số:

L( X /  )
0


+ Tìm
(*)
'
''

$
$
+ Giải phương trình (*) tìm được  . Sau đó xét dấu của L hoặc L xem  có
$
phải là điểm để L( X /  ) đạt cực đại hay không. Nếu tại  mà L( X /  ) đạt cực đại
$
thì  là ước lượng phải tìm. Nếu f ( x, )  0 thì L( X /  )  0 . Ta có thể viết:
n
�ln f  X i , 
1�
L
�ln L
0�
0��
0
L�





i 1
(**)
$
+ Giải phương trình (**) ta được  ( X ) . Cũng lý luận như trên ta nhận được ước

lượng phải tìm.
* Ví dụ: Giả sử

 X 1 ,K , X n 


là mẫu ngẫu nhiên độc lập từ phân phối Poisson với

tham số   0 . Tìm ước lượng hợp lý cực đại của  .
Giải
Xi 
 e
f  Xi, 
, i  0,1, 2,...
X
!
i
Tính
ln f  X i ,    X i ln     ln X i !
�ln f  X i ,   X i

1




n

Thay vào phương trình (*), (**), ta được
n

�X i  n  0
Suy ra i 1
1 n
$  �X i  X

n i 1
Vậy
7

�X i

��
�
i 1


 1� 0



n

Xi

n
Xi
�2 L
i 1
 � 2   2  0
2

i 1 
Xét cực đại của L: Ta có �
với mọi  (vì các X i �0
n


nên

�X

i

�0

).
Vì vậy   X là ước lượng cần tìm.
- Trường hợp   (1 , 2 ,..., r ) :
i 0

Làm tương tự như trường hợp tham số là một số. Ở đây có r ẩn, do đó ta phải lập

được hệ r phương trình:

Giải hệ này ta tìm được

L
��
0
��
1


...

��

L
� 0
r
��
$  ($1 ,$2 ,...,$r )

thường hay gặp hàm mật độ có dạng

hàm mũ. Do đó đạo hàm của hàm mũ lũy thừa vẫn cịn dạng hàm số mũ. Việc giải
phương trình có chứa hàm số mũ thường phức tạp. Vì vậy, giống như trường hợp tham
số là một số, ta cũng nhận được hệ r phương trình:
�n �ln f  X i ,1 ,..., r 
0




i

1
1


...

�n �ln f X , ,...,
 i 1 r 0





r
�i 1
(***)
$
$
$
Giải hệ (***) ta tìm được  ( X )  ( 1 ( X ),..., r ( X ))
X ,K , X n 
* Ví dụ: Giả sử  1
là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng

N (  , 2 ) . Tìm ước lượng hợp lý cực đại của (  ,  2 ) .
Giải
2
 X  
� 1
 i 2 �
Xi   

1
1
2
2

� 
ln f ( X i ;  , )  ln �
e
 ln(2 )  ln  2
2

� 2 2

2
2
2


Ta có
2
X i   �ln f  X i   
�ln f
1

,


2


2

( 2 )
2 2
2  2 
2

Thay vào hệ phương trình (***), ta có:

8



�n X i  
0
�� 1 n

2


i 1
�  �X i  X


� n i 1
2
�n �
� ��
n
X


2


1
�2  1
i
� �





0

Xi  X 



2
2
�i 1 � 2  2

2 �
n i 1

� �  

1.2. Bài toán ước lượng khoảng
X ,K , X n 
* Định nghĩa khoảng ước lượng: Giả sử  1
là mẫu ngẫu nhiên độc lập từ





�1  X 1 ,K , X n  ; �2  X 1,K , X n  , �1  �2
phân phối f ( x, ),  �U . Khoảng
được gọi
là khoảng ước lượng của tham số  với độ tin cậy 1   nếu:
P�

� X    �2  X  � 1  
�1  

1.2.1. Bài tốn ước lượng hiệu hai giá trị trung bình
X ,K , X n 
* Bài toán: Giả sử  1
là mẫu ngẫu nhiên độc lập từ phân phối chuẩn

N ( 1 ,  12 ) và  Y1 , Y2 ,..., Ym  là mẫu ngẫu nhiên độc lập từ phân phối chuẩn N ( 2 ,  2 2 )
X, Y là độc lập.
2
2
- Trường hợp  1 ,  2 đã biết

Khoảng ước lượng của hiệu hai trung bình 1  2 với độ tin cậy 1   là:

 12  22

n
m
Trong đó, X , Y lần lượt là trung bình mẫu của X, Y và x tra ở bảng phân phối chuẩn
1  2  X  Y �x

Φ  x  = 1–


2

N (0;1) sao cho
2

2
2
2
- Trường hợp  1 ,  2 chưa biết, ta giả thiết  1   2 .

Khi đó khoảng ước lượng của hiệu hai trung bình 1  2 với độ tin cậy 1   là:
1 1
1   2  X  Y �t S

n m
2
2

�n

�m ��
Xi � m
Yi ��
�n




1
2
2
2




��
i 1
i 1

S 
Xi 
 �Yi 

n  m  2 �i 1
n
m �
i 1




Trong đó
+ Nếu n  m �60 thì t tra ở bảng phân phối Student với n  m  2 bậc tự do và
mức  (Bảng tiêu chuẩn hai phía).
+ Nếu n  m  60 thì t tra ở bảng phân phối chuẩn sao cho

9

Φ  t  = 1–


2


* Ví dụ: Cho hai mẫu ngẫu nhiên độc lập từ phân phối chuẩn

X:
Y:

15,7
10,3
12,6
12,3
13,7
10,4


Giả sử EX = 1 , EY = 2 , DX=DY.

14,5
11,4

12,6
14,9

13,8
12,6

11,9

Tìm khoảng ước lượng của hiệu hai trung bình 1   2 với độ tin cậy 90%.
Giải
n

7,
m  6,   0,1 .

Theo giả thiết của bài tốn ta có
t  t (11; 0,1)  1,8
Tra bảng phân phối Student ta tìm được 0,1
. Ta tính được
X  13,06, Y  12,55, S2  2,89 .

Suy ra S  2,89  1,7

Vậy khoảng ước lượng của hiệu hai trung bình 1   2 là:
1 1
1 1
1   2  X  Y �t S
  13,06  12,55 �1,8.1,7
  0,51 �1,7
n m
7 6
1.2.2. Bài toán ước lượng hiệu hai giá trị xác suất
* Bài toán: Xét hai dãy phép thử Bernoulli. Dãy thứ nhất có n phép thử, X là số
lần xuất hiện biến cố A trong dãy I, xác suất để biến cố A xuất hiện trong mỗi phép thử
của dãy I là P( A)  p1 . Dãy thứ hai có m phép thử, Y là số lần xuất hiện biến cố A
trong dãy II, xác suất để biến cố A xuất hiện trong mỗi phép thử của dãy II là

P( A)  p2 .

Người ta tìm được khoảng ước lượng của hiệu hai xác suất p1  p2 với độ tin cậy

1   là:




p1 (1  �
p1 ) �p2 (1  �p2 )
p1 (1  �
p1 ) �p2 (1  �p2 )

 p1  p2  �
p1  �p2  x

n
m
n
m
X
Y


p1  , �p2 
Φ  x  = 1–
x
n
n và  tra ở bảng phân phối chuẩn sao cho
2
Trong đó

p1  �p2  x

10


* Ví dụ: Để đánh giá chất lượng sản phẩm do hai nhà máy sản xuất ra, người ta

kiểm tra ngẫu nhiên 200 sản phẩm ở nhà máy I thấy có 20 phế phẩm và 300 sản phẩm
ở nhà máy II thấy có 15 phế phẩm. Tìm khoảng ước lượng của hiệu hai xác suất để tìm
sản phẩm là phế phẩm của hai nhà máy với độ tin cậy 95%.
Giải
Ta có n  200, m  300 và   0,05 , tra bảng phân phối chuẩn ta tìm được

x  1,96

�p  X  20  0,1, �p  Y  15  0,05
1
2
n 200
m 300
Thay vào công thức ta được:
0,1  0,05  0,0483  p1  p2  0,1  0,05  0,0483 � 0,0017  p1  p2  0,0983
Vậy 0,0017  p1  p2  0,0983 .

11


CHƯƠNG 2: BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT
2.1. Khái niệm bài toán kiểm định giả thiết
* Định nghĩa giả thiết thống kê
Giả sử đại lượng ngẫu nhiên X có phân phối F ( x) (hoặc F ( x, ),  �U ). Giả
thiết thống kê là mệnh đề có liên quan đến quy luật phân phối xác suất của đại lượng
ngẫu nhiên X đó.
Giả thiết thống kê được kiểm định gọi là giả thiết khơng, kí hiệu H o . Đó là một
giả thiết mà ta nghi ngờ và muốn bác bỏ. Để kiểm định H o , ta đưa ra giả thiết H1 gọi
là đối thiết. H1 sẽ được chấp nhận khi H o bị bác bỏ.
* Ví dụ: Một số kiểm định giả thiết:

a) H o : a  5, H1 : a �5
b) H o : a  5 hoặc a  7 , H1 : 5  a  7
c) H o : a �5, H1 : a  5

Nếu tập giả thiết H o có một phần tử (H: tập hợp các mệnh đề) thì H o được gọi là
giả thiết đơn (bài toán a và c). Nếu tập H o có từ 2 phần tử trở lên thì H o được gọi là
giả thiết hợp (bài toán b).
Tương tự, nếu tập giả thiết H1 có một phần tử thì H1 được gọi là đối thiết đơn
(bài tốn b và c). Nếu tập H1 có từ 2 phần tử trở lên thì H1 được gọi là đối thiết hợp
(bài toán a).
* Kiểm định giả thiết thống kê: là việc chọn một trong hai quyết định là bác bỏ giả
thiết H o hoặc chấp nhận giả thiết H o .
Chúng ta sẽ quyết định bác bỏ giả thiết H o nếu xác suất xuất hiện của một sự kiện
quan sát được (tính trong điều kiện giả thiết H o đúng) là “nhỏ”.
Trong khi đưa ra quyết định phải lựa chọn giữa hai giả thiết H o và H1 , ta có thể
phạm hai loại sai lầm:
+ Sai lầm loại 1: H o đúng mà bác bỏ.
+ Sai lầm loại 2: H o sai mà chấp nhận.
* Tiêu chuẩn kiểm định giả thiết: Để có được quyết định chấp nhận hoặc bác bỏ
giả thiết H o ta phải dựa trên một tiêu chuẩn nào đó. Vậy tiêu chuẩn kiểm định giả thiết
được hiểu như sau: Tiêu chuẩn kiểm định giả thiết là một đại lượng ngẫu nhiên phụ
thuộc vào các quan sát X 1 ,K , X n và không phụ thuộc tham số  .
* Các bước cần thiết trong việc tiến hành một kiểm định giả thiết thống kê gồm:

12


1. Phát biểu giả thiết H o và đối thiết H1 .
2. Định rõ mức ý nghĩa  (xác suất mắc sai lầm loại 1).
3. Chọn kiểm định (test) thống kê.

4. Chọn miền bác bỏ giả thiết H o .
5. Tính giá trị của test thống kê từ mẫu quan sát được.
6. Kết luận bác bỏ H o hay chấp nhận H o tùy theo giá trị của test thống kê có rơi vào
miền bác bỏ hay giả thiết hay khơng.
Ta có các bài tốn kiểm định giả thiết cơ bản đã biết như: kiểm định giá trị trung
bình, kiểm định tỉ lệ, kiểm định phương sai, kiểm định tỉ lệ tổng thể p, bài toán so sánh
hai giá trị trung bình, so sánh hai giá trị tỉ lệ tổng thể, so sánh hai giá trị phương sai.
Trong khóa luận này, tơi nêu lên các bài tốn kiểm định nâng cao.
2.2. Bài toán kiểm định giả thiết bằng phương pháp P – giá trị
Phương pháp P – giá trị là phương pháp được sử dụng khá rộng rãi.
* Định nghĩa
t H o :    o , H1 :    o
Xét bài toán kiểm định giả thiế
Các số liệu mẫu cho ta giá trị của n, X  xo . Ta muốn kiểm định xem số liệu đã cho có
thể bác bỏ H o hay khơng? Giả sử H o là đúng, hãy tính xem xác suất để trung bình
mẫu bé hơn hay bằng giá trị quan sát được xo là bao nhiêu. Giá trị của xác suất này
P  P{X �xo } (tính trong điều kiện H o đúng) được gọi là P – giá trị kết hợp với số
liệu mẫu quan sát được.

Tương tự đối với bài toán H o :   o , H1 :   o thì P – giá trị là xác suất

P  P{X �xo } (tính dưới giả thiết H o đúng).

Cịn đối với bài tốn kiểm định hai phía H o :   o , H1 :  � o thì P – giá trị

trong trường hợp kiểm định hai phía này gấp đơi P – giá trị trong trường hợp kiểm
định một phía, tức là P  2 P{X �xo } .

13



* Cách tính: P – giá trị được sử dụng theo hai cách
- Cách 1: Tính P – giá trị và dựa vào một số hướng dẫn để đưa ra quyết định liệu có
bác bỏ H o hay khơng.
+ Nếu P  0,05 ta khơng có đủ cơ sở để bác bỏ H o .
+ Nếu 0,01  P  0,05 ta có đủ cơ sở để bác bỏ H o .

+ Nếu P  0,01 ta có một cơ sở rất mạnh để bác bỏ H o .
- Cách 2: Sử dụng P – giá trị kết hợp với mức ý nghĩa  đã cho. Ta tính P – giá trị và
so sánh với  .
+ Nếu P � thì ta bác bỏ H o .
+ Nếu P   thì ta chưa có cơ sở bác bỏ H o .
* Ví dụ 1: Một loại cây trong điều kiện bình thường có chiều cao trung bình là 12
cm. Người ta muốn kiểm tra sự ảnh hưởng của nguyên tố vi lượng A tới chiều cao của
cây. Trong một vườn thí nghiệm trồng 50 cây có bón thêm ngun tố vi lượng A,
người ta tính được chiều cao trung bình là 11,3 cm với độ lệch tiêu chuẩn là s  2,5 .
Sử dụng phương pháp P – giá trị, với mức ý nghĩa 5% hãy kết luận xem nguyên tố vi
lượng A có ảnh hưởng đến chiều cao của cây hay khơng?
Giải
Vì ta khơng biết được ngun tố A có ảnh hưởng tốt (tăng chiều cao) hay xấu
(giảm chiều cao) đến loại cây này nên ta có kiểm định giả thiết H o :   12, H1 :  �12
Khi đó X có phân phối xấp xỉ chuẩn với kì vọng 12 và độ lệch tiêu chuẩn là:
s
2,5
X  D X 

 0,354
n
50
11,3  12 �


P  X �11,3   �
�   1,98   1    1,98   1  0,9762  0,0238
� 0,354 �
Hay P – giá trị là p  2. 0,0238  0,0476
Ta có   0,05

 

Do P < nên bác bỏ H o , chấp nhận H1 .
Vậy nguyên tố vi lượng A có ảnh hưởng đến chiều cao của cây.
* Ví dụ 2: Một cơ quan báo cáo rằng số nhân viên của họ có ít nhất 35% là nữ.
Kiểm tra ngẫu nhiên danh sách 92 nhân viên thấy có 22 nữ. Sử dụng phương pháp P –
giá trị, với mức ý nghĩa 2,5% hãy nhận xét về báo cáo của cơ quan này?
Giải
k 22
n  92, k  22, f  
 0, 239
n 92
Ta có
Bài tốn kiểm định giả thiết H o : p  0,35; H1 : p  0,35

14


Khi đó f có phân phối xấp xỉ chuẩn với kì vọng là 0,35 và độ lệch tiêu chuẩn là:
po (1  po )
0,35.0,65



 0,05
n
92
�0, 239  0,35 �
P  p �0, 239   �
� ( 2, 22)  1   (2, 22)  1  0,9868  0,0132
� 0,05

Hay P – giá trị là 0,0132
Ta có   0,025
Do P   nên bác bỏ H o , chấp nhận H1 .
Vậy báo cáo của cơ quan này là không đúng.
2.3. Kiểm định giả thiết về giá trị của nhiều xác suất
* Bài toán: Xét một phép thử ngẫu nhiên G và một hệ đầy đủ các biến cố

B1 , B2 ,..., Bk liên kết với G. Nghĩa là với mỗi kết quả của G, luôn luôn có một và chỉ
một biến cố trong các biến cố B1 , B2 ,..., Bk xảy ra. Giả sử ta quan tâm tới các xác suất
(chưa biết) của các biến cố Bi này.
Khi đó ta có bài tốn kiểm định giả thiết về giá trị của nhiều xác suất
H o : P( B1 )  p1
P ( B2 )  p2
...
P ( Bk )  pk
k

Trong đó p1 , p2 ,..., pk là các số dương đã cho, 0  pi  1 . Chú ý rằng

�p
i 1


i

1



 Bi  i 1 là một hệ đầy đủ các biến cố.
k

Tiến hành phép thử G n lần một cách độc lập. Giả sử rằng có ni lần xảy ra biến cố

Bi  i  1, 2,..., k  ,

k

�n

i

n

. Các số ni này được gọi là tần số quan sát.
Ta trình bày các tần số quan sát ni thành bảng sau:
i 1

B1
B2
Biến cố

n1

n2
Tần số quan sát


Các số ni  npi (i  1, 2,...,k ) được gọi là các tần số lí thuyết.
k

Bk
nk

 n  n� 

T �

i

2

i

n�i
i 1
Chọn tiêu chuẩn kiểm định (test thống kê) là
Với mức ý nghĩa  cho trước, ta có miền bác bỏ H o như sau:
+ T  c thì bác bỏ H o .
+ T �c thì chấp nhận H o .

15

Tổng

n


2
2
Trong đó c   (k  1,  ) là phân vị mức  của phân phối  với k  1 bậc tự do và


các tần số lý thuyết ni �5 .
* Ví dụ: Chi nhánh điện lực huyện A ghi lại các vụ báo xin chữa điện trong tuần như sau:

Thứ hai
Thứ ba
Thứ tư
Thứ năm
Thứ sáu
Thứ bảy
Chủ nhật
12
15
8
14
27
35
22
Căn cứ trên số liệu này, với mức ý nghĩa 1%, hãy nhận xét xem các sự cố về điện có
xảy ra với xác suất như nhau trong các ngày trong tuần hay khơng?
Giải
Bài tốn kiểm định giả thiết H o : Các sự cố về điện xảy ra với xác suất như nhau.
Dưới giả thiết H o , các tần số lí thuyết sẽ là

Ngày

Thứ

Thứ

Thứ

Thứ

Thứ

Thứ

Chủ

Tổn

hai
12
19

ba
15
19


8
19


năm
14
19

sáu
27
19

bảy
35
19

nhật
22
19

g

Tần số quan sát
Tần số lí thuyết
Khi đó test thống kê là

 12  19 
T
19
 28, 421

2

 15  19 



2

19

 8  19 

19

2

 14  19 

19

2

 27  19 

19

2

 35  19 

19

2


133

 22  19 


2

19

  0,01 � c   2  6; 0,01  16,8
Vì T  c nên bác bỏ H o .
Vậy ý kiến cho rằng các sự cố về điện xảy ra với xác suất như nhau trong các ngày
trong tuần là không đúng.

16


2.4. Tiêu chuẩn kiểm định phi tham số
Các tiêu chuẩn thống kê dùng để kiểm định sự khác nhau giữa giá trị trung bình
của hai tập hợp chính mà ta trình bày ở trên gọi là các kiểm định có tham số. Chúng
phải dựa trên giả thiết quan trọng là tập hợp chính đang xét có phân phối chuẩn hoặc
kích thước mẫu khá lớn. Nếu một trong các điều kiện trên vi phạm thì các tiêu chuẩn
đó khơng thể sử dụng được. Khi đó, ta phải sử dụng các tiêu chuẩn phi tham số. Lưu ý
rằng, các kiểm định phi tham số khơng mạnh bằng các kiểm định có tham số. Vì vậy,
nếu điều kiện cho phép dùng kiểm định có tham số được thỏa mãn thì ta nên dùng
kiểm định có tham số.
2.4.1. Kiểm định giả thiết về luật phân phối
* Bài toán: Giả sử đại lượng ngẫu nhiên X có luật phân phối xác suất FX ( x) chưa
biết. Với mức ý nghĩa  cho trước, từ mẫu quan sát ( x1 , x2 ,...xn ) , ta có kiểm định giả
*

*
*
thiết sau H o : FX ( x)  F ( x), H1 : FX ( x) �F ( x) với F ( x) là luật phân phối xác suất

đã biết.
Tương tự như kiểm định tham số, ta dựa vào một tiêu chuẩn kiểm định xây dựng
từ mẫu ngẫu nhiên được rút ra từ X. Loại tiêu chuẩn kiểm định này được gọi là tiêu
chuẩn phù hợp. Có nhiều tiêu chuẩn phù hợp khác nhau. Ở đây ta xét tiêu chuẩn thông
dụng của Pearson. Tiêu chuẩn này được xây dựng dựa trên cơ sở so sánh tần số quan
sát và tần số lí thuyết của phân phối xác suất cần kiểm định.
2
k
ni  npi 

G�
npi
i 1
Chọn tiêu chuẩn kiểm định
Với mức ý nghĩa  cho trước, ta có miền bác bỏ H o như sau:
+ G  c thì bác bỏ H o .
+ G �c thì chấp nhận H o .
2
2
Trong đó c   (k  r  1,  ) là phân vị mức  của phân phối  với k  r  1 bậc tự
do.
* Quy tắc thực hành
+ Từ mẫu cụ thể ( x1 , x2 ,..., xn ) ( n �50) lập bảng phân phối thực nghiệm sau:

xi
x1

ni
n1
Với n1  n2  ...  nk  n thỏa ni �5
+ Tính pi

x2
n2

17




xk
nk


pi  P  X  xi 

nếu X là rời rạc.
pi  P  xi  X  xi 1
nếu X là liên tục.
Trường hợp liên tục chọn xo  �, xk  �
k

+ Tính

 ni  npi 

G�


2

npi

i 1

2
+ Tra bảng khi bình phương c   (k  r  1,  ) .
2
Ở đây r là số tham số của luật phân phối cần kiểm định. Ví dụ: N (  ,  ) thì r  2 ,

P( ) thì r  1 .
+ So sánh hai giá trị G , c rồi kết luận.
* Ví dụ: Để tìm hiểu số thiết bị bị hỏng trong một tháng của một hệ thống máy,
người ta theo dõi 50 tháng liền và được số thiết bị bị hỏng cho trong bảng sau:

xi
0
1
2
3
4
6
8
ni
10
4
12
8

7
6
3
Với mức ý nghĩa 5%, có thể cho rằng số thiết bị bị hỏng X tuân theo quy luật Poisson
P( ) không?
Giải
0.10  1.4  2.12  3.8  4.7  6.6  8.3
x
 2,8
50
Do  chưa biết nên ước lượng
Bài toán kiểm định giả thiết H o : FX ( x)  P(2,8)
Do có ni  5 nên ta sắp xếp lại số liệu sau:

�1

xi
ni

2
12

14

3
8

�6
9


4–5
7

2,8k
P( X  k )  e
k!
Ta có
p1  P ( X �1)  P( X  0)  P ( X  1)  0, 231 � np1  50.0, 231  11,55
p2  P ( X  2)  0, 238 � np2  50.0, 238  11,9
p3  P ( X  3)  0, 222 � np3  50.0, 222  11,1
p4  P(4 �X �5)  P( X  4)  P ( X  5)  0, 243 � np4  50.0, 243  12,15
p5  P ( X �6)  1  P( X �5)  0,066 � np5  50.0,066  3,3
2,8

5

 ni  npi 

G�
i 1

npi

2

 14  11,55 

11,55

2


 12  11,9 

11,9

2

 8  11,1


 13, 415

  0, 05 � c   2 (k  r  1, )   2 (5  1  1; 0,05)  7,8
Do G  c nên bác bỏ H o .

18

11,1

2

 7  12,15 

12,15

2

 9  3,3

3,3


2


Vậy không thể cho rằng số thiết bị bị hỏng X tuân theo quy luật Poisson P( ) .
2.4.2. Kiểm định giả thiết về tính độc lập
* Bài tốn: Giả sử cần nghiên cứu đồng thời hai dấu hiệu X và Y, với X có k dấu
hiệu thành phần x1 ,..., xk và Y có m dấu hiệu thành phần y1 ,..., ym . Ta có kiểm định giả
thiết H o : X và Y độc lập, H1 : X và Y phụ thuộc, với mức ý nghĩa  cho trước.
Từ mẫu kích thước n , quan sát đồng thời hai dấu hiệu (X, Y), ta có
Yj

y1

y2



yj



ym

Tổng

x1
x2

xi


xk

n11
n21

ni1

nk1

n12
n22

ni 2

nk 2








n1 j
n2 j


nij


nkj








n1m
n2m

nim

nkm

Tổng

r1

r2



rj



rm


n1
n2

ni

nk
n

Xi

m

ni  �nij
j 1

: Tổng các tần số ứng với dấu hiệu thành phần xi

k

rj  �nij
i 1

: Tổng các tần số ứng với dấu hiệu thành phần

nij

yj

x,y 


: tần số ứng với các phần tử đồng thời mang dấu hiệu
�k m nij2

G  n�
 1�


�i 1 j 1 n r

i j


Chọn tiêu chuẩn kiểm định:
Với mức ý nghĩa  cho trước, ta có miền bác bỏ như sau:
+ G  c thì bác bỏ H o .

i

j

+ G �c thì chấp nhận H o .
2
c   2  (k  1)(m  1),  
Trong đó
là phân vị mức  của phân phối  với
( k  1)( m  1) bậc tự do.
* Quy tắc thực hành:
�k m nij2

G  n�

 1�


�i 1 j 1 ni rj



+ Tính
c   2  ( k  1)(m  1),  
+ Tra bảng Khi bình phương
+ So sánh hai giá trị G , c rồi kết luận.

19


* Ví dụ: Điều tra ngẫu nhiên thu nhập của 400 công nhân ở hai thành phố A và B
kết quả như sau (đơn vị triệu đồng/1 năm):
Thu nhập
Thành phố A
Thành phố B
Với mức ý nghĩa 5%,

0–5
5 – 10
10 – 15
Trên 15
28
42
30
24

44
78
78
76
hãy kiểm định xem thu nhập của công nhân có phụ thuộc vào

thành phố mà họ làm việc hay khơng?
Giải
Ta có bảng số liệu sau:
Thành phố A
Thành phố B
0–5
28
44
5 – 10
42
78
10 – 15
30
78
Trên 15
24
76
Tổng
124
276
Bài toán kiểm định giả thiết H o : Thu nhập của công nhân

Tổng
72

120
108
100
400
không phụ thuộc vào

thành phố mà họ làm việc.
Ta có n  400, k  4, m  2
�4 2 nij2

G  n�
 1�


�i 1 j 1 n r

i j


Test thống kê là
� 282

442
422
782
302
782
242
762
 400 �








 1�
�72.124 72.276 120.124 120.276 108.124 108.276 100.124 100.276 �
 5,807

  0,05 � c   2  (k  1)(m  1),     2 (3; 0,05)  7,8
Do G  c nên chấp nhận H o .
Vậy thu nhập của công nhân không phụ thuộc vào thành phố mà họ làm việc.
2.4.3. Tiêu chuẩn Mann – Whitney
* Bài tốn: Giả sử ta có hai mẫu ngẫu nhiên độc lập với nhau. Mẫu thứ nhất

 x1 , x2 ,..., xn 

là n quan sát độc lập về đại lượng ngẫu nhiên X, mẫu thứ hai

 y1 , y2 ,..., ym 

là m quan sát độc lập về đại lượng ngẫu nhiên Y. Phân phối của X và Y

chưa biết và không nhất thiết là phân phối chuẩn. Ta muốn kiểm định giả thiết H o : X
và Y có cùng phân phối, H1 : X và Y khác phân phối.
* Tiêu chuẩn Mann – Whitney được xây dựng như sau:
i) Gộp hai mẫu trên thành một mẫu có cỡ mẫu là n  m .


20


×