Tải bản đầy đủ (.pdf) (66 trang)

Xử lý số liệu thống kê và một số ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 66 trang )

TRƢỜNG ĐẠI HỌC SƢ PHẠM
ĐẠI HỌC ĐÀ NẴNG
---------***--------

KHÓA LUẬN TỐT NGHIỆP
Ngành đào tạo: Toán Ứng Dụng
ĐỀ TÀI: XỬ LÝ SỐ LIỆU THỐNG KÊ
VÀ MỘT SỐ ỨNG DỤNG
HỌ VÀ TÊN SINH VIÊN

: BÙI THỊ BÍCH HẬU

MÃ SINH VIÊN

: 311044151114

LỚP

: 15CTUDE

KHĨA

: 2015 - 2019

NGƢỜI HƢỚNG DẪN

: TS. LÊ VĂN DŨNG

Đà Nẵng, tháng 4 năm 2019



2

MỤC LỤC
LỜI CẢM ƠN ..............................................................................................................
LỜI CAM ĐOAN ........................................................................................................
MỞ ĐẦU ....................................................................................................................1
1. Tính cấp thiết của đề tài .................................................................................1
2. Mục tiêu nghiên cứu .......................................................................................1
3. Đối tƣợng và phạm vi nghiên cứu .................................................................1
4. Phƣơng pháp nghiên cứu. ..............................................................................1
5. Bố cục đề tài .....................................................................................................1
CHƢƠNG 1. ƢỚC LƢỢNG VÀ KIỂM ĐỊNH THAM SỐ ..................................3
1.1.

Khoảng tin cậy và kiểm định kì vọng ........................................................3

1.1.1.

X ~ N (; 2 ) với  2 đã biết ..................................................................3

1.1.2.

X ~ N (; 2 ) với  2 chƣa biết ..............................................................6

1.2.

Khoảng tin cậy và kiểm định tỷ lệ ............................................................11

1.3.


So sánh 2 kì vọng của 2 phân phối chuẩn................................................14

1.3.1.

Cỡ mẫu lớn ..........................................................................................14

1.3.2.

Cỡ mẫu nhỏ và hai phƣơng sai bằng nhau .......................................16

1.3.3.

Cỡ mẫu nhỏ và hai phƣơng sai không bằng nhau ...........................18

1.4.

So sánh hai tỷ lệ .........................................................................................20

CHƢƠNG 2. KIỂM ĐỊNH KHI BÌNH PHƢƠNG ..............................................23
2.1.

Kiểm định tính độc lập ..............................................................................23

2.2.

Kiểm định phù hợp ....................................................................................26

CHƢƠNG 3. PHÂN TÍCH PHƢƠNG SAI ..........................................................30
3.1.


Phân tích phƣơng sai một nhân tố ...........................................................30

3.2.

Phân tích phƣơng sai hai nhân tố ............................................................34

3.2.1.

Phân tích phƣơng sai hai nhân tố khơng lặp lại ..............................34

3.2.2.

Phân tích phƣơng sai hai nhân tố có lặp...........................................40

CHƢƠNG 4. KIỂM ĐỊNH PHI THAM SỐ .........................................................47


3

4.1.

Kiểm định dấu ............................................................................................47

4.2.

Kiểm định hạng có dấu Wilcoxon ............................................................51

4.2.1.

Kiểm định trung vị ..............................................................................51


4.2.2.

So sánh 2 kì vọng .................................................................................54

KẾT LUẬN ..............................................................................................................57
TÀI LIỆU THAM KHẢO ......................................................................................58
PHỤ LỤC .................................................................................................................59


4

LỜI CẢM ƠN
Trên thực tế khơng có thành cơng nào là khơng có sự giúp đỡ của người
khác, dù là trực tiếp hay gián tiếp. Bản thân em từ khi bắt đầu làm khóa luận
đến nay đã nhận được sự nhiệt tình giúp đỡ của thầy cơ, gia đình, bạn bè và
các cơ quan nhà trường. Với lòng biết ơn chân thành nhất, cho phép em gởi
lời cảm ơn đến tất cả thầy cơ, các cơ quan, gia đình và bạn bè.
Trước hết, em xin chân thành gởi lời cảm ơn đến q thầy cơ Khoa
Tốn,Trường Đại Học Sư Phạm – Đại Học Đà Nẵng đã dùng những tri thức
và tâm huyết của mình có để truyền đạt cho chúng em vô vàng kiến thức quý
báu, đồng thời luôn tạo mọi điều kiện để em hồn thành khóa luận một cách
tốt đẹp. Em chúc quý thầy cô của Khoa luôn dồi dào sức khỏe.
Đặc biệt, em xin chân thành gởi lời cảm ơn sâu sắc đến thầy Lê Văn Dũng,
thầy đã tận tình chỉ bảo, hướng dẫn và ln giúp đỡ em mỗi khi gặp vấn đề
khó khăn trong suốt q trình làm khóa luận vừa qua.
Và cuối cùng, em xin được bày tỏ lòng biết ơn đến lãnh đạo Trường Đại
Học Sư Phạm Đà Nẵng đã tạo điều kiện cho em trong q trình học tập và
làm khóa luận.
Với điều kiện và kiến thức cịn hạn chế, khóa luận này khơng thể khơng

tránh khỏi thiếu sót. Vì vậy em rất mong nhận được sự đóng góp của các thầy
cơ để em học thêm được nhiều kinh nghiệm hơn và sẽ hoàn thành tốt hơn.
Em xin chân thành cảm ơn!

Sinh viên ký tên

Bùi Thị Bích Hậu


5

LỜI CAM ĐOAN
Bài khóa luận được thực hiện bởi chính bản thân em, trong khóa luận có
tham khảo một số nguồn thông tin dưới sự hướng dẫn của thầy Lê Văn Dũng.
Em xin cam đoan bài khóa luận này là của riêng em, khơng sao chép từ bất
kỳ bài khóa luận nào khác.

Sinh viên ký tên

Bùi Thị Bích Hậu


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Xử lý số liệu thống kê là một môn học quan trọng của lĩnh vực thống kê, từ
mẫu ngẫu nhiên khảo sát được, ta có thể đưa ra những nhận định sát với tổng
thể để có được những dự đốn tương đối chính xác về một hiện tượng xã hội
hay các biến động trong tương lai…Ở nước ta hiện nay, xử lý số liệu thống kê

chưa được quan tâm đáng kể trong các trường đại học và cao đẳng. Nếu phát
triển môn học này hơn nữa thì lợi ích của nó mang đến cho lĩnh vực khoa học,
các lĩnh vực nghiên cứu khác và thực tiễn là không hề nhỏ. Bắt nguồn từ điều
này, với sự hướng dẫn của thầy và nghiên cứu của bản thân, em đã thực hiện
bài khóa luận với đề tài : “Xử lý số liệu thống kê và một số ứng dụng”.
2. Mục tiêu nghiên cứu
Từ một mẫu số liệu cho trước, sử dụng phương pháp xử lý số liệu thống kê,
đưa ra được những nhận định về khỏang tin cậy, tính độc lập cũng như phân
bố chuẩn của các mẫu số liệu.
3. Đối tượng và phạm vi nghiên cứu
Nội dung chính là tập trung nghiên cứu về các mẫu số liệu cần được kiểm
định nên giữ lại hay loại bỏ (bác bỏ).
4. Phương pháp nghiên cứu.
Bài khóa luận chủ yếu tập trung hai phương pháp chính là : ước lượng và
kiểm định thông qua việc sử dụng phần mềm Minitab.
5. Bố cục đề tài
Chương 1. Ước lượng và kiểm định: Chương này sẽ đề cập đến các đặc
trưng của tổng thể dựa trên các đặc trưng của mẫu. Các đặc trưng tổng thể là
giá trị trung bình, phương sai hoặc tỷ lệ các đơn vị tổng thể có một tính chất
nào đó.
Chương 2. Kiểm định phù hợp phân bố xác suất: Nội dung chủ yếu của
chương này là kiểm định giả thuyết thống kê có phù hợp với thực nghiệm hay
khơng và kiểm định tính độc lập thống kê của dữ liệu.


2

Chương 3. Phân tích phương sai : Nội dung của chương này là phân tích sự
ảnh hưởng của 1 hay nhiều yếu tố nguyên nhân tác động đến một yếu tố kết
quả.

Chương 4. Kiểm định phi tham số : Chương này gồm kiểm định dấu và hạng
Wilcoxon, nội dung chủ yếu là kiểm định phân phối của hai mẫu tổng thể.


3

CHƢƠNG 1

ƢỚC LƢỢNG VÀ KIỂM ĐỊNH THAM SỐ
1.1.

Khoảng tin cậy và kiểm định kì vọng

1.1.1. X ~ N (; 2 ) với  2 đã biết
Cho biến ngẫu nhiên X có phân bố chuẩn N (; 2 ) với  chưa biết và  2
đã biết. Nếu ( x1 , x2 ,..., xn ) là mẫu số liệu của X thì với độ tin cậy 1   , khoảng
tin cậy cho  là:


x  z /2

n

   x  z /2


n

.


Khoảng tin cậy trong trường hợp này l   hoặc u   , thay z /2 bởi z ta thu
được khoảng tin cậy một phía như sau.
Với độ tin cậy 1   , khoảng tin cậy tối đa của  là:
  x  z


n

.

Với độ tin cậy 1   , khoảng tin cậy tối thiểu của  là:
  x  z


n

.

Ví dụ 1.1. Trọng lượng (kg) sản phẩm của công ty A có phân phối chuẩn
N ( ; 2 ) với   1 (kg). Chọn ngẫu nhiên 25 sản phẩm người ta tính được

trung bình mẫu x  50,1 (kg). Với độ tin cậy 95% hãy tìm khoảng tin cậy cho
trọng lượng trung bình của sản phẩm cơng ty A.
Giải.   0,05 suy ra z /2  z0,025  1,96 ;
z /2


n

 1,96


1
 0, 4.
25

Với độ tin cậy 95%, khoảng tin cậy cho trọng lượng trung bình của sản
phẩm: 49,7    50,5 .


4

Giải bằng Minitab
Stat  Basic Statistics  1- Sample Z
Chọn Summarized Data
Sample size: nhập 25
Sample mean: nhập 50.1
Vào Option
Confidence level: nhập 95
Alternative hypothesis: chọn mean ≠ hypothesized mean
Kết thúc chọn OK
Kết quả thu được
Descriptive Statistics
N

Mean

SE Mean 95% CI for μ

25 50.100 0.200


(49.708, 50.492)

Vậy ước lượng khoảng trọng lượng trung bình của sản phẩm với độ tin cậy
95% là:(49,708; 50,492).
X ~ N (; 2 ) với  2 đã biết.

Giả thuyết gốc H 0 :   0 .
Giá trị thống kê kiểm định: z 
Đối thuyết

( x  0 )



n.

p – giá trị

Miền bác bỏ H0

:

=(

:

=[ ;

:


=(

]

[

;

)

2(

| | )
| |

)
]

| |

Nếu z W thì bác bỏ H 0 , nếu z W thì chấp nhận H 0 .
Ví dụ 1.2. Một nhà sản xuất máy tính xách tay quan tâm đến nguồn cấp
điện cho máy tính, nguồn cấp đạt tiêu chuẩn đối với máy tính là 19 volt. Đo


5

nguồn cấp điện của một mẫu 25 sạc pin được chọn ngẫu nhiên của hãng sản
xuất A người ta tính được trung bình mẫu x  19, 25 . Giả sử guồn cấp điện của
sạc pin trên có phân bố chuẩn với độ lệch chuẩn   0,5 volt. Với mức ý

nghĩa   0,05 hãy kiểm định giả thuyết gốc H 0 :   19 (volt) với đối thuyết
H1 :   19 (volt) với  là nguồn cấp điện trung bình của loại sạc pin trên.

Giải. Miền bác bỏ H 0 là W  (; 1,96] [1,96; ) .
z

x  0



n  2,5 W . Do đó, có cơ sở bác bỏ H 0 .

Giải bằng Minitab
Stat  Basic Statistics  1- Sample Z
Chọn Summarized Data
Sample size: nhập 25
Sample mean: nhập 19.25
Known standard deviation: nhập 0.5
Hypothesized mean: nhập 19
Vào Option
Confidence level: nhập 95
Alternative hypothesis: chọn mean ≠ hypothesized mean
Kết thúc chọn OK
Kết quả thu được
Test
Null hypothesis

H₀: μ = 19

Alternative hypothesis H₁: μ ≠ 19

Z-Value P-Value
2.50

0.012


6

p-giá trị = 0,012 < 0,05 nên bác bỏ H 0 .
1.1.2. X ~ N (; 2 ) với  2 chƣa biết
Cho biến ngẫu nhiên X có phân bố chuẩn N (; 2 ) với  chưa biết và  2
chưa biết. Nếu ( x1 , x2 ,..., xn ) là mẫu số liệu của X thì với độ tin cậy 1   ,
khoảng tin cậy cho  là:
x  tn1; /2

s
s
   x  tn1; /2
.
n
n

Với độ tin cậy 1   , khoảng tin cậy tối đa cho kì vọng  là:
  x  tn1;

s
.
n

Với độ tin cậy 1   , khoảng tin cậy tối thiểu cho kì vọng  là:

x  tn 1;

s
 .
n

Trong đó tn1; /2 tra ở Bảng I, với n  30 : tn1; /2  z /2 .
Ví dụ 1.3. Một mẫu 16 pin dùng cho smartphone được chọn ngẫu nhiên
của cơng ty A có tuổi thọ trung bình mẫu x  24.308 (giờ) và độ lệch chuẩn
mẫu s  727 (giờ). Giả sử rằng tuổi thọ pin smartphone có phân bố chuẩn. Với
độ tin cậy 95%, hãy tìm khoảng tin cậy tuổi thọ trung bình smartphone được
sản xuất bởi công ty A.
Giải. tn1; /2  t15;0,025  2,1314 ;
tn 1; /2

s
727
 2,1314
 387.
n
16

Khoảng tin cậy tuổi thọ trung bình của pin smartphone cơng ty A với độ tin
cậy 95% là: 23921    24695.
Giải bằng Minitab
Stat  Basic Statistics  1- Sample t
Chọn Summarized Data


7


Sample size: nhập 16
Sample mean: nhập 24 308
Standard deviation: nhập 727
Vào Option
Confidence level: nhập 95
Alternative hypothesis: chọn mean ≠ hypothesized mean
Kết thúc chọn OK
Kết quả thu được
One-Sample T
Descriptive Statistics
N

Mean StDev SE Mean

16 24308

727

95% CI for μ

182 (23921, 24695)

μ: mean of Sample

Vậy khoảng tin cậy tuổi thọ trung bình của pin smartphone công ty A với
độ tin cậy 95% là: (23 921; 24 695).
Ví dụ 1.4. Kết quả khảo sát hàm lượng asen trong nước máy sinh hoạt của
25 mẫu được chọn ngẫu nhiên ở thành phố A thu được như sau (đơn vị 103
mg/l).

6,06 11,07 10,77 15,67 10,15
5,51 10,87 12,02 12,08 6,17
9,96 9,95 13,95 10,06 11,25
8,79 8,52 11,31 13,92 11,81
11,27 11,12 11,89 14,64 9,83
Giả sử hàm lượng asen trung bình trong nước máy sinh hoạt có phân bố
chuẩn Với độ tin cậy 95%, hãy tìm khoảng tin cậy cho hàm lượng asen trung
bình trong nước máy sinh hoạt.


8

Giải.
x  10,75 ; s  2, 49 ; tn1; /2  t24;0,025  2, 0639 ;
tn 1; /2

s
2, 49
 2, 0639.
 1.
n
49

Với độ tin cậy 95%, khoảng tin cậy cho hàm lượng asen trung bình trong
nước máy sinh hoạt là: 9,75    11,75.
Giải bằng Minitab
Tạo dữ liệu 25 mẫu asen trong minitab vào ô C1
Stat  Basic Statistics  1- Sample t
Chọn One or more samples, each in a column
Điền vào ô C1

Vào Option
Confidence level: nhập 95
Alternative hypothesis: chọn mean ≠ hypothesized mean
Kết thúc chọn OK
Kết quả thu được
One-Sample T: asen
Descriptive Statistics
N

Mean StDev SE Mean

25 10.746

2.489

95% CI for μ

0.498 (9.718, 11.773)

Với độ tin cậy 95%, khoảng tin cậy cho hàm lượng asen trung bình trong
nước máy sinh hoạt là: (9,718;11,773).


9

X ~ N (; 2 ) với  2 chưa biết.

Giả thuyết gốc H 0 :   0 .
Giá trị thống kê kiểm định: t 
Đối thuyết


x  0
n.
s

p – giá trị

Miền bác bỏ H0

:

=(

:

=[

:

=(

]
;

[

;

)


)
]

Trong trường hợp n > 30 :

2P(

| |)

P(

)

P(

)

.

Ví dụ 1.5.Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản
xuất khi chưa cải tiến kĩ thuật là 2.000 giờ. Sau thời gian cải tiến kĩ thuật
người ta chọn ngẫu nhiên 25 bóng đèn cho lắp thử nghiệm, kết quả thực
nghiệm thu được tuổi thọ trung bình mẫu x  2.010 giờ và độ lệch chuẩn mẫu
s  15 giờ. Với mức ý nghĩa 0,025 có thể kết luận “sau khi cải tiến kĩ thuật,

tuổi thọ bóng đèn có tăng lên” khơng? Biết tuổi thọ bóng đèn có phân phối
chuẩn.
Giải. Gọi  là tuổi thọ trung bình của bóng đèn sau cải tiến kĩ thuật. Bài
toán kiểm định giả thuyết H 0 :   2.000 , H1 :   2.000 .
tn1;  t24;0,025  2, 0639 .


Miền bác bỏ H 0 là W  [2,0639; ) .
t

x  0
n  3,33 W . Do đó, có cơ sở bác bỏ H 0 , tức là có cơ sở để kết
s

luận “sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên”.


10

Giải bằng Minitab
Stat  Basic Statistics  1- Sample t
Chọn Summarized Data
Sample size: nhập 25
Sample mean: nhập 2010
Standard deviation: nhập 15
Hypothesized mean: nhập 2000
Vào Option
Confidence level: nhập 97.5
Alternative hypothesis: chọn mean > hypothesized mean
Kết thúc chọn OK
Kết quả thu được
Test
Null hypothesis

H₀: μ = 2000


Alternative hypothesis H₁: μ > 2000
T-Value P-Value
3.33

0.001

Vì p = 0.001 < 0.05 nên bác bỏ

.


11

Khoảng tin cậy và kiểm định tỷ lệ

1.2.

Nếu pˆ  k / n là một ước lượng của tỷ lệ p từ 1 mẫu ngẫu nhiên kích thước n
với k  10 và n  k  10 thì với độ tin cậy, 1   , khoảng tin cậy cho p là:
pˆ  z /2

pˆ (1  pˆ )
 p  pˆ  z /2
n

pˆ (1  pˆ )
.
n

Với độ tin cậy 1   , khoảng tin cậy tối đa cho p là:

p  pˆ  z

pˆ (1  pˆ )
.
n

Với độ tin cậy 1   , khoảng tin cậy tối thiểu cho p là:
p  pˆ  z

pˆ (1  pˆ )
.
n

Ví dụ 1.6. Với độ tin cậy 95% hãy tìm khoảng tin cậy cho tỷ lệ phế phẩm
của một nhà máy biết rằng kiểm tra 100 sản phẩm của nhà máy thì thấy có 10
phế phẩm.
Giải.
k  10
 pˆ  0,1

n  100  
  0, 05  z /2  z0,025  1,96

 z /2

pˆ (1  pˆ )
0,1.0,9
 1,96
 0, 059 .
n

100

Với độ tin cậy 95%, khoảng tin cậy cho tỷ lệ phế phẩm của nhà máy là:
0,041  p  0,159.

Giải bằng Minitab
Stat  Basic Statistics  1Proportion
Chọn Summarized Data
Number of events: nhập 10
Number of trials: nhập 100


12

Vào Option
Confidence level: nhập 95.0
Alternative hypothesis: chọn Proportion

hypothesized proportion

Kết thúc chọn OK
Kết quả thu được
Descriptive Statistics
N

Event Sample p 95% CI for p

100 10

0.100000 (0.041201, 0.158799)


Với độ tin cậy 95%, khoảng tin cậy cho tỷ lệ phế phẩm của nhà máy là:
(0,041201; 0,158799).
Cho pˆ  k / n là một ước lượng của tỷ lệ p từ 1 mẫu ngẫu nhiên kích thước n .
Giả thuyết gốc H 0 : p  p0 .
Giá trị thống kê kiểm định: z 
Đối thuyết
:

pˆ  p0
p0 (1  p0 )

p – giá trị

Miền bác bỏ H0
(

]

:
:

n.

[

;

)


2(

| | )

[
(

]

Ví dụ 1.7. Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt
tiêu chuẩn quốc gia. Một công ty kiểm định độc lập đã tiến hành kiểm tra 200
sản phẩm của công ty đó thì thấy có 168 sản phẩm đạt u cầu. Với mức ý
nghĩa   0,05 có thể cho rằng tỷ lệ sản phẩm đạt tiêu chuẩn quốc gia thấp
hơn 90% không?
Giải. Gọi p là tỷ lệ sản phẩm của công ty đạt chuẩn quốc gia.


13

Bài toán kiểm định giả thuyết:
 H 0 : p  0,9

 H1 : p  0,9

  0, 05  z  z0,05  1, 645 .

Miền bác bỏ H 0 là W  (; 1,645] .
z

k / n  p0

p0 (1  p0 )

n  2,83 W . Do đó, có thể bác bỏ H 0 , tức là khơng có cơ

sở để tin vào tun bố của vị giám đốc trên.
Giải bằng Minitab
Stat  Basic Statistics  1Proportion
Chọn Summarized Data
Number of events: nhập 168
Number of trials: nhập 200
Hypothesized mean: nhập 0.9
Vào Option
Confidence level: nhập 95.0
Alternative hypothesis: chọn Proportion < hypothesized mean
Kết thúc chọn OK
Kết quả thu được
Test
Null hypothesis

H₀: p = 0.9

Alternative hypothesis H₁: p < 0.9
P-Value
0.005

Vì p = 0.005 < 0.05 nên bác bỏ H0.


14


1.3.

So sánh 2 kì vọng của 2 phân phối chuẩn

Cho X và Y biến số ngẫu nhiên của hai tổng thể độc lập nhau và lần lượt
có phân bố chuẩn N (x ; x2 ) và N ( y ; y2 ) . Trong mục này ta xét bài toán so
sánh hai kì vọng  x và  y . Giả thiết quan trọng cho bài toán này là:
(i) ( X1 , X 2 ,..., X m ) là một mẫu ngẫu nhiên của biến ngẫu nhiên X ~ N (x ; x2 ) .
(ii) (Y1 , Y2 ,..., Yn ) là một mẫu ngẫu nhiên của biến ngẫu nhiên Y ~ N ( y ; y2 ) .
(iii) Hai mẫu ngẫu nhiên trên độc lập với nhau.
1.3.1. Cỡ mẫu lớn
2
2
X ~ N (  x ; x2 ) và Y ~ N (  y ; y ) trong đó  x2 và  y đều chưa biết; m  30 và
n  30 .

Giả thuyết thống kê H 0 : x   y  0 .
Giá trị thống kê kiểm định: z 

Đối thuyết

x  y  0
2
sx2 s y

m n

.

p – giá trị


Miền bác bỏ H0
(

:

]

:

[ ;

:

(

[

;

)

2(

| | )

)
]

Ví dụ 1.8. Người ta cân trẻ sơ sinh ở hai khu vực thành thị và nông thôn,

kết quả thu được như sau:
Trung bình mẫu

Phương sai mẫu

Khu vực

Số trẻ

Nông thôn

m = 60

̅ = 3,0 kg

= 0,4 kg2

Thành thị

n = 50

̅ = 3,1 kg

= 0,5 kg2


15

Với mức ý nghĩa 0,05 có thể coi trọng lượng trung bình của trẻ sơ sinh ở
hai khu vực khác nhau không? Biết trọng lượng trẻ sơ sinh ở hai khu vực có

phân phối chuẩn.
Giải. Gọi trọng lượng trung bình của trẻ sơ sinh ở nông thôn và thành thị
lần lượt là  x (kg) và  y (kg). Bài toán kiểm định giả thuyết:
H 0 :  x   y , H1 :  x   y .

Miền bác bỏ H 0 : W  (; 1,96]  [1,96; ) .
z

xy
2
sx2 s y

m n

 0, 77 
 W . Do đó, chấp nhận H 0 .

Giải bằng minitab
Stat  Basic Statistics  2-Sample t
Chọn Summarized Data
Sample size 1: nhập 60
Sample size 2: nhập 50
Sample mean 1: nhập 3.0
Sample mean 2: nhập 3.1
Standard deviation 1: nhập 0.4
Standard deviation 2: nhập 0.5
Vào Option
Confidence level: nhập 95
Alternative hypothesis: chọn Difference ≠ hypothesized difference
Kết thúc chọn OK

Kết quả thu được


16

Test
Null hypothesis

H₀: μ₁ - µ₂ = 0

Alternative hypothesis H₁: μ₁ - µ₂ ≠ 0
T-Value DF P-Value
-1.14

93 0.256

Vì p = 0.256 > 0.05 nên chấp nhận

.

1.3.2. Cỡ mẫu nhỏ và hai phƣơng sai bằng nhau
2
X ~ N (  x ; x2 ) , Y ~ N (  y ; y )

với  x   y chưa biết.

Giả thuyết thống kê H 0 : x   y  0
Giá trị thống kê kiểm định:
t


( x  y )  0
sp

Với s 
2
p

(m  1) sx2  (n  1) s y2
mn2

Đối thuyết
:

1 1

m n

.
p – giá trị

Miền bác bỏ H0
(

] [

:

[

:


(

;
;

)

)

2P(

| |

P(

]

Ví dụ 1.9.Một nghiên cứu được thực hiện đối với 20 người ở phường A và
19 người ở phường B trong một thành phố để xem thu nhập trung bình hàng
năm của dân cư hai phường đó thực sự khác nhau hay không. Các mẫu số liệu
thu được như sau:
Phường A: m=20, x  18, 27 , sx2  8, 74 .
Phường B: m=19, y  16,78 , sx2  6,58 .


17

Với mức ý nghĩa 0,05 có thể cho rằng thu nhập trung bình của dân cư hai
phường đó khác nhau hay không? Giả sử thu nhập hàng năm của dân cư hai

phường đó có phân phối chuẩn và hai phương sai bằng nhau.
Giải. Gọi  x và  y tương ứng là thu nhập trung bình hàng năm của dân cư
hai phường A và B. Bài toán kiểm định giả thuyết:
H 0 : x   y

 H1 :  x   y

Miền bác bỏ H 0 là W  (; 1,96] [1,96; ) .
Từ giả thiết bài toán ta tính được:
s 2p 

t

sp

(m  1) sx2  (n  1) s y2
mn2

 2, 773 ;

xy
 1, 667 
 W . Do đó, chấp nhận H 0 . Tức là chưa có cơ sở cho
1/ m  1/ n

rằng thu nhập trung bình của dân cư hai phường đó khác nhau.
Giải bằng minitab
Stat  Basic Statistics  2- Sample t
Chọn Summarized data
Sample size 1: nhập 20

Sample size 2: nhập 19
Sample mean 1 : nhập 18.27
Sample mean 1 : nhập16.78
Standard deviation 1: nhập 8.74
Standard deviation 1: nhập 6.58
Vào Option
Confidence level: nhập 95
Alternative hypothesis: Difference
Kết thúc chọn OK

hypothesized difference


18

Kết quả thu được
Test
Null hypothesis

H₀: μ₁ - µ₂ = 0

Alternative hypothesis H₁: μ₁ - µ₂ ≠ 0
T-Value DF P-Value
0.60

35 0.550

Vì p = 0.55 > 0.05 nên chấp nhận

.


1.3.3. Cỡ mẫu nhỏ và hai phƣơng sai không bằng nhau
X ~ N ( 1;12 ) , Y ~ N ( 2 ; 22 ) , chưa

biết  x2 và  y2 .

Giả thuyết thống kê H0 : x   y  0 .
Giá trị thống kê kiểm định:
t

( x  y )  0
2
sx2 s y

m n

.

Trong đó  là phần nguyên của:
2

 sx2 s y2 
  
m n 
.
2
2
( sx2 / m) 2 ( s y / n)

m 1

n 1

Đối thuyết
:

(

]

:
:

p – giá trị

Miền bác bỏ H0

[
(

;

[

;
)
]

)

2P(


| |

P(

| |

P(

|

Ví dụ 1.10. Hàm lượng asen trong 20 mẫu nước ngầm được lấy ngẫu nhiên
ở hai vùng dân cư A và B được cho như sau (đơn vị: 103 mg/l)


19

A

3

7

25

10

15

6


12

25

15

7

B

48

44

40

38

33

21

20

12

1

18


Với mức ý nghĩa 5% có thể cho rằng hàm lượng asen ở vùng B cao hơn
hàm lượng asen ở vùng A khơng?

Hình 1.1
Giải. Từ biểu đồ xác suất chuẩn (Hình 1.1) ta có thể khẳng định hai tổng
thể có phân phối chuẩn và hai phương sai khác nhau.
Từ mẫu số liệu ta tính được t  2,8 ,   13.
Xét bài toán so sánh H 0 :  x   y , H1 :  x   y .
Miền bác bỏ H 0 : W  (; 2,16].
Giá trị thống kê kiểm định t  2,8 W nên bác bỏ H 0 .
Hoặc tính p-giá trị = P(T13  2,8)  0,008  0,05 .
Giải bằng Minitab
Tạo dữ liệu hai vùng cư dân A và B trong Minitab
Stat  Basic Statistics  2- Sample t


20

Chọn Each sample is in its own column
Sample 1: nhập cột A
Sample 2: nhập cột B
Vào Option
Confidence level: nhập 95
Alternative hypothesis: Difference < hypothesized difference
Kết thúc chọn OK
Kết quả thu được
Test
Null hypothesis


H₀: μ₁ - µ₂ = 0

Alternative hypothesis H₁: μ₁ - µ₂ < 0
T-Value DF P-Value
-2.97 13

0.005

Vì p = 0.005 < 0.05 nên bác bỏ
1.4.

.

So sánh hai tỷ lệ

X ~ Ber ( p1 ) , Y ~ Ber ( p2 ) , X và Y độc lập.

Cho pˆ1  k / m và pˆ 2  l / n lần lượt là ước lượng của p1 và p2 từ hai mẫu ngẫu
nhiên độc lập.
Giả thuyết gốc H 0 : p1  p2  0
Giá trị thống kê kiểm định:
k l
  0
m n
z
,
1 1

ˆ  p)
ˆ   

p(1
m n
kl
pˆ 
.
mn


×