Tải bản đầy đủ (.pdf) (28 trang)

Báo cáo bài tập lớn xác suất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.43 MB, 28 trang )

Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử
dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 94% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
Bài làm:
 Dạng bài: Thống kê mô tả
 Dữ liệu (A): Khảo sát điểm thi cuối kỳ môn Giải tích mạch của 40 sinh viên
khoa Điện - điện tử:
8

8

8

3

4

3

4

4


7

9

6

8

4

5

5

4

9

2

4

5

10

6

4


9

3

2

8

7

4

6

3

8

6

7

8

3

5

8


6

9

 Dữ liệu (B): Kết quả phân ngành sinh viên khoa Điện – điện tử khóa 2012
Đại học Bách khoa TP. Hồ Chí Minh:
Kỹ sư tài năng Tự động hóa

21

Kỹ sư tài năng Điện tử viễn thông

21

Kỹ sư tài năng Điện năng

17

Tự động hóa

128

Điện tử viễn thông

211

Điện năng

145


Page | 1


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

1) Thực hiện phân tổ dữ liệu A:
 Nhập dữ liệu (A) vào Excel:

- Xác định số tổ cần chia: k  (2  n)

1
3

Nhập vào ô A6 biểu thức: =(2*COUNT(A1:J4))^(1/3)
Kết quả: 4.308
Chọn k=4
Xác định trị số khoảng cách h theo công thức h 

xmax  xmin
k

Chọn ô B6 nhập vào biểu thức: =(MAX(A1:J4)-MIN(A1:J4))/4
Kết quả: 2
Chọn h=2
- Xác định được cận trên và cận dưới của 4 tổ:
 Tổ 1: 2 – 4
 Tổ 2: 4 – 6
 Tổ 3: 6 – 8

 Tổ 4: 8 – 10
Nhập vào các ô K6 đến K10 lần lượt các giá trị:

 Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu.
Page | 2


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết quả.
- Confidence Level for Mean: Độ tin cậy cho trung bình.
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel sẽ
chỉ tính tần số.

 Kết quả:

hay

2) Vẽ đồ thị tần số và đa giác tần số (A):
 Vẽ đồ thị phân phối tần số:
Page | 3


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4


- Quét bảng tần số C11:C14
- Dùng chức năng Insert Column Chart treeb menu Insert
 Kết quả:
Đồ thị phân phối tần số
16

Tần số

14

12
10
8
6
4
2
0
4

6

8

10

Điểm

 Vẽ đa giác tần số:
- Sử dụng bảng phân phối tần số dữ liệu (A).

- Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số.

- Quét B2:B7, dùng các chứ năng Insert Line Chart trên menu Insert.
 Kết quả:

Page | 4


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Tần số

Đa giác tần số
16
14
12
10
8
6
4
2
0
4

6

8


10

Điểm

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu
quan sát với độ tin cậy 94% (A)
 Nhập dữ liệu vào bảng tính:

 Chọn chức năng Data/Data Analysis/Descriptive Statistics
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu.
- Output options: Vị trí xuất kết quả.

Page | 5


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

- Confidence Level for Mean: Độ tin cậy cho trung bình.

 Kết quả:

Page | 6


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4


4) Trình bày dự liệu định tính (B) dạng phân loại bằng các đồ thị
 Nhập dữ liệu vào bảng tính:

 Tính tỉ lệ sinh viên cho các ngành:
Nhập vào C2: =B2/$B$8, copy cho các ô còn lại.
Kết quả:

 Vẽ biểu đồ đứng thể hiện số lượn sinh viên ở các chuyên ngành
- Quét chọn cột Số sinh viên (B2:B7).
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert.
 Kết quả:

Page | 7


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Phân ngành sinh viên khoa Điện - điện tử khóa 2012
250

Số sinh viên

200
150
100
50
0
Kỹ sư tài

năng Tự
động hóa

Kỹ sư tài
Kỹ sư tài
năng Điện tử năng Điện
viễn thông
năng

Tự động hóa Điện tử viễn
thông

Điện năng

 Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:
- Quét chịn cột Số sinh viên (C2:C7).
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert.
 Kết quả:
Phân ngành sinh viên khoa Điện - điện tử khóa 2012

Kỹ sư tài năng Tự động hóa

Kỹ sư tài năng Điện tử viễn thông

Kỹ sư tài năng Điện năng

Tự động hóa

Điện tử viễn thông


Điện năng

Page | 8


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Bài 2: Hàm lượng (%) của chất C trong cùng một loại sản phẩm của 2 công ty được
công bố xấp xỉ nhau. Đo kiểm tra hàm lượng chất C có trong một số sản phẩm
được chọn ngẫu nhiên trên thị trường, người ta thu được số liệu sau:
Sản phẩm của công ty A

37

38

35

40

42

34

37

39


Sản phẩm của công ty B

42

35

40

38

36

43

38

41

Hãy so sánh mức độ đồng đều của hàm lượng chất C trong các sản phẩm của 2
công ty với mức ý nghĩa 3%. Giả thiết hàm lượng này phân bố theo quy luật chuẩn.
Bài làm:
Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.
 Công cụ: F-Test Two-Sample for Variances
 Cơ sở lý thuyết: Khi cần kiểm định hai tổng thể có mức độ đồng đều như
nhau hay không chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể
độc lập dựa trên một đại lượng F như sau:

F =

𝑆1 2

𝑆2 2

Trong đó: 𝑆1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
𝑆2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2.
- Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ
hai ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được
đặt ở tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất.
- Giả thiết đặt ra là kiểm định hai bên:
𝐻1 :

𝜎12 = 𝜎12

𝑣à

𝐻0 :

𝜎12 ≠ 𝜎22

- Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng
thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng
Page | 9


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

hộ giả thuyết 𝐻0 . Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứng bác bỏ
𝐻0 và ngược lại.
- Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có

phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F
phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (d𝑓1 =𝑛1 − 1) gắn liền với mậu thứ
nhất và bậc tự do mẫu số gắn liền với mẫu thứ hai ( d𝑓2 =𝑛2 − 1).
- Quy tắc thực sự để bác bỏ 𝐻0 với kiểm định hai bên khi d𝑓1 =𝑛1 – 1 và
d𝑓2 =𝑛2 − 1 mức ý nghĩa là: giả thiết 𝐻0 bị bác bỏ nếu giá trị kiểm định F lớn hơn
giá trị tới hạn trên 𝐹𝑈 = 𝐹𝑑𝑓1; 𝑑𝑓2; 𝛼 của phân phối F hoặc bé hơn giá trị tới hạn
2

dưới 𝐹𝐿 = 𝐹𝑑𝑓1; 𝑑𝑓2; −𝛼 tức là 𝐹𝑡𝑡 < 𝐹𝑑𝑓1; 𝑑𝑓2;− 𝛼 hoặc 𝐹𝑡𝑡 > 𝐹𝑑𝑓1; 𝑑𝑓2; 𝛼
2

2

2

- Nếu chúng ta kiểm định bên phải:
𝐻0 :

𝜎12 = 𝜎22

𝑣à

Quy tắc bác bỏ 𝐻0 là khi

𝐻1 :

𝜎12 > 𝜎22

𝐹𝑡𝑡 > 𝐹𝑈(𝑛1−1; 𝑛2−1; 𝛼).


Giả thiết:
𝐻0 :

𝜎12

=

𝜎12

𝑣à

𝐻1 :

𝜎12

>

𝜎22

 Giá trị thống kê:

 Phân phối Fischer :

ɣ1 =

𝑁 1- 1

ɣ2 =

𝑁2 - 1


 Biện luận:
Nếu F < 𝐹𝛼(ɣ1;ɣ2) Chấp nhận giả thuyết H0 với xác xuất (1-)100%.
Thực hiện bài toán bằng excel:

 Nhập dữ liệu vào bảng tính:

Page | 10


Báo cáo Bài tập lớn Xác suất thống kê

 Vào

Nhóm 4

Data/ Data Analysis/ F-Test Two-Sample for Variances.

 Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2.
+ Output options:
+ Apha:

vị trí xuất kết quả.

mức ý nghĩa (chọn tại ô alpha)

Page | 11



Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

 Kết quả

 Biện luận
Giả thiết
+ 𝐻0 : 𝜎12 =

𝜎22 “ mức độ đồng đều của hàm lượng chất C trong

1 loại sản phẩm của 2 công ty A, B giống nhau ”.

Page | 12


Báo cáo Bài tập lớn Xác suất thống kê

+

Nhóm 4

𝐻1 : 𝜎12 > 𝜎22 “mức độ đồng đều của hàm lượng chất C trong 1

loại sản phẩm của 2 công ty A, B khác nhau ”.
F = 0.8351 > 𝐹0.03 = 0.2148

Bác


bỏ giả thuyết 𝐻0 , chấp nhận giả thuyết

H1.
Bài 3: Nồng độ chì trong không khí đo được ở một số giao lộ trong thành phố được
thể hiện trong kết quả sau:
Địa điểm

Nồng độ chì ( mg/m3)

I

0,42

0,53

0,62

0,71

0,83

0,61

0,51

II

0,70

0,32


0,64

0,44

0,53

III

0,39

0,37

0,43

0,45

0,41

0,52

0,42

IV

0,35

0,45

0,54


0,56

0,6

0,62

0,32

Có thể coi nồng độ chì trong không khí ở các giao lộ là giống nhau hay không, với
mức ý nghĩa 5%? Tìm hệ số xác định R2 của bài toán và giải thích ý nghĩa của nó.
Bài làm:
 Dạng bài: Kiểm định giá trị trung bình một nhân tố.
 Phương pháp giải: Phân tích phương sai một nhân tố.
 Công cụ giải: Anova single factor.
 Cơ sở lý thuyết:
Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ2)
có mẫu điều tra:
X1

X2

X11

X12

X21

X22






Xn(1)1

Xn(2)2



Xk
X1k



X2k

Xn(k)k

Page | 13


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Với mức ý nghĩa α ta kiểm định giả thiết:
- H0: a1=a2=…=ak
- H1: “Tồn tại j1≠j2 sao cho aj1≠aj2
Đặt:

- Tổng quan sát:
𝑘

𝑛 = ∑ 𝑛𝑗
𝑗=0

- Trung bìn mẫu thứ j (j=1,2,…,k):
𝑛𝑗

𝑛𝑗

𝑖=1

𝑖=1

𝑇𝑗
1
𝑥̅𝑗 = ∑ 𝑥𝑖𝑗 =
với 𝑇𝑗 = ∑ 𝑥𝑖𝑗
𝑛𝑗
𝑛𝑗
- Trung bình chung:
𝑘

𝑛𝑗

𝑘

𝑛𝑗


𝑘

1
𝑇
𝑥̅ = ∑ ∑ 𝑥𝑖𝑗 = với 𝑇 = ∑ ∑ 𝑥𝑖𝑗 = ∑ 𝑇𝑗
𝑛
𝑛
𝑗=1 𝑖=1

𝑗=1 𝑖=1

𝑗=1

- Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor:
𝑘

𝑆𝑆𝐹 = ∑ 𝑛𝑗 (𝑥̅𝑗 − 𝑥̅ )2
𝑗=1

- Tổng bình phương độ lệch do sai số Sum of Squares for Error:
𝑘

𝑛𝑗

𝑆𝑆𝐸 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑗 )2
𝑗=1 𝑖=1

- Tổng bình phương độ lệch chung Total Sum of Squares:
𝑘


𝑛𝑗

𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ )2 hay SST=SSF+SSE
𝑗=1 𝑖=1

- Trung bình bình phương của nhân tố Mean Square for Factor:
𝑆𝑆𝐹
𝑀𝑆𝐹 =
𝑘−1
Trong đó, k-1 là bậc tự do của nhân tố.
Page | 14


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

- Trung bình bình phương của sai số Mean Square for Error:
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−𝑘
Trong đó, n-k là bậc tự do của sai số.
- Tỷ số F:
𝑀𝑆𝐹
𝐹=
𝑀𝑆𝐸
- Bảng ANOVA
Tổng bình
Trung bình
Nguồn

Bậc tự do
Tỷ số F
phương
bình phương
Nhân tố
SSF
k-1
MSF
MSF/MSE
Sai số
SSE
n-k
MSE
Tổng số
SST
n-1
So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở
tử số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
- Nếu F > F lý thuyết, ta bác bỏ H0.
- Nếu F < F lý thuyết, H0 đúng.
Hệ số xác định R2 =

𝑆𝑆𝐹
𝑆𝑆𝑇

chính là tỷ lệ hay số phần trăm chiến trong tổng số

100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng.
 Thực hiện bài toán:
 Nhập dữ liệu vào bảng tính.

 Vào Data/ Data Analysis/Anova: Single Factor.
 Chọn các thư mục như hình:
- Input Range: địa chỉ tuyệt đối chứa dữ liệu.
- Output options: vị trí xuất kết quả.

Page | 15


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

- Alpha: mức ý nghĩa α.

 Kết quả:

 Biện luận:
Giả thiết: H0: Nồng độ chì trong không khí ở các giao lộ là giống nhau.

Page | 16


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

H1: Nồng độ chì trong không khí ở các giao lộ không giống nhau.
Vì F = 1.667233 < F critical = 3.049125 nên ta giả thiết H0 đúng.
Vậy nồng độ chì trong không khí ở các giao lộ là giống nhau.
 Tính hệ số xác định R2:

Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R2 theo công
thức:
𝑅2 =

𝑆𝑆𝐹
𝑆𝑆𝑇

 Thực hiện trên Excel:
- Chọn ô đưa ra kết quả của R2
- Nhập công thức: =B20/B23
Ta thu được kết quả sau:

Vậy hệ số xác định R2 = 0.185236. Điều đó có nghĩa là nhân tố nơi lấy mẫu
để đo chỉ ảnh hưởng 18,52% đến sự biến động của nồng độ chì trong không khí.

Bài 4: Một nông trường nuôi 3 giống bò sữa A,B,C. Lượng sữa của các con bò này
được thể hiện trong bảng theo dõi sau:
Page | 17


Báo cáo Bài tập lớn Xác suất thống kê

Loại bò

Ít
92
53
75

A

B
C

Nhóm 4

Lượng sữa
Trung bình
37
15
19

Nhiều
46
19
12

Với mức ý nghĩa  = 0,05, hãy nhận định xem có phải 3 giống bò này thuần
như nhau về phương diện sản lượng sữa hay không?
Bài làm:
 Dạng bài : kiểm định giả thiết về tỷ lệ.
 Phương pháp giải : Áp dụng kiểm định chi bình phương  2 .
 Công cụ giải : hàm CHITEST trên EXCEL.
 Cơ sở lý thuyết:
Theo thống kê,kiểm định chi bình phương hay kiểm tra  2 (đôi khi đọc là
khi bình phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong
đó thống kê kiểm định tuân theo phân bố  2 nếu giả thuyết là không đúng.Chúng
gồm:
 Kiểm định chi bình phương Pearsom
 Kiểm định chi bình phương Yates
 Kiểm định chi bình phương Mantel-Haenszel

 ….
Dạng thống kê kiểm định thông dụng nhất là:
𝛾 2 = (𝑜−𝑒)
𝑒

2

Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
Xét một bộ A gồm r tính trạng, A=(𝐴1 , 𝐴2 , . . 𝐴𝑟 ) , trong đó mỗi cá thể của tập
hợp chính H có và chỉ có một trong các tính trạng (hay phạm trù ) 𝐴𝑖 .
Gọi 𝑝𝑖 ( i=1,2,..,r ) là tỉ lệ cá thể tính trạng 𝐴𝑖 trong tập hợp chính H. Khi đó
vecto π=(𝑝1 , 𝑝2 , . . 𝑝𝑟 ) được gọi là phân bố của A trong tập hợp chính H.
Giả sử (𝑝1, 𝑝2 , . . 𝑝𝑟 ) là phân bố của (𝐴1 , 𝐴2 , . . , 𝐴𝑟 ) trong tập hợp chính H và
(𝑞1 ,𝑞2 , . . 𝑞𝑟 ) là phân bố của A=(𝐴1 , 𝐴2 , . . , 𝐴𝑟 ) trong tập hợp chính Y. Ta nói
(𝐴1 , 𝐴2 , … 𝐴𝑟 ) có phân bố như nhau trong X và Y nếu (𝑝1 , 𝑝2 , . . , 𝑝𝑟 )=(𝑞1 , 𝑞2 , . . , 𝑞𝑟 )
 𝑝1 = 𝑞1 , . . , 𝑞𝑟 =𝑞𝑟 .

Page | 18


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Chúng ta muốn kiểm định xem A=(𝐴1 , 𝐴2 , . . , 𝐴𝑟 ) có cùng phân số trong X và
Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y.
Tổng quát hơn, giả sử ta có k tập hợp chính 𝐻1 , 𝐻2 , . . , 𝐻𝑘
𝑖 1
( 𝑝1 , 𝑝2 , . . 𝑝𝑟1 ) là phân bố của A =(𝐴1 , 𝐴2 , . . , 𝐴𝑟 ) trong tập hợp chính 𝐻𝑖 .


gọi 𝜋 𝑖 =

Ta muốn kiểm định giả thuyết sau:
𝐻0 : 𝜋 1 = 𝜋 2 = ⋯ = 𝜋 𝑘 (Các phân bố này là như nhau trên các tập hợp chính 𝐻𝑖 ).
Chú ý rằng 𝐻0 tương đương với hệ đẳng thức sau:
𝑝11
𝑝21
𝑝𝑖1
1
{𝑝𝑟

= 𝑝12
= 𝑝22
= 𝑝𝑖2
= 𝑝𝑟2

= ⋯ = 𝑝1𝑘
= ⋯ = 𝑝2𝑘
= ⋯ = 𝑝𝑖𝑘
= ⋯ = 𝑝𝑟𝑘

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên
chọn từ tập hợp chính 𝐻𝑖 được gọi là ngẫu nhiên thứ i (i = 1,2,..k).
Giả sử trong mẫu ngẫu nhiên thứ i:
Có 𝑛1𝑖 cá thể có tính trạng 𝐴1
𝑛2𝑖 cá thể có tính trạng 𝐴2
………………………………..
𝑛𝑟𝑖 cá thể có tính trạng 𝐴𝑟
Ký hiệu: 𝑛𝑖0 = ∑𝑘𝑗=1 𝑛𝑖𝑗 ; 𝑛0𝑗 = ∑𝑟𝑖=1 𝑛𝑖𝑗
Như vậy 𝑛0𝑗 là kích thước của mẫu thứ j, còn 𝑛𝑖0 là tổng số cá thể có tính

trạng 𝐴𝑖 trong toàn bộ k mẫu đang xét:
𝑛 = ∑𝑟𝑖=1 𝑛𝑖0 = ∑𝑘𝑗=1 𝑛0𝑗 là tổng số tất cả các cá thế của k mẫu đang xét.
- Nếu giả thuyết 𝐻0 là đúng nghĩa là:
𝑝11 = 𝑝12 = ⋯ = 𝑝1𝑘 = 𝑝1
𝑝21 = 𝑝22 = ⋯ = 𝑝2𝑘 = 𝑝2
−−−−−−−
1
𝑝𝑖 = 𝑝𝑖2 = ⋯ = 𝑝𝑖𝑘 = 𝑝𝑖
−−−−−−−
1
{𝑝𝑟 = 𝑝𝑟2 = ⋯ = 𝑝𝑟𝑘 = 𝑝𝑟

Page | 19


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

Thì các tỷ lệ chung 𝑝1 , 𝑝2 , . . 𝑝𝑟 được ước lượng bởi 𝑝𝑖^ = 𝑛𝑛𝑖0
Đo ước lượng cho xác suất để một cá thể có mang tính trang 𝐴𝑖 .Khi đó số cá
thể có tính trạng 𝐴𝑖 trong mẫu thứ j sẽ xấp xỉ bằng:
𝑛0𝑗 𝑛𝑖0
𝑛

^
𝑛𝑖𝑗
= 𝑛0𝑗 𝑝𝑖^ = −

^

Các số 𝑛𝑖𝑗
(i=1,2,..,r; j= 1,2,..k) được gọi là các tần số lý thuyết(TSLT), các
số 𝑛𝑖𝑗 được gọi là các tần số quan sát (TSQS).

Ta quyết định bác bỏ 𝐻0 khi các TSLT cách xa TSQS một cách bất thường.
Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây:
𝑇 = ∑𝑘𝑓=1 ∑𝑟𝑖=1

2
(𝑛𝑖𝑗 −𝑛^
𝑖𝑗 )
𝑛^
𝑖𝑗

= ∑ (𝑇𝑆𝑄𝑆−𝑇𝑆𝐿𝑇)
𝑇𝑆𝐿𝑇

2

Người ta chứng minh được rằng nếu 𝐻0 đúng và các TSLT không nhỏ hơn 5
thì T sẽ có phân bố xấp xỉ với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng
{T>c} ở đó c được tìm từ điêu kiện P{T>c} = 𝛼. Vậy c là phân vị mức 𝛼 của phân
bố  2 với (k-1)(r-1) bậc tự do.
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó ta dùng
kiểm định 𝛾2 (chi-quared ):
2

𝛾 =

^ 2

(𝑛𝑖𝑗 −𝑛𝑖𝑗
)
𝑟
𝑐
∑𝑖=1 ∑𝑗=1
𝑛^
𝑖𝑗

𝑣ớ𝑖 𝑛𝑝𝑗 = 𝑇ổ𝑛𝑔 ℎà𝑛𝑔𝑛 . 𝑇ổ𝑛𝑔 𝑐ộ𝑡

𝑛𝑖𝑗 : tần số thực nghiệm ; 𝑛𝑝𝑖𝑗 : tần số lý thuyết của ô (i,j) ; r: số hàng ; c: số cột
Dùng hầm CHITEST (actual_range , expected_range).
Tính giá trị : P(X > 𝛾 2 ) = CHITEST
Nếu : P(X > 𝛾 2 ) > 𝛼 thì chấp nhân 𝐻0 và ngược lại.
 Nhận xét:

Đây là bài toán kiểm định giả thuyết vể tỷ lệ.

 Giải thuyết H0:

Tỷ lệ sữa của ba giống bò này có phân phân bố tỉ lệ như

nhau (thuần như nhau).
 Nhập giá trị vào bảng tính:

Page | 20


Báo cáo Bài tập lớn Xác suất thống kê


Nhóm 4

 Tính tổng các số:
 Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo
nút tự điều khiển từ điền từ E4 đến E5.
 Tổng cột: Chọn B6, nhập =SUM(B3:B5), rồi Enter, dùng con trỏ kéo nút
tự điều khiển từ B6 đến D6.
 Tổng cộng: chọn E8 và nhập =SUM(E3:E5).

 Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng
 A: Chọn B11: nhập =E3*$B$6/$E$6, rùi Enter, dùng con trỏ kéo nút tự
điều khiển từ B11 đến B13.
 B: Chọn C11: nhập =E3*$C$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự
điều khiển từ C11 đến C13.
 C: Chọn D11: nhập =E3*$D$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự
điều khiển từ D11 đến D13.

Page | 21


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

 Áp dụng hàm số CHITEST tính giá trị 𝑃(𝑋 > 𝜒 2 )
Chọn B15, nhập =CHITEST(B3:D5,B11:D13), rồi Enter.

 Biện luận:

𝑃(𝑋 > 𝜒 2 ) = 0,022515147 < 0.05

 Bác bỏ giả thuyết H0.
Page | 22


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

 Kết luận: Ba giống bò này có tỉ lệ khác nhau (không thuần) về phương
diện sữa.
Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng
mô hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy
ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm hệ số xác định R2.
4) Tìm sai số chuẩn của ước lượng.
Bài làm:
 Cơ sở lý thuyết :
1) Tìm hệ số tương quan X và Y:
- Hệ số tương quan:
R=
-

∑𝑥𝑖 𝑦𝑖 −∑𝑥𝑖 ∑𝑦𝑖
√[𝑛∑𝑥𝑖2 −(∑𝑥𝑖 )2 ][𝑛∑𝑦𝑖2 −(∑𝑦𝑖 )2 ]

Nếu R>0 thì X,Y tương quan thuận.
Nếu R<0 thì X,Y tương quan nghịch.
Nếu R=0 thì X,Y không tương quan.

Nếu |R|=1 thì X,Y có quan hệ hàm bậc nhất.
Nếu |R| 1 thì X,Y có tương quan chặt (tương quan mạnh).
Nếu |R| 0 thì X,Y có tương quan không chặt (tương quan yếu).

2) Quan hệ giữa X và Y có được coi là tuyến tính hay không :
Giả thiết H0: X và Y không có tương quan tuyến tính:
T=

𝑟 √𝑛−2
√1−𝑟 2

Ước lượng hồi quy tuyến tính Y theo X:
Page | 23


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

- Phương trình hồi quy tuyến tính:
𝑦̅𝑥 = 𝑎 + 𝑏𝑥,

𝑆𝑦̅
𝑎 = 𝑟 , 𝑏 = 𝑦̅ − 𝑎𝑥̅
𝑆𝑥̅

- Kiểm định hệ số a,b :
+ Giả thiết 𝐻0 : Hệ số hồi quy không có ý nghĩa (=0).
+ Giả thiết 𝐻1 : Hệ số hồi quy có ý nghĩa (≠ 0).
+ Trắc nghiệm t < 𝑡𝛼,𝑛−2 : chấp nhận 𝐻0

- Kiểm định phương trình hồi quy:
+ Giả thiết 𝐻0 : “Phương trình hồi quy tuyến tính không thích
hợp.”
+ Giả thiết 𝐻1 : “Phương trình hồi quy tuyến tính thích hợp.”
+ Trắc nghiệm F < F𝛼,1,𝑛−2 : chấp nhận 𝐻0

Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ trên tải
được lấy ngẫu nhiên trên các thiết bị :
Thời gian
(phút)
Công suất
(W)

40

30

45

500 300 600

15

30

60

50

25


20 250 800 1200 150

20

45

10

15

50 200 150 200

1) Tìm hệ số tương quan giữa X và Y:
 Thực hiện trên Excel:
 Nhập số liệu vào bảng tính:

 Chọn chức năng Data/Data Analysis/Correlation.
Page | 24


Báo cáo Bài tập lớn Xác suất thống kê

Nhóm 4

 Kết quả:

 Ta có hệ số tương quan là R = 0.790711973 chứng tỏ giữa thời gian
và công suất tiêu thụ có quan hệ khá chặt chẽ và có tương quan thuận.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?

Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.
 Thực hiện trên Excel:
 Tính T : chọn ô B5 và nhập biểu thức =B3*SQRT(12-2)/SQRT(1B3^2).
 Tính c: chọn ô B6 và nhập biểu thức =TINV(0.05,10) (c là phân vị
mức
α/2=0.025 của phân bố Student với n-2=10 bậc tự do).

Page | 25


×