Tải bản đầy đủ (.docx) (40 trang)

Báo cáo bài tập lớn xác suất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.48 MB, 40 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KỸ THUẬT XÂY DỰNG

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
ĐỀ TÀI 01
GVHD: NGUYỄN KIỀU DUNG
NHĨM: 1

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1


1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ
mật độ với dữ liệu (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 91% với dữ liệu (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay khơng ( lưu ý phải sử dụng các hàm thống kê trong excel).
Dữ liệu định lượng A:
Khảo sát 20 đoạn đường betong chiều dài 1200 m, rộng 3 m, dày 10cm, để biết được số bao xi
măng cần dùng để thi công các đoạn đường ấy
2450

2578

2752


2456

2766

2759

2812

2891

2672

2678

2563

2684

2558

2795

2739

2794

2678

2565


2657

2864

Dữ liệu định tính B: Khảo sát hãng xi măng ưa dùng của 1000 hộ dân

TT

Tên hãng

1

Xi măng Thăng Long

137

2

Xi măng Hạ Long

119

3

Xi măng Holcim

269

Xi măng Hà Tiên Đa dụng / xây
4




253

5

Xi măng Fico

76

2


6

1

Xi măng Nghi Sơn

146

Phân tổ dữ liệu A:

Nhập dữ liệu A vào excel

-Xác định số tổ cần chia
- Nhập vào ô A7 biểu thức: =(2*COUNT(A2:E5))^(1/3) ta được kết quả như hình:

3



- Kết quả 3.419952 .Suy ra chọn k=3
- Xác định trị số khoảng cách h theo công thức h =
-Nhập vào ô B7 công thức =(MAX(A2:E5)-MIN(A2:E5))/3 ta được kết quả như hình:

Suy ra h=147
-Vì k=3 nên có 3 tổ, ta cần xác định cận trên và cận dưới của 3 tổ:
Tổ 1:

2450-2597

Tổ 2:

2597-2744

Tổ 3:

2744-2891

-Nhập vào ô G2 đến G4 các giá trị như hình:

Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu

4


- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết quả.

- Confidence Level for Mean: độ tin cậy cho trung bình.
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ tính tần số

Kết quả:

5


2

Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A)



Vẽ biểu đồ Phân Bố Tần Số
- Quét bảng tần số
- Insert Column Chart
- Kết quả:

6




Vẽ biểu đồ tích lũy tần số:
-Quét bảng tích lũy tần số
-Chọn Insert > Column > 2-D Column

Kết quả:




Vẽ biểu đồ mật độ dữ liệu

1.3 Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 91% với dữ liệu (A).
+Tính các đặc trưng mẫu

7


* Nhập dữ liệu vào bảng tính

* Chọn chức năng Data/Data Analysis/Descriptive Statistics
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho trung bình.

8


Kết quả

Nhìn vào bảng kết quả ta biết được các đặc trưng mẫu với:
-Mean: trung bình mẫu

-Standard Deviation: độ lệch mẫu

9



-Sample Variance: phương sai mẫu

+Ước lượng giá trị trung bình
Để ước lượng ta cân tính


Trong đó
Lúc nảy ta đã tính được
Đề cho ta:
độ tin cậy =91% suy ra
n=20
suy ra
với

1.392

được tính trong excel như sau

10


Với

bằng với giá trị của t Critical one-tail nên

suy ra s=130.296
Suy ra
Khoảng ước lượng giá trị trung (


- ;

+ )

Suy ra khoảng ước lượng là (2644.99;2726.11)

11


1.4Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
* Nhập dữ liệu vào bảng tính

*Tính tỷ lệ bao xi măng của các hãng xi măng
Nhập vào:
D37=C37/SUM(C37:C42)
D38=C38/SUM(C37:C42)
D39=C39/SUM(C37:C42)
D40=C40/SUM(C37:C42)
D41=C41/SUM(C37:C42)
D42=C42/SUM(C37:C42)

12


Kết quả:

* Vẽ biểu đồ đứng thể hiện số lượng bao xi măng của từng hang xi măng
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert

* Kết quả:

13


*Vẽ biểu đồ tròn thể hiện tỷ lệ bao xi măng của các hang
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert.
* Kết quả:

1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác
suất nào đó hay khơng.
*Kiểm định A: Với mức ý nghĩa 1%, có thể coi mẫu A phù hợp với phân phối chuẩn hay
không?
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối H1: Mẫu không phù hợp với phân phối chuẩn
-

Tính các đặc trưng mẫu:
n =20
= 2685.55

14


= 125.573
+

là ước lượng hợp lý cực đại cho a => a =2685.55


+

là ước lượng hợp lý cực đại cho

=> σ = 125.573

Với k = 3, r =2,suy ra k-r-1=0, nên ta khơng thể tính
Suy ra khơng tìm được miền bác bó . Do đó ta khơng kết luận được dữ liệu A tuân
theo phân phối chuẩn

*Kiểm định A: mẫu A phù hợp với phân phối poisson hay khơng?

Nhìn vào bảng phân phối sác xuất trên, ta đủ cơ cở kết luận dữ liệu A không phải phân
phối poisson

15


Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau:
Ngày trong tháng

1

3

5

6


8

10

13

17

20

24

27

30

Tháng 4

7.6

10.2

9.3

4.4

3.2

5.6


6.3

7.4

8.4

3.9

7.2

6.5

Tháng 10

6.3

8.8

9

5.1

4.2

4.1

5.8

6.3


6.7

5.6

6.7

6.7

Với mức ý nghĩa 3%, có thể cho rằng doanh số bán trung bình hàng ngày trong tháng 10 có giảm
sút so với tháng 4 hay khơng? Tìm thêm giá trị P trong kiểm định.
Bài làm:
* Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu.

- Đặt

a1
a2

: Doanh số bán hàng tháng 4.

: Doanh số bán hàng tháng 10.

* Công cụ: t-test Paired Two Sample for Means
- Được dùng khi mẫu bé (N < 30), phụ thuộc, phương sai hai mẫu khơng bằng nhau và mỗi phần
tử khảo sát có 2 chỉ tiêu X (trước), Y (sau) khi thay đổi điều kiện thí nghiệm.
- Tiêu chuẩn kiểm định: t = , ,
- Biện luận: Nếu > thì bác bỏ , chấp nhận và ngược lại.
* Thực hiện bài toán trên Excel:
- Nhập số liệu:


16


- Vào Data/Data Analysis/ t-test: Paired Two Sample for Means/ OK:

- Lần lượt ấn định các thông số:
+ Phạm vi dữ liệu 1 (Variable 1 Range),
+ Phạm vi dữ liệu 2 (Variable 2 Range),
+ Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range).

* Kết

quả:
17


- Biện luận:
+ : : Doanh số bán hàng trong 2 tháng bằng nhau.
+ : : Doang số bán hàng trong tháng 10 giảm sút so với tháng 4.
= 2.0961 => Chấp nhận giả thuyết .
P = 0.1204
Vậy doanh số bán hàng trong 2 tháng bằng nhau.
Gía trị P cần tìm: P = 0.1204

18


Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:

Các quận nội thành
Ngày khảo sát
Quận 1

Quận 2

Quận 3

Quận 4

Quận 5

Thứ hai

254

236

267

223

245

Thứ ba

245

212


256

213

234

Thứ tư

236

223

245

230

232

Thứ năm

235

197

243

213

224


Thứ sáu

250

210

232

215

233

Thứ bảy

247

196

223

207

242

Lượng báo thực sự bán ra ở 5 quận có khác nhau khơng? Lượng báo bán ra có chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %.
Bài làm:
* Dạng bài: Phân tích phương sai hai yếu tố (khơng lặp).
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát (i = 1,2,.
…,r: yếu tố A; j = 1,2.….,c: yếu tố B).

- Gỉa thuyết:
+.
+.
- Gía trị thống kê: ,
- Biện luận: + Nếu
+ Nếu
Và ngược lại.

19


* Công cụ: “Anova: Two – Factor without Replication”:
* Thực hiện bài toán trên Excel:
- Nhập số liệu:

- Vào Date/Date Analysis/Anova: Two-Factor Without Replication/OK:

- Lần lượt ấn định các thông số:
+ Phạm vi đầu vào (Input Range),
+ Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
20


+ Phạm vi đầu ra (Output Range).

* Kết quả:

21



- Biện luận:
+
+
Vậy: - Lượng báo bán ra ở 5 quận là khác nhau.
- Lượng báo bán ra chịu tác động là các ngày trong tuần.

22


Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô
cùng lớn, chúng ta có số liệu:
Kết cục

Vật liệu 1

Vật liệu 2

Vật liệu 3

Vỡ vụn

25

45

41

Bị phá hủy một phần


40

35

33

Cịn tồn vẹn

35

20

26

Hãy kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi
nhiệt độ không? Sử dụng mức ý nghĩa 2%.
Bài làm:
* Dạng bài: Kiểm định giả thuyết về tỉ lệ.
* Phương pháp giải: Áp dụng kiểm định chi bình phương
* Cơng cụ: Dùng hàm ‘’CHITEST’’.
* Cơ sở lý thuyết:
- Đối với một thí nghiệm có hai kết quả (binomial experiment) – thí dụ, đối với một thuốc
được kê đơn: có hay khơng - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí
thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả
(multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều
trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi”
23


bình phương () cho phép bạn so sánh khơng những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc

xác suất) một cách tiện lợi. là phân phối về xác suất, khơng có tính đối xứng và chỉ có giá
trị 0. Giả sử bạn có một cơng trình nghiên cứu với N thử nghiệm độc lập, mỗi thử
nghiệm có k kết quả và mỗi kết quả mang một các xác suất thực nghiệm là (i = 1, 2, …k).
Nếu gọi là các giá trị lí thuyết tương ứng với thì các tần số lí thuyết sẽ là = N. Điều kiện
để áp dụng trắc nghiệm một cách thành công là các tần số lí thuyết phải 5.

- Gỉa thuyết:
+
+

=> Có ít nhất 1 cặp và

- Gía trị thống kê: ;
+ Với:
- Biện luận:
+ Nếu: => Bác bỏ giả thuyết
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:
=
Trong đó: + : Tần số thực nghiệm của ô thuộc hàng i và cột j;
+ : Tần số lý thuyết của ô thuộc hàng i và cột j;
+ r: số hàng và c: số cột.
+ Xác suất P(X > ) với bậc tự do DF= (r – 1)(c – 1); trong đó, r là số hàng và c là số cột
trong bảng ngẫu nhiên (Contingency Table).
+ Nếu P(X > ) > => Chấp nhận giả thuyết và ngược lại.

24


* Thực hiện bài toán trên Excel:
- Nhập số liệu và tính các thơng số tổng hàng, tổng cột:


- Tính các tần số lý thuyết: TSLT = (tổng hàng * tổng cột)/(tổng cộng).

25


×