Tải bản đầy đủ (.docx) (26 trang)

De tai 1 XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (846.12 KB, 26 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
KHOA KHOA HỌC ỨNG DỤNG
BỘ MƠN TỐN ỨNG DỤNG

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ

ĐỀ TÀI 1
GVHD: NGUYỄN KIỀU DUNG
THỰC HIỆN: NHĨM 1 – L08

1)

VĂN CƠNG BẰNG - 1410258

2)

NGUYỄN KHÁNH BÌNH - 1410284

3)

VÕ MINH ĐẠI - 1410756

4)

PHAN THẾ HIỀN - 1411231

5)

TRẦN VĂN HUY - 1411514


6)

BÙI LÊ NGỌC MIN - 1412249

7)

ĐẶNG HỒNG NHẬT - 1412670

8)

LƯƠNG HÀ PHƯƠNG – 1413016
Thành phố Hồ Chí Minh, tháng 05 năm 2016


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

2


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ
liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ
tin cậy 91% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay
khơng.

Bài làm:
Dạng bài: Thống kê mơ tả
Dữ liệu A: Khảo sát 50 sinh viên năm thứ 2, ngành Máy Tính về số ngơn ngữ lập trình mà sinh
viên sử dụng thành thạo bao gồm (được học và tự học).
6
1
2
4
3
1
4
2
2
7
5
2
3
1
2
0
5
3
1
7
1
1
4
3
3
1

5
4
4
8
3
4
4
6
4
2
5
5
5
2
4
8
4
8
2
3
4
5
7
2
Dữ liệu B: Kết quả phân ngành của sinh viên khoa Máy Tính:
Kỹ sư tài năng Khoa Học Máy Tính
40
Kỹ sư tài năng Kỹ Thuật Máy Tính
17
Khoa Học Máy Tính

190
Kỹ Thuật Máy Tính
53
Thực hiện phân tổ dữ liệu A:
Nhập dữ liệu (A) vào Excel:

1.1. Phân tổ dữ liệu (A)
- Xác định số tổ cần chia: k =
- Nhập vào ô A7 biểu thức: = (2*COUNT(A1:J5))^(1/3)
- Kết quả: 4.641589, chọn k = 4.
3


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Xác định trị số khoảng cách h theo công thức
+ Nhập vào ô B6 công thức: = (MAX(A1:J5)-MIN(A1:J5))/4
+ Kết quả: 2
+ Chọn h = 2
- Xác định được cận trên và cận dưới 4 tổ:
+ Tổ 1: 0 - 2
+ Tổ 2: 2 - 4
+ Tổ 3: 4 - 6
+ Tổ 4: 6 - 8
- Nhập vào các ô K2->K10 lần lượt các giá trị:

- Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết quả.

- Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ tính tần số

4


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Kết quả:

1.2) Vẽ đồ thị tần số và đa giác tần số (A):
- Quét bảng tần số B11:B14
- Insert Column Chart
- Kết quả:

- Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

5


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

+ Quét chọn B24:B29, dung chức năng Insert Line Chart
- Kết quả sau chỉnh sửa:

1.3) Tính các mẫu đặc trưng với ước lượng giá trị trung bình của dấu hiệu quan sát với độ
tin cậy 91% (A).
* Nhập dữ liệu vào bảng tính:


6


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Chọn chức năng Data/Data
Analysis/Descriptive Statistics
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho
trung bình.

* Kết quả:

1.4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
7


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Nhập dữ liệu vào bảng tính

* Tính tỉ lệ sinh viên cho các ngành:
Nhập vào:
+ C91 = B91/$B$95
+ C92 = B92/$B$95
+ C93 = B93/$B$95
+ C94 = B94/$B$95
Kết quả:


* Vẽ biểu đồ đứng thể hiện số lượn sinh viên ở các chuyên ngành
- Quét chọn cột Số sinh viên (B2:B7).
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert.
* Kết quả:
8


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:
- Quét chịn cột Số sinh viên (C2:C7).
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert.
* Kết quả:

9


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay khơng.
Kiểm định A: Với mức ý nghĩa 1%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không?
Giả thuyết kđ H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối kđ H1: Mẫu không phù hợp với phân phối chuẩn
-

Tính các đặc trưng mẫu: n = 50 (COUNT(A37:A86)
= 3.64 (AVERAGE(A37:A86))
= 2.0274 (STDEVP(A37:A86))


+

là ước lượng hợp lý cực đại cho a => a = 3.64

+

là ước lượng hợp lý cực đại cho

Với k = 4, r = 2 =>
Miền bác bỏ:

=> σ = 2.0274

= 6.6349 (CHISQ.INV(0.99,1))

= (6.6349;+ ∞)

Tính tiêu chuẩn kiểm định:
Khoảng

ni

(-∞;2)

17

(2;4)

18


(4;6)

9

(6;+∞)

6

=

Pi= P(
) – P(
)
(Hàm NORMSDIST)
0.2093
=NORM.S.DIST((2-A118)/A120,TRUE) – 0
0.3612
=NORM.S.DIST((4-A118)/A120,TRUE)-NORM.S.DIST((2-A118)/A120,TRUE)
0.3073
=NORM.S.DIST((6-A118)/A120,TRUE)-NORM.S.DIST((4-A118)/A120,TRUE)
0.1222
=1 - NORM.S.DIST((6-A118)/A120,TRUE)

= 6.7221

=> Chấp nhận H1, bác bỏ H0

=(1/A119)*((B124^2/C124)+(B125^2/C125)+(B126^2/C126)+(B127^2/C127))-A119
Vậy Mẫu (A) khơng có phân phổi chuẩn.
10



Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

*Có sử dụng dữ liệu bảng tính ở câu 3

11


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau:
Ngày trong tháng
1
3
5
6
8
10
13
17
20
24
27
Tháng 4
7.6 10.2 9.3 4.4 3.2 5.6 6.3 7.4 8.4 3.9 7.2
Tháng 10
6.3
8.8

9
5.1 4.2 4.1 5.8 6.3 6.7 5.6 6.7
Với mức ý nghĩa 3%, có thể cho rằng doanh số bán trung bình hàng ngày trong tháng 10

30
6.5
6.7

có giảm sút so với tháng 4 hay khơng? Tìm thêm giá trị P trong kiểm định.
Bài làm:
* Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu.
Đặt

: Doanh số bán hàng tháng 4.
: Doanh số bán hàng tháng 10.

* Công cụ: t-test Paired Two Sample for Means

- Giả thiết đặt ra là kiểm định hai bên:
H0:



H1:

* Thực hiện bài toán bằng Excel:
- Nhập dữ liệu vào bảng tính:

12



Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Vào Data/Data Analysis/ t-test: Paired
Two Sample for Means.

- Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dữ liệu tương
ứng của mẫu 1 và 2
+ Output options: vị trí xuất kết quả
+ Apha: mức ý nghĩa α

* Kết quả:

- Biện luận:Giả thuyết H0:
“Doanh số
bán ra của cửa hàng trong 2 tháng là như
nhau”.
H1:
“Doanh số bán ra của
cửa hàng trong 2 tháng khác nhau”.
= 1.2400 <
giả thuyết H0.

= 2.4907 => Chấp nhận

Vậy doanh số bán hang trong 2 tháng là như
nhau.
Giá trị P cần tìm: P = 0.2408.
13



Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:
Ngày khảo sát

Các quận nội thành
Quận 1

Quận 2

Quận 3

Quận 4

Quận 5

Thứ hai

254

236

267

223

245


Thứ ba

245

212

256

213

234

Thứ tư

236

223

245

230

232

Thứ năm

235

197


243

213

224

Thứ sáu

250

210

232

215

233

Thứ bảy

247

196

223

207

242


Lượng báo thực sự bán ra ở 5 quận có khác nhau khơng? Lượng báo bán ra có chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %.
1.Cơ sở lý thuyết:
Đây là dạng toán phân tích phương sai hai yếu tố (không lặp):
2.Tính toán trên máy tính:
Giả thiết: H0 – các giá trị trung bình là bằng nhau
Đối giả thiết: H1 – các giá trị trung bình là không bằng nhau.
Nhập dữ liệu vào máy tính:

Các bước thực hiện:
Sử dụng công cụ “Anova: Two – Factor without Replication”:
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”.
b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn định các giá trị:
Page | 14


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Phạm vi đầu vào (input range): chọn bảng tính ta vừa tạo.
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 5% = 0.05
-Phạm vi đầu ra (output Range).

Sau khi click Ok thì kết quả được hiện trong wooksheet mới:

Page | 15


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1


Nhận xét: Ta thấy FA > F5 (4.305483 > 2.71089) -> Lượng báo bán ra chịu yếu tố tác động trực
tiếp của các ngày trong tuần.
Tương tự, FB > F4 -> Lượng báo bán ra ở 5 quận có sự khác nhau.

Page | 16


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô cùng lớn,
chúng ta có số liệu:
Kết cục

Vật liệu 1

Vật liệu 2

Vật liệu 3

Vỡ vụn

25

45

41

Bị phá hủy một phần

40


35

33

Cịn tồn vẹn

35

20

26

Hãy kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
không? Sử dụng mức ý nghĩa 2%.
BÀI LÀM:
Dạng bài: Kiểm định giả thiết về tỉ lệ.
Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.
Cơng cụ giải: hàm CHITEST trên Excel.
Cơ sở lý thuyết:
- Trong thống kê, kiểm định chi bình phương hay kiểm tra 2. (đôi khi đọc là "khi bình
phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm
định tuân theo phân bố 2 nếu giả thuyết không là đúng. Chúng gồm:
Kiểm định chi bình phương Pearson
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
...
- Dạng thống kê kiểm định thông dụng nhất là:
2
2 ( o−e)

γ=
e
Với o là dữ liệu đo đạc, e là giá trị dự đốn chính xác.
Xét một bộ A gồm r tính trạng, A = (A1, A2, ...Ar), trong đó mỗi cá thể của tập hợp chính
H có và chỉ có một trong các tính trạng (hay phạm trù) Ai.
Gọi pi (i = 1, 2, ... r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H. Khi đó véctơ =(p1
, p2, ...pr) được gọi là phân bố của A trong tập hợp chính H.
Giả sử (p1, p2,...pr) là phân bố của (A1, A2,...Ar) trong tập hợp chính H và (q1, q2,...qr) là
phân bố của A = (A1, A2,...Ar) trong tập hợp chính Y. Ta nói (A1, A2,...Ar) có phân bố như
nhau trong X và Y nếu (p1, p2,...pr) = (q1, q2,...qr) p1 = q1,...pr = qr.
Chúng ta muốn kiểm định xem A = (A1, A2,...Ar) có cùng phân số trong X và Y hay không
dựa trên các mẫu ngẫu nhiên rút từ X và Y.
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2,...Hk. Gọi π i=(p i1 , pi2 , … , pir ) là phân bố
của A = (A1, A2,...Ar) trong tập hợp chính Hi.
Ta muốn kiểm định giả thuyết sau:
Page | 17


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1
1
2
k
H 0 :π =π =…=π (Các phân bố này là như nhau trên các tập hợp chính Hi).
Chú ý rằng H0 tương đương với hệ đẳng thức sau:

{

1

2


k

p 1= p1=…= p1
1
2
k
p 2= p2=…= p2
1
2
k
p i = pi =…= pi
1
2
k
p r = pr =…= pr

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ tập
hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2,... k).
Giả sử trong mẫu ngẫu nhiên thứ i:
Có n1i cá thể có tính trạng A1
n2i cá thể có tính trạng A2
..............................
nri cá thể có tính trạng Ar
k

r

j=1


i=1

Ký hiệu: nio =∑ nij ; n oj =∑ nij
Như vậy n0j là kích thước của mẫu thứ j, cịn nio là tổng số cá thể có tính trạng Ai trong
toàn bộ k mẫu đang xét:
r

k

i=1

j=1

nio =∑ nio =∑ n oj là tổng số tất cả các cá thể của k mẫu đang xét.

{

Nếu giả thiết H0 là đúng nghĩa là:
1

2

k

p 1= p1=…= p1= p 1
1
2
k
p 2= p2=…= p2= p 2
1

2
k
−−−−−−−−−−−¿ pi = pi =…= pi =p i
1
2
k
−−−−−−−−−−−¿ pr = pr =…= p r = pr

thì các tỷ lệ chung p1, p2,...pr được ước lượng bởi:
^
pi=

nio
n

Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. Khi đó số cá thể có tính
trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
n oj nio
n
Các số n^ij (i = 1,2,...r; j = 1,2,...k)được gọi là các tần số lý thuyết (TSLT), các số nij
được gọi là các tần số quan sát (TSQS).
Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách
giữa TSQS và TSLT được đo bằng test thống kê sau đây:
k
r
2
( nij −n^ij )2
(TSQS −TSLT )
T =∑ ∑
=∑

n^ij
TSLT
f =1 i=1
n^ij =noj ^
pi=

Page | 18


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Người ta chứng minh được rằng nếu H0 đúng và các TSLT khơng nhỏ hơn 5 thì T sẽ có
phân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T > c} ở
đó c được tìm từ điều kiện P{T > c} = . Vậy c là phân vị mức của phân bố 2 với (k1)(r-1) bậc tự do.

Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta dùng kiểm
định 2 (chi-quared):
2
r
c
(n −n^ )
tổnghàng x tổngcột
nij: tần số thực nghiệm;
γ 2=∑ ∑ ij ij với n pi=
n^ij
n
i=1 j=1
npij: tần số lý thuyết của ô (i,j);
r: số hàng;
c: số cột

Dùng hàm CHITEST (actual_range,expected_range).
Tính giá trị: P ( X > χ 2 ) = CHITEST
Nếu: P ( X > χ 2 ) > ∝thì chấp nhận H0 và ngược lại.
Thực hiện bài toán bằng excel:
Nhập dữ liệu vào bảng tính và tính tổng các hàng các cột:

Tính các tần số lý thuyết:
tần số lý thuyết = (Tổng hàng × Tổng cột)/(Tổng cộng):

Page | 19


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Sử dụng hàm CHITEST tính xác suất P(X> 2 ):

Kết quả và biện luận:
Giả thiết H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
H1: Khơng có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
Ta có: P(X> 2 ) = 0.026580894 > α=0.02
Bác bỏ giả thiết H1, chấp nhận giả thiết H0 . Vậy: có mối liên hệ phụ thuộc giữa loại vật liệu với
tác động thay đổi nhiệt độ.

Page | 20



×