Tải bản đầy đủ (.docx) (30 trang)

So 7 XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 30 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH
KHOA CƠ KHÍ

BÁO CÁO BÀI TẬP LỚN

XÁC SUẤT THỐNG KÊ

GVHD: Nguyễn Kiều Dung
Nhóm 3 – Đề tài 3

SVTH:
-

Phạm Minh Cảnh
Nguyễn Quốc Kiệt
Từ Phước Lâm
Nguyễn Trường Thịnh
Nguyễn Văn Long
Trần Công Hậu
Trần Trọng Phát

1410325
1411926
1411973
1413791
1412096
1411154
1412851

L04-A
L02-A


L10-B
L04-B
L10-B
L06-A
L10-B


Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1)Thực hiện phương pháp phân tổ dữ liệu (A).
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 93% (A).
4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay khơng.
Giải
 Dữ liệu (A): Khảo sát điểm thi cuối kì mơn Cơ lưu chất của 40 sinh viên
khoa Cơ khí:
8
9
4
5

8
7
10
8

7

8
9
4

2
5
8
6

5
5
7
7

9
7
8
8

9
8
5
7

6
5
3
7

5

7
5
9

8
8
9
7

 Dữ liệu (B): KẾT QUẢ PHÂN NGÀNH NHÓM NGÀNH - CƠ ĐIỆN TỬ
KHÓA K14:
KSTN Cơ điện tử
30
KSTN Chế tạo máy
30
KT Cơ điện tử
97
KT Chế tạo máy
157
KT Nhiệt
86
KT Thiết kế
50
KT MXD & NC
54


1/ Thực hiện phân tổ dữ liệu (A):
 Nhập dữ liệu (A) vào Excel:


1

 Xác định số tổ cần chia: k =(2 n) 3
 Chọn ô A6 nhập vào biểu thức: =(2*COUNT(A1:J4))^(1/3)
 Kết quả: 4.31
 Chọn k = 4


 Xác định số khoảng cách h theo công thức: h=

x max −x min
k

 Chọn ô B6 nhập vào công thức: =(MAX(A1:J4)-MIN(A1:J4))/4
 Kết quả: 2
 Chọn h = 2


 Lập ra các tổ chia được từ giá trị h=2
 Cận trên và cận dưới của các tổ:
Tổ 1
2–4
Tổ 2
4–6
Tổ 3
6–8
Tổ 4
8 – 10
 Nhập vào các ô K6 đến K10 lần lượt các giá trị:


 Chọn chức năng Data/Data Analysis/Histogram.
 Input Range: Địa chỉ tuyệt đối chứa dữ liệu.
 Bin Range: Địa chỉ chứa bảng phân nhóm.
 Output Options: Vị trí xuất kết quả.
 Confidence Lever for Mean: Độ tin cậy cho trung bình.
 Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng
Excel sẽ chỉ tính tần số.


 Kết quả:

Hay

2/ Vẽ đồ thị
tần số (A).

phân phối tần số và đa giác

 Vẽ đồ thị
phân phối tần số:
 Quét bảng tần số C11:C14
 Dùng chức năng Insert Column Chart trên menu Insert
 Kết quả:




đầu và cuối bảng phân phối tần số.

Vẽ đa

giác
tần số:
Sử
dụng
bảng
phân
phối
tần số
dữ liệu
(A).
Thêm
giá trị 0
vào


 Quét B2:B7, dung các chức năng Insert Line Chart trên manu Insert.
 Kết quả:

3/

Tính các đặc trưng mẫu và ước
lượng giá trị trung bình của dấu
hiệu quan sát với độ tin cậy 93%
(A).


Nhập dữ liệu vào
bảng tính:



 Chọn chức năng Data/Data Analysis/Descriptive Statistics
 Input Range: Địa chỉ tuyệt đối chứa dữ liệu.
 Output Option: Vị trí xuất keesrt quả.
 Confidence Lever for Mean: Độ tin cậy cho trung bình.

 Kết

quả:


4/ Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
 Nhập dữ liệu vào bảng tính:

 Tính tỉ lệ sinh viên cho các ngành:


Nhập vào C2: =(B2/$B$9), copy cho các ơ cịn lại.
Kết quả:

 Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành:
 Quét chọn cột Số sinh viên (B2:B8).
 Dùng chức năng Insert/Insert Column Chart/2-D Column trên manu
Insert.
 Kết quả:

 Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:


 Quét chọn cột Số sinh viên (C2:C8).
 Dùng chức năng Insert/Insert Column Pie/2-D Column trên menu

Insert.
 Kết quả:


Bài 2:
Một giám đốc doanh nghiệp quyết định gửi 8 nhân viên của mình đi dự một lớp tập huấn
về “Dịch vụ khách hàng”. Dưới đây là phản hồi của bộ phận chăm sóc khách hàng về các
nhân viên được cử đi tập huấn.
Tên nhân
viên

Số lần phàn nàn của khách hàng
3 tháng trước tập huấn

3 tháng sau tập huấn

A

3

2

B

5

4

C


12

10

D

8

6

E

6

6

F

5

3

G

7

3

H


9

4

Hãy nhận xét hiệu quả của quyết định trên với mức ý nghĩa 5%. Tìm thêm giá trị P trong
kiểm định.
Giải
Cơ sở lý thuyết
Trong trường hợp hai mẫu nhỏ (N < 30) độc lập và có phương sai
bằng nhau, bạn có thể áp dụng trắc nghiệm t đồng phương sai
(homoscedastic t-test) để so sánh giá trị trung bình của hai mẫu ấy.
Với d = x₁ − x₂, ta có:
H₀: d =0 (đợt tập huấn khơng có hiệu quả)
H₁: d ≥ 0 hay x 1> x2 (đợt tập huấn thực sự có hiệu quả)
Phương pháp kiểm định: So sánh hai trung bình với dữ liệu cặp (paired two
samples for means), phân phối Student với n=8, 1 phía. Tiêu chuẩn kiểm định:
T=

d−μ
T (n−1)
s/√n


Giá trị kiểm định: t=

d

√ s 2 /n

Giá trị tới hạn: T =t 95 % ( df =7 )=1,8946

Nếu t >T thì bác bỏ H₀, hay có thể kết kết luận đợt tập huấn thực sự có hiệu
quả. Ngược lại, nếu t ≤ T , ta thừa nhận H₀ (đợt tập huấn khơng có hiệu quả).
Giá trị P được tính theo công thức:
+∞

P=∫ f ( x ) dx , với

f ( x )=

( ) 1+ x
k)
k (
√ kπ Γ ( )
2
k +1
Γ
2

2 k+ 1
2

|t |

là hàm phân phối xác suất của T(k).

ÁP DỤNG MS-EXCEL
_ Nhập dữliệu

_ Nhấp lần lượt chọn thẻ Data và lệnh Data Analysis.
_ Chọn chương trình t- t-Test: Paired Two Sample for Means trong

hộp thoại DataAnalysis rồi nhấp nút OK.

_ Trong hộp thoại t-Test: Paired Two Sample for Means, ấn định lần lượt các


chi tiết:
+ Phạm vi của dữ liệu 1 (Variable 1 Range)
+ Phạm vi của dữ liệu 2 (Variable 2 Range)
+ Nhãn dữ liệu (Labels)
+ Ngưỡng tin cậy (Alpha)
+ Sai biệt giữa hai giá trị trung bình ước tính (Hypothesized Mean Difference)
+ Phạm vi đầu ra (Output Range).
_ Sau đó chọn OK

_ Ta sẽ được kết quả trong hộp thoại sau:

Ta chú ý đến các giá trị t Stat (giá trị kiểm định t ở trên), P(T≤t) one-tail (giá trị
P của phép kiểm định) và t Critical one-tail (giá trị tới hạn T cho mức ý nghĩa
5%).


Ta thấyt=3,6604> T =1,8946 , đồng thời với giá trị P nhỏ (0,004034), ta bác bỏ H₀
và kết luận “đợt tập huấn đã có hiệu quả”.
P = 0.00403388
Bài 3:
Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành, số liệu lấy ở một
đại lý bán lẻ:
Ngày khảo sát

Các quận nội thành

Quận 1

Quận 2

Quận 3

Quận 4

Quận 5

Thứ hai

254; 232

236;245

267;258

223;224

245;247

Thứ ba

245;235

212;246

256;276


213;219

234;251

Thứ tư

236;255

223;264

245;275

230;244

232;254

Thứ năm

235;209

197;223

243;234

213;223

224;242

Lượng báo thực sự bán ra ở 5 quận có khác nhau khơng? Lượng báo bán ra có chịu yếu tố
tác động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5%.


GIẢI
Kiểm định sự phụ thuộc của lượng báo bán ra với nơi bán và ngày bán với mức
ý nghĩa 10%
Thứ 2
Thứ 3
Thứ 4
Thứ 5

Q.1
254
245
236
235

Q.2
236
212
223
197

Q.3
267
256
245
243

Q.4
223
213

230
213

Q.5
245
234
232
224



970

868

1011

879

935


1225
1160
1166
1112

Ta sử dụng phương pháp phân tích phương sai hai nhân tố không lặp (twofactor ANOVA test without replication) để kiểm tra sự ảnh hưởng của hai yếu
tố “ngày bán” và “nơi bán” trên lượng báo bán ra quan sátđược.
x Q 1=x Q 2=x Q 3 =xQ 4=x Q 5

x T 2=x T 3 =x T 4 =x T 5=x T 6 =xT 7
Giả thiết H₁: có ít nhất một sự khác biệt về x ở một trong các nhóm.

Giả thiết H₀:


Cơ sở lí thuyết:
Mơ hình phân tích phương sai: x ij =x+ α i + β j + ε ij
α i là ảnh hưởng của điều kiện i, β ij là ảnh hưởng của điều kiện j và
trong đó:
giả thiết ε ij N (0,1)

T i∗¿=∑ x ¿

B
b1
a1



ij

j

bj

bm




x 11

x1 j

x1 m



T 1∗¿¿

xi 1

x ij

xℑ



T i∗¿¿

xn 1

x nj

x nm



T n∗¿¿








T ¿1

T¿j

T ¿m



A

ai


an

T ¿ j =∑ x ij
i




T =∑ x ij

Bảng ANOVA:

Nguồn
Yếu tố A
(hàng)
Yếu tố B
(cột)

SS

∑ T i∗¿

2

SSA=

SSB=

i

m
∑ T 2¿ j
j

n

Df
T2

¿
mn
2


T

mn

MS

F

dfa=n−1

MSA=

SSA
dfa

F A=

MSA
MSE

dfb=m−1

MSB=

SSB
dfb

F B=


MSB
MSE

MSE=

SSE
dfe

Sai số

SSE=SST −SSA−SSB

dfe=dfa × dfb

Tổng

T2
SST =∑ xij −
mn
i,j

dfa+dfb +dfe

Nếu F A > F dfa
dfe (1−α ) thì bác bỏ yếu tố A (hàng)


Nếu F B > F dfb
dfe (1−α ) thì bác bỏ yếu tố B (cột)
Áp dụng:

Ta có được bảng sau:

Ta chú ý đến các giá trị F và F crit của hai yếu tố Rows (ảnh hưởng của ngày
bán) và Columns (ảnh hưởng của nơi bán). Ta thấy:
F rows=8.985856469> Fcrit rows=2.605525 ⇒lượng báo bán ra giữa các ngày là khác

nhau.

F col umns=19.11629125 > Fcrit columns=2.480102 ⇒ lượng báo bán ra ở 5 quận là khác

nhau.


Bài 4:
Khảo sát ngẫu nhiên 300 sinh viên đã tốt nghiệp cùng một chuyên ngành từ 3 trường A,
B và C sau một năm ra trường, người ta có kết quả:
Trường
A
B
C

Đã đi làm

60
55
65

Học tiếp

Chưa có việc làm


12
10
6

28
35
29

Với mức ý nghĩa 3%, hãy cho biết có thể coi tình trạng việc làm của sinh viên 3 trường
trên là như nhau không?
Bài làm
1. Dạng tốn: Bài tốn kiểm định tính đồng nhất (bằng cách kiểm tra tính độc
lập)
2. Cơ sở lí thuyết:

 Giả thuyết:
H0: Tình trạng việc làm của sinh viên 3 trường là như nhau.
H1: Tình trạng việc làm của sinh viên 3 trường khác nhau.
B
A

B1

B2

...

Bk


Tổng

A1
n11
n12

n1k
n10
A2
n21
n22

n2k
n20






Ar
nr1
nr2

nrk
nr0
Tổng
n01
n02
...

n0k
N
 Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
 Các xác suất pio và poj được ước lượng bởi:
pi 0 ≈

ni 0
n

p0 j ≈

n0 j
n


 Do đó Ho đúng thì:
pij ≈ pi 0 p 0 j =

ni 0 n0 j
n2

 Và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng:
nij = np ij =

ni 0 n0 j
n

 Khoảng cách giữa các tần số lý thuyết và tần số quan sát được đo bằng đại
lượng sau:


Người ta đă chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn
5 thì sẽ có phân bố xấp xỉ phân bố với bậc tự do là (k–1).(r–1). Thành thử
Ho sẽ bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức của
phân bố với (k - 1).(r - 1) bậc tự do.
 Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng các
giá trị của nij và γij phải bằng nhau.

 Kết luận
Kết quả hàm CHITEST > α =0.03 → Chấp nhận giả thiết H0
3. Dùng excel:
 Nhập bảng số liệu:
 Tính tổng hàng và tổng cột.
 Tính tần số lý thuyết: Tần số = (tổng hàng * tổng cột) / tổng cộng.


 Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK
Lúc đó sẽ xuất hiện hộp thoại Function Argument

 Kết quả thu được:



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×