Tải bản đầy đủ (.doc) (27 trang)

BTL dề tài 9 cô Dung xác suất thống kê Đại học bách khoa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 27 trang )

ĐẠI HỌC BÁCH KHOA TP-HCM

BÁO CÁO BÀI TẬP LỚN XÁC
SUẤT THỐNG KÊ

Giáo viên hướng dẫn: Nguyễn Kiều Dung
Nhóm 09:
Sinh viên thực hiện:
1.Nguyễn Văn Cường
1410462
2.Châu Thanh Hải(NT)
1411037
3.Nguyển Đức Huy
1411454
4.Hà Gia Lộc
1412123
5.Đặng Đình Nguyên
1412528
6.Nguyễn Mạnh Thi
1413701
7.Tạ Minh Thành
1413587
8.Đỗ Phạm Quang Trí
1414201
Thủ Đức, tháng 11 năm 2015



BÀI 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu
đó cho các yêu cầu sau:


1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

BÀI LÀM:
+ Dạng bài: Thống kê mô tả.
+ Dữ liệu A : Thống kê sản lượng tiêu thụ điện năm 2010 qua từng tháng .
Sản lượng điện tiêu thụ năm 2010
Tháng Sản lượng tiêu thụ (nghìn kWh)
1
1453
2
1267
3
2162
4
1931
5
2168
6
2074
7
2058
8
1867
9
2078
10

2219
11
1963
12
2086

a) Thực hiện phương pháp phân tổ dữ liệu (A):
+Nhập dữ liệu (A) vào Excel


+ Xác định số tổ cần chia

k=(

Chọn ô E1 nhập vào biểu thức =CEILING((2*COUNT(B3:B14))^0.33,1)
Ta được kết quả k=3
+ Xác định trị số khoảng cách h theo công thức h =
Chọn ô D3 nhập vào biểu thức =CEILING((MAX(B3:B14)-MIN(B3:B14))/E1,1)
Ta được kết quả h =318
+Ta xác định được cận trên và cận dưới lần lượt là
Nhóm 1 :1267-1585
Nhóm 2 : 1585-1903
Nhóm 3 : 1903-2221
+ Nhập vào các ô từ A16 tới A18

+Chọn chức năng Data/ Data Analysis/Histogram.
- Input Range: địa chỉ tuyệt đối chứa dư liệu.
- Bin Range: địa chỉ chứa bảng phân nhóm.
- Output options: vị trí xuất kết quả.
- Confidence Level for Mean: độ tin cậy cho trung bình.

- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ
tính tần số.
+Ta nhập các giá trị như trong bảng


+ Ta nhận được bảng giá trị như sau

|
+ Ta có thể chỉnh sửa lại như sau

b) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
* Vẽ đồ thị phân phối tần số:
+Quét chọn bảng tần số B2:B4
+Dùng chức năng Insert Column Chart trên menu Insert.

+Nhấp chuột phải vào bảng chọn Select Data chỉnh sửa những thông số cần thiết


+Sau khi chỉnh sửa ta có

*Vẽ đa giác tần số (A)
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

+Quét chọn A9:B13, dùng chức năng Insert Line Chart trên menu Insert

+ Nhấp chuột phải vào bảng mới có, chọn Select Data chỉnh sửa thông số cần thiết


+ Sau khi chỉnh sửa ta có


c) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu
quan sát với độ tin cậy 96% (A).
+ Chọn chức năng Data/Data Analysis/Descriptive Statistics.
-Input Range: địa chỉ tuyệt đối chứa dư liệu.
-Output options: vị trí xuất kết quả.
-Confidence Level for Mean: độ tin cậy cho trung bình.
+ Nhập vào bảng các số liệu cần thiết


+Kết quả nhận được


d) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị:
 Nhập dữ liệu và bảng tính :

 Tính tỉ lệ sinh viên cho các ngành:

+Nhập vào C3: =B3/$B$9, copy cho các ô còn lại.

 Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành:
+ Quét chọn cột Số sinh viên (B3:B8)
+ Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu Insert.


 Kết quả thu được:

 Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành.
+ Quét chọn cột Số sinh viên (C3:C8)
+ Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert.


 Kết quả thu được:


Bài 2:
Hai máy cùng gia công một loại chi tiết. Để kiểm tra xem 2 máy này có củng độ
chính xác như nhau hay không, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, đem
đo và thu được kết quả sau (đơn vị mm):
Máy A 137
138
135
140
138
137
139
Máy B 142
135
140
138
136
138
141
Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%?
Giả thiết rằng kích thước chi tiết có phân phối chuẩn.
Nhận dạng bài toán: Đây là bài toán so sánh hai phương sai
Cơ sở lí thuyết: Trắc nghiệm so sánh hai phương sai thường được áp dụng để so sánh
độ chính xác của hai phương pháp định lượng khác nhau.
Giả thuyết:

H0:

H1:

Giá trị thống kê:

F=

Phân phối Fisher:
Biện luận
Nếu F <

Chấp nhận giả thuyết H0 với xác suất (1 - α )100%

Bài làm
Nhập dữ liệu vào bảng:

So sánh 2 phương sai: Áp dụng F-Test Two-Sample for Variances:
Dùng lệnh Data Analysis -> F-Test Two-Sample for Variances


Trong hộp thoại F-Test Two-Sample for Variances, lần lượt ấn định các chi tiết:
- Tọa độ của dữ liệu 1 (Variable 1 Range), tọa độ của dữ liệu 2 (Variable 2 Range),
- Nhãn dữ liệu (Labels),
- Ngưỡng tin cậy (Alpha)


Kết quả thu được:

Gọi

là phương sai của chi tiết làm từ máy A.

là phương sai của chi tiết làm từ máy B.

Giả thiết kiểm định H0:

“Hai máy có độ chính xác như nhau”.

Giả thiết đối H1:
“Hai máy có độ chính xác khác nhau”.
Ta thu được B10= F� (N1 - 1; N2 - 1)= 0.1564
Miền bác bỏ W�= (F� (N1 - 1; N2 - 1); +∞)=(0.1564; +∞)
Tiêu chuẩn kiểm định:

F=
F > F�(N1 – 1; N2 – 1) -> Bác bỏ H0..
Kết luận: Vậy hai máy có độ chính xác khác nhau.


BÀI 3: Theo giới thiệu của nhà phân phối , mức tiêu thụ nhiên liệu trung bình của 4 loại xe ô tô
là như nhau .Sau một thời gian chạy xe, người ta đo đạt lại trên các quãng đường như nhau
thì kết quả như sau :
Loại xe

Mức tiêu thụ nhiên liệu

I

20

21.2


18.7

19.5

20.1

22

21

II

21.2

21.2

20.4

19.6

22

21.1

20

III

21.5


21.2

21

21.5

22

20.7

IV

19.9

22

21

23

21.2

20.6

21.7

21.3

Có thể coi mức tiêu thụ nhiên liệu của 4 loại xe này còn giống nhau hay không, với mức ý
nghĩa 4%.Tìm hệ số xác định R2 của bài toán và giải thích ý nghĩa của nó .

Phương pháp

PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay
nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so
sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay
tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k).
Mô hình:
Yếu tố thí nghiệm

Tổng cộng
trung bình

1

2

…..

K

Y11

Y21

…..

Yk1


Y12

Y22

…..

Yk2

…..

…..

…..

…..

Y1N

Y2N

…..

YkN

T1

T2

…..


Tk

___

___

Y2

Y1

T

___

…..

___

Yk

Y

Bảng ANOVA:
Nguồn sai số

Bậc sai số

Tổng số bình phương

Yếu tố


k-1

Sai số

N-k

T
T2
SSF= ∑ i −
N
i =1 N

MSF=

SSF
k −1

SSE=SST-SSF

MSE=

SSE
N −k

k

2

Bình phương trung bình


Giá trị thống kê
F=

MSF
MSE


Tổng cộng

N-1

k

n

SST= ∑∑ Y
i =1 j =1

2

n



T2
N

Trắc nghiệm:
Giả thiết:




H0: µ1 = µ 2 = ..... = µ k ⇔ “Các giá trị trung bình bằng nhau”
H1: µ i ≠ µ j ⇔ “Ít nhất có hai giá trị trung bình khác nhau”
MSF
MSE



Giá trị thống kê: F=



Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0

Hệ số xác định R-square và ý nghĩa của nó
Cơ sở lý thuyết :
Nhân tố F

1

2



i




p

1

X11

X12



X1i



X1p

2

X21

X22



X2i



X2p


.

.

.

.

.

.

.

.

.

.

.

.

.

.

.


.

.

.

.

.

.

Nk

N1

N2

.

Ni

.

Np

STT quan sát

-


TSS ( Total sum of squares) : tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát X ki và
giá trị trung bình mẫu chung của chúng. Ký hiệu :
ni

X =

X =

(∑ X ki )
k =1

ni

∑∑ X

Ta có :

i

k

n

, i = 1, p
ki

, n = ∑ ni , i = 1, p, k = 1, ni





∑ Ti 
i

TSS = ∑∑ ( X ki − X ) 2 = ∑ Qi − 
n
i
k
i
-

2

Trong đó :

Qi = ∑ X ki2 ; Ti = ∑ X ki
k

k

MSS (Model sum of squares) : là tổng bình phương các sai lệch giữa các giá trị trung bình mẫu của các
nhóm quan sát ( phân theo mức nhân tố i) và trung bình mẫu .

MSS = ∑
i

-

.


(



Ti 

2

T 
2
X i − X ni = ∑  i  −  i 
n
i  ni 

2

)

R2 : là tỷ lệ hay số phần trăm chiếm trong tổng số 100% của toàn bộ sai lệch của X ki so với giá trị trung
bình của chúng . R2 được sử dụng để đo mức độ ảnh hưởng của các nhân tố chứa trong mô hình đối với sự
biến động của các giá trị của biến ngẫu nhiên X xung quanh giá trị trung bình của nó . R 2 được gọi là hệ
số xác định của mô hình phân tích phương sai, đó cũng chính là mức độ thích hợp của mô hình. R 2 càng
lớn mô hình càng thích hợp , càng giải thích được nhiều hơn sự biến động của các giá trị biến ngẫu nhiên
X dưới tác động của các nhân tố có trong mô hình.

R2 =

MSS
TSS


Tính trên Excel :

R2 =

SSF
SST

Bài làm


Kiểm định phương sai một yếu tố :

Đây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ nhiên liệu trung bình phụ thuộc vào loại
xe . Giả thiết H0: µ1 = µ2 = µ3= µ4; tức mức tiêu thụ nhiên liệu trung bình là bằng nhau
 Nhập dữ liệu vào bảng:

 Áp dụng Anova: Single Factor
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: Single Factor lần lượt ấn định
− Phạm vi đầu vào (Input range)
− Cách xắp xếp theo hàng hay cột (Group by)
− Nhấn dử liệu (Labels in fisrt row/column)
− Phạm vi đầu ra (Output range)


Bảng Anova:





Kết luận:

Miền bác bỏ : Wα=( Fα(k-1;N-k),+∞) = (3.234466,+∞)
Từ giá trị trong bảng Anova:
F= 1.284075 < Fα= 3.234466 => Không thể bác bỏ giả thuyết H0
=> Mức tiêu thụ nhiên liệu của 4 loại xe là như nhau



Hệ số xác định R2 và ý nghĩa của nó :

R2 =

SSF
SST


Hệ số xác định R2 = 0.138309 . Ý nghĩa : Nhân tố loại xe ảnh hưỡng 13.83% đến mức tiêu thụ nhiên
liệu của từng loại xe ( hay 13.83% sự khác biệt về mức tiêu thụ nhiên liệu trung bình cũa từng loại xe).

Bài 4 : Một cuộc điều tra xã hội được tiến hành ở 5 thành phố A,B,C,D,E. Người ta yêu cầu
những người đươc đòi hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống.
Kết quả được cho như sau :
Mức độ thỏa mãn


Thành phố
Rất thỏa mãn
Tương đối

Không
A
220
121
63
B
130
207
75
C
84
54
24
D
156
95
43
E
122
164
73
Với mức ý nghĩa α=3% . Hãy kiểm định xem mức độ thõa mãn có phân bố giống nhau ở 5 thành
phố trên hay không ?

Bài làm :
 Nhận xét:
 Giả thuyết H0:
 Giả thuyết H1 :

Đây là bài toán kiểm định giả thuyết vể tỷ lệ.

Mức độ thỏa mãn giữa các thành phố như nhau.
Mức độ thỏa mãn giữa các thành phố khác nhau.

THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Nhập giá trị vào bảng tính:

Tính tổng các số:
• Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo nút tự điều
khiển từ điền từ E3 đến E7.
• Tổng cột: Chọn B8, nhập =SUM(B3:B7), rồi Enter, dùng con trỏ kéo nút tự điều
khiển từ B8 đến E7.
• Tổng cộng: chọn E8 và nhập =SUM(E3:E7).


Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng
• A: Chọn B13: nhập =E3*$B$8/$E$8, rùi Enter, dùng con trỏ kéo nút tự điều khiển
từ B13 đến B17.
• B: Chọn C13: nhập =E3*$C$8/$E$8, rồi Enter, dùng con trỏ kéo nút tự điều khiển từ
C13 đến C17.
• C: Chọn D13: nhập =E3*$D$8/$E$8, rồi Enter, dùng con trỏ kéo nút tự điều khiển
từ D13 đến D17.

• Áp dụng hàm số CHITEST tính giá trị
Chọn B19, nhập =CHITEST(B3:D7,B13:D17), rồi Enter.



 Kết luận:

Bài 5:


Biện luận:
P(X > χ2)=3,5299.10-13 < 0,03
 Bác bỏ giả thuyết H0.
Vậy mức độ thỏa mãn giữa các thành phố là khác nhau


Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi
quy tuyến tính đơn. Thực hiện các yêu cầu:
1/ Tìm hệ số tương quan giữa X,Y.
2/ Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng
đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3/ Tìm hệ số xác định R2.
4/ Tìm sai số chuẩn của ước lượng.

Bài làm
* Dạng bài: Hồi quy tuyến tính đa tham số.
* Số liệu thu thập được:

1. Tìm hệ số tương quan giữa X, Y
a. Cơ sở lý thuyết
- Sự phân rích tương quan khảo sát khuynh hướng và mức độ của sự liên quan, trong sự
phân tích hồi quy xác định sự liên quan định lượng giữa hai biến số ngẫu nhiên Y và X. Hệ số
tương quan có thể được ước tính bởi biểu thức:

- Hệ số tương quan được dùng trong việc đánh giá mức độ liên quan


Giá trị |R|
<0,70

0,70 – 0,80
0,80 – 0,90
>0,90

Mức độ
Nghèo nàn
Khá
Tốt
Xuất sắc

b. Áp dụng MS-EXCEL
* Nhập dữ liệu trên vào bảng tính MS-EXCEL
* Sử dụng “Correlation”
- Nhấp lần lượt Data – Data Analysis

- Chọn chương trình “Correlation” trong hộp thoại Data Analysis rồi nhấn nút
OK.

- Trong hộp thoại “Correlation” lần lượt ấn định các chi tiết như hình sau, sau đó
nhấn OK:

* Kết quả:


- Từ bảng kết quả trả về ta rút ra được hệ số tương quan giữa 2 đại lượng X (Tiết
diện ruột) và Y (Dòng điện cho phép) là RX,Y=0,9837.
2. Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng
đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
a. Cơ sở lý thuyết
- Đối với phương trình hồi quy ŶX = B0 + BX, ý nghĩa thống kê của các hệ số B i (B0 hay

B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất thích hợp của
phương trình ŶX = f(X) được đánh giá bằng trắc nghiệm F (phân bố Fischer).
Trắc nghiệm t
- Giả thiết: H0: βi = 0 “Các hệ số hồi quy không có ý nghĩa”
H1: βi ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Giá trị thống kê:
B − βi
S2
2
t= i
S
=
;
n
∑ ( X i − X )2
Sn2
Phân bố Student:
γ=N–k–1
- Biện luận:
Nếu tTrắc nghiệm F
- Giả thiết: H0: βi = 0 “Phương trình hồi quy không thích hợp”
H1: βi ≠ 0 “Phương trình hồi quy thích hợp” với ít nhất vài Bi.
- Giá trị thống kê:
F=

MSR
MSE

Phân bố Fischer:

n1 = 1, n2 = N – k – 1
- Biện luận:
Nếu Fb. Áp dụng MS-EXCEL
* Sử dụng “Regression”
- Nhấp lần lượt Data – Data Analysis
- Chọn chương trình “Regression” trong hộp thoại Data Analysis rồi nhấn nút
OK.


- Trong hộp thoại “Regression” lần lượt ấn định các chi tiết như hình sau, sau đó
nhấn OK:


×