MÔN XÁC SUẤT THỐNG KÊ
---------------o0o---------------
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
NHÓM 8
TP. HCM ngày 5, tháng 4, năm 2019.
DANH SÁCH THÀNH VIÊN NHÓM
2
MỤC LỤC
DANH SÁCH THÀNH VIÊN NHÓM: ..................................................................................... 2
Bài 2 : ...................................................................................................................................... 4
1.
Đề bài: ........................................................................................................................ 4
2. Dạng tốn: PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH. .................. 4
3. Cơ sở lý thuyết:............................................................................................................... 4
4. Phần mềm: Micsrosoft Excel và IBM SPSS. ................................................................. 6
4.1
Chương trình: Regression. ..................................................................................... 6
4.2
Phương pháp giải bài tốn trên Excel 2010. ....................................................... 6
4.3
Giải bài toán bằng phần mềm IBM SPSS. ........................................................ 10
Bài 3: ..................................................................................................................................... 15
1. Đề bài ............................................................................................................................ 15
2.
Dạng toán: So sánh tỷ số. ......................................................................................... 16
3.
Cơ sở lý thuyết: ........................................................................................................ 16
4.
Phần mềm sử dụng để giải: Microsoft Excel và IBM SPSS. ................................... 17
4.1
Giải bài toán trên phần mềm Microsoft Excel. ................................................. 17
4.2
Giải bài toán bằng phần mềm SPSS .................................................................. 21
Bài 4: ..................................................................................................................................... 25
1.
Đề bài ....................................................................................................................... 25
2.
Dạng toán: Phân tích phương sai một yếu tố. .......................................................... 26
3.
Cơ sở lý thuyết: ........................................................................................................ 26
4.
Phần mềm sử dụng để giải: Microsoft Excel và IBM SPSS. ................................... 29
4.1
Giải bài toán trên phần mềm Microsoft Excel. ................................................. 29
4.2
Giải bài toán bằng phần mềm IBM SPSS ......................................................... 32
Bài 5: ..................................................................................................................................... 37
1.
Đề bài ....................................................................................................................... 37
2.
Dạng toán: PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ (KHƠNG LẶP) .......... 37
3.
Cơ sở lý thuyết: ........................................................................................................ 37
4.
Phần mềm: Microsoft Excel và IBM SPSS. ........................................................... 41
4.1
Chương trình: Anova: Two-Factor Without Replication .................................. 41
4.2
Phương pháp giải bài toán trên Excel: .............................................................. 41
3
Bài 2 :
1. Đề bài:
Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính các giá trị
của cặp ĐLNN (X, Y):
X
Y
2,3
7
2,5
8
2,6
4
3,1
4
3,4
6
3,7
6
X
7,3
3,9
4
4,1
4,1
Y
14
12
8
5
7
X
Y
4,2
8
4,4
7
4,7
9
5,1
10
5,5
13
X
Y
5,8
7
6,2
11
6,9
11
6,9
16
a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy.
c) Tính tỷ số F để kiểm định giả thiết: Có hồi quy tuyến tính của Y theo X ?
Bài giải:
2. Dạng tốn: PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH.
3. Cơ sở lý thuyết:
❖ PHƯƠNG TRÌNH TỔNG QUÁT:
Y X = B0 + BX
B0 = Y − BX
n
B=
X iYi −
i =1
n
X
i =1
2
i
1
N
n
XY
i =1
i i
− NX 2
4
Bảng ANOVA:
Nguồn
sai sơ
Bậc tự do
Tổng số bình phương
Bình phương trung
bình
Giá trị thống
kê
n
SSR =
Hồi quy
(Y ' − Y ')
i =1
2
MSR = SSR
i
F=
MSR
MSE
n
Sai số
N–2
Tổng
cộng
N–1
SSE= =
(Y − Y ')
i =1
2
i
MSE = SSE/(N - 2)
❖ GIÁ TRỊ THỐNG KÊ:
- Gía trị R-bình phương (R-square):
R=
-
SSR
( 100R2: % của biến đổi trên Y đượcgiải thích bởi X)
SST
Độ lệch chuẩn (Standard Error)
S=
-
1 n
(Yi − Y 'i ) 2
N − 2 i =1
(Sự phân tán của dữ liện càng ít thì giá trị của S càng gần zero).
Trắc nghiệm thống kê:
Đối với một phương trình hồi quy Y X = B0 + BX , ý nghĩa thống kê của các hệ số
Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất
thích hợp của phương trình Y X = f ( X ) được đánh giá bằng trắc nghiệm F (phân bố
Fischer)
-
Trắc nghiệm t:
+ Giả thiết:
H0: βi = 0 “Hệ số hồi quy khơng có ý nghĩa”
H0: βi ≠ 0 “Hệ số hồi quy có ý nghĩa”
+ Giá trị thống kê:
5
t=
Bi − i
S
2
n
;S =
2
n
S2
n
(X
i =1
i
− X )2
=
B
Sn2
Phân bố Student = N – 2
+ Biện luận:
Nếu t < tα (N - 2) chấp nhận giả thiết H0.
-
Trắc nghiệm F:
+ Giả thiết:
H0: βi = 0 “Hệ số hồi quy không thích hợp”
H0: βi ≠ 0 “Hệ số hồi quy thích hợp”
+ Giá trị thống kê: F =
MSR
MSE
Phân bố Fischer v1 = 1, v2 = N – 2
+ Biện luận:
Nếu F < Fα (N - 2) chấp nhận giả thiết H0.
4. Phần mềm: Micsrosoft Excel và IBM SPSS.
4.1 Chương trình: Regression.
4.2 Phương pháp giải bài toán trên Excel 2010.
Đặt giả thiết:
- H0: "Phương trình hồi quy khơng thích hợp
- H1: "Phương trình hồi quy thích hợp"
▪
Bước 1: Nhập số liệu vào Excel
6
▪ Bước 2 : Nếu trong menu Tools chưa có mục Data Analysis , tiến hành cài Analysis
ToolPak như sau :
Chọn File /Option/Add-Ins/Data Analysis Tool Pak /Go…/ Analysis Tool Pak /OK… như
trong hình :
▪
Bước 3: Sử dụng Data => Regression
7
Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp Regression, lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
-
Phạm vi của biến số X (Input X Range)
-
Nhãn dữ liệu (Labels)
-
Mức tin cậy (Confidence Level)
-
Tọa độ đầu ra (Output Range)
-
Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai
số (residuals plots...)
▪
Bước 4: Nhấn OK ta được bảng kết quả :
8
Từ đó ta có được
- Phương trình hồi quy: Ŷ = 1.05 + 1.68 (R2 = 0.57, S = 2.22)
- Sai số tiêu chuẩn: 2.22041
- F = 24.30
Tra bảng phân phối Fisher với bậc tự do DF=(19-1)(2-1) ở mức 5% bằng cách
nhập hàm
c = FINV(0.05,1,18) ta được giá trị c = 4.41387
Vì F > c nên ta bác bỏ Ho.
Kết luận: Phương trình hồi quy thích hợp.
9
4.3 Giải bài toán bằng phần mềm IBM SPSS.
▪ Bước 1: Khai báo các biến trong cửa sổ Variable View.
▪
Bước 2: Nhập số liệu vào cửa sổ Data View:
10
▪ Bước 3: Chọn tab Analyze/ Regression/ Linear Regression như dưới hình:
Bước 4: Trong bảng chọn Linear Regression, ta lần lượt đưa các biến Diameter
và Height vào ô Dependent và Independent(s) bằng cách nhấp vào nút
và
như hình dưới:
11
12
Chọn Stastistics → nhấp chọn R Squares change và Descriptives
Cuối cùng nhấn OK.
▪ Kết quả và kết luận:
13
14
Với bảng kết quả trên ta có các thơng số :
Từ đó ta có được
- Phương trình hồi quy: Ŷ = 1.05 + 1.68 (R2 = 0.57, S = 2.22)
- Sai số tiêu chuẩn: 2.22041
- F = 24.30
Tra bảng phân phối Fisher với bậc tự do (1;18) ở mức 5% ta được giá trị
c = 4.41387
Vì F > c nên ta bác bỏ Ho.
Kết luận: -Phương trình hồi quy thích hợp.
-Có sự tương đồng kết quả khi giải bằng hai phần mềm khác nhau.
Bài 3:
1. Đề bài
15
Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước ngoài. Để
đánh giá xem thị phần mà cơng ty có thể chiếm lĩnh được tại ba thị trường đó so với
các đối thủ cạnh tranh có khác nhau hay khơng người ta đã thử nghiệm thị trường
bằng cách bán thử sản phẩm cho 150 khách hàng tiềm năng tại mỗi thị trường và thu
được kết quả sau:
Thị trường
A
B
C
Công ty
55
38
24
Đối thủ cạnh tranh 1
28
30
21
Đối thủ cạnh tranh 2
20
18
31
Các đối thủ khác
47
64
74
Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau
hay khơng ?
Bài giải:
2. Dạng tốn: So sánh tỷ số.
3. Cơ sở lý thuyết:
Đối với một thí nghiệm có hai kết quả (binomial experiment ) ta thường so sánh
hai tỉ số với nhau ( thực nghiệm với lý thuyết hay thực nghiệm với thực nghiệm).
Song đối với một thí nghiệm có nhiều kết quả ( multinomial experiment ) ta cần
so sánh nhiều tỷ số. Trắc nghiệm “khi” bình phương (𝑋 2 ) cho phép ta só sánh
khơng những hai mà còn nhiều tỷ số (hay tỷ lệ hoặc xác suất ) một cách tiện lợi.
𝑋 2 là phân phối về xác suất, khơng có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử
ta có một cơng việc nghiên cứu với N thử nghiệm là 𝑃𝑖 (𝑖 = 1,2, … , 𝑘 ). Nếu gọi
𝑃𝑖,0 là các giá trị lý thuyết tương ứng với 𝑃𝑖 thì các tần số lý thuyết sẽ là 𝐸𝑖 =
16
𝑁𝑃𝑖,0 . Điều kiện để áp dụng trắc nghiệm 𝑋 2 một cách thành công là các tần số lý
thuyết 𝐸𝑖 phải ≥ 5.
Giả thiết:
H0 : P1= P1,0, P2= P2,0,…, Pk,0 “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”.
Giá trị thống kê:
(𝑂 −𝐸 )2
𝜒 2 = ∑𝑘𝑖=1 [ 𝑖 𝑖 ]
𝐸𝑖
𝑂𝑖 - các tần số thực nghiệm (observed frequency)
𝐸𝑖 - các tần số lý thuyết (expected frequency)
Biện luận:
Nếu 𝜒 2 > 𝜒𝛼2 => bác bỏ giả thiết H0 (DF = k - 1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
- Giá trị 𝜒 2 thep biểu thức:
(𝑂 −𝐸 )2
𝜒 2 = ∑ℎ𝑖=1 [ 𝑖 𝑖 ]
𝐸𝑖
𝑂𝑖 - các tần số thực nghiệm của ô thuộc hàng i và cột j
𝐸𝑖 - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột.
- Xác suất 𝑃(𝑋 > 𝜒 2 ) với bậc tự do 𝐷𝐹 = (𝑟 − 1)(𝑐 − 1), trong đó: r là số
hàng và c là số cột trong bảng ngẫu nhiên (contingency table).
Nếu 𝑃(𝑋 > 𝜒 2 ) > 𝛼 => Chấp nhận giả thiết H0.
Nếu 𝑃(𝑋 > 𝜒 2 ) < 𝛼 => Bác bỏ giả thiết H0.
4. Phần mềm sử dụng để giải: Microsoft Excel và IBM SPSS.
4.1 Giải bài toán trên phần mềm Microsoft Excel.
▪ Bước 1: Nhập vào bảng số liệu.
17
▪ Bước 2: Gọi Ho là giả thiết: “Cơ cấu của ba thị trường trên là như nhau.”
▪ Bước 3: Tính tổng hàng và cột:
Đặt con trỏ tại ơ B3 rồi giữ chuột kéo đến ơ E7.
Sau đó nhấn nút
trong tab Home.
Ta được tổng hàng và tổng cột:
▪ Bước 4: Tính tần số lý thuyết:
Tần số = (tổng hàng * tổng cột) / tổng cộng.
Đặt con trỏ tại ô B11 nhập lệnh =$E3*B$7/$E$7 rồi Enter.
18
Kéo thả từ ơ B10 đến ơ D13, sau đó nhấn F2 rồi nhấn tiếp tổ hợp phím
Ctrl+Enter.
▪ Bước 5: Dùng hàm CHITEST để tính :
Nhấn vào tab Formulas , chọn Insert Function chọn CHITEST rồi nhấn OK.
Lúc đó sẽ xuất hiện hộp thoại Function Arguments
Nhập các giá trị tần số quan sát B3:D6 vào mục Actual_range
19
Rồi nhập các giá trị tần số lí thuyết B10:D13 vào mục Expected_range. Nhấn
OK
20
▪
Kết quả và kết luận:
Ta được giá trị P-value = 0,000448 < α = 0,05 => Bác bỏ giả thuyết 𝐻0
➢ Kết luận: Cơ cấu của ba thị trường trên là khác nhau.
4.2 Giải bài toán bằng phần mềm SPSS
▪ Bước 1: Khai báo các biến trong cửa sổ Variable View.
▪
Bước 2: Nhập số liệu vào cửa sổ Data View:
21
▪ Bước 3: Chọn lệnh Weight Cases
trên thanh công cụ, chuyển biến SLKH
sang tần số
22
Bước 4: Chọn Analysis → Descriptive Statistics → Crosstabs
Sau đó đưa biến CT vào ô Row(s), biến THITRUONG vào ô Column(s).
Chọn Cells → Column → Continue
Chọn Statistics → Chi-square → Continue
Cuối cùng nhấn OK.
23
▪ Kết quả và kết luận:
24
Giá trị Asym.Sig.(2-sided) là giá trị P-value cần tìm.
Với P-value = 0,000448 < α = 0,05 => Bác bỏ giả thuyết 𝐻0
➢ Vậy: - Cơ cấu của ba thị trường trên là khác nhau.
-Có sự tương đồng kết quả khi giải bằng hai phần mềm khác nhau.
Bài 4:
1. Đề bài
Người ta tiến hành đo mực nước sông tại một số địa điểm thuộc tỉnh X trong cùng một
ngày (số lần đo không giống nhau) và thu được bảng số liệu sau đây:
Địa điểm đo
Thời điểm đo
F1
F2
F3
F4
1
5.5
4.9
4.6
4.5
2
5.6
5.1
4.8
6.2
3
5.8
6.5
5.8
4.8
4
5.9
5.4
5.1
4.8
5
6.0
6.1
6.2
6.5
6
6.7
7.1
6.8
7
7.2
Với mức ý nghĩa α = 2%. Mực nước sơng trung bình / ngày của các điểm nói trên có
thực sự khác nhau hay khơng?
Bài giải:
25