MS – EXCEL TRONG
THỐNG KÊ
Nhóm 2
•
•
•
•
•
•
•
•
•
•
Vũ Cao Ân
Quan Ứng Biêu
Lê Anh Dũng
Lê Thị Mỹ Hiền
Bùi Phương Lan
Thái Chí Luân
Nguyễn Phan Duy Nguyên
Đặng Hải Thành
Phan Thương
Ngô Hồng Phong
60700108
60700152
60700417
60700785
60701224
60701404
60701633
60702198
60702428
60601761
Bài 1
Một nghiên cứu được tiến hành ở thành phố công
nghiệp X để xác định tỉ lệ những người đi làm bằng
xe máy, xe đạp và xe buýt.Việc điều tra được tiến
hành trên hai nhóm. Kết quả như sau:
Với mức ý nghĩa α=5%, hãy nhận định xem có sự khác
nhau về cơ cấu sử dụng các phương tiện giao thông đi
làm trong 2 nhóm công nhân nam và nữ hay không?
CƠ SỞ LÝ THUYẾT
• Giả sử ta có k tập hợp chính H1, H2,…Hk. Gọi πi = (pi1,
pi2, …, pir ) là phân bố của A = (A1, A2, …, Ar ) trong tập
hợp chính Hi với A là một bộ gồm r tính trạng
• Ta muốn kiểm định giả thuyết sau
H0: π1 = π2 = … = πk ( các phân bố này là như nhau
trên các tập hợp chính Hi ).
CƠ SỞ LÝ THUYẾT
Chú ý rằng H0 tương đương với hệ đẳng thức sau:
p11 = p21 = …= pk1
p12 = p22 = …= pk2
p1i = p2i = …= pki
p1r = p2r = …= pkr
• Từ mỗi tập hợp chính, ta chọn ra một mẫu ngẫu nhiên.
Mẫu ngẫu nhiên từ tập chính được gọi là mẫu ngẫu nhiên
thứ i (i = 1, 2, …, k)
Mẫu
Tính
trạng
1
2
…
J
…
K
Tổng
số
A1
n11
n12
…
n1j
…
n1k
n10
A2
n21
n22
…
n2j
…
n2k
n20
…
…
…
…
…
…
…
…
Ai
ni1
ni2
…
nij
…
nik
ni0
…
..
…
…
…
…
…
…
Ar
nri
nr2
…
nrj
…
nrk
nr0
Tổng số
n01
n02
…
n0j
…
n0k
n
k
n i0 = ∑ n ij
j=1
r
n 0j = ∑ n ij
i =1
CƠ SỞ LÝ THUYẾT
TSLT : n = n p =
*
ij
*
0j i
n 0j .n i0
n
TSQS : n ij
k
r
T = ∑∑
j=1 i =1
(n ij − n *ij ) 2
n
*
ij
(TSQS − TSLT) 2
=∑
TSLT
Nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ có
phân bố xấp xỉ phân bố χ2 với (k-1)(r-1) bậc tự do.
Miền bác bỏ có dạng T > c , ở đó c được tìm từ điều kiện
P{T > c} = α.
Vậy c là phân vị mức α của phân bố χ2 với (k-1)(r-1) bậc
tự do.
CƠ SỞ LÝ THUYẾT
Trong MS-EXCEL có hàm CHITEST:
r
c
χ2 = ∑∑
i =1 j=1
(Oij − E ij ) 2
E ij
Oij : tần số thực nghiệm của ô thuôc hàng i và cột j
Eij : tần số lý thuyết của ô thuộc hàng i với cột j, r: số hàng và c: số cột
Xác suất P(X > χ2 ) với bậc tự do DF = (r - 1)(c – 1)
• P(X > χ2 ) ≥ α ⇒ chấp nhận giả thiết Ho
• P(X > χ2 ) < α ⇒ loại bỏ giả thiết Ho
THUẬT TOÁN
Nữ
Nam
Tổng
Xe máy
25
75
100
Xe buýt
100
120
220
Xe đạp
125
205
330
LÍ THUYẾT
Nữ
38,46154 84,61538 126,9231
Nam
61,53846 135,3846 203,0769
Giá trị “P”
0,002189
Tổng
250
400
650
KẾT LUẬN
H0 : “Cơ cấu sử dụng phương tiện đi làm trong hai
nhóm công nhân là như nhau”
P (X > χ2) = 0.002189 < α = 0.05
⇒ Bác bỏ giả thiết H0
Cơ cấu sử dụng phương tiện giao thông
đi làm trong hai nhóm công nhân nam và
nữ là khác nhau
Bài 2
Một cửa hàng lớn có bán 3 loại giày A, B và C. Theo
dõi số khách hàng mua các loại giày này trong 5 ngày,
người quản lí thu được bảng số liệu sau
Với mức ý nghĩa α=1%,
hãy so sánh lượng tiêu
thụ trung bình của 3 loại
giày nói trên
CƠ SỞ LÝ THUYẾT
Giả sử {x11,x21,…,xn11} là một mẫu có kích thước n 1 rút ra từ tập hợp chính các giá trị của X 1;
{x12,x22,…,xn22} là một mẫu kích thước rút ra từ tập hợp chính các giá trị của X 2,…, {x1k,x2k,
…,xnkk} là một mẫu kích thước nk rút ra từ tập hợp các giá trị của X k.
Các mức nhân tố
Tổng số
Trung
bình
1
2
…
k
x11
x12
…
n1k
x21
x22
…
n2k
xn11
xn22
…
xnkk
T1
x1
T2
x2
…
…
Tk
k
n = ∑ ni
i =1
k
T = ∑ Tk
i =1
x=
T
n
CƠ SỞ LÝ THUYẾT
Bảng ANOVA
Nguồn
sai số
Bậc tự do
Tổng số bình phương
Yếu tố
k-1
2
Ti2 T
SSF = ∑ +
n
i =1 n i
Sai số
n-k
SSE = SST - SSF
k
Tổng
cộng
k
n-1
n
SST = ∑∑ Yn2 −
i =1 j=1
Bình phương
trung bình
Giá trị
thống kê
SSF
MSF =
k −1
MSF
F=
MSE
SSE
MSE =
n−k
T2
n
CƠ SỞ LÝ THUYẾT
MSF
Nếu giả thiết H0 đúng thì tỷ số F =
sẽ có phân bố
MSE
Fisher với bậc tự do là (k – 1, n – k ).
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa α
của phân bố Fisher với bậc tự do ( k – 1, n – k ).
Phương pháp kiểm định trên được gọi là phân tích
phương sai một nhân tố.
THUẬT TOÁN
- Nhập bảng số liệu như hình vẽ
- Chọn Tools/ Data Analysis/ Anova: Single Factor
KẾT LUẬN
H0 : “Lượng tiêu thụ trung bình của ba loại giày
nói trên là như nhau”
F = 7.59 > Fcrit = 6.93
⇒ Bác bỏ giả thiết H0
Lượng tiêu thụ trung bình của ba loại
giày nói trên là khác nhau.
Bài 3
Tính tỉ số tương quan của Y đối với X và hệ số xác định của tập số liệu sau đây:
Có nhận xét gì về mối quan hệ giữa X và Y?
CƠ SỞ LÝ THUYẾT
• Hai biến số ngẫu nhiên Y và X có thể liên quan tuyến tính,
có khuynh hướng tuyến tính hoặc không có liên quan
• Để đo mức độ phụ thuộc tuyến tính giữa 2 ĐLNN X và Y,
người ta đưa ra khái niệm hệ số tương quan
• Hệ số tương quan lý thuyết của X và Y, ký hiệu ρ được
định nghĩa bởi công thức sau
E(X − μ X )(Y − μ Y )
ρ=
σXσY
μ X , σ X là giá trị trung bình và độ lệch tiêu chuẩn của X
μ Y , σ Y là giá trị trung bình và độ lệch tiêu chuẩn của Y
CƠ SỞ LÝ THUYẾT
• Chúng ta có bài toán ước lượng và kiểm định hệ số tương
quan ρ căn cứ trên một mẫu quan sát (x1, y1) (x2, y2) , … , (xn,
yn) các giá trị của (X, Y)
• Đại lượng sau đây được sử dụng
như một ước lượng cho ρ
n
SXY
r=
=
SXXSXY
∑ (x
i =1
i
− x )(yi − y)
n
n
i =1
i =1
2
2
(x
−
x
)
(y
−
y
)
∑ i
∑ i
r được gọi là hệ số tương quan
Để tính toán thuận lợi, r có thể viết dưới dạng
r=
n( ∑ xy) − ( ∑ x)( ∑ y)
2
n ∑ x − (∑ x)
2
2
n ∑ y − (∑ y)
2
CƠ SỞ LÝ THUYẾT
• Tỉ số tương quan đuợc lý giải như là tỉ lệ biến động
của Y do có sự phụ thuộc tuyến tính của Y vào X
• Hệ số xác định là bình phương của hệ số tương quan,
kí hiệu: r2
• Hệ số xác định r là tỉ lệ biến động của Y do có sự phụ
thuộc tuyến tính của Y vào X
CƠ SỞ LÝ THUYẾT
Và hệ số tương
quan được dùng
trong việc đánh
giá mức độ liên
quan giữa X và Y
Giá trị |r|
Mức độ
< 0,70
Nghèo nàn
0,70 – 0,80 Khá
0,80 – 0,90 Tốt
> 0,90
Xuất sắc
THUẬT TOÁN
- Nhập bảng số liệu như hình vẽ
- Chọn Tools/ Data Analysis/ Correlation