EXCEL TRONG THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.07 MB, 45 trang )

MS – EXCEL TRONG
THỐNG KÊ

Nhóm 2
•
•
•
•
•
•
•
•
•
•

Vũ Cao Ân
Quan Ứng Biêu
Lê Anh Dũng
Lê Thị Mỹ Hiền
Bùi Phương Lan
Thái Chí Luân
Nguyễn Phan Duy Nguyên
Đặng Hải Thành
Phan Thương
Ngô Hồng Phong

60700108
60700152
60700417
60700785

60701224
60701404
60701633
60702198
60702428
60601761

Bài 1
Một nghiên cứu được tiến hành ở thành phố công
nghiệp X để xác định tỉ lệ những người đi làm bằng
xe máy, xe đạp và xe buýt.Việc điều tra được tiến
hành trên hai nhóm. Kết quả như sau:

Với mức ý nghĩa α=5%, hãy nhận định xem có sự khác
nhau về cơ cấu sử dụng các phương tiện giao thông đi
làm trong 2 nhóm công nhân nam và nữ hay không?

CƠ SỞ LÝ THUYẾT
• Giả sử ta có k tập hợp chính H1, H2,…Hk. Gọi πi = (pi1,
pi2, …, pir ) là phân bố của A = (A1, A2, …, Ar ) trong tập
hợp chính Hi với A là một bộ gồm r tính trạng
• Ta muốn kiểm định giả thuyết sau
H0: π1 = π2 = … = πk ( các phân bố này là như nhau
trên các tập hợp chính Hi ).

CƠ SỞ LÝ THUYẾT
Chú ý rằng H0 tương đương với hệ đẳng thức sau:

p11 = p21 = …= pk1
p12 = p22 = …= pk2
p1i = p2i = …= pki
p1r = p2r = …= pkr
• Từ mỗi tập hợp chính, ta chọn ra một mẫu ngẫu nhiên.
Mẫu ngẫu nhiên từ tập chính được gọi là mẫu ngẫu nhiên
thứ i (i = 1, 2, …, k)

Mẫu
Tính
trạng

1

2

…

J

…

K

Tổng
số

A1

n11

n12

…

n1j

…

n1k

n10

A2

n21

n22

…

n2j

…

n2k

n20

…

…

…

…

…

…

…

…

Ai

ni1

ni2

…

nij

…

nik

ni0

…

..

…

…

…

…

…

…

Ar

nri

nr2

…

nrj

…

nrk

nr0

Tổng số

n01

n02

…

n0j

…

n0k

n

k

n i0 = ∑ n ij
j=1

r

n 0j = ∑ n ij
i =1

CƠ SỞ LÝ THUYẾT
TSLT : n = n p =
*
ij

*
0j i

n 0j .n i0
n

TSQS : n ij
k

r

T = ∑∑
j=1 i =1

(n ij − n *ij ) 2
n

*
ij

(TSQS − TSLT) 2
=∑
TSLT

Nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ có
phân bố xấp xỉ phân bố χ2 với (k-1)(r-1) bậc tự do.
Miền bác bỏ có dạng T > c , ở đó c được tìm từ điều kiện
P{T > c} = α.
Vậy c là phân vị mức α của phân bố χ2 với (k-1)(r-1) bậc
tự do.

CƠ SỞ LÝ THUYẾT
Trong MS-EXCEL có hàm CHITEST:
r

c

χ2 = ∑∑
i =1 j=1

(Oij − E ij ) 2
E ij

Oij : tần số thực nghiệm của ô thuôc hàng i và cột j
Eij : tần số lý thuyết của ô thuộc hàng i với cột j, r: số hàng và c: số cột

Xác suất P(X > χ2 ) với bậc tự do DF = (r - 1)(c – 1)
• P(X > χ2 ) ≥ α ⇒ chấp nhận giả thiết Ho
• P(X > χ2 ) < α ⇒ loại bỏ giả thiết Ho

THUẬT TOÁN

Nữ
Nam
Tổng

Xe máy
25
75
100

Xe buýt
100
120
220

Xe đạp
125
205
330

LÍ THUYẾT
Nữ
38,46154 84,61538 126,9231
Nam
61,53846 135,3846 203,0769
Giá trị “P”

0,002189

Tổng

250
400
650

KẾT LUẬN
H0 : “Cơ cấu sử dụng phương tiện đi làm trong hai
nhóm công nhân là như nhau”
P (X > χ2) = 0.002189 < α = 0.05
⇒ Bác bỏ giả thiết H0

Cơ cấu sử dụng phương tiện giao thông
đi làm trong hai nhóm công nhân nam và
nữ là khác nhau

Bài 2
Một cửa hàng lớn có bán 3 loại giày A, B và C. Theo
dõi số khách hàng mua các loại giày này trong 5 ngày,
người quản lí thu được bảng số liệu sau
Với mức ý nghĩa α=1%,
hãy so sánh lượng tiêu
thụ trung bình của 3 loại
giày nói trên

CƠ SỞ LÝ THUYẾT
Giả sử {x11,x21,…,xn11} là một mẫu có kích thước n 1 rút ra từ tập hợp chính các giá trị của X 1;
{x12,x22,…,xn22} là một mẫu kích thước rút ra từ tập hợp chính các giá trị của X 2,…, {x1k,x2k,
…,xnkk} là một mẫu kích thước nk rút ra từ tập hợp các giá trị của X k.

Các mức nhân tố

Tổng số
Trung
bình

1

2

…

k

x11

x12

…

n1k

x21

x22

…

n2k

xn11

xn22

…

xnkk

T1

x1

T2

x2

…
…

Tk

k

n = ∑ ni
i =1

k

T = ∑ Tk

i =1

x=

T
n

CƠ SỞ LÝ THUYẾT
Bảng ANOVA
Nguồn
sai số

Bậc tự do

Tổng số bình phương

Yếu tố

k-1

2
Ti2 T
SSF = ∑ +
n
i =1 n i

Sai số

n-k

SSE = SST - SSF

k

Tổng
cộng

k

n-1

n

SST = ∑∑ Yn2 −
i =1 j=1

Bình phương
trung bình

Giá trị
thống kê

SSF
MSF =
k −1

MSF
F=
MSE

SSE
MSE =
n−k

T2
n

CƠ SỞ LÝ THUYẾT
MSF
Nếu giả thiết H0 đúng thì tỷ số F =
sẽ có phân bố
MSE

Fisher với bậc tự do là (k – 1, n – k ).
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa α
của phân bố Fisher với bậc tự do ( k – 1, n – k ).
Phương pháp kiểm định trên được gọi là phân tích
phương sai một nhân tố.

THUẬT TOÁN

- Nhập bảng số liệu như hình vẽ
- Chọn Tools/ Data Analysis/ Anova: Single Factor

KẾT LUẬN
H0 : “Lượng tiêu thụ trung bình của ba loại giày
nói trên là như nhau”
F = 7.59 > Fcrit = 6.93
⇒ Bác bỏ giả thiết H0

Lượng tiêu thụ trung bình của ba loại
giày nói trên là khác nhau.

Bài 3
Tính tỉ số tương quan của Y đối với X và hệ số xác định của tập số liệu sau đây:

Có nhận xét gì về mối quan hệ giữa X và Y?

CƠ SỞ LÝ THUYẾT
• Hai biến số ngẫu nhiên Y và X có thể liên quan tuyến tính,
có khuynh hướng tuyến tính hoặc không có liên quan
• Để đo mức độ phụ thuộc tuyến tính giữa 2 ĐLNN X và Y,
người ta đưa ra khái niệm hệ số tương quan
• Hệ số tương quan lý thuyết của X và Y, ký hiệu ρ được
định nghĩa bởi công thức sau

E(X − μ X )(Y − μ Y )
ρ=
σXσY
μ X , σ X là giá trị trung bình và độ lệch tiêu chuẩn của X
μ Y , σ Y là giá trị trung bình và độ lệch tiêu chuẩn của Y

CƠ SỞ LÝ THUYẾT
• Chúng ta có bài toán ước lượng và kiểm định hệ số tương
quan ρ căn cứ trên một mẫu quan sát (x1, y1) (x2, y2) , … , (xn,
yn) các giá trị của (X, Y)
• Đại lượng sau đây được sử dụng
như một ước lượng cho ρ
n

SXY
r=
=
SXXSXY

∑ (x
i =1

i

− x )(yi − y)

n

n

i =1

i =1

2

2
(x
−
x
)
(y
−
y
)
∑ i
∑ i

r được gọi là hệ số tương quan
Để tính toán thuận lợi, r có thể viết dưới dạng

r=

n( ∑ xy) − ( ∑ x)( ∑ y)
2

n ∑ x − (∑ x)

2

2

n ∑ y − (∑ y)

2

CƠ SỞ LÝ THUYẾT
• Tỉ số tương quan đuợc lý giải như là tỉ lệ biến động
của Y do có sự phụ thuộc tuyến tính của Y vào X
• Hệ số xác định là bình phương của hệ số tương quan,
kí hiệu: r2
• Hệ số xác định r là tỉ lệ biến động của Y do có sự phụ
thuộc tuyến tính của Y vào X

CƠ SỞ LÝ THUYẾT
Và hệ số tương
quan được dùng
trong việc đánh
giá mức độ liên
quan giữa X và Y

Giá trị |r|

Mức độ

< 0,70

Nghèo nàn

0,70 – 0,80 Khá
0,80 – 0,90 Tốt
> 0,90

Xuất sắc

THUẬT TOÁN

- Nhập bảng số liệu như hình vẽ
- Chọn Tools/ Data Analysis/ Correlation

EXCEL TRONG THỐNG KÊ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về