Tải bản đầy đủ (.docx) (15 trang)

TÍNH CÁC THAM SỐ THỐNG KÊ CƠ BẢN PHÂN TỔ SỐ LIỆU VÀ VẼ ĐỒ THỊ PHÂN BỐ TẦN SỐ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (617.22 KB, 15 trang )

Bài 1
TÍNH CÁC THAM SỐ THỐNG KÊ CƠ BẢN
PHÂN TỔ SỐ LIỆU VÀ VẼ ĐỒ THỊ PHÂN BỐ TẦN SỐ
* Hướng dẫn cài đặt Data Analysis:
- Với Office 2003:
Mở một file Excel bất kỳ → chọn Tools → chọn Add-ins → Tích vào 2 ô
vuông đầu tiên: Analysis ToolPak và Analysis ToolPak-VBA → nhấn Ok.
- Với Office 2007, 2010:
Mở một file Excel bất kỳ → chọn nút Home (nút tròn góc trên bên phải màn
hình) → Chọn Excel Options → chọn Add-Ins → chọn Go → Tích vào 2 ô vuông
đầu tiên: Analysis ToolPak và Analysis ToolPak-VBA → nhấn Ok.
1.1. Tính các tham số thống kê cơ bản
Vào số liệu thu được trên bảng tính Excel như hình sau:
Nếu là Office 2003: Chọn Tools, chọn tiếp Data Analysis
Nếu là Office 2007, 2010: Chọn Data, chọn tiếp Data Analysis được hình
sau.
Di chuyển con trượt bên phải theo chiều mũi tên xuống phía dưới hoặc lên
trên để chọn dòng Descriptive Statistics.
Nhấn chuột vào hộp OK để có hình sau
Chọn cột số liệu (cả tên biến) trong bảng tính đưa vào hộp Input Range. Tích
vào Columns nếu số liệu theo cột, tích vào Rows nếu số liệu theo hàng. Sau đó tích
vào ô Label in First Row (nếu dãy số liệu không có tên biến hoặc có tên biến
nhưng không đưa vào Input Range thì không tích).
Tích vào vòng tròn Output Range, nháy chuột vào hộp của nó, sau đó dùng
chuột nhấn vào bất kỳ một cell trống nào trong bảng để chọn điểm ra cho bảng kết
quả tính.
Đánh dấu tiếp vào ô vuông nhỏ của Summary Statistics và Confidence Level
for Mean sẽ được hình sau:
95% là giá trị độ tin cậy. Có thể thay đổi độ tin cậy tùy theo yêu cầu của bài.
Nhấn chuột vào hộp OK được kết quả hiện trên bảng Excel như sau:
x


Mean 41.02857143
Standard Error 1.877100264
Median 41
Mode 46
Standard Deviation 11.10507492
Sample Variance 123.3226891
Kurtosis -0.956693133
Skewness -0.258809802
Range 38
Minimum 21
Maximum 59
Sum 1436
Count 35
Confidence Level(95.0%) 3.814726684
Giải thích các tham số thống kê trong bảng:
1. Mean: giá trị trung bình của dãy số liệu
2. Standard Error: Sai số chuẩn (độ lệch chuẩn của giá trị trung bình)
3. Median: Số trung vị (Là số đứng ở vị trí trung gian, chia dãy số liệu thành
2 phần bằng nhau. Nếu dãy số liệu lẻ thì số trung vị là số đứng giữa, nếu dãy số
liệu chẵn thì số trung vị là trung bình cộng của 2 số đứng giữa)
3. Mode: Số mốt (Là số có tần số lớn nhất trong dãy số liệu)
4. Standard Deviation: Độ lệch chuẩn mẫu
5. Sample Variance: Phương sai mẫu
(Phương sai mẫu hay độ lệch chuẩn mẫu cho biết dãy số liệu biến động
nhiều hay ít. Các giá trị này nhỏ chứng tỏ dãy số liệu biến động ít)
7. Kurtosis: Độ nhọn (đánh giá mức độ tập trung của các cá thể quanh giá trị
trung bình). Nếu giá trị độ nhọn bằng 0 thì đồ thị tuân theo đường phân phối
chuẩn. Nếu giá trị độ nhọn dương (>0) thì đồ thị nhọn hơn so với đường phân phối
chuẩn. Nếu giá trị độ nhọn âm (<0) thì đồ thị tù hơn so với đường phân phối chuẩn.
8. Skewness: Độ lệch (đánh giá đồ thị lệch trái hay lệch phải). Nếu giá trị độ

lệch bằng 0 thì đồ thị tuân theo đường phân phối chuẩn. Nếu giá trị độ lệch dương
(>0) thì đồ thị lệch phải, quần thể có xu hướng phát triển. Nếu giá trị độ lệch âm
(<0) thì đồ thị lệch trái, quần thể có xu hướng suy thoái.
9. Range: Phạm vi biến động của dãy số liệu. Range = x
max
– x
min

10. Minimum: Giá trị nhỏ nhất của dãy số liệu
11. Maximum: Giá trị lớn nhất của dãy số liệu
12. Sum: Tổng toàn bộ các giá trị của dãy số liệu
13. Count: dung lượng mẫu
14. Confidence Level(95.0%): nửa khoảng tin cậy (sai số ước lượng của cả
đám đông)
1.2. Phân tổ số liệu và vẽ đồ thị phân bố tần số
Mục đích: Đưa số liệu vào một trật tự nhất định để dễ dàng rút ra quy luật
hay bản chất của vấn đề nghiên cứu.
Nhập số liệu vào Excel theo cột. Căn cứ vào giá trị thực của số liệu, xác định
số tổ cần phân chia k và khoảng cách tổ h.
Tạo Bin Range (Bin là giá trị giới hạn trên của mỗi tổ. Lấy giá trị nhỏ nhất
làm giới hạn dưới của tổ, khi đó giới hạn trên của tổ đầu tiên = x
min
+ h. Nếu số tổ
là k thì chỉ cần tạo (k – 1) giá trị Bin.
Chọn Data Analysis → chọn Histogram:
Nhấn OK. Cửa sổ Histogram xuất hiện trên màn hình như sau:
Chọn toàn bộ số liệu trong bảng tính Excel đưa vào Input Range. Tiếp tục
nhấn chuột vào hộp Bin Range, đưa tất cả các giá trị của Bin Range vào. Tích vào
Label (nếu khi đưa số liệu vào hộp Input Range ta chọn cả tên biến). Đưa chuột
đến hộp Output Range rồi chọn bất kỳ vị trí nào còn trống trong bảng Excel để ghi

kết quả sau khi tính. Tích vào Cumulative Percentage và Chart Output, lúc này trên
màn hình có hình sau:
Nhấn chuột vào hộp OK, được kết quả trên bảng Excel như sau:
Bin Frequency Cumulative %
29 6 17.14%
37 6 34.29%
45 8 57.14%
53 11 88.57%
More 4 100.00%
Frequency: tần số xuất hiện của các cá thể trong mỗi tổ
Cumulative %: tần số tích lũy tính theo %
Bài 2
SO SÁNH GIÁ TRỊ TRUNG BÌNH CỦA HAI MẪU
2.1. Trường hợp dung lượng mẫu lớn (n>30)
Đây là trường hợp so sánh các giá trị trung bình mẫu được lấy ngẫu nhiên từ
hai đám đông không thuần nhất và không biết trước phương sai của chúng.
Cách tiến hành so sánh như sau:
Nhập số liệu vào Excel theo 2 cột biến x, y; chọn Data Analysis sau đó dịch
thanh trượt theo chiều thẳng đứng lên hoặc xuống để chọn Z-test:Two Sample for
Means
Nhấn chuột vào hộp OK được hình sau:
Đưa số liệu của biến 1 vào hộp Variable 1 Range và số liệu của biến 2 vào
hộp Variable 2 Range.
Hypothesized Mean Difference: giả thuyết về sự khác nhau của hai giá trị
trung bình (H
0
). Điền số 0 vào hộp này.
Điền giá trị phương sai mẫu của hai biến (lấy từ phần tính các tham số thống
kê mẫu) vào hai hộp Variable 1 Variance (known) và Variable 2 Variance (known)
Tích vào hộp Labels nếu phần Input Range đưa cả tên biến vào.

Alpha: mức ý nghĩa (α= 1 – P)
Đưa chuột đến hộp Output Range rồi chọn bất kỳ vị trí nào còn trống trong
bảng Excel để ghi kết quả sau khi tính.
Nhấn chuột vào hộp OK thu được kết quả như sau:
z-Test: Two Sample for Means
x y
Mean 41.02857143 47.13157895
Known Variance 123.32 124.9
Observations 35 38
Hypothesized Mean Difference 0
z -2.338631086
P(Z<=z) one-tail 0.009677267
z Critical one-tail 1.644853627
P(Z<=z) two-tail 0.019354535
z Critical two-tail 1.959963985
Phân tích kết quả:
- Mean: giá trị trung bình của hai biến
- Known Variance: phương sai mẫu của hai biến
- Observations: số cá thể quan sát của hai biến
- Z : giá trị z thực nghiệm
- P(Z<=z) one-tail: xác suất để z
tn
≤ z
lt
của kiểm định một phía (hay là xác
suất chấp nhận giả thuyết H
0
của kiểm định 1 phía)
- z Critical one-tail: z lý thuyết của kiểm định một phía
- P(Z<=z) two-tail: xác suất để z

tn
≤ z
lt
của kiểm định hai phía ((hay là xác
suất chấp nhận giả thuyết H
0
của kiểm định 2 phía)
- z Critical two-tail: z lý thuyết của kiểm định hai phía
(Sử dụng giá trị của P và z lý thuyết của kiểm định 2 phía để so sánh)
Có hai cách so sánh để kết luận:
(1) So sánh z
tn
với z
lt
. Nếu z
tn
≤ z
lt
→ chấp nhận H
0
(hai giá trị trung bình
khác nhau không có ý nghĩa). Nếu z
tn
> z
lt
→ bác bỏ H
0
( hai giá trị trung bình khác
nhau có ý nghĩa).
(2) So sánh P(Z<=z) two-tail với 0,05. Nếu P ≥ 0,05 thì chấp nhận H

0
, bác
bỏ H
1
. Nếu P < 0,05 thì bác bỏ H
0
, chấp nhận H
1
.
2.2. Trường hợp dung lượng mẫu nhỏ (n ≤ 30)
Trường hợp này thường được áp dụng khi so sánh hai đám đông thuần nhất.
Chúng là các đám đông đã ổn định, sự biến động của các chỉ tiêu nghiên cứu trong
chúng nhỏ nên với dung lượng mẫu lấy nhỏ cũng đủ đại diện cho đám đông.
Cách tiến hành:
Bước 1: Kiểm định hai phương sai
Nhập số liệu vào Excel theo 2 cột biến x, y. Chọn Data Analysis → di
chuyển thanh trượt bên phải, chọn F-test: Two - Sample for Variances được hình
như sau:
Nhấn chuột vào hộp OK được hình sau:
Lần lượt đưa số liệu của 2 biến vào hộp Variable 1 Range và Variable 2
Range. (Lưu ý: dãy số liệu nào có phương sai mẫu lớn hơn thì đưa vào hộp
Variable 1 Range, dãy số liệu nào có phương sai mẫu nhỏ hơn thì đưa vào hộp
Variable 2 Range)
Tích vào hộp Labels nếu phần Input Range đưa cả tên biến vào.
Alpha: mức ý nghĩa (α= 1 – P)
Đưa chuột đến hộp Output Range rồi chọn bất kỳ vị trí nào còn trống trong
bảng Excel để ghi kết quả sau khi tính
Nhấn chuột vào hộp OK thu được kết quả như sau:
F-Test Two-Sample for Variances
x y

Mean 36.64285714 58.76470588
Variance 26.70879121 11.69117647
Observations 14 17
df 13 16
F 2.284525537
P(F<=f) one-tail 0.059793735
F Critical one-tail 2.397254234
Phân tích kết quả:
- Mean: giá trị trung bình của hai biến
- Variance: phương sai mẫu của hai biến
- Observations: số cá thể quan sát của hai biến
- df: Bậc tự do
- F : giá trị F thực nghiệm
- P(F<=f) one-tail: xác suất để F
tn
≤ F
lt
của kiểm định một phía (hay là xác
suất chấp nhận giả thuyết H
0
của kiểm định 1 phía)
- F Critical one-tail: F lý thuyết của kiểm định một phía
Có hai cách so sánh để kết luận:
(1) So sánh F
tn
với F
lt
. Nếu F
tn
≤ F

lt
→ chấp nhận H
0
(hai phương sai khác
nhau không có ý nghĩa). Nếu F
tn
> F
lt
→ bác bỏ H
0
( hai phương sai khác nhau có ý
nghĩa).
(2) So sánh P(F<=f) one-tail với 0,05. Nếu P ≥ 0,05 thì chấp nhận H
0
, bác bỏ
H
1
. Nếu P < 0,05 thì bác bỏ H
0
, chấp nhận H
1
.
Trong ví dụ này F
tn
< F
lt
=> hai phương sai khác nhau không có ý nghĩa.
Bước 2: Kiểm định hai giá trị trung bình
Chọn Data Analysis. Di chuyển thanh trượt bên phải xuống phía dưới, chọn
t-Test: Two Sample Assuming Equal Variances nếu kiểm định ở bước 1 cho kết

quả 2 phương sai bằng nhau (khác nhau không có ý nghĩa); chọn t-Test: Two
Sample Assuming Unequal Variances nếu kiểm định ở bước 1 cho kết quả 2
phương sai khác nhau có ý nghĩa.
Trong ví dụ này chọn t-Test: Two Sample Assuming Equal Variances
Nhấn chuột vào hộp OK để được hình ảnh trong EXCEL như sau:
Làm tương tự các bước như trường hợp dung lượng mẫu lớn: vào số liệu cho
hai biến, đặt giả thiết H
0
, tích vào Labels khi cần thiết, thay đổi hoặc giữ nguyên
Alpha tùy vào yêu cầu của đề bài, chọn điểm ra kết quả trong Output Range như
hình sau:
Nhấn chuột vào hộp OK được kết quả như sau:
t-Test: Two-Sample Assuming Equal Variances
x y
Mean 36.64285714 58.76470588
Variance 26.70879121 11.69117647
Observations 14 17
Pooled Variance 18.42321066
Hypothesized Mean Difference 0
df 29
t Stat -14.2805979
P(T<=t) one-tail 5.92546E-15
t Critical one-tail 1.699126996
P(T<=t) two-tail 1.18509E-14
t Critical two-tail 2.045229611
Phân tích kết quả:
Đọc kết quả và đi đến kết luận tương tự trường hợp dung lượng mẫu lớn
- Mean: giá trị trung bình của hai biến
- Variance: phương sai của hai biến
- Observations: số cá thể quan sát của hai biến

- Pooled Variance: Phương sai gộp
- Hypothesized Mean Difference: giả thuyết về sự khác nhau của hai giá trị
trung bình
- df: bậc dự do
- t Stat : giá trị t thực nghiệm
- P(T<=t) one-tail: xác suất để t
tn
≤ t
lt
của kiểm định một phía
- t Critical one-tail: t lý thuyết của kiểm định một phía
- P(T<=t) two-tail: xác suất để t
tn
≤ t
lt
của kiểm định hai phía
- t Critical two-tail: t lý thuyết của kiểm định hai phía
2.3. So sánh cặp đôi
Được áp dụng khi so sánh giá trị trung bình mẫu của hai mẫu được đo trên
cùng đối tượng nhưng qua các thời kỳ khác nhau.
Tiến hành: Nhập số liệu vào Excel. Chọn Tools, Data Analysis sau đó di
chuyển thanh trượt đứng xuống phía dưới và chọn dòng t–Test: paied Two Sample
for Means như hình sau:
Kích chuột vào hộp OK, nhập số liệu tương tự như hai trường hợp trên để có
hình sau:
Nhấn chuột vào hộp OK thu được kết quả như sau:
t-Test: Paired Two Sample for Means
x y
Mean 39.36 47.04
Variance 126.6566667 115.79

Observations 25 25
Pearson Correlation 0.072473636
Hypothesized Mean Difference 0
df 24
t Stat -2.560607031
P(T<=t) one-tail 0.008581276
t Critical one-tail 1.710882067
P(T<=t) two-tail 0.017162552
t Critical two-tail 2.063898547
Phân tích kết quả tương tự trường hợp so sánh khi dung lượng mẫu nhỏ.
(Pearson Correlation: hệ số tương quan R)

×