Họ và tên học viên: Nguyễn Thanh Thừa
Đề 04
Lớp: Lý thuyết Xác suất thống kê K22
(Thời gian làm bài 180 phút)
Với số liệu trong tệp tracnghiemhs hãy sử dụng phần mềm SPSS để
1. Mô tả riêng rẽ các biến hocluc11 (học lực năm lớp 11) và toan (điểm tổng kết học kỳ 1 môn
Toán) một cách thích hợp bằng các tham số thống kê và bằng đồ thị.
Giải:
Mô tả biến định tính hoclưc11
* Lệnh: Analyze/Descriptive Statistic/Frequencien/
Cho biến hocluc11 vào ô Variable(s)
Kết quả:
Statistics
hocluc11
N
Valid
297
Missing
Percentiles
0
25
2.00
50
2.00
75
2.50
hocluc11
Frequency
Valid
Percent
Valid Percent
Cumulative Percent
1
24
8.1
8.1
8.1
2
199
67.0
67.0
75.1
3
72
24.2
24.2
99.3
4
2
.7
.7
100.0
297
100.0
100.0
Total
Phân tích mô tả:
- Bảng số liệu cho thấy có 297 học sinh;
- Học sinh có học lực năm lớp 11 thuộc nhóm 1 là 24 chiếm tỷ lệ 8.1%, có học lực năm
lớp 11 thuộc nhóm 2 là 199 chiếm tỷ lệ 67%, học sinh có học lực năm lớp 11 thuộc nhóm 3 là 72
học sinh chiếm tỷ lệ 24.2 %, học sinh có học lực năm lớp 11 thuộc nhóm 4 là 2 chiếm tỷ lệ 0.7%;
Biểu đồ hình cột
Biểu đồ hình bánh:
Qua biểu đồ thể hiện số lượng học sinh có học lực tập trung nhóm 2 là nhiều nhất và
thuộc nhóm 4 là ít nhất.
Mô tả biến định lượng toan:
* Lệnh: Analyze/Descriptive Statistic/Explore/
Cho biến toan vào ô Dependent List
Kết quả:
Case Processing Summary
Cases
Valid
N
toan
Missing
Percent
297
100.0%
N
Total
Percent
0
.0%
N
Percent
297
100.0%
Descriptives
Statistic
toan
Mean
Std. Error
7.228
95% Confidence Interval for Mean
Lower Bound
7.089
Upper Bound
7.367
5% Trimmed Mean
7.260
Median
7.300
Variance
1.487
Std. Deviation
.0708
1.2194
Minimum
4.0
Maximum
9.6
Range
5.6
Interquartile Range
1.6
Skewness
-.429
.141
Kurtosis
-.301
.282
Phân tích mô tả:
- Số lượng học sinh 297;
- Điểm trung bình môn toán của học sinh là 7.228 điểm; điểm trung bình sau khi loại bỏ
5% (2.5% điểm nhỏ nhất và 2.5% điểm lớn nhất) nhằm loại bỏ giá trị ngoại lai (nếu có) là 7.260
điểm, điểm lớn nhất là 9.6 điểm, điểm nhỏ nhất là 4.0 điểm, trung vị là 7.300 điểm.
- Khoảng ước lượng điểm trung bình môn toán là (7.089; 7.367).
- Mức độ phân tán của điểm là không quá lớn với phương sai là 1.487 điểm và độ lệch
chuẩn 1.2194 điểm.
Biểu đồ thân - lá:
toan Stem-and-Leaf Plot
Frequency
Stem &
3.00 Extremes
2.00
4 .
5.00
4 .
21.00
5 .
11.00
5 .
25.00
6 .
39.00
6 .
52.00
7 .
43.00
7 .
42.00
8 .
35.00
8 .
16.00
9 .
3.00
9 .
Stem width:
Each leaf:
Leaf
(=<4.0)
23
56688
000000001111122222233
55666677888
0000000000001122222344444
555555555556666677777777888888888999999
0000000000000000000000000011111112222223333333333444
5555555555555556666666666777888888999999999
000000000000000001111112222222233333333444
55555555555556666666677777788899999
0000111123333334
556
1.0
1 case(s)
Biểu đồ Boxlot:
2. Dùng phép kiểm định T-test để so sánh giá trị của biến ngoaingu (điểm tổng kết học kỳ 1 môn
Ngoại ngữ) giữa hai nhóm học sinh không thích môn Lý (0) và học sinh thích môn Lý (1) xác
định bằng biến thichly (học sinh thích môn Lý).
Giải
* Lệnh: Analyze/Compare/Independent – sample T-test/
Cho biến ngoaingu vào ô Test Variable, biến thichly vào ô Grouping Variable/ bấm
define Groups nhập 0 và 1.
Kết quả:
Group Statistics
thichly
ngoaingu
N
Mean
Std. Deviation
Std. Error Mean
0
170
6.984
1.1856
.0909
1
127
6.883
1.1910
.1057
Independent Samples Test
Levene's Test for
Equality of
Variances
t-test for Equality of Means
95% Confidence Interval of
Sig. (2-
F
ngoaingu
Sig.
t
df
tailed)
Mean
Std. Error
Difference Difference
the Difference
Lower
Upper
Equal variances
.005
.943
.718
295
.473
.1001
.1393
-.1741
.3743
.718
270.917
.474
.1001
.1394
-.1744
.3746
assumed
Equal variances not
assumed
Phân tích bài toán kiểm định:
- Ta thấy cột vene's Test for Equality of Variances cho ta giá trị sig = 0.943>0.05, ta có
thể cho rằng phương sai của hai mẫu là bằng nhau nên ta phân tích kiểm định hai trung bình ở
dòng Equal variances assumed.
- Từ bảng số liệu sig = 0.473 >0.05, nên ta chấp nhận giả thiết. vậy ta có thể nói rằng
điểm ngoại ngữ trung bình của nhóm học sinh thích lý và không thích lý là như nhau với mức ý
nghĩa 5%(hay độ chính xác là 95%).
3. Dùng phép kiểm định phi tham số thích hợp để so sánh giá trị của biến ngoaingu (điểm tổng
kết học kỳ 1 môn Ngoại ngữ) giữa hai nhóm học sinh không thích môn Lý (0) và học sinh thích
môn Lý (1) xác định bằng biến thichly (học sinh thích môn Lý).
Giải:
Dùng phương pháp kiệm định phi tham số Mann - Whitney
* Lệnh: Analyze/Nonparametric Test/ 2 Independent Sample /
Cho biến ngoaingu vào ô Test Variable List, biến thichly vào ô Grouping Variable/ bấm
Define Groups nhập 0 và 1, chọn ô Mann – Whitney.
Kết quả:
Ranks
thichly
ngoaingu
N
Mean Rank
Sum of Ranks
0
170
151.70
25789.50
1
127
145.38
18463.50
Total
297
Test Statisticsa
ngoaingu
Mann-Whitney U
1.034E4
Wilcoxon W
1.846E4
Z
-.628
Asymp. Sig. (2-tailed)
.530
a. Grouping Variable: thichly
Phân tích bài toán kiểm định Mann – Whitney:
Theo bảng kết quả ta thấy giá trị sig = 0.530, nên ta chấp nhận giải thiết. Vậy ta có thể
cho rằng điểm trung bình của nhóm học sinh thích lý và không thích lý là như nhau.
4. Dùng phép kiểm định phi tham số thích hợp để kiểm tra tính độc lập giữa hai biến sudungvt
(khả năng sử dụng vi tính của học sinh) và tiepthu (học sinh học tập khó khăn do khả năng tiếp
thu kém).
Giải:
Đặt giải thiết H: Khả năng sử dụng vi tính và khả năng tiếp thu của học sinh độc lập
* Lệnh: Analyze/Descriptive Statistic/Crosstabs/
Cho biến sudungvt vào ô Row(s), biến tiepthu vào ô column(s), trong tab Statistic chọn
phương pháp Chi – square.
Kết quả:
Kh¶N¨ngSöDng * tiepthu Crosstabulation
Count
tiepthu
0
Kh¶N¨ngSöDng
1
Total
0
21
7
28
1
22
7
29
2
60
20
80
3
69
27
96
4
33
31
64
205
92
297
Total
Phương pháp Chi-Square Tests
Chi-Square Tests
Value
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
df
Asymp. Sig. (2-sided)
11.930 a
4
.018
11.381
4
.023
6.777
1
.009
297
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 8.67.
Trong bảng Chi-Square Tests cho ta giá trị sig = 0.018<0.05 ta có thể cho rằng hai biến
không độc lập với mức ý nghĩa 5%.
Phương pháp Kendall's tau-b và Gamma
Symmetric Measures
Asymp. Std. Errora
Value
Ordinal by Ordinal
Approx. Tb
Approx. Sig.
Kendall's tau-b
.150
.053
2.803
.005
Gamma
.260
.091
2.803
.005
N of Valid Cases
297
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
Trong bảng Symmetric Measures cho ta giá trị sig = 0.005<0.05 ta có thể cho rằng hai
biến không độc lập với mức ý nghĩa 5%.
Tuy nhiên, phương pháp Kendall's tau-b và Gamma giúp ta phát hiện mối liên hệ của hai
biến tốt hơn thể hiện qua giá trị sig.
Vậy đối với hai biến định tính thức bậc ta nên chọn phương pháp Kendall's tau-b và
Gamma để kiểm định tính độc lập tốt hơn.
5. Xây dựng mô hình hồi qui logistic mô tả mối quan hệ giữa biến phụ thuộc thichhoa (học sinh
thích môn Hóa) với các biến độc lập matruong, gioitinh, toan, ly, hoa, sinh, van, su, dia,
ngoaingu, theduc, ktcnghie, gdcongda, suckhoe, sachvo, phuongti, giadinh và tiepthu. Hãy
phân tích mô hình hồi qui đó.
Giải:
Đặt biến Y:=thichhoa;
Xi = matruong, gioitinh, toan, ly, hoa, sinh, van, su, dia, ngoaingu, theduc, ktcnghie,
gdcongda, suckhoe, sachvo, phuongti, giadinh, tiepthu (i = 1,..,18)
* Lệnh: Analyze/Regression/binary Logistic/
Cho biến phụ thuộc thichhoa vào ô Dependent, các biến độc lập matruong, gioitinh,
toan, ly, hoa, sinh, van, su, dia, ngoaingu, theduc, ktcnghie, gdcongda, suckhoe, sachvo,
phuongti, giadinh và tiepthu vào ô Covariates.
Chọn Method: enter
Kết quả:
Block 1: Method = enter
Omnibus Tests of Model Coefficients
Chi-square
Step 1
df
Sig.
Step
116.809
18
.000
Block
116.809
18
.000
Model
116.809
18
.000
Phân tích độ phù hợp tổng thể của mô hình: bảng Omnibus Tests of Model Coefficients
cho ta giá trị sig =0.000 cho ta thấy mối liên hệ của biến Y với ít nhất một biến Xi của mô hình.
Hosmer and Lemeshow Test
Step
1
Chi-square
25.698
df
Sig.
8
.001
Contingency Table for Hosmer and Lemeshow Test
thichhoa = 0
Observed
Step 1
thichhoa = 1
Expected
Observed
Expected
Total
1
30
28.360
0
1.640
30
2
29
26.558
1
3.442
30
3
19
23.871
11
6.129
30
4
26
20.449
4
9.551
30
5
14
16.755
16
13.245
30
6
12
13.099
18
16.901
30
7
11
10.194
19
19.806
30
8
4
7.810
26
22.190
30
9
3
4.349
27
25.651
30
10
5
1.557
20
23.443
25
Classification Tablea
Predicted
thichhoa
Observed
Step 1
thichhoa
0
1
Percentage Correct
0
115
38
75.2
1
29
113
79.6
Overall Percentage
77.3
a. The cut value is .500
Bảng này cho biết mức độ chính xác của dự báo. Qua đó, trong 144 học sinh không thích
hóa thì mô hình dự đoán đúng 115 với tỷ lệ dự đoán đúng là 75.2% và trong 151 học sinh thích
hóa mô hình dự đoán đúng 113 học sinh với tỷ lệ dự đoán đúng là 79.6%. từ đó tính được tỷ lệ
dự đoán đúng toàn bộ mô hình là 77.3%.
Variables in the Equation
95.0% C.I.for EXP(B)
B
Step 1a
S.E.
Wald
df
Sig.
Exp(B)
Lower
Upper
Matruong
-.138
.386
.127
1
.721
.871
.409
1.857
Gioitinh
-.938
.332
7.970
1
.005
.392
.204
.751
Toan
.515
.198
6.741
1
.009
1.674
1.135
2.469
ly
.502
.236
4.525
1
.033
1.653
1.040
2.625
hoa
.394
.199
3.928
1
.047
1.482
1.004
2.188
sinh
-.132
.231
.323
1
.570
.877
.557
1.379
van
-.970
.254
14.525
1
.000
.379
.230
.624
su
-.222
.249
.795
1
.373
.801
.492
1.305
dia
-.063
.218
.083
1
.774
.939
.612
1.440
ngoaingu
.116
.173
.451
1
.502
1.123
.800
1.577
theduc
.071
.210
.113
1
.736
1.073
.711
1.620
-.166
.263
.400
1
.527
.847
.506
1.418
gdcongda
.500
.270
3.423
1
.064
1.648
.971
2.799
suckhoe
.307
.366
.703
1
.402
1.359
.663
2.785
sachvo
-.014
.785
.000
1
.986
.987
.212
4.595
.396
.493
.646
1
.422
1.486
.565
3.908
giadinh
-1.022
.503
4.123
1
.042
.360
.134
.965
tiepthu
-.203
.364
.310
1
.578
.817
.400
1.666
-2.817
2.360
1.425
1
.233
.060
ktcnghie
phuongti
Constant
a. Variable(s) entered on step 1: matruong, gioitinh, toan, ly, hoa, sinh, van, su, dia, ngoaingu, theduc, ktcnghie, gdcongda, suckhoe, sachvo, phuongti, giadinh,
tiepthu.
Bảng Variables in the Equation thể hiện kết quả kiểm định Wald của mô hình. Quan sát ở
cột sig, ta thấy rằng chỉ có biến van có sig = 0.000 < 0.05 là có ý nghĩa trong mô hình. Do đó mô
hình được xây dựng như sau:
p
e 2.8170.970 van
ln(
) 2.817 0.970van � p
1 p
1 e 2.8170.970 van
Vậy kết quả môn văn có ảnh hưởng đến khả năng thích học môn hóa hoặc không thích
học môn hóa. Với xác suất dự báo là p .