Tải bản đầy đủ (.doc) (28 trang)

BÀI TẬP LỚN MÔN Phân tích và thống kê số liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (379.74 KB, 28 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
o0o
BÀI TẬP LỚN MÔN
Phân tích và thống kê số liệu

Lớp: CĐ Tin3
Khoá:10
Giáo viên hướng dẫn: Th.S. Nguyễn Phương Nga

Hà nội
1
Lời Nói Đầu
Trước kia việc nghiên cứu, tính toán cho một tập dữ liệu là một công việc
tương đối khó khăn và mất thời gian. Nhưng ngày nay, với sự trợ giúp của
CNTT thì các công việc đó đơn giản hơn rất nhiều.
Đặc biệt SPSS for Windows cung cấp một hệ thống quản lý dữ liệu, và phân
tích thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả
(menu) và các hộp thoại (dialogue box) đơn giản để thực hiện hầu hết các
công việc cho bạn. Phần lớn các nhiệm vụ có thể được hoàn thiện bằng cách
rê và nhắp chuột.
Trong phần trình bày này, nhóm chúng tôi xin đưa ra một số bài tập, phân
tích các tham số mô tả đặc trưng bằng phương pháp thích hợp, vẽ biểu đồ
histogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một
khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm
đường hồi qui và đánh giá năng lực dự báo của mô hình,…Bằng việc sử
dụng phần mềm SPSS.
Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế. Chính vì vậy bài
Trình bày không tránh được những sai sót, rất mong nhận được sự đóng góp
của cô giáo và các bạn.
Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga đã tận tình hướng


dẫn nhóm chúng em làm bào báo cáo này
Nhóm chúng em xin chân thành cảm ơn!
2
I. Một số bài tập sử dụng phần mền SPSS
Bài1:
Cho một tập số liệu kết quả thực nghiệm:
33 32 30 31 22 29 32 24 34
33 33 25 34 26 29 35 33 34
A. Hãy tính các đại lượng đặc trưng của tập số liệu trên
B. Phân tích, đánh giá tập số liệu
Bài Làm:
Sắp xếp tập số liệu theo giá trị tăng dần
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9

22 24 25 26 29 29 30 31 32
X
10
X
11
X
12
X
13
X
14
X
15
X
16
X
17
X
18
32 33 33 33 33 34 34 34 35
A. Tính các đại lượng đặc trưng của tập số liệu
• Dùng kiểm định Alalyze→Descriptives→frequencies
1. Bảng phân bổ tần suất
3
Xi
Frequency Percent Valid Percent
Cumulative
Percent
Valid 22 1 5.6 5.6 5.6
24 1 5.6 5.6 11.1

25 1 5.6 5.6 16.7
26 1 5.6 5.6 22.2
29 2 11.1 11.1 33.3
30 1 5.6 5.6 38.9
31 1 5.6 5.6 44.4
32 2 11.1 11.1 55.6
33 4 22.2 22.2 77.8
34 3 16.7 16.7 94.4
35 1 5.6 5.6 100.0
Total 18 100.0 100.0
2. Các đại lượng đặc trưng của tập số liệu
4
Statistics
Xi
N Valid 18
Missing 0
Mean ( Trung bình) 30.5000
Std. Error of Mean .91555
Median (Trung vị) 32.0000
Mode (Số trội) 33.00
Std. Deviation (Độ lệch chuẩn) 3.88436
Variance (Phương sai) 15.088
Range (khoảng cách) 13.00
Minimum 22.00
Maximum 35.00
Sum 549.00
Percentiles 25 28.2500
50 32.0000
75 33.2500
- M

0
= 33
- Med = ½ * [X
n/2
+ X
(n/2+1)
] = 32
- X = 30,5
- S
2
= 15,088. Đặc trưng cho sự sai biệt của tập kết quả và đặc trưng
cho độ phân tán của tập số liệu với giá trị trung bình
Phương sai càng lớn thì sai biệt và độ phân tán xung quanh càng lớn
- S
f
= S
2
= 3,9. có ý nghĩa như phương sai
- C
v
= 12,7%
B. Phân tích đánh giá tập số liệu mẫu
- Khoảng chính xác tin cậy của tập số liệu là: Δ
x
(p,f) = X- μ= t
(p,f)
* S¯x
= 1,94
- Khoảng giới hạn tin cậy của tập số liệu là:
¯X - t

(p,f)
* S
f
< X
i
< ¯X + t
(p,f)
* S
f
5
28,57 < X
i
< 32,43 (với độ tin cậy thống kê là 95%)
Bài2:
Sử dụng 4 phương pháp nghiên cứu A, B, C và D. Kết quả làm lặp lại theo
mỗi phương pháp 6 lần thu được bảng
N Ph
2
A Ph
2
B Ph
2
C Ph
2
D
1 18,00 18,55 17,65 19,10
2 18,05 17,60 17,70 18,40
3 17,95 18,00 17,90 18,10
4 18,15 18,30 17,65 18,70
5 17,95 18,25 17,85 18,80

6 18,20 17,90 17,75 18,50
A. Tính giá trị trung bình, phương sai của mỗi phương pháp và nhận xét
B. Biết giá trị thật là 18,1. Phân tích đánh giá sai số của mỗi phương pháp
Bài làm:
A.
• Dùng phần mềm SPSS
6
Statistics
ph2A ph2B ph2C ph2D
N Valid 6 6 6 6
Missing 0 0 0 0
Mean 18.0500 18.1000 17.7500 18.6000
Std. Error of Mean .04282 .13723 .04282 .14142
Std. Deviation .10488 .33615 .10488 .34641
Variance .011 .113 .011 .120
Sum 108.30 108.60 106.50 111.60
Percentiles 25 17.9500 17.8250 17.6500 18.3250
50 18.0250 18.1250 17.7250 18.6000
75 18.1625 18.3625 17.8625 18.8750
Ta được
Ph
2
A Ph
2
B Ph
2
C Ph
2
D
X 18,05 18,10 177,75 18,60

S
2
0.012 0.112 0.018 0.120
Theo kết quả phân tích ta thấy
Nếu nghiên cứu theo cả 4 phương pháp A, B , C và D thì sự sai biệt của các
số liệu trong kết quả thực nghiệm và độ phân tán xung quanh giá trị trung
bình là tương đối nhỏ. Tuy nhiên với phương pháp A thì nhỏ nhất
B. Phân tích đánh giá sai số của mỗi phương pháp
- Phương pháp A
t
a
= 0,354 << t
bảng(95,5)
>> = 2,57
→x ≡ μ → sai số ngẫu nhiên. X
i
phân bố đều hai phái của giá trị thực trên
trục số. Sai số này bao giờ cũng gặp phải và ta chỉ có thể giảm sai số ngẫu
nhiên
- Phương pháp B
t
B
= 0 < t
b
= 2,57 → mắc sai số ngẫu nhiên
- Phương pháp C
t
c
= 6,48 >> t
bảng(95,5)

= 2,57
7
→x ≠ μ → sai số hệ thống. X
i
Tập trung về một phía của giá trị thực trên trục
số. Ta có thể loiaj bỏ được sai số này nếu tìm ra được nguyên nhân
t
D
= 3,54 → mắc sai số hệ thống
Bài 3: Hai nghiên cứu A và B thu được kết quả như sau
A 4,40 4,56 4,42 4,59 4,55 4,45 4,55 4,39
B 4,42 4,47 4,70 4,72 4,53 4,55 4,60 4,64
A 4,75 4,72 4,53 4,66 4,90 4,50 4,45 4,66
B 4,29 4,52 4,57 4,56 4,66 - - -
A 4,60 4,36 4,75 4,22
B - - - -
A. Phân tích các đại lượng đặc trưng của tập kết quả thực nghiệm trên
B. So sánh giá trị trung bình và giá trị phương sai của 2 thực nghiệm A
và B
Bài làm:
A.Các đại lượng đặc trưng của tập số liệu
Theo phân tích SPSS ta có

B.
Ta thấy F = 2,12 < F
b(95,12,19)
= 2,54
Vậy ta chấp nhận H
o
bác bỏ H

a
. Tức là chấp nhận S
2
A
= S
2
B
Theo kết quả phân tích ta có
Kết quả A:
- Khoảng của tập số liệu:R= 0,68
- Giá trị trung bình: ¯X = 4,56
8
- Độ lệch chuẩn S
f
= 0,17
- Phương sai S
2
= 0,03
Kết quả B:
- Khoảng của tập số liệu:R= 0,43
- Giá trị trung bình: ¯X = 4,54
- Độ lệch chuẩn S
f
= 0,12
- Phương sai S
2
= 0,14
B. So sánh phương sai
Ta thấy F= S
2

A
/S
2
B
= 2,12<F
b(95,19,12)=
2,54
→Chấp nhận S
2
A
= S
2
B
tức là chấp nhận H
0
bác bỏ H
a
.Điều này chứng tỏ độ
sai biệt giữa kết quả nghiên cứu A và B là giống nhau
Bài 4: Cho kết quả nghiên cứu của A và B
A 33,5 33,9 33,5 34,9 34,1 33,2 33,2 31,1 31,0 31,7
B 31,1 39,9 32,8 31,9 33,0 31,6 32,1 31,5 31,0 31,0
Phân tích đánh giá và phân tích so sánh hai kết quả nghiên cứu trên
Bài làm:
Descriptive Statistics
N Mean Std. Deviation Variance
A 10 33.0100 1.31272 1.723
B 10 31.8900 .78662 .619
Valid N (listwise) 10
Nhìn bảng phân tích SPSS ta có

X
A
= 33.1
S
2
A
= 1,723
9
X
B
= 31,89
S
2
B
= 0,619
* Không liên quan với nhau từng đôi một
H
0
= 2 kết quả nghiên cứu không khác nhau
H
a
= 2 kết quả khác nhau
d = 33,01-31,89 = 1,12
t
t
= 1,9 < t
b(0,95,18)
= 2,101
Vậy chấp nhận H
0

tức là hai kết quả nghiên cứu không khác nhau.
* Liên quan với nhau đôi một
d = 0,83
S
d
= 0,667
t = 3,2 > t
t(0,95,9)
= 2,26. Vậy hai kết quả nghiên cứu là khác nhau.
Bài 5: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?

Mức
nghiên
cứu
Lần lặp
1 2 3
a1 1 4 9
a2 4 9 16
a3 9 16 23
Ta có: SS
1
= 1
2
+ 4
2
+ 9
2
+ 4

2
+ 9
2
+ 16
2
+ 9
2
+ 16
2
+ 23
2
=1812
SS
2
= 1/3 (14
2
+ 29
2
+ 48
2
) = 1113,7
SS
3
= 1/6 (14 + 29 + 48)
2
= 1380,2
Có S
2
A
= 133,25

S
2
TN
= 71,97
→ F
tính
= 1,85
F
bảng(95, 2,6)
= 5,14
Ta thấy F
tính
< F
bảng
. Vậy nhân tố A không ảnh hưởng tới kết quả thực
nghiệm
10
Bài 6: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?

Mức
nghiên
cứu
Lần lặp
1 2 3 4
A 3 6 1 2
B 5 7 4 6
C 2 3 2 2
Ta có: SS

1
= 3
2
+ 6
2
+ 1
2
+ 2
2
+ 5
2
+ 7
2
+ 4
2
+ 6
2
+ 2
2
+ 3
2
+ 2
2
+ 2
2
=197
SS
2
= 1/4 (12
2

+ 22
2
+ 9
2
) = 177,25
SS
3
= 1/9 (12 + 22 + 9)
2
= 200,67
Có S
2
A
= 11,7
S
2
TN
= 0,41
→ F
tính
= 28,54
F
bảng(95, 2,6)
= 5,14
Ta thấy F
tính
>> F
bảng
. Vậy nhân tố A ảnh hưởng mạnh tới kết quả thực
nghiệm

Bài 7: Trung tâm nghiên cứu lúa gạo quốc tế tại Philippines muốn xem xét
sự liên quan giữa năng xuất lúa mỳ Y, với mật độ gieo trồng X. Họ thực hiện
các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi quy tuyến tính giữa
X và Y (quan hệ hàm giữa chúng)
11
Năng suất lúa mỳ Mật độ trồng
4,862 160
5,244 175
5,128 192
5,052 195
5,298 238
5,410 240
5,234 252
5,608 282
Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation
Ta có hệ số tương quan r = b =
728.0
= 0.853
Ta chọn X là biến phụ thuộc
Y là biến độc lập
Statistics
X Y
N Valid 8 8
Missing 0 0
Mean 216.75 5.22950
a =
X
- b
Y

= 216,75– 0,853 *5,23 = 212,29
Vậy phương trình đường hồi quy sẽ là X = 212,29 + 0,853*Y
12
Model Summary and Parameter Estimates
Dependent Variable:X
Equation
Model Summary Parameter Estimates
R Square F df1 df2 Sig. Constant b1
Linear .728 16.036 1 6 .007 -618.657 159.749
The independent variable is Y.
Nhìn đồ thị ta thấy các điểm không nằm trên đường hồi quy. Điều này có
nghĩa là kết quả nghiên cứu giữa năng xuất lúa mỳ y với mật độ gieo trồng x
là không liên quan tới nhau.
13
Bai 8 : Xét quan hệ thân nhiệt ( nhiệt độ x) và nhịp đập của tim(mạch
đập y) Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi
quy tuyến tính giữa X và Y (quan hệ hàm giữa chúng)
Trẻ em Nhiệt độ (x) Mach đập(y)
1 68 2
2 65 5
3 70 1
4 62 10
5 60 9
6 55 13
7 58 10
8 65 3
9 69 4
10 63 6
Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation

Ta có hệ số tương quan r = b =
886,0
= 0,94
Ta chọn x là biến độc lập
Y là biến phụ thuộc
14
Statistics
nhietdo machdap
N Valid 10 10
Missing 0 0
Mean 63.50 6.30
Ta có
a =
Y
- b
X
= 63,5 – 0,886*6.3 = 57,9
Vậy phương trình đường hồi quy sẽ là
Y = 57,9 X + 0,886
Nhìn đồ thị ta thấy có một điểm nằm trên đường hồi quy. Điều này có nghĩa
là kết quả nghiên cứu giữa nhiệt độ và mạch đập gần như là không tương
quan tới nhau.
15
Model Summary and Parameter Estimates
Dependent Variable:nhietdo
Equatio
n
Model Summary Parameter Estimates
R Square F df1 df2 Sig. Constant b1
Linear .886 62.265 1 8 .000 70.736 -1.149

The independent variable is machdap.
II. Chọn 2 tập dữ liệu (Thuộc 1 cột nào đó của file đã cho), 1
tập có n<30 và 1 tập có n>30. Với mỗi tập đó hãy phân tích các
tham số mô tả đặc trưng bằng phương pháp thích hợp và vẽ
biểu đồ histogram của nó.
Từ kết quả, có nhận xét gì về mỗi tập dữ liệu?
Bài làm: Ta tiến hành chọn tập A và B thuộc cột B của file đã cho
16
1 2 3 4 5 6 7 8
A 5 9 10 7 7 7 6 6
B 7 9 8 7 5 9 19 11
9 10 11 12 13 14 15 16
A 9 7 5 10 11 7 5 7
B 11 4 7 5 5 9 11 10
17 18 19 20 21 22 23 24
A 4 17 5 9 6 8 5
B 11 9 6 7 5 4 4 5
25 26 27 28 29 30 31 32
A
B 7 6 8 5 12 7 9 7
Ta có bảng phân bổ tần suất của tập dữ liệu A
A
Frequency Percent Valid Percent
Cumulative
Percent
Valid 4 1 3.2 4.3 4.3
5 4 12.9 17.4 21.7
6 3 9.7 13.0 34.8
7 6 19.4 26.1 60.9
8 1 3.2 4.3 65.2

9 3 9.7 13.0 78.3
10 2 6.5 8.7 87.0
11 1 3.2 4.3 91.3
15 1 3.2 4.3 95.7
17 1 3.2 4.3 100.0
Total 23 74.2 100.0
Missing System 8 25.8
Total 31 100.0
Bảng phân bổ tần suất của tập dữ liệu B
17
B
Frequency Percent Valid Percent
Cumulative
Percent
Valid 4 3 9.7 9.7 9.7
5 6 19.4 19.4 29.0
6 2 6.5 6.5 35.5
7 6 19.4 19.4 54.8
8 2 6.5 6.5 61.3
9 5 16.1 16.1 77.4
10 1 3.2 3.2 80.6
11 4 12.9 12.9 93.5
12 1 3.2 3.2 96.8
19 1 3.2 3.2 100.0
Total 31 100.0 100.0
18
Ta có các tham số đặc trưng của 2 tập số liệu
A B
N Valid 23 31
Missing 8 0

Mean 7.91 7.81
Std. Error of Mean .659 .565
Median 7.00 7.00
Mode 7 5
a
Std. Deviation 3.161 3.146
Variance 9.992 9.895
Range 13 15
Sum 182 242
Percentiles 25 6.00 5.00
50 7.00 7.00
75 9.00 9.00
a. Multiple modes exist. The smallest value is shown
Từ kết quả phân tích ta thấy
Ftính= S
2
A/ S
2
B = 1 < F
bảng
. Vậy chấp nhận H
0
bác bỏ H
a
S
2
A = S
2
B đáng tin cậy
19

Biểu đồ Histogram của tập A
20
Biểu đồ histogram của tập B
21
III. Chọn 1 cột nào đó trong số hơn 300 thuộc tính mô tả và 1
cột thuộc tính phụ thuộc, hãy tìm đường hồi qui và phân tích
chất lượng đường hồi qui đó qua việc tính các hệ số xác định,
hệ số tương quan và phân tích qua việc kiểm định giả thuyết
đối với độ dốc B của mô hình. Từ kết quả nhận được, hãy cho
biết mô hình đó có dùng để dự báo được không? tại sao?
Hãy tìm khoảng tin cậy 95% đối với độ dốc B. Ý nghĩa của
khoảng này là gì?
Hày tìm một khoảng tin cậy 95% đối với giá trị trung bình của
biến phụ thuộc khi cho biến độc lập x=1
Bài làm:
Ta chọn cột thuộc tính mô tả S (X)và cột thuộc tính phụ thuộc T(Y)
Statistics
X Y
N Valid 816 816
Missing 1 1
Mean 1.53 5.90
Std. Deviation 1.282 3.821
Variance 1.643 14.598
Sum 1248 4817
Model Summary and Parameter Estimates
Dependent Variable:X
Equation
Model Summary Parameter Estimates
R Square F df1 df2 Sig. Constant b1
Linear .134 126.473 1 814 .000 .803 .123

The independent variable is Y.
22
- Hệ số xác định: r
2
= 0,134
- Ta có hệ số tương quan r = b =
134,0
= 0,37
a =
Y
– b
X
= 5,90 – 0,37 * 1,53 = 5,33
Vậy đường hồi quy tuyến tính sẽ là Y = 5,33 + 0,37X
- Ta tiến hành kiểm tra năng lực của mô hình bằng kiểm tra giả thuyết
H0: B = 0
Ha: B ≠ 0
n = 816 và α = 0,05 (chọn độ tin cậy là 95%)
df = 816-2 = 814
t
α/2
= 160, s =
S
2
= 1,28
→ SSxx =
)(

− Xxi
2

=

Xi
2
– (

Xi
)
2
/N =… - (1248)
2
/816
23
Từ đó ta tính được t
tính
=
SSxxS
b
/
= …
Ta so sánh t với t
α/2
= 160
Nếu t
tính
< t
α/2
ta bác bỏ H0 và kết luận độ dốc B ≠ 0
Chứng tỏ rằng ở mức α= 0,05 các dữ liệu mẫu cung cấp bằng chứng đủ để
kết luận rằng Y đóng góp thông tin hữu ích cho dự đoán của mức X bằng

cách sử dụng mô hình tuyến tính. Trong trường hợp này mô hình có thể
dùng để dự báo được
Còn ngược lại nếu t
tính
> t
α/2

- Khoảng tin cậy 95% đối với độ dốc B là
b ± t
α/2
[
SSxx
S
] = 0,37 ± 160* …
Nếu khoảng trên lớn hơn 0 và nhỏ hơn 1 thì
X
(y),E(y) tăng khi X tăng
(thuận)
Nếu khoảng trên lớn hơn -1 và nhỏ hơn 0 thì
X
(y),E(y) tăng khi X
giảm(nghịch)
- Khi X= 1 khoảng tin cậy 95% đối với giá trị trung bình của biến phụ thuộc
khi cho biến độc lập x là

Y
^
± t
α/2


SSxx
X
n
2)1(1 −
+

Trong đó Y^ = 5,33 + 0,37*1 = 5,7
1 -
X
= 0,53
IV. Lấy độ 5 cột biến độc lập và 1 cột biến phụ thuộc, thực hiện
tìm đường hồi qui và đánh giá năng lực dự báo của mô hình.
Hãy tìm khoảng tin cậy 95% đối với độ dốc Bi. Ý nghĩa của
khoảng này là gì?
24
Bài làm:
Ta chọn tập dữ liệu sau
Độc lập1 Độc lập2 Độc lập3 Độc lập4 Độc lập5 Phụthuộc
4 2 2 1 3 0
5 1 4 1 4 4
5 0 3 2 1 0
3 4 6 6 0 1
1 2 5 3 0 2
3 2 4 5 2 6
A. Ta thấy hệ số tương quan r = b =
019,0
= 0,138
- Ta có mô hình tuyến tính giả thuyết hình thức: Y = B
0
+ B

1
X
1
+ B
2
X
2
+
B
3
X
3
+ B
4
X
4
+ B
5
X
5
+e
* Sử dụng các dữ liệu mẫu để tìm phương trình tính toán dựa trên bình
phương cực tiểu.
-Sử dụng công thức bình phương cực tiểu để tìm B
0,
B
1,
B
2,
B

3,
B
4,
B
5
Ta có
B = (X`X)XY =




















108
98
12

23
67
54
Vậy B
0
= 54
,
B
1
=67
,
B
2
= 23
,
B
3
= 12
,
B
4
= 98
,
B
5
= 108
Ta có phương trình tính toán dựa trên bình phương cực tiểu
Y^ = 54 + 67X
1
+ 23X

2
+12X
3
+ 98X
4
+ 108X
5
* Ta kiểm định năng lực của mô hình xem có phù hợp với dữ liệu không
Tức là ta tính hệ số xác định R
2
= 0,019
25

×