ứng dụng tin học cho thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (146.11 KB, 15 trang )

THỐNG KÊ MÔ TẢ

•

Bài tập 1: Dưới đây là số liệu huyết áp của 40 bệnh nhân ở độ tuổi trung niên của bệnh viện A:
93 78 83 126 130 81 134 85 137 139
84 81 90 143 100 79 96 145 146 120
139 120 124 114 111 129 85 96 97 102
146 126 135 143 134 123 111 86 98 108

a. Tính thống kê các giá trị thống kê mô tả của biến huyết áp
b. Vẽ đồ thị cho cho dự liệu ở câu a
c. Xây dựng bảng tần số phân bố các nhóm huyết áp 70 – 90, 90 – 110, 110 – 130, 130 – 150. Vẽ đồ
thị đường biểu thị huyết áp theo từng nhóm.
BÀI LÀM
•
16
11
23
19

Bài tập 2: Dưới đây là số liệu nhân viên của các căn tin phân bố ở các Khoa – Viện trực thuộc Đại
học Trà Vinh.
27
22
11
23

15
23

16
20

30
16
29
30

18
14
13
16

26
18
14
17

17
21
26
26

a. Tính thống kê các giá trị thống kê mô tả của dữ liệu.
b. Vẽ đồ thị cho cho dự liệu ở câu a
c. Chia tập dữ liệu thành 4 nhóm và xây dựng bảng tần số với các nhóm đã chia. Sau đó vẽ biểu đồ
cột.

ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ THỐNG KÊ
1. KIỂM ĐỊNH PHÂN PHỐI CHUẨN MỘT CHIỀU

• Bài tập 1: Số điểm của 25 sinh viên được lựa chọn ngẫu nhiên tự một lớp học tính toán lớp được
đưa ra dưới đây.
47
73
90
22
68
94
32
88
86
80
48
70
61
82
67
78
86
97
73
78
55
63
59
42
46

Kiểm tra phân phối chuẩn của dữ liệu.

Bài tập 2: Dưới đây là kết quả thu được sau khi khảo sát ngẫu nhiên 30 sinh viên về thời gian tự
học trung bình trong 1 tuần. (đơn vị: phút)
60
120
45

90
55
80

70
75
65

100
115
60

30
150
90

40
135
140

110
40
120

50
80
100

120
100
60

Kiểm tra phân phối chuẩn của dữ liệu.
2. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ THỐNG KÊ CƠ BẢN
•
•

Bài tập 1: Một
Bài tập 2:

3. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH HAI MẪU
• Bài tập 1:
• Bài tập 2:

KIỂM ĐỊNH PHI THAM SỐ
1. Kiểm định tính độc lập:
Nhập hàm fuction:
function [chi2, pvalue, eij]=tablerxc(O)
[r,c]=size(O);
n=sum(sum(O));
colums=sum(O);
rows=sum(O')';
eij=rows*colums/n;
size(eij);

chi2=sum(sum((eij-O).^2./eij));
df=(r-1)*(c-1);
pvalue=1-chi2cdf(chi2,df);
gtqs=chi2inv(0.95,(r-1)*(c-1));
Tiến hành lưu file lại với tên tablerxc.m rồi chạy fuction kiểm định sự độc lập:

•

Bài tập 1:

Dưới đây là bảng số liệu thống kê về chất lượng sản phẩm tại ba cơ sở của một công ty sản xuất
trứng.

Cơ sở I
Cơ sở II
Cơ sở III

Tốt
50
45
34

Chất lượng
Đạt yêu cầu
Cần sửa
121
15
95
16
88

17

Phế phẩm
20
21
30

80
70
95

Với mức ý nghĩa 5%, kiểm định xem chất lượng sản phẩm có phụ thuộc vào nơi đặt cơ sở hay
không.
Bài giải
Đặt Giả thiết H0: Không có sự ảnh hưởng giữa nơi đặt cơ sở sản xuất và chất lượng của sản phẩm
Đối thiết H1: Có sự hưởng giữa nơi đặt cơ sở sản xuất và chất lượng của sản phẩm.
>> O=[50 121 15 20;45 95 16 21;34 88 17 30]
O=
50 121 15 20
45 95 16 21
34 88 17 30
>> [chi2, T, pvalue, eij]=tablerxc(O)
chi2 =
7.7275
T=
12.5916
pvalue =
0.2588
eij =

48.1413 113.4493 17.9130 26.4964
41.3641 97.4783 15.3913 22.7663
39.4946 93.0725 14.6957 21.7373
Nhận xét: chi2 = 7.7275 < T=12.5916 và p-value=0.2588>α=0.05 nên ta bác bỏ giả thiết rằng
không có ảnh hưởng giữa nơi đặt cơ sở sản xuất và chất lượng của sản phẩm
•

Bài tập 2:

Người ta tiến hành khảo sát về thời gian sử dụng facebook của thanh thiếu niên ngày nay, 445 người
ngẫu nhiên, thu được bảng kết quả dưới đây. Hãy tiến hành kiểm định xem có mối liên hệ giữa giới
tính và thời gian sử dụng facebook hay không.(đơn vị: giờ/ngày)
Giới tính
Nữ
nam

Từ 2-3h
45
65

Thời gian sử dụng facebook
Từ 3-4h
Từ 4-5
Từ 5-6h
58
74
32
39
85
47

Bài giải

Tổng
209
236

Đặt Giả thiết H0: Không có sự ảnh hưởng giữa giới tính và thời gian sử dụng facebook
Đối thiết H1: Có sự hưởng giữa giới tính và thời gian sử dụng facebook
>> TG=[45 58 74 32;65 39 85 47]
TG =
45 58 74 32
65 39 85 47
>> [chi2,T, pvalue, eij]=tablerxc(TG)
chi2 =
9.3634
T=
7.8147
pvalue =
0.0248
eij =
51.6629 45.5573 74.6764 37.1034
58.3371 51.4427 84.3236 41.8966
Nhận xét: p-value = 0.0248 < α=0.05 chứng tỏ kiểm định có ý nghĩa thống kê với mức ý nghĩa 5%
và chi2 = 9.3634 > T= 7.8147 nên ta có thể kết luận đối với mức ý nghĩa 5% thì chấp nhận gải
thiết bác bỏ đối thiết. Tức là ta có thể kết luận rằng không có sự ảnh hưởng giữa giới tính và thời
gian sử dụng facebook.

1. KIỂM ĐỊNH CHI BÌNH PHƯƠNG
• Bài tập 1:

• Bài tập 2:
2. KIỂM ĐỊNH KOLMOGOROV-SMIRNOV
• Bài tập 1:
• Bài tập 2:
3. KIỂM ĐỊNH TỶ SỐ PHƯƠNG SAI
• Bài tập 1:

•

Bài tập 2:

PHÂN TÍCH HỒI QUY
1. HỒI QUY TUYẾN TÍNH ĐƠN
Bài tập 1: người ta tiến hành thu thập số liệu về 11 xe máy Honda đã qua sữ dụng như sau:

STT
1
2
3
4
5
6
7
8
9
10
11

Số năm sử dụng

(năm)(X)
5
4
6
5
5
5
6
6
2
7
7

Giá bán
(triệu đồng)(Y)
8.5
10.3
7
8.2
8.9
9.8
6.6
9.5
16.9
7
4.8

Lập mô hình hồi quy tuyến tính biểu diễn mối liên hệ giữa số năm sử dụng xe và giá bán của xe.
•

Giải:
Nhập số liệu và tính toán các thông số cơ bản:
>> x=[5 4 6 5 5 5 6 6 2 7 7];
>> y=[8.5 10.3 7 8.2 8.3 9.8 6.6 9.5 16.9 7 4.8];
>> n=length(x)
n=
11
>> Sxx=sum((x - mean(x)).^2)
Sxx =
20.1818
>> Sxy=sum((x-mean(x)).*(y-mean(y)))
Sxy =
-40.7273
>> Syy=sum((y-mean(y)).^2)
Syy =
97.3691
>> b1=Sxy/Sxx
b1 =
-2.0180
>> b0=mean(y) - b1*mean(x)
b0=
19.4495

>> yhat=b0+b1*x
Yhat=
9.3595 11.3775 7.3414 9.3595 9.3595 9.3595 7.3414 7.3414 15.4135 5.3234
5.3234
>> SSE=sum((y-yhat).^2)
SSE =

15.1807
>> SSR=sum((yhat-mean(y)).^2)
SSR =
82.1884
>> SST=Syy
SST =
97.3691
>> R_squared=SSR/SST
R_squared =
0.8441
Mức độ phù hợp của mô hình là 84.41%
>> R_adjsquared=1-((n-1)*SSE)/((n-2)*SST)
R_adjsquared =
0.8268
Mức độ phù hợp của mô hình khi không có yếu tố tương tác là 82.68%
>> r=Sxy/sqrt((Sxx)*(Syy))
r=
-0.9187
R =-0.9187 >0.8 cho thấy giữa 2 biến thời gian sử dụng và giá bán có môi tương quan rất chặc
chẽ và là tương quan nghịch.
•

Kiểm định sự tồn tại của mô hình:
Đặt giả thiết H0: Không có sự tồn tại của mô hình.
Đối thiết H1: Có sự tồn tại của mô hình.
>> tinv(0.95,10)
ans =
1.8125
Ta có miền bác bỏ =(-1.8125)(1.8125;+)
Giá trị quan sát:

>> T=b1/(sqrt(SSE/(n-2))/sqrt(Sxx))
T=
-6.9804

Vì T = -6.9804 thuộc vào miền bác bỏ nên ta bác bỏ giả thiết, chấp nhận đối thiết. Vậy ta kết luận rằng
mô hình Y = 19.4495 - 2.0180*X có tồn tại.

Bài tập 2: Một sinh viên thống kê doanh nghiệp đã thực hiện điều tra ngẫu nhiên một mẫu gồm
một số người bạn mới tốt nghiệp của anh ta về mức lương khởi điểm và điểm trung bình khi học
đại học của họ. Kết quả như sau:
Mức lương khởi điểm
(triệu đồng)(X)
3.1
2.5
2.5
1.9
2.2
2.8
1.6
2.2

Điểm trung bình học đại học
(Y)
7.0
6.0
6.5
5.0
6.0
6.5

5.5
5.5

Giải:
>> x=[3.1 2.5 2.5 1.9 2.2 2.8 1.6 2.2];
>> y=[7.0 6.0 6.5 5.0 6.0 6.5 5.5 5.5];
>> n=length(x)
n=
8
>> Sxx=sum((x-mean(x)).^2)
Sxx =
1.6200
>> Sxy=sum((x-mean(x)).*(y-mean(y)))
Sxy =
1.9500
>> Syy=sum((y-mean(y)).^2)
Syy =
3
>> b1=Sxy/Sxx
b1 =
1.2037
>> b0=mean(y) - b1*mean(x)
b0 =
3.1713
>> yhat=b0+b1*x
yhat =
6.9028 6.1806 6.1806 5.4583 5.8194 6.5417 5.0972 5.8194
>> SSE=sum((y-yhat).^2)
SSE =
0.6528

>> SSR=sum((yhat-mean(y)).^2)
SSR =
2.3472
>> SST=Syy

SST =
3
>> R_squared=SSR/SST
R_squared =
0.7824
Mức độ phù hợp của mô hình là 78.24%
>> R_adjsquared=1-((n-1)*SSE)/((n-2)*SST)
R_adjsquared =
0.7461
Mức độ phù hợp của mô hình khi không có yếu tố tương tác là 74.61%
>> r=Sxy/(sqrt((Sxx)*(Syy)))
r=
0.8845
r = 0.8845 > 0.8 cho thấy giữa 2 biến mức lương và điểm trung bình đại học có môi tương quan
rất chặc chẽ và là tương quan thuận.
•

Kiểm định sự tồn tại của mô hình:
Đặt giả thiết H0: Không có sự tồn tại của mô hình.
Đối thiết H1: Có sự tồn tại của mô hình.
>> tinv(0.95,10)
ans =
1.8125
Ta có miền bác bỏ =(-1.8125) (1.8125;+)

Giá trị quan sát:
>> T=b1/(sqrt(SSE/(n-2))/sqrt(Sxx))
T=
4.6448

Vì T = 4.6448 thuộc vào miền bác bỏ nên ta bác bỏ giả thiết, chấp nhận đối thiết. Vậy ta kết luận rằng mô
hình Y = 3.1713 + 1.2037*X có tồn tại.
2. HỒI QUY TUYẾN TÍNH BỘI
3.
Bài tập 1: Nhà nghiên cứu đo lường độ cholestrol trong máu của 18 đối tượng
nam. Tỉ trọng cơ thể (body mass index) cũng được ước tính cho mỗi đối
tượng bằng công thức tính BMI là lấy trọng lượng (tính bằng kg) chia cho
chiều cao bình phương (m2). Kết quả đo lường như sau:

Age
46
20
52
30

BMI
25.4
20.6
26.2
22.6

Cholesterol
3.5
1.9
4.0

2.6

57
25.4
4.5
25
23.1
3.0
28
22.7
2.9
36
24.9
3.8
22
19.8
2.1
43
25.3
3.8
57
23.2
4.1
33
21.8
3.0
22
20.9
2.5

63
26.7
4.6
40
26.4
3.2
48
21.2
4.2
28
21.2
2.3
49
22.8
4.0
Hãy lập mô hình hồi quy tuyến tính của Cholesterol theo Age và BMI
>> age=[46; 20; 52; 30; 57; 25; 28; 36; 22; 43; 57; 33; 22; 63; 40; 48; 28; 49];
>> chol=[3.5; 1.9; 4.0; 2.6; 4.5; 3.0; 2.9; 3.8; 2.1; 3.8; 4.1; 3.0; 2.5; 4.6; 3.2; 4.2; 2.3; 4.0];
>> bmi=[25.4; 20.6; 26.2; 22.6; 25.4; 23.1; 22.7; 24.9; 19.8; 25.3; 23.2; 21.8; 20.9; 26.7; 26.4; 21.2;
21.2; 22.8];
>> LinearModel.fit([age, bmi],chol)
ans =
Linear regression model:
y ~ 1 + x1 + x2
Estimated Coefficients:
Estimate

SE

tStat

pValue

________ _________ _______ __________
(Intercept)

0.45546

0.91823 0.49602

x1

0.054052 0.0075911

x2

0.033364

0.62707

7.1204 3.5039e-06

0.046866 0.71189

0.48746

Number of observations: 18, Error degrees of freedom: 15
Root Mean Squared Error: 0.307
R-squared: 0.881, Adjusted R-Squared 0.866
F-statistic vs. constant model: 55.8, p-value = 1.13e-07

Xét thấy biến age(x1 ) có p-value=3.5039 × 10-6 <0.05 nên có ý nghiaxveef mặc thống kê. Bên cạnh đó
ta thấy biến x2 có p-value >0.05 nên ta suy ra mô hình có hiện tượng đa cộng tuyến.
Khắc phục đa cộng tuyến:
>> corrcoef([age,bmi])
ans =
1.0000 0.6914
0.6914 1.0000
Ta thấy hệ số tương quan giữa 2 biến là rất mạnh ta tiến hành chạy mô hình sau khi đã loại bỏ từng
biến
Mô hình đã lại biến BMI:
>> LinearModel.fit([age],chol)
ans =
Linear regression model:
y ~ 1 + x1
Estimated Coefficients:
Estimate

SE

tStat

pValue

________ ________ ______ __________
(Intercept)
x1

1.0892

0.22147 4.9182 0.00015439

0.057788 0.005399 10.704 1.0581e-08

Number of observations: 18, Error degrees of freedom: 16
Root Mean Squared Error: 0.303
R-squared: 0.877, Adjusted R-Squared 0.87
F-statistic vs. constant model: 115, p-value = 1.06e-08
Mô hình đã loại bỏ biến Age:
>> LinearModel.fit([bmi],chol)
ans =
Linear regression model:
y ~ 1 + x1
Estimated Coefficients:
Estimate
SE
tStat pValue
________ ________ _______ _________
(Intercept) -2.8319

1.6084 -1.7607

0.097393

năm
1928
1929
1230

1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1945
1946
1947
1948
1949
1950

Tiêu dùng nội
địa
(y)
52.8
62.2
58.6
56.6
51.6
51.1
54
57.2
62.8

65
63.9
67.5
71.3
76.6
86.3
95.7
98.3
100.3
103.2
108.9

Thu nhập từ
lương
(x1)
39.21
42.31
40.37
39.15
34.00
33.59
36.88
39.27
45.51
46.06
44.16
47.68
50.79
57.78
78.97

73.54
74.92
74.01
75.51
80.971

Thu nhập khác
phi nông nghiệp
(x2)
17.73
20.29
18.83
17.44
14.76
13.39
13.93
14.67
17.2
17.15
15.92
17.59
18.49
19.18
19.12
19.76
17.55
19.17
20.20
22.12

Thu nhập từ
nông nghiệp
(x3)
4.39
4.6
3.25
2.61
1.67
2.44
2.39
5.00
3.93
5.48
4.37
4.51
4.90
6.37
8.42
9.27
8.87
9.3
6.95
7.15

x1
0.2641 0.068611 3.8492 0.0014178
Number of observations: 18, Error degrees of freedom: 16
Root Mean Squared Error: 0.623
R-squared: 0.481, Adjusted R-Squared 0.448
F-statistic vs. constant model: 14.8, p-value = 0.00142

Nhìn vào kết quả trên ta thấy mô hình phù hợp nhất trong bài toán này là
Cholesterol = 1.0892 + 0.057788×Age
•

Bài tập 2:Ví dụ này lấy từ William E.Griffiths et al, Learning and Practicing Econometrics, John
Wiley&Sons Inc, 1998, trang 433.. Nghiên cứu của Klein và Golberger(1995) về quan hệ giữa
tiêu dùng nội địa C, thu nhập từ lương W, thu nhập khác phi nông nghiệp P và thu nhập từ nông
nghiệp A của nền kinh tế Hoa Kỳ từ năm 1928 đến 1950, với số liệu của các năm 1942 đến 1944
bị loại ra khỏi dữ liệu. và thực hiện hồi quy tiêu dùng nội địa theo ba loại thu nhập như sau:

Giải:
>>y=[52.8;62.2;58.6;56.6;51.6;51.1;54;57.2;62.8;65;63.9;67.5;71.3;76.6;86.3;95.7;98.3;100.3;103.2;108.
9];

>>x1=[39.21;42.31;40.37;39.15;34.00;33.59;36.88;39.27;45.51;46.06;44.16;47.68;50.79;57.78;78.97;73.
54;74.92;74.01;75.51;80.91];
>>x2=[17.73;20.29;18.83;17.44;14.76;13.39;13.93;14.67;17.20;17.15;15.92;17.59;18.49;19.18;19.12;19.
76;17.55;19.17;20.20;22.12];
>> x3=[4.39;4.6;3.25;2.61;1.67;2.44;2.39;5;3.93;5.48;4.37;4.51;4.90;6.37;8.42;9.27;8.87;9.30;6.95;7.15];
>> LinearModel.fit([x1,x2,x3],y)
ans =
Linear regression model:
y ~ 1 + x1 + x2 + x3
Estimated Coefficients:
Estimate

SE

tStat

pValue

________ _______ ________ __________

(Intercept)

7.2508

8.8889

0.81571

0.42664

x1

1.1358

0.17242

6.5874 6.2479e-06

x2

0.4078

0.64539

0.63188

0.53639

x3

-0.4112

1.1069 -0.37149

0.71515

Number of observations: 20, Error degrees of freedom: 16
Root Mean Squared Error: 4.52
R-squared: 0.954, Adjusted R-Squared 0.945
F-statistic vs. constant model: 111, p-value = 6.6e-11
Trừ biến x1 thì ta thấy 2 biến x2 & x3 đều có giá trị p-value > 0.05 nên suy ra mô hình xuất hiện đa cộng
tuyến.
Khắc phục đa cộng tuyến:
>> corrcoef([x1,x2,x3])
ans
1.0000 0.7093 0.9188
0.7093 1.0000 0.6306
0.9188 0.6306 1.0000

Ta thấy hệ số tương quan giữa x3_x2 & x3_x1, x2_x1 & x2_x3 có hệ số tương quan lớn nên ta tiến hành
loại lần lượt biến x2 và biến x3 rồi o sanh 2 mô hình.
Mô hình loại x3:
>> LinearModel.fit([x1,x2],y)
ans =

Linear regression model:
y ~ 1 + x1 + x2
Estimated Coefficients:
Estimate

SE

tStat

pValue

________ ________ _______ __________

(Intercept)

7.6638

x1

1.0806

x2

0.42592

8.5926

0.085219

0.8919

0.3849

12.68 4.3082e-10

0.62701 0.67928

0.50611

Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 4.41
R-squared: 0.954, Adjusted R-Squared 0.948
F-statistic vs. constant model: 175, p-value = 4.66e-12
Mô hình loại x2
>> LinearModel.fit([x1,x3],y)
ans =
Linear regression model:
y ~ 1 + x1 + x2
Estimated Coefficients:
Estimate

SE

tStat

pValue

________ _______ ________ __________

(Intercept)

x1

12.324

3.7482

1.182 0.15338

3.2878

0.0043425

7.7062 6.0517e-07

x2

-0.46404

1.0841 -0.42806

0.67398

Number of observations: 20, Error degrees of freedom: 17
Root Mean Squared Error: 4.44
R-squared: 0.953, Adjusted R-Squared 0.947
F-statistic vs. constant model: 172, p-value = 5.34e-12
Xét thấy 2 mô hình đều cho R2 rất cao, nhưng ta lựa chọn mô hình có R 2 cao hơn làm mô hình hồi quy
thích hợp nhhaast. Vậy mô hình hồi quy cho biến tiêu dùng là:
Tiêu dùng nội địa = 7.6638 + 1.0806× thu nhập từ lương + 0.42592×thu nhập khác phi nông nghiệp

ứng dụng tin học cho thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về