Tải bản đầy đủ (.doc) (53 trang)

Bài tập và hướng dẫn phân tích số liệu bằng SPSS pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.1 MB, 53 trang )

Bài tập và hướng dẫn phân tích số
liệu bằng SPSS
1
BAI TAP CA NHAN
I.ASSIGNMENT 1:
Bài 1:
Anh/Chị hãy vào trang web: thu thập số liệu
theo tháng của chỉ số giá chứng khoán VN Index (VNI) và giá của cổ phiếu của Công ty
Chứng khoán Sài Gòn (SSI), và thực hiện các yêu cầu sau đây:
- lưu số liệu vừa thu thập về dưới dạng tập tin Excel với tên : data1.xls
a. Chuyển hai chuỗi dữ liệu đó qua tập tin Eviews với tên biến là VNI và SSI?
- click chuột phải vào data1.xls chọn Open with/Eviews
- trong hộp thoại Spreadsheet Read:
- bước 1: chọn Custom range sau đó điều chỉnh tới cột cần đặt tên /Next
- bước 2: lần lượt nhập tên cho 2 cột là VNI và SSI /Finish
2
b. Vẽ hai biến VNI và SSI trên cùng một đồ thị?
- từ cửa sổ tập tin, chọn Quick/Graph
- trong Series list, nhập tên biến vào (biến nào ở trục hoành gõ trước): vni ssi /OK
- nếu chọn Type: là Line & Symbol và Axis/Scale : #2 SSI là Right /OK thì ta có đồ thị
sau
200
400
600
800
1,000
1,200
0
50
100
150


200
250
300
2 4 6 8 10 12 14 16 18 20 22 24
VNI SSI
c. Tính suất sinh lợi của thị trường (R
m
) và hãy vẽ trên cùng đồ thị hai biến VNI và R
m
?
Lưu ý, R
m
có thể được tính như sau R
m
= (VNI
t
– VNI
t-1
)/VNI
t-1
hoặc R
m
= ln(VNI
t
/VNI
t-1
).
Trong Eviews, hàm ln được sử dụng là log.
- trên màn hình lệnh của Eviews nhập : genr rm=log(vni/vni(-1))
- sau đó, tương tự câu b, chọn Quick/Graph, rồi nhập tên biến : vni rm /OK

- chọn Type: Line & Symbol và Axis/Scale cho Rm là Right /OK, ta có đồ thị sau
3
200
400
600
800
1,000
1,200
2
1
.0
.1
.2
.3
.4
2 4 6 8 10 12 14 16 18 20 22 24
VNI RM
d. Vẽ đồ thị tần suất kèm thống kê mô tả biến SSI? Giải thích ý nghĩa của các thống kê
trong bảng kết quả?
- chọn Quick/Series Statistics/Histogram and Stats
- trong Series name, nhập tên biến : ssi /OK , có đồ thị sau
0
2
4
6
8
10
0 25 50 75 100 125 150 175 200 225 250 275
Series: SSI
Sample 1 24

Observations 24
Mean 103.6250
Median 61.75000
Maximum 265.0000
Minimum 21.40000
Std. Dev. 80.80398
Skewness 0.645914
Kurtosis 2.037646
Jarque-Bera 2.594943
Probability 0.273222
4
Ý nghĩa của các thống kê trong bảng kết quả :
Series : biến
Sample : mẫu quan sát
Observations : số quan sát
Mean : giá trị trung bình
Median: trung vị
Maximum: giá trị lớn nhất
Minimum: giá trị nhỏ nhất
Std.Dev. : độ lệch chuẩn
Skewness : độ nghiêng
Kurtosis : độ nhọn
Jarque-Bera: thống kê JB, càng nhỏ thì biến càng “dễ” có phân phối chuẩn
Probability: xác suất tương ứng của JB, càng nhỏ thì khả năng bác bỏ giả thiết Ho càng cao
(giả thiết Ho mặc định là : biến có pp chuẩn), ở đây có kết quả 0.273222 (rất nhỏ) tức là
biến không có phân phối chuẩn
e. Vẽ trên cùng đồ thị VNI và VNI trễ một giai đoạn?
- chọn Quick/Graph
- nhập tên biến : vni vni(-1) /OK , có đồ thị sau
200

300
400
500
600
700
800
900
1,000
1,100
2 4 6 8 10 12 14 16 18 20 22 24
VNI VNI(-1)
5
f. Vẽ giản đồ tự tương quan của VNI với độ trễ được chọn là 5. Anh/Chị hãy giải thích và
nêu ý nghĩa các hệ số AC và PAC?
- chọn Quick/Series Statistics/Correlogram
- trong Series name, nhập tên biến : vni(-5) /OK
- trong Correlogram Specification, chọn Level /OK, có giản đồ tương quan sau
Ý nghĩa các hệ số AC và PAC :
AC (Autocorrelation Coefficient): hệ số tự tương quan  xác định chuỗi thời gian dừng
hay không :
- là “dừng” khi AC đầu tiên ≠0 nhưng các AC tiếp theo =0 một cách có ý nghĩa
thống kê
- là “không dừng” khi một số AC ≠0 một cách có ý nghĩa thống kê
PAC (Partial Autocorrelation Coefficient): hệ số tự tương quan riêng xác định mô hình
ARIMA thích hợp
g. Vẽ giản đồ tự tương quan sai phân bậc nhất của VNI với độ trễ được chọn là 5.
Anh/Chị có nhận xét gì giữa kết quả câu (g) và câu (f)?
- chọn Quick/Series Statistics/Correlogram
- trong Series name, nhập tên biến : d(vni,5) /OK
- trong Correlogram Specification, chọn Level /OK, có giản đồ tương quan sau

6
Nhận xét kết
quả câu g và f :
- ở câu g là
chuỗi thời gian
không dừng vì:
các hệ số AC
đầu rất cao và
về sau giảm
dần =0 theo độ
trễ
- ở câu f là chuỗi thời gian dừng vì: các hệ số AC đầu ≠0 nhưng tiếp theo sẽ =0
Bài 2:
Sử dụng tập tin hhexpe06.dta (tập tin Stata), chuyển sang tập tin Eviews và thực hiện các
yêu cầu sau đây:
- click chuột phải vào hhexpe06.dta chọn Open with/Eviews
- xuất hiện hộp thoại Table read specification: chọn các biến cần thiết theo yêu cầu của
đề bài để chuyển sang Eviews (mặc định là chọn hết) /OK
a. Vẽ đồ thị tần suất các biến chi tiêu lúa gạo, chi tiêu phi lương thực, chi tiêu giáo dục,
chi tiêu sức khỏe, chi tiêu nước uống, chi tiêu điện sinh hoạt và qui mô hộ gia đình Việt
Nam năm 2006?
7
- mở cùng lúc các biến riceexp, nonfdx_1, educex_1, hlthex_1, waterexp, elecexp,
hhsize bằng cách : giữ phím Ctrl khi chọn biến rồi click chuột phải chọn Open/as Group để
mở biến
- từ cửa sổ vừa mở, chọn View/Graph…
- trong Graph Options : chọn Type là Distribution /OK, ta có đồ thị tần suất như sau
0
1,000
2,000

3,000
4,000
5,000
0 4,000 8,000 12,000 16,000
Frequency
RICEEXP
0
1,000
2,000
3,000
4,000
5,000
6,000
0 40,000 80,000 120,000 160,000
Frequency
NONFDX_1
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
0 10,000 20,000 30,000 40,000
Frequency
ED U C EX_1
0
2,000
4,000

6,000
8,000
10,000
0 40,000 80,000 120,000
Frequency
HLTHEX_1
0
2,000
4,000
6,000
8,000
10,000
0 5,000 10,000 15,000 20,000
Frequency
WATER EXP
0
2,000
4,000
6,000
8,000
0 10,000 20,000 30,000 40,000
Frequency
ELECEXP
0
500
1,000
1,500
2,000
2,500
3,000

0 2 4 6 8 10 12 14 16 18
Frequency
HHSIZE
8
b. Lập bảng giá trị trung bình của các biến trên theo 5 nhóm thu nhập khác nhau? Anh/Chị
rút ra được nhận xét gì?
- double click mở từng biến, ở cửa sổ mỗi biến ta làm như nhau
- chọn View/Descriptive Statistics & Tests/Stats by Classification…
- xuất hiện hộp thoại Statistics By Classification :
- trong Statistics : click chọn Mean
- trong Series/Group for classify : nhập biến thu nhập (ko tìm thấy???) /OK, ta có
kết quả như sau
Nhận xét:
c. Lập bảng giá trị trung bình của các biến trên theo 8 vùng địa lý khác nhau ở Việt Nam?
Anh/Chị rút ra được nhận xét gì?
- double click mở từng biến, ở cửa sổ mỗi biến ta làm như nhau
- chọn View/Descriptive Statistics & Tests/Stats by Classification…
- xuất hiện hộp thoại Statistics By Classification :
- trong Statistics : click chọn Mean
- trong Series/Group for classify : nhập Reg8 (biến vùng địa lý) /OK, ta có các kết
quả như sau
Nhận xét ở Việt Nam năm 2006:
- Chi tiêu lúa gạo trung bình: cao nhất ở vùng 7 (1970.702), thấp nhất ở vùng 1
(663.8771)
9
- Chi tiêu phi lương thực trung bình: cao nhất ở vùng 7 (9690.978), thấp nhất ở
vùng 3 (3196.382)
- Chi tiêu giáo dục trung bình: cao nhất ở vùng 7 (2003.274), thấp nhất ở vùng 3
(675.6620)
- Chi tiêu sức khỏe trung bình: cao nhất ở vùng 7 (1986.412), thấp nhất ở vùng 3

(658.8135)
- Chi tiêu nước uống trung bình: cao nhất ở vùng 7 (236.9655), thấp nhất ở vùng 3
(40.83916)
- Chi tiêu điện sinh hoạt trung bình: cao nhất ở vùng 7 (1182.311), thấp nhất ở vùng
3 (250.9021)
- Qui mô hộ gia đình trung bình: cao nhất ở vùng 3 (6 người/hộ), thấp nhất ở vùng 1
(4 người/hộ)
Vùng 7: có chi tiêu TB cao nhất => vùng đồng bằng Nam Bộ (mức sống cao)
Vùng 3: mức chi tiêu TB thấp + qui mô hộ gia đình TB cao nhất => vùng duyên
hải miền Trung (nghèo, đông con)
Vùng 1: chi tiêu TB lúa gạo và qui mô hộ gia đình TB thấp nhất => vùng núi
caoTây Nguyên (thiếu lương thực, dân tộc thiểu số)
d. Lập bảng so sánh giá trị trung bình các biến trên theo hai khu vực thành thị và nông
thôn? Anh/Chị rút ra được nhận xét gì?
- double click mở từng biến, ở cửa sổ mỗi biến ta làm như nhau
- chọn View/Descriptive Statistics & Tests/Stats by Classification…
- xuất hiện hộp thoại Statistics By Classification :
- trong Statistics : click chọn Mean
- trong Series/Group for classify : nhập Urban06 (biến khu vực) /OK, ta có kết quả
như sau
Nhận xét :
10
- trung bình về chi tiêu lúa gạo, chi tiêu phi lương thực, chi tiêu giáo dục, chi tiêu sức
khỏe, chi tiêu nước uống, chi tiêu điện sinh hoạt : ở thành thị (URBAN) đều cao hơn
nông thôn
- trung bình về qui mô hộ gia đình Việt Nam năm 2006: ở nông thôn (4.301) cao hơn
thành thị (4.104)
 thành thị có mức sống cao hơn nông thôn
 nông thôn chưa thực hiện kế hoạch hóa gia đình bằng thành thị
e. Anh/Chị hãy kiểm định xem có sự khác biệt về chi tiêu giáo dục trung bình giữa thành

thị và nông thôn hay không?
- mở biến educex_1
- chọn View/Descriptive Statistics & Tests/Equality Tests by Classification…
- xuất hiện hộp thoại Tests By Classification:
- trong Series/Group for classify: nhập URBAN06
- trong Test equality of: chọn Mean ( kiểm định trung bình ) /OK, có kết quả sau
 Giá trị ANOVA F-test có Probability thấp bằng 0.0000 (mà p-value càng thấp
thì khả năng bác bỏ H
0
càng cao) do đó ta bác bỏ H
0
(H
0
: trung bình chi tiêu giáo
11
dục ở thành thị và nông thôn là bằng nhau)  có sự khác biệt về chi tiêu giáo
dục trung bình giữa thành thị và nông thôn
Bài 3:
Anh/Chị hãy chọn và phân tích một vấn đề về năng lực cạnh tranh cấp tỉnh ở Việt Nam mà
mình quan tâm. Để hỗ trợ bài tập này, Anh/Chị nên sử dụng tập tin PCI.xls của các năm
2006, 2007, và 2008 (và các báo cáo tổng hợp liên quan).
Bài 4:
Cho X ~ N(8,25)
 μ = 8 , σ = 5
Yêu cầu: Vẽ phát họa đồ thị cho từng trường hợp.
a. Tính P(X > 8.6)
Có Z =
5
86.8 −
= 0.12 với Z ~ N( 0,1 )

 P( X > 8.6 ) = P( Z > 0.12 ) = 1 - P( Z < 0.12 ) = 1 - 0.5478 = 0.4522
Tính P( Z < 0.12 ) bằng Excel, sử dụng hàm : = NORMDIST ( 0.12 , 0 , 1 , true )
= 0.547758426
b. Tính P(8 < X < 8.6)
Vì μ=8 và phân phối của X là pp chuẩn ( pp chuẩn đối xứng quanh giá trị μ ) nên
:
 P( 8 < X < 8.6 ) = 50% - P( X > 8.6 ) = 0.5 - 0.4522 = 0.0478
c. Tính P(X < 7.4)
12
Vì μ=8 và phân phối của X là pp chuẩn ( pp chuẩn đối xứng quanh giá trị μ ) nên
:
 P( X < 7.4 ) = P( X > 8.6 ) = 0.4522
d. Tính P(7.4 < X < 8.6)
Vì μ=8 và phân phối của X là pp chuẩn ( pp chuẩn đối xứng quanh giá trị μ ) nên
:
 P( 7.4 < X < 8.6 ) = 2 * P( 8 < X < 8.6 ) = 2 * 0.0478 = 0.0956
Bài 5:
Từ một mẫu 25 quan sát, người ta tính được giá trị trung bình là 172.5 và độ lệch chuẩn là
15.4. Giả sử có giả thiết sau đây:
 N = 25 , μ = 172.5 , σ = 15.4
H
0
: µ = 168
H
1
: µ ≠ 168
Yêu cầu: Vẽ phát họa đồ thị cho từng trường hợp.
a. Xác định loại thống kê kiểm định phù hợp?
 Loại KIỂM ĐỊNH TRUNG BÌNH ( với X có phân phối chuẩn ) :
- là thống kê t : với giả thiết H

0,
có phân phối t với số bậc tự do là N-1 ( nếu không biết
σ của X )
- là thống kê z : với giả thiết H
0,
có phân phối chuẩn hóa ( nếu biết σ của X )
Ở đây do ta đã biết σ = 15.4 , nên thuộc loại thống kê z có phân phối chuẩn hóa
b. Kiểm định giả thiết trên với mức ý nghĩa lần lượt như sau: α = 1%, 5%, 10%, và 15%?
Anh/Chị cho biết khi α thay đổi thì quyết định chấp nhận hay bác bỏ giả thiết H
0
sẽ thay
đổi như thế nào?
- Mở biến
- Chọn View/ Descriptive Statistics & Tests/ Simple Hypothesis Tests
- Xuất hiện hộp thoại Series Distribution Tests :
- Trong Test value: nhập vào “MEAN” là 168
- Trong Mean test assumption: nhập vào “ENTER s.d. if known” là 24 ( do = N-1 =
25 -1) /OK
13
 Khi α càng tăng thì càng “dễ” chấp nhận giả thiết Ho
II. ASSIGNMENT 2:
Bài 2: Từ dữ liệu của Assignment 1
1. Ước lượng mô hình CAPM có dạng: log(SSI/SSI(-1)) c log(VNI/VNI(-1)) :
Chọn 2 biến ssi và vni  Quick/Estimation Equation  nhập log(SSI/SSI(-1)) c
log(VNI/VNI(-1))
Dependent Variable: LOG(SSI/SSI(-1))
Method: Least Squares
Date: 04/11/09 Time: 12:29
Sample (adjusted): 2 22
Included observations: 21 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.
C -0.010652 0.006188 -1.721389 0.1014
LOG(VNI/VNI(-1)) 0.878655 0.404512 2.172137 0.0427
R-squared 0.198927 Mean dependent var -0.012801
Adjusted R-squared 0.156765 S.D. dependent var 0.030483
S.E. of regression 0.027992 Akaike info criterion -4.223392
Sum squared resid 0.014888 Schwarz criterion -4.123913
Log likelihood 46.34561 Hannan-Quinn criter. -4.201802
F-statistic 4.718180 Durbin-Watson stat 1.670739
Prob(F-statistic) 0.042709
2. Vẽ trên cùng đồ thị các biến suất sinh lợi thực tế, suất sinh lợi ước lượng và
phần dư của mô hình trên :
Tiếp tục trong cửa sổ Estimation Equation trên, chọn View/Actual, Fitted, Residual/
Actual, Fitted, Residual Graph.
06
04
02
.00
.02
.04
.06
06
04
02
.00
.02
.04
.06
2 4 6 8 10 12 14 16 18 20 22
Residual Actual Fitted

3. Xây dựng khoảng tin cậy 95% cho B
2
:
Trên dòng lệnh, nhập:
scalar b2_cd=c(2)-@qtdist(0.975,20)*@stderrs(2)  giá trị chặn dưới.
scalar b2_ct=c(2)-@qtdist(0.975,20)*@stderrs(2  giá trị chặn trên.
14
So sánh b2 với 2 giá trị trên, nếu b2_cd<b2<b2_ct  chấp nhận H
0
: b2 có ý nghĩa thống
kê.
4. Kiểm định giả thiết cho rằng Hệ số Beta của công ty chứng khoán Sài Gòn =1
5. Tình hệ số tương quan giữa suất sinh lợi thị trường và suất sinh lợi của cổ
phiếu SSI:
Nhập lệnh Genr rim=@cor(ri,rm) hoặc mở biến ri và rm as group Quick/Group
Statistics/Correlation
Với rm=log(vni/vni(-1)) và ri=log(ssi/ssi(-1)).
RI RM
RI 1 0.4460120397302639
RM 0.4460120397302639 1
6. Ước tính hệ số Beta điều chỉnh cho cổ phiếu SSI:
Genr beta_adjusted=c(2)/@cor(ri,rm).
7. Giả sử suất sinh lợi phi rủi ro của Việt Nam là 9.6% và phần bù rủi ro thị
trường là 5.5%, ước tính suất sinh lợi kỳ vọng cho cổ phiếu SSI:
R
SSI,VNI
= 9,6% + beta*5,5%.
Bài 3:
III. ASSIGNMENT3:
Bài 1:

a) Nhấp đúp vào biến y -> vào view/ Descriptive Statistic & Tests/ Stats by
classification, gõ “X2” ở Series/ group for classify -> ta có bảng sau:
Descriptive Statistics for Y
Categorized by values of X2
Date: 05/20/09 Time: 22:31
Sample: 1 30
Included observations: 30
X2 Mean Std. Dev. Obs.
[0, 20) 42.57143 9.501880 7
[20, 40) 56.28571 10.45170 7
[40, 60) 56.33333 5.316641 6
[60, 80) 59.00000 5.049752 5
[80, 100) 66.80000 8.642916 5
All 55.30000 11.16692 30
Nhận xét: doanh số bán hàng tăng theo điểm về kỹ năng bán hàng.
b) Mô hình dự báo: chưa học!
c) Hồi quy:
Ở màn hình lệnh: ls y c x2 x3 x4 x5 x6, ta có bảng sau:
Dependent Variable: Y
Method: Least Squares
Date: 05/20/09 Time: 22:39
Sample: 1 30
Included observations: 30
15
Variable Coefficient Std. Error t-Statistic Prob.
C -90.62915 17.84109 -5.079799 0.0000
X2 0.202915 0.028221 7.190144 0.0000
X3 6.154295 0.921462 6.678840 0.0000
X4 0.112319 0.503071 0.223266 0.8252
X5 -0.013198 0.785811 -0.016796 0.9867

X6 -0.586477 1.762090 -0.332830 0.7422
R-squared 0.895539 Mean dependent var 55.30000
Adjusted R-squared 0.873776 S.D. dependent var 11.16692
S.E. of regression 3.967380 Akaike info criterion 5.770945
Sum squared resid 377.7625 Schwarz criterion 6.051185
Log likelihood -80.56418 Hannan-Quinn criter. 5.860596
F-statistic 41.15014 Durbin-Watson stat 1.895046
Prob(F-statistic) 0.000000
Các hệ số b4,b5,b6 không có ý nghĩa thống kê.
Hệ số b2, b3 có ý nghĩa thống kê và có dấu đúng với kỳ vọng.
Vì:
- b2 >0 : điểm về kỹ năng bán hàng càng cao thì doanh số bán hàng cũng tăng
theo.
- b3 >0 : nhân viên càng hăng hái trong công việc thì doanh số bán hàng càng
tăng.
d) Ước lượng mô hình dự báo: chưa học!
Bài 2:
a) Chọn các biến y,b2,b3,b4,b5,b6,b7,b8 -> nhấp chuột phải, Open/as group -> vào
view/ Descriptive stats/common sample
X2 X3 X4 X5 X6 X7 X8 Y
Mean 22.36898 172.5951 31.74383 1723.560 255.0064 39.85211 47.95525 2266.132
Median 9.025000 26.62300 17.88800 342.2877 33.20000 20.55600 24.61515 472.0812
Maximum 207.7000 4186.930 348.1426 45999.01 4485.195 423.2698 785.0718 60334.51
Minimum 0.442000 1.066000 0.429000 2.398000 1.011100 0.267000 0.750000 6.803000
Std. Dev. 30.58231 438.6564 39.58890 4488.490 573.7774 55.84726 86.40719 5799.043
Skewness 2.638699 5.133975 3.290828 5.794956 3.859590 3.502381 5.336685 5.944537
Kurtosis 11.73742 36.88443 20.81731 45.86810 21.32879 19.38885 38.88011 48.11877
Jarque-Bera 1146.128 13789.44 3968.524 21692.00 4350.833 3494.271 15414.33 23947.59
Probability 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
Sum 5905.412 45565.10 8380.372 455020.0 67321.69 10520.96 12660.19 598258.9

Sum Sq. Dev. 245978.0 50606322 412194.9 5.30E+09 86584999 820275.1 1963611. 8.84E+09
Observations 264 264 264 264 264 264 264 264
16
b) Chọn các biến y,b2,b3,b4,b5,b6,b7,b8 -> View/ Group statistics/ Correlations
X2 X3 X4 X5 X6 X7 X8 Y
X2 1.000000 0.573045 0.260664 0.581816 0.606916 0.208016 0.210286 0.602849
X3 0.573045 1.000000 0.122734 0.905251 0.627895 0.023502 0.262369 0.932005
X4 0.260664 0.122734 1.000000 0.083741 0.123914 0.456082 0.079123 0.105862
X5 0.581816 0.905251 0.083741 1.000000 0.624455 0.020705 0.196601 0.987976
X6 0.606916 0.627895 0.123914 0.624455 1.000000 0.043653 0.253913 0.618947
X7 0.208016 0.023502 0.456082 0.020705 0.043653 1.000000 0.013897 0.052856
X8 0.210286 0.262369 0.079123 0.196601 0.253913 0.013897 1.000000 0.215714
Y 0.602849 0.932005 0.105862 0.987976 0.618947 0.052856 0.215714 1.000000
Nhận xét: các hệ số tương quan giữa các biến thấp -> không có đa cộng tuyến (chưa
chắc lắm!)
c) Các biến giải thích có hệ số tương quan với y lớn hơn 0.7 là X3, X5
• Vẽ đồ thị phân tán giữa X3 với Y:
- Quick/Graph/ nhập x3 y/ (Type) chọn Scatter/ (Fit lines) chọn Regression line (-
> tạo đường hồi quy)
0
10,000
20,000
30,000
40,000
50,000
60,000
70,000
0 1,000 2,000 3,000 4,000 5,000
X3
Y

Nhận xét : đây là mô hình phù hợp vì các giá trị phân tán quanh đường hồi quy.
• Vẽ đồ thị phân tán giữa X5 với Y: (tương tự với X3)
17
0
10,000
20,000
30,000
40,000
50,000
60,000
70,000
0 10,000 20,000 30,000 40,000 50,000
X5
Y
Nhận xét : đây là mô hình phù hợp vì các giá trị phân tán quanh đường hồi quy.
d) Nhấp đúp vào biến y -> vào view/ Descriptive Statistic & Tests/ Stats by
classification, gõ “X3 X2” ở Series/ group for classify -> ta có bảng sau:
Descriptive Statistics for Y
Categorized by values of X3 and X2
Date: 05/21/09 Time: 00:22
Sample: 1 266
Included observations: 265
Mean
Std. Dev. X2
Obs. [0, 50) [50, 100) [100, 150) [150, 200) [200, 250) All
[0, 1000) 1032.968 2383.734 6163.426 11049.50 NA 1246.357
1575.080 2188.790 5477.006 NA NA 1917.238
227 21 3 1 0 252

[1000, 2000) 14698.14 16465.63 29127.00 9254.117 34736.00 17979.29

6131.026 9293.366 NA NA NA 9514.644
4 4 1 1 1 11

X3 [2000, 3000) NA 28085.00 NA NA NA 28085.00
NA NA NA NA NA NA
0 1 0 0 0 1

[4000, 5000) NA NA 60334.51 NA NA 60334.51
NA NA NA NA NA NA
0 0 1 0 0 1

All 1269.594 5538.690 21590.36 10151.81 34736.00 2265.183
18
2473.740 7873.685 24144.75 1269.527 NA 5788.070
231 26 5 2 1 265
Nhận xét:
- Cùng khoảng giá trị của X3 (chi tiêu vốn hữu hình) thì giá trị trung bình của Y tăng
theo X2 (tổng số lao động)
- Cùng khoảng giá trị của X2 (tổng số lao động) thì giá trị trung bình của Y tăng theo
X3 (chi tiêu vốn lao động).
d) Chiến lược chọn mô hình: từ tổng quát (general) đến giản đơn (simple):
B1: hồi quy Y theo tất cả các biến:
Dependent Variable: Y
Method: Least Squares
Date: 05/21/09 Time: 00:32
Sample: 1 266
Included observations: 264
Variable Coefficient Std. Error t-Statistic Prob.
C -155.3579 64.48403 -2.409246 0.0167
X2 6.102751 1.971835 3.094961 0.0022

X3 2.771448 0.241587 11.47185 0.0000
X4 -0.620636 1.258533 -0.493142 0.6223
X5 1.032169 0.023537 43.85339 0.0000
X6 -0.334775 0.106573 -3.141288 0.0019
X7 2.907275 0.882797 3.293253 0.0011
X8 0.351253 0.527540 0.665832 0.5061
R-squared 0.985744 Mean dependent var 2266.132
Adjusted R-squared 0.985355 S.D. dependent var 5799.043
S.E. of regression 701.7919 Akaike info criterion 15.97499
Sum squared resid 1.26E+08 Schwarz criterion 16.08335
Log likelihood -2100.698 Hannan-Quinn criter. 16.01853
F-statistic 2528.820 Durbin-Watson stat 1.955415
Prob(F-statistic) 0.000000
-> các hệ số b4,b8 không có ý nghĩa thống kê.
B2: Kiểm định Wald test (kiểm định giả thiết đồng thời: có phải cả 2 biến này X4,X8
đồng thời không ảnh hưởng lên doanh số hay không)
-> từ kết quả hồi quy-> view/Coefficient
Tests/ Wald-Coefficient Restrictions/ gõ C(4)=C(8)=0 (Ho), ta có bảng:
Wald Test:
Equation: Untitled
Test Statistic Value df Probability
F-statistic 0.334088 (2, 256) 0.7163
Chi-square 0.668175 2 0.7160
19
Null Hypothesis Summary:
Normalized Restriction (= 0) Value Std. Err.
C(4) -0.620636 1.258533
C(8) 0.351253 0.527540
Restrictions are linear in coefficients.
-> p-value của F-statistic lớn (0.7163)-> chấp nhận Ho (cả x4,x8 đồng thời không ảnh

hưởng đến Y)
B3: hồi quy Y theo x2,x3,x5,x6,x7
Dependent Variable: Y
Method: Least Squares
Date: 05/21/09 Time: 00:45
Sample: 1 266
Included observations: 265
Variable Coefficient Std. Error t-Statistic Prob.
C -149.1473 59.07772 -2.524596 0.0122
X2 6.068047 1.947646 3.115580 0.0020
X3 2.783337 0.237022 11.74293 0.0000
X5 1.030859 0.023233 44.37082 0.0000
X6 -0.320920 0.105859 -3.031572 0.0027
X7 2.718822 0.800158 3.397854 0.0008
R-squared 0.985573 Mean dependent var 2265.183
Adjusted R-squared 0.985295 S.D. dependent var 5788.070
S.E. of regression 701.8891 Akaike info criterion 15.96781
Sum squared resid 1.28E+08 Schwarz criterion 16.04886
Log likelihood -2109.735 Hannan-Quinn criter. 16.00037
F-statistic 3538.779 Durbin-Watson stat 1.951116
Prob(F-statistic) 0.000000
-> Mô hình hồi quy phù hợp:
Y= -149.15 + 6.07x2 + 2.78x3 + 1.03x5 – 0.32x6 + 2.72x7
e) Kiểm định các hệ số hồi quy:
Các hệ số b1,b2,b3,b5,b6,b7 đều có ý nghĩa kinh tế ở mức 5% vì p-value của chúng
đều nhỏ hơn 0.05 (bác bỏ Ho, Ho = các hệ số không có ý nghĩa thống kê)
Ý nghĩa kinh tế:
b1= -149.15 : hệ số cắt
b2= 6.07 : nếu các biến giải thích khác không đổi, nếu tổng số lao động (x2) tăng
thêm 1 ngàn người thì doanh thu (Y) sẽ tăng thêm 6.07 triệu đôla.

 Các hệ số khác giải thích tương tự.
f) Việc sử dụng các hệ số hồi quy trong việc tư vấn lập ngân sách vốn đầu tư cho
các doanh nghiệp trong tương lai:
20
- vì các hệ số b4,b8 không có ý nghĩa thống kê (có nghĩa các biến x4,x8 không
ảnh hưởng đến doanh số) -> cắt bỏ chi phí vốn vô hình (x4) và chi phí nghiên
cứu & phát triển (x8).
- Vì b6 < 0 -> các doanh nghiệp nên cắt giảm dần chi phí quản lý (x6)
- Vì b2>b3>b7>b5>0 -> các doanh nghiệp nên tập trung nâng cao tổng số lao
động (x2), ưu tiên đầu tư vào chi tiêu vốn hữu hình (x3), sau đó là chi phí quảng
cáo & bán hàng (x7), cuối cùng là giá vốn hàng bán (x5).
Bài 3:
a) Chọn các biến (12 biến) -> nhấp chuột phải, Open/as group -> vào view/
Descriptive stats/common sample
AGE VALUE TENURE SALES SALARY PROFIT PROF OTHERCOM EXPER EDU COMPENS BONUS
Mean 57.66000 62.31600 23.50000 4075.680 920.1200 117.4000 5.220000 43.76000 10.38000 1.520000 1186.080 222.2000
Median 59.00000 4.050000 26.00000 2251.000 691.0000 80.00000 5.000000 33.00000 8.000000 2.000000 818.0000 106.0000
Maximum 71.00000 1689.000 46.00000 21351.00 3396.000 1166.000 9.000000 143.0000 34.00000 2.000000 4039.000 1487.000
Minimum 45.00000 0.100000 2.000000 415.0000 128.0000 -1086.000 1.000000 0.000000 1.000000 0.000000 357.0000 0.000000
Std. Dev. 5.571831 249.3224 12.69782 4552.241 697.6053 328.1078 2.589539 38.43604 8.966810 0.614120 833.5558 322.0034
Skewness -0.270224 5.862292 -0.299182 1.882641 1.563738 0.016030 -0.180923 0.726974 0.961647 -0.877554 1.420794 2.537563
Kurtosis 2.532195 38.00932 1.947630 6.159773 5.379005 7.520569 1.899494 2.548356 2.904372 2.762636 4.758896 9.913458
Jarque-Bera 1.064427 2839.830 3.053171 50.33649 32.16827 42.57620 2.795929 4.829053 7.725424 6.534884 23.26737 153.2350
Probability 0.587304 0.000000 0.217276 0.000000 0.000000 0.000000 0.247099 0.089410 0.021011 0.038104 0.000009 0.000000
Sum 2883.000 3115.800 1175.000 203784.0 46006.00 5870.000 261.0000 2188.000 519.0000 76.00000 59304.00 11110.00
Sum Sq. Dev. 1521.220 3045922. 7900.500 1.02E+09 23846003 5275082. 328.5800 72389.12 3939.780 18.48000 34045946 5080622.
Observations 50 50 50 50 50 50 50 50 50 50 50 50
Nhận xét: ???
b) Nhấp đúp vào biến compens -> vào view/ Descriptive Statistic & Tests/ Stats by
classification, gõ “edu” ở Series/ group for classify -> ta có bảng sau:

Descriptive Statistics for COMPENS
Categorized by values of EDU
Date: 05/22/09 Time: 16:40
Sample: 1 50
Included observations: 50
EDU Mean Std. Dev. Obs.
0 2168.667 1432.994 3
1 1542.222 908.4585 18
2 863.3793 524.7285 29
All 1186.080 833.5558 50
Nhận xét: tổng tiền lương trung bình của giám đốc dự án giảm dần theo trình độ học
vấn.
21
c) Nhấp đúp vào biến compens -> vào view/ Descriptive Statistic & Tests/ Stats by
classification, gõ “prof” ở Series/ group for classify -> ta có bảng sau:
Descriptive Statistics for COMPENS
Categorized by values of PROF
Date: 05/22/09 Time: 16:41
Sample: 1 50
Included observations: 50
PROF Mean Std. Dev. Obs.
1 1250.286 782.2090 7
2 2027.000 NA 1
3 1439.500 903.1546 6
4 1011.667 742.8256 6
5 825.7143 647.6346 7
6 1018.667 450.1959 3
7 1440.889 1117.068 9
8 1061.400 563.8123 5
9 1117.833 1129.092 6

All 1186.080 833.5558 50
Nhận xét: tổng tiền lương trung bình của giám đốc dự án ở mức cao nếu tham gia từ
1->3 khóa, từ 4-> 9 khóa : ở mức trung bình chung
Xác định mô hình hồi quy phù hợp: (không chắc chắn)
ls salary c bonus othercom compens age edu prof tenure exper value profit sales
 có bảng kết quả hồi quy sau:
Dependent Variable: SALARY
Method: Least Squares
Date: 05/21/09 Time: 02:05
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C 1.41E-12 8.48E-13 1.668228 0.1035
BONUS -1.000000 2.74E-16 -3.65E+15 0.0000
OTHERCOM -1.000000 2.41E-15 -4.16E+14 0.0000
COMPENS 1.000000 1.27E-16 7.87E+15 0.0000
AGE -9.43E-15 1.38E-14 -0.683261 0.4986
EDU -6.18E-14 1.31E-13 -0.472206 0.6395
PROF -9.82E-14 2.48E-14 -3.960393 0.0003
TENURE 8.39E-16 6.15E-15 0.136488 0.8922
EXPER -5.10E-16 9.80E-15 -0.052002 0.9588
VALUE 1.21E-16 2.80E-16 0.431854 0.6683
PROFIT -2.36E-16 2.12E-16 -1.115079 0.2718
SALES 0.000000 1.57E-17 0.000000 1.0000
R-squared 1.000000 Mean dependent var 920.1200
Adjusted R-squared 1.000000 S.D. dependent var 697.6053
S.E. of regression 4.18E-13 Sum squared resid 6.64E-24
22
F-statistic 1.24E+31 Durbin-Watson stat 1.842031
Prob(F-statistic) 0.000000

-> các hệ số b5, b6, b8,b9,b10,b11,b12 không có ý nghĩa thống kê ở mức ý nghĩa
11%
 kiểm định Wald:
từ kết quả hồi quy-> view/Coefficient Tests/ Wald-Coefficient Restrictions/ gõ
c(5)=c(6)=c(8)=c(9)=c(10)=c(11)=c(12)=0 (giả thiết Ho), ta có bảng:
Wald Test:
Equation: Untitled
Test Statistic Value df Probability
F-statistic 0.303039 (7, 38) 0.9481
Chi-square 2.121275 7 0.9528
Null Hypothesis Summary:
Normalized Restriction (= 0) Value Std. Err.
C(5) -9.43E-15 1.38E-14
C(6) -6.18E-14 1.31E-13
C(8) 8.39E-16 6.15E-15
C(9) -5.10E-16 9.80E-15
C(10) 1.21E-16 2.80E-16
C(11) -2.36E-16 2.12E-16
C(12) 0.000000 1.57E-17
Restrictions are linear in coefficients.
 p-value của F-statistic lớn (0.9481)-> chấp nhận Ho (cả age, edu, tenure, exper,
value, profit, salé x8,x9,x10,x11,x12 đồng thời không ảnh hưởng đến Y)
 Hồi quy salary theo bonus, othercom, compens, prof:
ls salary c bonus othercom compens prof
Dependent Variable: SALARY
Method: Least Squares
Date: 05/21/09 Time: 10:25
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.

C 7.72E-13 1.45E-13 5.305148 0.0000
BONUS -1.000000 2.00E-16 -5.00E+15 0.0000
OTHERCOM -1.000000 1.84E-15 -5.45E+14 0.0000
COMPENS 1.000000 8.75E-17 1.14E+16 0.0000
PROF -8.90E-14 2.06E-14 -4.322178 0.0001
23
R-squared 1.000000 Mean dependent var 920.1200
Adjusted R-squared 1.000000 S.D. dependent var 697.6053
S.E. of regression 3.72E-13 Sum squared resid 6.24E-24
F-statistic 4.30E+31 Durbin-Watson stat 1.807065
Prob(F-statistic) 0.000000
-> mô hình hôi quy:
Salary = 7.72E-13 – bonus – othercom + compens – 8.90E-14
e) Các kiểm định cần thiết:
- Kiểm định phương sai thay đổi:
B1: Vẽ đồ thị salary theo bonus:
Quick/Graph/ bonus salary
0
500
1,000
1,500
2,000
2,500
3,000
3,500
0 500 1,000 1,500
BONUS
SALARY
B2: ước lượng lại mô hình
ls salary c bonus othercom compens prof

Dependent Variable: SALARY
Method: Least Squares
Date: 05/21/09 Time: 10:25
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C 7.72E-13 1.45E-13 5.305148 0.0000
BONUS -1.000000 2.00E-16 -5.00E+15 0.0000
OTHERCOM -1.000000 1.84E-15 -5.45E+14 0.0000
COMPENS 1.000000 8.75E-17 1.14E+16 0.0000
PROF -8.90E-14 2.06E-14 -4.322178 0.0001
24
R-squared 1.000000 Mean dependent var 920.1200
Adjusted R-squared 1.000000 S.D. dependent var 697.6053
S.E. of regression 3.72E-13 Sum squared resid 6.24E-24
F-statistic 4.30E+31 Durbin-Watson stat 1.807065
Prob(F-statistic) 0.000000
B3: Vẽ đồ thị phần dư theo giá trị ước lượng của salary
Từ kết quả hồi quy, chọn View/Representative, rồi copy phương trình hồi quy, ra cửa
sổ lệnh và ước lượng như sau:
genr salaryhat= 7.71731845292e-13 - 1*BONUS - 1*OTHERCOM + 1*COMPENS
- 8.90013815418e-14*PROF
Vẽ đồ thị:
Quick/Graph/ salaryhat resid
0
200
400
600
800
1,000

1,200
1,400
1,600
0 1,000 2,000 3,000 4,000
SALARYHAT
BONUS
 có phương sai thay đổi
B4: kiểm định thống kê
Từ bảng kết quả hồi quy-> view/Residual Tests/ Heteroskedasticity Tests/
* nếu chọn Breusch-Pagan-Godfrey -> ta có bảng:
Heteroskedasticity Test: Breusch-Pagan-Godfrey
F-statistic 4.920500 Prob. F(4,45) 0.0022
Obs*R-squared 15.21443 Prob. Chi-Square(4) 0.0043
Scaled explained SS 23.41351 Prob. Chi-Square(4) 0.0001
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 05/21/09 Time: 10:56
25

×