BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Thống kê và phân tích dữ liệu
Mô tả các biến khả dụng
I.
Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:
. des
Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA
obs:
807
vars:
10
size:
19,368
16 Sep 1996 16:23
----------------------------------------------------------------------------------storage
variable name
type
display
value
format
label
variable label
----------------------------------------------------------------------------------educ
float
%9.0g
years of schooling
cigpric
float
%9.0g
state cig. price, cents/pack
white
byte
%8.0g
=1 if white
age
byte
%8.0g
in years
income
int
%8.0g
annual income, $
cigs
byte
%8.0g
cigs. smoked per day
restaurn
byte
%8.0g
=1 if rest. smk. restrictions
lincome
float
%9.0g
log(income)
agesq
int
%9.0g
age^2
lcigpric
float
%9.0g
log(cigprice)
----------------------------------------------------------------------------------Sorted by:
Bảng 1. Danh sách các biến số liệt kê
=> Nhìn vào bảng 1, cho ta cái nhìn sơ lược nhất về mẫu quan sát và ý nghĩa
từng biến. Lệnh describe cho ta biết được mẫu có 807 quan sát, với 10 biến được thực
hiện và tổng kích cỡ của bộ dữ liệu là 19368 dữ liệu. Để đơn giản hơn ta giải thích ý
nghĩa cụ thể như sau:
Nhóm 16
Trang 1
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Tên biến
Kiểu dữ liệu
Dạng hiển thị
Ý nghĩa
educ
Số thực
Độ dài 9 chữ số
Số năm học
cigpric
Số thực
Độ dài 9 chữ số
Giá một bao thuốc lá, đơn vị cent/bao
white
Số nguyên
Độ dài 8 chữ số
Bằng 1 nếu là người da trắng
age
Số nguyên
Độ dài 8 chữ số
Độ tuổi người được khảo sát
income
Số nguyên
Độ dài 8 chữ số
Thu nhập
cigs
Số nguyên
Độ dài 8 chữ số
Số điếu thuốc đã hút trong một ngày
restaur
n
Số nguyên
Độ dài 8 chữ số
bằng một nếu Bang nào có hạn chế
hút thuốc là tại nhà hàng
lincome Số thực
Độ dài 9 chữ số
Loga tự nhiên của thu nhập
agesq
Số nguyên
Độ dài 9 chữ số
Độ tuổi bình phương
lcigpric
Số thực
Độ dài 9 chữ số
Loga tự nhiên của giá một bao thuốc
Bảng 2. Giải thích chi tiết các biến được chọn
Sau quá trình phân tích và đối chiếu các số liệu, nhóm quyết định chọn ra 5 biến
ngẫu nhiên rời rạc trong tổng số 10 biến làm biến độc lập trong mô hình, gồm các biến
định lượng: “income”, “cigpric”, “educ”, “age” và biến số định tính “restaurn”
được lượng hóa, để xét mối tương quan của từng biến với biến phụ thuộc được chọn
là: “cigs”. Mục đích của nhóm là đánh giá tác động của các biến như thu nhập, chủng
tộc, trình độ giá dục, độ tuổi và một khía cạnh trong trong luật để giải thích cho việc
số điếu thuốc trung bình được tiêu thụ trong một ngày của một người tiêu dùng ngẫu
nhiên.
Thực hiện lệnh tabulate với một số biến của mô hình
Thực hiện lệnh tabulate với biến cigs. Ta được:
. tab cigs
Nhóm 16
Trang 2
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
cigs. |
smoked per |
day |
Freq.
Percent
Cum.
------------+----------------------------------0 |
497
61.59
61.59
1 |
7
0.87
62.45
2 |
5
0.62
63.07
3 |
5
0.62
63.69
4 |
2
0.25
63.94
5 |
7
0.87
64.81
6 |
3
0.37
65.18
7 |
2
0.25
65.43
8 |
3
0.37
65.80
9 |
2
0.25
66.05
10 |
28
3.47
69.52
11 |
2
0.25
69.76
12 |
4
0.50
70.26
13 |
2
0.25
70.51
14 |
1
0.12
70.63
15 |
23
2.85
73.48
16 |
1
0.12
73.61
18 |
3
0.37
73.98
19 |
1
0.12
74.10
20 |
101
12.52
86.62
25 |
7
0.87
87.48
28 |
3
0.37
87.86
30 |
42
5.20
93.06
33 |
1
0.12
93.18
35 |
2
0.25
93.43
40 |
37
4.58
98.02
50 |
6
0.74
98.76
55 |
1
0.12
98.88
60 |
8
0.99
99.88
80 |
1
0.12
100.00
------------+----------------------------------Total |
807
100.00
Bảng 3. Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần suất của biến số điếu thuốc trung bình được hút trong một
ngày (cigs) ta biết được tần suất lớn nhất là 497 của quan sát 0, như vậy số người
Nhóm 16
Trang 3
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
không hút thuốc trong một ngày chiếm tỷ lệ cao nhất đạt 61,59%. Tiếp theo sau lần
lượt là quan sát: 20 điếu một ngày với tần suất 101 lần xuất hiện, 30 điếu một ngày
với 42 lần quan sát được...Như vậy, có thể thấy được là trong mẫu trên tỷ trọng người
không điếu thuốc nào trong một ngày là cao nhất điều này ảnh hưởng rất lớn tới hệ số
tương quan của mô hình sẽ chạy về sau.
Tiếp tục thực hiện lệnh tabulate với biến income ta được bảng sau:
. tab income
annual |
income, $ |
Freq.
Percent
Cum.
------------+----------------------------------500 |
5
0.62
0.62
1500 |
10
1.24
1.86
2500 |
10
1.24
3.10
3500 |
19
2.35
5.45
4500 |
13
1.61
7.06
5500 |
15
1.86
8.92
6500 |
32
3.97
12.89
8500 |
61
7.56
20.45
12500 |
125
15.49
35.94
20000 |
247
30.61
66.54
30000 |
270
33.46
100.00
------------+----------------------------------Total |
807
100.00
Bảng 4. Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần số và xác suất phân bố ở trên, có thể dễ dàng nhận ra thu tần
số xuất hiện nhiều thường thấy ở 3 mức thu nhập cao nhất. Cụ thể, mức 30000$ có tần
suất xuất hiện cao nhất là 270 lần, mức 20000$ có tần suất xuất hiện thứ 2 là 247 lần
và mức 12500$ có tần suất là 125 lần, sau đó giảm dần tần suất theo các mức độ giảm
của thu nhập. Như vậy, trong mẫu này, thu nhập cao từ 12500$ chiếm tỷ trong áp đảo
gần 80% tần suất xuất hiện.
Nhóm 16
Trang 4
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Tiếp theo, để biết được thông tin liên quan đến dữ liệu thống kê của một biến bất
kì trong mẫu trên (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ
nhất) ta sử dụng lệnh summarize để xem.
Thực hiện lệnh summarize với các biến kể trên, ta có:
. sum cigs educ cigpric age income restaurn
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------cigs |
807
8.686493
13.72152
0
80
educ |
807
12.47088
3.057161
6
18
cigpric |
807
60.30041
4.738469
44.004
70.129
age |
807
41.23792
17.02729
17
88
income |
807
19304.83
9142.958
500
30000
-------------+-------------------------------------------------------restaurn |
807
.2465923
.4312946
0
1
Bảng 5. Mô tả thông tin các biến được chọn
Theo như hiển thị ở bảng 5, theo thứ tự từ trái qua phải: Cột 1 cho biết tên các
biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng
biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 và cột 6 lần lượt là giá trị lớn
nhất và giá trị nhỏ nhất. Như đã nói ở trên, nhóm đã chọn ra các biến để đưa vào mô
hình hồi quy của mình, chính vì vậy nhóm sẽ miêu tả lại khái quát các biến đó như
sau: Biến cigs có 807 quan sát, giá trị trung bình là 8,6864493, giá trị sai số tiêu chuẩn
là 13,72152 và giá trị lớn nhất/ nhỏ nhất lần lượt là: 18 và 6 v.v.
Tiếp tục, nếu muốn biết chi tiết hơn về mô tả của một biến cụ thể ta dùng lệnh
như trên có thêm detail, ở đây là chọn một biến bất kì là cigs để làm miêu tả chi tiết,
cụ thể như sau:
Thực hiện lệnh tương tự, kèm thêm chữ detail ngay sau dấu phẩy.
. sum cigs, detail
Nhóm 16
Trang 5
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
cigs. smoked per day
------------------------------------------------------------Percentiles
Smallest
1%
0
0
5%
0
0
10%
0
0
Obs
807
25%
0
0
Sum of Wgt.
807
50%
0
75%
90%
95%
99%
20
30
40
60
Largest
60
60
60
80
Mean
Std. Dev.
8.686493
13.72152
Variance
Skewness
Kurtosis
188.28
1.651144
5.413087
Bảng 6. Mô tả chi tiết biến cigs
Bảng 6, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc cigs. Các thành
phần được sắp xếp theo mức độ phần trăm.
Để biết được quan hệ tương quan giữa 2 hay nhiều biến với nhau, ta sử dụng lệnh
correlate, cụ thể như sau:
Thực hiện lệnh correlate cho các biến được chọn:
. corr cigs educ cigpric age income restaurn
(obs=807)
|
cigs
educ
cigpric
age
income restaurn
-------------+-----------------------------------------------------cigs |
1.0000
educ |
-0.0487
1.0000
cigpric |
-0.0114
0.0310
1.0000
age |
-0.0415
-0.1806
0.0293
1.0000
income |
0.0532
0.3344
0.0480
-0.0640
1.0000
restaurn |
-0.0871
0.0605
0.1392
-0.0389
0.1060
Bảng 7. Thống kê tương quan giữa các biến
Nhóm 16
Trang 6
1.0000
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Kết quả:
Tương quan r(x,y) Є [-1;1]. Về mặt lý thuyết, tương quan giữa biến phụ thuộc
với một biến độc lập càng cao thì càng tốt (cao được hiểu là càng gần về 2 phía -1
hoặc 1), và ngược lại càng thấp khi càng gần 0. Qua Bảng 7, cho ta các kết quả như
sau: Tương quan cùng biến cho kết quả bằng 1, như đã nói trên khi chọn biến cigs là
biến phụ thuộc thì các tương quan của biến giải thích restaurn với cigs là lớn nhất
bằng (-0,0871), sếp sau lần lượt là các biến, income, educ, age và cuối cùng là
cigpric. Trong đó, biến educ, cigpric, age và restaurn là biến động ngược chiều với
biến phụ thuộc cigs, chỉ có biến income còn lại là biến động cùng chiều. Cụ thể như
sau:
Biến số
cigs
Giá trị r(yi, xj)
1
educ
- 0.0487
cigpric
- 0.0114
age
- 0.0415
income
0.0532
restaur
n
- 0.0871
Ý nghĩa
Tương quan tuyệt đối dương
Tương quan âm (có nghĩa là trình độ giáo
dục càng thấp thì hút thuốc lá càng nhiều
và ngược lại)
Tương quan âm (có nghĩa là giá thuốc lá
càng cao thì số điếu thuốc hút trong ngày
càng giảm và ngược lại)
Tương quan âm (có nghĩa là tuổi càng cao
thì hút thuốc càng ít và ngược lại)
Tương quan dương (có nghĩa là khi thu
nhập tăng thì số điếu thuốc tiêu thụ trong
ngày càng cao và ngược lại)
Tương quan âm (có nghĩa là nhà hàng cấm
hút thuốc thì số điếu thuốc được hút giảm
và ngược lại)
Bảng 8. Tương quan các biến độc lập so với biến phụ thuộc
Cùng với bảng tương quan giữa các biến độc lập với biến phụ thuộc cigs ta có có
bảng tương quan giữa các biến độc lập với nhau. Tương quan giữa các biến r(xi, xj) đê
xác định được xem là các biến độc lập đưa vào mô hình có tương quan với nhau hay
không? Và mức độ tương quan như thế nào? Nếu mức độ tương quan giữa 2 biến độc
lập bất kì càng cao (r(xi, xj) > 0,8) thì mô hình sẽ bị mắc bệnh Đa cộng tuyến rất cao.
Cụ thể như sau:
Nhóm 16
Trang 7
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
. corr educ cigpric age income restaurn
(obs=807)
|
educ
cigpric
age
income restaurn
-------------+--------------------------------------------educ |
1.0000
cigpric |
0.0310
1.0000
age |
-0.1806
0.0293
1.0000
income |
0.3344
0.0480
-0.0640
1.0000
restaurn |
0.0605
0.1392
-0.0389
0.1060
1.0000
Bảng 9. Bảng tương quan giữa các biến độc lập của mô hình
Nhìn vào bảng 9, ta có thể thấy được rằng r(xi, xj) của 2 biến độc lập bất kì đều
thấp hơn 0,8 Từ đó suy ra, các biến được chọn ngẫu nhiên làm biến độc lập có
tương quan thấp với nhau và mô hình không bị mắc bệnh Đa cộng tuyến.
II.
Phân tích dữ liệu
Trong phần này, nhóm tập trung vào tìm hiểu tác động của 5 biến ngẫu nhiên rời
rạc đã được chọn ở trên (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số
điếu thuốc hút trong một ngày (cigs) bằng phương pháp ước lượng bình phương nhỏ
nhất OLS (Ordinary Least Squared).
Những đánh giá và kết luận trong phần này sẽ dựa trên kết quả chạy mô hình hồi
quy đa biến tổng quát:
Y = βo + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + ui
Y là biến phụ thuộc của mô hình
βo là hệ số chặn của mô hình
β1 đến β5 là các hệ số góc tương ứng của các biến X1 đến X5 của mô hình
X1 đến X5 là các biến độc lập của mô hình
ui là thành phần nhiễu của mô hình
Với các biến số đã chọn, ta có:
Nhóm 16
Trang 8
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Tên biến
Ứng với các biến được chọn
Y
X1
X2
X3
X4
X5
ui
cigs
educ
cigpric
restaurn
income
age
Thành phần nhiễu của mô hình
Thực hiện lệnh hồi quy regress:
. reg cigs educ cigpric age income restaurn
Source
SS
df
MS
Model
Residual
2888.63535
148865.047
5
801
577.72707
185.848998
Total
151753.683
806
188.280003
cigs
Coef.
educ
cigpric
age
income
restaurn
_cons
-.3680468
.0046741
-.0438986
.0001306
-2.982192
13.01946
Std. Err.
.169172
.1024819
.028707
.000056
1.130995
6.551227
t
-2.18
0.05
-1.53
2.33
-2.64
1.99
Number of obs
F( 5,
801)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.030
0.964
0.127
0.020
0.009
0.047
=
=
=
=
=
=
807
3.11
0.0087
0.0190
0.0129
13.633
[95% Conf. Interval]
-.7001196
-.1964908
-.1002484
.0000207
-5.202256
.1598616
-.0359739
.2058389
.0124512
.0002405
-.7621274
25.87906
Bảng 10. Kết quả hồi quy mô hình cho các biến đã chọn
Mô hình sau khi chạy trên stata 12 cho kết quả như Bảng 9, phương trình hồi
quy của mẫu được chọn như sau:
Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+
0.0001306* X4 – 0.0438986* X5
Nhóm 16
Trang 9
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Kiểm định giả thiết thống kê:
Kiểm định sự phù hợp của mô hình.
Sau khi chạy mô hình, để kiểm tra sự phù hợp của mô hình ta có thể dùng 2 công cụ:
Kiểm định thống kê F-statistic của mô hình, hoặc điểm định giá trị P-value của giá trị
F với mức ý nghĩa thống kê α mà nhóm chọn là 10%. Vì vậy, công cụ nào thuận tiện
hơn thì sẽ được sử dụng để kiểm định.
Kiểm định cặp giả thiết: :
Ho: R2 = 0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: R2 > 0
Ta có: P-value của kiểm định F bằng 0.0000 < 10% từ đây có căn cứ bác bỏ H o. Điều
đó có nghĩa mô hình nhóm chọn là phù hợp và có thể sử dụng để phân tích thống kê.
Kiểm định mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc
Như đã phân tích ở trên, chúng ta đều thừa nhận rằng các biến độc lập có tương
quan với biến phụ thuộc. Tuy nhiên, chưa hẳn rằng sự tương quan đó thực sự nói lên
rằng các biến độc lập đã thực sự ảnh hưởng tới biến phụ thuộc. Chính vì lẽ đó, ta đi tới
kiểm định giả thiết thống kê:
Có 3 công cụ để kiểm định giả thiết thống kê đó là: dùng thống kê t, giá trị P>ItI
và khoảng tin cậy. Cả 3 công cụ này đều cho cùng một kết quả, như vậy công cụ nào
thuận tiện ta sẽ sử dụng, nhóm quyết định chọn công cụ giá trị P>ItI.
Đầu tiên xét với biến educ là một biến định lượng.
Kiểm định cặp giả thiết: :
Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Xét thấy P-value của kiểm định t của biến educ cho kết quả là 0.03 < 10% từ đây
có căn cứ bác bỏ H o. Đồng nghĩa với việc biến educ có ảnh hưởng tới biến phụ thuộc
cigs.
Tiếp theo là biến cigpric là một biến định lượng.
Kiểm định cặp giả thiết: :
Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Nhóm 16
Trang 10
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
P-value của kiểm định t của biến cigpric cho kết quả 0.964 > 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến cigpric không ảnh hưởng tới biến phụ thuộc
cigs.
Biến restaurn là một biến định lượng.
Kiểm định cặp giả thiết: :
Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Biến restaurn cho kết quả P-value của kiểm định t là 0.009< 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc
cigs.
Biến age là một biến định lượng.
Kiểm định cặp giả thiết: :
Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Biến age cho kết quả P-value của kiểm định t là 0.127 > 10% từ đây có căn cứ
bác bỏ Ho. Đồng nghĩa với việc biến age không có ảnh hưởng tới biến phụ thuộc cigs.
Biến income là một biến định lượng.
Kiểm định cặp giả thiết: :
Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Biến income cho kết quả P-value của kiểm định t là 0.020 < 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến age có ảnh hưởng tới biến phụ thuộc cigs.
Kết quả cụ thể được thể hiện trong bảng sau: (Với mức ý nghĩa 10%).
Tên biến
educ
cigpric
restaurn
Nhóm 16
Giá trị P > ItI
0.030
0.964
0.009
Mức độ tác động
Có ảnh hưởng tới biến cigs
Không ảnh hưởng tới biến cigs
Có ảnh hưởng tới biến cigs
Trang 11
BÁO CÁO GIỮA KÌ
age
income
GVHD: TS. Đinh Thị Thanh Bình
0.127
0.026
Không ảnh hưởng tới biến cigs
Có ảnh hưởng tới biến cigs
Bảng 11. Tác động của các biến độc lập lên biến phụ thuộc
Kết luận:
Như vậy có thể thấy ngoại trừ biến cigpric và age là không ảnh hưởng tới biến
phụ thuộc cigs còn thì các biến còn lại đều ảnh hưởng tới biến phụ thuộc cigs.
Như vậy đã xác định được tính chất ảnh hưởng của các biến độc lập với biến phụ
thuộc cigs. Vậy mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc như thế
nào! Mức độ ảnh hưởng được phân tích như sau:
Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+
0.0001306* X4 – 0.0438986* X5
Đầu tiên, dể dàng nhận thấy trong điều kiện các yếu tố khác không đổi, khi các biến
độc lập không có tác động thì tỷ lệ số điếu thuốc được hút trung bình 1 ngày là
13.01946% .
Xét với biến độc lập educ ta có: = - 0.368468 điều này đồng nghĩa trong điều kiện
các yếu tố khác không đổi, số năm đi học giảm đi thì tỷ lệ hút thuốc có xu hướng
tăng lên 0.368468 %.
Xét với biến độc lập cigpric ta có: = 0.0046741 điều này mang ý nghĩa. Trong điều
kiện các yếu tố khác không đổi, khi giá thuốc tăng th số điếu thuốc cũng tăng
0.0046741%.
Xét với biến độc lập restaurn ta có: = – 2.982192 điều này mang ý nghĩa. Trong
điều kiện các yếu tố khác không đổi, có nghĩa là nhà hàng cấm hút thuốc thì số
điếu thuốc được hút giảm 2.982192 %.
Xét với biến độc lập income ta có:
= 0.0001306 điều này mang ý nghĩa. Trong
điều kiện các yếu tố khác không đổi, thu nhập tăng 1% thì số điếu thuốc tiêu thụ
trong ngày càng cao tăng thêm 0.2092152 %.
Nhóm 16
Trang 12
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Xét với biến độc lập age ta có: = – 0.0438986 điều này mang ý nghĩa. Trong điều
kiện các yếu tố khác không đổi, tuổi tăng 1% thì số điếu thuốc hút một ngày giảm
0.0438986%
Nhóm 16
Trang 13
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Hệ số xác định của mô hình R-squared (R2)
Trên đây, chúng ta đã đánh giá được mức độ tác động của từng biến độc lập đối
với biến phụ thuộc cigs. Bây giờ sẽ đi đánh giá mức độ tác động của tất cả các biến
độc lập đối với biến phụ thuộc cigs. Từ mô hình, có một chỉ số cho ta biết chính xác
mức độ tác động của các biến độc lập đối biến phụ thuộc đó là chỉ số R2 hay còn gọi là
hệ số xác định của mô hình.
Ý nghĩa: Cho biết các biến độc lập có thể giải thích được bao nhiêu % sự thay
đổi của biến phụ thuộc.
Từ bảng kết quả hồi quy (Theo bảng 7) dể dàng tìm được R2 = 0.0190 hay 0.19%
như vậy các biến giải thích (bao gồm: educ, cigpric, age, income, restaurn)mà nhóm
chọn cho vào mô hình có thể giải thích được 0.19% sự thay đổi của biến phụ thuộc
cigs.
Kiểm định khuyết tật của mô hình
Kiểm định Đa cộng tuyến (ĐCT)
Từ bảng thống kê tương quan giữa các biến với nhau (Bảng 5), có thể thấy các
biến độc lập có hệ số tương quan với nhau đều thấp hơn r(xi, xj) < 0.8 do đó có thể kết
luận mô hình không mắc khuyết tật Đa cộng tuyến. Bảng phân tích cụ thể:
educ
cigpric
age
income
restaurn
educ
cigpric
age
1.0000
0.0310
-0.1806
0.3344
0.0605
1.0000
0.0293
0.0480
0.1392
1.0000
-0.0640
-0.0389
income restaurn
1.0000
0.1060
Bảng 10. Bảng tương quan giữa các biến độc lập
Nhóm 16
Trang 14
1.0000
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Để chắc chắn hơn sau khi hồi quy mô hình ta dùng lệnh vif để tính ra số VIF của
mô hình nếu số VIF > 10 thì tức mô hình mắc bệnh Đa cộng tuyến, ngược lại thì
không mắc bệnh. Cụ thể như sau:
Chạy lệnh vif:
. vif
Variable
VIF
1/VIF
educ
income
age
restaurn
cigpric
1.16
1.14
1.04
1.03
1.02
0.862048
0.880131
0.965071
0.969071
0.977810
Mean VIF
1.08
Quan sát thấy Mean VIF = 1.08 < 10 từ đó có thể kết luận một lần nữa mô hình
hoàn toàn không mắc bệnh Đa cộng tuyến.
Kiểm định Phương sai sai số thay đổi (PSSSTĐ)
Kiểm định phương sai sai số thay đổi (PSSSTĐ) là kiểm định còn lại mà nhóm
sẽ thực hiện với mô hình này. Có 3 công cụ để kiểm định khuyết tật này đó là kiểm
định White-test, kiểm định Breusch-Pagan và Cameron & Trivedi's decomposition of
IM-test. Cụ thể như sau (với mức ý nghĩa nhóm chọn là α = 10%).
Nhóm 16
Trang 15
BÁO CÁO GIỮA KÌ
•
GVHD: TS. Đinh Thị Thanh Bình
Với kiểm định White-test:
. imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(19)
Prob > chi2
=
=
38.00
0.0059
Cameron & Trivedi's decomposition of IM-test
•
Source
chi2
df
p
Heteroskedasticity
Skewness
Kurtosis
38.00
57.26
8.24
19
5
1
0.0059
0.0000
0.0041
Total
103.51
25
0.0000
Với kiểm định B-G:
. . hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of cigs
Nhóm 16
chi2(1)
Prob > chi2
=
=
10.02
0.0016
Trang 16
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
Để biết xem liệu mô hình có mắc khuyết tật PSSS thay đổi ta thực hiện:
Kiểm định cặp giả thiết: :
Ho: PSSS không đổi
H1: PSSS thay đổi
Từ bảng kết quả của kiểm định White-test, cho giá trị P-value của quan sát chi2
bằng 0.0059 < 10% từ đây bác bỏ Ho. Như vậy, mô hình mắc bệnh phương sai sai số
(PSSS) thay đổi.
Tương tự, với kiểm định B-G, cũng cho kết quả giá trị P-value của quan sát chi2
bằng 0.0016<10% từ đây bác bỏ Ho. Như vậy kết luận mô hình mắc PSSS thay đổi.
Kết luận:
Mô hình trên không mắc bệnh đa cộng tuyến nhưng mắc phương sai sai số thay đổi.
Nhóm 16
Trang 17
BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình
TÀI LIỆU THAM KHẢO
1. GS.TS. Nguyễn Quang Dong - PGS.TS. Nguyễn Thị Minh, 2013, Giáo trình
kinh tế lượng. Nhà xuất bản Đại học Kinh tế quốc dân.
2. Nguyễn Văn Hân. Phần mềm thống kê Stata, xem 1.3.2015,
< >
3. Bảng tra phân phối f-d distribution table. (n.d.).
4. Kiểm tra mối tương quan giữa các biến bằng phương pháp vẽ biểu đồ và kiểm
định sử dụng, xem 1.3.2015 <STATA. thongke.info.vn.>
Nhóm 16
Trang 18