Tải bản đầy đủ (.docx) (18 trang)

BÁO CÁO GIỮA KỲ Thống kê và phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (283.24 KB, 18 trang )

BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Thống kê và phân tích dữ liệu
Mô tả các biến khả dụng

I.

Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:

. des
Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA
obs:

807

vars:

10

size:

19,368

16 Sep 1996 16:23

----------------------------------------------------------------------------------storage
variable name

type



display

value

format

label

variable label

----------------------------------------------------------------------------------educ

float

%9.0g

years of schooling

cigpric

float

%9.0g

state cig. price, cents/pack

white

byte


%8.0g

=1 if white

age

byte

%8.0g

in years

income

int

%8.0g

annual income, $

cigs

byte

%8.0g

cigs. smoked per day

restaurn


byte

%8.0g

=1 if rest. smk. restrictions

lincome

float

%9.0g

log(income)

agesq

int

%9.0g

age^2

lcigpric

float

%9.0g

log(cigprice)


----------------------------------------------------------------------------------Sorted by:

Bảng 1. Danh sách các biến số liệt kê

=> Nhìn vào bảng 1, cho ta cái nhìn sơ lược nhất về mẫu quan sát và ý nghĩa
từng biến. Lệnh describe cho ta biết được mẫu có 807 quan sát, với 10 biến được thực
hiện và tổng kích cỡ của bộ dữ liệu là 19368 dữ liệu. Để đơn giản hơn ta giải thích ý
nghĩa cụ thể như sau:

Nhóm 16

Trang 1


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Tên biến

Kiểu dữ liệu

Dạng hiển thị

Ý nghĩa

educ

Số thực


Độ dài 9 chữ số

Số năm học

cigpric

Số thực

Độ dài 9 chữ số

Giá một bao thuốc lá, đơn vị cent/bao

white

Số nguyên

Độ dài 8 chữ số

Bằng 1 nếu là người da trắng

age

Số nguyên

Độ dài 8 chữ số

Độ tuổi người được khảo sát

income


Số nguyên

Độ dài 8 chữ số

Thu nhập

cigs

Số nguyên

Độ dài 8 chữ số

Số điếu thuốc đã hút trong một ngày

restaur
n

Số nguyên

Độ dài 8 chữ số

bằng một nếu Bang nào có hạn chế
hút thuốc là tại nhà hàng

lincome Số thực

Độ dài 9 chữ số

Loga tự nhiên của thu nhập


agesq

Số nguyên

Độ dài 9 chữ số

Độ tuổi bình phương

lcigpric

Số thực

Độ dài 9 chữ số

Loga tự nhiên của giá một bao thuốc

Bảng 2. Giải thích chi tiết các biến được chọn
Sau quá trình phân tích và đối chiếu các số liệu, nhóm quyết định chọn ra 5 biến
ngẫu nhiên rời rạc trong tổng số 10 biến làm biến độc lập trong mô hình, gồm các biến
định lượng: “income”, “cigpric”, “educ”, “age” và biến số định tính “restaurn”
được lượng hóa, để xét mối tương quan của từng biến với biến phụ thuộc được chọn
là: “cigs”. Mục đích của nhóm là đánh giá tác động của các biến như thu nhập, chủng
tộc, trình độ giá dục, độ tuổi và một khía cạnh trong trong luật để giải thích cho việc
số điếu thuốc trung bình được tiêu thụ trong một ngày của một người tiêu dùng ngẫu
nhiên.
Thực hiện lệnh tabulate với một số biến của mô hình
Thực hiện lệnh tabulate với biến cigs. Ta được:

. tab cigs


Nhóm 16

Trang 2


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình
cigs. |

smoked per |
day |

Freq.

Percent

Cum.

------------+----------------------------------0 |

497

61.59

61.59

1 |


7

0.87

62.45

2 |

5

0.62

63.07

3 |

5

0.62

63.69

4 |

2

0.25

63.94


5 |

7

0.87

64.81

6 |

3

0.37

65.18

7 |

2

0.25

65.43

8 |

3

0.37


65.80

9 |

2

0.25

66.05

10 |

28

3.47

69.52

11 |

2

0.25

69.76

12 |

4


0.50

70.26

13 |

2

0.25

70.51

14 |

1

0.12

70.63

15 |

23

2.85

73.48

16 |


1

0.12

73.61

18 |

3

0.37

73.98

19 |

1

0.12

74.10

20 |

101

12.52

86.62


25 |

7

0.87

87.48

28 |

3

0.37

87.86

30 |

42

5.20

93.06

33 |

1

0.12


93.18

35 |

2

0.25

93.43

40 |

37

4.58

98.02

50 |

6

0.74

98.76

55 |

1


0.12

98.88

60 |

8

0.99

99.88

80 |

1

0.12

100.00

------------+----------------------------------Total |

807

100.00

Bảng 3. Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần suất của biến số điếu thuốc trung bình được hút trong một
ngày (cigs) ta biết được tần suất lớn nhất là 497 của quan sát 0, như vậy số người
Nhóm 16


Trang 3


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

không hút thuốc trong một ngày chiếm tỷ lệ cao nhất đạt 61,59%. Tiếp theo sau lần
lượt là quan sát: 20 điếu một ngày với tần suất 101 lần xuất hiện, 30 điếu một ngày
với 42 lần quan sát được...Như vậy, có thể thấy được là trong mẫu trên tỷ trọng người
không điếu thuốc nào trong một ngày là cao nhất điều này ảnh hưởng rất lớn tới hệ số
tương quan của mô hình sẽ chạy về sau.
Tiếp tục thực hiện lệnh tabulate với biến income ta được bảng sau:
. tab income
annual |
income, $ |

Freq.

Percent

Cum.

------------+----------------------------------500 |

5

0.62


0.62

1500 |

10

1.24

1.86

2500 |

10

1.24

3.10

3500 |

19

2.35

5.45

4500 |

13


1.61

7.06

5500 |

15

1.86

8.92

6500 |

32

3.97

12.89

8500 |

61

7.56

20.45

12500 |


125

15.49

35.94

20000 |

247

30.61

66.54

30000 |

270

33.46

100.00

------------+----------------------------------Total |

807

100.00

Bảng 4. Bảng mô tả số lượng và tấn suất xuất hiện


Quan sát bảng tần số và xác suất phân bố ở trên, có thể dễ dàng nhận ra thu tần
số xuất hiện nhiều thường thấy ở 3 mức thu nhập cao nhất. Cụ thể, mức 30000$ có tần
suất xuất hiện cao nhất là 270 lần, mức 20000$ có tần suất xuất hiện thứ 2 là 247 lần
và mức 12500$ có tần suất là 125 lần, sau đó giảm dần tần suất theo các mức độ giảm
của thu nhập. Như vậy, trong mẫu này, thu nhập cao từ 12500$ chiếm tỷ trong áp đảo
gần 80% tần suất xuất hiện.

Nhóm 16

Trang 4


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Tiếp theo, để biết được thông tin liên quan đến dữ liệu thống kê của một biến bất
kì trong mẫu trên (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ
nhất) ta sử dụng lệnh summarize để xem.
Thực hiện lệnh summarize với các biến kể trên, ta có:

. sum cigs educ cigpric age income restaurn
Variable |

Obs

Mean

Std. Dev.


Min

Max

-------------+-------------------------------------------------------cigs |

807

8.686493

13.72152

0

80

educ |

807

12.47088

3.057161

6

18

cigpric |


807

60.30041

4.738469

44.004

70.129

age |

807

41.23792

17.02729

17

88

income |

807

19304.83

9142.958


500

30000

-------------+-------------------------------------------------------restaurn |

807

.2465923

.4312946

0

1

Bảng 5. Mô tả thông tin các biến được chọn

Theo như hiển thị ở bảng 5, theo thứ tự từ trái qua phải: Cột 1 cho biết tên các
biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng
biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 và cột 6 lần lượt là giá trị lớn
nhất và giá trị nhỏ nhất. Như đã nói ở trên, nhóm đã chọn ra các biến để đưa vào mô
hình hồi quy của mình, chính vì vậy nhóm sẽ miêu tả lại khái quát các biến đó như
sau: Biến cigs có 807 quan sát, giá trị trung bình là 8,6864493, giá trị sai số tiêu chuẩn
là 13,72152 và giá trị lớn nhất/ nhỏ nhất lần lượt là: 18 và 6 v.v.
Tiếp tục, nếu muốn biết chi tiết hơn về mô tả của một biến cụ thể ta dùng lệnh
như trên có thêm detail, ở đây là chọn một biến bất kì là cigs để làm miêu tả chi tiết,
cụ thể như sau:
Thực hiện lệnh tương tự, kèm thêm chữ detail ngay sau dấu phẩy.
. sum cigs, detail

Nhóm 16

Trang 5


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

cigs. smoked per day
------------------------------------------------------------Percentiles
Smallest
1%
0
0
5%
0
0
10%
0
0
Obs
807
25%
0
0
Sum of Wgt.
807
50%


0

75%
90%
95%
99%

20
30
40
60

Largest
60
60
60
80

Mean
Std. Dev.

8.686493
13.72152

Variance
Skewness
Kurtosis

188.28
1.651144

5.413087

Bảng 6. Mô tả chi tiết biến cigs

Bảng 6, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc cigs. Các thành
phần được sắp xếp theo mức độ phần trăm.
Để biết được quan hệ tương quan giữa 2 hay nhiều biến với nhau, ta sử dụng lệnh
correlate, cụ thể như sau:
Thực hiện lệnh correlate cho các biến được chọn:
. corr cigs educ cigpric age income restaurn
(obs=807)

|

cigs

educ

cigpric

age

income restaurn

-------------+-----------------------------------------------------cigs |

1.0000

educ |


-0.0487

1.0000

cigpric |

-0.0114

0.0310

1.0000

age |

-0.0415

-0.1806

0.0293

1.0000

income |

0.0532

0.3344

0.0480


-0.0640

1.0000

restaurn |

-0.0871

0.0605

0.1392

-0.0389

0.1060

Bảng 7. Thống kê tương quan giữa các biến
Nhóm 16

Trang 6

1.0000


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Kết quả:
Tương quan r(x,y) Є [-1;1]. Về mặt lý thuyết, tương quan giữa biến phụ thuộc

với một biến độc lập càng cao thì càng tốt (cao được hiểu là càng gần về 2 phía -1
hoặc 1), và ngược lại càng thấp khi càng gần 0. Qua Bảng 7, cho ta các kết quả như
sau: Tương quan cùng biến cho kết quả bằng 1, như đã nói trên khi chọn biến cigs là
biến phụ thuộc thì các tương quan của biến giải thích restaurn với cigs là lớn nhất
bằng (-0,0871), sếp sau lần lượt là các biến, income, educ, age và cuối cùng là
cigpric. Trong đó, biến educ, cigpric, age và restaurn là biến động ngược chiều với
biến phụ thuộc cigs, chỉ có biến income còn lại là biến động cùng chiều. Cụ thể như
sau:

Biến số
cigs

Giá trị r(yi, xj)
1

educ

- 0.0487

cigpric

- 0.0114

age

- 0.0415

income

0.0532


restaur
n

- 0.0871

Ý nghĩa
Tương quan tuyệt đối dương
Tương quan âm (có nghĩa là trình độ giáo
dục càng thấp thì hút thuốc lá càng nhiều
và ngược lại)
Tương quan âm (có nghĩa là giá thuốc lá
càng cao thì số điếu thuốc hút trong ngày
càng giảm và ngược lại)
Tương quan âm (có nghĩa là tuổi càng cao
thì hút thuốc càng ít và ngược lại)
Tương quan dương (có nghĩa là khi thu
nhập tăng thì số điếu thuốc tiêu thụ trong
ngày càng cao và ngược lại)
Tương quan âm (có nghĩa là nhà hàng cấm
hút thuốc thì số điếu thuốc được hút giảm
và ngược lại)

Bảng 8. Tương quan các biến độc lập so với biến phụ thuộc

Cùng với bảng tương quan giữa các biến độc lập với biến phụ thuộc cigs ta có có
bảng tương quan giữa các biến độc lập với nhau. Tương quan giữa các biến r(xi, xj) đê
xác định được xem là các biến độc lập đưa vào mô hình có tương quan với nhau hay
không? Và mức độ tương quan như thế nào? Nếu mức độ tương quan giữa 2 biến độc
lập bất kì càng cao (r(xi, xj) > 0,8) thì mô hình sẽ bị mắc bệnh Đa cộng tuyến rất cao.

Cụ thể như sau:
Nhóm 16

Trang 7


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

. corr educ cigpric age income restaurn
(obs=807)
|

educ

cigpric

age

income restaurn

-------------+--------------------------------------------educ |

1.0000

cigpric |

0.0310


1.0000

age |

-0.1806

0.0293

1.0000

income |

0.3344

0.0480

-0.0640

1.0000

restaurn |

0.0605

0.1392

-0.0389

0.1060


1.0000

Bảng 9. Bảng tương quan giữa các biến độc lập của mô hình

Nhìn vào bảng 9, ta có thể thấy được rằng r(xi, xj) của 2 biến độc lập bất kì đều
thấp hơn 0,8  Từ đó suy ra, các biến được chọn ngẫu nhiên làm biến độc lập có
tương quan thấp với nhau và mô hình không bị mắc bệnh Đa cộng tuyến.
II.

Phân tích dữ liệu

Trong phần này, nhóm tập trung vào tìm hiểu tác động của 5 biến ngẫu nhiên rời
rạc đã được chọn ở trên (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số
điếu thuốc hút trong một ngày (cigs) bằng phương pháp ước lượng bình phương nhỏ
nhất OLS (Ordinary Least Squared).
Những đánh giá và kết luận trong phần này sẽ dựa trên kết quả chạy mô hình hồi
quy đa biến tổng quát:
Y = βo + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + ui
 Y là biến phụ thuộc của mô hình
 βo là hệ số chặn của mô hình
 β1 đến β5 là các hệ số góc tương ứng của các biến X1 đến X5 của mô hình
 X1 đến X5 là các biến độc lập của mô hình
 ui là thành phần nhiễu của mô hình

Với các biến số đã chọn, ta có:
Nhóm 16

Trang 8



BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Tên biến

Ứng với các biến được chọn

Y
X1
X2
X3
X4
X5
ui

cigs
educ
cigpric
restaurn
income
age
Thành phần nhiễu của mô hình

Thực hiện lệnh hồi quy regress:
. reg cigs educ cigpric age income restaurn
Source

SS


df

MS

Model
Residual

2888.63535
148865.047

5
801

577.72707
185.848998

Total

151753.683

806

188.280003

cigs

Coef.

educ
cigpric

age
income
restaurn
_cons

-.3680468
.0046741
-.0438986
.0001306
-2.982192
13.01946

Std. Err.
.169172
.1024819
.028707
.000056
1.130995
6.551227

t
-2.18
0.05
-1.53
2.33
-2.64
1.99

Number of obs
F( 5,

801)
Prob > F
R-squared
Adj R-squared
Root MSE

P>|t|
0.030
0.964
0.127
0.020
0.009
0.047

=
=
=
=
=
=

807
3.11
0.0087
0.0190
0.0129
13.633

[95% Conf. Interval]
-.7001196

-.1964908
-.1002484
.0000207
-5.202256
.1598616

-.0359739
.2058389
.0124512
.0002405
-.7621274
25.87906

Bảng 10. Kết quả hồi quy mô hình cho các biến đã chọn

Mô hình sau khi chạy trên stata 12 cho kết quả như Bảng 9, phương trình hồi
quy của mẫu được chọn như sau:

Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+
0.0001306* X4 – 0.0438986* X5

Nhóm 16

Trang 9


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình


Kiểm định giả thiết thống kê:
Kiểm định sự phù hợp của mô hình.
Sau khi chạy mô hình, để kiểm tra sự phù hợp của mô hình ta có thể dùng 2 công cụ:
Kiểm định thống kê F-statistic của mô hình, hoặc điểm định giá trị P-value của giá trị
F với mức ý nghĩa thống kê α mà nhóm chọn là 10%. Vì vậy, công cụ nào thuận tiện
hơn thì sẽ được sử dụng để kiểm định.
Kiểm định cặp giả thiết: :

Ho: R2 = 0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: R2 > 0

Ta có: P-value của kiểm định F bằng 0.0000 < 10% từ đây có căn cứ bác bỏ H o. Điều
đó có nghĩa mô hình nhóm chọn là phù hợp và có thể sử dụng để phân tích thống kê.
Kiểm định mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc
Như đã phân tích ở trên, chúng ta đều thừa nhận rằng các biến độc lập có tương
quan với biến phụ thuộc. Tuy nhiên, chưa hẳn rằng sự tương quan đó thực sự nói lên
rằng các biến độc lập đã thực sự ảnh hưởng tới biến phụ thuộc. Chính vì lẽ đó, ta đi tới
kiểm định giả thiết thống kê:
Có 3 công cụ để kiểm định giả thiết thống kê đó là: dùng thống kê t, giá trị P>ItI
và khoảng tin cậy. Cả 3 công cụ này đều cho cùng một kết quả, như vậy công cụ nào
thuận tiện ta sẽ sử dụng, nhóm quyết định chọn công cụ giá trị P>ItI.
 Đầu tiên xét với biến educ là một biến định lượng.

Kiểm định cặp giả thiết: :

Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0

Xét thấy P-value của kiểm định t của biến educ cho kết quả là 0.03 < 10% từ đây
có căn cứ bác bỏ H o. Đồng nghĩa với việc biến educ có ảnh hưởng tới biến phụ thuộc

cigs.
 Tiếp theo là biến cigpric là một biến định lượng.

Kiểm định cặp giả thiết: :

Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0

Nhóm 16

Trang 10


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

P-value của kiểm định t của biến cigpric cho kết quả 0.964 > 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến cigpric không ảnh hưởng tới biến phụ thuộc
cigs.
 Biến restaurn là một biến định lượng.

Kiểm định cặp giả thiết: :

Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0

Biến restaurn cho kết quả P-value của kiểm định t là 0.009< 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc
cigs.

 Biến age là một biến định lượng.

Kiểm định cặp giả thiết: :

Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0

Biến age cho kết quả P-value của kiểm định t là 0.127 > 10% từ đây có căn cứ
bác bỏ Ho. Đồng nghĩa với việc biến age không có ảnh hưởng tới biến phụ thuộc cigs.
 Biến income là một biến định lượng.

Kiểm định cặp giả thiết: :

Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0

Biến income cho kết quả P-value của kiểm định t là 0.020 < 10% từ đây có căn
cứ bác bỏ Ho. Đồng nghĩa với việc biến age có ảnh hưởng tới biến phụ thuộc cigs.

Kết quả cụ thể được thể hiện trong bảng sau: (Với mức ý nghĩa 10%).
Tên biến
educ
cigpric
restaurn
Nhóm 16

Giá trị P > ItI
0.030
0.964
0.009


Mức độ tác động
Có ảnh hưởng tới biến cigs
Không ảnh hưởng tới biến cigs
Có ảnh hưởng tới biến cigs

Trang 11


BÁO CÁO GIỮA KÌ

age
income

GVHD: TS. Đinh Thị Thanh Bình

0.127
0.026

Không ảnh hưởng tới biến cigs
Có ảnh hưởng tới biến cigs

Bảng 11. Tác động của các biến độc lập lên biến phụ thuộc

Kết luận:
Như vậy có thể thấy ngoại trừ biến cigpric và age là không ảnh hưởng tới biến
phụ thuộc cigs còn thì các biến còn lại đều ảnh hưởng tới biến phụ thuộc cigs.
Như vậy đã xác định được tính chất ảnh hưởng của các biến độc lập với biến phụ
thuộc cigs. Vậy mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc như thế
nào! Mức độ ảnh hưởng được phân tích như sau:


Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+
0.0001306* X4 – 0.0438986* X5
 Đầu tiên, dể dàng nhận thấy trong điều kiện các yếu tố khác không đổi, khi các biến
độc lập không có tác động thì tỷ lệ số điếu thuốc được hút trung bình 1 ngày là
13.01946% .
 Xét với biến độc lập educ ta có: = - 0.368468 điều này đồng nghĩa trong điều kiện
các yếu tố khác không đổi, số năm đi học giảm đi thì tỷ lệ hút thuốc có xu hướng
tăng lên 0.368468 %.
 Xét với biến độc lập cigpric ta có: = 0.0046741 điều này mang ý nghĩa. Trong điều
kiện các yếu tố khác không đổi, khi giá thuốc tăng th số điếu thuốc cũng tăng
0.0046741%.
 Xét với biến độc lập restaurn ta có: = – 2.982192 điều này mang ý nghĩa. Trong
điều kiện các yếu tố khác không đổi, có nghĩa là nhà hàng cấm hút thuốc thì số

điếu thuốc được hút giảm 2.982192 %.
 Xét với biến độc lập income ta có:

= 0.0001306 điều này mang ý nghĩa. Trong

điều kiện các yếu tố khác không đổi, thu nhập tăng 1% thì số điếu thuốc tiêu thụ

trong ngày càng cao tăng thêm 0.2092152 %.

Nhóm 16

Trang 12


BÁO CÁO GIỮA KÌ


GVHD: TS. Đinh Thị Thanh Bình

 Xét với biến độc lập age ta có: = – 0.0438986 điều này mang ý nghĩa. Trong điều
kiện các yếu tố khác không đổi, tuổi tăng 1% thì số điếu thuốc hút một ngày giảm
0.0438986%

Nhóm 16

Trang 13


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Hệ số xác định của mô hình R-squared (R2)
Trên đây, chúng ta đã đánh giá được mức độ tác động của từng biến độc lập đối
với biến phụ thuộc cigs. Bây giờ sẽ đi đánh giá mức độ tác động của tất cả các biến
độc lập đối với biến phụ thuộc cigs. Từ mô hình, có một chỉ số cho ta biết chính xác
mức độ tác động của các biến độc lập đối biến phụ thuộc đó là chỉ số R2 hay còn gọi là
hệ số xác định của mô hình.
Ý nghĩa: Cho biết các biến độc lập có thể giải thích được bao nhiêu % sự thay
đổi của biến phụ thuộc.
Từ bảng kết quả hồi quy (Theo bảng 7) dể dàng tìm được R2 = 0.0190 hay 0.19%
như vậy các biến giải thích (bao gồm: educ, cigpric, age, income, restaurn)mà nhóm
chọn cho vào mô hình có thể giải thích được 0.19% sự thay đổi của biến phụ thuộc
cigs.

Kiểm định khuyết tật của mô hình

Kiểm định Đa cộng tuyến (ĐCT)
Từ bảng thống kê tương quan giữa các biến với nhau (Bảng 5), có thể thấy các
biến độc lập có hệ số tương quan với nhau đều thấp hơn r(xi, xj) < 0.8 do đó có thể kết
luận mô hình không mắc khuyết tật Đa cộng tuyến. Bảng phân tích cụ thể:

educ
cigpric
age
income
restaurn

educ

cigpric

age

1.0000
0.0310
-0.1806
0.3344
0.0605

1.0000
0.0293
0.0480
0.1392

1.0000
-0.0640

-0.0389

income restaurn

1.0000
0.1060

Bảng 10. Bảng tương quan giữa các biến độc lập

Nhóm 16

Trang 14

1.0000


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Để chắc chắn hơn sau khi hồi quy mô hình ta dùng lệnh vif để tính ra số VIF của
mô hình nếu số VIF > 10 thì tức mô hình mắc bệnh Đa cộng tuyến, ngược lại thì
không mắc bệnh. Cụ thể như sau:
Chạy lệnh vif:

. vif
Variable

VIF


1/VIF

educ
income
age
restaurn
cigpric

1.16
1.14
1.04
1.03
1.02

0.862048
0.880131
0.965071
0.969071
0.977810

Mean VIF

1.08

Quan sát thấy Mean VIF = 1.08 < 10 từ đó có thể kết luận một lần nữa mô hình
hoàn toàn không mắc bệnh Đa cộng tuyến.

Kiểm định Phương sai sai số thay đổi (PSSSTĐ)
Kiểm định phương sai sai số thay đổi (PSSSTĐ) là kiểm định còn lại mà nhóm
sẽ thực hiện với mô hình này. Có 3 công cụ để kiểm định khuyết tật này đó là kiểm

định White-test, kiểm định Breusch-Pagan và Cameron & Trivedi's decomposition of
IM-test. Cụ thể như sau (với mức ý nghĩa nhóm chọn là α = 10%).

Nhóm 16

Trang 15


BÁO CÁO GIỮA KÌ


GVHD: TS. Đinh Thị Thanh Bình

Với kiểm định White-test:
. imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(19)
Prob > chi2

=
=

38.00
0.0059

Cameron & Trivedi's decomposition of IM-test




Source

chi2

df

p

Heteroskedasticity
Skewness
Kurtosis

38.00
57.26
8.24

19
5
1

0.0059
0.0000
0.0041

Total

103.51

25


0.0000

Với kiểm định B-G:
. . hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of cigs

Nhóm 16

chi2(1)
Prob > chi2

=
=

10.02
0.0016

Trang 16


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

Để biết xem liệu mô hình có mắc khuyết tật PSSS thay đổi ta thực hiện:
Kiểm định cặp giả thiết: :

Ho: PSSS không đổi

H1: PSSS thay đổi

Từ bảng kết quả của kiểm định White-test, cho giá trị P-value của quan sát chi2
bằng 0.0059 < 10% từ đây bác bỏ Ho. Như vậy, mô hình mắc bệnh phương sai sai số
(PSSS) thay đổi.
Tương tự, với kiểm định B-G, cũng cho kết quả giá trị P-value của quan sát chi2
bằng 0.0016<10% từ đây bác bỏ Ho. Như vậy kết luận mô hình mắc PSSS thay đổi.
Kết luận:
Mô hình trên không mắc bệnh đa cộng tuyến nhưng mắc phương sai sai số thay đổi.

Nhóm 16

Trang 17


BÁO CÁO GIỮA KÌ

GVHD: TS. Đinh Thị Thanh Bình

TÀI LIỆU THAM KHẢO
1. GS.TS. Nguyễn Quang Dong - PGS.TS. Nguyễn Thị Minh, 2013, Giáo trình

kinh tế lượng. Nhà xuất bản Đại học Kinh tế quốc dân.
2. Nguyễn Văn Hân. Phần mềm thống kê Stata, xem 1.3.2015,
< >
3. Bảng tra phân phối f-d distribution table. (n.d.).
4. Kiểm tra mối tương quan giữa các biến bằng phương pháp vẽ biểu đồ và kiểm

định sử dụng, xem 1.3.2015 <STATA. thongke.info.vn.>


Nhóm 16

Trang 18



×