1.Giới thiệu
Chúng ta đều biết ăn, mặc, ở, đi lại, học tập, giải trí… là những nhu cầu cơ bản
của con người hiện nay. Trong đó nhu cầu nhà ở là một nhu cầu thiết yếu và
hiện tại có rất nhiều người chưa có được một ngôi nhà thuộc quyền sở hữu của
mình vì giá nhà ở vượt quá khả năng tài chính của họ. Vậy những nhân tố nào
tác động đến giá nhà, ở đây xin đưa ra một mô hình kinh tế lượng về giá nhà tại
quận Cam, California, Mỹ. Tuy mô hình có thể chưa hoàn hảo nhưng sẽ góp
phần giải thích sự biến thiên của giá nhà của quận Cam, cũng như mở ra hướng
xây dựng mô hình về giá nhà ở Việt Nam khi có điều kiện.
2.Công thức mô hình
Ta sử dụng phần mềm Stata tiến hành ước lượng, phân tích về hàm hồi quy cho
mô hình chứa dữ liệu chéo là giá bán nhà tại quận Cam, bang California
(Price) theo các biến độc lập là diện tích nhà (square) và tuổi của ngôi nhà (age):
Price = β1 + β2 *square + β3 *age + u
price: giá bán nhà (USD)
square: diện tích ngôi nhà (feet vuông)
age: tuổi của ngôi nhà (năm)
3. Mô tả dữ liệu và số liệu
Dữ liệu gồm 150 quan sát của giá nhà, diện tích nhà và tuổi nhà tại một khu vực
quận Cam, California. Nguồn dữ liệu được lấy từ một bài viết về kinh tế lượng,
trong đó tác giả sử dụng phần mềm Eview.
obs price square age
1 350000 2583 5
2 360000 3308 3
3 365000 2926 2
4 372000 3050 8
5 373000 3528 3
6 373000 2830 4
7 375000 3521 7
8 349000 3003 4
9 380000 3230 8
10 380000 3230 7
11 380000 3230 7
12 380000 2900 7
13 380000 3080 3
14 370000 3080 3
15 380000 3525 4
16 385000 3050 7
17 385000 3050 8
18 389000 3528 4
19 390000 2680 3
20 390000 3500 8
21 390000 3521 7
22 390000 2700 2
23 392000 2662 4
24 392000 3371 3
25 392000 3371 4
26 393000 3371 3
27 395000 2900 4
28 395000 3275 8
29 399000 3080 2
1
30 400000 3155 3
31 400000 3155 3
32 400000 3308 7
33 399900 3371 2
34 400000 3050 7
35 401000 2789 4
36 402500 3275 7
37 405000 3180 8
38 405000 3512 8
39 407000 3275 6
40 410000 3512 8
41 410000 2789 4
42 412000 3371 3
43 412000 3275 6
44 415000 3115 3
45 416000 3757 2
46 418000 3275 7
47 419500 3879 2
48 425000 3275 5
49 425000 3515 2
50 426000 3700 5
51 430000 3110 9
52 430000 3770 9
53 432000 3512 7
54 432000 3371 2
55 434000 3367 8
56 435000 3700 5
57 439000 3515 2
58 440000 3770 7
59 440000 3413 2
60 565000 3500 3
61 605000 3757 2
62 609000 3757 7
63 620000 3879 3
64 653000 4035 2
65 670000 4035 2
66 440000 3525 4
67 445000 3308 6
68 459900 3528 4
69 449960 3515 2
70 450000 3371 4
71 450000 3528 4
72 459500 3757 2
73 460000 2600 3
74 549000 2879 3
75 460000 4000 5
76 462000 3757 2
77 449900 3500 3
78 464820 3515 2
79 464900 3308 6
80 465000 3100 8
81 457325 3879 2
82 449950 3515 3
83 475000 3929 5
84 475000 4000 6
85 419950 3879 2
86 479950 4136 2
2
87 480000 3512 9
88 482750 3879 2
89 489950 3879 2
90 490000 4035 2
91 495000 3500 4
92 497500 3770 8
93 499900 4035 2
94 500000 3800 8
95 510000 4035 2
96 510000 3500 4
97 514900 4018 8
98 514900 3308 8
99 527500 3757 2
100 535000 4035 2
101 535000 3879 3
102 539000 3854 3
103 539000 3500 4
104 547000 4035 2
105 552000 4136 3
106 556700 3700 3
107 480000 2865 11
108 485000 3384 5
109 485000 3568 8
110 487000 3384 4
111 490000 3305 9
112 492000 3227 4
113 495000 3295 8
114 504000 3259 5
115 505000 3668 7
116 517000 3685 9
117 520000 3350 3
118 525000 2800 11
119 526000 3170 8
120 529000 3300 9
121 530000 3475 11
122 530000 3380 9
123 531050 3620 1
124 532500 3305 9
125 535000 3475 19
126 535000 3305 8
127 535000 3900 8
128 540000 4389 8
129 540000 3305 9
130 545000 3500 11
131 547500 3369 10
132 571000 3485 11
133 550000 3920 6
134 555000 3475 10
135 555000 3781 8
136 560000 2735 11
137 560000 3390 8
138 560000 3700 9
139 562000 3668 7
140 565000 4089 8
141 565000 4170 1
142 570000 2812 10
143 570000 4010 9
3
144 570000 3379 9
145 575000 3920 5
146 575000 3865 12
147 575000 4579 8
148 580000 2968 2
149 580000 3750 8
150 583000 4000 8
Sử dụng câu lệnh Sum trong Stata ta thu được kết quả:
. sum
Variable | Obs Mean Std. Dev. Min Max
+
price | 150 473414.7 72390.79 349000 670000
square | 150 3471.88 387.9313 2583 4579
age | 150 5.513333 3.051541 1 19
4.Ước lượng và kiểm định
a.Ước lượng tham số
Ta sử dụng câu lệnh trong Stata
. reg price square age
Thu được kết quả:
Source | SS df MS Number of obs = 150
+ F( 2, 147) = 33.47
Model | 2.4429e+11 2 1.2215e+11 Prob > F = 0.0000
Residual | 5.3653e+11 147 3.6499e+09 R-squared = 0.3129
+ Adj R-squared = 0.3035
Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60414
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
square | 97.55019 12.83215 7.60 0.000 72.19086 122.9095
age | 6233.351 1631.305 3.82 0.000 3009.512 9457.191
_cons | 100365.6 46647.43 2.15 0.033 8179.397 192551.8
Ta có:
β1=100365.6
β2= 97.55019
β3=6233.351
Các giá trị P>|t| đều nhỏ hơn 0.05 chứng tỏ các biến đều có ý nghĩa thông kê.
b.Kiểm tra các lỗi có thể mắc phải của mô hình
- Kiểm tra vấn đề đa cộng tuyến. Ta sử dụng câu lệnh:
. vif
Variable | VIF 1/VIF
+
age | 1.01 0.988509
square | 1.01 0.988509
+
Mean VIF | 1.01
Chỉ số VIF của 2 tham số đều bằng 1.01 nhỏ hơn 10 rất nhiều, như vậy vấn đề
đa cộng tuyến của mô hình là không đáng kể, có thế bỏ qua
- Kiểm định giả thiết mô hình có phương sai thay đổi, dùng câu lệnh:
. imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(5) = 6.25
4
Prob > chi2 = 0.2825
Cameron & Trivedi's decomposition of IM-test
Source | chi2 df p
+
Heteroskedasticity | 6.25 5 0.2825
Skewness | 15.71 2 0.0004
Kurtosis | -37562.29 1 1.0000
+
Total | -37540.33 8 1.0000
Giá trị Prob > chi2 = 0.2825 lớn hơn 0.05 nên ta chấp nhận giả thiết H
0
: Mô
hình không có phương sai thay đổi.
- Kiểm tra xem mô hình có bỏ sót biến phi tuyến hay không, dùng câu lệnh:
. ovtest
Ramsey RESET test using powers of the fitted values of price
Ho: model has no omitted variables
F(3, 144) = 1.55
Prob > F = 0.2051
Prob > F = 0.2051 lớn hơn 0.05, ta chấp nhận giả thiết mô hinh không bỏ sót
biến phi tuyến
Hoặc ta dùng câu lệnh:
. linktest
Source | SS df MS Number of obs = 150
+ F( 2, 147) = 33.96
Model | 2.4677e+11 2 1.2339e+11 Prob > F = 0.0000
Residual | 5.3405e+11 147 3.6330e+09 R-squared = 0.3160
+ Adj R-squared = 0.3067
Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60274
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
_hat | 5516817 1.882592 -0.29 0.770 -4.272123 3.16876
_hatsq | 1.64e-06 1.99e-06 0.83 0.410 -2.29e-06 5.58e-06
_cons | 363584.7 443993 0.82 0.414 -513849 1241018
Ở đây các biến mới đều không có ý nghĩa thông kê nên mô hình không bỏ sót
biến phi tuyến
-Kiểm định MDW
Bước1:
. reg price square age
Source | SS df MS Number of obs = 150
+ F( 2, 147) = 33.47
Model | 2.4429e+11 2 1.2215e+11 Prob > F = 0.0000
Residual | 5.3653e+11 147 3.6499e+09 R-squared = 0.3129
+ Adj R-squared = 0.3035
Total | 7.8082e+11 149 5.2404e+09 Root MSE = 60414
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
square | 97.55019 12.83215 7.60 0.000 72.19086 122.9095
age | 6233.351 1631.305 3.82 0.000 3009.512 9457.191
_cons | 100365.6 46647.43 2.15 0.033 8179.397 192551.8
. predict hai
(option xb assumed; fitted values)
Bước 2:
. gen lnprice=log( price)
. gen lnsquare=log( square)
. gen lnage=log( age)
. reg lnprice lnsquare lnage
5
Source | SS df MS Number of obs = 150
+ F( 2, 147) = 28.71
Model | .975733472 2 .487866736 Prob > F = 0.0000
Residual | 2.49777528 147 .016991669 R-squared = 0.2809
+ Adj R-squared = 0.2711
Total | 3.47350875 149 .023312139 Root MSE = .13035
lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
lnsquare | .7016549 .0950507 7.38 0.000 .5138125 .8894973
lnage | .048984 .0177739 2.76 0.007 .0138587 .0841093
_cons | 7.265007 .7787713 9.33 0.000 5.725973 8.804041
. predict lnhai
(option xb assumed; fitted values)
Bước 3:
. gen z1=log( hai)- lnhai
Bước 4:
. reg price square age z1
Source | SS df MS Number of obs = 150
+ F( 3, 146) = 28.20
Model | 2.8644e+11 3 9.5479e+10 Prob > F = 0.0000
Residual | 4.9439e+11 146 3.3862e+09 R-squared = 0.3668
+ Adj R-squared = 0.3538
Total | 7.8082e+11 149 5.2404e+09 Root MSE = 58191
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
square | 83.29237 13.004 6.41 0.000 57.59196 108.9928
age | -610.5794 2496.511 -0.24 0.807 -5544.548 4323.389
z1 | 1848571 524003.8 3.53 0.001 812958.1 2884183
_cons | 173022.5 49426.53 3.50 0.001 75338.58 270706.4
Bước 5:
. gen z2=hai-exp( lnhai+0.01699/2)
Bước 6:
. reg lnprice lnsquare lnage z2
Source | SS df MS Number of obs = 150
+ F( 3, 146) = 27.87
Model | 1.26470315 3 .421567715 Prob > F = 0.0000
Residual | 2.2088056 146 .015128806 R-squared = 0.3641
+ Adj R-squared = 0.3510
Total | 3.47350875 149 .023312139 Root MSE = .123
lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
lnsquare | .6132391 .0919424 6.67 0.000 .4315291 .7949491
lnage | 0006875 .0202595 -0.03 0.973 0407273 .0393523
z2 | 7.63e-06 1.75e-06 4.37 0.000 4.18e-06 .0000111
_cons | 8.062178 .7571418 10.65 0.000 6.565804 9.558552
Nhận xét:
Cả hai biến z1 và z2 đều có ý nghĩa thống kê nên ta kết luận cả hai mô hình
tuyến tính và log-log đều không đủ
c.Mở rộng
Ta có thể sử dụng mô hình log-log thay cho mô hinh tuyến tính.
Lnprice = β1 + β2*lnsquare + β3*lnage
Tạo ra biến mới bằng các câu lệnh:
. gen lnprice=log(price)
6
. gen lnsquare=log(square)
. gen lnage =log(age)
Hồi quy trên các biến mới thu được kết quả sau:
. reg lnprice lnsquare lnage
Source | SS df MS Number of obs = 150
+ F( 2, 147) = 28.71
Model | .975733472 2 .487866736 Prob > F = 0.0000
Residual | 2.49777528 147 .016991669 R-squared = 0.2809
+ Adj R-squared = 0.2711
Total | 3.47350875 149 .023312139 Root MSE = .13035
lnprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
lnsquare | .7016549 .0950507 7.38 0.000 .5138125 .8894973
lnage | .048984 .0177739 2.76 0.007 .0138587 .0841093
_cons | 7.265007 .7787713 9.33 0.000 5.725973 8.804041
Ở đây các biến đều có ý nghĩa thống kê
Tiếp tục kiểm tra các lỗi của mô hình log-log như cách đã thực hiện với mô hình
tuyến tính ta thu được các kết luận là mô hình đang xét có đa cộng tuyến không
đáng kể, không có phương sai thay đổi và không bỏ sót biến phi tuyến.
5.Giải thích kết quả thu được
Ở mô hình tuyến tính ta có:
β1=100365.6
β2= 97.55019
β3=6233.351
điều đó có nghĩa khi diện tích nhà tăng 1 feet vuông thì giá nhà tăng thêm 97.55
USD, khi tuổi của ngôi nhà tăng thêm 1 năm thì giá nhà tăng thêm 6233.351
USD.
Mô hình có R
2
hiệu chỉnh bằng 0.3035 cho thấy mô hình giải thích được 30.35%
sự biến thiên của giá nhà
Ở mô hình log-log:
β1= 7.265007
β2= 0.7016549
β3= 0.048984
khi diện tích nhà tăng thêm 1% thì giá nhà tăng thêm 0.7%, khi tuổi của ngôi
nhà tăng thêm 1% thì giá nhà tăng thêm 0.05%.
Mô hình log-log giải thích được 27.11% sự biến thiên của giá nhà.
Vậy khi phải lựa chọn giữa mô hình tuyến tính và mô hình log-log thì ta sẽ chọn
mô hình tuyến tính vì mô hình này đơn giản hơn và giải thích được nhiều hơn.
6.Kết luận
Qua kiêm tra ta thấy mô hình mà ta đưa ra lúc đầu là mô hình tốt, không mắc
các lỗi đã nêu ở trên, có thể sử dụng mô hình để dự báo giá nhà trong tương lai.
7.Mở rộng
Trong phần dữ liệu của mô hình thì các quan sát là những ngôi nhà trong cùng
một khu vực và có cùng số chỗ để ô tô, ta có thêm các quan sát khác và mở rộng
mô hình bằng cách thêm các biến về ví trí nhà và số chỗ để xe trong garage.
7