Tải bản đầy đủ (.docx) (25 trang)

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (406.83 KB, 25 trang )

LỜI CẢM ƠN
Em xin gửi lời cảm ơn sâu sắc đến Thầy Lê Văn Dũng, thầy là giảng viên
hướng dẫn em hoàn thành bài báo cáo này. Nhờ sự chỉ bảo tận tình của thầy mà
em biết thêm vài điều mới lạ từ Excel và Phần mềm Minitab. Vì kiến thức bản
thân còn hạn chế, trong quá trình thực tập, hoàn thiện bài báo cáo này em không
tránh khỏi những sai sót, kính mong nhận được những ý kiến đóng góp từ thầy.
Em xin chân thành cảm ơn thầy!

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


PHẦN I: CƠ SỞ LÝ THUYẾT
CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH
1. Mô hình hồi quy tuyến tính đơn:
Xét vectơ ngẫu nhiên . Mô hình hồi quy tuyến tính đơn có dạng
trong đó độc lập với X và tất cả các phân bố xác suất có điều kiện của là các
biến ngẫu nhiên độc lập.
Đường thẳng được gọi là đường hồi quy.
Gọi là các điểm thỏa mãn mô hình hồi quy. Khi đó là biến ngẫu nhiên
có phân bố chuẩn với hàm mật độ xác suất
.
Ta gọi các hàm ước lượng của và lần lượt là

2.

trong đó .
Mô hình hồi quy bội:
Mô hình hồi quy tuyến tính k biến


trong đó độc lập với tất cả các biến ngẫu nhiên và tất cả các phân bố xác
suất có điều kiện của là các biến ngẫu nhiên độc lập.
Gọi với à mẫu số liệu của ,
. Đặt
Khi đó ta có

Phương pháp ước lượng bình phương tối thiểu ma trận hệ số là
phương pháp ước lượng sao cho

đạt giá trị nhỏ nhất.
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Hàm đạt giá trị nhỏ nhất tại
Gọi với là các điểm thỏa mãn mô hình hồi quy bội. Khi đó với điều
kiện biến ngẫu nhiên có phân bố chuẩn. Hàm ước lượng của β là
3.

Tính chất của ước lượng:
Gọi là vectơ hàm ước lượng các hệ số của mô hình hồi quy bội. Đặt
(1) là ước lượng không chệch, tức là .
(2)

là ước lượng không chệch của
Kiểm định phù hợp của mô hình:
Nếu tất cả các hệ số của mô hình hồi quy bội với mọi thì mô hình đó
4.


không phù hợp. Như vậy dẫn đến bài toán kiểm định sau:
Gọi với là các điểm thỏa mãn mô hình hồi quy bội. Kí hiệu
;;
Trong đó . Khi đó ta có

5.

Kiểm định các hệ số của mô hình:

Mô hình hồi quy tuyến tính k biến

Nếu đúng (thì
có phân bố student n−k−1 bậc tự do. Trong đó

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


CHƯƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN
1. Chuỗi thời gian:
Là dãy biến ngẫu nhiên phụ thuộc theo thời gian
a. Các hàm đặc trưng chuỗi thời gian:
• Hàm trung bình:
• Hàm hiệp phương sai:
• Hàm tự tương quan:
b. Quá trình nhiễu trắng:
Dãy biến ngẫu nhiên phụ thuộc vào thời gian t được gọi là nhiễu
trắng nếu:





2. Chuỗi thời gian dừng:
Chuỗi thời gian được gọi là quá trình dừng nếu thỏa mãn 2 điều

kiện:
(i)
(ii)

hàm trung bình là một hằng số (không phụ thuộc vào t);
(ii) với mỗi s và t, hàm hiệp phương sai ) chỉ phụ thuộc vào độ

dài .
Nếu là quá trình dừng thì
Do đó ta có thể định nghĩa hàm hiệp phương sai và hàm tự tương
quan của quá trình dừng như sau.
Cho là quá trình dừng.
Hàm hiệp phương sai:
.
Hàm tự tương quan:
Quá trình trung bình trượt:
Chuỗi thời gian được gọi là quá trình trung bình trượt cấp nếu có

3.
a.

biểu diễn
b.


Chuỗi thời gian được gọi là quá trình trung bình trượt cấp vô hạn
nếu có biểu diễn

Nếu là quá trình trung bình trượt cấp q thì
(i)

;

(ii)
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


(iii)

.

Chú ý rằng
Cho là nhiễu trắng với tham số và là dãy số thỏa mãn:

Khi đó chuỗi thời gian:

là một quá trình và
Hàm hiệp phương sai của là
.
3.1
Quá trình tự hồi quy:
Chuỗi thời gian được gọi là quá trình tự hồi quy cấp , kí hiệu là, nếu
(i)


thỏa mãn phương trình
trong đó là các hằng số , là nhiễu trắng với tham số và không tương
quan với với mọi .
Cho là quá trình tự hồi quy . Nếu là quá trình dừng thì hàm hiệp
phương sai là nghiệm của hệ phương trình Yule-Walker


3.2

Quá trình trung bình trượt tự hồi quy:

Chuỗi thời gian được gọi là quá trình trung bình trượt tự hồi quy cấp ,
kí hiệu là , nếu nó thõa mãn:

trong đó là nhiễu trắng với tham số và không tương quan với với mọi
Cho chuỗi thời gian thỏa mãn :

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


trong đó là nhiễu trắng với tham số và không tương quan với với mọi
Khi đó là quá trình dừng khi và chỉ khi đa thức kết hợp

không có nghiệm trên đường tròn đơn vị .
Quá trình

có biểu diễn trung bình trượt 1 phía


khi và chỉ khi đa thức kết hợp

không có nghiệm trên hình tròn đơn vị .
4.

Hàm tự tương quan riêng:

Hàm tự tương quan của quá trình trung bình trượt MA(q) hàm tự tương
quan khi. Do đó hàm tự tương quan của MA(q) cung cấp cho chúng ta thông
tin về cấp phụ thuộc của chuỗi. Tuy nhiên với quá trình ARMA hay quá trình
AR, hàm tự tương quan k cung cấp cho chúng ta rất ít thông tin về cấp độ phụ
thuộc. Do đó ta cần đưa ra một hàm mới tương tự hàm tự tương quan của quá
trình MA(q) nhưng cho quá trình AR(p), hàm đó được gọi là hàm tự tương
quan riêng (PACF).
Cho chuỗi thời gian dừng có kì vọng bằng 0. Với kí hiệu là ước lượng
hồi quy tuyến tính tốt nhất của đối với dãy theo nghĩa đạt giá trị nhỏ nhất.
Ta có thể viết dạng
,
Kí hiệu là ước lượng hồi quy tuyến tính tốt nhất của đối với dãy. Do
là chuỗi dừng nên ta có:
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


.
Hàm tự tương quan riêng (PACF) của chuỗi dừng ( được xác đinh bởi
(1) = Cor ( = ρ(1)
và (h) = Cor (, h >1.

Chú ý rằng và không tương quan với {}.
4.1

Bài toán dự báo

Nếu xét quá trình dừng (), không mất tính tổng quát ta luôn giả thiết
E( ) = 0. Nội dung của bài toán dự báo là: giả sử chúng ta quan sát được giá
trị của quá trình tại thời điểm 1,2,...,n là . Trên cơ sở đó ta muốn dự báo một
cách “tốt nhất” giá trị của quá trình tại thời điểm n+h trong tương lai.
Dự báo tuyến tính căn cứ trên là tổ hợp tuyến tính
.
Dự báo S được gọi là tốt nhất nếu sai số bình phương trung bình

là nhỏ nhất.
Chuỗi quá trình dừng . Dự báo tuyến tính tốt nhất của căn cứ trên là

Chuỗi quá trình dừng . Dự báo tuyến tính tốt nhất của căn cứ trên là

Trong đó thoả mãn hệ phương trình sau:

Ước lượng tham số:
5.1
Ước lượng tham số AR(p):
5.

Trong quá trình tự hồi quy cấp p ( ký hiệu tắt AR(p)), các số liệu của chuỗi
thời gian sẽ liên hệ nhau theo biểu thức
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page



,
Trong đó là các hệ số của phương trình còn là ồn trắng WN(0, ). Ta gọi
chuỗi số liệu là tự hồi quy vì giá trị hiện tại của nó được tính truy hồi qua các
giá trị đứng trước nó. Cuối cùng, ồn trắng (còn gọi là sai số) biểu thị các yếu
tố ngẫu nhiên tham gia vào mà không thể giải thích được bằng mô hình.
Các giá trị là các hệ số bằng số mô tả mối quan hệ giữa các giá trị thực tại
với các giá trị trước nó. Số p được gọi là cấp tự hồi qui của mô hình. Nó chỉ
số các giá trị quá khứ của chuỗi cần phải lấy để tính truy hồi.
Giá trị chính xác của p được sử dụng sẽ là số làm cho sai ssos dự báo của mô
hình là nhỏ nhất và làm cho các số dư có phân phối ngẫu nhiên. Thường thì
chúng ta nhận dạng giá trị p như là cấp của quá trình AR(p) bằng cách phân
tích hê số tự tương quan riêng của chuỗi thời gian. Các hệ số tự tương quan
riêng α(k) = được tính từ phương trình

Đặt - ... ta có
=.
Ký hiệu = п(B) = thì п(B) = 1 nên ta có
) = 1.
Từ phương trình này ta nhận đươc
,
với mọi 0 < k < p,
với mọi ≥ p.
Từ đó ta tính được các hệ số { khi biết . Thay các giá trị tính toán vào ta nhận
được

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page



.
Vậy quá trình AR(p) là một quá trình tuyến tính.
5.2

Ước lượng tham số MA(q):

Quá trình được gọi là trung bình trượt (MA) nếu nó có dạng

Trong đó,
q là cấp của mô hình trung bình trượt;
WN(0,);
là các hệ số chỉ mối liên hệ của các giá trị và các giá trị của nhiễu cho đến
thời điểm t.
Hàm tự tương quan của quá trình MA(q) cho bởi
ϒ(k) ={
Cấp của trung bình trượt (giá trị q) có thể ácđịnh được bằng cách phân tích
các hệ số tự tương quan của quá trình ( chứ không phải tự tương quan riêng).
Thông thường, q sẽ được chọn sao cho các hệ số tương quan từ 1 cho dến q
là khác 0 thực sự, còn những số sau đó sẽ xấp xỉ 0. Giá trị phân cách này
chính là cấp của mô hình MA.

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


PHẦN II: NỘI DỤNG THỰC NGHIỆM
CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH

1/ Cơ sở dữ liệu:
Ta lấy dữ liệu từ Google của nước Đức về nền tảng Giáo Dục từ năm 2002 đến
năm 2012.
Vào Google → Gõ từ khóa: “Google Data Public” → Chọn đường link “Google
Public Data Explore” → Chọn “Dãy báo phát triển thế giới” → Trong khung
Public Data, chọn lĩnh vực Giáo dục.

Từ nguồn dữ liệu trong Google, ta lọc được những mẫu số liệu như sau:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Đưa dữ liệu vào eview:

ở đây,
Y : Chi tiêu công cho giáo dục, tổng số (% trên GDP);
X1 : Giáo dục tiểu học, số giáo viên;
X2 : Giáo dục tiểu học, số học sinh;
X3 : Giáo dục trung học, số giáo viên;
X4 : Giáo dục trung học, số học sinh.
2/ Ước lượng:
Vào Quick -> Estimate Equation -> Xuất hiện cửa sổ Equation Estination

Kiểm định mô hình phù hợp:
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page



X2 C X3 X4
Dependent Variable: X2
Method: Least Squares
Date: 11/23/18 Time: 23:00
Sample: 1994 2010
Included observations: 9
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
X3
X4

2313518.
-6.595885
0.610129

1786348.
1.098924
0.169416

1.295110

-6.002132
3.601367

0.2429
0.0010
0.0113

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.947895
0.930526
79411.92
3.78E+10
-112.4875
54.57554
0.000141

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat


3459178.
301283.1
25.66389
25.72963
25.52202
2.023192

X2 X3 X4
Dependent Variable: X2
Method: Least Squares
Date: 11/16/18 Time: 22:27
Sample: 1994 2010
Included observations: 9
Variable

Coefficient Std. Error

t-Statistic

Prob.

X3
X4

-5.483487 0.717881
0.820325 0.050881

-7.638439
16.12230


0.0001
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.933328
0.923804
83165.12
4.84E+10
-113.5968
2.683692

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.

3459178.
301283.1
25.68817
25.73200
25.59359

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ


Page


Qua kiểm định mô hình phù hợp ta thấy.
Với = 0,05
Mô hình phù hợp là: X2 = -5,48X3 + 0,82X4 +

ε

3/ Dự báo:
Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần
dự báo -> OK.

Biểu đồ dự báo:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Hiện thị bảng dự báo:

Kết quả:
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Với X2 = 2989700; X3 = 584535; X4 = 7528300

Dự báo khoảng số liệu năm 2011 với độ tin cậy là 2970366 ± 94864,72 *1,96.

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


CHƯƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN
1/ Cơ sở dữ liệu:
Vào Google -> Gõ “cổ phiếu 68” -> Gõ MCK: VHM -> Lịch Sử Giá -> Lưu số
liệu về máy:

Đưa vào eview
Vẽ biểu đồ:
Vào giamocua -> chon View -> Grap - > OK

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Xuất hiện biểu đồ:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Kiểm định giả thuyết:


Vào view -> Unit Root Test -> Chọn level -> OK
Null Hypothesis: GMC has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=12)

Augmented Dickey-Fuller test statistic
Test critical values:
1% level
5% level
10% level

t-Statistic

Prob.*

-0.632959
-3.497727
-2.890926
-2.582514

0.8573

p- giá trị = 0,8573 > 0,05 nên chấp nhận .
Tiến hành kiểm định quá trình dừng của sai phân bậc 1 và sai phân bậc 2.
Vào View -> Unit Root Test -> Chọn 1st diference -> OK
Null Hypothesis: D(GMC) has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=12)

Augmented Dickey-Fuller test statistic

Test critical values:
1% level
5% level
10% level

t-Statistic

Prob.*

-10.86546
-3.498439
-2.891234
-2.582678

0.0000

Vào View -> Unit
Root Test -> Chọn
2nd diference -> OK

Null Hypothesis: D(GMC,2) has a unit root
Exogenous: Constant
Lag Length: 1 (Automatic - based on SIC, maxlag=12)

Augmented Dickey-Fuller test statistic
Test critical values:
1% level
5% level
10% level


t-Statistic

Prob.*

-12.41322
-3.499910
-2.891871
-2.583017

0.0001

Ta có sai phân bậc 1 và sai phân bậc 2 đều là quá trình dừng.
Kiểm định đồ thị hàm tự tương quan và hàm tự tương quan riêng của sai phân
bậc 1 và sai phân bậc 2.
BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Sai phân bậc 1:

Sai phân bậc 2:

Sai phân bậc 1 là một nhiễu trắng nên không thuộc mô hình ARMA
Sai phân bậc 2 thuộc mô hình ARMA có thể là 1 trong các mô hình ARMA(1,0),
ARMA(1,1), ARMA(2,0), ARMA(2,1), ARMA(3,0), ARMA(3,1).

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page



2/ Ước lượng:
Vào Quick -> Estimate Equation.
ARMA(1,0)
Dependent Variable: D(GMC,2)
Method: Least Squares
Date: 11/16/18 Time: 15:27
Sample (adjusted): 4 100
Included observations: 97 after adjustments
Convergence achieved after 3 iterations
Variable

Coefficient

Std. Error

t-Statistic

Prob.

AR(1)

-0.565205

0.084236

-6.709805

0.0000


R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.319252
0.319252
3.993920
1531.334
-271.4575
2.403045

Inverted AR Roots

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.

-0.005155
4.840678
5.617679
5.644223
5.628412

-.57


ARMA(2,0)
Dependent Variable: D(GMC,2)
Method: Least Squares
Date: 11/16/18 Time: 15:28
Sample (adjusted): 5 100
Included observations: 96 after adjustments
Convergence achieved after 3 iterations
Variable

Coefficient

Std. Error

t-Statistic

Prob.

AR(1)
AR(2)

-0.768733
-0.355938

0.096195
0.096470

-7.991424
-3.689618


0.0000
0.0004

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.408040
0.401742
3.763370
1331.318
-262.4378
2.129625

Inverted AR Roots

-.38+.46i

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.

0.002083
4.865561
5.509120

5.562544
5.530715

-.38-.46i

ARMA(3,0)
Dependent Variable: D(GMC,2)
Method: Least Squares
Date: 11/16/18 Time: 15:28
Sample (adjusted): 6 100
Included observations: 95 after adjustments
Convergence achieved after 3 iterations

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Variable

Coefficient

Std. Error

t-Statistic

Prob.

AR(1)
AR(2)

AR(3)

-0.869948
-0.560806
-0.235982

0.097381
0.117777
0.097435

-8.933489
-4.761612
-2.421931

0.0000
0.0000
0.0174

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.468656
0.457105
3.551808
1160.611
-253.6833

1.837834

Inverted AR Roots

-.14-.61i

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
-.14+.61i

0.086316
4.820493
5.403860
5.484509
5.436448

-.59

Qua kiểm tra chỉ có mô hình ARMA(3,0) là phù hợp.
Như vậy nếu kí hiệu Y(t) là sai phân bậc 2 của giá mở cửa X(t) ta có
Y(t) = -0,86Y(t-1) – 0,56Y(t-2) - 0,23Y(t-3) + W(t).
3/ Dự báo:
Vào Proc -> Structure/Resize Curent Page thêm 1 ngày 101

Xuất hiện:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ


Page


Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần
dự báo -> OK.

Biểu đồ dự báo:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Hiện thị bảng dự báo:

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


Như vậy giá mở cửa thực tế của ngày tiếp theo là: 74,5.
Dự báo khoảng giá mở cửa ngày tiếp theo với độ tin cậy là 74,96 ± 3,57*1,96.

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


MỤC LỤC

LỜI CẢM ƠN

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

Page


×