ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
------------------
TRẦN VĂN TUÂN
CÁC TIÊU CHUẨN LỰA CHỌN
MÔ HÌNH CHUỖI THỜI GIAN
Chuyên ngành: Lí thuyết xác suất và thống kê Toán học
Mã số: 60 46 01 06
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN MẠNH CƯỜNG
HÀ NỘI - 2015
Mục lục
Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Chương 1.
Giới thiệu một số chuỗi thời gian dừng . . . . . . . . . . . . . . . .
1.1
Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.1.1
Quá trình cấp 2 . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.1.2
Hàm trung bình, hàm tự hiệp phương sai và hàm tự tương
1.1.3
1.2
6
quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Quá trình dừng . . . . . . . . . . . . . . . . . . . . . . . . .
7
Một số quá trình dừng quan trọng . . . . . . . . . . . . . . . . . . 10
1.2.1
Quá trình trung bình trượt cấp 1 . . . . . . . . . . . . . . . 10
1.2.2
Quá trình trung bình trượt cấp q . . . . . . . . . . . . . . . 11
1.2.3
Quá trình trung bình trượt cấp vô hạn . . . . . . . . . . . 12
1.2.4
Quá trình tự hồi quy cấp 1 . . . . . . . . . . . . . . . . . . 14
1.2.5
Quá trình tự hồi quy cấp 2 . . . . . . . . . . . . . . . . . . 17
1.2.6
Quá trình tự hồi quy cấp p . . . . . . . . . . . . . . . . . . 20
1.2.7
Quá trình hỗn hợp ARMA(p,q) . . . . . . . . . . . . . . . . 21
Chương 2.
Một số tiêu chuẩn lựa chọn mô hình . . . . . . . . . . . . . . . . .
2.1
24
Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1
Khoảng cách Kullback - Leibler . . . . . . . . . . . . . . . . 24
2.1.2
Ước lượng hợp lý cực đại và khoảng cách Kullback - Leibler 26
1
2.2
2.3
2.1.3
Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.4
AIC và khoảng cách Kullback - Leibler . . . . . . . . . . . 34
Tiêu chuẩn thông tin Bayesian (BIC) . . . . . . . . . . . . . . . . . 40
2.2.1
Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.2
Định ngĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Xác định bậc của mô hình ARMA bằng ACF và PACF . . . . . . 47
2.3.1
AFC: Hàm tự tương quan . . . . . . . . . . . . . . . . . . . 47
2.3.2
PACF: Hàm tự tương quan riêng . . . . . . . . . . . . . . . 49
Chương 3.
Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.1
Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2
Phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3
Code R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Lời nói đầu
Lựa chọn mô hình (Model selection) là bài toán cơ bản của thống kê cũng
như nhiều nghành khoa học khác. Theo R.A. Fisher có 3 bài toán chính trong
thống kê suy luận và dự báo gồm
- Xác định mô hình (model specification)
- Ước lượng tham số (estimation of model parameters)
- Dự báo (prediction)
Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán
sau với giả thiết mô hình đã biết. Sau khi xuất hiện công trình của Akaike (1973)
thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cồng đồng làm
thống kê.
Với một bộ dữ liệu đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi
trên, người ta đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp
như tiêu chuẩn thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian
(BIC),... Việc lựa chọn mô hình phù hợp là trung tâm cho tất cả các công tác
thông kê với dữ liệu. Lựa chọn các biến để sử dụng trong mô hình hồi quy là
một trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn
thông tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông
tin của Bayesian. Luận văn gồm ba chương
Chương 1. Giới thiệu một số chuỗi thời gian dừng
Chương này trình bày một số khái niệm cơ bản: quá trình cấp 2, hàm trung
bình và hàm tự hiệp phương sai của một quá trình ngẫu nhiên, quá trình dừng
3
và một số quá trình dừng quan trọng như: quá trình trung bình trượt cấp 1,
cấp q, cấp vô hạn; quá trình tự hồi quy cấp 1, cấp2, cấp p, quá trình hỗn hợp
ARMA(p,q).
Chương 2. Một số tiêu chuẩn lựa chọn mô hình
Chương này trình bày khái niệm khoảng cách Kullback - Leibler, mối liên hệ
giữa ước lượng hợp lý cực đại và khoảng cách Kullback - leibler, định nghĩa
AIC, mối liên hệ giữa AIC và khoảng cách Kullback - Leibler, nguồn gốc và
định nghĩa BIC.
Chương 3. Ứng dụng
Chương này trình bày về ứng dụng phần mềm thống kê R để vẽ đồ thị của các
hàm tự tương quan và tự tương quan riêng trong mô hình liên quan đến dữ liệu
về tổng thu nhập quốc dân ở Mỹ từ quý 1 năm 1947 đến quý 3 năm 2002 (được
lấy ở website louisfed.org/), xác định AIC và BIC trong các
mô hình ARMA(i,j) với i, j = 0, 1, 2, 3.
Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những
thiếu sót, tác giả mong nhận được nhiều ý kiến đóng góp từ các thầy cô giáo và
bạn đọc để luận văn được hoàn chỉnh hơn.
4
LỜI CẢM ƠN
Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, trường Đại học Khoa
học Tự Nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh Cường,
tôi đã hoàn thành luận văn thạc sỹ với đề tài ”Một số tiêu chuẩn lựa chọn mô
hình”.
Trong suốt quá trình học tập và triển khai nghiên cứu đề tài, tôi đã nhận
được rất nhiều sự giúp đỡ của các thầy, cô trong bộ môn Xác suất thống kê, các
thầy cô trong khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự Nhiên,
Đại học Quốc gia Hà Nội, đặc biệt là thầy Trần Mạnh Cường.
Tôi bày tỏ lòng biết ơn chân thành và sâu sắc đến thầy Trần Mạnh Cường,
người đã tận tình chỉ bảo và giúp đỡ tôi rất nhiều trong quá trình nghiên cứu
và làm đề tài. Tôi gửi lời cảm ơn đến ban giám hiệu, phòng sau đại học, các
thầy cô trong khoa Toán - Cơ - Tin học nói chung và các thầy, cô trong bộ môn
Xác suất thống kê nói riêng đã tạo những điều kiện thuận lợi nhất để tôi có thể
hoàn thành luận văn này.
5
Chương 1
Giới thiệu một số chuỗi
thời gian dừng
1.1
1.1.1
Các khái niệm cơ bản
Quá trình cấp 2
Giả xử X (t), t ∈ T là một quá trình ngẫu nhiên. Quá trình X (t), t ∈ T được
gọi là một quá trình cấp 2 nếu:
E|X (t)|2 < ∞, ∀t ∈ T.
1.1.2
Hàm trung bình, hàm tự hiệp phương sai và hàm
tự tương quan
Giả xử X (t), t ∈ T là một quá trình ngẫu nhiên.
Hàm trung bình, kí hiệu là m(t) được định nghĩa bởi công thức sau
m(t) = EX (t).
6
Hàm tự hiệp phương sai, kí hiệu là r(s, t) được định nghĩa bởi công thức sau
r(s, t) = cov (X (s), X (t)) = E (X (s) − m(s))(X (t) − m(t))
= EX (s)X (t) − m(s)m(t).
Vì V arX (t) = cov (X (t), X (t)) nên V arX (t) = r(t, t).
1.1.3
Quá trình dừng
Định nghĩa 1.1.1 Giả sử X (t), t ∈ R là một quá trình cấp 2.
X (t) được gọi là một quá trình dừng (yếu) nếu hàm trung bình m(t) là hằng số
(không phụ thuộc vào t) và hàm tự hiệp phương sai r(s, t) chỉ phụ thuộc vào s − t.
Như vậy X (t), t ∈ T là quá trình dừng khi và chỉ khi:
a) m(t) = m = const
b) Tồn tại hàm γ (t) sao cho r(s, t) = γ (s − t), ∀s, t ∈ R.
(hàm γ (t) được gọi là hàm tự hiệp phương sai của quá trình dừng)
Định nghĩa 1.1.2 Giả sử X (t), t ∈ R là một quá trình dừng với hàm tự hiệp
phương sai γ (t). Hàm tự tương quan của quá trình X (t) được định nghĩa bởi
γ (h)
ρ(h) =
.
γ (0)
Định nghĩa 1.1.3 Quá trình X (t), t ∈ R được gọi là quá trình dừng mạnh nếu
với mọi ∀h ∈ R và với mọi t1 < t2 < ... < tn , phân phối đồng thời của
{X (t1 + h), X (t2 + h), ..., X (tn + h)}
và của {X (t1 ), X (t2 ), ..., X (tn )} là như nhau.
Nhận xét: một quá trình dừng mạnh có moment cấp 2 là quá trình dừng yếu.
Điều ngược lại nói chung không đúng.
Nếu một quá trình dừng yếu là quá trình Gauss thì nó sẽ là quá trình dừng
mạnh bởi phân phối hữu hạn chiều của quá trình Gauss hoàn toàn được xác
định bởi hàm trung bình và hàm tự hiệp phương sai.
7
Ví dụ: Giả sử U và V là hai đại lượng ngẫu nhiên không tương quan với EU =
EV = 0, EU 2 = EV 2 = σ 2 . Với λ là một số thực, xét quá trình
X (t) = U cos λt + V sin λt.
Ta có: m(t) = cos λt.EU + sin λt.EV = 0
r(s, t) = EX (s)X (t)
= E [(U cos λs + V sin λs)(U cos λt + V sin λt)]
= E [U 2 cos λs. cos λt + V 2 sin λs. sin λt
+ U V cos λs. sin λt + U V sin λs. cos λt]
= σ 2 (cos λs. cos λt + sin λs. sin λt) = σ 2 . cos λ(t − s).
Vậy X (t) là quá trình dừng với hàm tự hiệp phương sai γ (t) = σ 2 . cos λt.
Ví dụ: Tổng quát hơn, giả sử U1 , U2 , ..., Un và V1 , V2 , ..., Vn là các đại lượng ngẫu
nhiên có
EUk = EVk = 0, EUk2 = EVk2 = σk2 ,
EUi Uk = 0 (i = k ), EVi Vk = 0 (i = k ), EUi Vj = 0.
Xét quá trình
n
X (t) =
(Uk . cos λk t + Vk . sin λk t).
k=1
trong đó λ1 , λ2 , ..., λn là các hằng số thực.Tương tự như ví dụ 1.1 ta chứng minh
được X (t) là quá trình dừng với
n
σk2 . cos λk t.
m(t) = EX (t) = 0, γ (t) =
k=1
Ví dụ: Giả sử N (t), t ≥ 0 là quá trình Poisson với cường độ λ > 0 và L > 0 là
một hằng số. Ta xét quá trình sau
X (t) = N (t + L) − N (t)
8
Như vậy, nếu N (t) là số biến cố xẩy ra trong khoảng thời gian (0, t) thì X (t) là
số biến cố xẩy ra trong khoảng thời gian có độ dài L tính từ thời điểm t.
Ta có:
m(t) = EX (t) = E [N (t + L) − N (t)] = (t + L)λ − tλ = λL = const.
Bây giờ ta tính hàm tự hiệp phương sai r(s, t) = cov (X (s), X (t)) của X (t).
Ta có thể giả thiết 0 ≤ s ≤ t và phân biệt hai trường hợp:
a) t > s + L: Trong trường hợp này hai khoảng (s, s + L) và (t, t + L) là rời nhau,
do đó N (s + L) − N (s) và N (t + L) − N (t) là độc lập, do vậy không tương quan,
tức là r(s, t) = 0.
b) s ≤ t ≤ s + L: Trong trường hợp này ta có
r(s, t) = cov [N (s + L) − N (s), N (t + L) − N (t)]
= cov [N (s + L) − N (t) + N (t) − N (s), N (t + L) − N (t)]
= cov [N (s + L) − N (t), N (t + L) − N (t)]
(vì N (t) − N (s) và N (t + L) − N (t) là độc lập)
Lại có
cov [N (s + L) − N (t), N (t + L) − N (t)] =
= cov [N (s + L) − N (t), N (t + L) − N (s + L) + N (s + L) − N (t)]
= cov [N (s + L) − N (t), N (s + L) − N (t)] = V ar[N (s + L) − N (t)]
(vì N (s + L) − N (t) và N (t + L) − N (s + L) là độc lập)
Vì thế r(s, t) = V ar[N (s + L) − N (t)] = λ(s + L − t) = λ[L − (t − s)].
Tương tự với 0 ≤ t ≤ s và do tính đối xứng, cuối cùng ta được
r(s, t) =
λ(L − |t − s|) nếu |t − s| ≤ L
0
nếu |t − s| > L
Vậy X (t) là một quá trình dừng với hàm tự hiệp phương sai
λ(L − |t|) nếu |t| ≤ L
γ (t) =
0
nếu |t| > L
9
Ví dụ: Dãy ồn trắng
Dãy {εt }∞
t=−∞ được gọi là ồn trắng nếu thỏa mãn
E (εt ) = 0
E (εt )2 = σ 2
E (εt ετ ),t = τ
(1.1)
⇒ Dãy ồn trắng là quá trình dừng với hàm trung bình mt = 0 và hàm tự hiệp
phương sai
γ (t) =
σ 2
0
1.2
1.2.1
nếu t = 0
nếu t = 0
Một số quá trình dừng quan trọng
Quá trình trung bình trượt cấp 1
Cho {εt }∞
t=−∞ là quá trình ồn trắng. Xét quá trình
Yt = µ + εt + θεt−1
Ở đây µ và θ là hằng số. Quá trình trên được gọi là quá trình trung bình trượt
cấp 1, kí hiệu là M A(1). Ta có
E (Yt ) = E (µ + εt + θεt−1 ) = µ
Chúng ta thấy hằng số µ hóa ra lại là hàm trung bình của quá trình. Phương
sai
E (Yt − µ)2 = E (µ + εt + θεt−1 )2 = σ 2 + θ2 σ 2 = (1 + θ2 )σ 2
Tự hiệp phương sai cấp 1
E (Yt − µ)(Yt−1 − µ) = E (εt + θεt−1 )(εt−1 + θεt−2 ) = θσ 2
Tất cả các tự hiệp phương sai lớn hơn 1 đều bằng 0.
Nhận xét: Giá trị trung bình và tự hiệp phương sai không phụ thuộc vào thời
10
gian nên MA(1) là quá trình dừng với mọi giá trị của θ.
Hệ số tương quan thứ j của quá trình, kí hiệu là ρj được định nghĩa là tự hiệp
phương sai thứ j chia cho phương sai
ρj =
γj
γ0
Hệ số tự tương quan giữa Yt và Yt−j là
Corr(Yt−j , Yt ) =
cov (Yt−j , Yt )
V ar(Yt )
V ar(Yt−j )
γj
= ρj
γ0 γ0
=√ √
Dựa vào bất đẳng thức Cauchy - Schwarz ta suy ra |ρj | ≤ 1 với mọi j . Ta quy
ước ρ0 bằng 1 cho tất cả các quá trình dừng.
Ví dụ: Xét M A(1) thì
ρ1 =
θ
1 + θ2
Tất cả các hệ số tự tương quan cấp lớn hơn 1 đều bằng 0. Khi ta thay θ bởi
thì giá trị của ρ1 không thay đổi
1
ρ1 =
θ
1+
1.2.2
1
=
θ
θ2
+1
θ2
Quá trình trung bình trượt cấp q
Quá trình trung bình trượt cấp q, kí hiệu là MA(q) được định nghĩa bởi
Yt = µ + εt + θ1 εt−1 + ... + θq εt−q
trong đó dãy {εt } thỏa mãn (1.1) và (θ1 , θ2 , ..., θq ) là các số thực bất kì
E (Yt ) = µ + E (εt ) + θ1 E (εt−1 ) + ... + θq E (εt−q ) = µ
Phương sai của M A(q ) là
γ0 = E (Yt − µ)2 = E (εt + θ1 εt−1 + ... + θq εt−q )2 = (1 + θ12 + ... + θq2 )σ 2 .
γj =
(θj + θj +1 θ1 + ... + θq+j θq )σ 2
0
nếu j = 1, q
nếu j > q
11
1
θ
Cho ví dụ M A(2)
γ0 = (1 + θ12 + θ22 )σ 2
γ1 = (θ1 + θ1 θ2 )σ 2
γ2 = θ2 σ 2
γ3 = γ4 = ... = 0
Với bộ giá trị bất kì của (θ1 , θ2 , ..., θq ) thì MA(q) là quá trình dừng theo định
nghĩa.
Hệ số tương quan cấp lớn hơn q đều bằng 0 và
∞
|γj | = |γ0 + γ1 + γ2 | < ∞
j =0
1.2.3
Quá trình trung bình trượt cấp vô hạn
Quá trình M A(q ) có thể viết Yt = µ +
q
j =0 θj εt−j
với θ0 . Xét quá trình khi
cho q → ∞,
∞
Yt = µ +
ψj εt−j = µ + ψ0 εt + ψ1 εt−1 + ... + ψ2 εt−2 + ...
(1.2)
j =0
Điều này có thể được mô tả như 1 quá trình M A(∞), để thống nhất về sau
chúng ta sẽ sử dụng ψs cho hệ số của quá trình trượt cấp vô hạn và θs cho hệ số
của quá trình trung bình trượt cấp hữa hạn.
Ta có 1 kết quả thừa nhận rằng dãy vô hạn trong (1.2) sẽ là quá trình dừng nếu
∞
ψj2 < ∞
(1.3)
j =0
để cho tiện khi tính toán ta sử dụng điều kiện mạnh hơn
∞
|ψj | < ∞
(1.4)
j =0
Một dãy số thỏa mãn (1.3) gọi là bình phương khả tổng, và dãy thỏa mãn (1.4)
được gọi là khả tổng tuyệt đối. Tính khả tổng tuyệt đối bao hàm bình phương
khả tổng.
12
Ta chứng minh (1.4) suy ra (1.3).
Giả sử {ψj }∞
j =0 khả tổng tuyệt đối. Khi đó, tồn tại N < ∞ sao cho |ψj | < 1 với
mọi j ≥ N , ta cũng có với mọi j ≥ N thì
ψj2
=
j =0
N −1 2
j =0 ψj
Nhưng
ψj2
j =0
ψj2
+
ψj2
<
j =0
j =N
là hữu hạn do N hữu hạn,
tổng tuyệt đối. Vì vậy
∞
2
j =0 ψj
∞
N −1
∞
N −1
∞
∞
j =N
+
|ψj |
j =N
|ψj | hữu hạn do {ψj }∞
j =0 khả
< ∞. Ta thấy điều ngược lại chưa chắc đúng.
Cho ví dụ chuỗi bình phương khả tổng nhưng không suy ra tính khả tổng tuyệt
1
1
1
đối. Xét ψj =
cho j = 1, 2, ... ta có
>
với x < j điều đó có nghĩa là
j
1
j
j
x
j +1
(1/x)dx và do đó
>
j
N
j =1
N +1
1
j2
(1/x)dx = 1 + (−1/x) |N
x=1 = 2 − (1/N )
<1+
1
Giá trị trên là hữu hạn khi N → ∞. Vì vậy {ψj }∞
j =0 là bình phương khả tổng.
Trung bình và tự hiệp phương sai của 1 quá trình M A(∞) với hệ số khả tổng
tuyệt đối có thể được tính từ 1 phép ngoại suy đơn giản từ quá trình M A(q )
E (Yt ) = lim E (µ + ψ0 εt + ψ1 εt−1 + ψ2 εt−2 + ... + ψT εt−T ) = µ
T →∞
γ0 = E (Y − µ)2 = lim E (ψ0 εt + ψ1 εt−1 + ψ2 εt−2 + ... + ψT εt−T )2
T →∞
= lim (ψ02 + ψ12 + ψ22 + ... + ψT2 )σ 2
T →∞
γj = E (Yt − µ)(Yt−j − µ) = σ 2 (ψj ψ0 + ψj +1 ψ1 + ψj +2 ψ2 + ψj +3 ψ3 + ...)
Hơn thế nữa 1 quá trình M A(∞) với hệ số khả tổng tuyệt đối thì các tự hiệp
phương sai thỏa mãn tính khả tổng tuyệt đối, tức
∞
|γj | < ∞
j =0
Chứng minh. Ta viết lại
∞
γj = σ
2
ψj +k ψk
k=0
13
Khi đó
∞
∞
|γj | = σ
2
ψj +k ψk ≤ σ
2
ψj +k ψk
k=0
k=0
và
∞
∞
|γj | ≤ σ
∞
∞
2
ψj +k ψk = σ
Nhưng tồn tại M < ∞ để
k = 0, 1, 2, ... Vậy
∞
j =0 |ψj |
< M và trước đó
2
|ψk |
k=0
∞
j =0
ψj +k
j =0
ψj +k < M với
∞
∞
|γj | < σ
j =0
1.2.4
ψj +k . |ψk | = σ
j =0 k=0
j =0 k=0
j =0
∞
∞
∞
2
2
|ψj | .M < σ 2 M 2 < ∞
k=0
Quá trình tự hồi quy cấp 1
Quá trình tự hồi quy cấp 1, kí hiệu là AR(1) được cho bởi phương trình hồi
quy sau
Yt = c + φYt−1 + εt
(1.5)
Trong đó εt là dãy ồn trắng thỏa mãn (1.1). Chú ý (1.5) có dạng phương trình
hồi quy sau
yt = φyt−1 + wt
với wt = c + εt .
Từ việc phân tích phương trình hồi quy bậc 1 ta có thể suy ra nếu |φ| ≥ 1 sẽ
không tồn tại một quá trình dừng Yt .
Trong trường hợp |φ| < 1 có một quá trình dừng Yt thỏa mãn (1.5) dựa vào đặc
trưng về việc phân tích phương trình hồi quy
(yt = wt + φwt−1 + φ2 wt−2 + ...)
ở đây
w t = c + εt
14
Yt = (c + εt ) + φ(c + εt−1 ) + φ2 (c + εt−2 ) + ...
= c + φc + φ2 c + ... + εt + φεt−1 + φ2 εt−2 + ...
=
(1.6)
c
+ εt + φεt−1 + φ2 εt−2 + ...
1−φ
Điều này có thể được xem như 1 quá trình M A(∞) trong (1.2) với ψj được thay
bởi φj . Khi |φ| < 1 điều kiện (1.4) thỏa mãn
∞
∞
|φ|j =
|ψj | =
j =0
j =0
1
1 − |φ|
<∞
Lấy kỳ vọng hai vế của (1.6) ta được
E (Yt ) =
c
+ 0 + 0 + ...
1−φ
đó cũng chính là giá trị trung bình của AR(1), µ =
c
1−φ
Phương sai là
γ0 = E (Yt − µ)2
= E (εt + φεt−1 + φ2 εt−2 + φ3 εt−3 + ...)2
= (1 + φ2 + φ4 + φ6 + ...)σ 2 =
σ2
1 − φ2
Hàm tự hiệp phương sai thứ j là
γj = E (Yt − µ)(Yt−j − µ)
= E [εt + φεt−1 + φ2 εt−2 + ... + φj εt−j + φj +1 εt−j−1 + ...]
[εt−j + φεt−j−1 + φ2 εt−j−2 + ...]
= φj [1 + φ2 + φ4 + ...]σ 2
= [φj /(1 − φ2 )]σ 2
Từ các kết quả trên ta có thể suy ra hàm hệ số tự tương quan
ρj =
γj
= φj
γ0
Một cách thứ 2 đi đến kết quả tương tự với giả sử nó là quá trình dừng và
tính trực tiếp từ phương trình (1.5). Lấy kỳ vọng hai vế của (1.5)
E (Yt ) = c + φE (Yt−1 ) + E (εt )
15
(1.7)
Với giả sử AR(1) thì
E (Yt ) = E (Yt−1 ) = µ
Thay vào (1.7) ta được
µ = c + φµ + 0
suy ra
µ=
c
1−φ
Như vậy ta thu được giá trị trung bình một cách rất nhanh, tuy nhiên µ sẽ
không tồn tại nếu |φ| ≥ 1, lý do của sự không hợp lý khi |φ| ≥ 1 là do chúng ta
đã giả sử là quá trình dừng, giả sử này không đúng khi |φ| ≥ 1. Để tìm moment
cấp 2 của Yt một cách tương tự, ta thay µ =
c
vào (1.5)
1−φ
Yt = µ(1 − φ) + φYt−1 + εt
Yt − µ = φ(Yt−1 − µ) + εt
(1.8)
Bình phương hai vế của (1.8) sau đó lấy kỳ vọng
E (Yt − µ)2 = φ2 E (Yt−1 − µ)2 + 2φE [(Yt−1 − µ)εt ] + E (ε2t )
(1.9)
Từ (1.6) ta có (Yt−1 − µ) là hàm tuyến tính của εt−1 , εt−2 , ...
Yt − µ = εt−1 + φεt−2 + φ2 εt−3 + ...
Nhưng εt không tương quan với εt−1 , εt−2 , ... vì vậy εt sẽ không tương quan với
(Yt−1 − µ). Suy ra số hạng giữa của vế phải (1.9) bằng 0. Với giả sử AR(1) thì
E (Yt − µ)2 = E (Yt−1 − µ)2 = γ0
Thay vào (1.9)
γ0 = φ2 γ0 + 0 + σ 2
Do đó
γ0 =
σ2
1 − σ2
16
Tương tự nhân 2 vế của (1.8) với (Yt−j − µ) rồi lấy kỳ vọng
E [(Yt − µ)(Yt−j − µ)] = φE [(Yt−1 − µ)(Yt−j − µ)] + E [εt (Yt−j − µ)]
(1.10)
Nhưng số hạng (Yt−j − µ) là hàm tuyến tính của εt−j , εt−j−1 , εt−j−2 , ... sẽ không
tương quan với εt . Do đó số hạng cuối của đẳng thức trên bằng 0. Hơn nữa
E [(Yt−1 − µ)(Yt−j − µ)] = E [(Yt−1 − µ)(Y|t−1|−|j−1| − µ)] = γj−1
Vì vậy với j > 0 thì (1.10) sẽ trở thành
γj = φγj−1
Phương trình này có cấu tạo của phương trình tự hồi quy cấp 1
yt = φyt−1 + wt
và cũng từ phương trình này ta suy ra
γj = φj γ0
Như vậy với cách thứ 2 này ta tái lập được kết quả như cách ban đầu.
1.2.5
Quá trình tự hồi quy cấp 2
Quá trình tự hồi quy cấp 2, kí hiệu là AR(2) được định nghĩa bởi
Yt = c + φ1 Yt−1 + φ2 Yt−2 + εt
(1.11)
Hoặc kí hiệu dạng toán tử
(1 − φ1 L − φ2 L2 )Yt = c + εt
Phương trình (1.11) có nghiệm ổn định của
(1 − φ1 z − φ2 z 2 ) = 0
17
(1.12)
nằm ngoài vòng tròn đơn vị. Khi điều kiện này được thỏa mãn AR(2) là quá
trình dừng và nghịch đảo của toán tử hồi quy (1.12) cho bởi
ψ (L) = (1 − φ1 L − φ2 L2 )−1 = ψ0 + ψ1 L + ψ2 L2 + ψ3 L3 + ...
Nhân 2 vế của (1.12) với ψ (L) ta được
Yt = ψ (L)c + ψ (L)εt
(1.13)
Dễ dàng chỉ ra rằng
ψ (L)c =
và
c
1 − φ1 − φ2
∞
|ψj | < ∞
j =0
Ta coi (1.13) như là 1 quá trình M A(∞), theo kết quả của quá trình M A(∞) ở
phần trước giá trị trung bình của AR(2) là
µ=
c
1 − φ1 − φ2
một cách khác để tính, ta coi AR(2) là quá trình dừng bằng cách lấy kỳ vọng
trực tiếp 2 vế của (1.11)
E (Yt ) = c + φ1 E (Yt−1 ) + φ2 E (Yt−2 ) + E (εt )
tương đương với
µ = c + φ1 µ + φ2 µ + 0
Ta cũng suy ra được
µ=
c
1 − φ1 − φ2
và c = µ(1 − φ1 − φ2 ). Các moment cấp 2 tính như sau
Thay giá trị của c vào (1.11) ta được
Yt = µ(1 − φ1 − φ2 ) + φ1 Yt−1 + φ2 Yt−2 + εt
18
(Yt − µ) = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + εt
(1.14)
Nhân 2 vế của (1.14) với (Yt−j − µ) rồi lấy kỳ vọng
γj = φ1 γj−1 + φ2 γj−2
(1.15)
Ta thấy hàm tự tương quan cũng có dạng phương trình bậc 2 tự hồi quy giống
như quá trình AR(2). Dễ dàng suy ra hàm hệ số tự tương quan thỏa mãn
ρj = φ1 ρj−1 + φ2 ρj−2
(1.16)
Xét trường hợp j = 1 ta có
ρ1 = φ1 + φ2 ρ1
tương đương với
ρ1 =
φ1
1 − φ2
Cho j = 2 ta có ρ2 = φ1 ρ1 + φ2
Ta tính phương sai của quá trình tự hồi quy cấp 2 bằng cách nhân 2 vế của
(1.14) với Yt − µ rồi lấy kỳ vọng
E (Yt − µ)2 = φ1 E (Yt−1 − µ)(Yt − µ) + φ2 E (Yt−2 − µ)(Yt − µ) + E (εt )(Yt − µ)
Hay
γ0 = φ1 γ1 + φ2 γ2 + σ 2
Vì
E (εt )(Yt − µ) = E (εt )[φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + εt ]
= φ1 .0 + φ2 .0 + σ 2
Phương trình (1.17) có thể viết
γ0 = φ1 ρ1 γ0 + φ2 ρ2 γ0 + σ 2
Thay ρ1 , ρ2 vào phương trình trên ta được
γ0 = [
φ21
φ2 φ21
+
+ φ22 ]γ0 + σ 2
1 − φ2 1 − φ2
Hoặc
γ0 =
(1 − φ2 )σ 2
(1 + φ2 )[(1 − φ2 )2 − φ21 ]
19
(1.17)
1.2.6
Quá trình tự hồi quy cấp p
Quá trình tự hồi quy cấp p, kí hiệu là AR(p) được định nghĩa bởi
Yt = c + φ1 Yt−1 + φ2 Yt−2 + ... + φp Yt−p + εt
(1.18)
Nếu nghiệm của đa thức đặc trưng
1 − φ1 z − φ2 z 2 − ... − φp z p = 0
nằm ngoài vòng tròn đơn vị, một cách tương tự quá trình trên có thể biểu diễn
dưới dạng
Yt = µ + ψ (L)εt
(1.19)
Trong đó
ψ (L) = (1 − φ1 L − φ2 L2 − ... − φp Lp )−1
và
∞
j =0 |ψj |
< ∞. Ta giả sử tính dừng thỏa mãn, lấy kỳ vọng hai vế của (1.18)
(coi E (Yt ) = µ) suy ra
µ = c + φ1 µ + φ2 µ + ... + φp µ
Hay
µ=
c
(1 − φ1 − φ2 − ... − φp )
(1.20)
Sử dụng (1.20) phương trình (1.18) có thể viết lại như sau
Yt − µ = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + ... + φp (Yt−p − µ) + εt
(1.21)
Tự hiệp phương sai tìm bằng cách nhân 2 vế của (1.21) với (Yt−j − µ)
γj =
φ1 γj−1 + φ2 γj−2 + ... + φp γj−p
với j = 1, 2, ...
φ1 γ1 + φ2 γ2 + ... + φp γp + σ 2
với j = 0
Chia 2 vế của phương trình trên cho γ0 ta được phương trình Yule - Walker
ρj = φ1 ρj−1 + φ2 ρj−2 + ... + φp ρj−p với j = 1, 2, ... Vì vậy hàm tự tương quan
20
và hàm hệ số tự tương quan có dạng giống như phương trình tự hồi quy. Với
nghiệm phân biệt dạng của chúng
γj = g1 λj1 + g2 λj2 + ... + gp λjp
ở đây (λ1 , λ2 , ..., λp ) là các nghiệm của phương trình
λp − φ1 λp−1 − φ2 λp−2 − ... − φp = 0
1.2.7
Quá trình hỗn hợp ARMA(p,q)
Một quá trình ARM A(p, q ) bao gồm các số hạng tự hồi quy và trung bình
trượt, được định nghĩa bởi
Yt = c + φ1 Yt−1 + φ2 Yt−2 + ... + φp Yt−p
(1.22)
+ εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q
Hoặc dạng toán tử
(1 − φ1 L − φ2 L2 − ... − φp Lp )Yt = c + (1 + θ1 L + θ2 L2 + ... + θq Lq )εt
(1.23)
Nghiệm của phương trình
1 − φ1 z − φ2 z 2 − ... − φp z p = 0
(1.24)
nằm ngoài vòng tròn đơn vị. Nhân cả hai vế của (1.23) với (1 − φ1 L − φ2 L2 − ... −
φp Lp ) ta được
Yt = µ + ψ (L)εt
ở đây
ψ (L) =
1 + θ1 L + θ2 L2 + ... + θq Lq
1 − φ1 L − φ2 L2 − ... − φp Lp
∞
|ψj | < ∞
j =0
µ=
c
(1 − φ1 − φ2 − ... − φp )
21
Vì vậy tính dừng của quá trình ARM A(p, q ) chỉ phụ thuộc vào tham số tự hồi quy
(φ1 , φ2 , ..., φp ) mà không phụ thuộc vào tham số trung bình trượt (θ1 , θ2 , ..., θp ).
Ta thay c = µ(1 − φ1 − φ2 − ... − φp ) vào phương trình (1.22) và biến đổi như sau
Yt − µ = φ1 (Yt−1 − µ) + φ2 (Yt−2 − µ) + ... + φp (Yt−p − µ)
(1.25)
+ εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q
Hàm tự hiệp phương sai tìm bằng cách nhân 2 vế của (1.25) với (Yt−j − µ) rồi
lấy kỳ vọng. Cho j > q kết quả phương trình có dạng
γj = φ1 γj−1 + φ2 γj−2 + ... + φp γj−p
(1.26)
j = q + 1, q + 2, ...
Vì vậy với các giá trị sau q hàm tự hiệp phương sai (hàm hệ số tự tương qua) là
phương trình hồi quy cấp p với các hệ số là các tham số tự hồi quy của ARM A.
Chú ý rằng (1.26) sẽ không tồn tại cho trường hợp j < q bởi sự tương quan giữa
θj εt−j và Yt−j . Vì vậy quá trình ARMA có hàm tự tương quan với j từ 1 đến q
phức tạp hơn nhiều so với AR(p) tương ứng. Cho j > q và các hệ số tự hồi quy
phân biệt, hàm tự hiệp phương sai cho bởi
γj = h1 λj1 + h2 λj2 + ... + hp λjp
(1.27)
Điều này giống như cấu trúc của hàm tự hiệp phương sai của quá trình AR(p).
Tuy nhiên tham số hk sẽ không giống gk . Có 1 thế vị thừa dư của sự tham số
hóa cho quá trình ARMA. Xét ví dụ một quá trình ồn trắng đơn giản
Y t = εt
(1.28)
Nhân 2 vế của (1.28) với (1 − ρL) ta được
(1 − ρL)Yt = (1 − ρL)εt
(1.29)
Rõ ràng nếu biểu diễn (1.28) tồn tại thì biểu diễn (1.29) cũng tồn tại với mọi
giá trị ρ. Vì vậy (1.29) được miêu tả như một quá trình ARM A(1, 1) với φ1 = ρ
22
và θ1 = −ρ, đó là điều quan trọng để tránh sự của tham số hóa.
Mỗi 1 sự xác định tham số hóa có thể phát sinh 1 mô hình ARM A(p, q ).
Xét phân tích đa thức toán tử trong (1.23)
(1 − λ1 L)(1 − λ2 L)...(1 − λp L)(Yt − µ)
(1.30)
= (1 − η1 L)(1 − η2 L)...(1 − ηq L)
Chúng ta giả sử rằng |λj | < 1 cho mọi j để cho quá trình này là dừng. Nếu
toán tử tự hồi quy (1 − φ1 L − φ2 L2 − ... − φp Lp ) và toán tử trung bình trượt
(1 + θ1 L + θ2 L2 + ... + θq Lq ) có nghiệm chung nào đó λi = ηj thì 2 vế của (1.30)
được chia cho (1 − λi L). Hoặc
(1 − φ∗1 L − φ∗2 L2 − ... − φ∗p−1 Lp−1 )(Yt − µ)
(1.31)
= (1 + φ∗1 L + φ∗2 L2 + ... + φ∗q−1 Lq−1 )εt
Ở đây
(1 − φ∗1 L − φ∗2 L2 − ... − φ∗p−1 Lp−1 ) =
(1 − λ1 L)(1 − λ2 L)...(1 − λi−1 L)(1 − λi+1 L)...(1 − λp L)
∗
q−1
(1 + θ1∗ L + θ2∗ L2 + ... + θq−
)=
1L
(1 − η1 L)(1 − η2 L)...(1 − ηj−1 L)(1 − ηj +1 L)...(1 − ηq L)
Tính dừng của quá trình ARM A(p, q ) thỏa mãn (1.23) rõ ràng là đồng nhất với
tính dừng của quá trình ARM A(p − 1, q − 1) thỏa mãn (1.31).
23
Chương 2
Một số tiêu chuẩn lựa chọn
mô hình
Dữ liệu được mô phỏng bằng những cách khác nhau. Có thể có những phương
pháp đơn giản hơn mà cũng có thể có nhiều tham số hơn. Khi có nhiều covarian
được đo chúng ta có thể sử dụng tất cả chúng trong mô hình, hoặc chỉ một vài
trong số chúng. Với một danh sách các mô hình ứng cử viên, lựa chọn mô hình
nào là tốt nhất? Để lựa chọn mô hình tốt nhất người ta đưa ra các tiêu chuẩn
thông tin. Trong chương này sẽ trình bày hai tiêu chuẩn thông tin quan trọng
là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin Bayesian.
2.1
2.1.1
Tiêu chuẩn thông tin Akaike
Khoảng cách Kullback - Leibler
Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullblack Leibler là một "độ đo" không đối xứng dùng để đo sự khác nhau giữa hai phân
bố P và Q. Cụ thể hơn, độ lệch Kullback - Leibler của Q khỏi P ký hiệu là KL(P
|| Q) là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn
khoảng cách Kullback - Leibler đo số bit trung bình dư ra để mã hóa một mẫu
24