Tải bản đầy đủ (.pdf) (74 trang)

Tìm hiểu về phân tích chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (928.62 KB, 74 trang )

Mục lục
1 Các yếu tố của phân tích chuỗi thời gian thăm dò 1
1.1 Mô hình cộng tính của chuỗi thời gian . . . . . . . . . . . . . . . . . . 2
1.1.1 Mô hình với xu hướng không tuyến tính . . . . . . . . . . . . . 3
1.1.2 Hàm Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Hàm Mitscherlich . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Đường cong Gompertz . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.5 Hàm tương quan sinh trưởng (the Allometric Function) . . . . . 6
1.2 Bộ lọc tuyến tính của chuỗi thời gian . . . . . . . . . . . . . . . . . . . 9
1.2.1 Các bộ lọc tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Điều chỉnh theo mùa . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Chương trình điều tra dân số X - 11 . . . . . . . . . . . . . . . 11
1.2.4 Đa thức địa phương phù hợp nhất . . . . . . . . . . . . . . . . . 13
1.2.5 Bộ lọc sai phân . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.6 Làm trơn hàm mũ . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Tự hiệp phương sai và tự tương quan . . . . . . . . . . . . . . . . . . . 18
2 Mô hình chuỗi thời gian 20
2.1 Bộ lọc tuyến tính và quá trình ngẫu nhiên . . . . . . . . . . . . . . . . 20
2.1.1 Quá trình dừng . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Sự tồn tại của quá trình tuyến tính tổng quát . . . . . . . . . . 22
2.1.3 Hàm sinh hiệp phương sai (The Covariance Generating Function) 28
2.1.4 Đa thức đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.5 Bộ lọc ngược . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.6 Bộ lọc nguyên nhân (Causal Filters) . . . . . . . . . . . . . . . 31
2.2 Trung bình trượt và quá trình tự hồi quy . . . . . . . . . . . . . . . . . 33
2.2.1 Quá trình khả nghịch . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.2 Quá trình tự hồi quy . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.3 Điều kiện dừng của quá trình tự hồi quy . . . . . . . . . . . . . 36
2.2.4 Phương trình Yule - Walker . . . . . . . . . . . . . . . . . . . . 38
2.2.5 Hệ số tự tương quan riêng . . . . . . . . . . . . . . . . . . . . . 39
2.2.6 Quá trình - ARMA . . . . . . . . . . . . . . . . . . . . . . . . . 41


2.2.7 Hàm tự hiệp phương sai của quá trình - ARMA . . . . . . . . . 42
2.2.8 Quá trình - ARIMA . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3 Nhận dạng mô hình ARMA: Phương pháp Box - Jenkins . . . . . . . . 46
2.3.1 Lựa chọn bậc . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.2 Ước lượng hệ số . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
i
2.3.3 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . . . . 52
2.3.4 Dự báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3 Mô hình không gian - trạng thái (State - Space Models) 58
3.1 Biểu diễn không gian - trạng thái . . . . . . . . . . . . . . . . . . . . . 58
3.2 Bộ lọc Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Kết luận 68
Tài liệu tham khảo 69
ii
Lời mở đầu
Trong các bài toán kinh tế, kỹ thuật cũng như trong cuộc sống hàng
ngày, việc biết trước được các giá trị của tương lai sẽ vô cùng quan trọng.
Nó sẽ giúp chúng ta hoạch định được kế hoạch, tránh những rủi ro không
cần thiết cũng như lựa chọn những phương án tối ưu. Chuỗi thời gian đang
được sử dụng như một công cụ hữu hiệu để phân tích và dự báo trong kinh
tế, xã hội cũng như trong nghiên cứu khoa học. Một chuỗi thời gian là tập
hợp các quan sát của các dữ liệu được xác định rõ thu được thông qua các
phép đo lặp đi lặp lại theo thời gian. Phân tích chuỗi thời gian bao gồm
các phương pháp để phân tích dữ liệu chuỗi thời gian, từ đó trích xuất
được các thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu. Nhờ
đó, ta có cơ sở để dự báo các kết quả cho tương lai.
Với mong muốn tìm hiểu về phân tích chuỗi thời gian nhằm dự báo
các kết quả trong tương lai, luận văn nghiên cứu về đề tài "Tìm hiểu
về phân tích chuỗi thời gian". Luận văn cung cấp kiến thức chính cho
việc phân tích chuỗi thời gian trong miền thời gian. Các kiến thức cơ sở

cần có là sự hội tụ trong phân phối, hội tụ ngẫu nhiên, ước lượng hợp lý
cực đại cũng như kiến thức cơ bản của lý thuyết kiểm định.
Luận văn gồm ba chương:
Chương 1 đưa ra các yếu tố của việc phân tích chuỗi thời gian thăm dò
bao gồm các mô hình phù hợp (Logistic, Mitscherlich, đường cong Gom-
pertz) cho một chuỗi các dữ liệu, bộ lọc tuyến tính cho điều chỉnh theo
mùa và xu hướng điều chỉnh (bộ lọc sai phân, chương trình điều tra dân
số X – 11) và bộ lọc mũ cho theo dõi hệ thống. Tự hiệp phương sai và tự
tương quan sẽ được giới thiệu trong chương này.
Chương 2 cung cấp phép toán của các mô hình toán học về dãy ổn định
của biến ngẫu nhiên (ồn trắng, trung bình trượt, quá trình tự hồi quy, mô
hình ARIMA) cùng với các kiến thức cơ sở (sự tồn tại của quá trình dừng,
hàm sinh hiệp phương sai, bộ lọc ngược và bộ lọc nguyên nhân, điều kiện
dừng, phương trình Yule – Walker, tự tương quan riêng). Chương trình
Box – Jenkins cho mô hình ARMA sẽ được nghiên cứu một cách cụ thể
iii
(tiêu chuẩn thông tin AIC, BIC và HQ). Quá trình Gaussian và ước lượng
hợp lý cực đại trong mô hình Gaussian được giới thiệu cũng như ước lượng
bình phương tối thiểu như là một khả năng loại trừ không có tham số. Kết
quả được kiểm tra bằng Box – Ljung.
Chương 3 giới thiệu mô hình chuỗi thời gian được nhúng trong mô hình
không gian trạng thái. Bộ lọc Kalman là một phương pháp dự đoán thống
nhất gần với các phân tích của chuỗi thời gian trong miền thời gian.
Bản luận văn này được hoàn thành dưới sự hướng dẫn nghiêm khắc và
chỉ bảo tận tình của PGS.TS Phan Viết Thư. Thầy đã dành nhiều thời
gian hướng dẫn cũng như giải đáp các thắc mắc của tôi trong suốt quá
trình làm luận văn. Tôi muốn bày tỏ lòng biết ơn sâu sắc đến người thầy
của mình.
Qua đây, tôi xin gửi tới các thầy cô Khoa Toán - Cơ - Tin học, Trường Đại
học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, cũng như các thầy cô

đã tham gia giảng dạy khóa cao học 2011- 2013 lời cảm ơn sâu sắc nhất
đối với công lao dạy dỗ trong suốt quá trình giáo dục đào tạo của Nhà
trường.
Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo
điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình.
Hà Nội, ngày 11 tháng 02 năm 2014
Học viên
Phạm Thu Hằng
iv
Chương 1
Các yếu tố của phân tích chuỗi thời
gian thăm dò
Chuỗi thời gian là chuỗi các quan sát được sắp xếp theo thời gian. Ví
dụ, thu hoạch hàng năm của củ cải đường và giá của chúng/tấn được ghi
lại trong nông nghiệp. Thông báo về giá cổ phiếu hàng ngày, tỷ lệ đầu tư
hàng tuần, tỷ lệ số người thất nghiệp hàng tháng và doanh thu hàng năm
trong các tờ báo kinh tế. Khí tượng học ghi lại tốc độ gió hàng giờ, nhiệt
độ cao nhất và thấp nhất hàng ngày, mực nước mưa hàng năm. Địa lý
học liên tục theo dõi sự thay đổi của trái đất để dự đoán khả năng động
đất. Một điện não đồ ghi lại dấu vết sóng não thực hiện bởi một máy điện
tử để phát hiện bệnh não, điện tâm đồ dấu vết sóng tim. Những điều tra
xã hội về tỷ lệ sinh và tỷ lệ chết, các tai nạn trong nhà và hành vi phạm
tội. Tham số trong một quá trình sản xuất được theo dõi thường xuyên
để kiểm tra trực tuyến, đảm bảo chất lượng.
Hiển nhiên, có rất nhiều lý do để ghi lại và phân tích những dữ liệu về
chuỗi thời gian. Trong số đó, đặc biệt là sự mong muốn có một hiểu biết
tốt hơn về các dữ liệu tạo ra cơ chế, dự đoán về kết quả trong tương lai
hoặc điều khiển tối ưu một hệ thống. Tính chất đặc trưng của chuỗi thời
gian là dữ liệu không được sinh ra một cách độc lập, sự sai khác của chúng
thay đổi theo thời gian, chúng thường bị điều chỉnh bởi xu hướng và chúng

có các thành phần chu kỳ. Do đó, các quá trình thống kê mà người ta giả
sử dữ liệu có tính độc lập và cùng phân phối, sẽ loại trừ khỏi phân tích
của chuỗi thời gian. Điều này đòi hỏi những phương pháp thích hợp được
tập hợp lại dưới cái tên Phân tích chuỗi thời gian.
1
1.1 Mô hình cộng tính của chuỗi thời gian
Mô hình cộng tính đối với một chuỗi thời gian y
1
, y
2
, . . . , y
n
là giả thiết
rằng những dữ liệu trên là phép thể hiện của các biến ngẫu nhiên Y
t
sao
cho Y
t
là tổng của bốn thành phần
Y
t
= T
t
+ Z
t
+ S
t
+ R
t
, t = 1, , n, (1.1)

trong đó T
t
là hàm (đơn điệu) của t , gọi là xu hướng. Z
t
phản ánh một
số tác động dài hạn không ngẫu nhiên có chu kỳ. Ví dụ, chu kỳ nổi tiếng
trong kinh doanh thường bao gồm suy thoái, phục hồi, tăng trưởng và suy
giảm. S
t
mô tả một số ảnh hưởng không ngẫu nhiên theo chu kỳ ngắn hạn
như là một thành phần theo mùa trong khi R
t
là một biến ngẫu nhiên bao
gồm tất cả độ lệch từ mô hình không ngẫu nhiên lý tưởng y
t
= T
t
+Z
t
+S
t
.
Các biến T
t
và Z
t
thường được viết gọn thành
G
t
= T

t
+ Z
t
, (1.2)
G
t
mô tả diễn biến dài hạn của chuỗi thời gian. Chúng ta sẽ giả thiết rằng
kỳ vọng E (R
t
) = 0 của biến sai số tồn tại và bằng 0, điều đó phản ánh
giả thiết độ lệch ngẫu nhiên trên hoặc dưới mô hình không ngẫu nhiên
cân bằng lẫn nhau về trung bình. Chú ý rằng E (R
t
) = 0 có thể luôn đạt
được bằng cách thay đổi thích hợp một hoặc nhiều thành phần không ngẫu
nhiên.
Biểu đồ dưới đây của dữ liệu thất nghiệp 1 chỉ ra một thành phần theo
mùa và một xu hướng giảm. Chu kỳ từ tháng 7 năm 1975 tới tháng 9 năm
1979 có thể hơi ngắn để cho biết về chu kỳ kinh doanh dài hạn.
2
Biểu đồ 1.1.1: Dữ liệu thất nghiệp 1.
1.1.1 Mô hình với xu hướng không tuyến tính
Trong mô hình cộng tính Y
t
= T
t
+ R
t
, ở đó chỉ có thành phần không
ngẫu nhiên là xu hướng T

t
phản ánh sự phát triển của hệ thống và giả
thiết rằng E (R
t
) = 0, ta có:
E (Y
t
) = T
t
= f (t) .
Giả thiết chung là hàm f phụ thuộc vào nhiều tham số (chưa biết)
β
1
, , β
p
tức là
f (t) = f (t; β
1
, , β
p
) , (1.3)
tuy nhiên đã biết dạng của hàm f. Các tham số chưa biết β
1
, , β
p
cần
được ước lượng từ tập các thể hiện y
t
của biến ngẫu nhiên Y
t

. Cách tiếp
cận thông thường là sử dụng phương pháp ước lượng bình phương tối
thiểu
ˆ
β
1
, ,
ˆ
β
p
thỏa mãn

t

y
t
− f

t;
ˆ
β
1
, ,
ˆ
β
p

2
= min
β

1
, ,β
p

t
(y
t
− f (t; β
1
, . . . , β
p
))
2
. (1.4)
Nếu các phép toán trên tồn tại thì bài toán đưa về bài toán số .Giá trị
ˆy
t
= f

t;
ˆ
β
1
, . . . ,
ˆ
β
p

có thể dùng để dự báo giá trị tương lai y
t

. Hiệu y
t
−ˆy
t
được gọi là phần dư. Chúng chứa các thông tin về sự phù hợp của mô
hình với dữ liệu.
Sau đây ta sẽ liệt kê một số ví dụ thông dụng của hàm xu hướng.
3
1.1.2 Hàm Logistic
Hàm số
f
log
(t) = f
log
(t; β
1
, β
2
, β
3
) =
β
3
1 + β
2
exp (−β
1
t)
, t ∈ R, (1.5)
với β

1
, β
2
, β
3
∈ R\{0} là hàm Logistic được sử dụng rộng rãi.
Biểu đồ 1.1.2: Hàm Logistic f
log
với các giá trị khác nhau β
1
, β
2
, β
3
.
Hiển nhiên ta có lim
t→∞
f
log
(t) = β
3
nếu β
1
> 0. Giá trị β
3
thường giống sự
sản sinh cực đại hoặc sự phát triển của hệ thống. Chú ý rằng:
1
f
log

(t)
=
1 + β
2
exp (−β
1
t)
β
3
=
1 − exp (−β
1
)
β
3
+ exp (−β
1
)
1 + β
2
exp (−β
1
(t − 1))
β
3
=
1 − exp (−β
1
)
β

3
+ exp (−β
1
)
1
f
log
(t − 1)
= a +
b
f
log
(t − 1)
. (1.6)
Như vậy tồn tại một mối liên hệ tuyến tính giữa
1
f
log
(t)
. Điều này có thể
dùng làm cơ sở để ước lượng các tham số β
1
, β
2
, β
3
bằng một ước lượng bình
phương tối thiểu thích hợp. Trong ví dụ sau, ta sẽ khớp mô hình xu hướng
(1.5) với dữ liệu về sự phát triển dân số của phía bắc Rhine-Westphalia
(NRW) là một bang của Đức.

4
Ví dụ 1.1.1 (Dữ liệu dân số 1) Bảng 1.1.1 đưa ra số dân (tính theo đơn
vị hàng triệu) của bang NRW các bước chu kỳ 5 năm, từ năm 1935 đến
năm 1980 và đưa ra giá trị dự báo của ˆy
t
, xác định bằng phương pháp ước
lượng bình phương tối thiểu như mô tả (1.4) cho mô hình Logistic.
Năm t Số dân y
t
Giá trị dự báo ˆy
t
(triệu người) (triệu người)
1935 1 11.772 10.930
1940 2 12.059 11.827
1945 3 11.200 12.709
1950 4 12.926 13.565
1955 5 14.442 14.384
1960 6 15.694 15.158
1965 7 16.661 15.881
1970 8 16.914 16.548
1975 9 17.176 17.158
1980 10 17.044 17.710
Bảng 1.1.1: Dữ liệu dân số 1.
Như một dự báo số dân ở thời gian t, ta nhận được trong mô hình
Logistic
ˆy
t
=
ˆ
β

3
1 +
ˆ
β
2
exp


ˆ
β
1
t

=
21.5016
1 + 1.1436exp (−0.1675t)
với kích thước bão hoà ước lượng là
ˆ
β
3
= 21.5016.
1.1.3 Hàm Mitscherlich
Hàm Mitscherlich là một dạng đặc trưng, thường được sử dụng trong
mô hình tăng trưởng dài hạn của hệ thống:
f
M
(t) = f
M
(t; β
1

, β
2
, β
3
) = β
1
+ β
2
exp (β
3
t) , t ≥ 0, (1.7)
trong đó β
1
, β
2
∈ R và β
3
< 0. Vì β
3
là số âm nên ta có dáng điệu tiệm
cận lim
t→∞
f
M
(t) = β
1
và do đó tham số β
1
là giá trị bão hoà của hệ thống.
Giá trị (khởi tạo) của hệ thống tại thời gian t = 0 là f

M
(t) = β
1
+ β
2
.
5
1.1.4 Đường cong Gompertz
Một hàm khá thông dụng dùng để mô hình hoá sự tăng hoặc giảm của
một hệ thống là đường cong Gompertz
f
G
(t) = f
G
(t; β
1
, β
2
, β
3
) = exp

β
1
+ β
2
β
t
3


, t ≥ 0, (1.8)
trong đó β
1
, β
2
∈ R và β
3
∈ (0, 1). Hiển nhiên ta có
log (f
G
(t)) = β
1
+ β
2
β
t
3
= β
1
+ β
2
exp (log (β
3
) t) ,
và do đó log (f
G
) là hàm Mitscherlich với tham số β
1
, β
2

và log (β
3
). Giá
trị bão hoà là exp (β
1
).
Biểu đồ 1.1.3: Đường cong Gompertz với các tham số khác nhau.
1.1.5 Hàm tương quan sinh trưởng (the Allometric Function)
Hàm tương quan sinh trưởng
f
a
(t) = f
a
(t; β
1
, β
2
) = β
2
t
β
1
, t ≥ 0, (1.9)
với β
1
∈ R, β
2
> 0 là hàm xu hướng thông dụng trong sinh vật học và kinh
tế học. Nó có thể được xem như là một hàm Cobb-Douglas đặc biệt, là
một mô hình kinh tế lượng thông dụng để mô tả số lượng sản phẩm đầu

ra phụ thuộc đầu vào. Vì
log (f
a
(t)) = log (β
2
) + β
1
log (t) , t > 0,
6
là một hàm tuyến tính của log (t) với hệ số góc β
1
và điểm cắt với trục
tung là log (β
2
) nên ta có thể giả thiết một mô hình hồi quy tuyến tính
cho dữ liệu loga log (y
t
)
log (y
t
) = log (β
2
) + β
1
log (t) + ε
t
, t ≥ 1,
trong đó ε
t
là các biến sai số.

Ví dụ 1.1.2 (Dữ liệu về thu nhập). Bảng 1.1.2 đưa ra thu nhập tích luỹ
tăng trung bình hàng năm của thu nhập trước thuế (Gross) và thu nhập
sau thuế (Net) tính theo đơn vị nghìn DM (đơn vị tiền tệ) tại Đức từ năm
1960.
Năm Thu nhập trước thuế Thu nhập sau thuế
t x
t
y
t
1960 0 0 0
1961 1 0.627 0.486
1962 2 1.247 0.973
1963 3 1.702 1.323
1964 4 2.408 1.867
1965 5 3.188 2.568
1966 6 3.866 3.022
1967 7 4.201 3.259
1968 8 4.840 3.663
1969 9 5.855 4.321
1970 10 7.625 5.482
Bảng 1.1.2: Dữ liệu thu nhập.
Ta giả thiết rằng sự tăng của thu nhập ròng sau thuế y
t
là một hàm
tương quan sinh trưởng của thời gian t và ta có
log (y
t
) = log (β
2
) + β

1
log (t) + ε
t
. (1.10)
Ước lượng bình phương tối thiểu của β
1
và log (β
2
) trong mô hình hồi quy
tuyến tính trên là
ˆ
β
1
=
10

t=1

log (t) − log (t)

log (y
t
) − log (y)

10

t=1

log (t) − log (t)


2
= 1.019,
trong đó log (t) =
1
10
10

t=1
log (t) = 1.5104, log (y) =
1
10
10

t=1
log (y
t
) = 0.7849
và cuối cùng

log (β
2
) = log (y) −
ˆ
β
1
log (t) = −0, 7549. Do đó ta ước lượng
7
β
2
bởi

ˆ
β
2
= exp (−0, 7549) = 0.4700.
Vậy giá trị dự đoán ˆy
t
tương ứng với thời gian t
ˆy
t
= 0.47t
1.019
. (1.11)
t y
t
− ˆy
t
1 0,0159
2 0,0201
3 -0,1176
4 -0,0646
5 0,1430
6 0,1017
7 -0,1583
8 -0,2526
9 -0,0942
10 0,5662
Bảng 1.1.3: Phần thặng dư của dữ liệu thu nhập.
Bảng 1.1.3 liệt kê phần dư y
t
−ˆy

t
, các phần dư này có thể đánh giá sự phù
hợp của mô hình (1.11).
Một độ đo phổ thông để đánh giá sự phù hợp là hệ số tương quan nhiều
chiều bình phương hoặc giá trị R
2
R
2
= 1 −
n

t=1
(y
t
− ˆy
t
)
2
n

t=1
(y
t
− ¯y)
2
, (1.12)
trong đó ¯y =
1
n
n


t=1
y
t
là trung bình của các quan sát y
t
. Trong mô hình hồi
quy tuyến tính với ˆy
t
dựa trên ước lượng bình phương tối thiểu của các
tham số, R
2
nằm giữa 0 và 1 suy ra R
2
= 1 nếu và chỉ nếu
n

t=1
(y
t
− ˆy
t
)
2
= 0.
Một giá trị R
2
gần tới 1 là thuận lợi cho mô hình. Mô hình (1.10) có
R
2

= 0.9934 trong khi (1.11) có R
2
= 0.9789. Tuy nhiên ta phải chú ý
rằng mô hình đầu tiên (1.9) không tuyến tính và
ˆ
β
2
không phải là ước
lượng bình phương tối thiểu, trong trường hợp này R
2
không nhất thiết
phải nằm giữa 0 và 1 và do đó ta cần phải xem xét cẩn thận nó như là
một độ đo thô của sự phù hợp.
Tổng thu nhập tăng trung bình trong năm 1960 là 6148 DM và tương ứng
8
thu nhập ròng là 5148 DM. Do đó tổng thu nhập trung bình hiện tại và
thu nhập ròng là ˜x
t
= x
t
+ 6.148 và ˜y
t
= y
t
+ 5.178 với mô hình ước lượng
dựa trên giá trị dự đoán ˆy
t
ˆ
˜y
t

= ˆy
t
+ 5.178 = 0.47t
1.019
+ 5.178.
Chú ý rằng giá trị thặng dư ˜y
t

ˆ
˜y
t
= y
t
− ˆy
t
không bị ảnh hưởng bởi hằng
số cộng 5.178 vào y
t
. Mô hình ở trên có thể giúp đánh giá tình trạng người
đóng thuế trung bình từ năm 1960 đến năm 1970 và dự đoán họ ở tương
lai. Rõ ràng từ giá trị thặng dư trong bảng 1.1.3 cho thấy thu nhập ròng
y
t
gần như là bội số hoàn hảo của t với t nằm giữa 1 và 9 trong khi năm
1970, y
10
tăng mạnh nhất dường như là giá trị ngoại lai. Thật vậy, trong
năm 1969 chính phủ Đức đã có sự thay đổi và trong năm 1970 có một cuộc
đình công lớn ở Đức là nguyên nhân cho việc thu nhập của công chức tăng
mạnh.

1.2 Bộ lọc tuyến tính của chuỗi thời gian
Sau đây ta sẽ xem xét mô hình cộng tính (1.1) và giả thiết rằng không
có thành phần chu kỳ dài hạn. Tuy nhiên ta cho phép một xu hướng, trong
trường hợp này, làm trơn thành phần không ngẫu nhiên G
t
bằng hàm xu
hướng T
t
. Do đó, mô hình được phân tích dưới dạng
Y
t
= T
t
+ S
t
+ R
t
, t = 1, 2, . . . (1.13)
với E (R
t
) = 0. Cho thể hiện y
t
, t = 1, 2, . . . , n trong chuỗi thời gian, mục
đích của phần này là ước lượng
ˆ
T
t
,
ˆ
S

t
của các hàm không ngẫu nhiên T
t
và S
t
và loại bỏ chúng ra khỏi chuỗi thời gian bằng cách xét y
t

ˆ
T
t
hoặc
y
t

ˆ
S
t
thay vào đó. Chuỗi nhận được sau khi loại bỏ xu hướng theo mùa
trong chuỗi thời gian gọi là "chuỗi được điều chỉnh theo mùa".
1.2.1 Các bộ lọc tuyến tính
Lấy a
−r
, a
−r+1
, . . . , a
s
là các số thực bất kỳ, trong đó r, s ≥ 0, r+s+1 ≤
n. Phép biến đổi tuyến tính
Y


t
=
s

u=−r
a
u
Y
t−u
, t = s + 1, . . . , n − r,
được gọi là bộ lọc tuyến tính với các trọng số a
−r
, a
−r+1
, . . . , a
s
. Y
t
được gọi là đầu vào, Y

t
được gọi là đầu ra.
9
Dễ thấy rằng dữ liệu đầu ra ít hơn dữ liệu đầu vào nếu (r, s) = (0, 0). Một
giá trị dương s > 0 hoặc r > 0 là nguyên nhân cắt bỏ điểm bắt đầu hoặc
kết thúc của chuỗi thời gian. Để thuận tiện, ta gọi véctơ của các trọng số
(a
u
) = (a

−r
, . . . , a
s
)
T
là một lọc (tuyến tính).
Một lọc (a
u
) mà các trọng số có tổng bằng 1,
s

u=−r
a
u
= 1 gọi là trung
bình trượt. Trường hợp riêng a
u
=
1
2s + 1
, u = −s, . . . , s với một số lẻ
trọng số bằng nhau, hoặc a
u
=
1
2s
, u = −s + 1, . . . , s − 1, a
−s
= a
s

=
1
4s
,
mục đích chọn một số lượng chẵn trọng số để trung bình trượt đơn
giản có bậc tương ứng là 2s + 1 và 2s.
Lọc chuỗi thời gian là để làm san bằng những thành phần bất thường của
chuỗi thời gian, do đó tìm ra xu hướng hoặc thành phần theo mùa, mà nó
có thể bị che khuất bởi những biến động. Ví dụ, trong khi đồng hồ tốc độ
kỹ thuật số trong ô tô có thể cung cấp vận tốc tức thời của xe, cũng cho
thấy sự biến động khá lớn. Một công cụ tương tự dùng tay và một bộ lọc
xây dựng làm mịn có thể giảm tải các biến động nhưng mất một ít thời
gian để điều chỉnh. Công cụ thứ hai thì rất dễ đọc và các thông tin của
chúng phản ánh xu hướng là đủ trong hầu hết các trường hợp.
Để tính đầu ra của trung bình trượt đơn giản có bậc 2s + 1 ta sử dụng
phương trình sau:
Y

t+1
= Y

t
+
1
2s + 1
(Y
t+s+1
− Y
t−s
) .

Lọc này là ví dụ riêng cho lọc thông thấp, bảo toàn thành phần xu hướng
biến đổi chậm của chuỗi và loại khỏi nó thành phần biến động nhanh hoặc
tần số cao. Do đó, có một sự thoả hiệp giữa hai yêu cầu trên là những biến
đổi bất thường nên được giảm bởi một bộ lọc, ví dụ chọn nhiều s trong
trung bình trượt đơn giản, và do đó sự biến động dài hạn trong dữ liệu
sẽ không bị bóp méo bởi làm trơn quá mức, tức là có quá nhiều lựa chọn
s. Ví dụ, nếu ta giả sử rằng chuỗi thời gian Y
t
= T
t
+ R
t
không có thành
phần theo mùa, trung bình trượt đơn giản bậc 2s + 1 dẫn tới
Y

t
=
1
2s + 1
s

u=−s
Y
t−u
=
1
2s + 1
s


u=−s
T
t−u
+
1
2s + 1
s

u=−s
R
t−u
= T

t
+ R

t
.
10
trong đó theo luật số lớn R

t
∼ E (R
t
) = 0 nếu s đủ lớn. Nhưng T

t
có thể
sau đó không còn phản ánh T
t

. Tuy nhiên, nếu chọn s nhỏ, ta thấy hiện
tượng R

t
không còn gần với kỳ vọng của nó.
1.2.2 Điều chỉnh theo mùa
Trung bình trượt đơn giản của chuỗi thời gian Y
t
= T
t
+ S
t
+ R
t
phân
tích thành
Y

t
= T

t
+ S

t
+ R

t
,
trong đó S


t
là trung bình trượt liên quan của thành phần theo mùa. Hơn
nữa, giả sử rằng S
t
là hàm chu kỳ p , tức là S
t
= S
t+p
, t = 1, . . . , n − p.
Ví dụ nhiệt độ trung bình hàng tháng Y
t
đo được tại những điểm cố định,
trong trường hợp này có thể giả thiết chu kỳ thành phần theo mùa S
t

chu kỳ p = 12 tháng. Trung bình trượt đơn giản bậc p cho giá trị bất biến
S

t
= S, t = p, p + 1, . . . , n −p . Bằng việc cộng thêm hằng số S vào hàm
xu hướng T
t
và đặt T

t
= T
t
+ S , ta có thể giả thiết S = 0. Do đó ta có
hiệu D

t
= Y
t
−Y

t
∼ S
t
+ R
t
. Để ước lượng S
t
ta tính trung bình hiệu này
với độ trễ p (chú ý rằng chúng dao động xung quanh S
t
)
¯
D
t
=
1
n
t
n
t
−1

j=0
D
t+jp

∼ S
t
, t = 1, . . . , p,
¯
D
t
=
¯
D
t−p
, với t > p,
trong đó n
t
là số chu kỳ dùng để tính
¯
D
t
. Do đó
ˆ
S
t
=
¯
D
t

1
p
p


j=1
¯
D
j
∼ S
t

1
p
p

j=1
S
j
= S
t
(1.14)
là một ước lượng của S
t
= S
t+p
= S
t+2p
= . . . thoả mãn
1
p
p−1

j=0
ˆ

S
t+j
= 0 =
1
p
p−1

j=0
S
t+j
.
Hiệu Y
t

ˆ
S
t
với thành phần theo mùa gần 0 là chuỗi thời gian được điều
chỉnh theo mùa.
1.2.3 Chương trình điều tra dân số X - 11
Trong những năm 50 của thế kỷ 20, văn phòng US – điều tra dân số đã
phát triển một chương trình điều chỉnh theo mùa của chuỗi thời gian kinh
11
tế, được gọi là chương trình điều tra dân số X – 11. Chương trình
này phụ thuộc vào các quan sát hàng tháng và giả thiết mô hình cộng tính
Y
t
= T
t
+ S

t
+ R
t
giống như (1.13) với thành phần theo mùa S
t
chu kỳ p = 12.
Ta đưa ra một bản tóm tắt chương trình bởi Wallis (1974), đó là kết quả
của trung bình trượt với trọng số đối xứng. Phương pháp điều tra dân
số được trình bày trong Shiskin và Eisenpress (1957); một mô tả đầy đủ
được đưa ra bởi Shiskin et al (1967). Chứng minh lý thuyết được dựa trên
mô hình ngẫu nhiên được cung cấp bởi Cleveland và Tiao (1976). Chương
trình X - 11 thực chất làm việc như điều chỉnh theo mùa được mô tả ở
trên, nhưng chương trình này có thêm các phép lặp và nhiều trung bình
trượt khác nhau.
Những bước khác nhau trong chương trình này là:
(i) Tính trung bình trượt đơn giản Y

t
bậc 12 để loại bỏ về cơ bản một
xu hướng Y

t
∼ T
t
.
(ii) Hiệu D
t
= Y
t
− Y


t
∼ S
t
+ R
t
sau đó bỏ qua một cách xấp xỉ thành
phần bất thường cộng theo mùa.
(iii) Áp dụng trung bình trượt bậc 5 cho mỗi tháng riêng rẽ bằng cách tính
¯
D
(1)
t
=
1
9

¯
D
(1)
t−24
+ 2
¯
D
(1)
t−12
+ 3
¯
D
(1)

t
+ 2
¯
D
(1)
t+12
+
¯
D
(1)
t+24

∼ S
t
.
Công thức trên cho ước lượng của các thành phần theo mùa S
t
. Chú ý
rằng trung bình trượt với trọng số (1, 2, 3, 2, 1) /9 là trung bình trượt
đơn giản có độ dài bằng 3.
(iv)
¯
D
(1)
t
được điều chỉnh bằng cộng xấp xỉ dần về 0 trên bất kỳ chu kỳ
12 tháng bằng cách đặt
ˆ
S
(1)

t
=
¯
D
(1)
t

1
12

1
2
¯
D
(1)
t−6
+
¯
D
(1)
t−5
+ . . . +
¯
D
(1)
t+5
+
1
2
¯

D
(1)
t+6

.
(v) Hiệu Y
(1)
t
= Y
t

ˆ
S
(1)
t
∼ T
t
+ R
t
là chuỗi điều chỉnh theo mùa sơ bộ,
giống như trước đó.
(vi) Dữ liệu điều chỉnh Y
(1)
t
sẽ được làm trơn hơn bởi trung bình trượt
Henderson Y
∗∗
t
bậc 9,13 hoặc 23.
12

(vii) Hiệu D
(2)
t
= Y
t
− Y
∗∗
t
∼ S
t
+ R
t
sau đó loại ước lượng thứ hai của
tổng thành phần theo mùa và thành phần bất thường.
(viii) Trung bình trượt bậc 7 được ứng dụng cho mỗi tháng một cách riêng
biệt
¯
D
(2)
t
=
3

u=−3
a
u
D
(2)
t−12u
,

trong đó trọng số a
u
lấy từ trung bình trượt đơn giản bậc 3 áp dụng
cho trung bình trượt đơn giản bậc 5 của dữ liệu gốc tức là véctơ trọng
số là (1, 2, 3, 3, 3, 2, 1) /15 . Đây chính là ước lượng thứ hai của thành
phần theo mùa S
t
.
(ix) Bước (iv) được lặp đi lặp lại cho ra ước lượng xấp xỉ trung tâm
ˆ
S
(2)
t
của thành phần theo mùa.
(x) Hiệu Y
(2)
t
= Y
t

ˆ
S
(2)
t
cho ta chuỗi điều chỉnh theo mùa.
Tùy thuộc độ dài của trung bình trượt Henderson được sử dụng trong bước
(vi), Y
(2)
t
là trung bình trượt có độ dài 165, 169 hoặc 179 của dữ liệu gốc.

Nhận thấy rằng, điều này dẫn đến việc lấy trung bình tại thời gian t dao
động trước và sau 7 năm là một dạng độ dài đặc trưng của chu kỳ kinh
doanh đã được quan sát trong kinh tế (chu kỳ Juglar). Văn phòng US –
điều tra dân số gần đây đã phát hành một phiên bản mở rộng của chương
trình X – 11 gọi là Census X – 12 – ARIMA. Nó được thực hiện trong
SAS phiên bản 8.1 và cao hơn là PROC X12 (độc giả tham khảo các tài
liệu trực tuyến SAS để biết chi tiết).
1.2.4 Đa thức địa phương phù hợp nhất
Trung bình trượt đơn giản hoạt động tốt trong chuỗi thời gian hầu
tuyến tính địa phương, nhưng nó sẽ gặp phải môt số vấn đề khi làm việc
với tình trạng hình dạng xoắn. Một gợi ý đưa ra là ta nên làm việc với đa
thức địa phương có bậc cao hơn.
Xét 2k + 1 dữ liệu liên tục y
t−k
, . . . , y
t
, y
t+k
từ chuỗi thời gian. Một ước
lượng đa thức địa phương bậc p < 2k + 1 là cực tiểu hóa β
0
, . . . , β
p
thoả mãn
k

u=−k
(y
t+u
− β

0
− β
1
u − . . . − β
p
u
p
)
2
= min. (1.15)
13
Nếu ta lấy đạo hàm vế trái tương ứng với mỗi β
j
và đặt các đạo hàm đó
bằng 0, ta thấy các cực tiểu thoả mãn p + 1 phương trình tuyến tính
β
0
k

u=−k
u
j
+ β
1
k

u=−k
u
j+1
+ . . . + β

p
k

u=−k
u
j+p
=
k

u=−k
u
j
y
t+u
với j = 0, . . . , p. p + 1 phương trình này gọi là phương trình chuẩn tắc
và có thể viết dưới dạng ma trận
X
T

β
β = X
T
y (1.16)
trong đó
X =




1 −k (−k)

2
. . . (−k)
p
1 −k + 1 (−k + 1)
2
. . . (−k + 1)
p
.
.
.
.
.
.
.
.
.
1 k k
2
. . . k
p




(1.17)
là ma trận thiết kế, β
β
β = (β
0
, . . . , β

p
)
T
và y = (y
t−k
, . . . , y
t+k
)
T
.
Hạng của X
T
X bằng hạng của X, vì không gian không của chúng trùng
nhau. Do đó ma trận X
T
X là khả nghịch khi và chỉ khi các cột của X là
độc lập tuyến tính. Tuy nhiên, đa thức bậc p có nhiều nhất p nghiệm phân
biệt. Do đó các phương trình chuẩn tắc (1.16) phải có nghiệm duy nhất
β
β
β =

X
T
X

−1
X
T
y. (1.18)

Dự báo tuyến tính của y
t+u
dựa trên u, u
2
, . . . , u
p

ˆy
t+u
=

1, u, u
2
, . . . , u
p

β
β
β =
p

j=0
β
j
u
j
.
Trường hợp riêng, chọn u = 0 ta có β
0
= ˆy

t
là một dự báo của quan sát
trung tâm y
t
giữa y
t−k
, . . . , y
t+k
. Xấp xỉ đa thức địa phương bao gồm việc
thay thế y
t
bởi điểm giao β
0
.
Mặc dù, dường như nếu đa thức địa phương phù hợp yêu cầu một tính
toán lớn bởi tính β
0
cho mỗi y
t
, nhưng thực ra là tính trung bình trượt.
Ta có thể suy ra từ công thức (1.18)
β
0
=
k

u=−k
c
u
y

t+u
14
với c
u
∈ R không phụ thuộc giá trị y
u
của chuỗi thời gian và do đó
(c
u
) là một lọc tuyến tính. Ta tiếp tục chứng minh rằng
k

u=−k
c
u
= 1. Chọn
y
t+u
= 1 với u = −k, . . . , k. Do đó β
0
= 1, β
1
= . . . = β
p
= 0 là nghiệm
tầm thường của bài toán cực tiểu hoá (1.15). Do nghiệm là duy nhất nên
ta có
1 = β
0
=

k

u=−k
c
u
và do đó, (c
u
) là trung bình trượt, nó có trọng số đối xứng. Ta tổng hợp
các khảo cứu trên trong kết quả sau:
Định lý 1.2.1 Phù hợp địa phương bằng phương pháp bình phương tối
thiểu một đa thức bậc p cho 2k + 1 > p điểm dữ liệu liên tục y
t−k
, . . . , y
t+k
và dự báo y
t
bằng điểm cắt β
0
tính được, dẫn đến trung bình trượt (c
u
) bậc
2k + 1, cho bởi hàng đầu tiên của ma trận

X
T
X

−1
X
T

.
Ví dụ 1.2.2 Phù hợp đa thức địa phương bậc 2 cho 5 điểm dữ liệu liên
tục dẫn đến trung bình trượt
(c
u
) =
1
35
(−3, 12, 17, 12, −3)
T
.
1.2.5 Bộ lọc sai phân
Ta đã thấy là ta có thể loại bỏ thành phần theo chu kỳ mùa ra khỏi
chuỗi thời gian bằng cách sử dụng một bộ lọc tuyến tính thích hợp. Ta
cũng sẽ chỉ ra rằng một hàm xu hướng đa thức có thể được loại bỏ bởi
một bộ lọc tuyến tính phù hợp.
Bổ đề 1.2.3 Cho đa thức f (t) = c
0
+ c
1
t + . . . + c
p
t
p
bậc p, sai phân
∆f (t) = f (t) − f (t − 1)
là đa thức bậc cao nhất p − 1.
Chứng minh. Khẳng định là hệ quả trực tiếp của khai triển nhị thức
(t − 1)
p

=
p

k=0
C
k
p
t
k
(−1)
p−k
= t
p
− pt
p−1
+ . . . + (−1)
p
.
15

Bổ đề chỉ ra rằng sai phân làm giảm bậc của đa thức. Do đó

2
f (t) = ∆f (t) − ∆f (t − 1) = ∆ (∆f (t))
là đa thức bậc không quá p − 2 và

q
f (t) = ∆



q−1
f (t)

, 1 ≤ q ≤ p,
là đa thức bậc không quá p −q. Hàm ∆
p
f (t) là một hằng số. Bộ lọc tuyến
tính
∆Y
t
= Y
t
− Y
t−1
với trọng số a
0
= 1, a
1
= −1 là bộ lọc sai phân bậc một. Bộ lọc được
định nghĩa đệ quy

p
Y
t
= ∆


p−1
Y
t


, t = p, . . . , n,
là bộ lọc sai phân bậc p.
Ví dụ, bộ lọc sai phân cấp 2 với trọng số a
0
= 1, a
1
= −2, a
2
= 1

2
Y
t
= ∆Y
t
− ∆Y
t−1
= Y
t
− Y
t−1
− Y
t−1
+ Y
t−2
= Y
t
− 2Y
t−1

+ Y
t+2
.
Nếu chuỗi thời gian Y
t
có một đa thức xu hướng T
t
=
p

k=0
c
k
t
k
với c
k

các hằng số thì bộ lọc sai phân ∆
p
Y
t
bậc p loại bỏ xu hướng tới hằng số.
Chuỗi thời gian trong kinh tế thường có một hàm xu hướng bị loại bỏ bởi
bộ lọc sai phân cấp 1 hoặc cấp 2.
1.2.6 Làm trơn hàm mũ
Cho Y
0
, . . . , Y
n

là một chuỗi thời gian và cho α ∈ [0; 1] là hằng số. Bộ
lọc tuyến tính
Y

t
= αY
t
+ (1 − α) Y

t−1
, t ≥ 1,
với Y

0
= Y
0
được gọi là làm trơn hàm mũ.
Bổ đề 1.2.4 Làm trơn hàm mũ với hằng số α ∈ [0; 1] , ta có
Y

t
= α
t−1

j=0
(1 − α)
j
Y
t−j
+ (1 − α)

t
Y
0
, t = 1, 2, . . . , n.
16
Chứng minh. Khẳng định sau xuất phát từ phép quy nạp
Với t = 1 thì Y

1
= αY
1
+ (1 − α) Y
0
.
Giả sử khẳng định trên đúng với t, ta thu được với t + 1
Y

t+1
= αY
t+1
+ (1 − α) Y

t
= αY
t+1
+ (1 − α)

α
t−1


j=0
(1 − α)
j
Y
t−j
+ (1 − α)
t
Y
0

= α
t

j=0
(1 − α)
j
Y
t+1−j
+ (1 − α)
t+1
Y
0
.

Tham số α quyết đinh độ trơn của bộ lọc chuỗi thời gian. Giá trị của α
gần đến 1 đặt hầu hết trọng số trên quan sát thực tế hiện tại Y
t
, dẫn đến
một chuỗi các biến động mạnh Y


t
. Mặt khác, α gần tới 0 làm giảm ảnh
hưởng của Y
t
và đặt hầu hết trọng số cho các quan sát trong quá khứ,
cho ra một chuỗi trơn Y

t
. Làm trơn hàm mũ là loại thường được sử dụng
để giám sát hệ thống. Ví dụ, ô tô có đồng hồ đo vận tốc bằng tay. Nó sẽ
thuận tiện hơn cho lái xe nếu chuyển động của tay cầm trơn, điều này có
thể đạt được khi α gần tới 0. Mặt khác, khi thay đổi vận tốc, lái xe cần
một khoảng thời gian nhất định mới đọc được tốc độ.
Hệ quả 1.2.5 (i) Giả sử biến ngẫu nhiên Y
0
, . . . , Y
n
có cùng kỳ vọng µ
và phương sai σ
2
> 0. Khi đó với biến làm trơn hàm mũ, với tham
số làm trơn α ∈ [0; 1], ta có:
E (Y

t
) = α
t−1

j=0
(1 − α)

j
µ + µ(1 − α)
t
= µ

1 − (1 − α)
t

+ µ(1 − α)
t
= µ.
(1.19)
Hơn nữa, nếu Y
t
không tương quan thì
E

(Y

t
− µ)
2

= α
2
t−1

j=0
(1 − α)
2j

σ
2
+ (1 − α)
2t
σ
2
= σ
2
α
2
1 − (1 − α)
2t
1 − (1 − α)
2
+ (1 − α)
2t
σ
2
t→∞
−→
σ
2
α
2 − α
< σ
2
.
(1.20)
17
(ii) Giả sử các biến ngẫu nhiên Y

0
, Y
1
, . . . thoả mãn E (Y
t
) = µ với 0 ≤
t ≤ N − 1 và E (Y
t
) = λ với t ≥ N. Khi đó ta có với t ≥ N:
E (Y

t
) = α
t−N

j=0
(1 − α)
j
λ + α
t−1

j=t−N +1
(1 − α)
j
µ + (1 − α)
t
µ
= λ

1 − (1 − α)

t−N+1

+
µ

(1 − α)
t−N+1

1 − (1 − α)
N−1

+ (1 − α)
t

t→∞
−→ λ.
(1.21)
Kết quả này đánh giá ảnh hưởng của tham số α lên kỳ vọng và phương sai
tức là sự trơn của chuỗi đã lọc Y

t
; trong đó ta giả thiết với mục đích tính
toán đơn giản của phương sai là Y
t
không tương quan. Nếu các biến Y
t

cùng kỳ vọng µ thì các kỳ vọng Y

t

này chuyển lên. Tuy nhiên sau thay
đổi điểm N , trong đó kỳ vọng của Y
t
thay đổi với t ≥ N từ µ sang λ = µ,
các biên bị lọc Y

t
bị chệch. Sự chệch này sẽ biến mất khi t tăng, là do ảnh
hưởng vẫn có sẵn của các quan sát trong quá khứ Y
t
,t < N. Ảnh hưởng
của những biến này lên kỳ vọng hiện thời có thể được giảm bớt bằng cách
chuyển sang giá trị lớn hơn của α. Tuy nhiên, cái giá cho việc sửa đúng kỳ
vọng là sự biến đổi nhiều hơn của Y

t
.
Làm trơn hàm mũ thường được sử dụng để dự báo, cụ thể bằng cách dự
đoán Y
t+1
thông qua Y

t+1
. Sai số dự báo Y
t+1
−Y

t
= e
t+1

thoả mãn phương
trình Y

t+1
= αe
t+1
+ Y

t
. Sự trình bày của phương pháp làm trơn hàm mũ
cũng có thể thông qua phương pháp bình phương tối thiểu.
1.3 Tự hiệp phương sai và tự tương quan
Tự hiệp phương sai và tự tương quan là thước đo sự phụ thuộc giữa các
biến trong chuỗi thời gian. Giả sử Y
1
, . . . , Y
n
là các biến ngẫu nhiên bình
phương khả tích với tính chất hiệp phương sai
Cov (Y
t+k
, Y
t
) = E ((Y
t+k
− E (Y
t+k
)) (Y
t
− E (Y

t
)))
của các quan sát với độ trễ k không phụ thuộc vào t. Khi đó
γ (k) = Cov (Y
k+1
, Y
1
) = Cov (Y
k+2
, Y
2
) = . . .
được gọi là hàm tự hiệp phương sai và
ρ (k) =
γ (k)
γ (0)
, k = 0, 1, . . .
18
được gọi là hàm tự tương quan.
Cho y
1
, . . . , y
n
là các giá trị của chuỗi thời gian Y
1
, . . . , Y
n
. Biểu thức thực
nghiệm của hàm tự hiệp phương sai là
c (k) =

1
n
n−k

t=1
(y
t+k
− ¯y) (y
t
− ¯y) với ¯y =
1
n
n

t=1
y
t
và tự tương quan thực nghiệm được xác định bởi
r (k) =
c (k)
c (0)
=
n−k

t=1
(y
t+k
− ¯y) (y
t
− ¯y)

n

t=1
(y
t
− ¯y)
2
.
Đồ thị của hàm r (k) , k = 0, 1, . . . , n−1 được gọi là biểu đồ tương quan.
Nó dựa trên giả thiết các kỳ vọng bằng nhau và thường được sử dụng cho
chuỗi điều chỉnh xu hướng. Hàm tự hiệp phương sai γ thoả mãn γ (0) ≥ 0
và bất đẳng thức Cauchy – Schwarz
|γ (k)| = |E (Y
t+k
− E (Y
t+k
)) (Y
t
− E (Y
t
))|
≤ E (|Y
t+k
− E (Y
t+k
)||Y
t
− E (Y
t
)|)

≤ V ar(Y
t+k
)
1
2
V ar(Y
t
)
1
2
= γ (0) với k ≥ 0.
Do đó với hàm tự tương quan ta có bất đẳng thức
|ρ (k)| ≤ 1 = ρ (0) .
19
Chương 2
Mô hình chuỗi thời gian
Mỗi một chuỗi thời gian Y
1
, . . . , Y
n
có thể được xem như là một hình
thức cắt từ một dãy các biến ngẫu nhiên . . . , Y
−2
, Y
−1
, Y
0
, Y
1
, Y

2
, . . Sau
đây, ta sẽ giới thiệu một vài mô hình cho quá trình ngẫu nhiên Y
t
như thế
với chỉ số nguyên Z.
2.1 Bộ lọc tuyến tính và quá trình ngẫu nhiên
Để thuận tiện, ta sẽ nghiên cứu biến ngẫu nhiên nhận giá trị phức
Y , đó là những biến ngẫu nhiên nhận giá trị trong tập số phức
C = {u + iv : u, v ∈R}, trong đó i =

−1. Do đó, ta có thể phân tích
Y thành Y = Y
(1)
+ iY
(2)
, trong đó Y
(1)
= Re (Y ) là phần thực của Y
và Y
(2)
= Im (Y ) là phần ảo. Biến ngẫu nhiên Y được gọi là khả tích
nếu các biến ngẫu nhiên thực Y
(1)
, Y
(2)
cùng có kỳ vọng hữu hạn, và trong
trường hợp này ta xác định kỳ vọng của Y bởi
E (Y ) = E


Y
(1)

+ iE

Y
(2)

∈ C.
Kỳ vọng này có tính đơn điệu và có tính chất quen thuộc sau
E (aY + bZ) = aE (Y ) + bE (Z) ,
ở đây a và b là các số phức và Z là biến ngẫu nhiên nhận giá trị phức khả
tích. Thêm vào đó, ta có
E (Y ) = E

¯
Y

trong đó ¯a = u − iv là số phức
liên hợp của a = u + iv. Vì |a|
2
= u
2
+ v
2
= a¯a = ¯aa ta xác định phương
sai của Y bởi
Var (Y ) = E

(Y − E (Y ))


Y − E (Y )

≥ 0.
Biến ngẫu nhiên nhận giá trị phức Y được gọi là bình phương khả tích
nếu Var (Y ) là hữu hạn. Để thực hiện phương trình Var (X) = Cov (X, X)
20
cho biến thực ngẫu nhiên X trên miền phức, ta xác định hiệp phương sai
của các biến phức ngẫu nhiên bình phương khả tích Y, Z bởi
Cov (Y, Z) = E

(Y − E (Y ))

Z − E (Z)

.
Chú ý rằng hiệp phương sai Cov (Y, Z) không còn đối xứng đối với Y và
Z như trường hợp hai biến này nhận giá trị thực, nhưng nó thoả mãn tính
chất
Cov (Y, Z) = Cov (Z, Y ).
Bổ đề sau đây kéo theo bất đẳng thức Cauchy – Schawarz đối với biến
phức ngẫu nhiên
Bổ đề 2.1.1 Với mọi biến phức ngẫu nhiên khả tích Y = Y
(1)
+ iY
(2)
, ta
có:
|E (Y )| ≤ E (|Y |) ≤ E




Y
(1)


+ E



Y
(2)



.
Chứng minh. Ta viết E (Y ) trong tọa độ cực E (Y ) = re

, trong đó
r = |E (Y )| và ϑ ∈ [0; 2π). Chú ý rằng:
Re

e
−iϑ
Y

= Re

(cos (ϑ) − isin (ϑ))


Y
(1)
+ iY
(2)

= cos (ϑ) Y
(1)
+ sin (ϑ) Y
(2)


cos
2
(ϑ) + sin
2
(ϑ)

1
2

Y
2
(1)
+ Y
2
(2)

1
2
= |Y |

bằng cách áp dụng bất đẳng thức Cauchy – Schwarz cho số thực. Do đó
ta có:
|E (Y )| = r = E

e
−iϑ
Y

= E

Re

e
−iϑ
Y

≤ E (|Y |) .
Bất đẳng thức thứ hai suy từ |Y | =

Y
2
(1)
+ Y
2
(2)

1
2




Y
(1)
+ Y
(2)


. 
Kết quả tiếp theo là hệ quả của bổ đề trên và bất đẳng thức Cauchy –
Schwarz đối với biến thực ngẫu nhiên.
Hệ quả 2.1.2 Với mọi biến phức ngẫu nhiên bình phương khả tích ta có
|E (Y Z)| ≤ E (|Y ||Z|) ≤ E

|Y |
2

1
2
E

|Z|
2

1
2
và do đó
|Cov (Y, Z)| ≤ Var (Y )
1
2
Var (Z)

1
2
.
21

×