Tải bản đầy đủ (.pdf) (11 trang)

Các tiêu chuẩn lựa chọn mô hình chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (183.02 KB, 11 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
------------------

TRẦN VĂN TUÂN

CÁC TIÊU CHUẨN LỰA CHỌN
MÔ HÌNH CHUỖI THỜI GIAN
Chuyên ngành: Lí thuyết xác suất và thống kê Toán học
Mã số: 60 46 01 06

LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN MẠNH CƯỜNG

HÀ NỘI - 2015


Mục lục
Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Chương 1.
Giới thiệu một số chuỗi thời gian dừng . . . . . . . . . . . . . . . .
1.1

Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . .

6


1.1.1

Quá trình cấp 2 . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.1.2

Hàm trung bình, hàm tự hiệp phương sai và hàm tự tương

1.1.3
1.2

6

quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Quá trình dừng . . . . . . . . . . . . . . . . . . . . . . . . .

7

Một số quá trình dừng quan trọng . . . . . . . . . . . . . . . . . . 10
1.2.1

Quá trình trung bình trượt cấp 1 . . . . . . . . . . . . . . . 10

1.2.2


Quá trình trung bình trượt cấp q . . . . . . . . . . . . . . . 11

1.2.3

Quá trình trung bình trượt cấp vô hạn . . . . . . . . . . . 12

1.2.4

Quá trình tự hồi quy cấp 1 . . . . . . . . . . . . . . . . . . 14

1.2.5

Quá trình tự hồi quy cấp 2 . . . . . . . . . . . . . . . . . . 17

1.2.6

Quá trình tự hồi quy cấp p . . . . . . . . . . . . . . . . . . 20

1.2.7

Quá trình hỗn hợp ARMA(p,q) . . . . . . . . . . . . . . . . 21

Chương 2.
Một số tiêu chuẩn lựa chọn mô hình . . . . . . . . . . . . . . . . .
2.1

24

Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1


Khoảng cách Kullback - Leibler . . . . . . . . . . . . . . . . 24

2.1.2

Ước lượng hợp lý cực đại và khoảng cách Kullback - Leibler 26
1


2.2

2.3

2.1.3

Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.1.4

AIC và khoảng cách Kullback - Leibler . . . . . . . . . . . 34

Tiêu chuẩn thông tin Bayesian (BIC) . . . . . . . . . . . . . . . . . 40
2.2.1

Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . . 40

2.2.2

Định ngĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . . . 42


Xác định bậc của mô hình ARMA bằng ACF và PACF . . . . . . 47
2.3.1

AFC: Hàm tự tương quan . . . . . . . . . . . . . . . . . . . 47

2.3.2

PACF: Hàm tự tương quan riêng . . . . . . . . . . . . . . . 49

Chương 3.
Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.1

Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2

Phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3

Code R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63



Lời nói đầu
Lựa chọn mô hình (Model selection) là bài toán cơ bản của thống kê cũng
như nhiều nghành khoa học khác. Theo R.A. Fisher có 3 bài toán chính trong
thống kê suy luận và dự báo gồm
- Xác định mô hình (model specification)
- Ước lượng tham số (estimation of model parameters)
- Dự báo (prediction)
Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán
sau với giả thiết mô hình đã biết. Sau khi xuất hiện công trình của Akaike (1973)
thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cồng đồng làm
thống kê.
Với một bộ dữ liệu đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi
trên, người ta đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp
như tiêu chuẩn thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian
(BIC),... Việc lựa chọn mô hình phù hợp là trung tâm cho tất cả các công tác
thông kê với dữ liệu. Lựa chọn các biến để sử dụng trong mô hình hồi quy là
một trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn
thông tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông
tin của Bayesian. Luận văn gồm ba chương
Chương 1. Giới thiệu một số chuỗi thời gian dừng
Chương này trình bày một số khái niệm cơ bản: quá trình cấp 2, hàm trung
bình và hàm tự hiệp phương sai của một quá trình ngẫu nhiên, quá trình dừng

3


và một số quá trình dừng quan trọng như: quá trình trung bình trượt cấp 1,
cấp q, cấp vô hạn; quá trình tự hồi quy cấp 1, cấp2, cấp p, quá trình hỗn hợp
ARMA(p,q).

Chương 2. Một số tiêu chuẩn lựa chọn mô hình
Chương này trình bày khái niệm khoảng cách Kullback - Leibler, mối liên hệ
giữa ước lượng hợp lý cực đại và khoảng cách Kullback - leibler, định nghĩa
AIC, mối liên hệ giữa AIC và khoảng cách Kullback - Leibler, nguồn gốc và
định nghĩa BIC.
Chương 3. Ứng dụng
Chương này trình bày về ứng dụng phần mềm thống kê R để vẽ đồ thị của các
hàm tự tương quan và tự tương quan riêng trong mô hình liên quan đến dữ liệu
về tổng thu nhập quốc dân ở Mỹ từ quý 1 năm 1947 đến quý 3 năm 2002 (được
lấy ở website louisfed.org/), xác định AIC và BIC trong các
mô hình ARMA(i,j) với i, j = 0, 1, 2, 3.
Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những
thiếu sót, tác giả mong nhận được nhiều ý kiến đóng góp từ các thầy cô giáo và
bạn đọc để luận văn được hoàn chỉnh hơn.

4


LỜI CẢM ƠN
Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, trường Đại học Khoa
học Tự Nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh Cường,
tôi đã hoàn thành luận văn thạc sỹ với đề tài ”Một số tiêu chuẩn lựa chọn mô
hình”.
Trong suốt quá trình học tập và triển khai nghiên cứu đề tài, tôi đã nhận
được rất nhiều sự giúp đỡ của các thầy, cô trong bộ môn Xác suất thống kê, các
thầy cô trong khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự Nhiên,
Đại học Quốc gia Hà Nội, đặc biệt là thầy Trần Mạnh Cường.
Tôi bày tỏ lòng biết ơn chân thành và sâu sắc đến thầy Trần Mạnh Cường,
người đã tận tình chỉ bảo và giúp đỡ tôi rất nhiều trong quá trình nghiên cứu
và làm đề tài. Tôi gửi lời cảm ơn đến ban giám hiệu, phòng sau đại học, các

thầy cô trong khoa Toán - Cơ - Tin học nói chung và các thầy, cô trong bộ môn
Xác suất thống kê nói riêng đã tạo những điều kiện thuận lợi nhất để tôi có thể
hoàn thành luận văn này.

5


Chương 1

Giới thiệu một số chuỗi
thời gian dừng
1.1
1.1.1

Các khái niệm cơ bản
Quá trình cấp 2

Giả xử X (t), t ∈ T là một quá trình ngẫu nhiên. Quá trình X (t), t ∈ T được
gọi là một quá trình cấp 2 nếu:
E|X (t)|2 < ∞, ∀t ∈ T.

1.1.2

Hàm trung bình, hàm tự hiệp phương sai và hàm
tự tương quan

Giả xử X (t), t ∈ T là một quá trình ngẫu nhiên.
Hàm trung bình, kí hiệu là m(t) được định nghĩa bởi công thức sau
m(t) = EX (t).


6


Hàm tự hiệp phương sai, kí hiệu là r(s, t) được định nghĩa bởi công thức sau
r(s, t) = cov (X (s), X (t)) = E (X (s) − m(s))(X (t) − m(t))

= EX (s)X (t) − m(s)m(t).
Vì V arX (t) = cov (X (t), X (t)) nên V arX (t) = r(t, t).

1.1.3

Quá trình dừng

Định nghĩa 1.1.1 Giả sử X (t), t ∈ R là một quá trình cấp 2.
X (t) được gọi là một quá trình dừng (yếu) nếu hàm trung bình m(t) là hằng số

(không phụ thuộc vào t) và hàm tự hiệp phương sai r(s, t) chỉ phụ thuộc vào s − t.
Như vậy X (t), t ∈ T là quá trình dừng khi và chỉ khi:
a) m(t) = m = const
b) Tồn tại hàm γ (t) sao cho r(s, t) = γ (s − t), ∀s, t ∈ R.
(hàm γ (t) được gọi là hàm tự hiệp phương sai của quá trình dừng)
Định nghĩa 1.1.2 Giả sử X (t), t ∈ R là một quá trình dừng với hàm tự hiệp
phương sai γ (t). Hàm tự tương quan của quá trình X (t) được định nghĩa bởi
γ (h)
ρ(h) =
.
γ (0)
Định nghĩa 1.1.3 Quá trình X (t), t ∈ R được gọi là quá trình dừng mạnh nếu
với mọi ∀h ∈ R và với mọi t1 < t2 < ... < tn , phân phối đồng thời của
{X (t1 + h), X (t2 + h), ..., X (tn + h)}


và của {X (t1 ), X (t2 ), ..., X (tn )} là như nhau.
Nhận xét: một quá trình dừng mạnh có moment cấp 2 là quá trình dừng yếu.
Điều ngược lại nói chung không đúng.
Nếu một quá trình dừng yếu là quá trình Gauss thì nó sẽ là quá trình dừng
mạnh bởi phân phối hữu hạn chiều của quá trình Gauss hoàn toàn được xác
định bởi hàm trung bình và hàm tự hiệp phương sai.
7


Ví dụ: Giả sử U và V là hai đại lượng ngẫu nhiên không tương quan với EU =
EV = 0, EU 2 = EV 2 = σ 2 . Với λ là một số thực, xét quá trình
X (t) = U cos λt + V sin λt.

Ta có: m(t) = cos λt.EU + sin λt.EV = 0
r(s, t) = EX (s)X (t)

= E [(U cos λs + V sin λs)(U cos λt + V sin λt)]
= E [U 2 cos λs. cos λt + V 2 sin λs. sin λt
+ U V cos λs. sin λt + U V sin λs. cos λt]
= σ 2 (cos λs. cos λt + sin λs. sin λt) = σ 2 . cos λ(t − s).
Vậy X (t) là quá trình dừng với hàm tự hiệp phương sai γ (t) = σ 2 . cos λt.
Ví dụ: Tổng quát hơn, giả sử U1 , U2 , ..., Un và V1 , V2 , ..., Vn là các đại lượng ngẫu
nhiên có
EUk = EVk = 0, EUk2 = EVk2 = σk2 ,
EUi Uk = 0 (i = k ), EVi Vk = 0 (i = k ), EUi Vj = 0.

Xét quá trình

n


X (t) =

(Uk . cos λk t + Vk . sin λk t).
k=1

trong đó λ1 , λ2 , ..., λn là các hằng số thực.Tương tự như ví dụ 1.1 ta chứng minh
được X (t) là quá trình dừng với
n

σk2 . cos λk t.

m(t) = EX (t) = 0, γ (t) =
k=1

Ví dụ: Giả sử N (t), t ≥ 0 là quá trình Poisson với cường độ λ > 0 và L > 0 là
một hằng số. Ta xét quá trình sau
X (t) = N (t + L) − N (t)

8


Như vậy, nếu N (t) là số biến cố xẩy ra trong khoảng thời gian (0, t) thì X (t) là
số biến cố xẩy ra trong khoảng thời gian có độ dài L tính từ thời điểm t.
Ta có:
m(t) = EX (t) = E [N (t + L) − N (t)] = (t + L)λ − tλ = λL = const.

Bây giờ ta tính hàm tự hiệp phương sai r(s, t) = cov (X (s), X (t)) của X (t).
Ta có thể giả thiết 0 ≤ s ≤ t và phân biệt hai trường hợp:
a) t > s + L: Trong trường hợp này hai khoảng (s, s + L) và (t, t + L) là rời nhau,

do đó N (s + L) − N (s) và N (t + L) − N (t) là độc lập, do vậy không tương quan,
tức là r(s, t) = 0.
b) s ≤ t ≤ s + L: Trong trường hợp này ta có
r(s, t) = cov [N (s + L) − N (s), N (t + L) − N (t)]

= cov [N (s + L) − N (t) + N (t) − N (s), N (t + L) − N (t)]
= cov [N (s + L) − N (t), N (t + L) − N (t)]
(vì N (t) − N (s) và N (t + L) − N (t) là độc lập)
Lại có
cov [N (s + L) − N (t), N (t + L) − N (t)] =

= cov [N (s + L) − N (t), N (t + L) − N (s + L) + N (s + L) − N (t)]
= cov [N (s + L) − N (t), N (s + L) − N (t)] = V ar[N (s + L) − N (t)]
(vì N (s + L) − N (t) và N (t + L) − N (s + L) là độc lập)
Vì thế r(s, t) = V ar[N (s + L) − N (t)] = λ(s + L − t) = λ[L − (t − s)].
Tương tự với 0 ≤ t ≤ s và do tính đối xứng, cuối cùng ta được

r(s, t) =



λ(L − |t − s|) nếu |t − s| ≤ L

0

nếu |t − s| > L

Vậy X (t) là một quá trình dừng với hàm tự hiệp phương sai



λ(L − |t|) nếu |t| ≤ L
γ (t) =

0
nếu |t| > L
9


Tài liệu tham khảo
[1] Đào Hữu Hồ, Thống Kê Toán Học, Nhà xuất bản Đại học Quốc Gia Hà
Nội, 2004.
[2] Đặng Hùng Thắng, Mở đầu về lý thuyết xác suất và các ứng dụng, Nhà xuất
bản Giáo dục, 2005.
[3] Đặng Hùng Thắng, Các mô hình xác suất và ứng dụng, phần II, Nhà xuất
bản Đại học Quốc Gia Hà Nội, 2001.
[4] Đặng Hùng Thắng, Xác suất nâng cao, Nhà xuất bản Đại học Quốc gia Hà
Nội, 2013.
[5] Nguyễn Văn Hữu - Nguyễn Hữu Dư, Phân tích thống kê và dự báo, Nhà
xuất bản Đại học Quốc Gia Hà Nội.
[6] Allan D R McQuarrie Chinh-Ling Tsai, Regession and Time Series Model
Selection, World Scientific.
[7] Cambridge Series in statistical and Probabilistic, Model Selection and Model
Averaging
[8] Genshiro Kitagama, Introduction to Time Series Modeling

63




×