Tải bản đầy đủ (.docx) (119 trang)

Phát hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian luận văn ths công nghệ thông tin 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 119 trang )

PHÁT HIỆN TRI THỨC THEO MÙA VỤ
TỪ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN

Học viên: Trần Văn Thái – K10T2
Người hướng dẫn: TS Đỗ Văn Thành


Mục lục.
MỞ ĐẦU............................................................................................................ 1
CHƢƠNG 1. CHUỖI THỜI GIAN VÀ PHÂN TÍCH CHUỖI THỜI GIAN.....4
1.1. Chuỗi thời gian và dự báo chuỗi thời gian............................................... 5
1.1.1.Định nghĩa chuỗi thời gian................................................................. 5
1.1.2.Dự báo chuỗi thời gian....................................................................... 6
1.2. Ứng dụng chuỗi thời gian........................................................................ 6
1.3. Đại lƣợng đặc trƣng của chuỗi thời gian................................................. 7
1.4. Phân tích chuỗi thời gian....................................................................... 11
1.5. Các mô hình chuỗi thời gian đơn giản.................................................. 13
1.5.1. Nhiễu trắng .................................................................................. 13
1.5.2.Mô hình bƣớc ngẫu nhiên

.......................................................... 13

1.5.3.Bƣớc ngẫu nhiên có bụi................................................................... 14
1.6. Một số phƣơng pháp kiểm định thống kê.............................................. 14
1.6.1.Kiểm định T..................................................................................... 15
1.6.2.Kiểm định F..................................................................................... 15
1.6.3.Kiểm định Q.................................................................................... 16
1.6.4.Kiểm định Durbin-Watson ........................................................... 16
1.6.5.Kiểm định nghiệm đơn vị

............................................................ 18



1.6.6.Tiêu chuẩn thông tin Akaike (AIC), Schwarz (SIC)

....................19

1.7. Kết luận................................................................................................. 20
CHƢƠNG 2. MÔ HÌNH ARIMA THƢỜNG VÀ THEO MÙA VỤ...............21
2.1. Mô hình ARIMA thƣờng....................................................................... 21


2.1.1.Toán tử trễ

......................................................................................................... 21

2.1.2.Chuỗi thời gian dừng....................................................................... 22
2.1.3.Quá trình tuyến tính......................................................................... 26
2.1.4.Quá trình tự hồi qui - AR(p)............................................................. 26
2.1.5.Quá trình trung bình trƣợt – MA(q)................................................ 31
2.1.6. Quá trình trung bình trƣợt tự hồi qui ARMA(p,q)..........................34
2.1.7.Mô hình tích hợp trung bình trƣợt tự hồi qui ARIMA(p,d,q)..........36
2.1.8.Qui trình xây dựng mô hình ARIMA (p, d, q).................................. 38
2.1.9.Nguyên tắc tằn tiện.......................................................................... 48
2.2. Mô hình ARIMA theo mùa vụ............................................................... 48
2.2.1.Chuỗi mùa vụ................................................................................... 48
2.2.2.Biến đổi chuỗi mùa vụ thành chuỗi dừng......................................... 50
2.2.3.Mô hình tích hợp trung bình trƣợt tự hồi qui theo mùa vụ
ARIMA(p,d,q)x(P,D,Q)s.................................................................................. 51
2.3. Kết luận................................................................................................. 55
CHƢƠNG 3. ỨNG DỤNG MÔ HÌNH ARIMA THEO MÙA VỤ..................57
KẾT LUẬN...................................................................................................... 82

TÀI LIỆU THAM KHẢO................................................................................ 85
PHỤ LỤC......................................................................................................... 88


Danh sách hình vẽ.
Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng.................6
Hình 3 – Đồ thị chuỗi dừng về chỉ số giá tiêu dùng Việt Nam.................................22
Hình 4 - ACF/PACF của chuỗi không dừng về chỉ số giá tiêu dùng Việt Nam........23
Hình 5 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau khi sai phân bậc 1................24
Hình 6 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau sai phân bậc 1 và sai phân trễ
mùa vụ bậc 1........................................................................................................... 25
Hình 7 - Chuỗi biến đổi chỉ số giá tiêu dùng Việt Nam qua hàm biến đổi...............25
Hình 8 - Mô hình lọc tuyến tính............................................................................... 26
Hình 7 - Các bước xây dựng mô hình ARIMA......................................................... 38

Danh sách bảng biểu.
Bảng 1: Đặc trưng ACF và PACF trong các mô hình tham số................................35


Bảng từ viết tắt.
Từ hoặc cụm từ
Hàm tự tƣơng quan
Kiểm định DF
Tiêu chuẩn thông tin AIC/SIC
Sai số phần trăm tuyệt đối
Tự hồi qui
Tích hợp trung bình trƣợt tự hồi qui

Trung bình trƣợt tự hồi qui
Kiểm định DW

Phân phối đồng nhất độc lập
Trung bình trƣợt
Sai số tuyệt đối trung bình
Sai số bình phƣơng trung bình
Hàm tự tƣơng quan từng phần
Tự hồi qui theo mùa vụ
Tích hợp trung bình trƣợt tự hồi qui
theo mùa vụ
Trung bình trƣợt theo mùa vụ
Tổng bình phƣơng sai số
Nhiễu trắng


-1-

MỞ ĐẦU
Nền kinh tế hiện đại ngày càng dựa trên yếu tố thông tin. Điều đó làm biến
đổi sâu sắc đến môi trƣờng kinh doanh, phƣơng thức quản lý kinh tế và cách
thức tổ chức các hoạt động sản xuất kinh doanh. Đặc biệt là đối với nƣớc ta đang
trong quá trình chuyển đổi từ nền kinh tế tập trung quan liêu bao cấp sang xây
dựng nền kinh tế thị trƣờng trong bối cảnh hội nhập và cạnh tranh quốc tế gay
gắt, hoạt động quản lý nhà nƣớc cũng đang chuyển mạnh từ phƣơng thức quản
lý theo mệnh lệnh sang sử dụng các công cụ cơ chế chính sách thì vai trò của
thông tin, nhất là thông tin dự báo phục vụ phát triển kinh tế - xã hội càng trở lên
cấp thiết và quan trọng. Vì thế, cách thức thu thập, phân tích và sử dụng các
thông tin, dữ liệu phục vụ cho quá trình đó cũng chịu sự biến đổi mạnh mẽ.

Hiện tại, với việc ứng dụng rộng rãi công nghệ thông tin, một số luợng
lớn thông tin và dữ liệu đƣợc thu thập bằng nhiều cách thức khác nhau trong
môi trƣờng trực tuyến, thời gian thực…đã tạo ra một khối lƣợng thông tin, dữ

liệu khổng lồ. Trong đó những dữ liệu có yếu tố thời gian có thể đƣợc kết hợp
lại tùy theo đặc tính trong khoảng thời gian thích hợp cũng đã tạo ra một số
lƣợng rất lớn các chuỗi dữ liệu trong các khoảng thời gian nhƣ nhau đƣợc
gọi là dữ liệu chuỗi thời gian (series time data, gọi tắt là chuỗi thời gian).
Nhƣ đã biết, phần lớn các dữ liệu phản ánh hoạt động sản xuất kinh doanh
của doanh nghiệp, phản ánh tình hình phát triển kinh tế - xã hội của một quốc gia
đều là chuỗi thời gian và do vậy phần lớn các cơ sở dữ liệu về kinh tế - xã hội
cũng là cơ sở dữ liệu chuỗi thời gian (series time database). Việc phân tích nhằm
phát hiện tri thức mới từ các cơ sở dữ liệu chuỗi thời gian thƣờng đƣợc dựa trên
các phƣơng pháp phân tích chuỗi thời gian hiện đại thông qua sử dụng các công
cụ tin học nhƣ: EViews, SPSS, SAS (Statistical Analysis System)…
Một đặc trƣng rất quan trọng của chuỗi thời gian về kinh tế - xã hội là có
tính mùa vụ, chẳng hạn giá cả và số lƣợng bán ra của một mặt hàng nào đó ví dụ
nhƣ máy điều hòa nhiệt, hoặc là chỉ số giá tiêu dùng của các mặt hàng nói chung
là khác nhau tại mỗi tháng trong năm, hay tình hình đầu tƣ của nƣớc ngoài vào


-2-

Việt Nam, kim ngạch xuất khẩu của Việt Nam tại các tháng hoặc quý khác
nhau trong năm cũng thƣờng rất khác nhau… Làm cách nào để có thể phát
hiện đƣợc tri thức mới, dự báo đƣợc dữ liệu tƣơng lai dựa trên dữ liệu hiện
tại và quá khứ trong các cơ sở dữ liệu chuỗi thời gian có tính mùa vụ nhƣ vậy.
Luận văn ”phát hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian” sẽ
góp phần làm rõ phƣơng pháp giải quyết vấn đề đƣợc đặt này.
Luận văn gồm 3 chƣơng nội dung, phần mở đầu, phần kết luận, phần phụ
lục và tài liệu tham khảo.
Chương 1: Chuỗi thời gian và phân tích chuỗi thời gian sẽ giới thiệu một
cách tóm tắt những khái niệm chủ yếu liên quan đến chuỗi thời gian và các
bƣớc tiến hành phân tích và dự báo chuỗi thời gian, giới thiệu một số mô hình

chuỗi thời gian đơn giản và kiểm định thống kê sử dụng cho phân tích chuỗi
thời gian trong dự báo dữ liệu.
Chương 2: Mô hình ARIMA thường và theo mùa vụ sẽ trình bày mô hình
phân tích chuỗi thời gian điển hình nhất để dự báo dữ liệu cho cả 2 trƣờng
hợp dữ liệu chuỗi thời gian có và không có tính chất mùa vụ, tƣơng ứng đó là
mô hình ARIMA theo mùa vụ và mô hình ARIMA thƣờng.
Chương 3. Ứng dụng mô hình ARIMA theo mùa vụ. Mục đích của
chƣơng này là ứng dụng mô hình ARIMA theo mùa vụ để dự báo một số chỉ
số kinh tế vĩ mô quan trọng phản ánh mức độ tăng trƣởng kinh tế Việt Nam
nhƣ dự báo chỉ số giá tiêu dùng theo tháng (CPI), giá trị hàng hóa xuất khẩu
theo tháng. Dữ liệu đƣợc sử dụng để dự báo là số liệu thực tế của nền kinh tế.
Phần kết luận sẽ tổng kết những công việc đã thực hiện và kết quả đạt
đƣợc trong luận văn này, phần này cũng đề cập công việc và hƣớng nghiên
cứu trong tƣơng lai.

Tác giả luận văn này xin gửi lời cảm ơn sâu sắc nhất đến TS. Đỗ Văn Thành,
Trung tâm thông tin và dự báo Kinh tế - Xã hội Quốc gia - Bộ kế hoạch và đầu


-3-

tƣ, ngƣời đã hƣớng dẫn tận tình và giúp đỡ tôi rất nhiều trong quá trình thực
hiện luận văn này, ngƣời đã mở ra cho tôi những cách tiếp cận mới của công
nghệ thông tin vào trong đời sống thực tế.
Xin bày tỏ lời cảm ơn tới các thầy TS. Hà Quang Thụy, GS-TSKH. Phan Đình
Diệu, PGS-TS. Trịnh Nhật Tiến, PGS-TS. Đoàn Văn Ban, TS. Nguyễn Việt Hà, TS.
Hoàng Xuân Huấn, PGS-TS. Nguyễn Văn Bình,TS. Đinh Mạnh Tƣờng,

... những ngƣời đã truyền cho tác giả nhiều kiến thức và kinh nghiệm quý báu
trong thời gian tác giả theo học cao học tại Trƣờng Đại học Công nghệ.

Cuối cùng, xin gửi lời cảm ơn chân thành đến các cán bộ thuộc Tổng cục
Thống kê Việt Nam, những ngƣời đã giúp đỡ nhiệt tình trong việc cung cấp
số liệu đầy đủ, trung thực phục vụ cho cuốn luận văn này và cũng xin gửi lời
cám ơn tới tất cả ngƣời thân trong gia đình, bạn bè đã giúp đỡ trong quá trình
học tập và công tác.
Tác giả

Trần Văn Thái


-4-

CHƢƠNG 1.
CHUỖI THỜI GIAN
VÀ PHÂN TÍCH CHUỖI THỜI GIAN.
Để phân tích biến động, hành vi của hiện tƣợng qua thời gian, ngƣời ta
thƣờng dùng phƣơng pháp phân tích chuỗi các quan sát theo thời gian. Trong
phƣơng pháp này thƣờng giả định các giá trị quan sát không độc lập với nhau,
ngƣợc lại chính sự phụ thuộc giữa các giá trị quan sát là đặc điểm, cơ sở cho
việc xây dựng các phƣơng pháp nghiên cứu và dự báo về chuỗi thời gian. Phân
tích chuỗi thời gian có thể đƣợc chia làm hai loại: Phân tích các mức độ theo
thời gian và phân tích mối liên hệ nguyên nhân – kết quả. Phƣơng pháp dự báo
bằng phân tích mức độ theo thời gian liên quan đến việc dự báo các giá trị tƣơng
lai của yếu tố đƣợc nghiên cứu dựa trên sự tƣơng quan với các quan sát trong
quá khứ và hiện tại. Trong khi đó phân tích mối liên hệ nhân quả liên quan đến
việc xác định các nhân tố khác ảnh hƣởng đến yếu tố muốn dự báo, nhƣ dùng
phƣơng pháp phân tích hồi qui bội xem xét GDP phụ thuộc vào lƣợng đầu tƣ
trong nƣớc, lƣợng đầu tƣ nƣớc ngoài, dân số…

Trong luận văn này, chỉ tập trung chủ yếu vào phân tích mức độ theo thời

gian đƣợc dựa trên giả định cơ bản là các yếu tố ảnh hƣởng đến biến động
của hiện tƣợng trong quá khứ và hiện tại sẽ còn tiếp tục tồn tại trong tƣơng
lai. Do đó mục tiêu chính của phân tích chuỗi thời gian là nhận ra các yếu tố
ảnh hƣởng này, phục vụ cho mục đích đƣa ra dự báo giá trị tƣơng lai của
chuỗi và dựa vào đó để hỗ trợ trong việc đƣa ra các quyết định.
Trong chƣơng này chủ yếu trình bày các vấn đề liên quan đến chuỗi thời
gian bao gồm khái niệm, dự báo cho chuỗi thời gian và các đại lƣợng đặc trƣng
của nó, tiếp đó trình bày về các mô hình chuỗi thời gian đơn giản và cuối cùng là
đƣa ra một số phƣơng pháp kiểm định thống kê cho mô hình chuỗi thời gian.


-5-

1.1. Chuỗi thời gian và dự báo chuỗi thời gian.
1.1.1.Định nghĩa chuỗi thời gian.
Chuỗi dữ liệu phụ thuộc thời gian đƣợc chia làm hai loại:
Chuỗi dữ liệu phụ thuộc thời gian đƣợc quan sát, đo đạc trong khoảng
thời gian rời rạc: Các quan sát đƣợc thực hiện tại các thời điểm tách biệt,
chúng thƣờng là các quan sát đƣợc đo tại các mốc thời gian cách đều nhau, ví
dụ chuỗi thời gian đƣợc đo theo tuần, quý, tháng, năm, ….
-

Chuỗi dữ liệu liên tục theo thời gian: Các quan sát đƣợc đo trong khoảng

thời gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế).

Luận văn này tập trung vào chuỗi dữ liệu phụ thuộc thời gian đƣợc đo
trong khoảng thời gian rời rạc và cách đều nhau, gọi là chuỗi thời gian (series
time data)
Nhƣ vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu

nhiên, ký hiệu là {zt}, t = 1,...,n là số các quan sát, đo đƣợc trong các khoảng
thời gian t nhƣ nhau (hàng năm, quý, tháng, tuần, ngày…) và đƣợc xếp theo
thứ tự thời gian.
Ví dụ:
- Chuỗi giá trị tổng sản phẩm quốc nội (GDP) đƣợc đo theo từng quý.
- Chuỗi giá trị đo lƣợng mƣa trung bình hàng năm.
- Chuỗi giá trị chỉ số thị trƣờng chứng khoán đo theo ngày.
Chuỗi giá trị đo sản lƣợng điện năng tiêu thụ của Việt Nam đo theo
từng tháng, từng quí trong nhiều năm.
Chuỗi giá trị về chỉ số giá tiêu dùng của Việt Nam theo từng tháng, quý
trong năm.


-6-

Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng.
1.1.2.Dự báo chuỗi thời gian.
Là ƣớc lƣợng các giá trị của biến ngẫu nhiên chuỗi thời gian z t+h ( h 1),
ký hiệu là zˆ t (h) , dựa trên sự tƣơng quan với các giá trị của biến ngẫu nhiên
{zt} đã đƣợc quan sát trong quá khứ.
Chất lƣợng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức
tạp của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất
thƣờng không thể lƣờng trƣớc đƣợc khi tiến hành dự báo, ngoài ra độ chính
xác cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo
gần thì cho độ chính xác của dự báo tốt hơn so với dự báo xa).
1.2. Ứng dụng chuỗi thời gian.
Chuỗi thời gian đƣợc ứng dụng trong rất nhiều lĩnh vực, cụ thể nhƣ:
Tài chính - Tiền tệ: ví dụ dựa vào phân tích trên chuỗi thời gian về chỉ
số chứng khoán cho phép ta đƣa ra các quyết định đầu tƣ cổ phiếu với mức
rủi ro thấp.

-

Môi trƣờng: Từ hai chuỗi thời gian SOI (Southern Oscillation Index) và

chuỗi AR (Associated Recruitment), đo sự thay đổi áp suất không khí và nhiệt độ
mặt nƣớc biển tại trung tâm Thái Bình Dƣơng, trong thời gian 453 tháng khoảng


-7-

từ 1950 – 1987, đã phát hiện đƣợc rằng cứ khoảng từ 3 - 7 năm có một hiệu
ứng ấm lên, đƣợc gọi là hiện tƣợng El NiÑo [10].
Thƣơng mại: Từ chuỗi thời gian về kinh doanh rƣợu hàng tháng tại
Australia từ 1980 – 1991 ngƣời ta dự báo khá chính xác nhu cầu tiêu thụ
rƣợu ở nƣớc này trong nhiều năm tiếp theo [8].
Nhân khẩu học: Từ chuỗi dữ liệu theo thời gian về dân số của Mỹ đƣợc
điều tra trong chu kỳ 10 năm 1790 đến 1990 ngƣời ta đã dự báo khá chính
xác dân số nƣớc Mỹ những năm tiếp theo đó [10].
Và còn nhiều lĩnh vực khác nữa nhƣ tiền tệ, kinh tế, đầu tƣ, thị trƣờng,
sản xuất…
1.3. Đại lượng đặc trưng của chuỗi thời gian.
Giả sử có chuỗi thời gian {zt} gồm n các quan sát, t = 1,2…n.
a. Các đại lượng thống kê đặc trưng cho chuỗi thời gian:
Kỳ vọng: Đại diện cho giá trị trung tâm trong chuỗi.
E(zt ) 

Vì không thể nghiên cứu đƣợc toàn bộ tổng thể mà chỉ nghiên cứu đƣợc
tập con các phần tử của tổng thể gọi là mẫu. Lý do là, thu thập thông tin về
toàn bộ tổng thể sẽ quá đắt về thời gian và tiền bạc. Hơn nữa, trong nhiều
trƣờng hợp để nghiên cứu toàn bộ tổng thể ta phải bỏ toàn bộ các phần tử của

tổng thể mà chỉ nghiên cứu một số phần tử nào đó của tổng thể tức là chỉ
nghiên cứu mẫu thôi, từ đó suy đoán về tổng thể. Các phần tử chọn để nghiên
cứu tổng thể đƣợc gọi là mẫu ngẫu nhiên. Nên kỳ vọng của tổng thể đƣợc
tính dựa trên mẫu các quan sát gọi là kỳ vọng mẫu, nhƣ sau:

z



1
n

Phương sai: Đại diện cho mức độ phân tán các giá trị trong chuỗi xung
quanh kỳ vọng của nó:



z

t


-8-

var(z t ) z2  E[(z t )2 ]

Tƣơng tự, phƣơng sai mẫu đƣợc tính:

ˆz2 


Độ lệch chuẩn: là căn bậc hai của phƣơng sai mẫu:


ˆ
z

b. Các đại lượng mô tả mối quan hệ giữa các phần tử trong chuỗi:
Tự hiệp phương sai: Sử dụng để đo mức độ tƣơng quan tuyến tính của
hai biến ngẫu nhiên trong cùng một chuỗi thời gian. Nó phản ánh sự phụ
thuộc hay độc lập tuyến tính của các biến ngẫu nhiên trong chuỗi.
Tự hiệp phƣơng sai giữa hai biến ngẫu nhiên trong cùng một chuỗi thời gian
tại thời điểm t ký hiệu là zt và tại thời điểm t + k ký hiệu là zt + k , giữa chúng có k

-

1 quan sát gọi là k độ trễ, đƣợc xác định nhƣ sau:
 z (k)  covz t , z t  k  E(z t )(z t  k )

trong đó,  là kỳ vọng chung của zt và zt + k. Tự hiệp phƣơng sai khi độ trễ

k

= 0 chính là phƣơng sai của zt: z (0)  covz t , z t 2z .
Tƣơng tự, tự hiệp phƣơng sai mẫu đƣợc tính:

ˆ z (k) 

Trong đó, z là kỳ vọng mẫu của zt và zt + k .



Hàm tự tương quan (ACF): Đại lƣợng mô tả tƣơng quan tại trễ k giữa
các giá trị trong chuỗi thời gian, đƣợc xác định:


-9-

k

Trong đó, z (k) là tự hiệp phƣơng sai, z , z
t

t  k

lần lƣợt là độ lệch chuẩn của zt

và z

. Thông thƣờng, z
t+k

tƣơng quan tại trễ k đƣợc tính: k
với tham số biến thiên theo trễ k (k = 1,2…) gọi là hàm tự tƣơng quan.
Tự tƣơng quan mẫu đƣợc tính theo công thức:
ˆk



Một vài tính chất của tự tƣơng quan mẫu:
- Tính chất 1: 1 ˆk  1
- Tính chất 2: k  0 ˆ0  1

- Tính chất 3: ˆk ˆk
Nếu nhƣ zt và zt + k không tƣơng quan với nhau thì tự tƣơng quan ˆk 
0

, do khi đó cov(zt, zt + k) = 0. Nhƣng điều ngƣợc lại chƣa hẳn đã đúng.

Dựa trên mối quan hệ tự tƣơng quan giữa các phần tử trong chuỗi mà có
thể xây dựng đƣợc các mô hình dự báo chuỗi thời gian.
Hàm tự tương quan từng phần (PACF): Tự tƣơng quan mẫu ˆk phản
ánh mức độ tƣơng quan giữa hai biến ngẫu nhiên z t và zt + k trong chuỗi thời
gian. Tuy nhiên, sự tƣơng quan giữa chúng có thể chịu sự tác động của các
biến khác, trong trƣờng hợp này là k - 1 biến trung gian z t + 1, zt + 2… zt + k - 1
ảnh hƣởng đến sự tƣơng quan giữa biến z t và zt+k. Do đó hàm tự tƣơng quan
từng phần đƣợc đƣa vào nhằm mục đích mô tả mức độ tƣơng quan trực tiếp


giữa hai biến zt và zt + k (không bị ảnh hƣởng ràng buộc bởi mối quan hệ với
các biến trung gian). Đƣợc tính theo công thức:


-10-

 
k





k 1




k 1, j k  j


kk



1







k 1, j


kj

Giá trị ban đầu, 11 1
Bằng tính toán tƣơng tự trên các quan sát mẫu có đƣợc tự tƣơng quan
ˆ
từng phần mẫu  kk . Khảo sát tự tƣơng quan từng phần nhƣ một hàm với
tham số biến thiên theo độ trễ k đƣợc gọi là hàm tự tƣơng quan từng phần.
Tự tƣơng quan từng phần có thể đƣợc hiểu theo quan điểm của bài toán
dự báo đó là giả định muốn dự báo giá trị của z t+h từ các giá trị zt+h-1,..,zt, dựa

trên sự kết hợp tuyến tính các giá trị quá khứ này. Sau đó xem xét sai số dự
báo bình phƣơng trung bình tối thiểu (Mean Square Error - MSE):
h

MSE  E[(zt h  a k zt h k )2 ]
k 1

thu đƣợc các giá trị có thể của trọng số a 1,...,ah. Nếu xem xét kết quả này tại
một trễ cụ thể, ví dụ là h, thì khi đó tự tƣơng quan từng phần kk đƣợc coi
nhƣ là giá trị của hệ số ah ( hh  a h ).
Hệ số R2: Đƣợc sử dụng để đo độ thích hợp của mô hình ƣớc lƣợng.
Giả sử cho mô hình hồi qui chuỗi thời gian y t 1 2 z t  a t , với y t gọi là biến
phụ thuộc (biến đƣợc giải thích), z t là biến độc lập (biến giải thích), 1 là hệ số
chặn, 2 là hệ số góc, at là nhiễu (phần không giải thích đƣợc từ mô hình). Hệ số
R2 đƣợc tính:

R2 

Trong đó, n là số các quan sát, z là kỳ vọng mẫu của biến độc lập zt, y là kỳ
2

vọng mẫu của biến phụ thuộc y t. Dễ dàng thấy 0  R 2  1 nếu R tiến đến 1 thì mô
hình hồi qui đƣợc lựa chọn là hợp lý tức là sự thay đổi giá trị của biến phụ thuộc

j


-11-

đƣợc giải thích bằng mô hình, ngƣợc lại nếu R2 tiến về 0 thì mô hình đƣợc

lựa chọn là không hợp lý hay mô hình không thể giải thích đƣợc sự biến đổi
của biến phụ thuộc.
2

Hệ số điều chỉnh R 2 : Đôi khi hệ số R không phản ánh trung thực mức độ
hợp lý của mô hình, chẳng hạn khi thêm các tham biến đƣợc cho là không hợp lý
2

vào mô hình thì R không những không giảm mà ngƣợc lại còn tăng lên. Vì thế
hệ số điều chỉnh R 2 đƣợc xem xét để thẩm định rõ sự phù hợp của mô hình.

R

2

1 (1 R2)

ở đây n là số các quan sát của chuỗi thời gian, k là số các tham biến trong
mô hình. R 2 luôn nhỏ hơn R2, và giảm nếu bổ sung thêm biến hồi qui không
hợp lý vào mô hình.
1.4. Phân tích chuỗi thời gian.
Quá trình phân tích chuỗi thời gian {zt} là để tìm ra các mô hình, luật ẩn trong
nó, việc này đƣợc thực hiện trên các quan sát mẫu, gồm có những bƣớc sau:

Bƣớc 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian [4]:
Thành phần xu thế (Trend - T): Thể hiện chiều hƣớng biến động tăng
hoặc giảm của các hiện tƣợng nghiên cứu trong thời gian dài.
Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tƣợng
đƣợc lặp lại với chu kỳ nhất định, thƣờng kéo dài từ 2 đến 10 năm.
Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức

độ của hiện tƣợng ở một số thời điểm (tháng, quý) nào đó đƣợc lặp đi lặp lại
qua nhiều năm.
Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không
có qui luật và hầu nhƣ không dự báo hoặc quan sát đƣợc trong của hiện
tƣợng đang nghiên cứu.


-12-

Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều
cách thức khác nhau, chẳng hạn chuỗi thời gian z t đƣợc mô tả là tích các
thành phần, zt = T x P x S x I, gọi là mô hình tích, hoặc z t = T + P + S + I gọi
mô hình tổng, hoặc kết hợp cả hai z t = T x P x S + I. Do vậy, để phân tích và
nghiên cứu hành vi cũng nhƣ dự báo biến động của chuỗi thời gian thì cần
thiết phải ƣớc lƣợng đƣợc các thành phần nói trên trong chuỗi thời gian và
cách thức kết hợp chúng với nhau trong chuỗi.
Bƣớc 2: Làm trơn số liệu.
Sau khi xác định đƣợc các thành phần trên trong chuỗi thời gian tiếp theo
phải tiến hành làm trơn dữ liệu. Tức là loại trừ đƣợc thành phần xu thế và mùa
vụ trong chuỗi thời gian. Chuỗi thu đƣợc sau cùng không còn chứa các thành
phần đó (chuỗi đƣợc làm trơn) sẽ khiến cho việc phân tích dễ dàng hơn.

Bƣớc 3: Chọn lựa, ƣớc lƣợng và đánh giá mô hình.
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình đƣợc lựa chọn
là “tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể
hiểu đƣợc dễ dàng. Sau đó thực hiện ƣớc lƣợng các tham số, phần dƣ cho
mô hình vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh
giá. Mô hình ƣớc lƣợng đƣợc đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần
giống” với chuỗi dữ liệu quan sát thực.
Bƣớc 4: Dự báo.

Dựa trên mô hình thực hiện dự báo giá trị tƣơng lai cho chuỗi thời gian,
phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết.
Xác định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin
cậy của dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.
Bƣớc 5: Ứng dụng mô hình dự báo vào trong thực tế.
Trên cơ sở các dự báo về các giá trị tƣơng lai của hiện tƣợng nghiên cứu đề
ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị


-13-

quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô
hình để đƣa ra dự báo tốt hơn.
1.5. Các mô hình chuỗi thời gian đơn giản.
1.5.1. Nhiễu trắng [2].
Chuỗi thời gian là nhiễu trắng nếu nó hầu nhƣ không thể hiện một cấu
trúc, hình mẫu rõ rệt nào cũng nhƣ không có bất kỳ sự tự tƣơng quan nào
trong chuỗi. Chuỗi nhiễu trắng, ký hiệu a t, là dãy các biến ngẫu nhiên có phân
phối đồng nhất độc lập (Independent Identical Distribution - i.i.d), với các đại
lƣợng đặc trƣng nhƣ sau:
 E(a t )  0,
 var(a t ) a2 ,
k
 pk

Nhiễu trắng a đƣợc ký hiệu a
t

Trong thực tế, rất hiếm chuỗi thời gian là nhiễu trắng, nhƣng nó lại là
công cụ cơ bản để tạo ra mô hình phức tạp.

1.5.2.Mô hình bước ngẫu nhiên [9][3].
Mô hình bƣớc ngẫu nhiên là mô hình mà giá trị sinh ra từ nó đƣợc xác
định bằng giá trị của quan sát ngay trƣớc nó cộng thêm nhiễu trắng:
z t  z t 1  a t

trong đó, t = 1,2,... at là nhiễu trắng, at và zt không tƣơng quan với nhau.
Đại lượng đặc trưng cho mô hình bước ngẫu nhiên:
- Kỳ vọng: E(zt )  E(zt 1 )  E(a t )  E(zt 1 ) , là không đổi.


-14-

Phƣơng sai: Mô hình bƣớc ngẫu nhiên viết lại dƣới dạng truy hồi
nhƣ sau:
z1  z0  a1
z2  z1  a 2  z0  a 2  a1

........

var( zt )  var(z 0

Do z0 là hằng số nên var(z0) = 0, các at là nhiễu trắng, vì thế phƣơng sai của
t

Hiệp phƣơng sai: Nhân 2 vế của (1.14) với zt-1 sau đó lấy cov cả 2 vế
đƣợc:
cov(zt zt 1 )  cov(zt 1 zt 1 )  cov(a t zt 1 )
cov(z

)  cov(z


z
t 1

t

quan với nhau nên cov(at, zt-1) = 0.
và cuối cùng thu đƣợc: cov(zt zt k )  (t  k)a2

-

cov(z z ) (t  k) 2 t  k
t tk 
a 
Tự tƣơng quan: 
k

var(zt )ta2t

1.5.3.Bước ngẫu nhiên có bụi.
Mô hình bƣớc ngẫu nhiên có bụi là mô hình bƣớc ngẫu nhiên cộng thêm
một hằng số α:
zt  zt 1  a t

1.6. Một số phương pháp kiểm định thống kê.

Xét mô hình tổng quát: y t 1 21 là hệ số chặn và
z

t


a

t

trong đó,
giả định
at là
nhiễu
trắng,


kiểm định thống kê cho mô hình trên gồm:
(1.16)
2

là hệ số góc. Các


-15-

1.6.1.Kiểm định T.
Do các hệ số 1 , 2 là tổng thể, chúng chỉ có thể ƣớc lƣợng đƣợc qua từng
ˆ
ˆ
mẫu cụ thể, gọi là hệ số ƣớc lƣợng mẫu  1 ,  2 . Khi thực hiện các ƣớc lƣợng

này, điều đƣợc quan tâm hơn cả là hệ số ƣớc lƣợng này có bằng 0 hay không?
Kiểm định T còn đƣợc gọi là kiểm định ý nghĩa của hệ số ƣớc lƣợng trong mô
hình, với giả thiết kiểm định thống kê H 0:  j  0 để kiểm chứng điều đó.


ˆ
trong đó,  j

số ƣớc lƣợng mẫu j, thống kê T tuân theo phân phối chuẩn T với n - 1 bậc tự do.
Với mức ý nghĩa  cho trƣớc, tra bảng phân phối T xác định giá trị tới hạn
T

/2

(n 1) . Nếu T  T

/2

(n 1) thì bác bỏ giả thiết H0, còn ngƣợc lại chấp nhận

giả thiết H0 nghĩa là phải loại trừ biến có hệ số ƣớc lƣợng 

ˆ
j

khỏi mô hình

1.6.2.Kiểm định F.
Kiểm định T không dùng để kiểm định giả thiết gộp là các hệ số ƣớc lƣợng
đồng thời bằng 0 mà phải dùng kiểm định F, cụ thể với giả thiết H0:1 2  0 , thì

Thống kê
trong đó, R2 là hệ số R2, n là số các quan sát, k là số các tham biến trong
mô hình (trong mô hình trên có hai tham biến nên k = 2), sẽ có phân phối

chuẩn F với k-1 và n-k bậc tự do. Với mức ý nghĩa  cho trƣớc, tra bảng phân
phối F xác định giá trị tới hạn F (k 1, n  k) . Nếu F  F (k 1, n  k) thì bác bỏ
giả thiết H0, ngƣợc lại chấp nhận giả thiết H0.


-16-

1.6.3.Kiểm định Q.
Kiểm định Q với giả thiết H0 là: không có tự tƣơng quan trong chuỗi cho đến
bậc k: H0 : 1 2 ... k  0 (tự tƣơng quan đồng thời thời bằng 0 cho đến trễ k).

Giả thiết H0 đƣợc kiểm định bằng thống kê:
k

Q  nˆ2j
j1

trong đó, n là số các quan sát, k là số các trễ, ˆ j là tự tƣơng quan mẫu. Thống

kê Q có phân bố xấp xỉ với k2 (bậck) tự do và với mức ý nghĩa  cho trƣớc
tra bảng phân phối , tìm ra 22 (k) . Giả thiết H0 bị bác bỏ nếu nhƣ thống kê
Q . 2 (k)

Một dạng khác của thống kê Q là thống kê Ljung-Box (LB). Đƣợc tính
theo công thức:

trong đó n là số các quan sát, ˆ j là tự tƣơng quan mẫu bậc j. So sánh giá trị
của thống kê QLB đƣợc tính với giá trị tới hạn trong bảng giá trị thống kê , có th ể2

kết luận về sự tƣơng quan trong chuỗi.

Kiểm định QLB thƣờng đƣợc dùng để kiểm tra tính chất nhiễu trắng của
chuỗi thời gian. Trong thực tế, khi kiểm định sự tự tƣơng quan phải lựa chọn bậc
trễ k phù hợp cho kiểm định. Nếu chọn bậc trễ k quá nhỏ kiểm định có thể không
phát hiện tƣơng quan ở các bậc cao hơn và ngƣợc lại chọn bậc trễ k quá lớn có
thể khiến cho việc kiểm định có hiệu quả thấp do bởi tƣơng quan có nghĩa tại
một trễ có thể bị che khuất bởi các tƣơng quan không có nghĩa tại các trễ khác.
[1]
1.6.4.Kiểm định Durbin-Watson .
Giả sử chuỗi at không phải là chuỗi nhiễu trắng nhƣ giả định, mà ngay bản
thân nó vẫn còn chứa quan hệ tự tƣơng quan, làm thế nào có thể phát hiện ra quan


-17-

hệ tƣơng quan này? Để từ đó khai thác đƣợc những thông tin thêm đƣa vào
mô hình. Kiểm định Durbin-Watson đƣợc sử dụng để phát hiện tự tƣơng
quan trong chuỗi at.
Kiểm định giả thiết H0: không có sự tự tƣơng quan trong chuỗi at. Kiểm định

Durbin-Watson thực hiện trên mô hình tự hồi qui bậc nhất của chuỗi a t nhƣ sau:

trong đó, 

Thống kê d đƣợc tính toán: d 

d  [0, 4]

Với giả định là a t
giá trị


Durbin-Watson đƣa ra bảng giá trị Durbin-Watson với các cận giới hạn
(dL, dU) đƣợc tính toán sẵn trên cơ sở số các quan sát mẫu và số các tham
biến trong mô hình, kết hợp với giá trị đƣợc tính toán d có thể kết luận về sự
tự tƣơng quan trong chuỗi at , nhƣ sau:
-

Chấp nhận giả thiết H0 khi d U  d  4  d U (không có tự tƣơng quan bậc

nhất trong chuỗi)
4 - dL 

- Bác bỏ giả thiết H0 (có sự tự tƣơng quan bậc nhất trong
chuỗi at) nếu :
d hoặc d  dL

- Trong trƣờng hợp dL  d  dU hoặc 4 - dU  d  4 - dL không cho kết luận

gì.


×