Phát hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.14 MB, 104 trang )

PHÁT HIỆN TRI THỨC THEO MÙA VỤ
TỪ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN

Học viên: Trần Văn Thái – K10T2

Người hướng dẫn: TS Đỗ Văn Thành

Mục lục.
MỞ ĐẦU 1
CHƢƠNG 1. CHUỖI THỜI GIAN VÀ PHÂN TÍCH CHUỖI THỜI GIAN. 4
1.1. Chuỗi thời gian và dự báo chuỗi thời gian. 5
1.1.1.Định nghĩa chuỗi thời gian. 5
1.1.2.Dự báo chuỗi thời gian. 6
1.2. Ứng dụng chuỗi thời gian. 6
1.3. Đại lƣợng đặc trƣng của chuỗi thời gian. 7
1.4. Phân tích chuỗi thời gian. 11
1.5. Các mô hình chuỗi thời gian đơn giản. 13
1.5.1. Nhiễu trắng . 13
1.5.2.Mô hình bƣớc ngẫu nhiên . 13
1.5.3.Bƣớc ngẫu nhiên có bụi. 14
1.6. Một số phƣơng pháp kiểm định thống kê. 14

1.6.1.Kiểm định T. 15
1.6.2.Kiểm định F. 15
1.6.3.Kiểm định Q. 16
1.6.4.Kiểm định Durbin-Watson . 16
1.6.5.Kiểm định nghiệm đơn vị . 18
1.6.6.Tiêu chuẩn thông tin Akaike (AIC), Schwarz (SIC) . 19
1.7. Kết luận. 20
CHƢƠNG 2. MÔ HÌNH ARIMA THƢỜNG VÀ THEO MÙA VỤ. 21
2.1. Mô hình ARIMA thƣờng. 21

2.1.1.Toán tử trễ . 21
2.1.2.Chuỗi thời gian dừng. 22
2.1.3.Quá trình tuyến tính. 26
2.1.4.Quá trình tự hồi qui - AR(p). 26
2.1.5.Quá trình trung bình trƣợt – MA(q). 31
2.1.6. Quá trình trung bình trƣợt tự hồi qui ARMA(p,q). 34
2.1.7.Mô hình tích hợp trung bình trƣợt tự hồi qui ARIMA(p,d,q). 36
2.1.8.Qui trình xây dựng mô hình ARIMA (p, d, q). 38
2.1.9.Nguyên tắc tằn tiện. 48
2.2. Mô hình ARIMA theo mùa vụ. 48
2.2.1.Chuỗi mùa vụ. 48
2.2.2.Biến đổi chuỗi mùa vụ thành chuỗi dừng. 50
2.2.3.Mô hình tích hợp trung bình trƣợt tự hồi qui theo mùa vụ
ARIMA(p,d,q)x(P,D,Q)
s.
51
2.3. Kết luận. 55
CHƢƠNG 3. ỨNG DỤNG MÔ HÌNH ARIMA THEO MÙA VỤ 57
KẾT LUẬN 82

TÀI LIỆU THAM KHẢO 85
PHỤ LỤC 88

Danh sách hình vẽ.
Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng 6
Hình 3 – Đồ thị chuỗi dừng về chỉ số giá tiêu dùng Việt Nam 22
Hình 4 - ACF/PACF của chuỗi không dừng về chỉ số giá tiêu dùng Việt Nam 23
Hình 5 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau khi sai phân bậc 1 24
Hình 6 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau sai phân bậc 1 và sai phân trễ
mùa vụ bậc 1 25
Hình 7 - Chuỗi biến đổi chỉ số giá tiêu dùng Việt Nam qua hàm biến đổi. 25
Hình 8 - Mô hình lọc tuyến tính 26
Hình 7 - Các bước xây dựng mô hình ARIMA 38

Danh sách bảng biểu.
Bảng 1: Đặc trưng ACF và PACF trong các mô hình tham số 35

Bảng từ viết tắt.
Từ hoặc cụm từ
Từ
viết tắt
Từ tiếng Anh

Hàm tự tƣơng quan
ACF
AutoCorrelation Function
Kiểm định DF
ADF
Argumented Dickey-Fuller
Tiêu chuẩn thông tin AIC/SIC
AIC/SIC
Akaike Information Criteria,
Schwarz Information Criteria
Sai số phần trăm tuyệt đối
APE
Absolute Percent Error
Tự hồi qui
AR
AutoRegression
Tích hợp trung bình trƣợt tự hồi qui
ARIMA
AutoRegressive Integrated Moving
Average
Trung bình trƣợt tự hồi qui
ARMA
AutoRegressive Moving Average
Kiểm định DW
DW
Durbin-Watson
Phân phối đồng nhất độc lập
I.I.D
Independent Identical Distribution
Trung bình trƣợt

MA
Moving Average
Sai số tuyệt đối trung bình
MAE
Mean Absolute Error
Sai số bình phƣơng trung bình
MSE
Mean Square Error
Hàm tự tƣơng quan từng phần
PACF
Partial AutoCorrelation Function
Tự hồi qui theo mùa vụ
SAR
Seasonal AutoRegressive
Tích hợp trung bình trƣợt tự hồi qui
theo mùa vụ
SARIMA
Seasonal AutoRegressive Integrated
Moving Average
Trung bình trƣợt theo mùa vụ
SMA
Seasonal Moving Average
Tổng bình phƣơng sai số
SSE
Sum of Square Error
Nhiễu trắng
WN
White Noise

- 1 -
MỞ ĐẦU
Nền kinh tế hiện đại ngày càng dựa trên yếu tố thông tin. Điều đó làm biến
đổi sâu sắc đến môi trƣờng kinh doanh, phƣơng thức quản lý kinh tế và cách thức
tổ chức các hoạt động sản xuất kinh doanh. Đặc biệt là đối với nƣớc ta đang trong
quá trình chuyển đổi từ nền kinh tế tập trung quan liêu bao cấp sang xây dựng nền
kinh tế thị trƣờng trong bối cảnh hội nhập và cạnh tranh quốc tế gay gắt, hoạt
động quản lý nhà nƣớc cũng đang chuyển mạnh từ phƣơng thức quản lý theo
mệnh lệnh sang sử dụng các công cụ cơ chế chính sách thì vai trò của thông tin,
nhất là thông tin dự báo phục vụ phát triển kinh tế - xã hội càng trở lên cấp thiết
và quan trọng. Vì thế, cách thức thu thập, phân tích và sử dụng các thông tin, dữ
liệu phục vụ cho quá trình đó cũng chịu sự biến đổi mạnh mẽ.
Hiện tại, với việc ứng dụng rộng rãi công nghệ thông tin, một số luợng lớn
thông tin và dữ liệu đƣợc thu thập bằng nhiều cách thức khác nhau trong môi
trƣờng trực tuyến, thời gian thực…đã tạo ra một khối lƣợng thông tin, dữ liệu
khổng lồ. Trong đó những dữ liệu có yếu tố thời gian có thể đƣợc kết hợp lại tùy
theo đặc tính trong khoảng thời gian thích hợp cũng đã tạo ra một số lƣợng rất lớn
các chuỗi dữ liệu trong các khoảng thời gian nhƣ nhau đƣợc gọi là dữ liệu chuỗi
thời gian (series time data, gọi tắt là chuỗi thời gian).
Nhƣ đã biết, phần lớn các dữ liệu phản ánh hoạt động sản xuất kinh doanh
của doanh nghiệp, phản ánh tình hình phát triển kinh tế - xã hội của một quốc gia
đều là chuỗi thời gian và do vậy phần lớn các cơ sở dữ liệu về kinh tế - xã hội
cũng là cơ sở dữ liệu chuỗi thời gian (series time database). Việc phân tích nhằm
phát hiện tri thức mới từ các cơ sở dữ liệu chuỗi thời gian thƣờng đƣợc dựa trên
các phƣơng pháp phân tích chuỗi thời gian hiện đại thông qua sử dụng các công
cụ tin học nhƣ: EViews, SPSS, SAS (Statistical Analysis System)…
Một đặc trƣng rất quan trọng của chuỗi thời gian về kinh tế - xã hội là có
tính mùa vụ, chẳng hạn giá cả và số lƣợng bán ra của một mặt hàng nào đó ví dụ

nhƣ máy điều hòa nhiệt, hoặc là chỉ số giá tiêu dùng của các mặt hàng nói chung
là khác nhau tại mỗi tháng trong năm, hay tình hình đầu tƣ của nƣớc ngoài vào

- 2 -
Việt Nam, kim ngạch xuất khẩu của Việt Nam tại các tháng hoặc quý khác nhau
trong năm cũng thƣờng rất khác nhau… Làm cách nào để có thể phát hiện đƣợc
tri thức mới, dự báo đƣợc dữ liệu tƣơng lai dựa trên dữ liệu hiện tại và quá khứ
trong các cơ sở dữ liệu chuỗi thời gian có tính mùa vụ nhƣ vậy. Luận văn ”phát
hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian” sẽ góp phần làm rõ
phƣơng pháp giải quyết vấn đề đƣợc đặt này.
Luận văn gồm 3 chƣơng nội dung, phần mở đầu, phần kết luận, phần phụ lục
và tài liệu tham khảo.
Chương 1: Chuỗi thời gian và phân tích chuỗi thời gian sẽ giới thiệu một
cách tóm tắt những khái niệm chủ yếu liên quan đến chuỗi thời gian và các bƣớc
tiến hành phân tích và dự báo chuỗi thời gian, giới thiệu một số mô hình chuỗi
thời gian đơn giản và kiểm định thống kê sử dụng cho phân tích chuỗi thời gian
trong dự báo dữ liệu.
Chương 2: Mô hình ARIMA thường và theo mùa vụ sẽ trình bày mô hình
phân tích chuỗi thời gian điển hình nhất để dự báo dữ liệu cho cả 2 trƣờng hợp dữ
liệu chuỗi thời gian có và không có tính chất mùa vụ, tƣơng ứng đó là mô hình
ARIMA theo mùa vụ và mô hình ARIMA thƣờng.
Chương 3. Ứng dụng mô hình ARIMA theo mùa vụ. Mục đích của chƣơng
này là ứng dụng mô hình ARIMA theo mùa vụ để dự báo một số chỉ số kinh tế vĩ
mô quan trọng phản ánh mức độ tăng trƣởng kinh tế Việt Nam nhƣ dự báo chỉ số
giá tiêu dùng theo tháng (CPI), giá trị hàng hóa xuất khẩu theo tháng. Dữ liệu
đƣợc sử dụng để dự báo là số liệu thực tế của nền kinh tế.
Phần kết luận sẽ tổng kết những công việc đã thực hiện và kết quả đạt đƣợc

trong luận văn này, phần này cũng đề cập công việc và hƣớng nghiên cứu trong
tƣơng lai.

Tác giả luận văn này xin gửi lời cảm ơn sâu sắc nhất đến TS. Đỗ Văn Thành,
Trung tâm thông tin và dự báo Kinh tế - Xã hội Quốc gia - Bộ kế hoạch và đầu

- 3 -
tƣ, ngƣời đã hƣớng dẫn tận tình và giúp đỡ tôi rất nhiều trong quá trình thực hiện
luận văn này, ngƣời đã mở ra cho tôi những cách tiếp cận mới của công nghệ
thông tin vào trong đời sống thực tế.
Xin bày tỏ lời cảm ơn tới các thầy TS. Hà Quang Thụy, GS-TSKH. Phan
Đình Diệu, PGS-TS. Trịnh Nhật Tiến, PGS-TS. Đoàn Văn Ban, TS. Nguyễn Việt
Hà, TS. Hoàng Xuân Huấn, PGS-TS. Nguyễn Văn Bình,TS. Đinh Mạnh Tƣờng,
những ngƣời đã truyền cho tác giả nhiều kiến thức và kinh nghiệm quý báu
trong thời gian tác giả theo học cao học tại Trƣờng Đại học Công nghệ.
Cuối cùng, xin gửi lời cảm ơn chân thành đến các cán bộ thuộc Tổng cục
Thống kê Việt Nam, những ngƣời đã giúp đỡ nhiệt tình trong việc cung cấp số
liệu đầy đủ, trung thực phục vụ cho cuốn luận văn này và cũng xin gửi lời cám ơn
tới tất cả ngƣời thân trong gia đình, bạn bè đã giúp đỡ trong quá trình học tập và
công tác.
Tác giả

Trần Văn Thái

- 4 -
CHƢƠNG 1.

CHUỖI THỜI GIAN
VÀ PHÂN TÍCH CHUỖI THỜI GIAN.
Để phân tích biến động, hành vi của hiện tƣợng qua thời gian, ngƣời ta
thƣờng dùng phƣơng pháp phân tích chuỗi các quan sát theo thời gian. Trong
phƣơng pháp này thƣờng giả định các giá trị quan sát không độc lập với nhau,
ngƣợc lại chính sự phụ thuộc giữa các giá trị quan sát là đặc điểm, cơ sở cho việc
xây dựng các phƣơng pháp nghiên cứu và dự báo về chuỗi thời gian. Phân tích
chuỗi thời gian có thể đƣợc chia làm hai loại: Phân tích các mức độ theo thời gian
và phân tích mối liên hệ nguyên nhân – kết quả. Phƣơng pháp dự báo bằng phân
tích mức độ theo thời gian liên quan đến việc dự báo các giá trị tƣơng lai của yếu
tố đƣợc nghiên cứu dựa trên sự tƣơng quan với các quan sát trong quá khứ và
hiện tại. Trong khi đó phân tích mối liên hệ nhân quả liên quan đến việc xác định
các nhân tố khác ảnh hƣởng đến yếu tố muốn dự báo, nhƣ dùng phƣơng pháp
phân tích hồi qui bội xem xét GDP phụ thuộc vào lƣợng đầu tƣ trong nƣớc, lƣợng
đầu tƣ nƣớc ngoài, dân số…
Trong luận văn này, chỉ tập trung chủ yếu vào phân tích mức độ theo thời
gian đƣợc dựa trên giả định cơ bản là các yếu tố ảnh hƣởng đến biến động của
hiện tƣợng trong quá khứ và hiện tại sẽ còn tiếp tục tồn tại trong tƣơng lai. Do đó
mục tiêu chính của phân tích chuỗi thời gian là nhận ra các yếu tố ảnh hƣởng này,
phục vụ cho mục đích đƣa ra dự báo giá trị tƣơng lai của chuỗi và dựa vào đó để
hỗ trợ trong việc đƣa ra các quyết định.
Trong chƣơng này chủ yếu trình bày các vấn đề liên quan đến chuỗi thời
gian bao gồm khái niệm, dự báo cho chuỗi thời gian và các đại lƣợng đặc trƣng
của nó, tiếp đó trình bày về các mô hình chuỗi thời gian đơn giản và cuối cùng là
đƣa ra một số phƣơng pháp kiểm định thống kê cho mô hình chuỗi thời gian.

- 5 -
1.1. Chuỗi thời gian và dự báo chuỗi thời gian.
1.1.1.Định nghĩa chuỗi thời gian.
Chuỗi dữ liệu phụ thuộc thời gian đƣợc chia làm hai loại:
- Chuỗi dữ liệu phụ thuộc thời gian đƣợc quan sát, đo đạc trong khoảng thời
gian rời rạc: Các quan sát đƣợc thực hiện tại các thời điểm tách biệt, chúng
thƣờng là các quan sát đƣợc đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi
thời gian đƣợc đo theo tuần, quý, tháng, năm, ….
- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát đƣợc đo trong khoảng
thời gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế).
Luận văn này tập trung vào chuỗi dữ liệu phụ thuộc thời gian đƣợc đo trong
khoảng thời gian rời rạc và cách đều nhau, gọi là chuỗi thời gian (series time
data)
Nhƣ vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu
nhiên, ký hiệu là {z
t
}, t = 1, ,n là số các quan sát, đo đƣợc trong các khoảng thời
gian t nhƣ nhau (hàng năm, quý, tháng, tuần, ngày…) và đƣợc xếp theo thứ tự
thời gian.
Ví dụ:
- Chuỗi giá trị tổng sản phẩm quốc nội (GDP) đƣợc đo theo từng quý.
- Chuỗi giá trị đo lƣợng mƣa trung bình hàng năm.
- Chuỗi giá trị chỉ số thị trƣờng chứng khoán đo theo ngày.
- Chuỗi giá trị đo sản lƣợng điện năng tiêu thụ của Việt Nam đo theo từng
tháng, từng quí trong nhiều năm.
- Chuỗi giá trị về chỉ số giá tiêu dùng của Việt Nam theo từng tháng, quý
trong năm.

- 6 -

Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng.
1.1.2.Dự báo chuỗi thời gian.
Là ƣớc lƣợng các giá trị của biến ngẫu nhiên chuỗi thời gian z
t+h
(
1h 
), ký
hiệu là
)h(z
ˆ
t
, dựa trên sự tƣơng quan với các giá trị của biến ngẫu nhiên {z
t
} đã
đƣợc quan sát trong quá khứ.
Chất lƣợng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp
của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất thƣờng
không thể lƣờng trƣớc đƣợc khi tiến hành dự báo, ngoài ra độ chính xác cũng còn
phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần thì cho độ

chính xác của dự báo tốt hơn so với dự báo xa).
1.2. Ứng dụng chuỗi thời gian.
Chuỗi thời gian đƣợc ứng dụng trong rất nhiều lĩnh vực, cụ thể nhƣ:
- Tài chính - Tiền tệ: ví dụ dựa vào phân tích trên chuỗi thời gian về chỉ số
chứng khoán cho phép ta đƣa ra các quyết định đầu tƣ cổ phiếu với mức rủi ro
thấp.
- Môi trƣờng: Từ hai chuỗi thời gian SOI (Southern Oscillation Index) và
chuỗi AR (Associated Recruitment), đo sự thay đổi áp suất không khí và nhiệt độ
mặt nƣớc biển tại trung tâm Thái Bình Dƣơng, trong thời gian 453 tháng khoảng

- 7 -
từ 1950 – 1987, đã phát hiện đƣợc rằng cứ khoảng từ 3 - 7 năm có một hiệu ứng
ấm lên, đƣợc gọi là hiện tƣợng El NiÑo [10].
- Thƣơng mại: Từ chuỗi thời gian về kinh doanh rƣợu hàng tháng tại
Australia từ 1980 – 1991 ngƣời ta dự báo khá chính xác nhu cầu tiêu thụ rƣợu ở
nƣớc này trong nhiều năm tiếp theo [8].
- Nhân khẩu học: Từ chuỗi dữ liệu theo thời gian về dân số của Mỹ đƣợc
điều tra trong chu kỳ 10 năm 1790 đến 1990 ngƣời ta đã dự báo khá chính xác
dân số nƣớc Mỹ những năm tiếp theo đó [10].
Và còn nhiều lĩnh vực khác nữa nhƣ tiền tệ, kinh tế, đầu tƣ, thị trƣờng, sản
xuất…
1.3. Đại lượng đặc trưng của chuỗi thời gian.
Giả sử có chuỗi thời gian {z
t
} gồm n các quan sát, t = 1,2…n.
a. Các đại lượng thống kê đặc trưng cho chuỗi thời gian:
Kỳ vọng: Đại diện cho giá trị trung tâm trong chuỗi.

Vì không thể nghiên cứu đƣợc toàn bộ tổng thể mà chỉ nghiên cứu đƣợc tập
con các phần tử của tổng thể gọi là mẫu. Lý do là, thu thập thông tin về toàn bộ
tổng thể sẽ quá đắt về thời gian và tiền bạc. Hơn nữa, trong nhiều trƣờng hợp để
nghiên cứu toàn bộ tổng thể ta phải bỏ toàn bộ các phần tử của tổng thể mà chỉ
nghiên cứu một số phần tử nào đó của tổng thể tức là chỉ nghiên cứu mẫu thôi, từ
đó suy đoán về tổng thể. Các phần tử chọn để nghiên cứu tổng thể đƣợc gọi là
mẫu ngẫu nhiên. Nên kỳ vọng của tổng thể đƣợc tính dựa trên mẫu các quan sát
gọi là kỳ vọng mẫu, nhƣ sau:




n
1t
t
z
n
1
z

Phương sai: Đại diện cho mức độ phân tán các giá trị trong chuỗi xung
quanh kỳ vọng của nó:
(1.1)
(1.2)
)z(E
t

- 8 -

Tƣơng tự, phƣơng sai mẫu đƣợc tính:

Độ lệch chuẩn: là căn bậc hai của phƣơng sai mẫu:
2
zz
ˆˆ


b. Các đại lượng mô tả mối quan hệ giữa các phần tử trong chuỗi:
Tự hiệp phương sai: Sử dụng để đo mức độ tƣơng quan tuyến tính của hai
biến ngẫu nhiên trong cùng một chuỗi thời gian. Nó phản ánh sự phụ thuộc hay
độc lập tuyến tính của các biến ngẫu nhiên trong chuỗi.
Tự hiệp phƣơng sai giữa hai biến ngẫu nhiên trong cùng một chuỗi thời gian
tại thời điểm t ký hiệu là z
t
và tại thời điểm t + k ký hiệu là z
t + k
, giữa chúng có k
- 1 quan sát gọi là k độ trễ, đƣợc xác định nhƣ sau:
   
)z)(z(Ez,zcov)k(
k ttk ttz



trong đó,


là kỳ vọng chung của z
t
và z
t + k
. Tự hiệp phƣơng sai khi độ trễ
k = 0 chính là phƣơng sai của z
t
:
 
2
zttz
z,zcov)0( 
.
Tƣơng tự, tự hiệp phƣơng sai mẫu đƣợc tính:
)zz)(zz(
n
1
)k(
ˆ
k t
kn
1t
tz





k = 1, 2 n-1
Trong đó,

z
là kỳ vọng mẫu của z
t
và z
t + k
.
Hàm tự tương quan (ACF): Đại lƣợng mô tả tƣơng quan tại trễ k giữa các
giá trị trong chuỗi thời gian, đƣợc xác định:
(1.3)
(1.4)
(1.5)
(1.6)
(1.7)
])z[(E)zvar(
2
t
2
zt

2
n
1t
t
2
z
)zz(
n
1
ˆ





- 9 -
)0(
ˆ
)k(
ˆ
ˆ
z
z
k



 
   
2
kt
2
t
ktt
zz
z
zz
ktt
k

)z(E)z(E
)z)(z(E
)k(
)z,zcov(
kttktt












Trong đó,
)k(
z

là tự hiệp phƣơng sai,
ktt
zz
,


lần lƣợt là độ lệch chuẩn của z
t

và z
t + k
. Thông thƣờng, z
t
và z
t+k
đều có cùng phƣơng sai là
)0(
z
2
z

, nên tự
tƣơng quan tại trễ k đƣợc tính:
)0(
)k(
z
z
k



. Khảo sát tự tƣơng quan nhƣ một hàm
với tham số biến thiên theo trễ k (k = 1,2…) gọi là hàm tự tƣơng quan.
Tự tƣơng quan mẫu đƣợc tính theo công thức:

Một vài tính chất của tự tƣơng quan mẫu:
- Tính chất 1:
1
ˆ

1
k


- Tính chất 2:
1
ˆ
0k
0


- Tính chất 3:
kk
ˆˆ



Nếu nhƣ z
t
và z
t + k
không tƣơng quan với nhau thì tự tƣơng quan
0
ˆ
k

, do
khi đó cov(z
t
, z

t + k
) = 0. Nhƣng điều ngƣợc lại chƣa hẳn đã đúng.
Dựa trên mối quan hệ tự tƣơng quan giữa các phần tử trong chuỗi mà có thể
xây dựng đƣợc các mô hình dự báo chuỗi thời gian.
Hàm tự tương quan từng phần (PACF): Tự tƣơng quan mẫu
k
ˆ

phản ánh
mức độ tƣơng quan giữa hai biến ngẫu nhiên z
t
và z
t + k
trong chuỗi thời gian. Tuy
nhiên, sự tƣơng quan giữa chúng có thể chịu sự tác động của các biến khác, trong
trƣờng hợp này là k - 1 biến trung gian z
t + 1
, z
t + 2
… z
t + k - 1
ảnh hƣởng đến sự
tƣơng quan giữa biến z
t
và z
t+k
. Do đó hàm tự tƣơng quan từng phần đƣợc đƣa
vào nhằm mục đích mô tả mức độ tƣơng quan trực tiếp giữa hai biến z
t
và z

t + k

(không bị ảnh hƣởng ràng buộc bởi mối quan hệ với các biến trung gian). Đƣợc
tính theo công thức:
(1.8)
(1.9)

- 10 -












1k
1j
jj,1k
1k
1j
jkj,1kk
kk

1
độ trễ k = 2,3

jk,1kkkj,1kkj 

j = 1, 2 k - 1
Giá trị ban đầu,
111


Bằng tính toán tƣơng tự trên các quan sát mẫu có đƣợc tự tƣơng quan từng
phần mẫu
kk
ˆ

. Khảo sát tự tƣơng quan từng phần nhƣ một hàm với tham số biến
thiên theo độ trễ k đƣợc gọi là hàm tự tƣơng quan từng phần.
Tự tƣơng quan từng phần có thể đƣợc hiểu theo quan điểm của bài toán dự
báo đó là giả định muốn dự báo giá trị của z
t+h
từ các giá trị z
t+h-1
, ,z
t
, dựa trên sự
kết hợp tuyến tính các giá trị quá khứ này. Sau đó xem xét sai số dự báo bình
phƣơng trung bình tối thiểu (Mean Square Error - MSE):

thu đƣợc các giá trị có thể của trọng số a

1
, ,a
h
. Nếu xem xét kết quả này tại một
trễ cụ thể, ví dụ là h, thì khi đó tự tƣơng quan từng phần
kk

đƣợc coi nhƣ là giá trị
của hệ số a
h
(
hhh
a
).
Hệ số R
2
: Đƣợc sử dụng để đo độ thích hợp của mô hình ƣớc lƣợng.
Giả sử cho mô hình hồi qui chuỗi thời gian
tt21t
azy 
, với
t
y
gọi là biến
phụ thuộc (biến đƣợc giải thích),
t
z
là biến độc lập (biến giải thích),
1


là hệ số
chặn,
2

là hệ số góc, a
t
là nhiễu (phần không giải thích đƣợc từ mô hình). Hệ số
R
2
đƣợc tính:

Trong đó, n là số các quan sát,
z
là kỳ vọng mẫu của biến độc lập z
t
,
y
là kỳ
vọng mẫu của biến phụ thuộc y
t
. Dễ dàng thấy
1R0
2

nếu R
2
tiến đến 1 thì mô
hình hồi qui đƣợc lựa chọn là hợp lý tức là sự thay đổi giá trị của biến phụ thuộc
(1.11)
(1.12)

(1.10)
])zaz[(EMSE
2
h
1k
khtkht











n
1i
2
i
n
1i
2
i
2
n
1i
ii
2

)yy()zz(
))yy)(zz((
R

- 11 -
đƣợc giải thích bằng mô hình, ngƣợc lại nếu R
2
tiến về 0 thì mô hình đƣợc lựa
chọn là không hợp lý hay mô hình không thể giải thích đƣợc sự biến đổi của biến
phụ thuộc.
Hệ số điều chỉnh
2
R
: Đôi khi hệ số R
2

không phản ánh trung thực mức độ
hợp lý của mô hình, chẳng hạn khi thêm các tham biến đƣợc cho là không hợp lý
vào mô hình thì R
2
không những không giảm mà ngƣợc lại còn tăng lên. Vì thế hệ
số điều chỉnh
2
R
đƣợc xem xét để thẩm định rõ sự phù hợp của mô hình.

kn

1n
)R1(1R
22




ở đây n là số các quan sát của chuỗi thời gian, k là số các tham biến trong mô
hình.
2
R
luôn nhỏ hơn R
2
, và giảm nếu bổ sung thêm biến hồi qui không hợp lý
vào mô hình.
1.4. Phân tích chuỗi thời gian.
Quá trình phân tích chuỗi thời gian {z
t
} là để tìm ra các mô hình, luật ẩn
trong nó, việc này đƣợc thực hiện trên các quan sát mẫu, gồm có những bƣớc sau:
Bƣớc 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian [4]:
- Thành phần xu thế (Trend - T): Thể hiện chiều hƣớng biến động tăng hoặc
giảm của các hiện tƣợng nghiên cứu trong thời gian dài.
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tƣợng đƣợc
lặp lại với chu kỳ nhất định, thƣờng kéo dài từ 2 đến 10 năm.
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ
của hiện tƣợng ở một số thời điểm (tháng, quý) nào đó đƣợc lặp đi lặp lại qua
nhiều năm.
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có
qui luật và hầu nhƣ không dự báo hoặc quan sát đƣợc trong của hiện tƣợng đang

nghiên cứu.
(1.13)

- 12 -
Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều
cách thức khác nhau, chẳng hạn chuỗi thời gian z
t
đƣợc mô tả là tích các thành
phần, z
t
= T x P x S x I, gọi là mô hình tích, hoặc z
t
= T + P + S + I gọi mô hình
tổng, hoặc kết hợp cả hai z
t
= T x P x S + I. Do vậy, để phân tích và nghiên cứu
hành vi cũng nhƣ dự báo biến động của chuỗi thời gian thì cần thiết phải ƣớc
lƣợng đƣợc các thành phần nói trên trong chuỗi thời gian và cách thức kết hợp
chúng với nhau trong chuỗi.
Bƣớc 2: Làm trơn số liệu.
Sau khi xác định đƣợc các thành phần trên trong chuỗi thời gian tiếp theo
phải tiến hành làm trơn dữ liệu. Tức là loại trừ đƣợc thành phần xu thế và mùa vụ
trong chuỗi thời gian. Chuỗi thu đƣợc sau cùng không còn chứa các thành phần
đó (chuỗi đƣợc làm trơn) sẽ khiến cho việc phân tích dễ dàng hơn.
Bƣớc 3: Chọn lựa, ƣớc lƣợng và đánh giá mô hình.
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình đƣợc lựa chọn là
“tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu

đƣợc dễ dàng. Sau đó thực hiện ƣớc lƣợng các tham số, phần dƣ cho mô hình vừa
chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá. Mô hình ƣớc
lƣợng đƣợc đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với chuỗi dữ
liệu quan sát thực.
Bƣớc 4: Dự báo.
Dựa trên mô hình thực hiện dự báo giá trị tƣơng lai cho chuỗi thời gian, phân
tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết. Xác định
độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin cậy của dự báo
tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.
Bƣớc 5: Ứng dụng mô hình dự báo vào trong thực tế.
Trên cơ sở các dự báo về các giá trị tƣơng lai của hiện tƣợng nghiên cứu đề
ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị

- 13 -
[2]
[9][3]
















0k ,0
0k ,1
p
0k ,0
0k ,
)aacov(
t ,)avar(
t ,0)a(E
k
2
a
kttk
2
at
t
quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô hình để
đƣa ra dự báo tốt hơn.
1.5. Các mô hình chuỗi thời gian đơn giản.
1.5.1. Nhiễu trắng .
Chuỗi thời gian là nhiễu trắng nếu nó hầu nhƣ không thể hiện một cấu trúc,
hình mẫu rõ rệt nào cũng nhƣ không có bất kỳ sự tự tƣơng quan nào trong chuỗi.
Chuỗi nhiễu trắng, ký hiệu a
t
, là dãy các biến ngẫu nhiên có phân phối đồng nhất
độc lập (Independent Identical Distribution - i.i.d), với các đại lƣợng đặc trƣng
nhƣ sau:

Nhiễu trắng a
t
đƣợc ký hiệu
),0(WN~a
2
t a

Hình 2 - Chuỗi nhiễu trắng.
Trong thực tế, rất hiếm chuỗi thời gian là nhiễu trắng, nhƣng nó lại là công
cụ cơ bản để tạo ra mô hình phức tạp.
1.5.2.Mô hình bước ngẫu nhiên .
Mô hình bƣớc ngẫu nhiên là mô hình mà giá trị sinh ra từ nó đƣợc xác định
bằng giá trị của quan sát ngay trƣớc nó cộng thêm nhiễu trắng:
t1tt
azz 


trong đó, t = 1,2, a
t
là nhiễu trắng, a
t
và z
t
không tƣơng quan với nhau.
Đại lượng đặc trưng cho mô hình bước ngẫu nhiên:

- Kỳ vọng:
)z(E)a(E)z(E)z(E
1tt1tt 

, là không đổi.
(1.14)

- 14 -
- Phƣơng sai: Mô hình bƣớc ngẫu nhiên viết lại dƣới dạng truy hồi nhƣ sau:
101
azz 

120212
aazazz 

t210t
a aazz 

)avar( )avar()zvar()a aazvar()zvar(
t10t210t


Do z
0
là hằng số nên var(z

0
) = 0, các a
t
là nhiễu trắng, vì thế phƣơng sai của
z
t
đƣợc tính là:
2
at
t)zvar( 

- Hiệp phƣơng sai: Nhân 2 vế của (1.14) với z
t-1
sau đó lấy cov cả 2 vế đƣợc:

)zacov()zzcov()zzcov(
1tt1t1t1tt 


2
a1t1t1tt
)1t(0)zzcov()zzcov( 

, do a
t
và z
t-1
theo giả thiết không tƣơng
quan với nhau nên cov(a

t
, z
t-1
) = 0.
và cuối cùng thu đƣợc:
2
aktt
)kt()zzcov( 


- Tự tƣơng quan:
t
kt
t
)kt(
)zvar(
)zzcov(
2
a
2
a
t
ktt
k







1.5.3.Bước ngẫu nhiên có bụi.
Mô hình bƣớc ngẫu nhiên có bụi là mô hình bƣớc ngẫu nhiên cộng thêm một
hằng số α:
t1tt
azz 


1.6. Một số phương pháp kiểm định thống kê.
Xét mô hình tổng quát:
tt21t
azy 

trong đó, giả định a
t
là nhiễu trắng,
1

là hệ số chặn và
2

là hệ số góc. Các
kiểm định thống kê cho mô hình trên gồm:
(1.15)
(1.16)

- 15 -

1.6.1.Kiểm định T.
Do các hệ số
1

,
2

là tổng thể, chúng chỉ có thể ƣớc lƣợng đƣợc qua từng
mẫu cụ thể, gọi là hệ số ƣớc lƣợng mẫu
1
ˆ

,
2
ˆ

. Khi thực hiện các ƣớc lƣợng này,
điều đƣợc quan tâm hơn cả là hệ số ƣớc lƣợng này có bằng 0 hay không? Kiểm
định T còn đƣợc gọi là kiểm định ý nghĩa của hệ số ƣớc lƣợng trong mô hình, với
giả thiết kiểm định thống kê H
0
:
0
j

để kiểm chứng điều đó.
Thống kê
jj
ˆ
j

ˆ
jj
ˆ
ˆ
ˆ
ˆ
T








trong đó,
j
ˆ

là hệ số ƣớc lƣợng mẫu j và
j
ˆ
ˆ


là phƣơng sai ƣớc lƣợng của hệ
số ƣớc lƣợng mẫu j, thống kê T tuân theo phân phối chuẩn T với n - 1 bậc tự do.
Với mức ý nghĩa

cho trƣớc, tra bảng phân phối T xác định giá trị tới

hạn
)1n(T
2/


. Nếu
)1n(TT
2/


thì bác bỏ giả thiết H
0
, còn ngƣợc lại chấp nhận
giả thiết H
0
nghĩa là phải loại trừ biến có hệ số ƣớc lƣợng
j
ˆ

khỏi mô hình
1.6.2.Kiểm định F.
Kiểm định T không dùng để kiểm định giả thiết gộp là các hệ số ƣớc lƣợng
đồng thời bằng 0 mà phải dùng kiểm định F, cụ thể với giả thiết H
0
:
0
21

, thì
Thống kê

)kn/()R1(
)1k/(R
F
2
2




trong đó, R
2
là hệ số R
2
, n là số các quan sát, k là số các tham biến trong mô
hình (trong mô hình trên có hai tham biến nên k = 2), sẽ có phân phối chuẩn F với
k-1 và n-k bậc tự do. Với mức ý nghĩa

cho trƣớc, tra bảng phân phối F xác
định giá trị tới hạn
)kn,1k(F 

. Nếu
)kn,1k(FF 

thì bác bỏ giả thiết H
0
,
ngƣợc lại chấp nhận giả thiết H
0
.

(1.18)
(1.17)

- 16 -
1.6.3.Kiểm định Q.
Kiểm định Q với giả thiết H
0
là: không có tự tƣơng quan trong chuỗi cho đến
bậc k:
0 :H
k210

(tự tƣơng quan đồng thời thời bằng 0 cho đến trễ k).
Giả thiết H
0
đƣợc kiểm định bằng thống kê:



k
1j
2
j
ˆ
nQ

trong đó, n là số các quan sát, k là số các trễ,

j
ˆ

là tự tƣơng quan mẫu. Thống
kê Q có phân bố xấp xỉ với k bậc tự do và với mức ý nghĩa

cho trƣớc tra
bảng phân phối , tìm ra
)k(
2


. Giả thiết H
0
bị bác bỏ nếu nhƣ thống kê
.
Một dạng khác của thống kê Q là thống kê Ljung-Box (LB). Đƣợc tính theo
công thức:





k
1j
2
j
LB
jn
ˆ

)2n(nQ

trong đó n là số các quan sát,
j
ˆ

là tự tƣơng quan mẫu bậc j. So sánh giá trị
của thống kê Q
LB
đƣợc tính với giá trị tới hạn trong bảng giá trị thống kê , có thể
kết luận về sự tƣơng quan trong chuỗi.
Kiểm định Q
LB
thƣờng đƣợc dùng để kiểm tra tính chất nhiễu trắng của
chuỗi thời gian. Trong thực tế, khi kiểm định sự tự tƣơng quan phải lựa chọn bậc
trễ k phù hợp cho kiểm định. Nếu chọn bậc trễ k quá nhỏ kiểm định có thể không
phát hiện tƣơng quan ở các bậc cao hơn và ngƣợc lại chọn bậc trễ k quá lớn có thể
khiến cho việc kiểm định có hiệu quả thấp do bởi tƣơng quan có nghĩa tại một trễ
có thể bị che khuất bởi các tƣơng quan không có nghĩa tại các trễ khác.
1.6.4.Kiểm định Durbin-Watson .
Giả sử chuỗi a
t
không phải là chuỗi nhiễu trắng nhƣ giả định, mà ngay bản
thân nó vẫn còn chứa quan hệ tự tƣơng quan, làm thế nào có thể phát hiện ra quan
(1.19)
(1.20)
[1]
)k(
2


2

2

)k(Q
2



- 17 -
]4 ,0[ d
)1(2
a
aa
22d
2
t
1tt




hệ tƣơng quan này? Để từ đó khai thác đƣợc những thông tin thêm đƣa vào mô
hình. Kiểm định Durbin-Watson đƣợc sử dụng để phát hiện tự tƣơng quan trong
chuỗi a
t
.

Kiểm định giả thiết H
0
: không có sự tự tƣơng quan trong chuỗi a
t
. Kiểm định
Durbin-Watson thực hiện trên mô hình tự hồi qui bậc nhất của chuỗi a
t
nhƣ sau:
t1tt
aa 


trong đó,




2
t
1tt
a
aa
,
11 

, là hệ số tự hồi qui mẫu,
t

là nhiễu trắng.
Thống kê d đƣợc tính toán:






2
t
2
1tt
a
)aa(
d


 



2
t
2
1t1tt
2
t
a
aaa2a
d

Với giả định là

2
1t
2
t
a~a

thì và vì
11 

thì rõ ràng là
giá trị
Durbin-Watson đƣa ra bảng giá trị Durbin-Watson với các cận giới hạn (d
L
,
d
U
) đƣợc tính toán sẵn trên cơ sở số các quan sát mẫu và số các tham biến trong
mô hình, kết hợp với giá trị đƣợc tính toán d có thể kết luận về sự tự tƣơng quan
trong chuỗi a
t
, nhƣ sau:
- Chấp nhận giả thiết H
0
khi
UU
d4dd 
(không có tự tƣơng quan bậc nhất
trong chuỗi)

- Bác bỏ giả thiết H

0
(có sự tự tƣơng quan bậc nhất trong chuỗi a
t
) nếu :
4 - d
L

d hoặc d

d
L

- Trong trƣờng hợp d
L

d

d
U
hoặc 4 - d
U

d

4 - d
L
không cho kết luận
gì.
Kiểm định Durbin-Watson có một vài nhƣợc điểm đó là chỉ kiểm định đƣợc
sự tự tƣơng quan bậc nhất trong chuỗi và nó không chấp nhận biến phụ thuộc ở

(1.21)
[3]
(1.22)

- 18 -
bên phải của mô hình. Để khắc phục điều nó ngƣời ta cải tiến nó thành kiểm định
Breusch-Godfrey LM.
1.6.5.Kiểm định nghiệm đơn vị .
Xét mô hình tự hồi qui
t1tt
azz 

, a
t
là nhiễu trắng.
Nếu ρ = 1, khi đó z
t
là quá trình bƣớc ngẫu nhiên, có một nghiệm đơn vị. Do
vậy, để kiểm định nghiệm đơn vị của z
t
ta kiểm định:
Giả thiết H
0
: ρ = 1 / Đối thiết H
1
: ρ < 1
Trừ 2 vế (1.23) cho z

t – 1
đƣợc: , ký hiệu thì

t1tt
azz 


Giả thiết kiểm định H
0
bên trên tƣơng đƣơng với kiểm định:
Giả thiết H
0
: δ = 0 / Đối thiết H
1
: δ < 0
Nếu giả thiết H
0
đƣợc chấp nhận tức là ∆z
t
= a
t
thì chuỗi ban đầu có nghiệm
đơn vị.
Để tìm chuỗi không dừng thì hoặc là ta sẽ ƣớc lƣợng (1.23) với giả thiết
kiểm định H
0
là p = 1 hoặc là ƣớc lƣợng (1.24) và giả thiết kiểm định H
0
là
δ = 0. Trong cả hai trƣờng hợp ta đều không dùng đƣợc tiêu chuẩn kiểm định T

ngay trong trƣờng hợp mẫu lớn. Dickey-Fuller (DF) đƣa ra tiêu chuẩn kiểm định
giả thiết nhƣ sau:
H
0
: p = 1 (có nghiệm đơn vị) / H
1
: p ≠ 1 (không có nghiệm đơn vị)
Ƣớc lƣợng bằng mô hình (1.23) thì


ˆ
ˆ
/
ˆ
, với

ˆ
là hệ số ƣớc lƣợng mẫu và


ˆ
ˆ
là độ lệch chuẩn, có phân bố Dickey-Fuller. Với mức ý nghĩa

cho trƣớc tra
bảng phân bố Dickey-Fuller tìm giá trị tới hạn


, nếu
|||

ˆ
/
ˆ
|
ˆ




thì bác bỏ giả
thiết H
0
trong trƣờng hợp đó không có nghiệm đơn vị.
Tiêu chuẩn DF đƣợc áp dụng cho các mô hình sau:
(1.23)
(1.24)
t1t1ttt
az)1(zzz 

1

- 19 -
-
- , mô hình có hệ số chặn.
- , mô hình có hệ số chặn và xu thế
Đối với các mô hình trên nếu giả thiết H
0

đƣợc chấp nhận thì chuỗi ban đầu
có ít nhất một nghiệm đơn vị. Nếu các a
t
lại có tự tƣơng quan với nhau thì kiểm
định DF thực hiện trên mô hình cải biên sau:
t
m
1i
iti1t1t
zztz 




Tiêu chuẩn DF áp dụng cho mô hình này đƣợc gọi là tiêu chuẩn ADF
(Argumented Dickey-Fuller).
1.6.6.Tiêu chuẩn thông tin Akaike (AIC), Schwarz (SIC) .
Làm thế nào chọn đƣợc mô hình đƣợc cho là tối ƣu nhất trong nhiều mô hình
ứng cử, hai tiêu chuẩn AIC, SIC là những tiêu chuẩn cho phép chọn lựa đƣợc một
mô hình đƣợc cho là tối ƣu nhất.
- Tiêu chuẩn
n
k2
ˆ
log)k(AIC
2


- Tiêu chuẩn
n

nlogk
ˆ
log)k(SIC
2


trong đó k là số các tham số trong mô hình, n là số các quan sát trong mẫu,
2
ˆ

là ƣớc lƣợng phƣơng sai (độ lệch) của mô hình.
Tiêu chí để chọn lựa mô hình hợp lý trong nhiều mô hình ứng cử là chọn giá
trị k (số các tham số) của mô hình ứng cử mà có giá trị AIC(k), SIC(k) là nhỏ
nhất.
(1.25)
[10]
t1tt
azz 

t1tt
azz 

t1t1t
aztz 


- 20 -

1.7. Kết luận.
Trong chƣơng 1 trình bày định nghĩa chuỗi thời gian, dự báo chuỗi thời gian
và giới thiệu một số lĩnh vực trong thực tế có ứng dụng việc phân tích, dự báo
chuỗi thời gian. Các bƣớc tổng quát để tiến hành phân tích chuỗi thời gian và một
số mô hình chuỗi thời gian đơn giản cũng nhƣ các đại lƣợng đặc trƣng nhƣ trung
bình, phƣơng sai, tự tƣơng quan, tự tƣơng quan từng phần…cho chuỗi thời gian
và công thức xác định chúng cũng đƣợc chỉ ra trong chƣơng này. Phần cuối của
chƣơng, đề cập đến các phƣơng pháp kiểm định giả thiết đặc trƣng cho mô hình
chuỗi thời gian nhƣ Durbin-Watson, kiểm định T, kiểm định Q, kiểm định
nghiệm đơn vị Dickey-Fuller và khoảng tới hạn để giả thiết kiểm định đƣợc chấp
nhận.
Trong chƣơng tiếp theo của luận văn sẽ trình bày một mô hình điển hình
đƣợc sử dụng để dự báo cho chuỗi thời gian đó là mô hình tích hợp trung bình
trƣợt tự hồi qui (ARIMA) thƣờng và theo mùa vụ.

Phát hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về