BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
TRẦN ANH TÚ
NGHIÊN CỨU MÔ HÌNH DỰ BÁO CHUỖI
THỜI GIAN VÀ ỨNG DỤNG VÀO BÀI TOÁN
DỰ BÁO CHỈ SỐ GIÁ TIÊU DÙNG
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI, 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
TRẦN ANH TÚ
NGHIÊN CỨU MÔ HÌNH DỰ BÁO CHUỖI
THỜI GIAN VÀ ỨNG DỤNG VÀO BÀI TOÁN
DỰ BÁO CHỈ SỐ GIÁ TIÊU DÙNG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học:
TS. Nguyễn Long Giang
HÀ NỘI, 2016
LỜI CẢM ƠN
Để hoàn thành được luận văn này, trước hết em xin gửi lời cảm ơn sâu
sắc nhất tới thầy giáo TS. Nguyễn Long Giang, Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam người đã tận tình hướng
dẫn, chỉ bảo, định hướng, đóng góp những ý kiến quý báu trong suốt quá trình
thực hiện luận văn.
Em xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công nghệ
thông tin, Phòng Đào tạo Sau đại học Trường Đại học Sư phạm Hà Nội 2 đã
tạo mọi điều kiện tốt nhất để em hoàn thành khóa học. Xin chân thành cảm ơn
những người bạn lớp K18- KHMT, trong 2 năm qua đã luôn động viên, khích
lệ và hỗ trợ em trong quá trình học tập.
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song
chắc chắn luận văn của em vẫn còn nhiều thiếu sót. Em rất mong nhận được
sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được
hoàn thiện hơn.
Hà Nội, ngày 09 tháng 07 năm 2016
Học viên
Trần Anh Tú
LỜI CAM ĐOAN
Tôi xin cam đoan: Đề tài: “Nghiên cứu mô hình dự báo chuỗi thời
gian và ứng dụng vào bài toán dự báo chỉ số giá tiêu dùng” này là công
trình nghiên cứu thực sự của cá nhân Học viên, được thực hiện dưới sự hướng
dẫn khoa học của TS. Nguyễn Long Giang.
Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các phần
được trích dẫn) đều là kết quả làm việc của cá nhân tác giả và chưa từng được
công bố dưới bất kỳ hình thức nào.
Nếu sai tôi xin chịu hoàn toàn trách nhiệm.
Hà Nội, ngày 09 tháng 07 năm 2016
Học viên
Trần Anh Tú
MỤC LỤC
MỞ ĐẦU .......................................................................................................... 1
CHƢƠNG 1: CHUỖI THỜI GIAN VÀ PHÂN TÍCH CHUỖI THỜI
GIAN ................................................................................................................ 4
1.1 Chuỗi thời gian và dự báo chuỗi thời gian ........................................... 4
1.1.1
Định nghĩa chuỗi thời gian .......................................................... 4
1.1.2
Dự báo chuỗi thời gian ................................................................ 5
1.1.3
Đại lượng đặc trưng chuỗi thời gian ........................................... 5
1.2 Phân tích và dự báo chuỗi thời gian ..................................................... 9
1.3 Các mô hình chuỗi thời gian đơn giản ............................................... 10
1.3.1.
Nhiễu trắng ................................................................................ 10
1.3.2.
Mô hình bước ngẫu nhiên ......................................................... 11
1.3.3.
Bước ngẫu nhiên có bụi ............................................................ 11
Kết luận chương 1 ................................................................................... 11
CHƢƠNG 2: MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN ........................ 12
2.1.
Mô hình ARIMA ............................................................................. 12
2.1.1.
Mô hình ARIMA thường .......................................................... 12
2.1.2.
Mô hình ARIMA theo mùa vụ .................................................. 38
2.2.
Mô hình làm trơn hàm mũ HOLT-WINTERS ................................ 45
2.2.1.
Làm trơn hàm mũ dạng đơn giản .............................................. 45
2.2.2.
Làm trơn hàm mũ bậc hai ......................................................... 46
2.2.3.
Làm trơn hàm mũ bậc ba .......................................................... 47
2.3.
So sánh và đánh giá các mô hình dự báo ....................................... 47
2.3.1.
So sánh các bước xây dựng mô hình ARIMA và làm trơn hàm
mũ HOLT – WINTERS .......................................................................... 47
2.3.2.
Chuyển đổi từ mô hình làm trơn hàm mũ HOLT – WINTERS
sang mô hình ARIMA ............................................................................. 48
2.3.3.
Đánh giá các mô hình dự báo.................................................... 49
Kết luận chương 2 ................................................................................... 50
CHƢƠNG 3: ỨNG DỤNG MÔ HÌNH CHUỖI THỜI GIAN VÀO
BÀI
TOÁN DỰ BÁO CHỈ SỐ GIÁ TIÊU DÙNG ............................................. 51
3.1.
Phát biểu bài toán dự báo chỉ số giá tiêu dùng ................................ 51
3.2.
Lựa chọn mô hình ARIMA để xây dựng mô hình dự báo .............. 51
3.3.
Thử nghiệm và đánh giá mô hình .................................................... 52
3.3.1.
Mục đích.................................................................................... 52
3.3.2.
Lựa chọn công cụ Eviews ......................................................... 52
3.3.3.
Chuẩn bị số liệu thử nghiệm (số liệu về chỉ số giá tiêu dùng từ
Tổng cục thống kê).................................................................................. 53
3.3.4.
Thử nghiệm mô hình và đánh giá kết quả................................. 54
Kết luận chương 3 ................................................................................... 69
KẾT LUẬN .................................................................................................... 70
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ........................................... 71
DANH MỤC BẢNG BIỂU
Bảng 2.1: So sánh các bước xây dựng mô hình Holt - Winters và ARIMA .. 48
Bảng 2.2: Chuyển đổi từ mô hình làm trơn hàm mũ HOLT – WINTERS sang
mô hình ARIMA ............................................................................................. 48
Bảng 2.3: Đánh giá hai mô hình ..................................................................... 49
Bảng 3.1: Chỉ số giá tiêu dùng từ 01/2006 đến 05/2006 ................................ 54
DANH MỤC HÌNH ẢNH
Bảng 3.1: Chỉ số giá tiêu dùng từ 01/2006 đến 05/2006 ................................ 54
Hình 3.1: Đồ thị chuỗi số liệu chỉ số giá tiêu dùng Việt Nam theo tháng ...... 54
Hình 3.2: Đồ thị chuỗi số liệu chỉ số giá tiêu dùng Việt Nam (theo tháng sau
khi sử dụng hàm biến đổi log .......................................................................... 55
Hình 3.3: ACF và PACF của chuỗi LCPI sử dụng phần mềm Eview ............ 56
Hình 3.4: Kiểm định DF cho chuỗi LCPI ....................................................... 57
Hình 3.5: ACF và PACF của chuỗi DLCPI sử dụng phần mềm Eviews ....... 58
Hình 3.6: Kiểm định DF cho chuỗi DLCPI .................................................... 59
Hình 3.7: Ước lượng mô hình sử dụng phương pháp bình phương nhỏ nhất
bằng phần mềm Eviews .................................................................................. 60
Hình 3.8: Mô hình SARIMA sau khi ước lượng lại ....................................... 61
Hình 3.9: Kiểm định phần dư của mô hình SARIMA .................................... 62
Hình 3.10: Đồ thì chuỗi dự báo DLCPI .......................................................... 63
Hình 3.11: Đồ thị chuỗi dự báo so với đồ thị của chuỗi số liệu thực ............. 68
DANH SÁCH CÁC TỪ NGỮ, THUẬT NGỮ VIẾT TẮT
Từ hoặc cụm từ
Từ viết tắt
Từ tiếng anh
Hàm tự tương quan
ACF
Auto Correllation Function
ADF
Kiểm định DF Argumented
mẫu
Kiểm định DF
Dickey-Fuller
Sai số phần trăm tuyệt
APE
Absolute Percent Error
Tự hồi quy
AR
AutoRegression
Tích hợp trung bình
ARIMA
AutoRegressive Integrated
đối
trượt tự hồi quy
Trung bình trượt tự hồi
MovingAverage
ARMA
AutoRegressive Moving Average
Trung bình trượt
MA
Moving Average
Hàm tự tương quan
PACF
Partial Auto Correllation Function
quy
từng phần
Tự hồi quy theo mùa vụ SAR
Seasonal AutoRegressive
Tích hợp trung bình
Seasonal AutoRegressive
SARIMA
trượt tự hồi quy theo
Integrated Moving Average
mùa vụ
Trung bình trượt theo
mùa vụ
SMA
Seasonal Moving Average
MỞ ĐẦU
Trong giai đoạn hiện nay, nền kinh tế ngày càng phát triển, đặc biệt là
các lĩnh vực dịch vụ, tài chính, ngân hàng… Kinh tế thế giới đang có nhiều
biến động, khủng hoảng do thị trường tài chính mang lại. Song hành với đó là
nhu cầu đầu tư, mở rộng sản xuất ngày càng lớn. Nhu cầu dự báo về các đại
lượng kinh tế càng mở rộng làm cơ sở cho việc hoạch định chính sách, vạch
kế hoạch kinh doanh đầu tư.
Việc dự báo một đại lượng biến thiên theo thời gian nói chung và dự báo
nhu cầu nói riêng đóng một vài trò rất quan trọng trong kinh tế và kỹ thuật.
Chúng giúp cho những người ra quyết định, các nhà doanh nghiệp tiên đoán
một cách khoa học xu hướng phát triển trong tương lai của các nhu cầu, của
thị trường và từ đó người ta có thể hoạch định các chính sách, phướng hướng
đầu tư một cách đúng đắn. Đặc biệt là với mặt hàng đồ tiêu dùng thì việc dự
báo chỉ số giá tiêu dùng vô cùng quan trọng, nó giúp cho những doanh
nghiệp, những nhà kinh tế cân bằng được cung cầu và tránh được tình trạng
lạm phát xảy ra.
Các bài toán dự báo về các đại lượng kinh tế khi được mô hình hóa
thường là những bài toán có kích thước lớn, phức tạp, có thể áp dụng nhiều
mô hình lý thuyết. Do vậy việc giải những bài toán này đòi hỏi phải lựa chọn
mô hình phù hợp và hiệu quả.
Với sự bùng nổ về thông tin và dữ liệu về kinh tế - xã hội, để dự báo
chính xác và kịp thời tình hình biến động của kinh tế - xã hội Việt Nam và thế
giới phục vụ công tác chỉ đạo, điều hành về kinh tế của Chính phủ thì việc
ứng dụng các phương tiện kỹ thuật và công nghệ của Công nghệ thông tin
nhằm phát hiện tri thức mới từ dữ liệu kinh tế - xã hội hiện tại và quá khứ là
cách tiếp cận đang được các nhà nghiên cứu và ứng dụng Việt Nam hết sức
quan tâm. Luận văn này nằm trong hướng nghiên cứu ứng dụng đó.
Như đã biết các dữ liệu phát triển kinh tế - xã hội là phụ thuộc thời
gian, được thu thập định kỳ theo tháng, quý, năm và có tính mùa vụ rất rõ.
1
Cho nên Chuỗi thời gian đang được sử dụng như một công cụ hữu hiệu để
phân tích trong kinh tế - xã hội cũng như trong nghiên cứu khoa học.
Việc phân tích và dự báo chuỗi thời gian về kinh tế - xã hội, hiện có
bốn mô hình đang được đặc biệt quan tâm, đó là Mô hình quy hồi chuỗi thời
gian, mô hình tích hợp trung bình trượt tự quy hồi ARIMA, mô hình tự quy
hồi vecto VAR và mô hình làm trơn hàm mũ Holt-Winters. Trong đó, mô
hình ARIMA và mô hình làm trơn hàm mũ Hotl-Winters đang được xem là
hai công cụ hiệu quả nhất trong dự báo chuỗi thời gian. Để ứng dụng việc dự
báo chuỗi thời gian vào nền kinh tế thị trường hiện nay, tôi xin chọn đề tài
Luận văn: “Nghiên cứu mô hình dự báo chuỗi thời gian và ứng dụng vào
bài toán dự báo chỉ số giá tiêu dùng” để nghiên cứu các mô hình dự báo
chuỗi thời gian và ứng dụng để dự báo biến động về chỉ số giá tiêu dùng.
Dự kiến luận văn gồm: Phần mở đầu, ba chương chính, phần kết luận,
tài liệu tham khảo. Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.
Chương 1: Chuỗi thời gian và Phân tích chuỗi thời gian, sẽ giới thiệu
một cách tóm tắt những khái niệm chủ yếu liên quan đến chuỗi thời gian và
các bước tiến hành phân tích và dự báo chuỗi thời gian, giới thiệu một số mô
hình chuỗi thời gian đơn giản và một số kiểm định thống kê sử dụng cho phân
tích, dự báo dữ liệu chuỗi thời gian. Chi tiết của những khái niệm này có thể
được tham khảo trong phần phụ lục.
Chương 2: Mô hình dự báo chuỗi thời gian. Nội dung chính của chương
là trình bày hai mô hình dự báo: Mô hình ARIMA và mô hình làm trơn hàm
mũ HOLT – WINTERS , so sánh và đánh giá hai mô hình dự báo để lựa chọn
được mô hình dự báo dữ liệu chuỗi thời gian có tính chất xu thế và tính chất
mùa vụ.
Chương 3: Ứng dụng mô hình dự báo chuỗi thời gian vào bài toán dự
báo chỉ số giá tiêu dùng. Chương này tập trung trình bày bài toán dự báo chỉ
số giá tiêu dùng và qui trình ứng dụng mô hình ARIMA để dự báo chỉ số giá
2
tiêu dùng theo tháng (CPI). Sử dụng công cụ Eviews để thử nghiệm mô hình
với dữ liệu để dự báo là số liệu thực tế của nền kinh tế do Tổng cục Thống kê
công bố.
Phần kết luận: Tóm tắt các kết quả đạt được, hướng phát triển tiếp theo.
Tài liệu tham khảo.
3
CHƢƠNG 1:
CHUỖI THỜI GIAN VÀ PHÂN TÍCH CHUỖI THỜI GIAN
Phân tích, dự báo chuỗi thời gian có thể được chia làm hai loại: Phân
tích, dự báo theo mức thời gian và phân tích mối liên hệ nguyên nhân - kết
quả. Phương pháp dự báo theo mức thời gian liên quan đến việc dự báo các
giá trị tương lai của yếu tố được nghiên cứu dựa trên sự tương quan với các
quan sát trong quá khứ và hiện tại. Trong khi đó phân tích mối liên hệ nhân
quả liên quan đến việc xác định các nhân tố khác ảnh hưởng đến yếu tố muốn
dự báo, như dùng phương pháp phân tích hồi qui bội xem xét GDP phụ thuộc
vào lượng đầu tư trong nước, lượng đầu tư nước ngoài, dân số…
Chương này sẽ trình bày sơ lược một số vấn đề chủ yếu liên quan đến
chuỗi thời gian bao gồm khái niệm, dự báo cho chuỗi thời gian và các đại
lượng đặc trưng của nó, tiếp đó trình bày về các mô hình chuỗi thời gian đơn
giản, đưa ra một số phương pháp kiểm định thống kê cho mô hình chuỗi thời
gian.
Chuỗi thời gian và dự báo chuỗi thời gian
1.1
1.1.1
Định nghĩa chuỗi thời gian
Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại:
- Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng
thời gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt,
chúng thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví
dụ chuỗi thời gian được đo theo tuần, quý, tháng, năm, ….
- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong
khoảng thời gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt
kế).
Luận văn này tập trung vào chuỗi dữ liệu phụ thuộc thời gian được đo
trong khoảng thời gian rời rạc và cách đều nhau, gọi là chuỗi thời gian (series
time data)
4
Như vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu
nhiên, ký hiệu là
zt , t 1,..., n
, là số các quan sát, đo được trong các
khoảng thời gian như nhau (hàng năm, quý, tháng, tuần, ngày …) và được xếp
theo thứ tự thời gian.
Ví dụ:
- Chuỗi giá trị tổng sản phẩm quốc nội (GDP) được đo theo từng quý.
- Chuỗi giá trị đo lượng mưa trung bình hàng năm.
- Chuỗi giá trị chỉ số thị trường chứng khoán đo theo ngày.
- Chuỗi giá trị đo sản lượng điện năng tiêu thụ của Việt Nam đo theo
từng tháng, từng quí trong nhiều năm.
- Chuỗi giá trị về chỉ số giá tiêu dùng của Việt Nam theo từng tháng,
quý trong năm.
1.1.2
Dự báo chuỗi thời gian
Là ước lượng các giá trị của biến ngẫu nhiên chuỗi thời gian
zt h h 1 , ký hiệu là zˆt h , dựa trên sự tương quan với các giá trị của biến
ngẫu nhiên zt đã được quan sát trong quá khứ.
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức
tạp của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất
thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính
xác cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo
gần thì cho độ chính xác của dự báo tốt hơn so với dự báo xa).
1.1.3
Đại lượng đặc trưng chuỗi thời gian
Giả sử có chuỗi thời gian zt gồm n các quan sát, t 1,...,n .
a, Các đại lượng thống kê đặc trưng cho chuỗi thời gian
Kỳ vọng: Đại diện cho giá trị trung tâm trong chuỗi:
5
E zt
(1.1)
Kỳ vọng của tổng thể được tính dựa trên mẫu các quan sát gọi là kỳ vọng
mẫu, như sau:
1 n
z zt
n t 1
(1.2)
Phƣơng sai: Đại diện cho mức độ phân tán các giá trị trong chuỗi xung
quanh kỳ vọng của nó:
2
var zt ˆ z2 E zt
(1.3)
Tương tự, phương sai mẫu được tính:
1 n
2
ˆ zt z
n t 1
2
z
(1.4)
Độ lệch chuẩn: là căn bậc hai của phương sai mẫu:
ˆ 2 ˆ z2
(1.5)
b, Các đại lượng mô tả mối quan hệ giữa các phần tử trong chuỗi
Tự hiệp phƣơng sai: Tự hiệp phương sai giữa hai zt và zt k , giữa
chúng có k 1 quan sát gọi k là độ trễ, được xác định như sau:
z k cov zt , zt k E zt zt k
(1.6)
Trong đó, là kỳ vọng chung của zt và zt k . Tự hiệp phương sai khi
2
độ trễ k 0 chính là phương sai của zt : z 0 cov zt , zt z
Tương tự, tự hiệp phương sai mẫu được tính:
1 nk
ˆz k zt z zt k z , k 1,..., n 1
n t 1
Trong đó,
z là kỳ vọng mẫu của zt và zt k
6
(1.7)
Hàm tự tƣơng quan (ACF): Mô tả tương quan tại trễ k giữa các giá trị
trong chuỗi thời gian, được xác định:
k
E zt zt k
cov zt , zt k z k
2
2
zt ztk
zt ztk
E zt E zt k
Trong đó, z k là tự hiệp phương sai,
(1.8)
zt , ztk lần lượt là độ lệch chuẩn của
zt và zt k
Tự tương quan mẫu được tính theo công thức:
ˆ k
ˆz k
ˆz 0
(1.9)
Một vài tính chất của tự tương quan mẫu:
1. 1 ˆ k 1
2. k 0 ˆ0 1
3. ˆ k ˆ k
Nếu như zt và
zt k không tương quan với nhau thì tự tương quan ˆ k 0 ,
do khi đó cov( zt , zt k ) = 0. Nhưng điều ngược lại chưa hẳn đã đúng.
Dựa trên mối quan hệ tự tương quan giữa các phần tử trong chuỗi mà có thể
xây dựng được các mô hình dự báo chuỗi thời gian.
Hàm tự tƣơng quan từng phần (PACF): Tự tương quan giữa hai biến
zt và zt k gồm k 1 biến trung gian zt 1 , zt 2 ,..., zt k 1 :
k 1
kk
k k 1, j k j
j 1
k 1
, độ trễ k 2,3,...
1 k 1, j j
(1.10)
j 1
kj k 1, j kkk 1,k j , j 1, 2,..., k 1
(1.11)
Giá trị ban đầu: 11 1
7
Bằng tính toán tương tự trên các quan sát mẫu có được tự tương quan từng
phần mẫu ˆkk . Khảo sát tự tương quan từng phần như một hàm với tham số
biến thiên theo độ trễ
k
được gọi là hàm tự tương quan từng phần.
Hệ số R2: Được sử dụng để đo độ thích hợp của mô hình ước lượng.
Giả sử cho mô hình hồi qui chuỗi thời gian yt 1 2 zt at . Hệ số R2 được
tính:
2
n
zi z yi y
R 2 n i 1
n
2
2
zi z yi y
i 1
Trong đó,
(1.12)
i 1
n là số các quan sát, z là kỳ vọng mẫu của biến độc lập zt , y là
2
kỳ vọng mẫu của biến phụ thuộc yt . Dễ dàng thấy 0 R 1 nếu
đến 1 thì mô hình hồi qui được lựa chọn là hợp lý, ngược lại nếu
R 2 tiến
R 2 tiến về 0
thì mô hình được lựa chọn là chưa hợp lý.
Hệ số điều chỉnh
R 2 : Đôi khi hệ số R 2 không phản ánh trung thực mức
độ hợp lý của mô hình, chẳng hạn khi thêm các tham biến được cho là không
hợp lý vào mô hình thì
R 2 không những không giảm mà ngược lại còn tăng
lên. Vì thế hệ số điều chỉnh
R 2 được xem xét để thẩm định rõ sự phù hợp của
mô hình:
R 2 1 1 R 2
n 1
nk
(1.13)
Trong đó, n là số các quan sát của chuỗi thời gian, k là số các tham biến trong
mô hình.
R 2 luôn nhỏ hơn R 2 , và giảm nếu bổ sung thêm biến hồi qui không
hợp lý vào mô hình.
8
1.2 Phân tích và dự báo chuỗi thời gian
Quá trình phân tích, dự báo chuỗi thời gian zt là để tìm ra các mô hình,
luật ẩn trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có
những bước sau:
Bƣớc 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian [4]
- Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng
hoặc giảm của các hiện tượng nghiên cứu trong thời gian dài.
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng
được lặp lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm.
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ
của hiện tượng ở một số thời điểm (tháng, quý, năm) nào đó được lặp đi lặp
lại qua nhiều năm.
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không
có qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng
đang nghiên cứu.
Những thành phần này kết hợp với nhau trong chuỗi thời gian zt bằng
nhiều cách thức khác nhau, chẳng hạn chuỗi thời gian được mô tả là tích các
thành phần, zt T P S I gọi là mô hình tích, hoặc zt T P S I
gọi là mô hình tổng, hoặc kết hợp cả hai zt T P S I . Do vậy, để phân
tích và nghiên cứu hành vi cũng như dự báo biến động của chuỗi thời gian thì
cần thiết phải ước lượng được các thành phần nói trên trong chuỗi thời gian
và cách thức kết hợp chúng với nhau trong chuỗi.
Bƣớc 2: Làm trơn số liệu
Tuỳ theo mô hình dự báo áp dụng mà cần thiết tiến hành bước làm trơn số
liệu hay không ?. Trong trường hợp mô hình dự báo áp dụng cần quá trình
làm trơn số liệu ta tiến hành loại trừ được thành phần xu thế và mùa vụ trong
9
chuỗi thời gian. Chuỗi thu được sau cùng không còn chứa các thành phần đó
(chuỗi được làm trơn) sẽ khiến cho việc phân tích dễ dàng hơn.
Bƣớc 3: Chọn lựa, ƣớc lƣợng và đánh giá mô hình
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn
là “tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể
hiểu được dễ dàng. Sau đó thực hiện ước lượng các tham số, phần dư cho mô
hình vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá.
Mô hình ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần
giống” với chuỗi dữ liệu quan sát thực.
Bƣớc 4: Dự báo
Dựa trên mô hình thực hiện dự báo giá trị tương lai cho chuỗi thời gian,
phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết.
Xác định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin
cậy của dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.
Ứng dụng kết quả dự báo vào thực tế
Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu
đề ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá
trị quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô
hình để đưa ra dự báo tốt hơn.
1.3
1.3.1.
Các mô hình chuỗi thời gian đơn giản
Nhiễu trắng
Chuỗi thời gian là nhiễu trắng nếu nó hầu như không thể hiện một cấu
trúc, hình mẫu rõ rệt nào cũng như không có bất kỳ sự tự tương quan nào
trong chuỗi. Chuỗi nhiễu trắng, ký hiệu at , là dãy các biến ngẫu nhiên có
phân phối đồng nhất độc lập (Independent Identical Distribution - i.i.d)
2
Nhiễu trắng at được ký hiệu at ~ WN 0, a
10
1.3.2.
Mô hình bước ngẫu nhiên
Mô hình bước ngẫu nhiên là mô hình mà giá trị sinh ra từ nó được xác
định bằng giá trị của quan sát ngay trước nó cộng thêm nhiễu trắng:
(1.14)
z z a
t
t 1
t
Trong đó, t 1, 2,... , at là nhiễu trắng,
at và zt không tương quan với
nhau.
1.3.3.
Bước ngẫu nhiên có bụi
Mô hình bước ngẫu nhiên có bụi là mô hình bước ngẫu nhiên cộng thêm
một hằng số α: zt zt 1 at
(1.15)
Kết luận chương 1
Trong chương 1 đã trình bày tóm lược một số khái niệm liên quan đến
chuỗi thời gian, dự báo chuỗi thời gian và giới thiệu một số lĩnh vực trong
thực tế có ứng dụng việc phân tích, dự báo chuỗi thời gian. Các bước chủ yếu
để tiến hành phân tích, dự báo chuỗi thời gian và một số mô hình chuỗi thời
gian đơn giản cũng như các đại lượng đặc trưng như trung bình, phương sai,
tự tương quan, tự tương quan từng phần… cho chuỗi thời gian và công thức
xác định chúng cũng được đề cập đến trong chương này. Chi tiết xin tham
khảo ở phần Phụ lục.
Trong chương tiếp theo của luận văn sẽ trình bày mô hình dự báo dữ liệu
chuỗi thời gian mang tính mùa vụ đang được quan tâm nghiên cứu ứng dụng:
mô hình Arima và mô hình làm trơn hàm mũ Holt-Winters.
11
CHƢƠNG 2:
MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN
2.1. Mô hình ARIMA
Mô hình ARIMA thường
2.1.1.
Mô hình ARIMA được Box và Jenkins phát triển đầu tiên vào cuối
những năm 60 và được hệ thống hóa lại vào năm 1976. ARIMA có nghĩa là
Autoregressive Integrated Moving Average ( tích hợp trung bình trượt tự hồi
quy thường). Mô hình ARIMA được sử dụng trong phân tích, dự báo chuỗi
thời gian bằng cách kết hợp các hành vi quan sát được trong quá khứ, trong
hiện tại và nhiễu hiện tại cộng nhiễu trong quá khứ.
a. Toán tử trễ
Giả sử có chuỗi các quan sát
zt , t 1, 2,..., n
Toán tử trễ, ký hiệu B, là một toán tử thao tác trễn chuỗi thời gian với tính
chất là làm dịch chuyển quan sát tại thời gian t sang quan sát tại thời gian
t – 1. Như vậy về mặt toán học, toán tử B được gọi là toán tử trễ nếu nó thực
hiện phép biến đổi:
Bzt zt 1
Toán tử trễ có các tính chất điển hình sau:
-
B k zt zt k
-
B0 zt zt
Bên cạnh toán tử trễ, cũng có thêm toán tử sai phân được dùng để thao
tác trễn chuỗi thời gian định nghĩa:
- Sai phân bậc 1:
zt zt 1 (1 B) zt
- Sai phân bậc 2:
2 zt (Zt ) zt 2 zt 1 zt 2
- Sai phân bậc d:
d zt ( d 1 zt )
s
- Sai phân theo trễ mùa vụ bậc 1: s zt zt s (1 B ) zt
12
D
s D
- Sai phân theo trễ mùa vụ bậc D: s zt (1 B ) zt
b. Chuỗi thời gian dừng
* Định nghĩa chuỗi thời gian dừng
Trước khi phân tích, mô hình hóa chuỗi thời gian cũng được đưa ra dự
báo từ mô hình phải luôn giả định rằng chuỗi thời gian phải dừng, bởi vì với
chuỗi dừng thì các đại lượng đặc trưng chẳng hạn phương sai, kỳ vọng của nó
mới có nghĩa đồng thời chỉ khi xây dựng mô hình trên chuỗi thời gian dừng
thì dự báo đưa ra mới đáng tin cậy.
Chuỗi thời gian zt (t 1, 2,..., n) được gọi là dừng nếu kỳ vọng,
phương sai không đổi theo thời gian và hiệp phương sai giữa hai quan sát bất
kỳ chỉ phụ thuộc vào khoảng cách (độ trễ và thời gian) giữa t và t – k, không
phụ thuộc vào thời điểm hiệp phương sai được tính, tức là về mặt toán học
chuỗi thời gian zt được gọi là dừng nếu:
- Kỳ vong:
E ( zt ) const t
- Phương sai:
var( zt ) z2
t
- Hiệp phương sai: z (k ) cov( zt zt k ) cov( zq zq k ) t,q | t q
Nếu chuỗi thời gian không thỏa mãn các điều kiện trên thì được gọi là
chuỗi thời gian không dừng. Do vậy tính dừng rất quan trọng khi phân tích
chuỗi thời gian, có một số phương pháp để kiểm định chuỗi thời gian dừng
như sau:
+ Phƣơng pháp 1
Kiểm định dựa trên tương quan đồ của hàm tự tương quan ACF. Barlett
đã chỉ ra rằng, nếu chuỗi là ngẫu nhiên và dừng thì hàm tự tương quan sẽ có
phân bố xấp xỉ với phân bố chuẩn N(0,1/n) (n là các số quan sát). Do vậy,
nếu chuỗi là dừng thì 95% tự tương quan mẫu sẽ nằm trong khoảng giới hạn
1.96 / n . Còn ngược lại thì chuỗi không phải là dừng khi có nhiều tự tương
quan mẫu nằm ngoài khoảng giới hạn này.
13
Tính chất đặc trưng hàm ACF với tham số trễ k của chuỗi không dừng
là nó giảm rất chậm khi k tăng và PACF thì có xu thế đạt điểm cực đại tại độ
trễ 1.
+ Phƣơng pháp 2
Có thể kiểm tra chuỗi dừng bằng kiểm định đơn vị DF. Nếu có tồn tại
nghiệm đơn vị trong chuỗi thì kết luận đó là chuỗi không dừng.
+ Phƣơng pháp 3
Dùng kiểm định Q để kiểm tra tính dừng của chuỗi.
* Phương pháp biến đổi chuỗi thời gian dừng
Thực hiến bằng một trong các phương pháp sau để biến đổi chuỗi
không dừng thành chuỗi dừng.
+ Phƣơng pháp khử xu thế
Tính xu thế trong chuỗi thời gian là một nguyên nhân chủ yếu làm cho
chuỗi không dừng. Giả sử mô hình ước lượng biểu diễn chuỗi thời gian không
dừng zt theo xu thế tuyến tính như sau:
zˆt ˆ1 ˆ2t
Trong đó, ˆ1 , ˆ2 lần lượt là ước lượng của hệ số chặn và hệ số góc. Để
biển đổi chuỗi không dừng zt thành chuỗi dừng một cách tự nhiên là kiểm
định chuỗi phần dư thu được aˆt zt ˆ1 ˆ2t có phải là dạng chuỗi dừng
hay không.
Ngoài ra xu thế cũng được biểu diễn mô tả bằng hàm đa thức, đường
cong tuyến tính, hàm mũ... Và phương pháp loại trừ những xu thế này trong
chuỗi để biến đổi thành chuỗi dừng cũng được thực hiện theo cách tương tự.
+ Phƣơng pháp sai phân
Đây là phương pháp rất phổ biến thực hiện biến đổi chuỗi không dừng
thành chuỗi dừng .
14
Loại bỏ thành phần xu thế trong chuỗi: áp dụng toán tử sai phân bậc d
( d 1 ):
D zt (1 B)d zt
Loại bỏ thành phần mùa vụ trong chuỗi: Áp dụng toán tử sai phân theo
trễ mùa vụ bậc D ( D 1 ):
sD zt (1 B s ) D zt
Loại trừ thành phần mùa vụ và xu thế trong chuỗi: áp dụng kết hợp toán
tử sai phân bậc d và sai phân trễ theo mùa vụ bậc D:
d sD zt ( zt zt 1 )d ( zt zt s ) D (1 B)d (1 B s ) D zt
+ Phƣơng pháp hàm biến đổi
Chuỗi không dừng có thể có nguyên nhân bởi các dao động trong chuỗi
không ổn định. Do đó hàm biến đổi được sử dụng để tác động khiến dao động
trong chuỗi trở nên ổn định hơn. Một tập hợp các hàm biến đổi được Box –
Cox đưa ra, trong đó hàm zt log( zt ) hoặc zt
c.
zt được sử dụng chủ yếu.
Quá trình tuyến tính
Chuỗi thời gian zt là một quá trình tuyến tính, nếu biểu diễn toán học
có dạng:
zt
a
j
j t j
(B) a t t
Trong đó:
at là nhiễu trắng
là các hằng số thỏa mãn điểu kiện |
j
j
B là toán tử trễ với ( B)
15
j
j
Bj
j
|
Chuỗi thời gian nhiễu trắng nếu nó hầu như không thể hiện một cấu
trúc, hình mẫu rõ rệt nào, cũng như không có bất kỳ sự tương quan nào trong
chuỗi.
Một quá trình trình tuyến tính được gọi là quá trình trung bình trượt
MA , nếu j 0 khi j < 0 và được viết zt j j at j
j 0
Trong trường hợp này, toán tử B được xem xét như một bộ lọc
tuyến tính mà đầu ra ( Output) là chuỗi các giá trị quan sát zt khi áp dụng
cho chuỗi đầu vào (Input) là nhiễu trắng at . Điều đó chứng tỏ rằng bộ lọc
tuyến tính tạo đầu ra là chuỗi dừng khi áp dụng với bất kỳ một chuỗi đầu vào
dừng.
d. Quá trình tự hồi quy – AR (p)
Quá trình tự hồi quy là quá trình trong đó dự báo giá trị dựa trên các giá
trị trong quá khứ của nó. Mô hình bước ngẫu nhiên (là mô hình mà giá trị sinh
ra từ nó được xác định bằng giá trị của quan sát ngay trước nó cộng thêm
nhiễu trắng) là một trường hợp đặc biệt của quá trình tự hồi quy.
+ Quá trình tự hồi quy bậc một – AR(1)
Giả s ử zt là một chuỗi dừng và các phần tử trong chuỗi có tồn tại
mối quan hệ phụ thuộc tuyến tính vào phần tử ngay trước đó của nó công với
nhiễu trắng và được biểu diễn tuyến tính đơn giản như sau:
zt zt 1 at
16