MÔ HÌNH ARIMA VỚI PHƯƠNG PHÁP BOX – JENKINS VÀ
ỨNG DỤNG ĐỂ DỰ BÁO LẠM PHÁT CỦA VIỆT NAM
ARIMA MODELS - THE BOX-JENKINS APPROACH AND ITS APPLICATION
TO FORECAST INFLATION IN VIETNAM
ÔNG NGUYÊN CHƯƠNG
Trường Đại học Kinh tế, Đại học Đà Nẵng
TÓM TẮT
Sự tác động của lạm phát có cả tích cực và tiêu cực theo những cách thức khác nhau tùy thuộc
vào cấu trúc của nền kinh tế, khả năng thích ứng với sự thay đổi liên tục của lạm phát và mức
độ tiên liệu một cách toàn diện về lạm phát. Vì vậy, dự báo lạm phát không chỉ có ý nghĩa trong
việc cung cấp các thông tin cho những nhà hoạch định chính sách mà còn đối với cả các nhà
kinh doanh trong việc điều chỉnh các chiến lược; Và tính ổn định kinh tế vĩ mô có liên quan đến
mức độ tương đồng hay khác biệt giữa các dự báo về lạm phát của các nhà kinh doanh và của
các nhà hoạch định chính sách. Mô hình ARIMA với phương pháp Box-Jenkins được ứng dụng
để dự báo lạm phát hàng tháng của Việt Nam với dữ liệu từ Tổng cục Thống kê.
ABSTRACT
Inflation has positive and negative effects on economy in different ways. These effects depend
on the structure of economy, the adaptability and anticipation of inflation. Therefore, forecasting
inflation provides useful information for policy makers as well as businessmen; in addition,
macroeconomic stability is associated with the convergence or the divergence in inflation, and
expectations of businessmen and policy makers. The ARIMA models-The Box-Jenkins
approach are applied to forecast monthly inflation in Vietnam based on the data from the
General Statistics Office of Vietnam (GSO).
1. Giới thiệu
Nhiều nghiên cứu, đặc biệt là các nghiên cứu thực nghiệm cho thấy sự tác động của lạm
phát có cả tích cực và tiêu cực theo những cách thức khác nhau tùy thuộc vào cấu trúc của nền
kinh tế, khả năng thích ứng với sự thay đổi liên tục của lạm phát và mức độ tiên liệu một cách
toàn diện về lạm phát. Lạm phát cao có xu hướng làm thay đổi các cân bằng thực của nền kinh
tế làm chệch hướng các nguồn lực khi thực hiện các giao dịch; giảm tín hiệu thông tin về giá
tương đối vì vậy dẫn đến tình trạng phân bổ nguồn lực không hiệu quả. Khi lạm phát tăng làm
giá trị của tiền giảm khiến chức năng là đơn vị hạch toán của tiền thay đổi, điều này làm cho
việc hạch toán chi phí-lợi nhuận của doanh nghiệp trở nên khó khăn; tác hại của lạm phát
không dự kiến được gia tăng sự bất ổn định, dẫn đến tình trạng tái phân phối của cải một cách
tùy tiện (chẳng hạn, khi lạm phát cao hơn so với dự kiến người đi vay được lợi và người cho
vay bị thiệt).
Vì vậy, dự báo lạm phát không chỉ có ý nghĩa trong việc cung cấp các thông tin đối với
những nhà hoạch định chính sách kinh tế vĩ mô mà còn đối với cả các nhà kinh doanh trong
việc điều chỉnh các chiến lược kinh doanh.
Có nhiều phương pháp tiếp cận trong phân tích và dự báo lạm phát. Mục đích của bài
viết này nhằm ứng dụng mô hình ARIMA với phương pháp Box-Jenkins để dự báo lạm phát ở
Việt Nam.
George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình ARIMA (Autoregressive
Integrated Moving Average - Tự hồi qui tích hợp Trung bình trượt), và tên của họ thường
được dùng để gọi tên các quá trình ARIMA tổng quát, áp dụng vào việc phân tích và dự báo
các chuỗi thời gian. Phương pháp Box-Jenkins với bốn bước lặp: nhận dạng mô hình thử
nghiệm; ước lượng; kiểm định bằng chẩn đoán; và dự báo.
2. Dự báo lạm phát của Việt Nam
2.1. Nhận dạng mô hình
Trong thực tế, chúng ta phải đối mặt với hai câu hỏi quan trọng: (1) Bằng cách nào
chúng ta xác định được một chuỗi thời gian là dừng; (2) Nếu chúng ta xác định được một chuỗi
thời gian không dừng, thì có cách nào để có thể làm cho chúng trở nên dừng.
Mặc dù có nhiều cách để kiểm tra tính dừng, nhưng có hai cách được sử dụng phổ biến
nhất là đồ thị (phân tích đồ thị và kiểm định bằng đồ thị tương quan (correlogram) và kiểm định
nghiệm đơn vị (unit root test)
1
(Gujarati, 2003).
Toán tử dịch chuyển lùi và sai phân (Back-shift Operator and Differences)
Điều trước tiên cần phải lưu ý là hầu hết các chuỗi thời gian đều không dừng, và các
thành phần AR và MA của mô hình ARIMA chỉ liên quan đến các chuỗi thời gian dừng. Cho
nên, cần phải có một ký hiệu phân biệt những chuỗi thời gian không dừng gốc với những chuỗi
tương ứng có tính dừng của nó sau khi biến đổi sai phân.
Một ký hiệu rất hữu ích là toán tử dịch chuyển lùi (trễ), L, được dùng như sau:
LY
t
=Y
t – 1
; nói cách khác, L, thực hiện trên Y
t
, có tác dụng dịch chuyển dữ liệu trở lại
một thời đoạn.
Áp dụng L trên Y
t
hai lần sẽ dịch chuyển dữ liệu trở lại 2 thời đoạn: L(LY
t
)=L
2
Y
t
=Y
t - 2
Đối với dữ liệu tháng, nếu dịch chuyển đến “cùng tháng trong năm trước”, thì dùng L
12
,
và ký hiệu là L
12
Y
t
= Y
t-12
.
Toán tử dịch chuyển lùi thuận tiện trong việc mô tả quá trình tính sai phân.
Sai phân bậc nhất: ∆Y
t
= Y
t
- Y
t - 1
Sử dụng toán tử dịch chuyển lùi, có thể viết lại như sau.
∆Y
t
= Y
t
- LY
t
= (1 - L)Y
t
Lưu ý rằng sai phân bậc nhất được biểu diễn bởi (1 - L). Tương tự, nếu tính sai phân
bậc hai (nghĩa là, sai phân bậc nhất của sai phân bậc nhất), thì:
Sai phân bậc hai
ttttt
YLYLLYYY
22
1
2
)1()21( −=+−=∆−∆=∆
−
Lưu ý sai phân bậc hai được ký hiệu là (1 - L)
2
. (Điều quan trọng là phải nhận thấy được
sai phân bậc hai không phải là sai phân thứ hai, được ký hiệu là 1 - L
2
. Tương tự, sai phân thứ
mười hai sẽ là 1 - L
12
, nhưng sai phân bậc mười hai sẽ là (1 - L)
12
)
Mục đích của việc lấy sai phân là để đạt được trạng thái dừng, và tổng quát nếu lấy sai
phân bậc thứ d sẽ đạt được dừng,
∆
d
Y
t
= (1 - L)
d
Y
t
là chuỗi dừng,
Phương pháp Box-Jenkins dựa vào:
1. Phân tích đồ thị
Vẽ đồ thị dữ liệu chuỗi thời gian, thông qua hình dạng của đồ thị thực nghiệm cung cấp
những gợi ý ban đầu về bản chất của chuỗi thời gian. Đồ thị cung cấp hình ảnh trực quan
cho phép chúng ta có thể đánh giá một chuỗi thời gian có dừng hay không.
2. Kiểm định bằng đồ thị tương quan thông qua hàm tự tương quan và hàm tự tương quan
từng phần.
Hàm tự tương quan mẫu (Sample Autocorrelation Function-SACF)
Hàm tự tương quan tại độ trễ k (hay bậc trễ k) ký hiệu r
k
là:
1
Kiểm định được sử dụng phổ biến là kiểm định Dickey-Fuller tăng cường (Augmented Dickey-Fuller-ADF).
r
k
=
∑
∑
=
−
=
+
−
−−
n
bt
t
kn
bt
ktt
zz
zzzz
2
)(
))((
(2.1) Trong đó
1+−
=
∑
=
bn
z
z
n
bt
t
Bên cạnh hệ số tương quan r
k
, sai số chuẩn của r
k
gọi là s
rk
và trị thống kê t
rk
sẽ
được sử dụng để giúp chúng ta nhận dạng thử nghiệm một mô hình Box-Jenkins.
Sai số chuẩn của r
k
là
2/1
2/1
1
1
2
)1(
)21(
+−
+
=
∑
−
=
bn
r
s
k
j
j
rk
(2.2) ; Trị thống kê t
rk
là
rk
k
rk
s
r
t =
(2.3)
Hàm tự tương quan của mẫu (SACF) là một hàm hay đồ thị của độ tự tương quan
của mẫu ở độ trễ k = 1, 2, . . .
SACF có thể được dùng để giúp chúng ta tìm ra một chuỗi thời gian dừng z
b
, z
b+1
,…,z
n
.
Việc này có thể được thực hiện vì chúng ta có thể liên kết động thái của SACF với sự dừng của
chuỗi thời gian. Tổng quát, với một chuỗi số liệu không có tính mùa có thể chỉ ra rằng:
1. Nếu SACF của chuỗi thời gian z
b
, z
b+1
,…, z
n
hoặc giảm thật nhanh hoặc giảm dần khá
nhanh thì giá trị của chuỗi thời gian được xem là dừng.
2. Nếu SACF của chuỗi thời gian z
b
, z
b+1
,…, z
n
giảm dần thật chậm thì chuỗi thời gian
được xem là không dừng.
Ý nghĩa chính xác của từ “khá nhanh” và “thật chậm” có phần tùy ý và tốt nhất được
xác định bằng kinh nghiệm. Hơn thế nữa, kinh nghiệm chỉ ra rằng với dữ liệu không với tính
mùa, việc SACF giảm khá nhanh, nếu có, thường xảy ra sau một độ trễ k bé hơn hay bằng 2.
Hàm tự tương quan từng phần của mẫu (Sample Partial Autocorrelation Function-
SPACF)
Chúng ta sẽ định nghĩa hàm tự tương quan từng phần của mẫu (SPACF).
1. Giá trị tương quan từng phần của mẫu tại độ trễ k là:
=
−
−
=
=
−
−
=
−
−
−
=
−
∑
∑
,3,2
.1
.
1
1
1
,1
1
1
,1
1
kkhi
rr
rrr
kkhir
r
jk
k
j
jk
jk
k
j
jkk
kk
(2.4)
Ở đây: r
kj
= r
k-1
,
j
- r
kk
.r
k-1
,
k-j
với j=1, 2, …, k-1
2. Sai số chuẩn của r
kk
là
s
rkk
=1/(n-b+1)
1/2
(2.5)
3. Trị thống kê tr
kk
là
là t
rkk
= r
kk
/ s
rkk
(2.6)
4. Hàm tự tương quan từng phần của mẫu (SPACF) là một danh sách hay đồ thị của các
trị số tự tương quan từng phần của mẫu ở các độ trễ k=1,2,…
Đại lượng này mô tả một cách trực giác các trị tự tương quan của mẫu đối với các giá
trị quan sát chuỗi thời gian ngăn cách bằng một độ trễ k lần đơn vị thời gian.
Một lần nữa, để áp dụng phương pháp luận Box-Jenkins, chúng ta phải thử và cố gắng
phân loại động thái của SPACF. Đầu tiên, SPACF của một chuỗi thời gian không có tính mùa
có thể giảm thật nhanh. Điều này có ý nghĩa gì, ta nói rằng một đỉnh nhọn ở độ trễ k tồn tại
trong SPACF nếu r
kk
, trị tự tương quan từng phần của mẫu ở độ trễ k, là lớn theo nghĩa thống
kê. Kết luận rằng r
kk
là lớn theo nghĩa thống kê một cách cơ bản tương đương với việc loại bỏ
giả thuyết không cho rằng trị tự tương quan từng phần lý thuyết ở độ trễ k, ký hiệu là
kk
ρ
, bằng
không. (H
0
:
kk
ρ
= 0). Ta có thể đánh giá một đỉnh nhọn ở độ trễ k tồn tại trong SPACF hay
không bằng cách xem trị thống kê t tương ứng với r
kk
. Ở đây ta xem một đỉnh nhọn ở độ trễ k
tồn tại trong SPACF nếu trị tuyệt đối của
rkk
kk
k
s
r
t =
là lớn hơn 2. Hơn thế nữa, chúng ta nói
rằng SPACF giảm thật nhanh sau độ trễ k nếu không có đỉnh nhọn nào ở các độ trễ lớn hơn k
trong SPACF . Với dữ liệu không có tính mùa, kinh nghiệm chỉ ra rằng nếu SPACF tắt, một
cách tổng quát nó sẽ giảm thật nhanh sau một độ trễ bé hơn hay bằng 2. Thứ hai, chúng ta nói
rằng SPACF giảm dần nếu hàm này không giảm thật nhanh nhưng giảm đi theo một “dạng ổn
định”. SPACF có thể giảm dần theo (1) một dạng hàm mũ tắt dần (không dao động hoặc có dao
động), (2) một dạng sóng hình sin tắt dần hoặc (3) một dạng bị trội bởi một trong hai dạng trên
hoặc một tổ hợp của chúng. Hơn nữa, SPACF có thể giảm dần khá nhanh hoặc giảm dần thật
chậm.
Quá trình nhận dạng của một mô hình ARIMA không có tính mùa hay có tính mùa phụ
thuộc vào những công cụ thống kê - đó là, hệ số tự tương quan, hệ số riêng phần, và đồ thị
tương quan; và hiểu biết về quá trình đang nghiên cứu cũng như đòi hỏi kinh nghiệm và phán
đoán tốt (Newbold and Bos, 1994).
Mô hình ARIMA mở rộng bao gồm các yếu tố thời vụ được ký hiệu tổng quát là:
ARIMA (p, d, q) (P, D, Q)
S
Phần mô hình Phần mô hình S = số đoạn
không có tính mùa có tính mùa mỗi mùa
Dữ liệu được sử dụng là Chỉ số giá tiêu dùng (CPI) hàng tháng theo phương pháp liên
hoàn từ tháng 1 năm 1996 đến tháng 12 năm 2006 của Tổng Cục Thống kê công bố.
Tỷ lệ lạm phát hàng tháng sẽ được xác định
2
:
100
1
1
×
−
=
−
−
t
tt
t
CPI
CPICPI
π
(2.7)
Trong đó:
t
π
: tỷ lệ lạm phát thời điểm t (biểu thị bằng %)
t
CPI
: Chỉ số giá tiêu dùng thời điểm t
1−t
CPI
: Chỉ số giá tiêu dùng thời điểm t-1
Hình 2.1. Tỷ lệ lạm phát hàng tháng (%)
2
Có nhiều cách để xác định tỷ lệ lạm phát dựa vào các phương pháp tính chỉ số giá khác nhau như Chỉ số giá sản
xuất (PPI), Chỉ số điều chỉnh GDP (GDP deflator), Chỉ số giá “dây chuyền” (chained price index; hoặc tỷ lệ lạm
phát cơ bản (core inflation)-loại trừ những loại hàng hoá và dịch vụ mà giá cả của chúng biến động theo thời vụ
hoặc thất thường.
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
0 12 24 36 48 60 72 84 96 108 120 132
Hình 2.2. Đồ thị tương quan của dữ liệu sau khi biến đổi sai phân
Dựa vào hình dạng của đồ thị thực nghiệm của dữ liệu gốc (Hình 2.1) và đồ thị tương quan của
dữ liệu sau khi biến đổi sai phân (Hình 2.2).
Các mô hình được nhận dạng như sau:
Mô hình ARIMA(0,1,1)(0,1,1)
12
(Mô hình 1)
hoặc
(1 - L)(1 - L
12
)Y
t
= (1 - θ
1
L)(1 - Θ
1
L
12
)u
t