Tải bản đầy đủ (.pdf) (118 trang)

Phát hiện tri thức từ cơ sở dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.54 MB, 118 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



TRẦN THỊ THANH HUYỀN





PHÁT HIỆN TRI THỨC
TỪ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN




LUẬN VĂN THẠC SĨ



Người hướng dẫn: TS. Đỗ Văn Thành










Hà Nội - 2005



MỘT SỐ KÍ HIỆU VIẾT TẮT


AC:tự tương quan
ACF: hàm tự tương quan - Autocorrelation Function
ARIMA: Autoregressive Integrated Moving Average
CSDL: cơ sở dữ liệu
PAC: tự tương quan riêng
PACF: hàm tự tương quan riêng- Partial Autocorrelation Function
Mục lục
Trang
Mở đầu 1
Ch-ơng I - Mô hình ARIMA 4
1.1 Khái niệm cơ bản 4
1.1.1 Chuỗi thời gian 4
1.1.2 Các tính chất của chuỗi 4
1.1.3 Chuỗi ngẫu nhiên thuần túy 5
1.1.4 Chuỗi thời gian dừng 5
1.1.5 Một số vấn đề về dự báo 5
1.1.6 Các công cụ để dự báo 9
1.1.7 D bỏo chui thi gian dng 14
1.2 Mô hình ARIMA 16
1.2.1 Quá trình tự hồi quy (AR) 17
1.2.2 Quá trình trung bình tr-ợt (MA) 18
1.2.3 Quá trình tự hồi quy trung bình tr-ợt ARMA (p,q) 19
1.2.4 Sai phân 20

1.2.5 Các b-ớc phát triển mô hình ARIMA 22
Ch-ơng 2 - Giới thiệu EVIEWS - Phần mềm phân tích
và dự báo dữ liệu 31
2.1 Giới thiệu chung 31
2.2 Các khái niệm cơ bản trong EVIEWS 33
2.2.1 Dữ liệu và File 33
2.2.2 Đối t-ợng 35
2.2.3 Khảo sát dữ liệu 36
2.2.4 Làm việc với dữ liệu 36
2.2.5 Hàm chuỗi 38
2.3 Xử lí chuỗi 38
2.3.1 Tạo biến mới, độ sớm, đỗ trễ và sai phân 38
2.3.2 Xây dựng t-ơng quan đồ trong EVIEWS 40
2.3.3 Kiểm định nghiệm đơn vị 41
2.3.4 Kiểm định tính t-ơng quan chuỗi 41
2.3.5 Đặc tả một ph-ơng trình trong EVIEWS 42
2.4 Ước l-ợng một ph-ơng trình 44
2.4.1 Các ph-ơng pháp -ớc l-ợng 44
2.4.2 Mẫu -ớc l-ợng 44
2.4.3 Ước l-ợng mô hình ARIMA 45
2.4.4 Làm việc với phát triển 46
2.5 Ph-ơng trình kết quả 46
2.5.1 Kết quả hệ số 47
2.5.2 Kết quả tổng hợp 48
2.6 Kiểm định phần d- 51
2.6.1 T-ơng quan đồ và thống kê Q 51
2.6.2 Kiểm định tính t-ơng quan chuỗi LM 51
2.7 Đánh giá chuẩn đoán 52
2.8 Dự báo từ một ph-ơng trình -ớc l-ợng 52
2.8.1 Thủ tục dự báo 52

2.8.2 Ph-ơng pháp dự báo 53
2.8.3 Tính toán dự báo 53
2.8.4 Sai số và ph-ơng trình dự báo 54
2.8.5 Đánh giá dự báo 54
Ch-ơng 3 - áp dụng EVIEWS và mô hình ARIMA giải quyết
bài toán dự báo giá một số mặt hàng thực phẩm 58
3.1 Bài toán 58
3.2 Các b-ớc tiến hành để dự báo 62
3.3 Tiến hành dự báo 65
3.3.1 Dự báo giá Vừng 65
3.3.2 Dự báo giá Cá 72
3.3.3 Dự báo giá Vịt 78
3.3.4 Dự báo giá Thóc 84
3.3.5 Dự báo giá Đỗ 89
Kết luận 95
Tài liệu tham khảo 97
Phụ lục
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
1
MỞ ĐẦU

Phát hiện tri thức từ các CSDL lớn, trong đó đặc biệt là các cơ sở dữ liệu phụ
thuộc thời gian là một hướng nghiên cứu và ứng dụng rất quan trọng hiện nay
của CNTT. Hiện tại người ta đó xõy dựng và hỡnh thành được khá nhiều
phương pháp và kỹ thuật phát hiện tri thức từ các CSDL không phụ thuộc vào
yếu tố thời gian, nhưng đối với các CSDL phụ thuộc yếu tố thời gian thỡ cỏc
phương pháp và kỹ thuật như vậy cũn nhiều hạn chế.
CSDL phụ thuộc yếu tố thời gian chia làm 2 loại: CSDL chuỗi thời gian (time-

series Database) và CSDL chuỗi( sequency Database).
CSDL chuỗi bao gồm chuỗi các sự kiện được sắp thứ tự có thể không cần đũi
hỏi khỏi niệm cụ thể về thời gian. Một CSDL chuỗi thời gian là một CSDL
chuỗi nhưng ngược lại không đúng. Dự báo dữ liệu liên quan đến CSDL chuỗi
thời gian là bài toán quan trọng mang lại nhiều lợi ích thiết thực, giúp con
người nắm bắt được các quy luật vận động trong tự nhiên và trong đời sống
kinh tế xó hội, giỳp cỏc nhà kinh tế, doanh nghiệp tiờn đoán một cách khoa học
xu hướng phát triển trong tương lai của các đại lượng, của thị trường… và từ
đó có thể hoạch định các chính sách phương hướng đầu tư một cách đúng đắn.
Những bài toán cần dự báo trong KT-XH từ CSDL chuỗi thời gian là:[26]
Dự bỏo kinh tế tài chớnh
Dự báo sử dụng năng lượng
Dự bỏo bỏn hàng
Phõn tớch ngõn sỏch
Phân tích thị trường chứng khoán
Cỏc dự ỏn sản xuất
Nghiờn cứu sự tồn kho hàng húa
Nghiờn cứu phỳc lợi
Phân tích điều tra dân số
Dự báo các hiện tượng trong thiên nhiên
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
2
……
Hiện tại đó cú nhiều kỹ thuật nhằm phỏt hiện tri thức từ CSDL chuỗi thời gian
dựa trờn việc sử dụng cỏc phương phỏp thống kờ, mạng nơron, cõy quyết định
(dicision tree), phỏt hiện luật kết hợp (mining association rules), phỏt hiện dữ
liệu đa quan hệ (mining multi-relation data), Hiện tại cũng cú nhiều sản
phẩm phần mềm hỗ trợ việc Phỏt hiện tri thức, phõn tớch và dự bỏo dữ liệu từ

cỏc CSDL chuỗi thời gian dựa trờn cỏc phương phỏp trờn, trong đú nhiều sản
phẩm phần mềm dựa trờn cỏc phương phỏp thống kờ đó được thương mại hoỏ
và được sử dụng rộng rói trong việc phõn tớch, dự bỏo cỏc dữ liệu thống kờ
kinh tế xó hội như SAS, SPSS, EVIEWS, Điểm chung của cỏc phần mềm này
đều hỗ trợ phõn tớch, dự bỏo dựa vào mụ hỡnh phõn tớch ARIMA
(Autoregressive Integrated Moving Average) để phõn tớch dự bỏo.
Mục đớch của luận văn này nhằm trỡnh bầy một cỏch hệ thống một trong kỹ
thuật Phỏt hiện tri thức từ cỏc CSDL chuỗi thời gian bằng việc sử dụng một
trong cỏc phương pháp thống kê. Cụ thể luận văn tập trung giới thiệu những
vấn đề chủ yếu của mụ hỡnh phõn tớch dự bỏo ARIMA, phần mềm phõn tớch
dự bỏo kinh tế dựa trờn mụ hỡnh đú là EVIEWS và thử nghiệm ứng dụng mụ
hỡnh và phần mềm đó nờu trong việc dự bỏo giỏ của một số mặt hàng thực tế ở
Việt Nam trong thời gian gần đõy.
Luận văn gồm: 98 trang kể cả phần mở đầu, 3 chương nội dung, phần kết luận
và tài liệu tham khảo.
Chương 1: Mụ hỡnh ARIMA: từ trang 4 đến trang 30 tập trung giới thiệu các
thành phần của mô hỡnh ARIMA, cỏc tiến trỡnh để xây dựng một mô hỡnh
ARIMA (khụng cú tớnh mựa vụ)
Chương 2: Giới thiệu EVIEWS - Phần mềm phõn tớch và dự bỏo dữ liệu:từ
trang 31 trang 57 thể hiển cách khảo sát, xử lý một dữ liệu chuỗi thời gian để
tiến hành dự bỏo chuỗi bằng cỏc hạng thức của ARIMA.
Chương 3: Ứng dụng EVIEWS và mụ hỡnh ARIMA giải quyết bài toỏn dự
bỏo giỏ một số mặt hàng: từ trang 58 đến trang 96. Bằng sự kết hợp giữa các
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
3
tính năng của EViews và kiến thức thiết lập mô hỡnh dự bỏo liờn quan đến 3
thành phần của ARIMA, các mặt hàng cụ thể được tiến hành dự báo giá là:
thóc, cá, vịt, vừng, đỗ trên thị trường thành phố Nam Định cho tháng tiếp theo

trên cơ sở các số liệu thực đó theo dừi được từ tháng 01 năm 1999 đến tháng 10
năm 2004.

Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
4
CHƯƠNG 1
Mễ HèNH ARIMA
1.1 Khái niệm cơ bản
1.1.1 Chuỗi thời gian
Chuỗi thời gian là một tập cỏc số ghi lại cỏc hoạt động được đo trong các
khoảng thời gian như nhau với hoạt động và phương pháp đo cố định.[29]
Vớ dụ:
Nhiệt độ ở Hà nội vào các thời điểm t
1
, t
2
,…,

t
T

Số lượng tội phạm của thành phố Hồ Chí Minh ngày t
1
, t
2
,…,

t

T

Lương thực được xuất khẩu ở Việt Nam trong các năm t
1
, t
2
,…,

t
T.
1.1.2. Cỏc tớnh chất của chuỗi [30]
+ Tính thời đoạn: tập dữ liệu được đo ở các các điểm thời gian khác nhau. Đơn
vị phân tích là thời đoạn: hàng ngày, hàng tuần, hàng tháng, hàng năm…
+ Tớnh mựa vụ: là hành vi cú tớnh chu kỳ của chuỗi thời gian trên cơ sở năm
lịch. Chuỗi thể hiện tính mùa vụ thông thường có xu hướng được nhắc lại ở
những khoảng thời gian theo mùa đều đặn.
+ Tớnh dừng:
Là chuỗi mà dữ liệu biến thiờn quanh giỏ trị trung bỡnh hay ở một mức khụng
đổi





+ Tớnh xu thế: Tính xu thế thể hiện dữ liệu tăng đều hoặc giảm đều




+ Tính chu kỳ: Chuỗi dữ liệu thể hiện dưới dạng hàm lượng giác: sin, cosin

Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
5






1.1.3 Chuỗi ngẫu nhiờn thuần tỳy [36]
Là chuỗi dữ liệu ban đầu không thể hiện xu hướng lẫn sự theo mùa và phần dư xấp
xỉ giá trị 0 với mức tin cậy là 95%. Các giá trị phần dư này thể hiện không theo
mẫu.
1.1.4 Chuỗi thời gian dừng [21][35]
Một quỏ trỡnh ngẫu nhiờn z
t
được xem là dừng nếu như trung bỡnh và phương sai
của quá trỡnh là khụng thay đổi theo thời gian và giá trị của hiệp phương sai giữa
hai thời đoạn chỉ phụ thuộc vào khoảng cách hay độ trễ về thời gian giữa hai thời
đoạn này chứ không phụ thuộc vào thời điểm thực tế mà hiệp phương sai được tính.
Cụ thể:
ã Trung bỡnh: E(z
t
) = = const
· Phương sai: Var (z
t
) =
2
= const

ã Hiệp phương sai: Covar (z
t
, z
t-k
) = g
k

Tớnh dừng của một chuỗi thời gian cú thể được nhận biết dựa trên đồ thị của
chuỗi thời gian, đồ thị của hàm tự tương quan mẫu hay kiểm định Dickey-
Fuller.
1.1.5 Một số vấn đề về dự báo
1.1.5.1 Khỏi niệm dự bỏo [2][22][29]
Dự báo là ước lượng các giá trị trong tương lai z
t+h
, h 1 của một biến ngẫu
nhiờn dựa trờn cỏc quan sỏt cỏc giỏ trị trong quỏ khứ của nú z
1
, z
2
,…, z
t
. Dự
bỏo z
t+h
thường được ký hiệu
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố. Trước hết nó phụ thuộc vào
xu hướng phát triển của chuỗi thời gian. Nếu chuỗi thời gian là hàm "đều đặn"
)(
ˆ
hz

t

Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
6
theo thời gian thỡ càng dễ dự bỏo. Vớ dụ nếu tiến trỡnh phỏt triển kinh tế
khụng cú những biến động đặc biệt thỡ dễ dàng dự bỏo tổng sản phẩm quốc nội
(GDP) cho những năm sau. Cho đến nay, các phương pháp dự báo chuỗi thời
gian chưa cho phép dự báo được các giá trị đột biến.
Chất lượng dự báo chuỗi thời gian cũn phụ thuộc vào sự xa gần của thời gian.
Dự bỏo cỏc giỏ trị càng gần hiện tại càng chính xác. Như vậy việc ước lượng
GDP cho năm sau sẽ chính xác hơn là việc ước lượng GDP cho 10 năm sau.
Ngoài ra phương pháp ước lượng cũng đóng vai trũ hết sức quan trọng. Nếu
chỳng ta sử dụng phương pháp dự báo tốt thỡ giỏ trị dự bỏo càng chớnh xỏc.
1.1.5.2 Phõn loại cỏc kiểu dự bỏo
1.1.5.2.1 Dự bỏo ngắn hạn
Dự bỏo này là dự bỏo cho khoảng thời gian 1 hoặc 2 thời kỳ tiếp theo (thớ dụ:
thỏng hoặc quý). Dự bỏo ngắn hạn thường được sử dụng cho kế hoạch cung cấp
thiết bị từng kỳ. Dự báo này đũi hỏi thông ti n chính xác có xét tới các điều
kiện kinh tế, các khả năng về ngân sách, các đơn yêu cầu cũn chưa được thực
hiện.
1.1.5.2.2 Dự bỏo trung hạn
Một kế hoạch lắp đặt bổ sung dùng cho các thiết bị (tổng đài và các thiết bị
truyền tin chẳng hạn) đũi hỏi dự bỏo cho khoảng thời gian từ 3-5 thời kỳ. Do
vậy chỳng ta phải cú dự bỏo xa hơn một chút và ta gọi là dự báo trung hạn.
Đối với các dự báo ngắn và trung hạn, phương pháp chuỗi thời gian thường hay
được sử dụng. Nó dùng xu hướng được phát hiện từ các dữ liệu có được cho
đến thời điểm hiện tại làm cơ sở cho việc đoán định các giá trị trong tương lai
(phép ngoại suy). Nhỡn từ gúc độ toàn quốc, dự báo này có khả năng chịu ảnh

hưởng bởi các điều kiện kinh doanh và các điều kiện kinh tế. Dưới góc độ từng
vựng thỡ nú chịu ảnh hưởng lớn của các kế hoạch phát triển khu vực hoặc đô
thị có liên quan chặt chẽ với vùng này.
1.1.5.2.3 Dự bỏo dài hạn
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
7
Dự báo dài hạn cho khoảng thời gian 5 thời kỳ trở nên. Nó được sử dụng cho
kế hoạch đầu tư thiết bị quy mô lớn hoặc cho các chiến lược có tầm vĩ mô.
Trong trường hợp này, việc dự báo bằng cách mở rộng các dữ liệu thực tế có
được đến thời điểm hiện tại sẽ không thích hợp mà phải xem xét đến sự tăng
lên của mức sống và sự thay đổi của đời sống xó hội. Dự bỏo này được thực
hiện về cơ bản có được bằng dự đoán gián tiếp, sử dụng các mối quan hệ giả
định của các yếu tố khác đối với đối tượng cần dự báo. Chẳng hạn, tổng thu
nhập quốc nội thường được coi là một yếu tố có ảnh hưởng quan trọng nhất đến
sự tăng trưởng của nhu cầu điện thoại. Trong dự báo dài hạn người ta thường
sử dụng các phương pháp hồi quy.
1.1.5.3 Các phương pháp dự báo chuỗi thời gian [22]
Dự bỏo dựa trờn mụ hỡnh hồi quy một phương trỡnh.
Dự bỏo dựa trờn mụ hỡnh nhiều phương trỡnh
Dự bỏo dựa trờn mụ hỡnh ARIMA
Mụ hỡnh tự hồi quy theo vộc tơ VAR
Phương pháp làm trơn hàm mũ Holt-Winters
Phần lớn các chuỗi thời gian trong cuộc sống thực tại là rất phức tạp nên kỹ
thuật đơn giản như làm trơn số liệu kém hiệu quả( kỹ thuật làm trơn số liệu chỉ
phù hợp cho các chuỗi mà độ thăng giáng không lớn lắm). Phương pháp Box-
Jenkins để dự báo các chuỗi thời gian có độ phức tạp cao hơn. Kỹ thuật này rất
phù hợp cho việc dự báo chuỗi thời gian mặc dù nó tương đối phức tạp về
phương diện toán học và yêu cầu phải có nhiều số liệu. Trên thực tế nó đũi hỏi

ớt nhất 50 số liệu và thụng thường tốt nhất là nên có khoảng 100 số liệu mới có
thể nhận dạng chính xác mô hỡnh.
Trong luận văn này sẽ đề cập đến phương pháp thiết lập mô hỡnh Box-Jenkins
ARIMA.
1.1.5.4 Cỏc cỏch tiếp cận để dự báo chuỗi thời gian [10][35]
+ Trước đây các phương pháp truyền thống thường được sử dụng như: mô hỡnh
xu hướng, mô hỡnh trơn, mô hỡnh mựa vụ, mụ hỡnh phõn tớch .
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
8
+ Một số hạn chế khi sử dụng cỏc mụ hỡnh truyền thống:
- Khó khăn trong việc tỡm mụ hỡnh đúng. Không có một cách tiếp cận có hệ
thống nào để nhận dạng và chọn ra một mô hỡnh phự hợp. Vỡ vậy quỏ trỡnh
nhận dạng phần lớn là thử và sai (trial-and-error).
- Khó khăn trong việc xác minh tính hiệu lực của mô hỡnh. Lý do là hầu hết cỏc
phương pháp truyền thống này được phát triển từ nhận thức bằng trực quan
và theo dừi thực tế chứ khụng phải xuất phỏt từ nền tảng thống kờ.
Mặc dù các phương pháp dự báo truyền thống phù hợp cho các kiểu chuỗi thời gian
đặc thù nhưng chúng vẫn quá hẹp để có thể giải quyết tất cả cỏc chuỗi thời gian một
cỏch hiệu quả. Hiện nay, trong lónh vực Kinh tế lượng, việc dự báo thường dựa
trên hai cách tiếp cận chính:
+ Phương pháp nhân quả;
+ Phương pháp chuỗi thời gian.
Trong phương pháp nhân quả, kỹ thuật phân tích hồi qui được sử dụng để thiết lập
mối quan hệ giữa biến phụ thuộc và các biến giải thích. Giá trị của biến phụ thuộc
sẽ được dự báo theo giá trị của các biến giải thích.
Đối với các chuỗi thời gian, phương pháp chuỗi thời gian (cụ thể là phương
pháp Box-Jenkins_ARIMA) được sử dụng để dự báo các giá trị trong tương lai.
Theo phương pháp này, giá trị dự báo sẽ phụ thuộc vào các giá trị quá khứ và

tổng có trọng số các nhiễu ngẫu nhiên hiện thời và các nhiễu ngẫu nhiên có độ
trễ. Phương pháp Box-Jenkins cung cấp một phạm vi lớn cỏc mụ hỡnh cú thể thể
hiện được rất nhiều chuỗi thời gian chúng ta thường gặp trong thực tế. Đặc tính
quan trọng của các mô hỡnh này là chỳng được phát triển bởi các hạng thức trong
các khái niệm thống kê và giả sử rằng các quá trỡnh được thiết lập động và tùy
thuộc vào các thay đổi thống kê. Chính vỡ tớnh chất thống kờ tự nhiờn và khả năng
ứng dụng rộng rói của chỳng, mụ hỡnh Box-Jenkins cú cỏc ưu điểm hơn so với các
mô hỡnh truyền thống:
+ Cú một lớp lớn cỏc mụ hỡnh. Dạng mụ hỡnh được tổng quát hóa có thể thể hiện
được hành vi và các mẫu khác nhau của chuỗi thời gian
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
9
+ Phương pháp này cung cấp các công cụ thống kê để nhận dạng kiểu mô hỡnh cụ
thể cho cỏc chuỗi đưa ra.
+ Kiểm định thống kê có thể được sử dụng để xác minh tính hiệu lực của mụ hỡnh.
+ Tính thiếu xác thực trong dự báo có thể được đo một cách thống kê
1.1.6 Các công cụ để dự báo:
1.1.6.1 Giỏ trị trung bỡnh của N theo dừi z
1
,z
2
,…z
n
1.1.6.2 Phương sai của tiến trỡnh ước lượng của
z
2
là :


1.1.6.3 Tự tương quan (Autocorrelation-AC )[15][21][29]
Trong bất kỳ chuỗi thời gian chứa các mẫu hành vi không ngẫu nhiên thường
có các phần tử có liên quan đến các phần tử khác trong cùng chuỗi. Ví dụ phần
tử thứ 5 giống phần tử thứ nhất, phần tử thứ 6 giống phần tử thứ 2…vỡ vậy cú
thể sử dụng thông tin về mối quan hệ này để dự báo các giá trị trong tương lai
của chuỗi ví dụ như phần tử thứ 33 có thể sẽ giống phần tử thứ 29. Trong
trường hợp này chúng ta nói rằng chuỗi có khả năng dự báo bản thân nó vỡ
tớnh tự tương quan giữa các giá trị trong chuỗi
Tự tương quan ở độ trễ 1 là sự tương quan giữa chuỗi gốc z
t
và chuỗi z
t-1

Hiệp phương sai giữa z
t
và giỏ trị z
t+k
của

nó được phân biệt bằng độ trễ k được
gọi là tự hiệp phương sai ở độ trễ k và được định nghĩa như sau:
trong đó E là trung bỡnh ước lượng
là ước lượng thực của quá trỡnh ngẫu nhiờn
Hàm tự tương quan (lý thuyết) ở độ trễ k:
))((,cov
kttkttk
zzEzz
22
)()(
))((

ktt
ktt
k
zEzE
zzE
N
t
t
z
N
z
1
1
2
1
2
)(
1
ˆ
N
t
tz
zz
N
(1.1.1)
(1.1.2)
(1.1.3)
(1.1.4)
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh

ARIMA
10

Khi một quỏ trỡnh cú tớnh dừng, phương sai
z
2
=
0
ở thời điểm t+k cũng
giống như ở thời điểm t, hệ số tự tương quan có thể được viết như sau:

Vỡ vậy:

Ước lượng của tự hiệp phương sai (là tự hiệp phương sai mẫu) độ trễ thứ k :
k

Ước lượng của hàm tự tương quan
k

là phương sai được ước lượng của quá trỡnh
2
z

Để có một hàm tự tương quan ước lượng tốt cần phải có ít nhất 50 quan sát
1.1.6.4 Tự tương quan riêng (PAC ):
Tự tương quan riêng là một tập các phép đo thống kê khác, là khái niệm ít được
sử dụng hơn AC trong việc phân tích chuỗi thời gian nhưng đóng vai trũ quyết
định trong việc mô hỡnh húa ARMA
Tương tự như AC, PAC được sử dụng để đánh giá mối quan hệ giữa các giá trị
chuỗi, nó bổ sung cho AC khi liên quan đến việc đưa ra các mẫu cho mối quan

hệ AR và MA. Trong một số tỡnh huống nú rất cú ớch, đó là khi các mẫu AC
khó xác định. Hàm tự tương quan riêng (PACF) là sự mở rộng của AC khi sự
phụ thuộc vào các phần tử trung gian bị loại bỏ.
Mặt khác, trừ khi phải tính toán nó, PAC tương tự với AC khi mọi phần tử trễ
của AC vắng mặt bộ phận (partialled out ). Nếu độ trễ 1 được đặc tả (tức là
không có phần tử trễ trung gian) thỡ AC tương đương với PAC.
2
))((
z
ktt
k
zzE
0
k
k
0
ˆ
ˆ
ˆ
k
k
, k,,kzzzz
N
kN
t
kttk
210 ))((
1
ˆ
1

(1.1.5)
(1.1.6)
(1.1.7)
(1.1.8)
0
ˆ

Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
11
Theo cảm tính, PAC đưa ra hỡnh ảnh "rừ ràng hơn" về sự phụ thuộc chuỗi của
các độ trễ riêng lẻ (không bị ảnh hưởng bởi những phụ thuộc chuỗi khỏc).
PAC khụng những khú hỡnh dung về phương diện lý thuyết mà sự tớnh toỏn nú
cũng gặp rắc rối hơn nhiều
Hệ số PAC bậc k dùng để đo mức độ kết hợp giữa chuỗi thời gian {z
t
} và chuỗi
với thời gian trễ {z
t-k
} sau khi loại bỏ cỏc ảnh hưởng (tuyến tính) của các giá trị
trung gian.
Ví dụ: hệ số tự tương quan riêng bậc k=4 thỡ ta loại z
t-1
,z
t-2
,z
t-3
ra. Hệ số tự
tương quan riêng của một bậc cụ thể giống như hệ số tự hồi quy cùng

bậc.[9][10]
PAC được biểu thị bởi ký hiệu
kk

kk
ký hiệu kk nhấn mạnh rằng
kk
là tham số tự hồi quy
k
của mụ hỡnh tự hồi
quy bậc k . Với k=1,2,3…, chỳng ta cú:

Với mụ hỡnh AR bậc p, PAC ở độ trễ k nhỏ hơn hoặc bằng p sẽ khác 0, tất cả các
PAC của các độ trễ lớn hơn p sẽ bằng 0.
Ngoài ra, PACF của tiến trỡnh AR bậc thứ p "tắt" sau độ trễ p. Mặt khác, nếu chúng
ta có một chuỗi được sinh ra bởi mô hỡnh chứa tham số MA thỡ PAC khỏc 0 ở mọi
độ trễ.

(1.1.9)
1
1
1
1
1
1
1
1
1
12
11

21
312
21
11
33
2
1
2
12
1
1
21
1
22
111
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
12
Hàm tự tương quan riêng mẫu:
Trong đó
11
= r
1

k,j
=
k-1,j
-
kk k-1,k-j

với k=3,4,…; j=1,2,…,k-1
Hàm
k
được gọi là PACF mẫu
Người sử dụng có thể kết luận rằng các tham số p,d,q của mô hỡnh ARIMA
được chấp nhận bởi việc phân tích các hành vi của hàm ACF và PACF
Chỳ ý: ACF và PACF được tính toán dựa vào việc sử dụng một phần chuỗi thời
gian nguyờn vẹn. Vỡ vậy chỳng chỉ là ACF và PACF ước lượng hay ACF mẫu
và PACF mẫu. Đây là một chú ý quan trọng vỡ nếu một phần chuỗi thời gian
được chọn không thể hiện được phần trong tương lai thỡ cỏc tham số tương
quan là ACF và PACF sẽ sai. ACF dựa vào hệ số tương quan chuẩn của
Pearson áp dụng cho chuỗi thời gian với một độ trễ.
1.1.6.5 Nhiễu trắng (White noise)[10][33][36]
Mụ hỡnh Box- Jenkins dựa vào quan điểm cho rằng một chuỗi thời gian z
t
= a
t

(chuỗi độc lập không tương quan "sốc"(shock)) và có đặc điểm:
Một chuỗi a
t
như vậy gọi là một quá trỡnh nhiễu trắng "white noise"
Trong trường hợp này, z
t
là chuỗi dừng
1.1.6.6 Bộ lọc tuyến tớnh (Filter linear)



Filter linear

z
t
White noise
a
t
(B)
2,3, )(k
1
1
1
,1
1
1
,1
k
j
j
jk
k
j
jk
jk
k
kkk
r
rr
0 0
0 1
0 0
0

aa
avar 0a
2
2
k
k
k
k
E
E
k
a
kttk
att
(1.1.10)
(1.1.11)
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
13
Là mụ hỡnh chuyển tiến trỡnh nhiễu trắng a
t
thành tiến trỡnh sinh ra chuỗi thời
gian z
t

Trong đó
là tham số xác định mức tiến trỡnh
(B) là hàm chuyển đổi của bộ lọc


Phương trỡnh (12) cú thể được viết trong hạng thức của
tt
zz
~
, độ lệch từ trung
bỡnh . Về mặt toán học, có thể chứng minh rằng phương sai của quá trỡnh
0
22
a
2
j
jz
trong đó chuỗi con
1
,
2
,…được thiết lập từ các trọng số phải hữu
hạn hoặc vô hạn và hội tụ.
Một mụ hỡnh bộ lọc tuyến tớnh cú thể được thể hiện dưới dạng khác trong đó độ
lệch hiện thời
)zz
~
(
tt
được hồi quy dựa vào độ lệch quá khứ
, z
~
,z
~
2t1t


1
2211
a
~

a
~~~
j
tjtj
tttt
z
zzz

Dạng này có thể được viết

tt
z
~
)B( a

trong đó
1j
j
j
B1)B(

Vỡ vậy hàm của cỏc trọng số và hàm cỏc trọng số cú mối quan hệ sau:
)()(
1

BB

Một tiến trỡnh tuyến tớnh là dừng thỡ (B) phải hội tụ với B 1 [5][10]
ttttt
Bz a)( aaa
2211
1, 1)(
0
0
2
21
j
j
j
BBBB
(1.1.12)
(1.1.13)
(1.1.14)
(1.1.15)
(1.1.16)
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
14
1.1.6.7 Khả nghịch (invertible):
Ngoài tớnh dừng, một tớnh chất mong muốn khỏc của chuỗi thời gian là tớnh
khả nghịch.[5]
Một theo dừi hiện hành z
t
phụ thuộc vào cỏc theo dừi trước và có trọng số giảm

khi quay ngược thời gian, một chuỗi như vậy được gọi là khả nghịch .
Với một tiến trỡnh tuyến tớnh là khả nghịch thỡ chuỗi (B) sinh ra hàm trọng
số phải hội tụ với B 1
1.1.6.8 Tương quan đồ - Correlogram[15][34]
Đồ thị thể hiện hàm tự tương quan và tự tương quan riêng gọi là tương quan đồ
Nhỡn vào tương quan đồ ta có thể biết được:
- Một chuỗi cú dừng hay khụng
- Cú tồn tại mụ hỡnh AR, MA hay mụ hỡnh kết hợp phự hợp hay khụng
- Bậc p hay q của AR hay MA là thớch hợp nhất
- Khoảng tin cậy xấp xỉ 95% của tương quan đồ là ± 2/N
1/2

+) Đồ thị của tự tương quan
Đồ thị tự tương quan là công cụ để kiểm tra tính ngẫu nhiên của tập dữ liệu.
Tính ngẫu nhiên này được xác định bằng việc tính toán tính tự tưong quan của
giá trị dữ liệu ở các độ trễ thời gian biến thiên. Nếu ngẫu nhiên, tự tương quan
sẽ gần về 0 ở tất cả tất cả khoảng phân chia thời gian. Nếu không ngẫu nhiên
thỡ một hoặc một số tự tương quan sẽ khác 0.
Ngoài ra, đồ thị tự tương quan cũn được sử dụng trong giai đoạn nhận dạng mụ
hỡnh của mụ hỡnh chuỗi thời gian AR và MA.
+) Đồ thị của tự tương quan riêng
Đồ thị tương quan riêng là công cụ sử dụng cho việc nhận dạng mô hỡnh trong
cỏc mụ hỡnh Box- Jenkins
Tự tương quan riêng được sử dụng trong nhận dạng bậc của mô hỡnh AR. Tự
tương quan riêng của tiến trỡnh AR(p) bằng 0 từ độ trễ p+1 trở đi.
Nếu đồ thị tự tương quan mẫu thể hiện một mô hỡnh AR phự hợp thỡ biểu đồ
tự tương quan riêng mẫu sẽ được xem xét để hỗ trợ việc xác định bậc của AR
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA

15
1.1.7 Dự bỏo chuỗi thời gian dừng[2]
Giả sử ta cú chuỗi thời gian {z
t
} với giỏ trị trung bỡnh và hàm (h) đó được
biết. Ta muốn dự báo một cách tốt nhất giá trị z
n+h
theo cỏc giỏ trị của z
1
, z
2…
,
z
n
(h>0) (theo nghĩa bỡnh phương trung bỡnh), ta đi tỡm tổ hợp tuyến tớnh :
P
n
z
n+h
=a
0
+a
1
z
n
+…+a
n
z
1


Sao cho sai số:
S(a
0,
a
1
,…,a
n
)=E(z
n+h
-a
0
-a
1
z
n
-…-a
n
z
1
)
2

là nhỏ nhất so với mọi dự bỏo P
n
z
n+h
nào khỏc.
Vỡ S(a
0,
a

1
,…,a
n
) là hàm bậc 2 và S(a
0,
a
1
,…,a
n
) 0. Điều này chứng tỏ tồn tại
một bộ giá trị (a
0,
a
1
,…,a
n
) cực tiểu húa hàm S(a
0,
a
1
,…,a
n
). Tại giá trị nhỏ nhất
đó, (a
0,
a
1
,…,a
n
) thỏa món cỏc phương trỡnh:













Trong đó
a
n
=(

a
1
,…,a
n
)
T



Vỡ vậy,
nj
a
aaaS

j
t
, ,1,0,0
), ,(
10

njzzaazE
zaazE
jn
n
i
inihn
n
i
inihn
, 2,1,0
0
1
1
10
1
10

njjhjia
aa
n
i
i
n
i

i
, ,2,1,)1()(
1
1
1
0

)(
1
1
0
ha
aa
nnn
n
i
i

T
t
n
ji
t
thhhh
ji
))1(), ,1(),(()(
)(
1,

)(

1
ihn
n
i
ihnn
zazP

(1.1.17)
(1.1.18)
(1.1.19)
(1.1.20)
(1.1.21)
(1.1.22)
(1.1.23)
(1.1.24)
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
16

Trong đó a
n
thỏa món (1.1.23)
Ta cú z
n+h
- P
n
z
n+h
=0

Suy ra kỳ vọng của sai số dự bỏo là
E(z
n+h
- P
n
z
n+h
)
2
= E[z
2
n+h
- 2z
n+h
P
n
z
n+h
+(P
n
z
n+h
)
2
]
Từ đó,





Các thuật toán để tính toán dự báo có trong hầu hết các phần mềm thống kê.
1.2 Mụ hỡnh ARIMA[9][19][30]
Mụ hỡnh ARIMA được Box và Jenkins phát triển đầu tiên vào cuối những năm
60 và được hệ thống hóa lại vào năm 1976. ARIMA có nghĩa là Autoregressive
Integrated Moving Average. ARIMA có thể phức tạp hơn so với các kỹ thuật dự
báo thống kê khác khi sử dụng nhưng khi thi hành thỡ lại rất mạnh và mềm dẻo.
Cỏc mụ hỡnh ARIMA là những vớ dụ điển hỡnh về cỏch tiếp cận thống kờ
trong khai phỏ dữ liệu tài chớnh.
Mụ hỡnh ARIMA là sự kết hợp của phương pháp thống kê và mô hỡnh dự bỏo
chuỗi thời gian ngắn hạn của chuỗi thời gian tài chớnh đặc biệt.
ARIMA là phương pháp xác định 2 vấn đề:
+) Các kết quả trong quá khứ nên sử dụng khoảng bao nhiêu để có thể phỏng
đoán được kết quả tiếp theo và
+) Giỏ trị của trọng số
Vớ dụ:
y
t
=1/3*y
t-3
+1/3*y
t-2
+1/3*y
t-1
là một mụ hỡnh ARIMA
và y
t
=1/6*y
t-3
+4/6*y
t-2

+1/6*y
t-1
là một mụ hỡnh ARIMA khỏc
Vỡ vậy một mụ hỡnh ARIMA chuẩn yờu cầu xỏc định chính xác số các độ trễ
và các hệ số sử dụng.
n
i
i
n
i
n
i
ii
n
i
n
i
n
j
jiihnnhn
iha
ihaiha
ijaaihazPzE
1
1 1
1 1 1
2
)1()0(
)1()1(2)0(
)()1(2)0()(


Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
17
* Cỏc quỏ trỡnh của mụ hỡnh ARIMA:
+ Autoregression (AR) hay Tự hồi quy
+ Differencing - sai phân để loại bỏ sự tớch hợp (Intergration: I) của chuỗi
+ Moving Average (MA) hay Trung bỡnh trượt.
Mụ hỡnh ARIMA thụng thường liên kết các mô hỡnh Autoregression,
Differencing, Moving Average được biểu thị là ARIMA(p,d,q) trong đó:
p là số hạng thức của tự hồi quy
d là bậc sai phõn
q là số sai số dự báo có độ trễ trong phương trỡnh phỏng đoán
(thành phần trung bỡnh trượt).
Trong luận văn này giới hạn xem xột, khảo cứu mụ hỡnh ARIMA dưới góc độ
mô hỡnh khụng cú tớnh mựa vụ.
1.2.1 Quỏ trỡnh tự hồi quy (AR)
Một tiến trỡnh tự hồi quy được xác định là hàm tuyến tính gắn với giá trị p cho
trước của chuỗi thời gian z
t-1
, z
t-2
,…, z
t-p
với z
t
trong đó z
t
là giá trị của chuỗi

thời gian tại thời điểm t.
Mụ hỡnh tự hồi quy AR(p) cũng là mụ hỡnh ARIMA(p,0,0)
z
t
=C+
1
z
t-1
+
2
z
t-2
+…+
p
z
t-p
+a
t
(1.2.1)
hay có thể viết gọn lại như sau :
(B)z
t
=C+a
t
(1.2.2)
trong đó
(B)=1-
1
B-
2

B
2

-…
1
B
p
(1.2.3)
B là toỏn tử lựi (backshift) thỏa món:
Bz
t
= z
t-1
B
2
z
t
=z
t-2
,….
+ C là hạng thức không đổi liên quan đến ý nghĩa của quỏ trỡnh,
+ a
t
là hàm của t được hiểu là nhiễu trắng
+ ký hiệu a
t
WN(0,
2
) (cũn gọi là sai số) của chuỗi thời gian tại thời điểm t
Trần Thị Thanh Huyền Luận văn thạc sĩ

Chương 1: Mô hỡnh
ARIMA
18
Hệ số
1
,
2

p
được ước lượng từ chuỗi được theo dừi, là cỏc hệ số bằng số
mụ tả mối quan hệ giữa cỏc giỏ trị thực tại với cỏc giỏ trị trước nó. Số p được
gọi là cấp tự hồi quy của mô hỡnh. Nú chỉ số cỏc giỏ trị quỏ khứ của chuỗi cần
phải lấy để tính hồi quy.
Giá trị chính xác của p được sử dụng sẽ làm cho sai số dự báo của mô hỡnh là
nhỏ nhất và làm cho cỏc số dư có phân phối ngẫu nhiên. Chúng ta thường nhận
dạng giá trị p như là cấp của quá trỡnh AR(p) bằng cỏch phõn tớch hệ số tự
tương quan riêng của chuỗi thời gian
AR(1) là quỏ trỡnh tự hồi quy thứ nhất
z
t
= C+
1
z
t-1
+a
t
Tương tự, quá trỡnh tự hồi quy thứ 2 AR(2) cú 2 giỏ trị cho trước độc lập với
nhau được thể hiện như sau:
z
t

= C+
1
z
t-1
+
2
z
t-2
+a
t
Chỳ ý:[1][2][10]
- Quỏ trỡnh AR(p) là dừng nếu nghiệm của phương trỡnh đặc trưng (B)=0 nằm
ngoài đường trũn đơn vị.
- Điều kiện để AR(p) hội tụ là -1<
i
<1, i=1,2,…,p
- AR(p) là quỏ trỡnh khả nghịch.
Điều kiện về tính dừng và khả nghịch được áp dụng độc lập
*) AR(1) hay ARIMA(1,0,0),với hệ số hồi quy g=1, C=0
z
t
= z
t-1
+a
t
Mụ hỡnh này cũn được gọi là bước ngẫu nhiên (random walk), từ giá trị trước
đến mỗi giá trị tiếp theo chỉ là bước ngẫu nhiên a
t
.
Nếu đưa thờm vào mụ hỡnh bước ngẫu nhiên một hằng số thỡ z

t
cũn được gọi
là bước ngẫu nhiên có bụi (random walk with drift )
Ở đây z
t
là chuỗi khụng dừng
1.2.2 Quỏ trỡnh trung bỡnh trượt (MA)
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
19
Trong quỏ trỡnh trung bỡnh trượt, mỗi giá trị được xác định bằng trung bỡnh
trọng số của nhiễu hiện thời và cỏc nhiễu phớa trước q. Mô hỡnh này là MA(q)
hay ARIMA(0,0,q). MA(q) cú dạng :
z
t
=C+a
t
+
1
a
t-1
+
2
a
t-2
+ ….+
q
a
t-q

(1.2.4)
Có thể được viết gọn lại như sau:
z
t
=C+ (B)a
t
(1.2.5)
Trong đó:
+ (B)=1+
1
B+
2
B
2
+…
q
B
q
(1.2.6)
+ q là cấp của mụ hỡnh trung bỡnh trượt
+ {a
t
} WN(0,
2
)
+
1
,
2


q
là cỏc hệ số chỉ mối liờn hệ của cỏc giỏ trị z
t
và các giá trị của
nhiễu cho đến thời điểm t
Phương trỡnh cho quỏ trỡnh trung bỡnh trượt đầu tiên MA(1) là :
z
t
= C+ a
t
+
1
a
t-1

MA(2) là : z
t
= C+ a
t
+
1
a
t-1
+
2
a
t-2

Chỳ ý:
- Điều kiện để MA(p) dừng là -1<

i
<1
- MA(1) là quỏ trỡnh khả nghịch
- MA(p) là khả nghịch nếu tất cả các nghiệm của phương trỡnh đặc trưng :
(B)=1+
1
B+
2
B
2
+…
q
B
q
đều nằm ngoài đường trũn đơn vị
1.2.3 Quỏ trỡnh tự hồi quy trung bỡnh trượt ARMA(p,q)
Sự kết hợp của AR(p) và MA(q) tạo nờn mụ hỡnh ARMA(p,q)
Mụ hỡnh ARMA(p,q) cũng là ARIMA(p,0,q) là :
z
t
=C+
1
z
t-1
+
2
z
t-2
+…+
p

z
t-p
+a
t
+
1
a
t-1
+
2
a
t-2
+…+
q
a
t-q
(1.2.7)
hay (B)z
t
=C+ (B)a
t
. ( (B), (B) là cỏc bộ lọc) (1.2.8)
Mụ hỡnh ARMA(1,1) ứng với p=1, q=1 sẽ cú phương trỡnh
z
t
=C+
1
z
t-1
+ a

t
+
1
a
t-1

Mụ hỡnh ARMA(2,1) ứng với p=2, q=1 sẽ cú phương trỡnh:
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
20
z
t
=C+
1
z
t-1
+
2
z
t-2
+ a
t
+
1
a
t-1

Từ phương trỡnh (1.2.7) chỳng ta nhận thấy rằng mụ hỡnh ARMA sử dụng sự
kết hợp của cỏc giỏ trị quỏ khứ của chuỗi thời gian cựng với cỏc nhiễu trong

quỏ khứ nhờ cỏc tham số của cả 2 mụ hỡnh hồi quy và mụ hỡnh trung bỡnh
trượt. Vỡ vậy lẽ tự nhiờn là nú phải tốt hơn khi sử dụng từng mụ hỡnh riờng lẻ.
Lợi thế của mụ hỡnh ARMA là chỳng ta cú thể nghiờn cứu lần lượt từng quá
trỡnh. Đầu tiên, chúng ta xác định mô hỡnh tự hồiquy AR sau đó sử dụng các
sai số này trong phương trỡnh trung bỡnh trượt MA để cải tiến hơn nữa việc dự
báo. Nghĩa là ta cú thể thực hiện một cỏch tuần tự: sử dụng một mụ hỡnh để tạo
ra một dự báo (và cả sai số của dự báo này), sau đó sử dụng quá trỡnh MA vào
cỏc sai số dự bỏo vừa tớnh được để giảm bớt các sai số. Bằng cách này ta hy
vọng sai số cũn lại sẽ phõn bố một cỏch ngẫu nhiờn và mụ hỡnh trở nờn chớnh
xỏc hơn. Mặc dù kỹ thuật thực hiện là tuần tự nhưng cấp của mô hỡnh ARMA -
cỏc số p và q sẽ được xác định đồng thời bằng cách sử dụng hệ số AC và PAC.
Theo kinh nghiệm của các nhà nghiên cứu, phương pháp này phù hợp với hầu
hết cỏc chuỗi thời gian trờn thực tế.
1.2.4 Sai phõn[34][36]
Một chuỗi thời gian không có tính dừng phải chuyển thành chuỗi dừng trước
khi được thiết lập mô hỡnh bằng cỏch tiếp cận Box-Jenkins.
Với một vài chuỗi thời gian khụng cú tớnh dừng việc sai phân chúng sẽ làm
cho chúng có tính dừng và được gọi là chuỗi được tích hợp (integrated).

ARMA ARIMA
(Khụng dừng) (Dừng)
Sai phân thường (regular differencing (RD)), đơn giản là một tiến trỡnh tớnh toỏn
sự khỏc nhau giữa mọi cặp giỏ trị trong chuỗi và chuỗi kết quả của phộp sai phõn
được gọi là "chuỗi sai phân". Sai phân thường cũn được gọi là sai phân bậc 1. Sai
phân bậc cao hơn cũn được sử dụng để xử lý tớnh mựa vụ của chuỗi thời gian. Sai
Sai phõn
Trần Thị Thanh Huyền Luận văn thạc sĩ
Chương 1: Mô hỡnh
ARIMA
21

phân thường để loại bỏ tính xu hướng dài hạn và ngắn hạn trong chuỗi. Vỡ vậy, nú
được dùng để đạt được tính dừng.
Đối với hầu hết các chuỗi, để đạt được tính dừng chỉ cần thực hiện không quá 2
phép sai phân.
+ Trong trường hợp tính xu hướng thể hiện dưới dạng đường thẳng, chỉ cần thực
hiện sai phân bậc nhất để đạt được tính dừng
+ Khi xu hướng có dạng parabol phải thực hiện 2 sai phân bậc nhất (Xu hướng dạng
đường thẳng và dạng parabol được gọi là đa thức bậc nhất và đa thức bậc 2).
+ Xu hướng đa thức bậc cao hơn rất hiếm khi gặp phải trong chuỗi thời gian thực.
Tuy nhiên, chúng cũng có thể được thiết lập bằng quá trỡnh sai phõn thường. Ví dụ
xu hướng bậc 3 (đường bậc 3-cubic) có thể được thiết lập nếu áp dụng 3 sai phân
thường.
Để xác định chính xác số lần sai phân thường, chúng ta có thể phải sử dụng AC của
chuỗi. Một chuỗi cần phải được sai phân khi AC có phần dư lớn ở nhiều độ trễ, bắt
đầu ở độ trễ 1. Mặc dù AC có thể giảm nhưng chúng giảm rất chậm (ở mức hằng
số). Tương quan đồ của chuỗi cần phải sai phân thường xuất hiện các khối dày đặc
hoặc các đỉnh nhọn liên tiếp.
Trong thực tế, một mụ hỡnh AR cú thể thể hiện một mối quan hệ, đó là nó gần như
tương đương với phép sai phân
Sai phõn bậc 1 : z
t
= z
t
-z
t-1
= (1-B)z
t
Sai phõn bậc 2 :
2
z

t
=(z
t
-z
t-1
) - (z
t-1
-z
t-2
)=z
t
-2z
t-1
-z
t-2
= (1-B)
2
z
t


2
=(1-B)
2

Sai phõn bậc d :
d
z
t
= (1-B)

d
z
t

Vậy mụ hỡnh ARMA khụng cú tớnh dừng sẽ được chuyển thành ARIMA có
tính dừng viết dưới dạng như sau:
(B)w
t
=C+ (B)a
t
. (25)
trong đó: (B) là toỏn tử tự hồi quy bậc p
(B) là toỏn tử trung bỡnh trượt bậc q
w
t
=
d
z
t

×