Tải bản đầy đủ (.pdf) (34 trang)

đồ án chuỗi thời gian sử dụng mô hình vector autoregression var trong dự báo dữ liệu chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.9 MB, 34 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐỒ ÁN CHUỖI THỜI GIAN

Ngành: Toán Tin

Giảng viên hướng dẫn: TS. Nguyễn Thị Ngọc Anh <sub>Chữ kí của GVHD</sub>

HÀ NỘI, 1/2024

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

Lời cảm ơn

Nhóm chúng em xin gửi lời cảm ơn sâu sắc tới TS.Nguyễn Thị Ngọc Anh đã luôntheo dõi sát sao quá trình học tập của chúng em và chỉ dạy, hướng dẫn bọn emhọc tập môn Chuỗi thời gian

Chúng em cũng xin gửi lời cảm ơn đến các giảng viên của Khoa Toán tin, Đạihọc Bách Khoa Hà Nội đã cung cấp những kiến thức cơ bản để tạo điều kiệnthuận lợi cho chúng em hoàn thành đồ án này.

Chúng em xin chân thành cảm ơn!

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

ĐỒ ÁN CHUỖI THỜI GIAN NHĨM I

Tóm tắt nội dung báo cáo

Dự báo chuỗi thời gian là một lĩnh vực trong khoa học máy tính và thống kê,được sử dụng để dự đoán giá trị của một biến số theo thời gian. Trong thực tế,nó được sử dụng trong nhiều lĩnh vực, bao gồm tài chính, kinh doanh, y tế, khoahọc xã hội, v.v. đã được nghiên cứu từ lâu và được nhiều người quan tâm.Vì vậy, trong đồ án này, nhóm chúng em sử dụng mơ hình Vector Autoregression-VAR để dự báo các kế hoạch( giá trị và số lượng) cho quý tiếp theo của loại sảnphẩm B1.

Từ khóa: VAR, Forecasting, Time Series Data.

Hà Nội, ngày 21 tháng 01 năm 2024

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

2.2 Kiểm định một số tính chất liên quan của mơ hình VAR . . . 10

2.2.1 Tính dừng . . . 10

2.2.2 Tính nhân quả/ khả nghịch . . . 11

2.3 Biểu diễn trung bình động của VAR . . . 11

2.4 Ước lượng VAR . . . 13

2.5 Dự báo cho mơ hình VAR . . . 13

2.6 Trung bình bình phương sai số . . . 14

3 Mơ tả bài tốn 153.1 Yêu cầu đặt ra . . . 15

3.2 Quy trình làm việc của mơ hình VAR . . . 15

4.1.1 Tìm thứ tự độ trễ của mơ hình VAR(p p) . . . 20

4.1.2 Huấn luyện mơ hình VAR dựa trên độ trễ đã tìm đượcptrước đó . . . 21

4.2 Đánh giá mơ hình . . . 22

4.2.1 Kiểm tra mối tương quan nối tiếp của số dư (lỗi) bằngThống kê Durbin Watson . . . 22

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

Bảng ký hiệu, viết tắt và thuật ngữ

Từ viết tắt Ý nghĩa

VAR Vector AutoregressionOLS Ordinary Least SquaresMSE Mean Squared Error

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

DANH MỤC HÌNH VẼ

3.1 Thơng tin bộ dữ liệu . . . 16

3.2 Kiểm tra missing data trong bộ dữ liệu . . . 17

3.3 5/12 dòng của bộ dữ liệu sau khi đã loại bỏ các thuộc tính khơngcần thiết . . . 17

3.4 Trực quan hóa bộ dữ liệu . . . 18

3.5 Kiểm tra tính dừng của các chuỗi thời gian trong bộ dữ liệu . . . 19

4.1 Kiểm tra giá trị AIC để tìm ra thứ tự độ trễ phù hợp với mơphình VAR . . . 20

4.2 Huấn luyện mơ hình VAR dựa trên bộ dữ liệu ban đầu . . . 21

4.3 Ma trận tương quan của phần dư . . . 21

4.4 Kiểm tra mối tương quan nối tiếp của số dư (lỗi) bằng Thống kêDurbin Watson . . . 22

4.5 Dự báo các giá trị thuộc tập kiểm thử . . . 23

4.6 So sánh giá trị dự báo với giá trị ban đầu thuộc tập kiểm thử . . 23

4.7 Độ chính xác của dự báo đối với mỗi chuỗi thời gian tity_Plan và Value_Plan . . . 24

4.8 Độ chính xác của dự báo đối với mỗi chuỗi thời gian tity_Comp và Value_Comp . . . 25

Quan-4.9 Thực hiện dự báo dữ liệu kế hoạch 4 quý trong năm 2024 . . . 26

4.10 Trực quan hóa bộ dữ liệu của sản phẩm B1 . . . 27

4.11 Tính toán AIC đối với bộ dữ liệu của sản phẩm B1 . . . 27

4.12 Mơ hình VAR cho bộ dữ liệu thứ 2 . . . 28

4.13 So sánh giá trị dự báo của mơ hình với giá trị thực . . . 28

4.14 Đánh giá mơ hình VAR của bộ dữ liệu thứ hai . . . 29

4.15 Dự báo dữ liệu 4 quý tiếp theo của sản phẩm B1 bằng mơ hìnhVAR thứ hai . . . 30

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

CHƯƠNG 1. Mở đầu

Trong thời kỳ cơng nghệ hiện đại, việc thu thập và phân tích dữ liệu trở thànhkhông thể thiếu đối với doanh nghiệp và tổ chức. Dữ liệu chuỗi thời gian, đặcbiệt, là một trong những loại dữ liệu quan trọng được quan tâm rộng rãi. Đượcđịnh nghĩa là các số liệu được ghi lại theo thời gian, như số lượng khách hàng,giá cả, sản lượng, hoặc các chỉ số kinh tế và tài chính, dữ liệu chuỗi thời gianđóng vai trị quan trọng trong việc dự báo xu hướng tương lai.

Việc dự báo chuỗi thời gian đối với các doanh nghiệp và tổ chức khơng chỉ quantrọng mà cịn giúp họ đưa ra các quyết định có logic và nâng cao hiệu suất hoạtđộng. Trong nhiều lĩnh vực, mơ hình dự báo chuỗi thời gian đã được phát triểnvà sử dụng rộng rãi, giúp chuyên gia có khả năng đưa ra dự báo chính xác vềtương lai.

Trong nghiên cứu này, chúng em đề xuất sử dụng mơ hình VAR để dự báo dữliệu chuỗi thời gian về kế hoạch quý tiếp theo của một loại sản phẩm B1. VAR,một mơ hình thống kê đa biến, cho phép phân tích và dự báo chuỗi thời giancủa các biến phụ thuộc lẫn nhau.

Mục tiêu của nghiên cứu này là áp dụng mơ hình VAR để dự báo kế hoạch quýtiếp theo của loại sản phẩm B1. Cụ thể, chúng em sẽ:

•Thu thập và xử lý dữ liệu chuỗi thời gian.

•Kiểm tra tính dừng của chuỗi thời gian.

•Sử dụng mơ hình Var dự báo kế hoạch quý tiếp theo của loại sản phẩm B1(2,3,4 quý tiếp theo)

•Đánh giá sai số của mơ hình.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

CHƯƠNG 2. Mơ hình Vector Autoregression2.1 Định nghĩa

Mơ hình Vector Autoregression (VAR) hay cịn gọi là mơ hình véc tơ tự hồi quy,mô tả sự phát triển của một tập hợp gồm biến, được gọi làk biến nội sinh, theothời gian. Mơ hình VAR là chuỗi thời gian đa biến chứa một hệ gồm phươngk

trình củakbiến phân biệt, mỗi biến có một phương trình mơ hình hóa sự pháttriển của nó theo thời gian. Phương trình này bao gồm các giá trị trễ (quá khứ)của biến, giá trị trễ của các biến khác trong mơ hình và các điều kiện khác.Các mơ hình VAR cịn được đặc trưng bởi mức độ : mỗi phương trình trongp

mơ hình VAR(p) chứapđộ trễ của tất cả các biến trong hệ thống, hay cịn gọilà VAR có độ trễ .p

Mơ hình VAR tổng qt

Mơ hình VAR tổng qt hay cịn gọi là mơ hình TVP-VAR (mơ hình véc tơ tựhồi quy với các tham số thay đổi theo thời gian - Time Varing Parameter VectorAutoregression Model) bao gồm biến và độ trễ. Mô hình VAR có thể đượck p

định nghĩa như sau:

• A<small>p</small>là ma trận hệ sốk × kđo lường tác động của véc tơ biến trễy<small>t−p</small>lên véctơ biến .y<small>t</small>

• u<small>t</small>là q trình nhiễu trắngkchiều (trung bình bằng khơng, phương sai cốđịnh, khơng tự tương quan).

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

Như vậy, số lượng tham số được ước lượng trong mơ hình VAR sẽ làK + pK<small>2</small>haymỗi phương trình trong phương trình sẽ cók 1 + pKtham số được ước lượng. Sốlượng tham số được ước lượng càng nhiều thì sai số ước lượng trong dự báo càngcao. Trong thực tế, thơng thường người ta duy trì nhỏ và chỉ bao gồm nhữngk

biến có tương quan cao với nhau.Ví dụ

Mơ hình VAR 2 chiều có độ trễ 1 có dạng hệ 2 phương trình như sau:

•Hệ sốϕ<small>i</small>i,1đo lường tác động của biến trễy<small>i,t−1</small>lên biếny<small>i,t</small>.

•Hệ sốϕ<small>i</small>j,1đo lường tác động của biến trễy<small>j,t−1</small>lên biếny<small>i,t</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

ĐỒ ÁN CHUỖI THỜI GIAN NHĨM I

2.2 Kiểm định một số tính chất liên quan củamơ hình VAR

2.2.1 Tính dừng

Xét mơ hình VAR tổng quát:

(station-Ta sẽ cụ thể kiểm định trên cho trường hợp VAR(1):

y<small>t</small>= A<small>1</small>y<small>t−1</small>+ u<small>t</small>

trong đóy<small>t</small>,u ,A<small>t1</small>được cho như sau:

y<small>2,t</small> ,A<small>1</small>=0.2 0

1 0 9. <sub>,u</sub><sub>t</sub><sub>=</sub>u<small>1,t</small>

Khi đó ta cóΦ(L) = I − A L<small>1</small> , xét biểu thức:

det(Φ(z)) = det(I − A<small>1</small>z) = det

1 00 1 − z ∗

0.2 01 0 9.

= det

1 − 0.2 ∗ z 0−z 1 − 0.9 ∗ z

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

Như vậy, biểu thứcdet(Φ(L)) = 0có 2 nghiệmz<small>1</small>= <sup>1</sup>0.2<sup>,z</sup><sup>1</sup><sup>=</sup>

0.9nằm ngồi đườngtrịn đơn vị. Như vậy trường hợp mơ hình VAR(1) trên là một chuỗi dừng.

•VARMA(p,q) có tính nhân quả nếudetΦ(z) = 0, ∀z ∈Cthỏa mãn|z|≤1.

•VARMA(p,q) có tính khả nghịch nếudetΘ(z) = 0, ∀z ∈Cthỏa mãn|z|≤1.Đối với trường hợp VAR(p), dễ thấy nó chính là mơ hình VARMA(p,0), khi đó

Θ(L) = I∀z ∈Cthỏa mãn|z|≤1, như vậy mơ hình VAR có tính khả nghịch với

Xét ví dụ cho trong phần 2.2.1, ta thấy mơ hình hiển nhiên là khả nghịchvới mọi t. Ngồi ra, từ chứng minh của phần 2.2.1, do có điều kiện giống nhaunên mơ hình cũng có tính nhân quả.

2.3 Biểu diễn trung bình động của VAR

Giả sử mơ hình VAR có tính dừng, chúng ta có thể biểu diễn trung bình độngcủa nó bằng cách sử dụng phép thay thế đệ quy hoặc toán tử lùi. Chúng ta sửdụng mơ hình :

y<small>t</small>= A<small>1 t−1</small>y + ...+ A y<small>p t−p</small>+u<small>t</small>

Khi đó:

y<small>t</small>= µ + A<small>1 t−1</small>y + u<small>t</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

2.4 Ước lượng VAR

OLS (Ordinary Least Squares) là một phương pháp ước lượng tham số trong cácmơ hình hồi quy tuyến tính. Nó là một phương pháp phổ biến và đơn giản đượcsử dụng để tìm ra "đường hồi quy"(regression line) tốt nhất để fit dữ liệu.Giả sử rằng chúng ta có cỡ mẫu thời gian là T vớiy<small>1</small>,...,y<small>T</small> đối với mỗi K biếntrong mơ hình VAR(p) có thể xác định trong phương trình :

y<small>t</small>= A<small>1 t−1</small>y + ...+ A y<small>p t−p</small>+u<small>t</small>

Theo Lukepohl, chúng ta định nghĩa:

Y = [y<small>1</small>,...,y<small>T</small>], A= [A<small>1</small>,...,A<small>p</small>], U= [u<small>1</small>,...,u<small>p</small>], Z= [Z<small>0</small>,...,Z<small>T −1</small>]

Ở đây:

Có thể viết lại dưới dạng:

Y = AZ U+

Ước lượng OLS được định nghĩa là:

ˆA = [ ˆA<small>1</small>,..., ˆA<small>p</small>] = YZ<small>′</small>(ZZ<small>′</small>)<small>−1</small>

2.5 Dự báo cho mơ hình VAR

Để dự báo tuyến tính h-bước cho mơ hình VAR(p), ta sẽ sử dụng công thứcsau:

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

ĐỒ ÁN CHUỖI THỜI GIAN NHĨM I

Với mơ hình VAR(1) sau khi thêm 1 điểm, kết quả dự báo trước h bước có cơngthức:

Từ đó có dự báo điểm của phương pháp là:

E[y<small>t+h</small>|y<small>t</small>] = (I + A<small>1</small>+ ...+A<small>h−1</small>

<small>1</small> )µ + A<small>h</small>y<small>t</small>

Khih →∞có:

E[y<sub>t+h</sub>|y<small>t</small>] = <sup>µ</sup>I − A<small>1</small>

2.6 Trung bình bình phương sai số

Vớih<small>′</small>(y) = E[y<small>t+h</small>|y<small>t</small>], thì sai số của VAR với dự báo h bước là:

Kỳ vọng của biểu thức này là sai số dự báo kỳ vọng. Với giả định hiện tại về

E[u<small>t</small>], kỳ vọng này bằng khơng. Do đó:

E[y<small>t+h</small>− y<sup>′</sup>( )] = [yh E <small>t+h</small>] − E[y<sup>′</sup>(h)] = 0

Do đó, bộ dự báoy<small>′</small>(h)là không chệch. MSE đơn giản là phương sai của sai sốdự báo. Do đó, trong mơ hình VAR đa biến, MSE được kí hiệu làσ h<small>y</small>( ), đượcxác định như sau:

<small>y</small>(h) = E y<small>t+h</small>− y<small>′</small>( )h <sup>2</sup>= E

A<small>i1</small>u<sub>t+h−i</sub>= σ<small>′</small>

<small>1</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

CHƯƠNG 3. Mơ tả bài tốn3.1 Yêu cầu đặt ra

Đề bài dự báo kế hoạch quý tiếp theo của một loại sản phẩm B1. Dự báo chotừng sản phẩm B1 theo:

•Kế hoạch quý tiếp theo

•Kế hoạch hai quý tiếp theo

•Kế hoạch ba quý tiếp theo

•Kế hoạch 4 quý tiếp theo

Lưu ý: Có thể thể bổ sung dữ liệu kinh tế vĩ mơ từ bên ngồi sao cho dự báo cócác chỉ số đánh giá tốt nhất.

3.2 Quy trình làm việc của mơ hình VAR

1. Tải, tiền xử lý và trực quan hóa bộ dữ liệu.2. Phân vùng tập dữ liệu.

3. Kiểm tra tính dừng của các chuỗi thời gian từ bộ dữ liệu. Thực hiện cácbiến đổi để đảm bảo các chuỗi thời gian có tình dừng (nếu cần).

4. Tìm thứ tự độ trễ để tối ưu hóa mơ hình.p

5. Huấn luyện mơ hình VAR dựa trên độ trễ đã tìm được trước đó.p

6. Kiểm tra mối tương quan nối tiếp của số dư (lỗi) bằng Thống kê DurbinWatson để đảm bảo cho việc dự báo số liệu.

7. Đảo ngược phép biến đổi để có được dự báo thực (nếu cần).

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

ĐỒ ÁN CHUỖI THỜI GIAN NHĨM I

8. Đánh giá mơ hình VAR dựa trên tập kiểm thử

9. Thực hiện dự báo tương lai (thực hiện yêu cầu đặt ra của bài toán).

3.3 Tiền xử lý bộ dữ liệu

3.3.1 Giới thiệu bộ dữ liệu

Dữ liệu lịch sử kế hoạch theo quý của sản phẩm B1 trong 3 năm 2021-2023. Bộdữ liệu đưa ra hai thơng tin có giá trị chênh lệch nhau khá lớn. Ta quy ước cộtgiá trị lớn dao động trong khoảng330 − 800là thuộc tính Value_Plan (giá trị)cịn cột giá trị nhỏ dao động trong khoản31 − 82là thuộc tính Quantity_Plan(số lượng). Dữ liệu về Value_Comp (giá trị) và Quantity_Comp (số lượng) củađối thủ trong 4 năm từ 2020-2023 được sắp xếp lần lượt theo các tháng. File.xlsx được chuyển đổi về file .csv để tiện cho việc xử lí dữ liệu.

3.3.2 Xử lí bộ dữ liệu

Biến đổi giá trị Quantity_Comp và Value_Comp theo quý bằng cách tính tổng3 tháng một gộp lại. Ghép hai bộ dữ liệu vào với nhau với thuộc tính chung làthời gian (Year) phân chia một năm thành 4 quý, kéo dài 4 năm 2020-2023.

Hình3.1 Thông tin bộ dữ liệu

Tiếp đến ta kiểm tra missing data ở các trường dữ liệu, nhận thấy các trườngđều bị thiếu dữ liệu. Hai thuộc tính là Quantity_Plan và Value_Plan thiếu dữ

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

liệu trong năm 2020, Quantity_Comp và Value_Comp thiếu dữ liệu ở quý 4năm 2023. Để xử lý bộ dữ liệu nêu trên trong trường hợp này, sử dụng phươngpháp Linear Interpolation với hàm ForecastLinear() trong Excel. Phương phápnày cho phép tái tạo lại các mốc dữ liệu còn thiếu bằng việc sử dụng các giá trịkhác trong bộ dữ liệu. Kiểm tra lại lần nữa, lúc này các thuộc tính đều khơngchứa giá trị null.

Hình3.2 Kiểm tra missing data trong bộ dữ liệu

Nhận thấy bộ dữ liệu đã được sắp xếp đúng theo thứ tự thời gian (lần lượt từquý 1 đến quý 4 từ năm 2021 đến năm 2023). Do vậy, ta có thể loại bỏ thuộctính là Year (năm + q) hiện đã khơng cần thiết.

Hình3.3 5/12 dòng của bộ dữ liệu sau khi đã loại bỏ các thuộc tínhkhơng cần thiết

Thực hiện trực quan hóa bộ dữ liệu. Hai chuỗi thời gian Quantity_Comp và

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

Value_Comp đều có mơ hình xu hướng khá giống nhau qua các quý. tity_Plan và Value_Plan có xu hướng giống nhau đối với giai đoạn từ năm 2022trở đi.

Quan-Hình3.4 Trực quan hóa bộ dữ liệu

Sau đó ta sẽ phân chia tập dữ liệu theo tỉ lệ75% : 25%tương ứng với bộ huấnluyện và bộ kiểm thử. Mơ hình VAR sẽ được trang bị trêndf_trainvà sau đóđược sử dụng để dự báo 3 quan sát tiếp theo. Những dự báo này sẽ được so sánhvới thực tế có trong dữ liệu thử nghiệm. Để thực hiện so sánh, ta sẽ sử dụngnhiều số liệu về độ chính xác của dự báo, như sẽ thấy ở phần sau của báo cáonày.

Cuối cùng là kiểm tra tính dừng của các chuỗi thời gian thuộc về tập huấn luyện.Nhận thấy có hai chuỗi thời gian về Quantity (số lượng) và Value (giá trị). Vìmơ hình VAR yêu cầu chuỗi thời gian phải là chuỗi dừng nên việc kiểm tra tínhdừng của dữ liệu là một điều vơ cùng quan trọng. Chuỗi dừng là chuỗi có phươngsai và kỳ vọng không phụ thuộc vào thời gian. Một số thuật tốn thường đượcsử dụng để kiểm tra tính dừng là: Augmented Dickey-Fuller (ADF Test), KPSStest, Philip-Perron test... Ta sẽ sử dụng ADF test để kiểm tra tính dừng củabộ dữ liệu. Kiểm định ADF test sẽ trả về giá trịp − value, khip − value<0.05

thì chuỗi dừng vàp − value≥ 0.05thì chuỗi khơng dừng. Trước tiên, triển khaimột hàm hay (adfuller_test()) để ghi kết quả kiểm tra ADF cho bất kỳ chuỗithời gian nhất định nào và triển khai hàm này trên từng chuỗi một. Kiểm địnhADF xác nhận rằng chuỗi Value_Comp không là chuỗi dừng. Để xử lý vấn đềnày ta tính sai phân bậc 1 cho dữ liệu bằng cách sử dụng df_differenced =

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

df.diff().dropna() và tiếp tục kiểm tra tiêu chuẩn ADF. Sau khi tính sai phânbậc 1, chuỗi Value_Comp đã trở thành chuỗi dừng nhưng chuỗi Quantity_Planlại khơng cịn tính dừng. Thực hiện cơng việc này lặp đi lặp lại 4 lần, dữ liệu thuđược đã dừng và thoả mãn được yêu cầu của mô hình VAR.

Hình3.5 Kiểm tra tính dừng của các chuỗi thời gian trong bộ dữ liệu

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

CHƯƠNG 4. Sử dụng mơ hình VAR trong dựbáo

4.1 Huấn luyện mơ hình

4.1.1 Tìm thứ tự độ trễ

p

của mơ hình VAR( )

p

Để tìm tham số p cho mơ hình ta lặp lại q trình fit model đến khi thu đượcmodel có chỉ số AIC nhỏ nhất. AIC đo lượng thông tin mất đi khi sử dụng mơhình để giải thích dữ liệu. Giá trị AIC càng thấp thì mơ hình càng tốt. AICtính tốn bằng cách lấy logarit tự nhiên của hàm khối lượng (likelihood) củamơ hình và trừ đi số lượng thông tin thêm vào. Ta chọn đượcp = 2với chỉ số

AIC= 74.963. Với tham số vừa được chọn, ta sẽ sử dụng để huấn luyện mơp

hình và đưa ra dự báo.

Hình4.1 Kiểm tra giá trị AIC để tìm ra thứ tự độ trễpphù hợp vớimơ hình VAR

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

ĐỒ ÁN CHUỖI THỜI GIAN NHÓM I

4.1.2 Huấn luyện mơ hình VAR dựa trên độ trễ

p

đã tìmđược trước đó

Hình4.2 Huấn luyện mơ hình VAR dựa trên bộ dữ liệu ban đầuTa thu được ma trận tương quan của phần dư. Có thể thấy Quantity_Plan vàValue_Plan có sự tương quan với nhau và Quantity_Comp và Value_Compcũng vậy. Tuy nhiên, sự tương quan giữa Plan và Comp không rõ rệt, cụ thể làchỉ có Quantity_Plan và Value_Comp có chỉ số tương quan dương nhưng lạikhá nhỏ. Điều này cho ta thấy được việc ảnh hưởng đến lẫn nhau giữa sản phẩmB1 và đối thủ là không đáng kể. Tuy nhiên, việc này lại có ảnh hưởng đến việchuấn luyện mơ hình, liệu rằng việc sử dụng bộ dữ liệu 4 thuộc tính này tốt hơnhay bộ dữ liệu riêng về sản phẩm B1 sẽ tốt hơn? Vấn đề này ta sẽ xem xét sau.

Hình4.3 Ma trận tương quan của phần dư

</div>

×