Tải bản đầy đủ (.pdf) (74 trang)

Tìm hiểu mô hình arima phân tích dữ liệu y tế chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.55 MB, 74 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Qua quá trình học tập và nghiên cứu, được sự giúp đỡ nhiệt tình của các thầy cô giáo trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên, Khoa Công nghệ thơng tin, Phịng Đào tạo, tơi đã hồn thành chương trình học tập và

<i><b>nghiên cứu luận văn với đề tài “Tìm hiểu mơ hình ARIMA phân tích dữ liệu y tế chuỗi thời gian”. </b></i>

<b>Tôi xin chân thành cảm ơn các thầy cô giáo trường Đại học Công nghệ thông </b>

tin và Truyền thông Đại học Thái Nguyên đã tạo điều kiện thuận lợi cho tơi trong q trình học tập, nghiên cứu và hoàn thành luận văn.

Xin cảm ơn sự quan tâm, giúp đỡ chu đáo của Hội đồng khoa học, Ban Chủ nhiệm Khoa Công nghệ thông tin và các thầy cơ giáo Phịng Đào tạo trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi và góp nhiều ý kiến q báu cho luận văn.

Tơi xin trân trọng bày tỏ lòng biết ơn sâu sắc tới: TS. Trần Quang Quý - người Thầy đã tận tình hướng dẫn, chỉ bảo, động viên tơi trong suốt q trình thực hiện luận văn, bổ sung cho tôi nhiều kiến thức chuyên môn và những kinh nghiệm quý báu trong nghiên cứu.

Cuối cùng, tơi xin bày tỏ lịng biết ơn và chia sẻ thành quả nhỏ bé này với tất cả những người thân trong gia đình tơi, bè bạn đã luôn động viên, giúp đỡ, tạo những điều kiện tốt nhất để tơi hồn thành tốt chương trình học tập và thực hiện thành công luận văn này.

<i>Thái Nguyên, ngày 24 tháng 6 năm 2023 </i>

<b>Nguyễn Văn Cường </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>LỜI CAM ĐOAN </b>

<b>Tôi tên là: Nguyễn Văn Cường </b>

Lớp: Cao học Khoa học máy tính K20

<i><b>Tơi xin cam đoan đề tài luận văn thạc sỹ: “Tìm hiểu mơ hình ARIMA phân tích dữ liệu y tế chuỗi thời gian” là do tôi thực hiện với sự hướng dẫn của TS. Trần Quang </b></i>

Quý. Đây không phải là bản sao chép của bất kỳ một cá nhân, tổ chức nào. Các số liệu, nguồn thông tin trong Luận văn là do tơi điều tra, trích dẫn và tham khảo.

Tơi xin hồn tồn chịu trách nhiệm về những nội dung mà tôi đã trình bày trong Luận văn này.

<i>Thái Nguyên, ngày 24 tháng 6 năm 2023 </i>

<b>Người viết cam đoan </b>

<b>Nguyễn Văn Cường </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỤC LỤC </b>

LỜI CẢM ƠN ... i

LỜI CAM ĐOAN ... ii

LỜI MỞ ĐẦU ... 7

CHƯƠNG 1 : PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN ... 9

1.1. Khái niệm về chuỗi thời gian ... 9

1.2. Các thành phần của chuỗi thời gian ... 9

1.3. Tính chất của dữ liệu chuỗi thời gian ... 11

1.4. Tính dừng của dữ liệu chuỗi thời gian ... 14

1.4.1. Tính dừng ... 14

1.4.2. Kiểm tra tính dừng chuỗi thời gian ... 15

1.4.3. Biến đổi chuỗi không dừng thành chuỗi dừng ... 17

1.5. Các chỉ số liên quan: Tự tương quan và tương quan chéo ... 18

1.6. Hồi quy cổ điển trong chuỗi thời gian ... 21

2.2. Các mơ hình tự hồi quy AR ... 29

2.3. Mơ hình trung bình trượt MA ... 31

2.4. Mơ hình trung bình trượt và tự hồi quy ARMA ... 32

2.5. Mơ hình trung bình trượt tự hồi quy ARIMA ... 33

2.6. Các bước phân tích dữ liệu chuỗi thời gian với mơ hình ARIMA ... 35

CHƯƠNG 3: MƠ HÌNH ARIMA DỰ ĐỐN DỮ LIỆU COVID-19 ... 46

3.1. Giới thiệu dữ liệu Covid-19 ... 46

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

3.2. Thu thập và tiền xử lý dữ liệu ... 47

3.3. Dữ liệu Covid-19 Việt Nam ... 52

3.4. Xây dựng mô hình ARIMA dự đốn ... 54

3.5. Dự đốn ... 57

TÀI LIỆU THAM KHẢO ... 63

PHỤ LỤC ... 65

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Hình 1 Số liệu diễn biến cúm tại phía Nam châu Phi từ 2006-2015... 9

Hình 2 Biểu diễn xu hướng giảm của dữ liệu ... 9

Hình 3 Biểu diễn thay đổi chuỗi theo từng khoảng ... 10

Hình 4 Biểu diễn chu kỳ chuỗi thời gian ... 10

Hình 5 Sơ đồ chuỗi với định lượng Y(t) diễn tiến theo thời gian t ... 11

Hình 6 Lợi nhuận hàng quý của Johnson & Johnson... 12

Hình 7 Biểu đồ nhiệt độ tồn cầu qua các năm ... 12

Hình 8 Dữ liệu về tần số âm thanh ... 13

Hình 9 Dữ liệu chuỗi thời gian tài chính ... 14

Hình 10 Đồ thị ACF ... 17

Hình 11 Đồ thị PACF ... 17

Hình 12 Chuỗi có nhiễu trắng ... 19

Hình 13 Chuỗi được làm mịn ... 19

Hình 14 Trực quan dữ liệu tồn cầu ... 23

Hình 15 Giá cổ phiếu công ty Amazon sử dụng AR ... 29

Hình 16 Giá cổ phiếu Amazon sử dụng trung bình động ... 31

Hình 17 Các bước chính trong phương pháp Box-Jenkins ... 42

Hình 18 Miêu tả dữ liệu Covid-19 ... 47

Hình 19 Tóm tắt các nước có số ca nhiễm nhiều nhất ... 47

Hình 20 Thống kê ca nhiễm và tử vong các nước có tỷ lệ cao ... 48

Hình 21 Biểu đồ tích lũy từ tháng 06/2020 đến tháng 01/2023 ... 49

Hình 22 Biểu đồ Treemap theo các quốc gia ... 49

Hình 23 Tóm tắt số liệu vắc xin theo quốc gia ... 50

Hình 24 Biểu đồ tương quan giữa tỷ lệ tiêm vắc xin và quy mô dân số các quốc gia ... 50

Hình 25. Dữ liệu Covid thu được ... 51

Hình 26. Dữ liệu Covid sau khi tiền xử lý ... 51

Hình 27. Kiểm định dữ liệu ... 52

Hình 28 Trực quan dữ liệu Covid-19 tại Việt Nam từ 02/2022 đến 04/2023 ... 53

Hình 29 Tách dữ liệu từ 02/2022-05/2022 ... 53

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hình 30 Các biểu đồ ACF và PACF ... 54

Hình 31 Kết quả dự đốn ... 57

Hình 32 Biểu đồ so sánh giá trị thực tế và dự đốn ... 58

Hình 33. Dự đốn với dữ liệu Ấn Độ ... 59

Hình 34 Dự đốn với dữ liệu Brazil ... 59

Hình 35 Kết quả dự đoán ... 73

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Chuỗi thời gian là một lĩnh vực quan trọng trong phân tích dữ liệu, đặc biệt là trong lĩnh vực dự báo và dự đoán. Việc nghiên cứu và xây dựng mơ hình chuỗi thời gian có vai trò quan trọng trong việc hiểu và dự đoán sự biến động của các hiện tượng theo thời gian.

Trong toán học, dữ liệu chuỗi thời gian được định nghĩa là những điểm dữ liệu đã được đánh chỉ số theo thời gian và có khoảng cách đều nhau giữa những quan sát liên tiếp. Đó có thể là dữ liệu về giá chứng khoán hàng ngày, tổng thu nhập quốc dân của một quốc gia hàng năm, tổng doanh số cơng ty hàng q,…

Ưu điểm của chuỗi thời gian là nó có thể lưu trữ được trạng thái của một trường dữ liệu theo thời gian. Trong khi đó thế giới ln vận động, các sự vật, hiện tượng hiếm khi dừng lại ở trạng thái tĩnh mà thường thay đổi. Do đó dữ liệu chuỗi thời gian có tính ứng dụng rất cao và được áp dụng trong rất nhiều lĩnh vực khác nhau như: thống kê, kinh tế lượng, tốn tài chính, dự báo thời tiết, dự đoán động đất, điện não đồ, kỹ thuật điều khiển, thiên văn, kỹ thuật truyền thơng, xử lý tín hiệu.

Mơ hình ARIMA có tên tiếng Anh là Autoregressive Integrated Moving Average, đây là mơ hình quan trọng trong việc phân tích và sử dụng để dự đoán dữ liệu chuỗi thời gian. Mơ hình này lần đầu tiên được đưa ra bởi Box & Jenkins (1970). ARIMA được kết hợp bởi 3 thành thành phần chính: AR (thành phần tự hồi quy), I (tính dừng của chuỗi thời gian) và MA (thành phần trung bình trượt). Theo Gujarati (2004), để ước lượng mơ hình ARIMA ta cần đi qua 4 bước chính sau:

Bước 1: Nhận dạng mơ hình

Bước 2: Ước lượng các tham số và lựa chọn mơ hình Bước 3: Kiểm định mơ hình

Bước 4: Dự báo

Trong bối cảnh đại dịch Covid-19 đang lan rộng trên tồn thế giới, việc dự đốn số ca nhiễm là một vấn đề cấp bách và có tính thiết yếu. Nội dung quyển luận văn này nhằm mục đích trình bày q trình nghiên cứu và xây dựng mơ hình ARIMA để dự đốn số ca nhiễm COVID-19 tại Việt Nam. Trong đó sẽ sử dụng các dữ liệu về

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

số ca nhiễm đã ghi nhận trong quá khứ để xây dựng mơ hình và tiến hành dự đốn số ca nhiễm trong tương lai. Từ việc phân tích mơ hình, thu thập dữ liệu và đưa ra các nhận xét sẽ rút ra được cái nhìn tổng quan về xu hướng của dữ liệu, từ đó đưa ra được các khuyến nghị. Dữ liệu đang đề cập ở đây là dữ liệu Covid-19, một dạng dữ liệu điển hình trong lĩnh vực y tế dự phịng.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>1.1. Khái niệm về chuỗi thời gian </b>

Chuỗi thời gian là một tập hợp các giá trị được ghi nhận tại các thời điểm khác nhau, có thể được sử dụng để mơ tả các biến đổi theo thời gian. Các ví dụ về chuỗi thời gian bao gồm số lượng sản phẩm bán ra hàng tháng, giá cổ phiếu theo ngày, nhiệt độ theo giờ, và số lượng ca nhiễm Covid-19 hàng ngày.

<i>Hình 1 Số liệu diễn biến cúm tại phía Nam châu Phi từ 2006-2015 </i>

<b>1.2. Các thành phần của chuỗi thời gian </b>

Dữ liệu chuỗi thời gian có các thành phần cơ bản như: thành phần xu hướng; thành phần mùa (thời vụ); thành phần chu kỳ (dài hạn); các điểm bất thường và

ngẫu nhiên.

<i>Hình 2 Biểu diễn xu hướng giảm của dữ liệu </i>

<i><b>- Thành phần xu hướng: để chỉ xu hướng tăng hay giảm của dữ liệu y trong </b></i>

chuỗi thời gian. Thành phần xu hướng này thường được biểu diễn trên đồ thị bởi

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

một đường thẳng hay đường cong trơn. Chuỗi dữ liệu không tồn tại thành phần xu hướng (tức là dữ liệu khơng tăng hoặc khơng giảm) thì chuỗi đó dừng theo giá trị trung bình.

<i>Hình 3 Biểu diễn thay đổi chuỗi theo từng khoảng </i>

- <i><b>Thành phần mùa (thời vụ): để chỉ chiều hướng tăng hay giảm của giá trị y </b></i>

được tính theo giai đoạn thời gian (khoảng thời gian ngắn). Ví dụ: số lượng trẻ em mắc các bệnh về hô hấp tăng lên vào dịp cao điểm rét đậm, rét hại ở nước ta.

<i>Hình 4 Biểu diễn chu kỳ chuỗi thời gian </i>

- <i><b>Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi </b></i>

thời gian xoay quanh xu hướng. Thường trong chuỗi dữ liệu dài hạn thì khó đốn chu kì.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

ngẫu nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường khơng dự đốn được sự thay đổi của dữ liệu. Những tác động gây ra sự thay đổi dữ liệu thường do các yếu tố bên ngoài tác động.

<i>Hình 5 Sơ đồ chuỗi với định lượng Y(t) diễn tiến theo thời gian t </i>

Theo Hình 5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại thời điểm t, qua đó ta có thể xác định được các mơ hình sau:

- Mơ hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝐼𝑡. - Mơ hình nhân: 𝑌𝑡 = 𝑇𝑡𝑆𝑡 𝐶𝑡𝐼𝑡.

Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular).

Nếu thành phần chu kỳ và mùa không ảnh hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mơ hình cộng, ngược lại mơ hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ.

<b>1.3. Tính chất của dữ liệu chuỗi thời gian </b>

Tính chất của dữ liệu chuỗi thời gian có thể được hiểu rõ hơn thơng qua việc xem xét các ví dụ thực tế từ các lĩnh vực khác nhau. Dưới đây là một ví dụ về lợi nhuận hàng quý của cơng ty Johnson & Johnson:

<b>Ví dụ 1.1: Lợi nhuận hàng quý của Johnson & Johnson </b>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Hình 6 thể hiện biểu đồ lợi nhuận hàng quý mỗi cổ phiếu của công ty Johnson & Johnson, được cung cấp bởi Giáo sư Paul Griffin từ Trường Quản lý Đại học California. Dữ liệu này bao gồm 84 quý (tương đương 21 năm) từ quý đầu tiên của năm 1960 đến quý cuối cùng của năm 1980. Mục tiêu là xây dựng mơ hình cho chuỗi thời gian bằng cách quan sát các mẫu chính trong quá khứ. Trong trường hợp này, chúng ta có thể nhận thấy xu hướng chung tăng dần và sự biến động đều đặn được thêm vào xu hướng, có vẻ như lặp lại qua các quý.

<i>Hình 6 Lợi nhuận hàng quý của Johnson & Johnson </i>

<b>Ví dụ 1.2: Sự nóng lên tồn cầu </b>

<i>Hình 7 Biểu đồ nhiệt độ tồn cầu qua các năm </i>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

2009. Dữ liệu được cập nhật từ nghiên cứu của Hansen và đồng nghiệp (2006). Qua biểu đồ, chúng ta có thể nhận thấy một xu hướng tăng đáng kể trong nhiệt độ toàn cầu trong giai đoạn cuối của thế kỷ 20, và điều này đã được sử dụng như một bằng chứng cho giả thuyết về nóng lên tồn cầu. Chúng ta cũng có thể quan sát sự ổn định trong khoảng năm 1935, sau đó là một xu hướng tăng đáng kể khác vào khoảng năm 1970.

<b>Ví dụ 1.3: Dữ liệu tần số âm thanh </b>

<i>Hình 8 Dữ liệu về tần số âm thanh </i>

Các ứng dụng trong khoa học vật lý đặt ra những câu hỏi phức tạp hơn. Hình 8

<i><b>hiển thị một mẫu âm thanh được ghi lại cho cụm từ aaa · · · hhh với thời lượng 0.1 </b></i>

giây (1000 điểm). Chúng ta có thể quan sát sự lặp lại của tín hiệu và các chu kỳ đều đặn khá rõ ràng. Hiện nay, một vấn đề đang thu hút sự quan tâm là việc máy tính nhận dạng tiếng nói, và điều này địi hỏi chuyển đổi tín hiệu cụ thể này thành các

<i><b>cụm từ ghi lại như aaa · · · hhh. Phân tích phổ có thể được sử dụng để tạo ra một </b></i>

chữ ký cho cụm từ này, sau đó có thể được so sánh với các chữ ký của các âm tiết trong các thư viện khác nhau để tìm kiếm sự khớp nhau.

<b>Ví dụ 1.4: Sàn giao dịch chứng khốn New York </b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i>Hình 9 Dữ liệu chuỗi thời gian tài chính </i>

Hình 9 là một ví dụ về dữ liệu chuỗi thời gian tài chính, mơ tả sự thay đổi hàng ngày (hoặc phần trăm thay đổi) của Sàn giao dịch chứng khoán New York (NYSE) từ ngày 2 tháng 2 năm 1984 đến ngày 31 tháng 12 năm 1991. Trong hình vẽ, chúng ta dễ dàng nhận thấy sự sụp đổ của thị trường vào ngày 19 tháng 10 năm 1987. Dữ liệu trong hình 9 là một ví dụ điển hình cho các dữ liệu tài chính.Trung bình của chuỗi thời gian có vẻ ổn định với lợi suất trung bình xấp xỉ bằng khơng. Tuy nhiên, sự biến động (hoặc độ lệch chuẩn) của dữ liệu thay đổi theo thời gian. Thực tế là dữ liệu cho thấy sự tập trung của các chu kỳ biến động; có nghĩa là các giai đoạn có biến động mạnh sẽ có xu hướng tập trung lại với nhau. Một vấn đề quan trọng trong phân tích dữ liệu tài chính như vậy là dự báo độ biến động của lợi suất trong tương lai. Để giải quyết vấn đề này, đã phát triển các mô hình như mơ hình ARCH và GARCH (Engle, 1982; Bollerslev, 1986) cũng như mơ hình biến động ngẫu nhiên (Harvey, Ruiz và Shephard, 1994).

<b>1.4. Tính dừng của dữ liệu chuỗi thời gian 1.4.1. Tính dừng </b>

Dữ liệu chuỗi thời gian có thể được tạo ra từ một q trình và kết quả của nó là tập dữ liệu theo thời gian. Q trình đó sinh ra một tập dữ liệu tổng thể và một tập hợp dữ liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu

<b>mẫu. Một tính chất quan trọng của dữ liệu chuỗi thời gian là tính dừng . Một chuỗi </b>

giá trị trên thời gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

được coi là dừng khi thỏa mãn:

- 𝐶𝑜𝑣(𝑌𝑡, 𝑌𝑡+𝑘) = 𝐸[(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡 − 𝜇)] = 𝑌𝑘(∀𝑡). (3) Hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai giai đoạn.

Hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai giai đoạn.

<i><b>1.4.2. Kiểm tra tính dừng chuỗi thời gian </b></i>

<i><b>1.4.2.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian </b></i>

Nếu đồ thị 𝑌 = 𝑓(𝑡) cho trung bình và phương sai của Yt khơng đổi theo thời gian thì chuỗi có tính dừng. Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đốn rằng chuỗi là không dừng. Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính dừng của chuỗi thời gian. Tuy nhiên, với những chuỗi thời gian có xu hướng khơng rõ ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng.

<b>1.4.2.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần </b>

<i><b>1.4.2.2.1. Sơ đồ tự tương quan ACF </b></i>

Sử dụng dùng hàm tự tương quan ACF - Autocorelation Function, trong đó: độ trễ k ký hiệu bằng ρk, xác định bằng công thức như sau:

(4) Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k. Hàm tự

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k. Ví dụ: ρ1 là hệ số tương quan giữa Yt và 1, ρi là hệ số tương quan giữa Yt và Yt-i... Nếu vẽ đồ thị ρk với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF.

<b>1.4.2.2.2. Sơ đồ tự tương quan riêng phần PACF </b>

Ta có hệ số tự tương quan ρk với 𝑘 ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và Yt+k. Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số biến khác. Trong trường hợp này là do ảnh hưởng từ các biến 1, …, Yt-k+1. Do vậy, ta sử dụng hàm tương quan PACF (Partial Autocorrelation Function) để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương quan riêng ρkk ước lượng theo công thức Durbin:

(5) Để kiểm tra sự tương quan giữa các giá trị của chuỗi, ta sử dụng đồ thị ACF (Autocorrelation Function) và PACF Đồ thị ACF thể hiện tương quan giữa các giá trị của chuỗi với các giá trị trước đó, cịn đồ thị PACF thể hiện tương quan giữa các giá trị của chuỗi với các giá trị không phụ thuộc.

Miêu tả nội dung này trong R như sau:

<i># Khai báo package stats </i>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i>Hình 10 Đồ thị ACF </i>

<i>Hình 11 Đồ thị PACF </i>

Trong ví dụ này, chúng ta sử dụng hàm ts() để tạo ra chuỗi thời gian x từ một vector giá trị. Sau đó, chúng ta sử dụng hàm acf() và pacf() để vẽ đồ thị ACF và PACF cho chuỗi x. Tham số main được sử dụng để đặt tiêu đề cho đồ thị. Hàm par() được sử dụng để chia layout của đồ thị thành 2 hàng, 1 cột, giúp hiển thị hai đồ thị ACF và PACF trên cùng một trang.

<b>1.4.3. Biến đổi chuỗi không dừng thành chuỗi dừng </b>

Với chuỗi thời gian ban đầu khơng có tính dừng, trước khi xây dựng mơ hình ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với d = 1 hoặc d = 2,...

Ta có cơng thức: 𝑌<small>𝑡</small> = 𝑌<small>𝑡−1</small> + 𝑢<small>𝑡</small>, giá trị ut được gọi là nhiễu trắng (white noise).

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Ta có cơng thức sai phân cấp 1 của 𝑌<small>𝑡</small> như sau: 𝐷(𝑌<small>𝑡</small>) = 𝑌<small>𝑡</small> − 𝑌<small>𝑡−1</small> = 𝑢<small>𝑡</small>, trong đó với 𝑢<small>𝑡</small> là nhiễu trắng nên 𝐷(𝑌<small>𝑡</small>) là chuỗi dừng.

Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì tiếp tục lấy sai phân cấp 2, 3… Có thể nói, ln có một giá trị d để sai phân cấp d của Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d). Sai phân của cấp d được tính như sau:

+ Cấp 1: 𝐷(𝑌𝑡) = 𝑌𝑡 − 𝑌𝑡−1

+ Cấp 2: 𝐷(𝐷(𝑌𝑡)) = 𝐷<small>2</small>(𝑌𝑡) = (𝑌𝑡 − 𝑌𝑡−1) − (𝑌𝑡−1−𝑌𝑡−2) + Tương tự như vậy với sai phân cấp d: 𝐷(𝐷<small>𝑑−1</small>(𝑌𝑡))

Nếu Yt ở dạng logarit thì giá trị 𝐷(𝑌<small>𝑡</small><b>) là phần trăm thay đổi của Yt so với trước đó. 1.5. Các chỉ số liên quan: Tự tương quan và tương quan chéo </b>

Một mô tả đầy đủ của chuỗi thời gian, quan sát được dưới dạng một bộ gồm n biến ngẫu nhiên tại các điểm thời gian nguyên tùy ý t<small>1</small>, t<small>2</small>, . . . , t<small>n</small>, cho bất kỳ số nguyên dương nào, được cung cấp bởi hàm phân phối liên hợp, được đánh giá là xác suất rằng các giá trị của chuỗi đều nhỏ hơn n hằng số c<small>1</small>, c<small>2</small>, . . . , c<small>n</small>; tức là:

Tuy nhiên, việc viết hàm phân phối đa chiều thường không đơn giản trừ khi các biến ngẫu nhiên đó là đồng thời chuẩn. Trong trường hợp đó, hàm mật độ xác suất liên hợp có thể được biểu diễn dễ dàng và đáng tin cậy.

Mặc dù hàm phân phối liên hợp mô tả dữ liệu một cách đầy đủ, nó khơng phải là một cơng cụ dễ sử dụng để hiển thị và phân tích dữ liệu chuỗi thời gian. Hàm phân phối ở trên phải được đánh giá như một hàm của n đối số, dẫn đến sự khó khăn trong việc biểu diễn đồ thị của các hàm mật độ đa biến tương ứng. Do đó, việc sử dụng các hàm phân phối cục bộ có thể hữu ích trong trường hợp này.

(6) hoặc các hàm mật độ xác suất đơn biến tương ứng

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i>, </i> (7) Khi chúng tồn tại, hàm phân phối riêng biệt tương ứng thường cung cấp thơng tin hữu ích để xem xét hành vi riêng biệt của một chuỗi dữ liệu. Một đại lượng mơ tả đặc tính riêng biệt khác cũng rất hữu ích là hàm trung bình.

<b>Định nghĩa 1.1 Hàm trung bình được xác định như sau: </b>

<b>Ví dụ 1.6 : Hàm trung bình của một chuỗi </b>

Nếu w<small>t</small> biểu diễn một chuỗi có nhiễu trắng, thì µ<small>wt</small> = E(wt) = 0 cho tất cả các t.

<i>Hình 12 Chuỗi có nhiễu trắng </i>

<i>Hình 13 Chuỗi được làm mịn </i>

Chuỗi trên cùng trong Hình 12 phản ánh điều này, vì chuỗi rõ ràng dao động quanh giá trị trung bình bằng khơng. Việc làm mịn chuỗi như trong Hình 13 khơng thay đổi trung bình vì chúng ta có thể viết

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

(9)

<b>Định nghĩa 1.2: Hàm tự hiệp phương sai được định nghĩa là tích phân của moment </b>

thứ hai đối với mọi cặp giá trị s và t.

(10)

Để khơng có sự nhầm lần về chuỗi thời gian chúng ta đang tham chiếu đến, chúng ta sẽ viết γ<small>(s,t)</small> thay vì γ<small>x(s,t)</small>. Lưu ý rằng γ<small>(s,t)</small> = γ<small>(t,s)</small> cho mọi điểm thời gian s và t. Hàm tự hiệp phương sai đo lường mối quan hệ tuyến tính giữa hai điểm trên cùng một chuỗi quan sát tại các thời điểm khác nhau. Các chuỗi mượt mà thường có giá trị tự hiệp phương sai lớn ngay cả khi khoảng cách giữa t và s lớn, trong khi các chuỗi độc lập thường có giá trị tự hiệp phương sai gần như bằng không khi khoảng cách giữa chúng lớn.

Hàm tự hiệp phương sai là trung bình của tích chéo liên quan đến phân phối chung F(x<small>s</small>, x<small>t</small>). Theo lý thuyết thống kê cổ điển, nếu γ<small>(s,t)</small> = 0, điều này chỉ ra rằng x<small>s</small>

và x<small>t</small> khơng có mối quan hệ tuyến tính, nhưng vẫn có thể tồn tại một cấu trúc phụ thuộc giữa chúng.

(11)

<b>Ví dụ 1.7: Hàm tự hiệp phương sai của nhiễu trắng </b>

Chuỗi nhiễu trắng w<small>t</small> có E(w<small>t</small>)<small>=</small> 0 và

(12)

<b>Ví dụ 1.8: Tích tự phương sai của một phương trình trung bình động </b>

Chúng ta sẽ xem xét việc áp dụng phương trình trung bình di động ba điểm cho chuỗi nhiễu trắng w<small>t</small> trong các ví dụ trước. Chúng ta có thể tính tốn tích phương sai tự của chuỗi kết quả như sau :.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Khi s=t chúng ta có :

Khi s = t+1 :

Cuối cùng chúng ta có hệ phương trình:

(13) Nội dung này cho thấy rõ ràng rằng việc áp dụng phép làm mịn dẫn đến một hàm hiệp phương sai giảm dần khi khoảng cách giữa hai điểm thời gian tăng lên và hoàn toàn biến mất khi hai điểm thời gian cách nhau ba đoạn hoặc nhiều hơn. Hàm hiệp phương sai này đặc biệt ở chỗ là nó chỉ phụ thuộc vào sự chênh lệch thời gian hoặc độ trễ, khơng phụ thuộc vào vị trí tuyệt đối của các điểm trên chuỗi.

<b>1.6. Hồi quy cổ điển trong chuỗi thời gian </b>

Chúng ta sẽ tiếp tục thảo luận về hồi quy tuyến tính trong ngữ cảnh của chuỗi thời gian bằng cách giả định rằng có một chuỗi thời gian đầu ra, chẳng hạn như x<small>t</small>

với t = 1, ..., n, bị ảnh hưởng bởi một tập hợp các chuỗi đầu vào có thể, ví dụ như z<small>t1</small>, z<small>t2</small>, ..., z<small>tq</small>, trong đó chúng ta coi các đầu vào là cố định và đã biết trước. Giả định này là cần thiết để áp dụng hồi quy tuyến tính cổ điển đã biết. Chúng ta diễn tả mối quan hệ này thơng qua mơ hình hồi quy tuyến tính:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

(14) Ở đây, β<small>1</small>, β<small>2</small>, ..., β<small>q</small> là các hệ số hồi quy chưa biết, và {w<small>t</small>} là một quá trình lỗi ngẫu nhiên hoặc nhiễu bao gồm các biến ngẫu nhiên độc lập và có phân phối đồng nhất với trung bình bằng khơng và phương sai bất biến.

<b>Ví dụ 2.1: Ước lượng xu hướng Tuyến tính </b>

Chúng ta xét dữ liệu nhiệt độ tồn cầu đã được đề cập phía trên, được ký hiệu là xt, như được biểu diễn trong Hình 7.

Như đã thảo luận trong Ví dụ 1.2, có một xu hướng tăng rõ rệt trong chuỗi số liệu này, đã được sử dụng để chứng minh giả thuyết về ấm lên toàn cầu. Chúng ta có thể sử dụng một mơ hình hồi quy tuyến tính đơn giản để ước lượng xu hướng đó bằng cách điều chỉnh mơ hình.

Ước lượng các hệ số chặn và hệ số góc của mơ hình theo x<small>t </small>trên, chúng ta thu được các hệ số ước lượng β<small>1</small> = -11.2 và β<small>2</small> = 0.006 (với độ lệch chuẩn là 0.0003), cho kết quả ước lượng tăng là 0.6 độ mỗi 100 năm. Rõ ràng rằng đường xu hướng ước lượng thơng qua mơ hình hồi quy tuyến tính đơn giản khơng hồn tồn bắt được xu hướng của dữ liệu và sẽ cần sử dụng các mơ hình khác tốt hơn

Miêu tả cách tính tốn và ước lượng mơ hình hồi quy trong ngơn ngữ R như sau:

<i>summary(fit ← lm(gtemp~time(gtemp))) </i>

<i>plot(gtemp, type="o", ylab="Global Temperature Deviation") abline(fit) </i>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<i>Hình 14 Trực quan dữ liệu tồn cầu </i>

Mơ hình tuyến tính được mơ tả ở trên có thể được viết gọn trong một ký hiệu tổng quát hơn bằng cách định nghĩa các vector cột z<small>t</small> = (z<small>t1</small>, z<small>t2</small>, . . . , z<small>tq</small>) và β = (β<small>1</small>, β<small>2</small>, . . . , β<small>q</small><i>), khi đó mơ hình tổng qt được viết dưới dạng: </i>

Trong đó w<small>t</small> ∼ N(0, σ<small>2</small>

<small>w</small>). Cần ước lượng vector hệ số không biết β bằng cách tối thiểu hóa tổng bình phương sai số:

Đối với β<small>1</small>, β<small>2</small>, . . . , β<small>q</small>. Tối thiểu hóa Q dẫn đến ước lượng bình phương tối thiểu thơng thường của β. Q trình tối thiểu hóa này có thể được thực hiện bằng cách lấy đạo hàm của phương trình (16) đối với vector β hoặc sử dụng các tính chất của phép chiếu:

Nghiệm của phương trình này là:

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

(18) Trong đó ma trận Z'Z là một ma trận đơn (singular matrix). Tổng bình phương sai

<b>số tối thiểu hóa phương trình (16), được ký hiệu là SSE, có thể được viết lại như </b>

sau:

<b>1.7. Các chỉ số để lựa chọn mơ hình </b>

<b>1.7.1. AIC - Akaike information criterion </b>

AIC - Tiêu chí thơng tin Akaike là một tiêu chí phổ biến được sử dụng để lựa chọn mô hình trong phân tích chuỗi thời gian. Nó đo độ phù hợp của mơ hình bằng cách cân bằng sự khớp dữ liệu và số lượng tham số. AIC được tính bằng cơng thức sau:

trong đó:

<small> </small> log(L) là giá trị logarithm của hàm hợp lý tối đa của mơ hình. <small> </small> k là số lượng tham số trong mơ hình.

Giá trị AIC càng nhỏ thì mơ hình càng được coi là phù hợp. Tuy nhiên, AIC không xác định mô hình tốt nhất mà chỉ đánh giá mức độ phù hợp tương đối giữa các mơ hình khác nhau. AIC phạt các mơ hình phức tạp hơn với số lượng tham số lớn hơn.

Dưới đây là cú pháp tính tốn AIC cho một chuỗi dữ liệu cụ thể trong R:

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

BIC (Bayesian Information Criterion-Tiêu chí Thơng tin Bayesian) là một tiêu chí khác được sử dụng trong phân tích chuỗi thời gian để lựa chọn mơ hình. Nó cũng đo độ phù hợp của mơ hình dựa trên sự cân đối giữa sự khớp dữ liệu và số lượng tham số, nhưng có một phương pháp đo khác so với AIC.

Công thức tính BIC là:

trong đó:

<small> </small> log(L) là giá trị logarithm của hàm hợp lý tối đa của mô hình. <small> </small> k là số lượng tham số trong mơ hình.

<small> </small> n là số lượng quan sát trong chuỗi thời gian.

Tương tự ta có cú pháp tính tốn BIC cho một chuỗi dữ liệu cụ thể trong R: # Tạo một chuỗi dữ liệu A

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

print(paste("Giá trị BIC của chuỗi dữ liệu A là:", BIC_mơ_hình))

Giống như AIC, giá trị BIC càng nhỏ thì mơ hình càng được coi là phù hợp. Tuy nhiên, BIC có xu hướng phạt mơ hình phức tạp hơn so với AIC, do có thêm

<i><b>thành phần klog(n) trong cơng thức tính. Điều này đảm bảo rằng BIC ưu tiên các </b></i>

mơ hình đơn giản hơn khi số lượng quan sát tăng lên.

Tuy AIC và BIC là hai tiêu chí khác nhau, nhưng cả hai đều hữu ích trong việc lựa chọn mơ hình chuỗi thời gian dựa trên độ phù hợp và độ phức tạp của mơ hình. Sự lựa chọn giữa AIC và BIC phụ thuộc vào ngữ cảnh và mục tiêu của nghiên cứu.

<b>1.8. Phân tích dữ liệu khám phá </b>

Trong dữ liệu chuỗi thời gian, một yêu cầu quan trọng là phải xác định mức độ phụ thuộc giữa các giá trị trong chuỗi. Điều này trở nên khó khăn nếu sự phụ thuộc không ổn định hoặc thay đổi theo thời gian. Do đó, để thực hiện các phân tích thống kê có ý nghĩa trên dữ liệu chuỗi thời gian, điều quan trọng là các hàm trung bình và tự hiệp phương sai thỏa mãn điều kiện về tính dừng (ít nhất trong một khoảng thời gian hợp lý). Tuy nhiên, thường không có trường hợp này và chúng ta cần loại bỏ tác động của tính khơng ổn định để có thể nghiên cứu tính chất dừng của chuỗi.

Ví dụ, chuỗi Johnson & Johnson (Hình 6) có giá trị trung bình tăng theo cấp số nhân theo thời gian và sự biến động xung quanh xu hướng này dẫn đến các thay đổi trong tự hiệp phương sai. Ví dụ khác, chuỗi nhiệt độ tồn cầu (Hình 7) có một xu hướng tăng theo thời gian, cung cấp bằng chứng về sự nóng lên tồn cầu. Những thơng tin này có ý nghĩa thực nghiệm và hỗ trợ giả thuyết rằng nhiệt độ đang tăng.

Tóm lại, để nghiên cứu dữ liệu chuỗi thời gian, chúng ta cần xem xét tính ổn định của chuỗi và loại bỏ tác động của tính khơng ổn định để có thể phân tích và đưa ra kết luận chính xác về tính chất của chuỗi.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

quá trình có hành vi dừng xung quanh một xu hướng. Chúng ta có thể viết loại mơ hình này là

Trong đó x<small>t</small> là các quan sát, µ<small>t</small> biểu thị xu hướng và y<small>t</small> là một quá trình dừng.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<b>CHƯƠNG 2: CÁC MƠ HÌNH ARIMA 2.1. Sai Phân </b>

Sai phân (differencing) là một bước quan trọng trong mơ hình ARIMA. Nó được sử dụng để loại bỏ tính phi tuyến và xu hướng trong dữ liệu để phân tích các chuỗi thời gian. Phần sai phân sẽ biến đổi dữ liệu ban đầu thành một chuỗi mới, với mục đích giảm thiểu sự phụ thuộc của dữ liệu vào thời điểm trước đó.

Lý thuyết của sai phân là sử dụng sự khác biệt giữa các giá trị liên tiếp trong chuỗi thời gian. Thông thường, nếu một chuỗi thời gian có xu hướng tăng dần, thì sự khác biệt giữa các giá trị liên tiếp sẽ tăng theo thời gian. Khi ta áp dụng sai phân một lần lên chuỗi này, sự tăng dần của sự khác biệt sẽ giảm và sẽ khơng cịn xu hướng dài hạn nữa. Tương tự, nếu chuỗi thời gian có xu hướng giảm dần, thì sự khác biệt giữa các giá trị liên tiếp sẽ giảm theo thời gian. Khi ta áp dụng sai phân lên chuỗi này, sự giảm dần của sự khác biệt sẽ giảm và khơng cịn xu hướng dài hạn nữa.

Công thức xây dựng của sai phân là sử dụng toán tử sai phân (difference operator) để tính tốn sự khác biệt giữa các giá trị trong chuỗi thời gian. Toán tử sai phân được biểu diễn bằng ký hiệu "d". Nếu ta áp dụng toán tử sai phân lên chuỗi thời gian Y tại thời điểm t, ta sẽ thu được chuỗi mới là Y' được tính như sau:

Trong đó, B là tốn tử dịch chuyển ngược (backward shift operator) và được định nghĩa bởi:

Công thức trên có thể được diễn giải là sự khác biệt giữa giá trị hiện tại và giá trị tại thời điểm trước đó. Trong mơ hình ARIMA, phần sai phân thường được sử dụng để giảm bớt tính phi tuyến và xu hướng trong chuỗi thời gian. Sau khi áp dụng sai phân lên chuỗi thời gian, ta sẽ kiểm tra xem chuỗi mới đã trở nên dễ dàng dự đoán

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

AR trong ARIMA là viết tắt của "autoregressive" (tự hồi quy). Mô hình AR sử dụng các giá trị quá khứ để dự đốn giá trị hiện tại. Điều này địi hỏi chuỗi thời gian phải có tính tự tương quan, có nghĩa là các giá trị liền kề của chuỗi phải tương quan với nhau.

Ví dụ, giá cổ phiếu Amazon của ngày hơm nay có thể phụ thuộc vào giá của ngày hôm qua và các ngày trước đó.

<b>Ví dụ 3.1: Giá cổ phiếu của Amazon </b>

<i>Hình 15 Giá cổ phiếu cơng ty Amazon sử dụng AR </i>

Ý tưởng mơ hình AR là hồi quy số liệu của nó trong quá khứ ở những chu kì trước.

Trong đó:

𝑌𝑡 = 𝑎0 + 𝑎 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + ⋯ + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡; (25) Y<sub>t</sub>: quan sát dừng hiện tại;

Y<sub>t-2</sub>, Y<sub>t-2</sub>,...: là quan sát dừng ở thời điểm trong quá khứ; a<sub>0</sub>, a<sub>1</sub>, a<small>2</small>, …: các tham số phân tích hồi quy;

u<sub>t</sub> : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với u<small>t</small> giá trị trung bình được kỳ vọng bằng 0.

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Hàm tuyến tính Y<small>t</small> là của chuỗi quan sát dừng những thời điểm trong quá khứ: Y<sub>t-1</sub>, Y<sub>t-2</sub>…

Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ trễ, chúng ta sẽ được mơ hình AR. Số quan sát dừng ở các thời điểm quá khứ

<b>được sử dụng trong mơ hình tự hồi quy là bậc p của mơ hình AR. Nếu sử dụng 2 </b>

quan sát dừng ở q khứ, ta có mơ hình tương quan bậc hai AR(2).

- Mơ hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑢𝑡 (26) - Mơ hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + 𝑢𝑡 (27)

Các tham số của mô hình AR được xác định bằng phương pháp hồi quy tuyến tính. Một số trường hợp đặc biệt là khi chuỗi thời gian có mơ hình phức tạp hơn, phương pháp khác như mơ hình ARIMA có thể được sử dụng.

Điều quan trọng là phải cân nhắc đến sự cân bằng giữa độ phức tạp của mơ hình và khả năng dự đốn. Một mơ hình AR q đơn giản có thể bỏ sót những biến động quan trọng trong dữ liệu, trong khi một mơ hình q phức tạp có thể dẫn đến quá

<b>khớp và kém khả năng dự đốn. Một điểm quan trọng của mơ hình AR(p) bậc p là </b>

chỉ thích hợp cho các chuỗi dừng (stationary series).

<i><b>Một số lưu ý về mơ hình AR: </b></i>

+ Giá trị của p trong mơ hình AR(p) sẽ ảnh hưởng đến số lượng các hệ số AR cần ước lượng. Một giá trị p lớn hơn sẽ có nhiều hơn các hệ số AR cần ước lượng và do đó sẽ có thể giúp mơ hình tốt hơn phù hợp với dữ liệu.

+ Mơ hình AR có thể được sử dụng để phân tích chuỗi thời gian và dự đoán giá trị trong tương lai. Tuy nhiên, mơ hình AR chỉ thích hợp cho những chuỗi thời gian mà có tính chất tự tương quan tuyến tính. Nếu chuỗi thời gian khơng có tính chất này, mơ hình AR có thể khơng phù hợp.

+ Mơ hình AR có thể được mở rộng để bao gồm cả các thành phần khác, chẳng hạn như thành phần MA (mơ hình ARMA), thành phần tích phân (F), hoặc thành phần mùa vụ (mơ hình SARIMA).

+ Các mơ hình AR phải được đánh giá dựa trên độ chính xác của dự đốn và độ chính xác của ước lượng các tham số của mơ hình.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

MA - Moving Average (Trung bình động), là thành phần trong mơ hình ARIMA mơ tả sự phụ thuộc của giá trị hiện tại trong chuỗi thời gian vào các giá trị sai số trước đó. Thành phần này được ký hiệu bằng MA. Được sử dụng để dự đoán giá trị của chuỗi thời gian dựa trên giá trị trung bình của một số quan sát hiện tại.

Ví dụ về mơ hình MA có thể là dự đoán lượng mưa sẽ rơi vào ngày hôm nay dựa trên sai số của dự báo lượng mưa vào ngày hôm qua và các ngày trước đó. Nếu dự báo lượng mưa trước đó chênh lệch với lượng mưa thực tế, thì sai số sẽ được sử dụng để đưa ra dự đốn cho ngày hơm nay. Thơng thường mơ hình này được ký

<b>hiệu là MA(q), trong đó q là số lượng sai số quá khứ được sử dụng để dự báo giá trị </b>

hiện tại.

<b>Ví dụ 3.2 : Giá cổ phiếu của Amazon </b>

<i>Hình 16 Giá cổ phiếu Amazon sử dụng trung bình động </i>

Hàm tuyến tính Y<small>t</small> phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại. Mơ hình trung bình trượt là một trung bình trọng số của những sai số mới nhất:

𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 + ⋯ + 𝑏𝑞𝑢𝑡−𝑞 (28) Trong đó:

Y<sub>t</sub>: Quan sát dừng hiện tại; u<small>t</small>: Sai số dự báo;

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

u<sub>t-1</sub>, u<sub>t-2</sub>,... : Sai số dự báo quá khứ;

b<sub>0</sub>, b<sub>1</sub>, b<sub>2</sub>,... : Giá trị trung bình của Y<small>t</small> và các hệ số bình quân di động; q: Là bậc của MA.

Với p = 1 và p = 2, chúng ta có mơ hình bậc 1 và bậc 2: - Mơ hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1

- Mơ hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2

Mô hình MA có thể cũng cần phải xử lý dữ liệu nhiễu (noise) và các giá trị ngoại lai (outliers) tương tự như mơ hình AR.

Việc xác định số lượng giá trị trung bình động cần được sử dụng trong mơ hình MA là một vấn đề quan trọng và cần được xác định một cách chính xác. Nếu số lượng này quá ít, mơ hình sẽ khơng thể mơ hình hóa được độ phức tạp của chuỗi thời gian, còn nếu số lượng này q nhiều, mơ hình sẽ bị q khớp (overfitting) và khơng thể dự đốn tốt trên dữ liệu mới.

<i><b>Một số lưu ý về mơ hình MA: </b></i>

+ Mơ hình MA thường được sử dụng khi chuỗi thời gian khơng có xu hướng (tức là, nó khơng có sự tăng hoặc giảm đều qua các thời điểm) và khơng có yếu tố mùa vụ. + Số lượng giá trị trung bình động cần được sử dụng trong mơ hình MA phải được xác định một cách chính xác để đảm bảo kết quả của dự đốn.

+ Mơ hình MA cũng có thể được sử dụng để mơ hình hóa chuỗi thời gian có xu hướng tăng hoặc giảm, nhưng với giá trị dương hoặc âm của hệ số MA để mơ hình hóa xu hướng đó. Tuy nhiên, nếu xu hướng có tính chất phi tuyến tính thì việc sử dụng mơ hình MA khơng phù hợp.

<b>2.4. Mơ hình trung bình trượt và tự hồi quy ARMA </b>

Mơ hình ARMA (Autoregressive Moving Average) là một mơ hình phổ biến trong phân tích chuỗi thời gian. Nó kết hợp cả thành phần tự hồi quy (autoregressive) và thành phần trung bình di động (moving average) để mô tả sự phụ thuộc và biến động trong chuỗi thời gian. Một mơ hình ARMA(p, q) bao gồm hai thành phần chính là AR và MA, sự kết hợp ta được mơ hình ARMA, cịn gọi là mơ hình trung bình trượt tự hồi quy.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Y<sub>t</sub> = 𝑎<small>0</small> + 𝑎<small>1</small>𝑌<small>𝑡−1</small> + 𝑢<small>𝑡</small> + 𝑏<small>0</small> + 𝑏<small>1</small>𝑢<small>𝑡−1</small> (29) Trong đó:

Y<small>t</small> là giá trị của chuỗi thời gian tại thời điểm t. a<small>0</small>, a<small>1</small>, b<small>0</small>, b<small>1</small> là các hệ số trong mô hình ARMA. Y<small>t-2</small> là giá trị của chuỗi thời gian tại thời điểm t-1.

u<small>t</small> là thành phần nhiễu trắng, đại diện cho sai số ngẫu nhiên khơng có sự tương quan thời gian.

u<small>t-1</small> là giá trị của thành phần nhiễu trắng tại thời điểm t-1.

Tóm lại, Y<sub>t</sub><sub> là quá trình ARMA (p, q) nếu Y</sub><sub>t</sub><sub> có thể biểu diễn dưới dạng: </sub>

Yt = 𝑎<small>0</small> + 𝑎<small>1</small>𝑌<small>𝑡−1</small> + 𝑎<small>2</small>𝑌<small>𝑡−2</small> + … + 𝑎<small>𝑝</small>𝑌<small>𝑡−𝑝</small> + 𝑢<small>𝑡</small> + 𝑏<small>0</small> + 𝑏<small>1</small>𝑢<small>𝑡−1</small> + 𝑏2𝑢𝑡−2+ . . . + 𝑏𝑞𝑢𝑡−𝑞

<b>2.5. Mơ hình trung bình trượt tự hồi quy ARIMA </b>

Một chuỗi thời gian có thể tn theo nhiều mơ hình khác nhau. Tuy nhiên, cả ba mơ hình AR, MA, ARMA đều u cầu chuỗi phải có tính dừng. Nhưng thực tế có nhiều chuỗi thời gian khơng có tính dừng. Vậy làm thế nào để áp dụng được các mơ hình trong thực tế? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mơ hình ARMA.

Nếu chuỗi Y<sub>t</sub> có đồng liên kết bậc d trên mơ hình ARMA (p, q) cho chuỗi sai phân bậc d, thì chúng ta có mơ hình ARIMA(p, d, q) - Autoregressive Intergrated Moving Average. Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Y<small>t</small> được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc tương ứng của chuỗi dừng).

- Trong mơ hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p). - Trong mơ hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng. Chuỗi sai phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).

∆𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎0𝑢𝑡 + 𝑎1𝑢𝑡−1 (u là nhiễu trắng) Trong đó:

∆Y<small>t</small> là chuỗi sai phân bậc 1 của chuỗi Y<small>t</small>. Y<small>t-1</small> là giá trị trước đó của chuỗi Y<small>t</small>. u<small>t</small> và u<small>t-1</small> là các thành phần nhiễu trắng.

Công thức trên có các hệ số a<small>0</small> và a<small>1</small>, đại diện cho trọng số của giá trị trước đó và nhiễu trắng tương ứng. Các hệ số này được ước tính từ dữ liệu chuỗi thời gian để phù hợp với mơ hình ARIMA(1,1,1) đã cho.

Mơ hình ARIMA(1,1,1) được sử dụng để mơ hình hóa và dự đoán chuỗi Y<small>t</small> dựa trên các giá trị trước đó và sự biến động ngẫu nhiên. Việc xác định các hệ số a<small>0</small> và a<small>1</small> từ dữ liệu và áp dụng mơ hình này cho phép chúng ta hiểu và dự đoán xu hướng và biến động của chuỗi Yt theo thời gian.

Như vậy, xác định được các giá trị p, d, q ta sẽ mơ hình hóa được chuỗi ARIMA. Ta thấy, mơ hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không dùng thêm biến độc lập khác.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<i>Mơ hình Tham số Đặc điểm </i>

<i>Độ nhiễu trắng ARIMA(0,0,0) <sup>Khơng có yếu tố nào đang tác </sup>động lên chuỗi thời gian </i>

<i>Chuỗi ngẫu nhiên ARIMA(0,1,0) Mô tả chuỗi thời gian ngẫu nhiên mà khơng có hằng số. Chuỗi ngẫu nhiên ARIMA(0,d,0) </i> Không ổn định qua thời gian

<i>Tự hồi quy ARIMA(p,0,0) </i>

Thể hiện giá trị hiện tại của chuỗi phụ thuộc vào các giá trị trước đó

<i>Trung bình động ARIMA(0,0,q) </i>

Thể hiện giá trị hiện tại của chuỗi phụ thuộc vào các giá trị ngẫu nhiên trước đó.

<b>2.6. Các bước phân tích dữ liệu chuỗi thời gian với mơ hình ARIMA </b>

Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện. Gồm có loại dự báo chính là dự báo định tính và dự báo định lượng. Chuỗi thời gian thuộc lớp dự báo định lượng vì kết quả của mơ hình là một giá trị định lượng, nên được sử dụng khá phổ biến trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả thị trường. Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là AR, MA,…

Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao trong việc đưa ra các dự báo chính xác và có độ tin cậy cao. Sức mạnh của nó là ở chỗ nó đưa ra những thơng tin giúp nhà phân tích chuỗi thời gian lựa chọn mơ hình phù hợp với dữ liệu quan sát được. Đối với các phương pháp khác, nhà phân tích giả thiết một mơ hình nào đó rồi tiến hành ước lượng các tham số của mơ hình.

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Trong giai đoạn đầu tiên, ta nhận dạng một mơ hình thử nghiệm bằng cách so sánh các hàm tự tương quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự tương quan và tự tương quan riêng lí thuyết của các mơ hình ARMA.

ARIMA là một mơ hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá khứ để đưa ra các dự báo. Loại mô hình này là một kỹ thuật dự báo cơ bản có thể được sử dụng làm nền tảng cho các mô hình phức tạp hơn. Dựa vào những đặc điểm đó, trong phần thực nghiệm học viên quyết định sử dụng mô hình ARIMA để thực nghiệm trên tập dữ liệu chuỗi thời gian.

Các bước chính trong phương pháp Box‐Jenkins:

<b>+ Bước 1: Nhận dạng mơ hình (xác định các giá trị p, d, q) </b>

Trước tiên, kiểm tra tính dừng của chuỗi dữ liệu gốc, nếu chưa dừng thì tiến hành lấy sai phân I(d), bậc của d ở đây chính là bậc d trong mơ hình ARIMA (p,d,q). Nếu chuỗi dừng ngay tại chuỗi gốc thì d=0, nếu chuỗi dừng ở sai phân bậc I thì d=1,... Tuy nhiên, qua quá trình thực nghiệm nhận thấy rằng nếu lấy ln (lơgarít tự nhiên cơ số e) chuỗi dữ liệu trước khi thực hiện các bước sau sẽ cho mơ hình phù hợp hơn.

Công cụ chủ yếu để xác định p, q cho mơ hình ARIMA là dựa trên Lược đồ tự tương quan ACF và Tự tương quan riêng phần PACF của chuỗi gốc đã được biến đổi thành chuỗi dừng, kết hợp với phương pháp thử và sai:

Ta có bảng nhận dạng mơ hình ARIMA (p, q)

MA(1) =ARIMA(0, 1) = 0 sau 1 bước trễ (<i>p</i><small>1</small> ≠ 0) <sub>Giảm dần về 0 từ bước trễ 1 </sub> MA(2) =ARIMA(0, 2)

= 0 sau 2 bước trễ (<i>p</i><sub>1</sub>,<i>p</i><sub>2</sub> ≠ 0)

Giảm dần về 0 từ bước trễ 2

MA(q) =ARIMA(0, q) = 0 sau q bước trễ (<i>p</i><small>1</small>,<i>p</i><sub>2</sub>,..., <i><small>p</small><sub>q</sub></i>≠ 0) Giảm dần về 0 từ bước trễ q AR(1) =ARIMA(1,0) Giảm theo CSN về 0 từ bước trễ

1<small>(*) </small>

= 0 sau 1 bước trễ (<i>p</i><sub>11</sub>≠ 0)

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

AR(2) =ARIMA(2,0) Giảm theo CSN về 0 từ bước trễ 2 0)

AR(p) =ARIMA(p,0) Giảm theo CSN về 0 từ bước trễ p <sup>= 0 sau p (</sup><i><sup>p</sup></i><sup>11</sup><sup>,</sup><i><sup>p</sup></i><sup>22</sup><sup>,...,</sup><i><sup>p</sup><sup>qq</sup></i><sup>≠ </sup> 0) bước trễ

ARIMA(1,1) Giảm theo CSN về 0 từ bước trễ 1 Giảm dần về 0 từ bước trễ 1 ARIMA(p,q) Giảm theo CSN về 0 từ bước trễ p Giảm dần về 0 từ bước trễ q

(*) Giảm theo dạng hàm mũ hoặc sin, tương tự cho các trường hợp còn lại Như vậy phương pháp này Box-Jenkins tính toán các hệ số tương quan mẫu SACF và hệ số tương quan riêng mẫu SPACF, so sánh với các giá trị lý thuyết ACF và PACF. Nếu có sự phù hợp giữa chúng với nhau thì các tham số của mơ hình sẽ được ước lượng. Ưu điểm chủ yếu của phương pháp này là áp dụng một cách hệ thống các bước trong quá trình xây dựng mơ hình. Nhược điểm của phương pháp này là trong quá trình xem xét một cách trực giác SACF và SPACF để xác định p và q. Kết quả sẽ mang tính chủ quan

Khi quyết định lựa chọn một mơ hình ARIMA(p,q), chúng ta cần kết hợp với các tiêu chí chung được nhiều nhà nghiên cứu ứng dụng. Dưới đây là hai tiêu chí phổ biến:

<b>Tiêu chí thơng tin Akaike (Akaike Info Criterion), đề xuất bởi Akaike (1974): </b>

Phương pháp Box-Jenkins là phương pháp phổ biến nhất. Bên cạnh đó người ta cịn dùng một số phương pháp khác, kết hợp nhiều phương pháp khác nhau để chuẩn đoán p và q của mơ hình sau khi tham số đã được xác định.

Một ý tưởng là người ta có thể đánh đổi một hoặc nhiều độ trễ của AR(p) với một vài độ trễ của MA(q) bằng cách xem xét chi phí về mặt thơng tin đối với số tham số được cực tiểu vẫn đảm bảo sự phù hợp của mơ hình. Tiêu chuẩn hiển nhiên để so sánh các mơ hình là phương sai của phần dư.

Kí hiệu phần dư của mơ hình ARMA(p,q) là <i>e p q<sub>t</sub></i>( , ). Ước lượng phương sai của phần dư tương ứng:

</div>

×