Tải bản đầy đủ (.docx) (174 trang)

Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 174 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

DỰ BÁO CHUỖI THỜI GIAN TRONG
HỆ THỐNG THÔNG TIN BỆNH VIỆN
Chuyên ngành : Hệ thống thông tin quản lý
Mã số: 603448

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 11 năm 2012


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS DƯƠNG TUẤN ANH..................
Cán bộ chấm nhận xét 1 :............................................................................
Cán bộ chấm nhận xét 2 :............................................................................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. ...............................................................
2. ...............................................................
3. ...............................................................
4. ...............................................................
5. ...............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG


TRƯỞNG KHOA…………


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Chuyên ngành: Hệ thống thông tin quản lý………Mã số : 603448.........................
I. TÊN ĐỀ TÀI: Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện.............
II. NHIỆM VỤ VÀ NỘI DUNG:
1. 1. Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làm trơn,
mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thời gian.
2. 2. Nghiên cứu phần mềm R để dự báo chuỗi thời gian.
3. 3. Áp dụng và so sánh hiệu quả của ba phương pháp: kỹ thuật làm trơn, mô hình
ARIMA và mô hình mùa SARIMA vào việc dự báo doanh thu của bệnh viện.
III. NGÀY GIAO NHIỆM VỤ : 02/07/2012
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2012
V. CÁN BỘ HƯỚNG DẪN: PGS.TS DƯƠNG TUẤN ANH

Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

PGS.TS DƯƠNG TUẤN ANH

TRƯỞNG KHOA
(Họ tên và chữ ký)


4

LỜI CÁM ƠN
Lời đầu tiên trong luận văn này tôi xin gửi lời cám ơn chân thành đến thầy
PGS. TS Dương Tuấn Anh, thầy đã dành nhiều thời gian và tâm huyết hướng dẫn
tôi trong thời gian thực hiện luận văn tốt nghiệp.
Tôi xin gửi lời cảm ơn đến quý thầy cô đã giảng dạy và truyền đạt những
kiến thức hữu ích cho tôi trong suốt thời gian tham gia học tập tại trường Đại học
Bách Khoa thành phố Hồ Chí Minh.
Tôi xin chân thành cám ơn các anh chị đồng nghiệp đã tạo điều kiện giúp đỡ
tôi trong việc thu thập dữ liệu thực hiện luận văn này.
Cuối cùng tôi xin cám ơn đến gia đình và bạn bè đã động viên giúp đỡ tôi
trong quá trình thực hiện luận văn này.
TP.HCM, ngày 30 tháng 11 năm 2012
Học viên cao học khóa 2010


5

TÓM TẮT NỘI DUNG LUẬN VĂN
Luận văn này thực hiện nhằm mục đích xác định phương pháp nào đưa ra kết quả
dự báo dữ liệu chuỗi thời gian tối ưu nhất trong ba phương pháp: (1) Kỹ thuật làm
trơn, (2) Mô hình ARIMA và (3) Mô hình mùa (SARIMA).
Phương pháp nghiên cứu được thực hiện bởi phương pháp định lượng.
Trong luận văn này, tác giả sẽ đi sâu vào nghiên cứu: (1) Lý thuyết của dữ liệu
chuỗi thời gian, (2) Ba phương pháp hỗ trợ thực hiện dự báo dữ liệu chuỗi thời gian

và (3) Tìm hiểu và sử dụng ngôn ngữ R. Bên cạnh việc nghiên cứu các lý thuyết, thì
luận văn cũng tiến hành áp dụng lý thuyết đã nghiên cứu vào hai tập dữ liệu được
thu thập từ hai đơn vị trong lĩnh vực bệnh viện tại thành phố Hồ Chí Minh.
Đánh giá và đưa ra kết luận từ nghiên cứu thực nghiệm về mô hình dự báo nào cho
kết quả tối ưu nhất. Kết quả này sẽ là tư liệu tham khảo hữu hiệu cho các đơn vị
trong lĩnh vực y tế - bệnh viện và các doanh nghiệp khác ngoài ngành, có nhu cầu
về việc phân tích dữ liệu chuỗi thời gian trong lựa chọn phương pháp và ngôn ngữ
hỗ trợ thực hiện.


6

ABSTRACT
This thesis aims to determine the best method for forecasting of the data time series
in hospital from three methods: (1) Exponential Smoothing, (2) ARIMA model and
(3) Seasonal Model (SARIMA).
The method research is implemented by Quantitative Methods.
In this thesis, I will go to deep into researching: (1) Theory of the data time series,
(2) Three methods support for implement of the data time series, and (3) Learn and
use the language R. Besides the research of theory, the thesis also conducts applied
the research theory into two data sets were collected from two units in the hospital
in Ho Chi Minh city.
Evaluate and draw conclusions from real research about the best choice of the three
forecasting models. These result will be usefull reference material for the units in
the hospitals and other industries, there is need for data time series analysis in the
selection of the method and language support implemention.


7


DANH MỤC CHỮ VIẾT TẮT
ACF : Hàm tự tương quan
AIC

: Akaike’s Information Criterion

ARIMA: Integrated Autoregressive Moving Average
PACF : Hàm tự tương quan riêng phần
PKDK: Phòng khám đa khoa
TTYT : Trung tâm y tế
SARIMA: Seasonal ARIMA


8

LỜI CAM ĐOAN
Tôi xin cam đoan rằng toàn bộ những nội dung và số liệu trong luận văn này do tôi
tự nghiên cứu và thực hiện. Những dữ liệu được thu thập và xử lý một cách khách
quan và trung thực.


9

MỤC LỤC


10

DANH MỤC BẢNG



11

DANH MỤC HÌNH


12

CHƯƠNG 1: GIỚI THIỆU

1.1 Giới thiệu đề tài
1.1.1 Giới thiệu tổng quan về tình hình ứng dụng dự báo chuỗi thời gian
Trong bối cảnh hiện nay, sự phát triển của tất cả các mặt đời sống xã hội cho
đến nền kinh tế, nó đã thúc đẩy các doanh nghiệp phải luôn luôn tự hoàn thiện mình
hơn nữa để đáp ứng với nhu cầu gia tăng của xã hội. Mặc dù ngành công nghệ
thông tin đã song hành cùng với các doanh nghiệp để hỗ trợ các tác nghiệp từ mức
thấp nhất đến mức cao nhất, từ cấp nhân viên cho tới cấp lãnh đạo. Đa phần các
doanh nghiệp phát triển phần mềm thường xây dựng để hỗ trợ các tác nghiệp hằng
ngày, và ít chú trọng phát triển những phần mềm hỗ trợ ra quyết định cho các cấp
lãnh đạo.
Khi mà các phần mềm hỗ trợ tác nghiệp đã được vận hành ổn định cùng với
sự phát triển của các doanh nghiệp, vấn đề đặt ra ở đây là những dữ liệu phát sinh
đó phải giải quyết như thế nào. Trước khi có sự giúp đỡ mạnh mẽ của công nghệ
thông tin, thì vấn đề này đã được nghiên cứu bằng các phương pháp toán học. Đối
với những dữ liệu lớn như ngày nay thì những phương pháp đó được tin học hóa
bằng những phần mềm chuyên dụng để hỗ trợ phân tích những dữ liệu đó. Việc sử
dụng các phần mềm này cơ bản đã giúp cho các doanh nghiệp tiết kiệm thời gian để
phân tích số liệu, nó cung cấp khung nhìn tổng quan nhất đối với sự phát triển theo
các mốc thời gian từ quá khứ đến thời điểm hiện tại. Một trong những tính năng thu
hút nhiều nhà quản lý của các doanh nghiệp là việc phân tích dữ liệu về khách hàng,

nhóm hàng, ..., và đặc biệt hơn nữa là tính năng có thể dự đoán được những kết quả
trong tương lai.
Sự phát triển của ngành công nghệ thông tin đóng vai trò rất quan trọng đối với sự
phát triển của nền kinh tế. Vì vậy, nên các doanh nghiệp phát triển lĩnh vực này
luôn luôn tạo ra những phần mềm hỗ trợ tối đa. Điều đó có thể thấy được nhu cầu
về tình hình sử dụng công nghệ thông tin trong lĩnh vực phân tích dữ liệu.


13

K. Poll ([16])có một khảo sát với số lượng người tham gia là 1103 người, trong đó
43% sử dụng phần mềm thương mại, 32% sử dụng phần mềm miễn phí và 25% cả
hai. Ba phần mềm phổ biến nhất của năm 2011 là RapidMiner, R và Excel.

Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011)

(Nguồn: 2011, Top analysis, data mining tool). [16]
Tình hình sử dụng phần mềm thương mại, miễn phí và cả hai loại phần mềm này ở
các khu vực trên thế giới. Khu vực Tây Âu, Châu Á và Châu Mỹ Latin là ba khu
vực có tỷ lệ sử dụng phần mềm miễn phí chiếm tỷ lệ khá cao hơn so với các khu
vực khác.


14

Hình 1.2 Tình hình sử dụng các công cụ phần mềm

(Nguồn: 2011, Top analysis, data mining tool). [16]
Các nước trong khu vực Tây Âu là khu vực chiếm tỷ lệ cao nhất so với các
khu còn lại về việc sử dụng các công cụ miễn phí.


Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới

(Nguồn: 2011, Top analysis, data mining tool). [16]


15

1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam
Sự phát triển của nền kinh tế Việt Nam có những biến đổi đáng kể bằng
chứng là các doanh nghiệp vừa và nhỏ tới những doanh nghiệp lớn đều sử dụng
công nghệ thông tin để hỗ trợ các công việc hằng ngày. Những dữ liệu thu thập từ
những gì mà doanh nghiệp hoạt động, thì những chủ doanh nghiệp thường có nhu
cầu xem xét và dựa vào kinh nghiệm thực tế của mình, để đưa ra những quyết định
trong công tác quản lý doanh nghiệp. Những phần mềm hiện tại mà các doanh
nghiệp dùng để hỗ trợ, thông thường thì chỉ có những báo cáo mang ý nghĩa thống
kê. Mặc dù những doanh nghiệp này đã cố gắng phát triển và tích hợp vào hệ thống
phần mềm hiện có, nhưng những báo cáo này cũng chưa đáp ứng được nhu cầu
phân tích chuyên sâu để có thể đưa ra quyết định. Sản phẩm Accnet BA của Công
ty cổ phần tin học Lạc Việt là phần mềm chuyên dùng đề hỗ trợ đủ các loại báo cáo
về tài chính, thế nhưng vẫn chưa đáp ứng được các năng như phân tích dữ liệu:
phân tích liên quan về nhóm khách hàng, nhà cung cấp, ….
Mặc dù, các doanh nghiệp nước ngoài cũng đã giới thiệu những gói phần
mềm có tích hợp phần phân tích dữ liệu, nhưng chi phí cao, thời gian triển khai
tương đối lâu, quy trình thực hiện phức tạp. IBM có giới thiệu gói sản phẩm là IBM
Cognos 10.1 tới thị trường Việt Nam nhưng hiện tại chỉ mới có Ngân hàng Á Châu
– ACB triển khai thành công, nhưng xét về tính năng dự báo thì vẫn chưa thể nào
bằng những phần mềm chuyên về phân tích dữ liệu.
Tại Việt Nam, lĩnh vực dự báo chuỗi thời gian ngày càng được chú trọng
phát triển, đặc biệt ở các mảng: marketing, dự báo doanh thu theo thời gian, phân

tích nhu cầu tồn kho của các sản phẩm, … Đa phần các doanh nghiệp có quy mô
lớn mới có khái niệm về việc sử dụng các ứng dụng liên quan đến việc phân tích dữ
liệu và dự báo chuỗi thời gian cho các hoạt động của doanh nghiệp. Một số các
doanh nghiệp đã sử dụng: CoopMart, Prudential, Bảo hiểm Bảo Việt,
NamVietBank, VietinBank, … Để đáp ứng được vấn đề về phân tích dữ liệu là việc
hình thành các trung tâm hoạt động chuyên về phân tích dữ liệu: VIDAC (Trung
tâm thông tin và phân tích số liệu Việt Nam), Cedzo (Trung tâm tư vấn doanh
nghiệp và phát triển kinh tế vùng), …


16

1.2 Cơ sở hình thành đề tài
Dự báo là quá trình tạo ra quyết định cho một vấn đề nào đó cho tương lai dựa
trên dữ liệu lịch sử phát triển. [1]
Dự báo là một vấn đề quan trọng đối với tất cả các lĩnh vực của quản lý bệnh
viện, liên quan đến việc lên kế hoạch thực hiện, quản lý giường bệnh, quản lý
nguồn lực.[2]
Dự báo dữ liệu chuỗi thời gian là một vấn đề được nghiên cứu trong thời gian
dài. Và là một trong những thành phần quan trọng trong hoạt động nghiên cứu phát
triển của tổ chức, bởi vì những dữ liệu từ quá khứ đến hiện tại thường được dùng để
cung cấp cho các mô hình quyết định. Mô hình dự báo nhu cầu về khách du lịch ghé
thăm trong tương lai, hay là mô hình tồn kho yêu cầu ước tính được nhu cầu cần
hàng trong thời gian dự kiến, hay là mô hình dự báo nhóm bệnh theo mùa, dự đoán
về thị trường chứng khoán, doanh thu….
Dữ liệu chuỗi thời gian là dữ liệu mà các biến quan sát được thu thập theo thời
gian với tần suất nhất định tùy theo đặc tính của đối tượng nghiên cứu. Dữ liệu
chuỗi thời gian được thu thập từ nhiều nguồn khác nhau: các giao dịch của nghiệp
vụ, quan sát môi trường, …
• Thu thập theo thời gian với tần suất [3]:

o Theo ngày, tuần: chứng khoán, giá vàng, tỷ giá ngoại tệ, …
o Theo tháng: doanh thu, năng suất sản xuất, tỷ lệ lạm phát, tỷ lệ thất nghiệp,

o Theo năm: doanh thu, năng suất sản xuất, ngân sách chính phủ, tốc độ tăng
trưởng GDP, …
o Dự báo chuỗi thời gian được áp dụng vào một số vấn đề liên quan [4]: Dự
báo kinh tế, Dự báo doanh thu bán hàng, Phân tích ngân sách, Phân tích thị
trường chứng khoán, Dự đoán về năng suất, Quy trình và quản lý chất lượng,
Kiểm kê học, Dự báo khối lượng công việc, Dự báo về dân số, …
Đối với ngành y của Việt Nam cũng đã quan tâm đến vấn đề phân tích dữ
liệu, cụ thể là tại các trường Đại học Y Dược đều được đào tạo các môn học liên
quan đến phân tích số liệu và biểu đồ bằng phần mềm R. Dự báo chuỗi thời gian


17

ứng dụng cho các công việc liên quan đến ngành y thì chưa được chú trọng nhiều.
Các lĩnh vực được phát triển song hành cùng với sự phát triển của công nghệ đều
liên quan đến lĩnh vực kinh tế, nhưng lĩnh vực về y cụ thể là những công tác quản lý
trong bệnh viện vẫn đang được triển khai. Những đối tượng cần thiết đưa vào áp
dụng như: doanh thu từ các hoạt động khám chữa bệnh, dự báo sự gia tăng khám
bệnh đối với các nhóm bệnh, hiệu suất làm việc của các nhân viên bệnh viện….
=> Đó là những lý do mà chúng tôi chọn đề tài “Dự báo chuỗi thời gian trong hệ
thống thông tin bệnh viện”.
1.3 Mục tiêu đề tài
Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làm trơn,
mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thời gian.
Nghiên cứu phần mềm R để dự báo chuỗi thời gian.
Áp dụng ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hình
mùa SARIMA vào việc dự báo doanh thu của bệnh viện. So sánh hiệu quả của ba

phương pháp này.
1.4 Ý nghĩa đề tài
Chỉ ra được phương pháp thực hiện tối ưu trong việc dự báo chuỗi thời gian
trong hệ thống thông tin bệnh viện.
Giới thiệu thêm một công cụ hỗ trợ phân tích dữ liệu chuỗi thời gian tiện
dụng và không tốn chi phí mà đem lại hiệu quả.
1.5 Phạm vi và giới hạn đề tài
Phạm vi thực hiện là hai tập dữ liệu thuộc hai đơn vị khác nhau là của một
đơn vị Phòng khám đa khoa và một đơn vị Trung tâm y tế, cả hai đơn vị này đều đặt
tại thành phố Hồ Chí Minh.
Đề tài tiến hành thực hiện dựa trên ba phương pháp dùng để phân tích dữ
liệu chuỗi thời gian: phương pháp kỹ thuật làm trơn mũ, mô hình ARIMA và mô
hình mùa SARIMA.


18

1.6 Bố cục luận văn
Bố cục của luận văn này bao gồm sáu chương sau:
Chương I: Giới thiệu – Giới thiệu tổng quan về dự báo chuỗi thời gian được
ứng dụng ở các lĩnh vực, lý do nghiên cứu, mục tiêu nghiên cứu, ý nghĩa thực tiễn,
phạm vi và giới hạn của đề tài.
Chương II: Các công trình liên quan – Trình bày các công trình nghiên cứu
liên quan đến dự báo chuỗi thời gian trong lĩnh vực quản lý bệnh viện.
Chương III: Phương pháp nghiên cứu – Trình bày phương pháp nghiên cứu
và công cụ hỗ trợ quá trình thực hiện luận văn.
Chương IV: Cơ sở lý thuyết – Trình bày cơ sở lý thuyết được sử dụng để giải
quyết các vấn đề bài toán của luận văn. Ở chương này giới thiệu những thước đo dự
báo chuỗi thời gian, kỹ thuật làm trơn, mô hình ARIMA, mô hình mùa SARIMA,
phần mềm R.

Chương V: Kết quả thực nghiệm – Trình bày kết quả nghiên cứu thực
nghiệm.
Chương VI: Kết luận và kiến nghị – Trình bày kết luận từ kết quả nghiên
cứu, nêu lên những hạn chế và hướng nghiên cứu tiếp theo.


19

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN
Dự báo chuỗi thời gian là một trong những vực được nghiên cứu trong thời gian
gần đây. Như đã giới thiệu ở chương I thì dự báo chuỗi thời gian là một trong
những vấn đề quan trọng đối với tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, bệnh
viện,… Hiện có nhiều công trình nghiên cứu các khía cạnh liên quan đến các lĩnh
vực đã nêu.
Trong luận văn có thể chia thành các nhóm chính trong dự báo chuỗi thời gian được
phân thành hai nhánh: mô hình Neural Network và các mô hình phân tích trong
thống kê.
2.1 Mô hình Neural Network
Mạng nơ-ron nhân tạo (ANN) là một lĩnh vực nghiên cứu rất lớn trong lĩnh vực trí
tuệ nhân tạo, ANN được xem như một hệ thống kết nối tập hợp các ngõ vào (inputs)
đến tập hợp các ngõ ra (outputs) qua một hay nhiều lớp nơ-ron, các lớp này được
gọi là các lớp ẩn. Việc xác định có bao nhiêu ngõ vào, ngõ ra, số lớp ẩn cũng như
số lượng nơ-ron của mỗi lớp tạo thành kiến trúc của mạng.
Kiến trúc của một ANN cho dự báo chuỗi thời gian được mô phỏng ở Hình 2.1 với
3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo).

Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp

ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4])



20

Trong ngữ cảnh chuỗi thời gian, ngõ ra là giá trị của chuỗi thời gian được dự báo,
ngõ vào có thể là có giá trị quan sát trước thời điểm dự báo (xác định bởi độ trễ) của
chuỗi thời gian và các biến giải thích khác.
Đối với các ANN một lớp ẩn có H nơ-ron, phương trình tổng quát để tính giá trị dự
báo xt (ngõ ra) sử dụng đến các mẫu quan sát quá khứ , , …, làm ngõ vào được viết
dưới dạng sau:
(2.3)
Trong đó:




biểu thị các trọng số cho kết nối giữa hằng số ngõ vào và các nơ-ron lớp ẩn.
là trọng số kết nối trực tiế giữa ngõ vào hằng số và ngõ ra,
và là các trọng số của các kết nối khác giữa các ngõ vào và các nơ-ron lớp ẩn

giữa các nơ-ron lớp ẩn với ngõ ra.
• và là hai hàm kích hoạt lần lượt được sử dụng tại ngõ ra và tại các nơ-ron lớp
ẩn.
ANN được áp dụng trong dự báo chuỗi thời gian bởi rất nhiều nhà nghiên cứu.
C.Yeh và các cộng sự năm 2008 ([4]) đã sử dụng mô hình mạng nơ-ron nhân tạo để
dự báo về chi tiêu y tế tại Đài Loan.
E.Hadavandi và các cộng sự năm 2011 ([5]) đã phát triển mô hình mạng nơ-ron để
ứng dụng cho việc dự báo số lượng bệnh nhân tới khám tại bệnh viện.
2.2 Các mô hình phân tích thống kê
2.2.1 Các mô hình xu thế
Tổng quan về hàm xu thế

Xu thế là sự vận động tăng hay giảm của dữ liệu trong một thời gian dài. Sự vận
động này có thể được mô tả bằng một đường thằng (xu thế tuyến tính) hoặc bởi một
vài dạng đường cong toán học (xu thế phi tuyến tính). Phân tích hồi quy là cách thức
mô hình hóa mối quan hệ giữa Yt và t (biến thời gian t sử dụng như một biến giải
thích). Phần này giới thiệu hai mô hình xu thế thường được sử dụng trong phân tích,
dự báo kinh tế, xã hội. Đó là Mô hình xu thế tuyến tính và Mô hình tăng trưởng mũ.
Bảng 2.1 Các hàm xu thế

STT

Mô hình

Phương trình

Hình thức tuyến tính


21

1

Linear (tuyến tính)

2

Logarit

3

Quadratic (bậc 2)


5

Exponential growth (tăng
trưởng mũ)

T R O Beringer và các cộng sự năm 2000 ([6]) đã tiến hành nghiên cứu xu hướng
và dự báo số lượng người bị gãy xương của các bệnh nhân tại Northern Ireland.
Phân tích độ tuổi và giới tính được thực hiện hồi qui tuyến tính, hồi qui Poisson và
các hàm xu thế.

Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của

những người trên 50 tuổi và phân theo giới tính.([6])
Biểu đồ Hình 2.2 thể hiện cả dữ liệu quá khứ và dữ liệu dự đoán số người bị gãy
xương đến năm 2016, dựa vào dữ liệu từ năm 1985 đến năm 1997 của nam và nữ từ
độ tuổi 50 trở lên và sử dụng ba phương pháp trên để dự đoán.


22

2.2.2 Dự báo bằng phương pháp phân tích
Các phương pháp phân tích (Decomposition methods) hay các mô hình phân tích
chuỗi thời gian (Time-series decomposition medols) được sử dụng cả trong dự báo
ngắn hạn và dài hạn. Phương pháp này là một trong những phương pháp ra đời sớm
nhất trong lịch sử của các kỹ thuật dự báo, và hiện nay vẫn còn được sử dụng phổ
biến ở các nước phát triển. Phân tích chuỗi thời gian cổ điển là cách thức thực hiện
chủ yếu dựa trên nền tảng của các phương pháp trung bình di động và dự báo theo
hàm xu thế.
Robert Champion và các cộng sự năm 2007 ([7]), nghiên cứu về dự báo số ngày

điều trị nội trú cho mỗi tháng của bệnh nhân tại tiểu bang Victoria, Úc. Để thực hiện
nghiên cứu này, nhóm tác giả sử dụng kỹ thuật làm trơn và mô hình ARIMA, nhưng
trong quá trình thực hiện đã sử dụng kết hợp với phương pháp phân tích có yếu tố
mùa vụ để tìm ra số lượng bệnh nhân cho mỗi giờ của tuần.
Bốn thành phần của chuỗi thời gian:
Xu thế: là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một
chuỗi thời gian. Thành phần này thường được ký hiệu là Tr, hay T.
Chu kỳ là một chuỗi những sự dao động giống như hình sóng và sự dao
động này sẽ lặp lại sau một thời kỳ dài hơn một năm. Ký hiệu chu kỳ là CI, hay C.
Mùa: những dao động mùa vụ rất thường được tìm thấy với dữ liệu theo
quý, theo tháng, hoặc thậm chí theo tuần. nếu chỉ có dữ liệu theo năm thì không có
biến động mùa. Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn định xuất
hiện hàng năm hoặc kiểu thay đổi đó lại được lặp lại ở năm sau, và các năm sau
nữa. Yếu tố mùa xảy ra do ảnh hưởng của thời tiết, các sự kiện hàng năm kiên quan
đến lịch như nghỉ hè, ngày lễ. Ký hiệu mùa là Sn, hay S.
Ngẫu nhiên/ bất thường: thành phần ngẫu nhiên bao gồm những thay đổi
ngẫu nhiên, hay không dự đoán được. Thành phần bất thường này xuất hiện có thể
do ảnh hưởng của tin đồn, thiên tai, động đất, …. Ký hiệu ngẫu nhiên/bất thường là
Ir, hay I.
Phương pháp phân tích được thể hiện ở hai mô hình: mô hình nhân tính và
mô hình cộng tính.


23

Mô hình nhân tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành
bởi tích số của từng thành phần Tr, Cl, Sn, Ir.
Yt = Trt.Clt.Snt.Irt
(2.3)
Mô hình cộng tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành

bởi tổng của các thành phần Tr, Cl, Sn, Ir.
Yt = Trt + Clt + Snt + Irt
(2.3)
Mô hình nhân tính sẽ phù hợp khi sự biến thiên của chuỗi thời gian tăng dần theo
thứ tự của thời gian. Mô hình cộng tính có hiệu quả khi chuỗi dữ liệu đang được
phân tích có sự biến thiên xấp xỉ đều nhau suốt độ dài của chuỗi thời gian.
2.2.3 Dự báo bằng phân tích hồi quy
J.Boyle và các cộng sự năm 2008([2]), dự báo số lượng bệnh nhân nhập viện.
Dự báo này được nhóm tác giả phân tích dữ liệu và dự báo dữ liệu bằng phân tích
hồi quy (Regression). Dữ liệu được tạo ra từ mô hình này sẽ được so sánh với dữ
liệu nhập liệu trên 6 tháng. Phương pháp này thực hiện hiệu quả với 11 biến giả để
mô hình biến hàng tháng (MAPE=1.79%).
Mô hình hồi quy đơn
Phân tích hồi quy có thể giúp cho người phân tích: ước lượng giá trị trung
bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích; kiểm
định các giả thuyết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ
thuộc; dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các
biến giải thích; dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến
phụ thuộc thông qua hệ số hồi quy.
Mô hình hồi quy tuyến tính cổ điển
E(Yt) = β1 + β2Xt

(2.3)

Trong đó:
E(Yt) là giá trị trung bình có điều kiện của Yt theo Xt, và β1, β2 là các tham số chưa
biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào
thời điểm t của biến quan sát).
Mô hình hồi quy bội



24

Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc, Y,
phụ thuộc vào nhiều biến giải thích khác nhau. Mô hình hồi quy bội được thể hiện
như sau:
Yt = β1 + β2X2t + … + βkXkt + ut t=1,2,3,…,n
(2.3)
Trong đó, β1 là hệ số cắt, β2 , …, βk là các hệ số hồi quy riêng, ut là hạng nhiễu ngẫu
nhiên, và t là quan sát thứ t, n là quy mô toàn bộ của tổng thể.
2.2.4 Các mô hình dự báo bằng phương pháp Box – Jenkins
Mô hình ARIMA liên quan đến mô hình tự hồi quy (AR) và mô hình trung
bình di động (MA). Biến Yt của mô hình AR chỉ ảnh hưởng bởi hạng nhiễu trắng ut,
và cũng chịu ảnh hưởng bới các biến Yt-1, Yt-2, Yt-3, … thường được tạo ra MA(q).
Nếu mô hình MA(1), Yt đại diện không chỉ chịu ảnh hưởng của nhiễu trắng, mà
bằng cách nào đó có mối liên hệ với các giá trị Yt-1, Yt-2, Yt-3.[4]
Nếu biến Yt có mối liên hệ với các giá trị Yt-1, Yt-2, Yt-3, … và các giá trị hạng
nhiễu trắng ut-1, ut-2, ut-3, …, mô hình này gọi mô ARMA(p,q). Nếu mô hình ARMA
không được chấp nhận, vi phân lần “d” có thể được dùng để tạo ra sự chấp thuận,
sau đó ta có được mô hình ARIMA(p,d,q). Được diễn tả bởi hai phương trình sau:
Dt = γ1Dt-1 + … + γpDt-p + ut + θ1ut-1 + … + θqut-q
 (1-L)dYt = γ1(1-L)d Yt-1 + … + γp(1-L)d Dt-p + ut + θ1ut-1 + … + θqut-q
 (1- γ1L1 - … - γpLp )(1-L)dYt = (1+ θ1L1 + … + θqLq)
Dt là thông tin được chuyển đổi sau khi lấy sai phân lần thứ t; γp , θq là các

(2.1)
(2.2)
(2.3)
giá trị


được ước tính, ut là giá trị sau khi lấy sai phân lần thứ t, L là giá trị làm suy thoái.
C.Yeh và các cộng sự năm 2008 ([4]) bên cạnh sử dụng mô hình mạng nơron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan thì nhóm tác giả này cũng đã sử
dụng mô hình ARIMA cho dự báo này. Qua quá trình thực hiện nghiên cứu thì
nhóm tác giả này kết luận mô hình ARIMA dự báo cho ra kết quả tốt hơn mô hình
mạng nơ-ron nhân tạo về dự báo chi tiêu y tế.
E.P.C.Kao và G.G.Tung năm 1980 ([8]) đã sử dụng mô hình ARIMA để dự
báo nhu cầu về các dịch vụ chăm sóc sức khỏe bệnh nhân. Dự báo số lượng bệnh
nhân khám các dịch vụ chịu ảnh hưởng theo mùa, dự đoán này có thể dự đoán theo
hàng tháng.


25

Hình 2.3 Dự báo số lượng bệnh nhân (từ tháng 109 - 132)[5].

Biểu đồ Hình 2.3 thể hiện giá trị thực tế và giá trị dự báo từ tháng thứ 109 đến tháng
thứ 132, với vùng giới hạn tin cậy có thể xảy ra của mô hình ARIMA trong việc dự
báo số lượng bệnh nhân đến khám là 95%.


×