Tải bản đầy đủ (.pdf) (58 trang)

pHáT hiện bất tHườNG điện năNG tiêu thụ dựa trên phân tíCH dữ liệu cHUỗI thời gIAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 58 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

NGUYỄN MINH HUẤN

PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA
TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 60.34.04.05

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 12 năm 2018


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG - HCM
Cán bộ hướng dẫn khoa học: PGS. TS. ĐẶNG TRẦN KHÁNH
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. ..............................................................
2. ..............................................................


3. ..............................................................
4. ..............................................................
5. ..............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH & KT MÁY TÍNH


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN MINH HUẤN

MSHV: 1670463

Ngày, tháng, năm sinh: 26/08/1981

Nơi sinh: Đồng Nai

Chuyên ngành: Hệ thống thông tin quản lý

Mã số : 60.34.04.05


I. TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN
PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
II. NHIỆM VỤ VÀ NỘI DUNG:
- Nhiệm vụ: Thực hiện luận văn thạc sĩ với đề tài Phát hiện bất thường điện năng tiêu thụ
dựa trên phân tích dữ liệu chuỗi thời gian.
- Nội dung:
+ Làm rõ khái niệm bất thường cho tiêu thụ điện.
+ Tìm hiểu các phương pháp xác định bất thường.
+ Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp.
+ Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu
điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp.
+ Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực
dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ
liệu.
III. NGÀY GIAO NHIỆM VỤ : 15/01/2018
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V. CÁN BỘ HƯỚNG DẪN: PGS. TS. ĐẶNG TRẦN KHÁNH

Tp. HCM, ngày . . . . tháng .. . . năm 2019
CÁN BỘ HƯỚNG DẪN

TRƯỞNG KHOA KH & KTMT


i

LỜI CẢM ƠN
Đầu tiên, tôi xin chân thành cảm ơn Thầy, PGS. TS Đặng Trần Khánh đã tận
tình hướng dẫn tơi trong q trình thực hiện luận văn tốt nghiệp. Thầy đã đưa ra nhiều
ý tưởng, gợi ý nhiều phương pháp để tơi tìm hiểu, nghiên cứu và áp dụng trong luận

văn này.
Tôi xin chân thành cảm ơn các Thầy, Cơ của trường Đại học Bách Khoa Thành
phố Hồ Chí Minh đã truyền đạt những kiến thức quí giá giúp tôi ngày càng trưởng
thành hơn trên con đường học vấn của mình.
Tơi xin chân thành cảm ơn Ơng Nguyễn Phước Đức, Phó Tổng Giám đốc Tổng
cơng ty Điện lực miền Nam; Ơng Trần Hữu Minh, Trưởng Ban Cơng nghệ thơng tin
và các đồng nghiệp tại Tổng công ty Điện lực miền Nam đã tạo điều kiện để tơi tham
gia khóa học và thực hiện luận văn này.
Con xin cảm ơn Ba, Mẹ luôn đặt niềm tin và luôn dõi theo con trên con đường
tìm tịi học vấn và kiến thức.
Cuối cùng, tôi cảm ơn vợ tôi, Nguyễn Lưu Thùy Ngân, đã ln động viên,
khuyến khích tơi hồn thành chương trình học Thạc sĩ Hệ thống thơng tin quản lý và
hồn thành luận văn tốt nghiệp.

Thành phố Hồ Chí Minh, tháng 12 năm 2018


ii

TĨM TẮT
Ngày nay, với sự phổ biến của cơng tơ điện tử, dữ liệu điện năng tiêu thụ của
khách hàng sử dụng điện được các Công ty Điện lực thu thập liên tục. Luận văn này
nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra
phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của
khách hàng.
Phương pháp phát hiện bất thường bao gồm 2 giai đoạn: Giai đoạn thứ nhất, giai
đoạn dự báo, nhằm dự báo giá trị điện năng tiêu thụ trong tương lai, sau đó tính tốn
vùng giá trị bình thường. Giai đoạn thứ hai, giai đoạn xác định bất thường, là so sánh
điện năng tiêu thụ thực tế với vùng giá trị bình thường để tìm ra các bất thường trong
sử dụng điện của khách hàng.

Đối với dự báo điện năng tiêu thụ trong tương lai, luận văn cài đặt thử nghiệm,
so sánh hiệu quả của 04 phương pháp dự báo phổ biến hiện nay là: (1) Auto
Regressive integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double
Seasonal Holt-Winters và (4) phương pháp lai giữa mạng nơ ron và ARIMA. Các thử
nghiệm được thực hiện trên dữ liệu điện năng tiêu thụ điện thực tế của một số khách
hàng sử dụng điện của Tổng công ty Điện lực miền Nam (thông tin khách hàng đã
được mã hóa).
Bên cạnh đó, luận văn cũng xây dựng cơng cụ hỗ trợ phát hiện bất thường theo
thời gian thực để minh họa cho phương pháp phát hiện bất thường mà luận văn sử
dụng.


iii

ABSTRACT
Nowadays, the use of digital electric-energy meter has become very popular.
Thanks to digital electric-energy meters, the electricity company can easily gather
electric-energy-consumption data in real time. This research compares different data
analysis methods to find an effective method for detecting possible anomalies in
electric-energy consumption; thus, is beneficial for both electric-energy consumers
and suppliers.
Our anomaly detection methods follow two broad steps: The first step is to
predict the amount of electric-energy consumption at a moment in future and
calculate a possible range of normal consumption. The second step is to compare the
actual consumption value that is collected via the digital electric-energy meter with
the predicted range; Values that fall outside this range are considered anomalies.
For the first step, we study four different methods which have shown good
results on other data sets in previous works: (1) Auto Regressive Integrated Moving
Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters, and (4) A
hybrid method between Neural Network and ARIMA (NNAR). All of the

experiments are carried out on the real electric-energy consumption data of the
Southern Electric Power Company – Vietnam (consumers’ information has been
anonymized).
Besides, we also built a tool to assist human in detecting anomalies to illustrate
the methods implemented in this research.


iv

LỜI CAM ĐOAN CỦA TÁC GIẢ
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn này do
chính bản thân tơi thực hiện. Những nội dung tham khảo từ cơng trình khác đều được
trích dẫn đầy đủ.


v

MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU ..............................................................................................1
1.1. Giới thiệu đề tài ................................................................................................1
1.2. Mục tiêu nghiên cứu .........................................................................................1
1.3. Đối tượng và phạm vi nghiên cứu ....................................................................2
1.4. Cấu trúc của luận văn .......................................................................................2
1.5. Đóng góp của luận văn .....................................................................................3
CHƯƠNG 2: TỔNG QUAN .......................................................................................4
2.1 Các cơng trình trình nghiên cứu liên quan.........................................................4
2.2. Hướng nghiên cứu của luận văn .......................................................................5
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT ...........................................................................6
3.1. Phát hiện bất thường .........................................................................................6
3.1.1. Các dạng bất thường ...................................................................................6

3.1.2. Các phương pháp phát hiện bất thường......................................................6
3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến .................................7
3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp ................................7
3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm ...............................8
3.1.3.3. Kỹ thuật phát hiện bất thường dựa trên thống kê ................................9
3.2. Phân tích dữ liệu chuỗi thời gian ......................................................................9
3.2.1. Dữ liệu chuỗi thời gian ...............................................................................9
3.2.1.1. Định nghĩa ............................................................................................9
3.2.1.2. Chuỗi thời gian dừng .........................................................................10
3.2.1.3. Xu hướng và mùa vụ ..........................................................................10
3.2.2. Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian ......11
3.2.2.1. ARIMA ..............................................................................................11
3.2.2.2. Holt Winters .......................................................................................12
3.2.2.4. Phương pháp dự báo Double Season Exponential Smoothing ..........14
3.3. Phương pháp pháp hiện bất thường ................................................................16
3.4. Đánh giá độ chính xác của mơ hình dự báo....................................................17
CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM .......................................................18
4.1. Dữ liệu ............................................................................................................18


vi

4.2. Phương pháp thí nghiệm .................................................................................23
4.2.1. Phương pháp thực hiện .............................................................................23
4.2.2. Dữ liệu thực hiện các mơ hình dự báo .....................................................25
4.2.3. Cơng cụ thực hiện thí nghiệm ..................................................................25
4.3. Phương pháp đánh giá ....................................................................................25
CHƯƠNG 5: KẾT QUẢ THÍ NGHIỆM ..................................................................26
5.1. Thí nghiệm 1 ...................................................................................................26
5.1.1. Mục tiêu ....................................................................................................26

5.1.2. Dữ liệu ......................................................................................................26
5.1.3. Kết quả .....................................................................................................26
5.2. Thí nghiệm 2 ...................................................................................................28
5.2.1. Mục tiêu ....................................................................................................28
5.2.2. Dữ liệu ......................................................................................................28
5.2.3. Kết quả .....................................................................................................28
5.3. Thí nghiệm 3 ...................................................................................................29
5.3.1. Mục tiêu ....................................................................................................29
5.3.2. Dữ liệu ......................................................................................................29
5.3.3. Kết quả .....................................................................................................29
5.4. Thí nghiệm 4 ...................................................................................................30
5.4.1. Mục tiêu ....................................................................................................30
5.4.2. Dữ liệu ......................................................................................................31
5.4.3. Kết quả .....................................................................................................31
5.5. Thí nghiệm 5 ...................................................................................................38
5.5.1. Mục tiêu ....................................................................................................38
5.5.2. Dữ liệu ......................................................................................................38
5.5.3. Kết quả .....................................................................................................38
CHƯƠNG 6: CÔNG CỤ PHÁT HIỆN BẤT THƯỜNG .........................................39
6.1. Thiết kế hệ thống ............................................................................................39
6.2. Lớp cơ sở dữ liệu: ...........................................................................................40
6.3. Mơ đun phân tích ............................................................................................41
6.4. Giao diện .........................................................................................................41
CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................43


vii

DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................44


HÌNH
Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15]. ..................................6
Hình 2 Minh họa dữ liệu chuỗi thời gian ..................................................................10
Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngơn ngữ R..........11
Hình 4 Cấu trúc mạng nơ ron nhân tạo. nguồn: .................15
Hình 5 Qui tắc 2-sigma của phân phối chuẩn. Nguồn [2].........................................16
Hình 6 Mơ hình thu thập dữ liệu cơng tơ điện tử từ xa.............................................18
Hình 7 Mơ hình phát tuyến của các trạm khách hàng ...............................................19
Hình 8 Biểu đồ phụ tải của 19 khách hàng kinh doanh ............................................19
Hình 9 Tổng hợp phụ tải theo ngày của 19 khách hàng............................................20
Hình 10 Tổng hợp phụ tải theo tuần của 19 khách hàng ..........................................20
Hình 11 Biểu đồ phụ tải của các khách hàng có ID là 7,9,17,19 ..............................21
Hình 12 Biểu đồ tần suất giá trị phụ tải (histogram) .................................................22
Hình 13 Biểu đồ phân bố dữ liệu, biểu đồ giá trị trung bình với độ lệch chuẩn (Sd)
và biểu đồ giá trị trung vị và độ lệch từ trung vị (Mad) ............................................23
Hình 14 Qui trình phát hiện bất thường dữ liệu ........................................................24
Hình 15 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên
các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................26
Hình 16 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE %) trên các tập dữ
liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trong 5 tuần ...............................................27
Hình 17 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên
các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................28
Hình 18 So sánh các mơ hình dự báo của tổng hợp 19 khách hàng sử dụng điện ....29
Hình 19 Biểu đồ so sánh MAPE (%) giữa các mơ hình dự báo ...............................30
Hình 20 Kết quả dự báo của các mơ hình cho khách hàng có ID là 7 ......................31
Hình 21 Biểu đồ phụ tải của khách hàng có ID là 7 .................................................32


viii


Hình 22 Biểu đồ so sánh MAPE (%) giữa các mơ hình dự báo của khách hàng của
khách hàng có ID là 7................................................................................................32
Hình 23 Kết quả dự báo của các mơ hình cho khách hàng có ID là 9 ......................33
Hình 24 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của
khách hàng có ID là 9................................................................................................33
Hình 25 Kết quả dữ báo của các mơ hình cho khách hàng có ID là 17 ....................34
Hình 26 Biểu đồ so sánh MAPE (%) giữa các mơ hình dự báo của khách hàng của
khách hàng có ID là 17..............................................................................................35
Hình 27 Kết quả dữ báo của các mơ hình cho khách hàng có ID là 19 ....................36
Hình 28 Biểu đồ so sánh MAPE (%) giữa các mơ hình dự báo của khách hàng của
khách hàng có ID là 19..............................................................................................36
Hình 29 Biểu đồ phụ tải của khách hàng có ID là 19 ...............................................37
Hình 30 So sánh phương pháp phát hiện bất thường độ lệch chuẩn và độ lệch từ
trung vị ......................................................................................................................38
Hình 31 Qui trình cơng cụ phát hiện bất thường ......................................................39
Hình 32 Giao diện cơng cụ phát hiện bất thường .....................................................42

BẢNG
Bảng 1 Giá trị trung bình, độ lệch chuẩn, giá trị trung vị, độ lệch từ trung vị của các
khách hàng có ID là 7,9,17,19...................................................................................22
Bảng 2 Giá trị MAPE (%) trung bình của các mơ hình dự báo đối với dữ liệu của 1
trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần. ....27
Bảng 3 Giá trị MAPE (%) của các mô hình dự báo đối với dữ liệu của 1 trạm biến
áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần trong 5 tuần .27
Bảng 4 Giá trị MAPE trung bình của các mơ hình dự báo đối với các khách hàng có
ID lần lược là 7,9,17,19.............................................................................................29
Bảng 5 So sánh độ chính xác MAPE (%) giữa các mơ hình dự báo cho tổng hợp 19
khách hàng.................................................................................................................30



ix

Bảng 6 So sánh độ chính xác MAPE (%) giữa các mơ hình dự báo của khách hàng
có ID là 7 ...................................................................................................................32
Bảng 7 So sánh độ chính xác MAPE (%) giữa các mơ hình dự báo của khách hàng
có ID là 9 ...................................................................................................................34
Bảng 8 So sánh độ chính xác MAPE (%) giữa các mơ hình dự báo của khách hàng
có ID là 17 .................................................................................................................35
Bảng 9 So sánh độ chính xác MAPE (%) giữa các mơ hình dự báo của khách hàng
có ID là 19 .................................................................................................................37
Bảng 10 Kết quả phát hiện bất thường ......................................................................38
Bảng 12 Thông tin bảng TBLPREDICTION ...........................................................40


1
CHƯƠNG 1: MỞ ĐẦU
1.1. Giới thiệu đề tài
Phát hiện bất thường trong tiêu thụ điện là một vấn đề quan trọng đối với các
khách hàng sử dụng điện và các các Công ty phân phối điện (Công ty Điện lực). Đối
với khách hàng sử dụng điện, đặc biệt là đối với khách hàng sử dụng điện với mục
đích sản xuất và kinh doanh (Doanh nghiệp), việc phát hiện bất thường có ý nghĩa rất
quan trọng trong việc quản lý sử dụng điện, giúp tránh thất thốt điện và có kế hoạch
quản lý và sử dụng điện tốt hơn nhằm tối ưu hóa chi phí sử dụng điện.
Đối với các Cơng ty Điện lực, việc phát hiện bất thường trong quá trình sử dụng
điện của khách hàng giúp việc lập kế hoạch và điều hành cung ứng điện tốt hơn, kiểm
soát và điều tiết được thời điểm công suất đỉnh trong trường hợp thiếu điện. Việc
kiểm soát tốt năng lượng điện sử dụng là một trong những giải pháp giúp đối phó với
nguy cơ thiếu điện có thể xảy ra tại Việt Nam vào năm 2020 [1]. Theo Tập đoàn
Điện lực Việt Nam, đến năm 2021-2023 hệ thống điện có khả năng không đáp ứng
đủ nhu cầu và nhiều khả năng xảy ra tình trạng thiếu điện tại miền Nam [1].

Một số nguyên nhân của các bất thường trong sử dụng điện có thể liệt kê như:
sử dụng nhiều đèn chiếu sáng không cần thiết; sử dụng các thiết bị, máy móc khơng
phù hợp [2]; hay liên quan đến các lỗi do con người [3].
Phương pháp thông thường để phát hiện các bất thường trong sử dụng điện là
phân tích dữ liệu được ghi nhận từ các thiết bị cảm biến như: cảm biến chuyển động,
cảm biến nhiệt độ, máy ghi hình, … với chi phí lắp đặt các cảm biến và phân tích dữ
liệu phát sinh cao [2]. Ngày nay, với việc ứng dụng công tơ điện tử để thu thập dữ
liệu điện năng tiêu thụ với tần suất cao trong ngày có thể giúp phát hiện bất thường
trong sử dụng điện và giảm số lượng cảm biến nêu trên.
Hiện nay mỗi ngày, Tổng công ty Điện lực miền Nam đang thu thập và quản lý
hơn 2 triệu dòng dữ liệu của các khách hàng là các công ty sản xuất, thương mại từ
các công tơ điện tử. Việc phải rà soát, xử lý một số lượng lớn dữ liệu nêu trên gây
khó khăn cho các bộ phận quản lý vận hành tại các Công ty Điện lực để phát hiện,
cảnh báo cho khách hàng khi các hiện tượng bất thường xảy ra.
Từ những vấn đề nêu trên, luận văn khái qt hóa bài tốn cần giải quyết như
sau: Từ dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện, máy tính phát hiện
các điểm dữ liệu bất thường và thông báo cho khách hàng sử dụng điện theo thời gian
thực để có thể tiến hành rà sốt, kiểm tra.
1.2. Mục tiêu nghiên cứu
Từ bài toán cần giải quyết nêu trên, luận văn đề ra các mục tiêu nghiên cứu sau:
- Làm rõ khái niệm bất thường cho tiêu thụ điện.
- Tìm hiểu các phương pháp xác định bất thường.


2
- Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh
nghiệp.
- Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường
trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp.
- Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo

thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên
gia về phân tích dữ liệu.
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là dữ liệu điện năng tiêu thụ của một số
khách hàng sử dụng điện là doanh nghiệp của Tổng công ty Điện lực miền Nam. Luận
văn sẽ tìm hiểu một số phương pháp phát hiện bất thường, cài đặt so sánh kết quả của
các phương pháp đó. Giới hạn của luận văn là sẽ thực hiện các thí nghiệm trên dữ
liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian một biến.
Việc xác định bất thường theo thời gian thực có nghĩa là khi dữ liệu điện năng
tiêu thụ được ghi vào hệ thống với tần suất 30 phút 1 lần, một phương pháp được
dùng để xác định bất thường ngay lập tức sẽ đưa ra đề xuất dữ liệu điện năng tiêu thụ
là bình thường hay bất thường. Bất thường trong tiêu thụ điện có nghĩa là sản lượng
điện năng tiêu thụ trong một đơn vị thời gian vượt quá ngưỡng bình thường.
Cơng cụ dùng để xác định bất thường khơng phải là một phần mềm hồn chỉnh
mà chỉ mang tính chất minh họa tính khả thi của phương pháp xác định bất thường
của điện năng tiêu thụ mà luận văn đề xuất. Việc xây dụng phần mềm hồn chỉnh có
thể áp dụng trong thực tế đòi hỏi nhiều nguồn lực về chi phí và thời gian vượt quá
giới hạn về nguồn lực của các nhân thực hiện luận văn.
1.4. Cấu trúc của luận văn
Cấu trúc của luận văn được chia làm 7 chương, với các nội dung chính như sau:
Chương 1: Mở đầu. Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm
vi nghiên cứu.
Chương 2: Tổng quan. Phân tích, đánh giá các cơng trình nghiên cứu liên quan;
nêu những vấn đề còn tồn tại; chỉ ra các vấn đề cần tập trung nghiên cứu giải quyết.
Chương 3: Cơ sở lý thuyết. Trình bày định nghĩa các loại bất thường, các
phương pháp xác định bất thường. Trình bày các phương pháp dự báo ngắn hạn, cách
thức đánh giá hiệu quả của các phương pháp dự báo.
Chương 4. Phương pháp thí nghiệm.
Chương 5. Kết quả thí nghiệm.
Chương 6. Công cụ xác định bất thường theo thời gian thực.

Chương 7. Kết luận và hướng phát triển.


3
1.5. Đóng góp của luận văn
- Tìm hiểu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện với mục
đích ngồi sinh hoạt.
- Tìm hiểu và so sánh các mơ hình dự báo ngắn hạn như: NNAR [2] [4],
ARIMA và Holt-Winters [5], Double Seasonal Holt-Winters [6] trên dữ liệu điện
năng tiêu thụ của một số khách hàng tại Tổng công ty Điện lực miền Nam.
- So sánh kết quả 2 phương pháp xác định bất thường: Phương pháp thứ nhất
dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị
trung vị và độ lệch từ trung vị [7].
- Xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực
dựa trên giá trị được dự báo sử dụng 2 phương phát phát hiện bất thường nêu trên.


4
CHƯƠNG 2: TỔNG QUAN
2.1 Các cơng trình trình nghiên cứu liên quan
Đã có nhiều nghiên cứu phát hiện bất thường bằng các thuật toán khai phá dữ
liệu [2] [8]. Chou et al. [2] đề xuất một phương pháp phát hiện bất thường theo thời
gian thực thông qua hai giai đoạn:
- Giai đoạn đầu tiên dự báo tiêu thụ điện bằng thuật toán lai giữa mạng nơ-ron
nhân tạo và ARIMA (Auto-Regressive Integrated Moving Average).
- Giai đoạn thứ phát hiện bất thường bằng cách sử dụng giá trị chênh lệch giữa
dữ liệu tiêu thụ thực tế và dự báo.
Tương tự, Hill và Barbara [8] cũng đưa ra giải pháp mơ hình hóa dữ liệu để phát
hiện bất thường bằng cách dự báo s dng cỏc mụ hỡnh naăve, nearest cluster (NC),
single-layer linear network (LN), và multilayer perceptron (MLP) và so sánh dữ liệu

thực tế với khoảng giá trị Predict Interval (PI) được tính tốn trên cơ sở giá trị dự báo
để xác định các điểm dữ liệu bất thường.
Dữ liệu của [2] là dữ liệu điện năng tiêu thụ của phịng thí nghiệm. Dữ liệu của
[8] là dữ liệu đo tốc độ gió.
Araya et al. [3] việc chỉ xem xét dữ liệu lịch sử để phát hiện ra các bất thường
có thể đưa ra kết quả sai vì thiếu các thơng tin liên quan đến ngữ cảnh khi xảy ra bất
thường đó ví dụ như ngày làm việc, ngày nghỉ, giờ làm việc, giờ không làm việc đối
với tiêu thụ điện. Araya et al. [3] cho rằng bất thường có thể đúng trong ngữ cảnh này
nhưng trong ngữ cảnh khác thì khơng phải là bất thường và đề xuất giải pháp CCADSW (Collective Contextual Anomaly Detection using Sliding Window). Dữ liệu là
điện năng tiêu thụ của hệ thống điều hịa khơng khí (Heating, ventilation, and air
conditioning – HVAC) trong trường học và các dữ liệu bất thường được giả lập.
Arjunan et al. [9] cũng đề xuất kỹ thuật phát hiện bất thường và giám sát năng
lượng tiêu thụ cho nhóm khách hàng dựa trên dữ liệu được phân nhóm theo ngữ cảnh
và dựa trên thơng tin các khách hàng lân cận có chung hành vi. Dữ liệu điện năng tiêu
thụ của các tòa nhà trong trường học và điện năng tiêu thụ của các căn hộ trong một
tòa nhà.
Arjunan et al. [9] đề xuất kỹ thuật phát hiện bất thường gồm 2 bước:
- Bước 1: Tính điểm bất thường cho từng khách hàng.
- Bước 2: Điều chỉnh điểm bất thường dựa vào thông tin điện năng tiêu thụ của
các khàng lân cận.
Kumar et al. [10] sử dụng phân cụm (Clustering) để phát hiện bất thường đối
với dữ liệu quĩ đạo đường đi. Thuật toán clusiVAT của Kumar et al. [10] được phát
triển và cải tiến từ các thuật toán VAT, iVAT, sVAT được đề suất bởi các nghiên cứu
[11] [12] [13] để phân cụm cho dữ liệu lớn. Tuy nhiên, phương pháp xác định bất
thường do Kumar et al. [10] đề xuất không phù hợp khi áp dụng cho dữ liệu điện năng


5
tiêu thụ của các khách hàng sử dụng điện vì dữ liệu có tính biến đổi lớn phụ thuộc
vào các hành vi sử dụng điện của khách hàng.

2.2. Hướng nghiên cứu của luận văn
Luận văn áp dụng phương pháp phát hiện bất thường theo thời gian thực được
đề xuất bởi Chou et al. [2] và Hill và Barbara [8] là quá trình phát hiện bất thường
bao gồm 2 giai đoạn:
- Giai đoạn dự báo:
+ Giúp Công ty Điện lực dự báo đỉnh phụ tải tương lai để chủ động hơn trong
điều hành cung ứng điện.
+ Giúp KH: Chủ động hơn trong việc xây dựng kế hoạch sử dụng điện.
- Giai đoạn phát hiện bất thường: Giúp khách hàng xác định được những bất
thường trong tiêu thụ điện.
Đối với giai đoạn dự báo, luận văn so sánh các phương pháp dự báo được sử
dụng bởi Chou [2] và Zhang [4] là NNAR, phương pháp ARIMA và Holt-Winters
được sử dụng bởi các tác giả Laurinec [5] và phương pháp Double Seasonal HoltWinters (DSHW) được đề xuất bởi Taylor [6]. Các phương pháp dự báo được lựa
chọn vì đây là các phương pháp dự báo phổ biến được áp dụng cho dữ liệu điện năng
tiêu thụ và có kết quả tốt trong các nghiên cứu trên.
Đối với giai đoạn xác định bất thường, luận văn sẽ so sánh hai phương pháp:
Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp
thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7].
Từ phương pháp xác định bất thường nêu trên, luận văn sẽ phát triển công cụ
phát hiện bất thường theo thời gian thực có thể áp dụng thực tế cho dữ liệu của các
khách hàng sử dụng điện tại Tổng công ty Điện lực miền Nam.


6
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT
3.1. Phát hiện bất thường
3.1.1. Các dạng bất thường
Chandola et al. [14] chia bất thường làm 3 loại chính sau:
- Điểm bất thường: Nếu một điểm dữ liệu được coi là khơng bình thường đối
với phần cịn lại của dữ liệu thì điểm dữ liệu đó được xem như điểm bất thường. Đây

là dạng bất thường cơ bản nhất và được sử dụng trong hầu hết các nguyên cứu liên
quan đến phát hiện bất thường.
- Chuỗi bất thường: Nếu một tập các điểm dữ liệu có liên quan với nhau dị
thường đối với phần cịn lại của tập dữ liệu thì được xem là chuỗi bất thường. Các
điểm dữ liệu riêng biệt trong một chuỗi bất thường có thể khơng phải là bất thường,
nhưng cùng xuất hiện trong một chuỗi dữ liệu thì được xem là bất thường.
- Bất thường theo ngữ cảnh: Nếu một điểm hay một chuỗi dữ liệu được xem là
bất thường đối với đối với một ngữ cảnh cụ thể thì được gọi là bất thường theo ngữ
cảnh.
Hochenbaum, Jordan et al. [15] đề xuất 2 dạng bất thường sau: Bất thường toàn
cục và Bất thường cục bộ.
- Bất thường toàn cục: Là bất thường xảy ra tại một thời điểm và khác biệt so
với phần còn lại của chuỗi thời gian.
- Bất thường cục bộ: Là bất thường xảy rả tại một thời điểm và khác biệt so với
cùng ngữ cảnh hay mùa vụ, được so sánh giữa mức tối đa và mức tối thiểu theo cùng
ngữ cảnh hay mùa vụ.

Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15].
Luận văn đề xuất sử dụng định nghĩa bất thường theo [15] cho bất thường trong
tiêu thụ điện năng vì dữ liệu điện năng tiêu thụ là loại dữ liệu có tính ngữ cảnh và
mùa vụ cao.
3.1.2. Các phương pháp phát hiện bất thường
Có nhiều phương pháp được đề xuất để phát hiện bất thường. Các phương pháp
tiên tiến nhất hiện nay dựa trên các mơ hình máy học thống kê dựa trên tập dữ liệu
đủ lớn. Dữ liệu huấn luyện mơ hình phát hiện bất thường có thể có nhãn hoặc khơng


7
có nhãn. Nhãn của một dữ liệu thể hiện điểm dữ liệu là bình thường hay là bất thường.
Có thể chia các phương pháp này thành 3 dạng sau đây [14]:

- Dạng 1: Các phương pháp phát hiện bất thường có giám sát: Là các phương
pháp sử dụng các nhãn dữ liệu bình thường và bất thường để xây dựng mơ hình phân
loại hay dự báo một điểm dữ liệu mới chưa được gán nhãn là bình thường hay là bất
thường. Để sử dụng phương pháp phát hiện bất thường có giám sát địi hỏi phải tiêu
tốn chi phí cho việc gán nhãn dữ liệu. Chandola et al. [14] cho rằng có 2 thách thức
làm ảnh hưởng đến kết quả phát hiện bất thường có giám sát. Một là các điểm dữ liệu
có nhãn là bất thường q ít so với dữ liệu được gán nhãn bình thường trong tập dữ
liệu huấn luyện. Hai là vấn đề khó khăn cho việc gán nhãn chính xác cho các dữ liệu
bất thường.
- Dạng 2: Các phương pháp phát hiện bất thường bán giám sát: Phương pháp
này dựa trên việc tập dữ liệu huấn luyện được gán nhãn cho các điểm dữ liệu bình
thường. Do phương pháp này khơng u cầu gán nhãn cho các điểm dữ liệu bất
thường nên được dùng phổ biến hơn các phương pháp phát hiện bất thường có giám
sát. Nội dung của phương pháp này là dùng tập dữ liệu huấn luyện để xây dựng mơ
hình cho các hành vi bình thường, sau đó dùng mơ hình này để phát hiện bất thường
cho tập dữ liệu kiểm tra. Thách thức của phương pháp này là tìm ra tất cả các dữ liệu
được cho là bình thường của tập dữ liệu huấn luyện.
- Dạng 3: Các phương pháp phát hiện bất thường không giám sát: Phương pháp
này không sử dụng dữ liệu có nhãn. Thay vào đó, phương pháp này giả định rằng
hành vi bình thường là thường xảy ra nhất. Các điểm dữ liệu bình thường được xem
là các mẫu thường xảy ra nhất, và các điểm hoặc chuỗi bị lệch khỏi các mẫu này được
xem là bất thường.
3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến
3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp
Phát hiện bất thường dựa trên kỹ thuật phân lớp thuộc phương pháp phát hiện
bất thường có giám sát hay bán giám sát. Kỹ thuật này được thực hiện thông qua 2
giai đoạn: Giai đoạn huấn luyện dùng để học mơ hình phân lớp dựa trên dữ liệu huấn
luyện có gán nhãn có sẵn; Giai đoạn thử nghiệm phân loại dữ liệu thử nghiệm là bình
thường hay bất thường. Theo Chandola et al [14] kỹ thuật phát hiện bất thường bằng
phân lớp dựa trên giả định có thể phân biệt điểm dữ liệu bình thường và bất thường

thơng qua các đặc trưng của dữ liệu. Một số đại diện của kỹ thuật phát hiện bất thường
dựa trên phân lớp là: Neural Network [16], Bayesian Networks [17], Support Vector
Machines [18] và Rule-based [19].
Ưu điểm:
- Có thể ứng dụng tốt cho tập dữ liệu có nhiều lớp: phân biệt được các điểm dữ
liệu thuộc nhiều lớp khác nhau.
- Tốc độ ở giai đoạn thử nghiệm nhanh do các điểm dữ liệu kiểm thử được so
sánh với mơ hình được tính tốn trước.


8
Nhược điểm:
- Để phân loại nhiều lớp cần thiết phải gán nhãn chính xác cho các lớp bình
thường khác nhau, việc này thường rất khó khăn.
- Tốn nhiều thời gian cho giai đoạn huấn luyện dữ liệu.
3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm
Kỹ thuật gom cụm dùng để nhóm các điểm dữ liệu tương đồng vào cùng một
nhóm. Kỹ thuật gom cụm thuộc phương pháp phát hiện bất thường không giám sát.
Dựa trên 3 giả thuyết khác nhau mà kỹ thuật gom cụm được [14] đề xuất chia
làm 3 nhóm:
- Nhóm thứ nhất dựa trên giả thuyết điểm dữ liệu bình thường thì thuộc về cùng
một cụm trong khi đó điểm dữ liệu bất thường khơng thuộc về một cụm nào. Nhược
điểm của kỹ thuật này là nó khơng được tối ưu để phát hiện bất thường do mục đích
chính của nó là phân cụm.
- Nhóm thứ hai dựa trên giả thuyết các điểm dữ liệu bình thường nằm gần trung
tâm cụm, trong khi đó các điểm bất thường nằm xa trung tâm cụm hơn. Khoảng cánh
đến điểm trung tâm cụm được dùng để đo độ bất thường cho từng điểm dữ liệu.
- Nhóm thứ ba dựa trên giả thuyết các điểm dữ liệu bình thường thuộc về các
cụm lớn và dày đặc, trong khi các điểm dữ liệu bất thường thuộc về các cụm nhỏ hoặc
cụm thưa thớt. Kỹ thuật này u cầu tính tốn mật độ và kích thước của các cụm. Một

điểm dữ liệu bất thường nếu mật độ và hoặc kích thước của cụm nó thuộc về dưới
một ngưỡng nào đó.
Ưu điểm:
- Do kỹ thuật này thuộc về phương pháp phát hiện bất thường khơng giám sát
do đó khơng cần gán nhãn dữ liệu.
- Giai đoạn phát hiện bất thường tốn ít thời gian hơn.
- Có thể áp dụng cho các kiểu dữ liệu phức tạp.
Nhược điểm:
- Hiệu năng phục thuộc nhiều vào hiệu quả của thuật toán gom cụm.
- Mục tiêu chính là gom cụm dữ liệu, do đó khơng tối ưu cho việc phát hiện bất
thường.
- Tiêu tốn nhiều chi phí tính tốn cho giai đoạn huấn luyện dữ liệu.
- Một số thuật toán gom cụm buộc mỗi điểm dữ liệu được gán cho một số cụm.
Điều này có thể dẫn đến điểm bất thường được gán cho một cụm lớn, do đó được coi
là trường hợp bình thường bởi các kỹ thuật hoạt động theo giả thuyết rằng bất thường
không thuộc về bất kỳ cụm nào.


9
3.1.3.3. Kỹ thuật phát hiện bất thường dựa trên thống kê
Kỹ thuật này dựa trên giả thuyết các điểm dữ liệu bình thường thuộc vùng có
xác suất cao của một mơ hình ngẫu nhiên, trong khi đó các điểm dữ liệu bất thường
thuộc các vùng xác suất thấp của một mơ hình ngẫu nhiên [14].
Kỹ thuật dựa trên thống kê có thể được chia thành hai loại: tham số và phi tham
số. Các kỹ thuật tham số giả định rằng các điểm dữ liệu bình thường được sinh ra từ
một phân phối với các tham số Θ và hàm mật độ xác suất f (x, Θ), trong đó x là một
quan sát. Nếu các tham số không được xác định, chúng được ước tính từ tập huấn
luyện. Điểm đo bất thường của một điểm dữ liệu x được cho bởi nghịch đảo của hàm
mật độ xác suất tại f(x, Θ). Kiểm tra giả thuyết thống kê cũng có thể được sử dụng để
phân loại các điểm dữ liệu.

Ưu điểm:
- Thuộc nhóm phương pháp phát hiện bất thường khơng giám sát, do đó khơng
cần gán nhãn dữ liệu.
- Nếu các giả thuyết liên quan đến việc phân phối dữ liệu cơ bản là đúng, các
kỹ thuật thống kê là một giải pháp hợp lý để phát hiện bất thường.
- Tốn ít thời gian cho giai đoạn huấn luyện và kiểm tra.
Nhược điểm:
- Điểm bất lợi chính của kỹ thuật thống kê là chúng dựa vào giả định rằng dữ
liệu được tạo ra từ một phân bố cụ thể. Giả định này thường không đúng, đặc biệt là
cho các tập dữ liệu thực tế có nhiều chiều.
- Khó xác định số liệu thống kê kiểm tra chính xác để sử dụng.
- Dựa trên giả định rằng dữ liệu đến từ phân phối thống kê giả định.
3.2. Phân tích dữ liệu chuỗi thời gian
3.2.1. Dữ liệu chuỗi thời gian
3.2.1.1. Định nghĩa
Theo [20] định nghĩa chuỗi thời gian là chuỗi các quan xác biến xt theo thời gian
hoặc theo trình tự thời gian t=0,1,2, ...
Ví dụ dữ liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian với giá trị sản lượng
điện năng tiêu thụ được ghi nhận với tần suất thời gian 30 phút/ lần.


10

Hình 2 Minh họa dữ liệu chuỗi thời gian
3.2.1.2. Chuỗi thời gian dừng
Theo [20], một dạng rất quan trọng của chuỗi thời gian là chuỗi thời gian dừng.
Một chuỗi thời gian được gọi là dừng chặt (strictly stationary) nếu các thuộc tính của
nó khơng thay đổi theo thời gian. Có nghĩa là phân bố xác suất chung của quan sát yt,
yt+1, …, yt+n bằng đúng với phân bố xác suất chung của quan sát yt+k, yt+k+1, …, yt+k+n
thì chuỗi thời gian được coi là dừng chặt.

Do đó các thơng số như trung bình và phương sai cũng khơng thay đổi theo thời
gian.


μy = E(y) = ∫−∞ yf(y)dy


(2.1)
2

σ2y = Var(y) = ∫−∞(y − μy ) f(y)dy

(2.2)

3.2.1.3. Xu hướng và mùa vụ
Thành phần xu hướng dùng để chi xu hướng tăng hay giảm của quan sát xt theo
thời gian, nó ảnh hưởng đến giá trị trung bình của chuỗi thời gian. Thành phần mùa
vụ mô tả hiệu ứng theo mùa trên chuỗi thời gian có thể liên quan đến chu kỳ ngày,
tuần, tháng v.v.
Theo [20], có thể dùng phương pháp “cổ điển” để phân rã các thành phần xu
hướng mà mùa vụ theo mơ hình tốn học sau:
yt = f(St , Tt , εt )

(2.3)

Với St là thành phần mùa vụ, Tt là thành phần xu hướng và εt là thành phần lỗi
ngẫu nhiên. Có 2 dạng của hàm f:
Dạng mơ hình cộng hưởng (addictive model)



11
yt = St + Tt + εt

(2.4)

Dạng mơ hình nhân (multiplicative model)
yt = St Tt εt

(2.5)

Mơ hình cộng hưởng thích hợp nếu độ lớn (biên độ) theo mùa không thay đổi
theo cấp độ của chuỗi, trong khi mơ hình nhân là thích hợp hơn nếu biên độ của biến
động theo mùa tăng hoặc giảm với mức trung bình của chuỗi thời gian.

Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R
3.2.2. Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian
Dự báo chuỗi thời gian là sử dụng mơ hình để tiên đoán giá trị tương lai dựa
trên những dữ liệu lịch sử.
3.2.2.1. ARIMA
Mơ hình ARIMA đã được giới thiệu bởi Box và Jenkins [21] và là một trong
những phương pháp dự báo dự báo phổ biến nhất. Mơ hình bao gồm ba quá trình: (1)
Quá trình tự hồi qui – Auto Regressive (AR); (2) Quá trình trung bình trượt – Moving
Average (MA); và cuối cùng là (3) Quá trình sai phân.
Quá trình tự hồi qui – Auto Regressive (AR) Trong mơ hình tự hội qui, phương
pháp dự báo bằng cách sử dụng kết hợp tuyến tính các giá trị trong q khứ, có nghĩa
là hồi qui với chính nó.
Một mơ hình tự hồi qui bậc p có thể được viết như sau:
yt = c + ϕ1 yt−1 + ϕ2 yt−2 + ⋯ + ϕp yt−p + εt

(2.6)



12
Trong đó: εt là nhiễu ngẫu nhiên thuần túy có giá trị trung bình bằng 0 và
phương sai khơng đổi σ2 (white noise), ϕ1, … , ϕp là các tham số. Khi thay đổi tham
số dẫn đến thay đổi mẫu của dữ liệu chuỗi thời gian. Thay đổi εt sẽ làm thay đổi tỷ lệ
của dữ liệu chuỗi thời gian. Giới hạn của của mơ hình tự hồi qui là áp dụng cho dữ
liệu có tính dừng.
Q trình trung bình trượt - Moving Average (MA)
Ta có mơ hình sau:
yt = c + εt + θ1 εt−1 + θ2 εt−2 + ⋯ + θq εt−q

(2.7)

Với c là hằng số, εt là số hạng nhiễu ngẫu nhiên thuần túy. Với biểu thức trên
ta có mơ hình trung bình trượt bậc p. Ở đây, y theo thời gian t bằng một hằng số cộng
với trung bình trượt của sai số hiện tại và quá khứ.
Q trình tự hồi qui và trung bình trượt (ARMA)
Mơ hình tự hồi qui và trung bình trượt bao gồm hai phần, phần tự hồi quy AR
và phần trung bình trượt MA. Mơ hình thường được coi là mơ hình ARMA(p,q) khi
p là bậc của phần tự hồi qui và q là bậc của phần trung bình trượt.
Mơ hình được biểu diễn theo công thức sau ARMA(p,q):
q

p

yt = c +  εt + ∑1 θi εt−i +   ∑1 ϕi yt−i

(2.8)


Quá trình trung bình trượt kết hợp tự hồi qui ARIMA
Mơ hình ARMA chỉ thích hợp đối với dữ liệu chuỗi thời gian có tính dừng. Do
đó, trước khi thực hiện mơ hình ARMA thì chúng ta phải biến đổi dữ liệu để dữ liệu
có tính dừng. Q trình này gọi là quá trình sai phân (differencing).
Khi chúng ta kết hợp sai phân với các mơ hình tự hồi qui và trung bình trượt ta
có q ARIMA, được biểu diễn như sau:
q

p

y′t = c +  εt + ∑1 θi εt−i +   ∑1 ϕi y′t−i

(2.9)

y′t là sai phân của chuỗi thời gian (có thể thực hiện sai phân nhiều lần để chuỗi
thời gian có tính dừng). Chúng ta gọi q trình này là ARIMA(p,d,q), với:
p = là bậc tự hồi qui
d = số bước sai phân
q = bậc của trung bình trượt
3.2.2.2. Holt Winters
Làm trơn hàm mũ (Exponential Smoothing)
Phương pháp dự báo dựa trên Exponential Smoothing dựa trên giả định rằng giá
trị được dự báo phụ thuộc và các giá trị của nó trong quá khứ. Phương pháp giản đơn
nhất giả định giá trị tương lai bằng đúng giá trị quá khứ liền kề trước nó với cơng
thức sau:
ŷT+h|T = yT

(2.10)



13
Một cách tiếp cận khác là sử dụng phương pháp trung bình với tất cả các dự
báo trong tương lai bằng với mức trung bình đơn giản của dữ liệu được quan sát
1

ŷT+h|T = ∑Tt=1 yt
T

(2.11)

Phương pháp trung bình giả định tất cả các quan sát có tầm quan trọng như
nhau và do đó có cùng một trọng số cho giá trị trong tương lai.
Tuy nhiên, các quan sát trong quá khứ có thể ảnh hưởng đến giá trị tương lai
theo một mức độ khác nhau và giá trị quan sát gần hơn có tầm quan trọng lớn hơn
các quan sát ở xa tương lai hơn. Có nghĩa là trọng số lớn nhất thuộc về về giá trị gần
tương lai nhất và trọng số bé nhất là quan sát xa tương lai nhất theo công thức sau:
ŷT+h|T = αyT + α(1 − α)yT−1 + α(1 − α)2 yT−2 +

(2.12)

Với α có giá trị từ 0 đến 1 là tham số làm trơn (smoothing) và cơng thức trên
có thể được viết dưới dạng sau:
ŷt+1 = α yt + α(1 − α)yt|t−1

(2.13)

Với t=1, …, T, đặt y1|0 = l0 ta có:
ŷt+1 = lt

(2.14.1)


lt = α yt + (1 − α)lt−1

(2.14.2)

Với lt là giá trị cấp độ (giá trị làm trơn) của dữ liệu chuỗi tại thời điểm t
Phương pháp Holt’s
Holt (1957) đã mở rộng phương pháp làm trơn hàm mũ giản đơn để có thể dự
báo được cho dữ liệu có tính chất xu hướng. Phương pháp này bổ sung thêm một
công thức làm mượt xu hướng, cụ thể như sau:
ŷt+h|t = lt + hbt

(2.15.1)

lt = α yt + (1 − α)(lt−1 + bt−1 )

(2.15.2)

bt = β(lt − lt−1 ) + (1 − β)bt−1

(2.15.3)

bt dự báo xu hướng tại thời điểm t với tham số β để xác định xu hướng, β có
giá trị từ 0 đến 1.
Phương pháp Holt-Winters
Holt và Winters đã mở rộng phương pháp dự báo của Holt để có thể dự báo
cho dữ liệu có tính chất mùa vụ [] được gọi là phương pháp Holt-Winters. Có hai biến
thể phổ biến của phương pháp Holt-Winters là additive và multiplicative được biểu
diễn như sau:
Phương pháp Holt-Winters additive



×