Tải bản đầy đủ (.doc) (72 trang)

luận văn thạc sĩ nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

Bùi Minh Thành

NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN CỰC
HIẾM BẰNG MÔ HÌNH AUTOENCODER VÀ ỨNG DỤNG VÀO
DỰ BÁO TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY

Chuyên ngành: Hệ thống thông tin
Mã số: 8480104

LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Anh

Hà Nội - 2020


2
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài: “Nghiên cứu phương pháp phát hiện sự kiện
cực hiếm bằng mô hình Autoencoder và ứng dụng vào dự báo trước sự cố
trong nhà máy giấy” là luận văn do bản thân tôi trực tiếp thực hiện. Tất cả
những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài luận đều được trích
dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố.
Tôi xin hoàn toàn chịu trách nhiệm trước pháp luật về những cam kết này.


Hà Nội, ngày 18 tháng 07 năm 2020
Tác giả luận văn

Bùi Minh Thành


3

LỜI CẢM ƠN
Trong quá trình học tập, nghiên cứu và hoàn thành luận văn này, tôi đã
nhận được rất nhiều sự động viên, khuyến khích và giúp đỡ nhiệt tình của các
Thầy Cô, anh chị em, bạn bè đồng nghiệp và gia đình.
Trước tiên tôi xin cảm ơn Ban giám hiệu, Phòng đào tạo cùng các thầy
cô trong Học viện Khoa học và Công nghệ Việt Nam đã giúp đỡ và tạo điều
kiện tốt cho tôi học tập trong thời gian qua.
Tôi cũng xin cảm ơn các thầy cô trong Viện Công nghệ thông tin thuộc
Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã đã truyền đạt cho tôi
những kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập, để
tôi có được nền tảng kiến thức hỗ trợ rất lớn cho tôi trong quá trình làm luận
văn thạc sĩ.
Tôi cũng muốn bày tỏ sự biết ơn sâu sắc đến Tiến sĩ Nguyễn Việt Anh
với tư cách là người trực tiếp hướng dẫn, tận tình chỉ bảo và giúp đỡ cho tôi
trong suốt quá trình thực hiện luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp
vì đã luôn hỗ trợ tôi và khuyến khích liên tục trong suốt những năm học tập
và qua quá trình nghiên cứu và viết luận văn này. Thành tựu này sẽ không thể
có được nếu không có họ.

Xin chân thành cảm ơn tất cả mọi người!



4

Danh mục các ký hiệu và chữ viết tắt
Từ viết tắt
ANN
MLP
LSTM
GRU
RNN
PCA
MNIST
NMT
RELU
AUC
ROC
mse

Nghĩa
Artificial neural networks (Mạng nơ-ron nhân tạo)
Multi-layer Perceptron (Mạng nơ-ron Perceptron đa
lớp)
Long short-term memory (Mạng nơ-ron bộ nhớ ngắn
hạn)
Gated Recurrent Units (Mạng nơ-ron đơn vị tái phát
có kiểm soát)
Recurrent Neural Network (Mạng nơ-ron hồi quy
hay mạng nơ-ron tái phát)
Principal Component Analysis (Phương pháp phân
tích thành phần chính)

Modified National Institute of Standards and
Technology (Bộ dữ liệu chữ số viết tay)
Neural Machine Translation (máy dịch nơ-ron)
Rectified Linear Unit
Area under the curve
Receiver operating characteristic curve
mean squared error (lỗi bình phương trung bình)


5

Danh mục các bảng
Bảng 3.1. Giá trị hàm mất mát mô hình MLP Autoencoder...........................48
Bảng 3.2. Tỉ lệ thu hồi MLP Autoencoder ở ngưỡng FPR = 4%....................49
Bảng 3.3. Giá trị hàm mất mát mô hình LSTM Autoencoder.........................62
Bảng 3.4. So sánh tỉ lệ thu hồi MLP và LSTM Autoencoder..........................63
Bảng 3.5. Tỉ lệ thu hồi LSTM Autoencoder ở ngưỡng FPR = 4%..................64


6

Danh mục các hình vẽ, đồ thị
Hình 2.1. Phương pháp nhân bản mẫu dương tính..........................................20
Hình 2.2. Phương pháp giảm số lượng mẫu âm tính.......................................21
Hình 2.3. Phương pháp tạo thêm mẫu dương tính bằng thuật toán.................22
Hình 2.4. Mô hình Autoencoder mã hóa tự động số 4....................................24
Hình 2.5. Kiến trúc mạng nơ-ron Autoencoder...............................................25
Hình 2.6. Kiến trúc mạng MLP Autoencoder.................................................27
Hình 2.7. Kiến trúc mạng LSTM Autoencoder...............................................28
Hình 2.8. Kiến trúc mạng Convolutional Autoencoder...................................29

Hình 2.9. Kết quả mã hóa bộ dữ liệu MNIST bằng PCA và Linear
Autoencoder....................................................................................................31
Hình 2.10. Hình ảnh được khôi phục sau khi nén bằng PCA và Autoencoder32
Hình 2.11. Mô hình đào tạo mạng Autoencoder để khử nhiễu hình ảnh.........33
Hình 2.12. Hình ảnh sử dụng Autoencoder để khử nhiễu...............................34
Hình 2.13. Dử dụng Autoencoder để tô màu hình ảnh....................................34
Hình 2.14. Tăng độ phân giải hình ảnh với Convolutional Autoencoder.......35
Hình 2.15. Mô hình MLP Autoencoder dự đoán sự kiện hiếm.......................36
Hình 2.16. Mô hình LSTM Encoder dự đoán sự kiện hiếm............................37
Hình 3.1. Hình ảnh về một dây chuyền sản xuất trong nhà máy giấy.............39
Hình 3.2. MLP Autoencoder 2 lớp ẩn ở khối mã hóa và giải mã....................41
Hình 3.3. Dữ liệu trước và sau khi dán nhãn lại.............................................43
Hình 3.4. Loại bỏ các trường không cần thiết.................................................43
Hình 3.5. Dữ liệu sau khi chuẩn hóa...............................................................45
Hình 3.6. Lập trình mạng nơ-ron MLP Autoencoder......................................46
Hình 3.7. Cấu trúc mô hình MLP Autoencoder..............................................46


7
Hình 3.8. Mô-đun huấn luyện mô hình MLP Autoencoder.............................47
Hình 3.9. Huấn luyện mô hình MLP Autoencoder..........................................47
Hình 3.10. Lịch sử huấn luyện mạng MLP Autoencoder................................48
Hình 3.11. Kết quả dự báo mô hình MLP Autoencoder..................................50
Hình 3.12. Biểu đồ ROC, AUC mô hình MLP Autoencoder..........................51
Hình 3.13. Phân bố lỗi theo chỉ mục của MLP Autoencoder..........................53
Hình 3.14. Bộ mã hóa tự động LSTM Autoencoder.......................................55
Hình 3.15. Dữ liệu trước và sau khi dán nhãn lại...........................................57
Hình 3.16. Dữ liệu đầu vào cho mô hình LSTM Autoencoder.......................58
Hình 3.17. Lập trình mạng nơ-ron LSTM Autoencoder.................................59
Hình 3.18. Cấu trúc mô hình LSTM Autoencoder..........................................60

Hình 3.19. Mô-đun huấn luyện mô hình LSTM Autoencoder........................60
Hình 3.20. Huấn luyện mô hình LSTM Autoencoder.....................................61
Hình 3.21. Lịch sử huấn luyện mạng LSTM Autoencoder.............................62
Hình 3.22. Biểu đồ ROC, AUC mô hình MLP Autoencoder..........................63
Hình 3.23. Kết quả dự báo mô hình LSTM Autoencoder...............................65
Hình 3.24. Phân bố lỗi theo chỉ mục của MLP Autoencoder..........................65

MỤC LỤC


8

LỜI CAM ĐOAN............................................................................................2
LỜI CẢM ƠN..................................................................................................3
Danh mục các ký hiệu và chữ viết tắt............................................................4
Danh mục các bảng.........................................................................................5
Danh mục các hình vẽ, đồ thị.........................................................................6
MỤC LỤC........................................................................................................8
MỞ ĐẦU........................................................................................................10
1. Lý do chọn đề tài...............................................................................10
2. Mục đích nghiên cứu........................................................................13
3. Nhiệm vụ nghiên cứu........................................................................13
4. Đối tượng và phạm vi nghiên cứu...................................................13
5. Phương pháp nghiên cứu.................................................................13
Chương 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM.........................................14
1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM....................................................14
1.1.1. Định nghĩa sự kiện hiếm.........................................................14
1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội...........................15
1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM..............................17
Chương 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM...................19

2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM..19
2.1.1. Nhân bản mẫu dương tính.....................................................19
2.1.2. Giảm số lượng mẫu âm tính...................................................20
2.1.3. Tạo thêm các mẫu dương tính bằng thuật toán...................21
2.1.4. Điều chỉnh trọng số học tập các mẫu....................................22
2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu............22


9
2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH
AUTOENCODER.....................................................................................24
2.2.1. Mô hình Autoencoder.............................................................24
2.2.2. Sử dụng Autoencoder phát hiện sự kiện hiếm......................36
Chương 3. ỨNG DỤNG MÔ HÌNH AUTOENCODER ĐỂ DỰ BÁO
TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY.............................................38
3.1. BÀI TOÁN DỰ BÁO SỰ CỐ TRONG NHÀ MÁY GIẤY..............38
3.1.1. Phát biểu bài toán...................................................................38
3.1.2. Bộ dữ liệu nhà máy giấy.........................................................39
3.1.3. Mục tiêu của bài toán.............................................................40
3.2. ỨNG DỤNG MÔ HÌNH MLP AUTOENCODER CHO BÀI
TOÁN…....................................................................................................41
3.2.1. Tiếp cận bài toán với mô hình MLP Autoencoder...............41
3.2.2. Xây dựng mô hình MLP Autoencoder cho bài toán............41
3.2.3. Các bước lập trình MLP Autoencoder cho bài toán............42
3.2.4. Kết quả thử nghiệm và đánh giá mô hình............................47
3.3. ỨNG DỤNG MÔ HÌNH LSTM AUTOENCODER CHO BÀI
TOÁN…....................................................................................................54
3.3.1. Tiếp cận bài toán với mô hình LSTM Autoencoder............54
3.3.2. Xây dựng mô hình LSTM Autoencoder cho bài toán..........55
3.3.3. Các bước lập trình LSTM Autoencoder cho bài toán.........56

3.3.4. Kết quả thử nghiệm và đánh giá mô hình............................61
Chương 4. KẾT LUẬN VÀ KIẾN NGHỊ....................................................67
4.1. KẾT LUẬN........................................................................................67
4.2. KIẾN NGHỊ.......................................................................................68
TÀI LIỆU THAM KHẢO............................................................................69


10
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay trong bối cảnh cuộc cách mạng công nghiệp 4.0 phát triển
như vũ bão, các doanh nghiệp ngày càng chú trọng đầu tư vào các hoạt động
nghiên cứu, phát triển và ứng dụng công nghệ thông tin vào quản lý sản xuất
kinh doanh. Ngay tại Việt Nam, gần 90% các doanh nghiệp đã và đang từng
bước ứng dụng Công nghệ thông tin vào quản lý doanh nghiệp nhằm nâng cao
hiệu quả hoạt động sản xuất kinh doanh để có thể bắt kịp với xu hướng toàn
cầu. Trong các lĩnh vực công nghệ thông tin áp dụng vào phục vụ sản xuất
kinh doanh, các nghiên cứu và ứng dụng để phân loại và dự báo là một trong
những hướng ứng dụng được sử dụng nhiều nhất và đem lại hiệu quả cao nhất
cho doanh nghiệp, tăng khả năng cạnh tranh của doanh nghiệp trong bối cảnh
hội nhập quốc tế sâu rộng.
Thông thường trong các lĩnh vực phân loại và dự báo, các nghiên cứu
thường hay sử dụng các bộ dữ liệu có số phần tử trong mỗi lớp tương đối cân
bằng nhau. Tuy nhiên trong thực tế, số trường hợp có số phần tử trong bộ dữ
liệu cân bằng nhau khá ít. Đa số các trường hợp bộ dữ liệu có số phần tử mỗi
lớp bất đối xứng, chênh lệch nhau rất nhiều lần. Trong các bài toán phân loại
2 lớp, thường thì các trường hợp của lớp cần dự đoán là những sự kiện xảy ra
với tần suất rất thấp. Tuy không thường xuyên xảy ra nhưng những sự kiện
này lại có tác động rất lớn và có thể làm mất ổn định cả hệ thống, gây ra nhiều
hậu quả nghiêm trọng, thiệt hại cả về kinh tế lẫn tính mạng con người. Các sự

kiện này được gọi chung là sự kiện hiếm [1]. Sự kiện hiếm có cả trong tự
nhiên [2] (như động đất, sóng thần, bão lũ, núi lửa …) và trong xã hội (như
chiến tranh, sự cố trong các nhà máy công nghiệp, sự sụp đổ thị trường tài
chính, sự cố hàng không …), thường gây ra thiệt hại và mất mát rất lớn.
Chính vì thế việc dự báo trước sự kiện hiếm [3] có ý nghĩa vô cùng to lớn,
không chỉ giúp con người giảm bớt được rất nhiều thiệt hại do các sự kiện gây
ra mà trong nhiều trường hợp con người có thể ngăn chặn để sự kiện không
xảy ra.
Do các sự kiện hiếm là các sự kiện rất ít khi xảy ra so với sự kiện bình


11
thường, nên bộ dữ liệu thu thập về sự kiện hiếm rất mất cân bằng. Một bộ dữ
liệu về sự kiện hiếm thường có số lượng dữ liệu dán nhãn dương tính chiếm
từ 5% đến 10% tổng số mẫu của dữ liệu. Không những vậy có nhiều sự kiện
cực kỳ hiếm khi xảy ra, khi đó bộ dữ liệu có số lượng nhãn dương tính chỉ
dưới 1%. Với những bộ dữ liệu quá mất cân bằng như vậy, các mô hình phân
lớp và dự báo bằng mạng nơ- ron nhân tạo (Artificial neural networks – ANN)
truyền thống [4], mô hình thường hoạt động rất tốt với các bộ dữ liệu cân
bằng, lại không hoạt động tốt trong việc phân loại và dự báo sự kiện cực hiếm
[5]. Chính vì vậy cần phải dùng các phương pháp, mô hình phân loại và dự
báo khác để giải quyết các trường hợp này. Một trong những phương pháp rất
hiệu quả đó là phương pháp phân loại 1 lớp bằng mô hình Autoencoder [6].
Autoencoder hay còn gọi là bộ mã hóa tự động là một mạng nơ-ron
nhân tạo có đầu ra của mạng giống hệt với đầu vào [7]. Bộ mã hóa tự động
này được sử dụng để tìm ra các đặc trưng nén dữ liệu hiệu quả nhất bằng
phương pháp học không giám sát. Mục đích của Autoencoder là tìm hiểu cách
biểu diễn (mã hóa) cho một bộ dữ liệu, thường để giảm kích thước dữ liệu đầu
vào [8], bằng cách đào tạo mạng bỏ qua tín hiệu nhiễu [9], chỉ giữ lại các đặc
tính quan trọng nhất [10] để khôi phục dữ liệu. Đồng thời, Autoencoder còn

có khối chức năng tái tạo lại dữ liệu từ những đặc trưng đã nén, đảm bảo dữ
liệu giải mã càng giống với đầu vào càng tốt. Chính vì thế chúng ta có thể đào
tạo Autoencoder khái quát hóa các đặc trưng quan trọng nhất của các sự kiện
bình thường. Sau quá trình huấn luyện, mô hình có khả năng tái tạo rất tốt với
các sự kiện bình thường, nhưng đối với các sự kiện hiếm, sự kiện bất thường
lại gây ra tỉ lệ lỗi rất cao. Vì thế những dữ liệu sau khi chạy qua bộ mã hóa tự
động Autoencoder có các đặc trưng khác hẳn đầu vào thì rất có khả năng là sự
kiện hiếm [11].
Bài luận văn này tập trung nghiên cứu, cải tiến và ứng dụng mô hình
Autoencoder để dự báo các sự kiện cực hiếm, tiếp theo sẽ áp dụng mô hình
vào dự đoán trước các sự cố trong dây chuyền sản xuất ở các nhà máy giấy
[12]. Để sản xuất ra những tấm giấy, các nhà máy giấy có một dây chuyền
gồm rất nhiều bộ phận hoạt động liên tục suốt ngày đêm. Tuy nhiên do đặc


12
điểm là các tấm giấy rất mỏng, dễ bị đứt, nên khi có một bộ phận nào đó của
dây chuyền trục trặc, sự đồng bộ giữa các bộ phận không còn trơn tru, các tấm
giấy lớn sẽ bị phá vỡ. Bất cứ khi nào xảy ra sự cố phá vỡ các tấm giấy, toàn
bộ dây chuyền sản xuất của nhà máy sẽ phải dừng lại để kiểm tra và khôi
phục. Thông thường phải mất hơn một giờ để máycó thể khôi phục hoạt động
trở lại bình thường. Trong khoảng thời gian chết này, nhà máy thiệt hại
khoảng 10 nghìn đô-la và các kỹ sư phải vào những khu vực nguy hiểm để
kiểm tra và khôi phục lại dây chuyền sản xuất. Trung bình sự cố xảy ra một
vài lần mỗi ngày, gây tổn thất cho doanh nghiệp hàng triệu đô-la mỗi năm,
kèm theo mối nguy hiểm, rủi ro cho sức khỏe của công nhân phục hồi hệ
thống. Chính vì thế ngay cả việc giảm được 5% số sự cố cũng mang lại lợi ích
đáng kể trong nhà máy cả về kinh tế lẫn sức khỏe nhân viên.
Để phục vụ việc dự báo trước sự cố phá vỡ các tấm giấy, doanh nghiệp
đã cho lắp đặt 60 cảm biến đặt ở các bộ phận khác nhau dọc theo dây chuyền.

Các cảm biến được lấy mẫu tự động định kỳ 2 phút/lần tạo ra các mẫu dữ liệu.
Khi nào có sự cố trong dây chuyền sản xuất, mẫu dữ liệu đầu tiên sau khi xảy
ra sự cố sẽ được đánh dấu dương tính và loại bỏ qua các mẫu thu thập được
trong khoảng thời gian nghỉ để khắc phục sự cố. Chính vì thế số lượng mẫu
dương tính trong bộ dữ liệu thu thập được từ các cảm biến chiếm tỉ lệ cực kỳ
thấp, chỉ khoảng 0.67% tổng số mẫu. Bài luận văn này nghiên cứu và xây
dựng mô hình bộ mã hóa tự động Autoencoder nhằm đạt được 2 mục tiêu
chính: dự đoán trước sự cố phá vỡ tấm giấy trong dây chuyền sản xuất của
nhà máy giấy và xác định các bộ phận có khả năng cao gây ra sự cố.
Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương
pháp phát hiện sự kiện cực hiếm bằng mô hình Autoencoder và ứng dụng vào
dự báo trước sự cố trong nhà máy giấy” làm luận văn tốt nghiệp thạc sĩ của
mình.


13

2. Mục đích nghiên cứu
Áp dụng một số mô hình bộ mã hóa tự động Autoencoder vào bài toán
dự báo sự kiện cực hiếm.
3. Nhiệm vụ nghiên cứu
Nội dung và nhiệm vụ chủ yếu là nghiên cứu các vấn đề liên quan đến
việc dự báo các sự kiện hiếm và sử dụng mô hình bộ mã hóa tự động
Autoencoder để dự báo các sự kiện cực hiếm, ứng dụng vào bài toán thực tế
dự đoán sự cố trong dây chuyền sản xuất của nhà máy giấy.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của đề tài luận văn này là một số mô
hình mạng nơ-ron nhân tạo, một số giải pháp xử lý bộ dữ liệu phân lớp sự
kiện hiếm nổi bật, mô hình bộ mã hóa tự động Autoencoder.
5. Phương pháp nghiên cứu

Phương pháp nghiên cứu được sử dụng xuyên suốt trong quá
trình thực hiện bài luận văn là phương pháp nghiên cứu lý thuyết và phương
pháp thực nghiệm.


14

CHƯƠNG 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM
Chương 1 bài luận văn giới thiệu tổng quan về khái niệm sự kiện hiếm,
các sự kiện hiếm trong tự nhiên và xã hội cùng tác động của nó đến cuộc sống
con người. Tiếp đó, chương này sẽ trình bày ý nghĩa và tầm quan trọng của
bài toán dự báo trước sự kiện hiếm và một số nghiên cứu khoa học nổi bật về
các sự kiện hiếm gặp trong thực tế.
1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM
1.1.1. Định nghĩa sự kiện hiếm
Các sự kiện hiếm là các sự kiện xuất hiện một cách riêng biệt, được
quan sát không thường xuyên xảy ra. Đây là các sự kiện xảy ra với tần suất rất
thấp và thường có tác động lan rộng và có thể làm mất ổn định toàn bộ hệ
thống, gây ra các hậu quả nghiêm trọng. Các phân tích và nghiên cứu khoa
học về các sự kiện hiếm thường tập trung vào các sự kiện gây ra tác động tiêu
cực đáng kể đến xã hội, thường là thiệt hại về mặt kinh tế hoặc ảnh hưởng tới
sức khỏe và tính mạng con người.
Thông thường, dựa vào tần suất xảy ra của sự kiện, chúng ta phân loại
các sự kiện hiếm thành 3 loại: sự kiện hiếm, sự kiện rất hiếm và sự kiện cực
hiếm.
 Sự kiện hiếm (tương đối hiếm): Số mẫu dương tính có tần suất xuất
hiện từ 5-10% tổng số mẫu.
 Sự kiện rất hiếm: Số mẫu dương tính có tần suất xuất hiện từ 1-5%
tổng số mẫu.
 Sự kiện cực hiếm: Số mẫu dương tính có tần suất xuất hiện từ nhỏ hơn

1% tổng số mẫu.
Đối với các sự kiện tương đối hiếm, các mô hình và phương pháp phân
loại và dự báo truyền thống thông qua quá trình xử lý mẫu vẫn cho một độ
chính xác tương đối, còn với các sự kiện rất hiếm hay cực hiếm các mô hình
mạng nơ-ron truyền thống hầu như rất khó học được từ các mẫu dương tính
trong quá trình đào tạo. Chính vì thế đối với các sự kiện cực hiếm này chúng
ta cần xây dựng một mô hình khác hợp lý hơn để dự báo.


15
1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội
Trong đời sống, chúng ta chứng kiến rất nhiều sự kiện hiếm xảy ra cả
trong tự nhiên và xã hội. Trong các hiện tượng tự nhiên, điển hình nhất cho
các sự kiện hiếm được nhiều nhà nghiên cứu quan tâm là các hiện tượng thiên
tai như: động đất, sóng thần, bão lũ, núi lửa, đại dịch, sét đánh... Đây là những
sự kiện rất ít khi xảy ra, có khi hàng chục năm mới lại có một lần. Tuy nhiên
một khi những sự kiện này xuất hiện thì thường gây ra thiệt hại về kinh tế vô
cùng to lớn và có thể gây nên mất mát to lớn về con người nếu chúng không
được cảnh báo kịp thời. Sức tàn phá khủng khiếp của các sự kiện thiên tai này
trong một số năm gần đây được thể hiện qua những thống kê dưới đây:
 Năm 2008, một trận động đất mạnh 8.0 độ richter ở Tứ Xuyên, Trung
Quốc đã làm gần 380.000 người chết, hàng triệu người mất việc làm,
thiệt hại kinh tế trực tiếp hơn 3 tỷ đô-la và kéo theo mất mát hàng chục tỉ
đô-la các năm sau đó để hồi phục.
 Năm 2011, trận động đất 9.0 độ richter ở ngoài khơi Nhật Bản đã gây ra
sóng thần dọc bờ biển Thái Bình Dương, ảnh hưởng trực tiếp tới hơn 20
quốc gia. Đồng thời trận động đất sóng thần này gây ra sự cố rò rỉ phóng
xạ ở nhà máy điện hạt nhân tại Fukushima, Nhật Bản. Cuộc khủng hoảng
kép này đã làm hơn 15.000 người chết, 125.000 căn nhà bị phá hủy, chất
phóng xạ rò rỉ ra một khu vực rộng lớn, ảnh hưởng kinh tế ước tính lên

tới hàng trăm tỉ đô-la.
 Hàng năm, trên vành đai lửa Thái Bình Dương xảy ra hàng chục vụ phun
trào núi lửa, trong đó có nhiều vụ rất nghiêm trọng gây ra cái chết hàng
chục nghìn người do không được kịp thời dự báo trước để di tản cư dân
trong khu vực.
 Dịch bệnh Covid-19 ảnh hưởng tới tất cả các quốc gia trên thế giới, hàng
triệu người nhiễm bệnh, hàng trăm nghìn người chết, nền kinh tế của tất
cả các nước đều sụt giảm nghiêm trọng, ước tính thiệt hại kinh tế trên
toàn thế giới lên tới hàng chục nghìn tỷ đô-la.
Bên cạnh những hiện tượng hiếm gây nhiều thiệt hại về người và của,
trong tự nhiên cũng có nhiều sự kiện hiếm ít gây ra tổn thất hơn nhưng cũng


16
được nhiều nhà khoa học quan tâm nghiên cứu, điển hình như các hiện tượng
thiên văn học: nhật thực, nguyệt thực, sự sáp nhập các sao, hố đen…
Trong xã hội cũng có rất nhiều sự kiện hiếm khi xuất hiện nhưng một
khi xảy ra cũng gây ra những thiệt hại rất to lớn về kinh tế như chiến tranh, sự
sụp đổ thị trường tài chính, sự cố hàng không, nổ nhà máy hạt nhân …
Thường các sự kiện này rất hiếm khi xảy ra, có thể hàng thập kỷ mới lại xuất
hiện, tuy nhiên khi xảy ra cũng gây rất nhiều thiệt hại, cả về con người lẫn vật
chất. Một số sự kiện hiếm trong xã hội gây ra rất nhiều mất mát có thể kể đến
như:
 Chiến tranh thế giới thứ 2 (1937-1945) gây ra cái chết hơn 61 triệu
người, thiệt hại kinh tế hàng nghìn tỉ đô-la.
 Thảm họa hạt nhân Chernobyl năm 1986 gây ra cái chết 31 người trực
tiếp, sơ tán hơn 330.000 người, ước tính hàng chục ngàn người chết do
ảnh hưởng phóng xạ các năm sau đó.
 2 vụ rơi máy bay Boeing 737-Max 8 năm 2018-2019 do lỗi thiết kế đã
gây ra cái chết toàn bộ hành khách và phi hành đoàn, mất nhiều tháng

mới tìm được nguyên nhân lỗi. Boeing thiệt hại hàng chục đến hàng trăm
tỉ đô-la.
 Sự sụp đổ thị trường chứng khoán phố Wall 1929 bắt đầu cho cuộc đại
khủng hoảng kinh tế kéo dài 12 năm, kéo theo hàng chục triệu người thất
nghiệp, vô số doanh nghiệp phá sản.
Đối với phạm vi một doanh nghiệp, chúng ta cũng thấy rất nhiều sự
kiện hiếm, thường là các sự cố xảy ra trong cơ quan, nhà máy, đặc biệt rất
nhiều trong các dây chuyền sản xuất công nghiệp. Các sự cố này có thể gây
ngừng hoạt động của cả nhà máy trong thời gian dài, ảnh hưởng rất lớn tới
sức khỏe, tính mạng và kinh tế của doanh nghiệp.


17

1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM
Do các sự kiện hiếm cả trong tự nhiên lẫn xã hội thường gây ra thiệt hại
và mất mát về vật chất và sinh mạng vô cùng to lớn nên việc dự báo trước sự
kiện hiếm [13] có ý nghĩa rất to lớn. Nếu có thể dự báo trước các sự kiện bất
thường không mong muốn này, con người sẽ có thời gian để chuẩn bị ứng
phó, từ đó giảm bớt được rất nhiều thiệt hại về kinh tế cũng như sức khỏe,
tính mạng mọi người.
Đối với các bộ dữ liệu cân bằng về số lượng mẫu trong mỗi lớp, một
trong những phương pháp phân lớp và dự báo thành công và hiệu quả nhất là
sử dụng các mô hình mạng nơ-ron nhân tạo (Artificial neural networks ANN), đặc biệt là các mạng học sâu. Tuy nhiên khi áp dụng các mô hình dự
báo truyền thống này vào bộ dữ liệu về sự kiện hiếm, hầu hết các mô hình này
lại gặp rất nhiều khó khăn và trở nên rất không chính xác. Nguyên nhân chính
của việc này được chỉ ra là do tần suất xảy ra vô cùng thấp của sự kiện hiếm
dẫn đến số lượng mẫu có nhãn dương tính cũng vô cùng ít ỏi so với số mẫu
dán nhãn âm tính. Chính vì sự mất cân bằng này quá lớn, trong quá trình huấn
luyện mạng, các mô hình dự báo thường rất dễ dàng học tập từ các mẫu âm

tính và bỏ qua không học các mẫu dương tính, dẫn tới việc dự báo của mô
hình không hiệu quả.
Chính vì thế để dự báo trước sự kiện hiếm, đặc biệt là các sự kiện cực
hiếm (có xác suất dưới 1%) các nhà nghiên cứu khoa học đã nghiên cứu và đề
xuất ra nhiều thuật toán và phương pháp xử lý đặc thù. Một số nghiên cứu về
bài toán về sự kiện hiếm cả trong tự nhiên và xã hội nổi bật được nêu ra dưới
đây:
Trong cuốn sách “Modelling extremal events: For insurance and
finance” [14] nhóm tác giả Embrechts P. đã nghiên cứu và mô hình hóa các sự
kiện hiếm, sự kiện cực đoan trong với ngành bảo hiểm và tài chính.
Trong bài báo khoa học “Extreme events: Dynamics, statistics and
prediction.” [15] nhóm tác giả Ghil M. đã phân tích, thống kê và dự đoán các
sự kiện cực đoan, tập trung nghiên cứu và áp dụng vào dự đoán các chấn động


18
địa lý.
Trong cuốn sách “Extreme events and natural hazards: The complexity
perspective.” [2] nhóm tác giả Sharma S. đã phân tích nguyên nhân các khó
khăn, phức tạp và đề ra một số phương pháp giải quyết khi nghiên cứu các sự
kiện cực hiếm trong tự nhiên gây nguy hiểm cho con người.
Ngoài ra còn có rất nhiều tác giả với nhiều bài báo khoa học nghiên cứu
về các sự kiện cực hiếm khác. Mục 2.1 bài luận văn sẽ trình bày cụ thể nội
dung các phương pháp chính đã và đang được nghiên cứu trên thế giới để dự
báo các sự kiện hiếm.


19

CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM

Chương 2 bài luận văn sẽ đi sâu nghiên cứu và trình bày về một số
phương pháp đã và đang được sử dụng để giải quyết các bài toán dự báo sự
kiện hiếm trong các bài nghiên cứu trên thế giới. Tiếp theo đó trong mục 2.2,
bài luận văn sẽ trình bày về mô hình bộ mã hóa tự động Autoencoder, một mô
hình vô cùng hiệu quả đã được ứng dụng vào rất nhiều lĩnh vực công nghệ
thông tin khác nhau và phương pháp ứng dụng mô hình Autoencoder để phát
hiện và dự báo trước các sự kiện cực hiếm.
2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM
Trong mục 1.2, nguyên nhân chính gây khó khăn cho việc dự đoán sự
kiện hiếm trong các mô hình ANN được chỉ ra là do sự mất cân bằng giữa số
lượng mẫu mỗi lớp: tỉ lệ mẫu dương tính rất nhỏ so với số mẫu âm tính.
Chính vì thế các nhà nghiên cứu khoa học đã đề xuất ra các phương pháp
nhằm cân bằng lại số lượng các mẫu dương tính và mẫu âm tính. Các kết quả
thực nghiệm đã chứng minh các giải pháp này đã cải thiện đáng kể tính hiệu
quả của các mô hình dự báo sự kiện hiếm. Các phương pháp cân bằng số
lượng mẫu mỗi lớp nổi bật nhất sẽ được trình bày chi tiết dưới đây.
2.1.1. Nhân bản mẫu dương tính
Nhân bản mẫu dương tính là phương pháp tăng số lượng mẫu dương
tính bằng cách lặp lại các mẫu dương tính nhiều lần (hình 2.1) nhằm giảm bớt
sự chênh lệch giữa số lượng mẫu dương tính và âm tính.
Đây là giải pháp đơn giản nhất giúp tăng tỉ lệ nhãn dương tính và
không tốn nhiều chi phí tính toán. Tuy nhiên nhược điểm của phương pháp
này là do các mẫu dương tính chỉ đơn thuần nhân bản lên không có bất kỳ sự
thay đổi nào nên nếu số mẫu dương tính quá nhỏ, mô hình đào tạo được
khuyến khích học vẹt các mẫu dương tính, giảm bớt sự khái quát hóa các đặc
điểm. Chính vì vậy phương pháp nhân bản nhãn dương tính có giới hạn số lần
lặp. Nếu số lượng mẫu dương tính quá nhỏ, chúng ta lặp lại hàng chục lần rất
dễ gây ra hiện tượng overfit trong quá trình huấn luyện.



20

Hình 2.1.1.a.1.1. Phương pháp nhân bản mẫu dương tính
2.1.2. Giảm số lượng mẫu âm tính
Giảm số lượng mẫu âm tính là phương pháp loại bỏ ngẫu nhiên hoặc có
chọn lọc các mẫu âm tính (hình 2.2) nhằm mục đích giảm tỉ lệ chênh lệch
giữa số lượng mẫu dương tính và âm tính.
Thông thường bước đầu tiên chúng ta cố gắng giảm các nhiễu ở mẫu
âm tính. Điều này rất tốt cho quá trình đào tạo giúp mạng nơ-ron học tập tốt
hơn. Tuy nhiên thường tỉ lệ nhiễu không quá nhiều nên sau đó để giảm số
lượng mẫu âm tính cần sử dụng các phương pháp chọn mẫu (subsampling)
ngẫu nhiên hoặc có chọn lọc bằng thuật toán chọn mẫu.
Nhưng phương pháp giảm số lượng mẫu âm tím cũng có nhược điểm là
nếu chúng ta giảm số lượng mẫu âm tính quá nhiều lần, chúng ta mất đi các
giá trị đa dạng chứa trong các mẫu bị loại bỏ, mạng được đào tạo sẽ giảm dần
sự chính xác. Vì thế khi sử dụng phương pháp này chúng ta cần lựa chọn
thuật toán và tỉ lệ chọn mẫu phù hợp.


21

Hình 2.1.2.a.1.1. Phương pháp giảm số lượng mẫu âm tính
2.1.3. Tạo thêm các mẫu dương tính bằng thuật toán
Tạo thêm các mẫu dương tính bằng thuật toán là 1 phương pháp rất
hiệu quả nhằm tăng số lượng mẫu dương tính, giảm tỉ lệ chênh lệch giữa số
lượng mẫu dương tính và âm tính.
Không giống với việc lặp lại chính các nhãn dương tính của phương
pháp nhân bản, phương pháp này sử dụng thuật toán để tạo ra các mẫu dương
tính mới (hình 2.3) dựa vào nền tảng các mẫu dương tính đã biết. Việc tạo ra
các mẫu dương tính hoàn toàn mới chưa gặp bao giờ không chỉ có tác dụng

giảm sự chênh lệch giữa số lượng mẫu dương tính và âm tính mà còn có tác
dụng tăng độ hiệu quả và độ mượt của mô hình đào tạo, giảm thiểu hiện tượng
overfit của mô hình.
Thuật toán này có điểm yếu là độ hiệu quả phụ thuộc nhiều vào việc
chúng ta lựa chọn thuật toán và tham số để sinh mẫu có phù hợp với bộ dữ
liệu không. Nếu các mẫu sinh ra được dán nhãn không chính xác dẫn đến việc
mô hình học sai ngay từ lúc ban đầu, không còn chính xác được nữa. Tùy vào
bài toán mà chúng ta lựa chọn thuật toán và tỉ lệ sinh mẫu cho phù hợp. Một
số thuật toán sinh mẫu rất hiệu quả thường được sử dụng nhiều nhất là: smote
[16], rose [17], …


22

Hình 2.1.3.a.1.1. Phương pháp tạo thêm mẫu dương tính bằng thuật toán
2.1.4. Điều chỉnh trọng số học tập các mẫu
Điều chỉnh trọng số học tập các mẫu là phương pháp tăng trọng số học
tập của các mẫu dương tính lớn hơn nhiều lần các mẫu âm tính nhằm mục
đích giúp các mô hình tập trung học tập các mẫu dương tính hơn âm tính. Đây
không phải phương pháp nhằm cân bằng số lượng mẫu mỗi lớp nhưng cũng
tương tự như phương pháp nhân bản mẫu dương tính, phương pháp này giúp
mô hình tập trung học tập các mẫu dương tính hơn, từ đó tránh được việc mô
hình dễ bỏ qua các mẫu dương tính trong quá trình huấn luyện.
Tuy nhiên phương pháp này cũng có nhược điểm như phương pháp
nhân bản mẫu dương tính. Đồng thời trong phương pháp này có thêm nhược
điểm: nếu đẩy trọng số học tập mẫu dương tính lên quá cao thì mô hình có thể
không bao giờ hội tụ, đẩy trọng số học tập mẫu âm tính quá thấp lại tốn rất
nhiều thời gian cho việc huấn luyện. Vì vậy tỉ lệ điều chỉnh trọng số cũng có
giới hạn, ta không thể tăng trọng số mẫu dương tính lên hàng chục lần so với
mẫu âm tính.

2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu
Theo các phân tích ở trên, mỗi phương pháp cân bằng số lượng mẫu có
ưu khuyết điểm khác nhau nhưng nhìn chung đều có khả năng tăng hiệu quả
cho các mô hình mạng nơ-ron trong việc dự đoán sự kiện hiếm nhưng đều có
giới hạn, không thể tăng quá nhiều lần. Trong thực tế thông thường chúng ta


23
không nên chỉ sử dụng một phương pháp cân bằng số lượng mẫu mỗi lớp một
cách riêng lẻ mà cần sử dụng kết hợp các phương pháp lại. Điều này sẽ đem
lại độ hiệu quả cao hơn nhiều, khắc phục bớt khuyết điểm của mỗi phương
pháp riêng rẽ.
Bên cạnh đó, do một tỉ lệ lớn các bài toán sự kiện hiếm là các sự kiện
diễn ra theo thứ tự thời gian được lấy mẫu định kỳ. Chính vì vậy việc sử dụng
các mô hình dự báo cho chuỗi thời gian đa biến, như mô hình mạng nơ-ron bộ
nhớ ngắn hạn LSTM(Long short-term memory) hay mạng nơ-ron đơn vị hồi
quy có kiểm soát (Gated Recurrent Units - GRU), kết hợp với các phương
pháp cân bằng số mẫu thường cải thiện độ hiệu quả cho mô hình.
Việc sử dụng các phương pháp cân bằng số mẫu tương đối hiệu quả khi
dự báo các sự kiện hiếm (số mẫu dương tính chiếm 5-10%) và một số sự kiện
rất hiếm (số mẫu dương tính chiếm 1-5%). Tuy nhiên đối với các sự kiện cực
hiếm (số mẫu dương tính nhỏ hơn 1%) thì việc sử dụng kết hợp tất cả các giải
pháp trên cũng không thực sự hiệu quả rõ ràng. Chính vì thế cần sử dụng mô
hình đặc biệt khác để dự báo sự kiện hiếm: Mô hình bộ mã hóa tự động
Autoencoder.


24

2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH

AUTOENCODER
2.2.1. Mô hình Autoencoder
2.2.1.a.1. Định nghĩa mô hình Autoencoder
Autoencoder hay còn gọi là bộ mã hóa tự động không phải là một mô
hình mạng nơ-ron có cấu trúc cụ thể mà là một khái niệm chỉ các mô hình
mạng nơ-ron nhân tạo phân loại 1 lớp, có đầu ra giống với đầu vào. Mô hình
này được sử dụng để tìm ra các đặc trưng nén hiệu quả nhất của bộ dữ liệu
bằng phương pháp học không giám sát.
Autoencoder thường có 3 thành phần chính là khối mã hóa, mã và khối
giải mã (như hình 2.4). Mục đích của khối mã hóa của Autoencoder là tìm
cách biểu diễn (mã hóa) cho bất kỳ dữ liệu đầu vào nào thành mã. Đồng thời,
khối giải mã của Autoencoder có chức năng cố gắng tái tạo lại dữ liệu [18]
ban đầu từ dữ liệu đã mã hóa sao cho dữ liệu giải mã càng giống với đầu vào
càng tốt. Do bộ mã hóa tự động có đầu vào tương tự đầu ra nên không cần
phải mất thời gian và công sức để dán nhãn dữ liệu như các mô hình khác, vì
thế có thể đào tạo mô hình bằng phương pháp học không giám sát.

Hình 2.2.1.a.1.1. Mô hình Autoencoder mã hóa tự động số 4
Mô hình Autoencoder không quy định kích thước mã phải nhỏ hơn hay
lớn hơn kích thước đầu vào. Tuy nhiên sử dụng trong thực tế đại đa số các
mạng Autoencoder đều hướng tới việc đặt kích thước mã nhỏ hơn kích thước
đầu vào nhiều lần. Việc thiết lập kích thước mã nhỏ sẽ có tác dụng khuyến
khích mô hình mạng bỏ qua tín hiệu nhiễu, chỉ giữ lại những đặc trưng quan


25
trọng nhất của dữ liệu đầu vào. Đồng thời giảm kích thước cũng rất thuận lợi
cho việc lưu trữ mã trong các ứng dụng cần nén dữ liệu có mất mát. Sử dụng
mã làm đầu vào cho các mô hình huấn luyện khác giúp làm tăng tốc độ hội tụ
và khả năng khái quát của mạng, giúp cải thiện độ chính xác so với dữ liệu

gốc làm đầu vào, đặc biệt hiệu quả với những bài toán bộ dữ liệu đầu vào là
đa biến và mật độ dữ liệu mỗi biến thưa thớt.
Chính vì vậy khi nhắc đến Autoencoder mặc định là ám chỉ các bộ mã
hóa tự động có kích thước mã nhỏ hơn nhiều so với kích thước đầu vào. Điều
này tạo ra một nút thắt cổ chai (bottleneck) cho toàn bộ mạng nơ-ron ở vị trí
mã.

Hình 2.2.1.a.1.2. Kiến trúc mạng nơ-ron Autoencoder
2.2.1.a.2. Kiến trúc mạng nơ-ron Autoencoder
Như thể hiện trên hình 2.5, kiến trúc một bộ mã hóa tự động
Autoencoder bao gồm 3 thành phần chính:
 Khối mã hóa (encoder): Khối mã hóa sẽ nhận đầu vào là vec-tơ biểu
diễn dữ liệu n chiều, đầu ra là vec-tơ mã hóa trong không gian ẩn m
chiều. Thông thường khi nhắc đến Autoencoder nếu không nhắc tới cụ
thể kích thước khối mã thì ngầm hiểu m < n. Do đó đây cũng là một
phương pháp để giảm số chiều của dữ liệu vào.


×