BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bùi Minh Thành
NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN CỰC
HIẾM BẰNG MƠ HÌNH AUTOENCODER VÀ ỨNG DỤNG VÀO
DỰ BÁO TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY
Chuyên ngành: Hệ thống thơng tin
Mã số: 8480104
LUẬN VĂN THẠC SĨ: CƠNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Anh
Hà Nội - 2020
2
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài: “Nghiên cứu phương pháp phát hiện sự kiện
cực hiếm bằng mơ hình Autoencoder và ứng dụng vào dự báo trước sự cố trong
nhà máy giấy” là luận văn do bản thân tôi trực tiếp thực hiện. Tất cả những sự
giúp đỡ cho việc xây dựng cơ sở lý luận cho bài luận đều được trích dẫn đầy
đủ và ghi rõ nguồn gốc rõ ràng và được phép cơng bố.
Tơi xin hồn tồn chịu trách nhiệm trước pháp luật về những cam kết này.
Hà Nội, ngày 18 tháng 07 năm 2020
Tác giả luận văn
Bùi Minh Thành
3
LỜI CẢM ƠN
Trong quá trình học tập, nghiên cứu và hồn thành luận văn này, tơi đã
nhận được rất nhiều sự động viên, khuyến khích và giúp đỡ nhiệt tình của các
Thầy Cô, anh chị em, bạn bè đồng nghiệp và gia đình.
Trước tiên tơi xin cảm ơn Ban giám hiệu, Phịng đào tạo cùng các thầy
cơ trong Học viện Khoa học và Công nghệ Việt Nam đã giúp đỡ và tạo điều
kiện tốt cho tôi học tập trong thời gian qua.
Tôi cũng xin cảm ơn các thầy cô trong Viện Công nghệ thông tin thuộc
Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã đã truyền đạt cho tôi những
kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập, để tơi có
được nền tảng kiến thức hỗ trợ rất lớn cho tơi trong q trình làm luận văn thạc
sĩ.
Tôi cũng muốn bày tỏ sự biết ơn sâu sắc đến Tiến sĩ Nguyễn Việt Anh
với tư cách là người trực tiếp hướng dẫn, tận tình chỉ bảo và giúp đỡ cho tơi
trong suốt q trình thực hiện luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp vì
đã ln hỗ trợ tơi và khuyến khích liên tục trong suốt những năm học tập và
qua quá trình nghiên cứu và viết luận văn này. Thành tựu này sẽ không thể có
được nếu khơng có họ.
Xin chân thành cảm ơn tất cả mọi người!
4
Danh mục các ký hiệu và chữ viết tắt
Từ viết tắt
Nghĩa
ANN
Artificial neural networks (Mạng nơ-ron nhân tạo)
MLP
Multi-layer Perceptron (Mạng nơ-ron Perceptron đa
lớp)
LSTM
Long short-term memory (Mạng nơ-ron bộ nhớ ngắn
hạn)
GRU
Gated Recurrent Units (Mạng nơ-ron đơn vị tái phát
có kiểm sốt)
RNN
Recurrent Neural Network (Mạng nơ-ron hồi quy hay
mạng nơ-ron tái phát)
PCA
Principal Component Analysis (Phương pháp phân
tích thành phần chính)
MNIST
Modified National Institute of Standards and
Technology (Bộ dữ liệu chữ số viết tay)
NMT
Neural Machine Translation (máy dịch nơ-ron)
RELU
Rectified Linear Unit
AUC
Area under the curve
ROC
Receiver operating characteristic curve
mse
mean squared error (lỗi bình phương trung bình)
5
Danh mục các bảng
Bảng 3.1. Giá trị hàm mất mát mơ hình MLP Autoencoder ........................... 48
Bảng 3.2. Tỉ lệ thu hồi MLP Autoencoder ở ngưỡng FPR = 4% ................... 49
Bảng 3.3. Giá trị hàm mất mát mơ hình LSTM Autoencoder ........................ 62
Bảng 3.4. So sánh tỉ lệ thu hồi MLP và LSTM Autoencoder ......................... 63
Bảng 3.5. Tỉ lệ thu hồi LSTM Autoencoder ở ngưỡng FPR = 4% ................. 64
6
Danh mục các hình vẽ, đồ thị
Hình 2.1. Phương pháp nhân bản mẫu dương tính ......................................... 20
Hình 2.2. Phương pháp giảm số lượng mẫu âm tính ...................................... 21
Hình 2.3. Phương pháp tạo thêm mẫu dương tính bằng thuật tốn ................ 22
Hình 2.4. Mơ hình Autoencoder mã hóa tự động số 4 .................................... 24
Hình 2.5. Kiến trúc mạng nơ-ron Autoencoder .............................................. 25
Hình 2.6. Kiến trúc mạng MLP Autoencoder ................................................. 27
Hình 2.7. Kiến trúc mạng LSTM Autoencoder .............................................. 28
Hình 2.8. Kiến trúc mạng Convolutional Autoencoder .................................. 29
Hình 2.9. Kết quả mã hóa bộ dữ liệu MNIST bằng PCA và Linear Autoencoder
......................................................................................................................... 31
Hình 2.10. Hình ảnh được khơi phục sau khi nén bằng PCA và Autoencoder
......................................................................................................................... 32
Hình 2.11. Mơ hình đào tạo mạng Autoencoder để khử nhiễu hình ảnh ........ 33
Hình 2.12. Hình ảnh sử dụng Autoencoder để khử nhiễu .............................. 34
Hình 2.13. Dử dụng Autoencoder để tơ màu hình ảnh ................................... 34
Hình 2.14. Tăng độ phân giải hình ảnh với Convolutional Autoencoder ....... 35
Hình 2.15. Mơ hình MLP Autoencoder dự đốn sự kiện hiếm ...................... 36
Hình 2.16. Mơ hình LSTM Encoder dự đốn sự kiện hiếm ........................... 37
Hình 3.1. Hình ảnh về một dây chuyền sản xuất trong nhà máy giấy ............ 39
Hình 3.2. MLP Autoencoder 2 lớp ẩn ở khối mã hóa và giải mã ................... 41
Hình 3.3. Dữ liệu trước và sau khi dán nhãn lại ............................................. 43
Hình 3.4. Loại bỏ các trường khơng cần thiết................................................. 43
Hình 3.5. Dữ liệu sau khi chuẩn hóa ............................................................... 45
Hình 3.6. Lập trình mạng nơ-ron MLP Autoencoder ..................................... 46
7
Hình 3.7. Cấu trúc mơ hình MLP Autoencoder .............................................. 46
Hình 3.8. Mơ-đun huấn luyện mơ hình MLP Autoencoder ............................ 47
Hình 3.9. Huấn luyện mơ hình MLP Autoencoder ......................................... 47
Hình 3.10. Lịch sử huấn luyện mạng MLP Autoencoder ............................... 48
Hình 3.11. Kết quả dự báo mơ hình MLP Autoencoder ................................. 50
Hình 3.12. Biểu đồ ROC, AUC mơ hình MLP Autoencoder ......................... 51
Hình 3.13. Phân bố lỗi theo chỉ mục của MLP Autoencoder ......................... 53
Hình 3.14. Bộ mã hóa tự động LSTM Autoencoder....................................... 55
Hình 3.15. Dữ liệu trước và sau khi dán nhãn lại ........................................... 57
Hình 3.16. Dữ liệu đầu vào cho mơ hình LSTM Autoencoder ...................... 58
Hình 3.17. Lập trình mạng nơ-ron LSTM Autoencoder ................................. 59
Hình 3.18. Cấu trúc mơ hình LSTM Autoencoder ......................................... 60
Hình 3.19. Mơ-đun huấn luyện mơ hình LSTM Autoencoder ....................... 60
Hình 3.20. Huấn luyện mơ hình LSTM Autoencoder .................................... 61
Hình 3.21. Lịch sử huấn luyện mạng LSTM Autoencoder............................. 62
Hình 3.22. Biểu đồ ROC, AUC mơ hình MLP Autoencoder ......................... 63
Hình 3.23. Kết quả dự báo mơ hình LSTM Autoencoder .............................. 65
Hình 3.24. Phân bố lỗi theo chỉ mục của MLP Autoencoder ......................... 65
8
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................ 2
LỜI CẢM ƠN .................................................................................................. 3
Danh mục các ký hiệu và chữ viết tắt............................................................ 4
Danh mục các bảng ......................................................................................... 5
Danh mục các hình vẽ, đồ thị ......................................................................... 6
MỤC LỤC ........................................................................................................ 8
MỞ ĐẦU ........................................................................................................ 10
1. Lý do chọn đề tài............................................................................... 10
2. Mục đích nghiên cứu ........................................................................ 13
3. Nhiệm vụ nghiên cứu........................................................................ 13
4. Đối tượng và phạm vi nghiên cứu ................................................... 13
5. Phương pháp nghiên cứu ................................................................. 13
Chương 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM ......................................... 14
1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM .................................................... 14
1.1.1. Định nghĩa sự kiện hiếm......................................................... 14
1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội ........................... 15
1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM ............................. 17
Chương 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM................... 19
2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM . 19
2.1.1. Nhân bản mẫu dương tính ..................................................... 19
2.1.2. Giảm số lượng mẫu âm tính .................................................. 20
2.1.3. Tạo thêm các mẫu dương tính bằng thuật tốn................... 21
2.1.4. Điều chỉnh trọng số học tập các mẫu .................................... 22
2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu............ 22
9
2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH
AUTOENCODER ..................................................................................... 24
2.2.1. Mơ hình Autoencoder ............................................................. 24
2.2.2. Sử dụng Autoencoder phát hiện sự kiện hiếm ..................... 36
Chương 3. ỨNG DỤNG MƠ HÌNH AUTOENCODER ĐỂ DỰ BÁO
TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY ............................................. 38
3.1. BÀI TOÁN DỰ BÁO SỰ CỐ TRONG NHÀ MÁY GIẤY ............. 38
3.1.1. Phát biểu bài toán ................................................................... 38
3.1.2. Bộ dữ liệu nhà máy giấy ......................................................... 39
3.1.3. Mục tiêu của bài toán ............................................................. 40
3.2. ỨNG DỤNG MƠ HÌNH MLP AUTOENCODER CHO BÀI
TỐN….................................................................................................... 41
3.2.1. Tiếp cận bài tốn với mơ hình MLP Autoencoder .............. 41
3.2.2. Xây dựng mơ hình MLP Autoencoder cho bài tốn ........... 41
3.2.3. Các bước lập trình MLP Autoencoder cho bài tốn ........... 42
3.2.4. Kết quả thử nghiệm và đánh giá mơ hình ............................ 47
3.3. ỨNG DỤNG MƠ HÌNH LSTM AUTOENCODER CHO BÀI
TỐN….................................................................................................... 54
3.3.1. Tiếp cận bài tốn với mơ hình LSTM Autoencoder............ 54
3.3.2. Xây dựng mơ hình LSTM Autoencoder cho bài tốn ......... 55
3.3.3. Các bước lập trình LSTM Autoencoder cho bài tốn......... 56
3.3.4. Kết quả thử nghiệm và đánh giá mơ hình ............................ 61
Chương 4. KẾT LUẬN VÀ KIẾN NGHỊ ................................................... 67
4.1. KẾT LUẬN ........................................................................................ 67
4.2. KIẾN NGHỊ ....................................................................................... 68
TÀI LIỆU THAM KHẢO ............................................................................ 69
10
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay trong bối cảnh cuộc cách mạng công nghiệp 4.0 phát triển như
vũ bão, các doanh nghiệp ngày càng chú trọng đầu tư vào các hoạt động nghiên
cứu, phát triển và ứng dụng công nghệ thông tin vào quản lý sản xuất kinh
doanh. Ngay tại Việt Nam, gần 90% các doanh nghiệp đã và đang từng bước
ứng dụng Công nghệ thông tin vào quản lý doanh nghiệp nhằm nâng cao hiệu
quả hoạt động sản xuất kinh doanh để có thể bắt kịp với xu hướng tồn cầu.
Trong các lĩnh vực cơng nghệ thơng tin áp dụng vào phục vụ sản xuất kinh
doanh, các nghiên cứu và ứng dụng để phân loại và dự báo là một trong những
hướng ứng dụng được sử dụng nhiều nhất và đem lại hiệu quả cao nhất cho
doanh nghiệp, tăng khả năng cạnh tranh của doanh nghiệp trong bối cảnh hội
nhập quốc tế sâu rộng.
Thông thường trong các lĩnh vực phân loại và dự báo, các nghiên cứu
thường hay sử dụng các bộ dữ liệu có số phần tử trong mỗi lớp tương đối cân
bằng nhau. Tuy nhiên trong thực tế, số trường hợp có số phần tử trong bộ dữ
liệu cân bằng nhau khá ít. Đa số các trường hợp bộ dữ liệu có số phần tử mỗi
lớp bất đối xứng, chênh lệch nhau rất nhiều lần. Trong các bài tốn phân loại 2
lớp, thường thì các trường hợp của lớp cần dự đoán là những sự kiện xảy ra với
tần suất rất thấp. Tuy không thường xuyên xảy ra nhưng những sự kiện này lại
có tác động rất lớn và có thể làm mất ổn định cả hệ thống, gây ra nhiều hậu quả
nghiêm trọng, thiệt hại cả về kinh tế lẫn tính mạng con người. Các sự kiện này
được gọi chung là sự kiện hiếm [1]. Sự kiện hiếm có cả trong tự nhiên [2] (như
động đất, sóng thần, bão lũ, núi lửa …) và trong xã hội (như chiến tranh, sự cố
trong các nhà máy cơng nghiệp, sự sụp đổ thị trường tài chính, sự cố hàng
không …), thường gây ra thiệt hại và mất mát rất lớn. Chính vì thế việc dự báo
trước sự kiện hiếm [3] có ý nghĩa vơ cùng to lớn, không chỉ giúp con người
giảm bớt được rất nhiều thiệt hại do các sự kiện gây ra mà trong nhiều trường
hợp con người có thể ngăn chặn để sự kiện không xảy ra.
Do các sự kiện hiếm là các sự kiện rất ít khi xảy ra so với sự kiện bình
thường, nên bộ dữ liệu thu thập về sự kiện hiếm rất mất cân bằng. Một bộ dữ
11
liệu về sự kiện hiếm thường có số lượng dữ liệu dán nhãn dương tính chiếm từ
5% đến 10% tổng số mẫu của dữ liệu. Khơng những vậy có nhiều sự kiện cực
kỳ hiếm khi xảy ra, khi đó bộ dữ liệu có số lượng nhãn dương tính chỉ dưới 1%.
Với những bộ dữ liệu quá mất cân bằng như vậy, các mơ hình phân lớp và dự
báo bằng mạng nơ- ron nhân tạo (Artificial neural networks – ANN) truyền
thống [4], mơ hình thường hoạt động rất tốt với các bộ dữ liệu cân bằng, lại
không hoạt động tốt trong việc phân loại và dự báo sự kiện cực hiếm [5]. Chính
vì vậy cần phải dùng các phương pháp, mơ hình phân loại và dự báo khác để
giải quyết các trường hợp này. Một trong những phương pháp rất hiệu quả đó
là phương pháp phân loại 1 lớp bằng mơ hình Autoencoder [6].
Autoencoder hay cịn gọi là bộ mã hóa tự động là một mạng nơ-ron nhân
tạo có đầu ra của mạng giống hệt với đầu vào [7]. Bộ mã hóa tự động này được
sử dụng để tìm ra các đặc trưng nén dữ liệu hiệu quả nhất bằng phương pháp
học khơng giám sát. Mục đích của Autoencoder là tìm hiểu cách biểu diễn (mã
hóa) cho một bộ dữ liệu, thường để giảm kích thước dữ liệu đầu vào [8], bằng
cách đào tạo mạng bỏ qua tín hiệu nhiễu [9], chỉ giữ lại các đặc tính quan trọng
nhất [10] để khơi phục dữ liệu. Đồng thời, Autoencoder cịn có khối chức năng
tái tạo lại dữ liệu từ những đặc trưng đã nén, đảm bảo dữ liệu giải mã càng
giống với đầu vào càng tốt. Chính vì thế chúng ta có thể đào tạo Autoencoder
khái quát hóa các đặc trưng quan trọng nhất của các sự kiện bình thường. Sau
quá trình huấn luyện, mơ hình có khả năng tái tạo rất tốt với các sự kiện bình
thường, nhưng đối với các sự kiện hiếm, sự kiện bất thường lại gây ra tỉ lệ lỗi
rất cao. Vì thế những dữ liệu sau khi chạy qua bộ mã hóa tự động Autoencoder
có các đặc trưng khác hẳn đầu vào thì rất có khả năng là sự kiện hiếm [11].
Bài luận văn này tập trung nghiên cứu, cải tiến và ứng dụng mơ hình
Autoencoder để dự báo các sự kiện cực hiếm, tiếp theo sẽ áp dụng mơ hình vào
dự đốn trước các sự cố trong dây chuyền sản xuất ở các nhà máy giấy [12].
Để sản xuất ra những tấm giấy, các nhà máy giấy có một dây chuyền gồm rất
nhiều bộ phận hoạt động liên tục suốt ngày đêm. Tuy nhiên do đặc điểm là các
tấm giấy rất mỏng, dễ bị đứt, nên khi có một bộ phận nào đó của dây chuyền
trục trặc, sự đồng bộ giữa các bộ phận không còn trơn tru, các tấm giấy lớn sẽ
12
bị phá vỡ. Bất cứ khi nào xảy ra sự cố phá vỡ các tấm giấy, toàn bộ dây chuyền
sản xuất của nhà máy sẽ phải dừng lại để kiểm tra và khôi phục. Thông thường
phải mất hơn một giờ để máycó thể khơi phục hoạt động trở lại bình thường.
Trong khoảng thời gian chết này, nhà máy thiệt hại khoảng 10 nghìn đơ-la và
các kỹ sư phải vào những khu vực nguy hiểm để kiểm tra và khôi phục lại dây
chuyền sản xuất. Trung bình sự cố xảy ra một vài lần mỗi ngày, gây tổn thất
cho doanh nghiệp hàng triệu đô-la mỗi năm, kèm theo mối nguy hiểm, rủi ro
cho sức khỏe của công nhân phục hồi hệ thống. Chính vì thế ngay cả việc giảm
được 5% số sự cố cũng mang lại lợi ích đáng kể trong nhà máy cả về kinh tế
lẫn sức khỏe nhân viên.
Để phục vụ việc dự báo trước sự cố phá vỡ các tấm giấy, doanh nghiệp
đã cho lắp đặt 60 cảm biến đặt ở các bộ phận khác nhau dọc theo dây chuyền.
Các cảm biến được lấy mẫu tự động định kỳ 2 phút/lần tạo ra các mẫu dữ liệu.
Khi nào có sự cố trong dây chuyền sản xuất, mẫu dữ liệu đầu tiên sau khi xảy
ra sự cố sẽ được đánh dấu dương tính và loại bỏ qua các mẫu thu thập được
trong khoảng thời gian nghỉ để khắc phục sự cố. Chính vì thế số lượng mẫu
dương tính trong bộ dữ liệu thu thập được từ các cảm biến chiếm tỉ lệ cực kỳ
thấp, chỉ khoảng 0.67% tổng số mẫu. Bài luận văn này nghiên cứu và xây dựng
mô hình bộ mã hóa tự động Autoencoder nhằm đạt được 2 mục tiêu chính: dự
đốn trước sự cố phá vỡ tấm giấy trong dây chuyền sản xuất của nhà máy giấy
và xác định các bộ phận có khả năng cao gây ra sự cố.
Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương
pháp phát hiện sự kiện cực hiếm bằng mơ hình Autoencoder và ứng dụng vào
dự báo trước sự cố trong nhà máy giấy” làm luận văn tốt nghiệp thạc sĩ của
mình.
13
2. Mục đích nghiên cứu
Áp dụng một số mơ hình bộ mã hóa tự động Autoencoder vào bài tốn
dự báo sự kiện cực hiếm.
3. Nhiệm vụ nghiên cứu
Nội dung và nhiệm vụ chủ yếu là nghiên cứu các vấn đề liên quan đến
việc dự báo các sự kiện hiếm và sử dụng mơ hình bộ mã hóa tự động
Autoencoder để dự báo các sự kiện cực hiếm, ứng dụng vào bài toán thực tế dự
đoán sự cố trong dây chuyền sản xuất của nhà máy giấy.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của đề tài luận văn này là một số mơ
hình mạng nơ-ron nhân tạo, một số giải pháp xử lý bộ dữ liệu phân lớp sự kiện
hiếm nổi bật, mơ hình bộ mã hóa tự động Autoencoder.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng xuyên suốt trong quá trình
thực hiện bài luận văn là phương pháp nghiên cứu lý thuyết và phương pháp
thực nghiệm.
14
CHƯƠNG 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM
Chương 1 bài luận văn giới thiệu tổng quan về khái niệm sự kiện hiếm,
các sự kiện hiếm trong tự nhiên và xã hội cùng tác động của nó đến cuộc sống
con người. Tiếp đó, chương này sẽ trình bày ý nghĩa và tầm quan trọng của bài
toán dự báo trước sự kiện hiếm và một số nghiên cứu khoa học nổi bật về các
sự kiện hiếm gặp trong thực tế.
1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM
1.1.1. Định nghĩa sự kiện hiếm
Các sự kiện hiếm là các sự kiện xuất hiện một cách riêng biệt, được quan
sát không thường xuyên xảy ra. Đây là các sự kiện xảy ra với tần suất rất thấp
và thường có tác động lan rộng và có thể làm mất ổn định toàn bộ hệ thống,
gây ra các hậu quả nghiêm trọng. Các phân tích và nghiên cứu khoa học về các
sự kiện hiếm thường tập trung vào các sự kiện gây ra tác động tiêu cực đáng kể
đến xã hội, thường là thiệt hại về mặt kinh tế hoặc ảnh hưởng tới sức khỏe và
tính mạng con người.
Thông thường, dựa vào tần suất xảy ra của sự kiện, chúng ta phân loại
các sự kiện hiếm thành 3 loại: sự kiện hiếm, sự kiện rất hiếm và sự kiện cực
hiếm.
− Sự kiện hiếm (tương đối hiếm): Số mẫu dương tính có tần suất xuất hiện
từ 5-10% tổng số mẫu.
− Sự kiện rất hiếm: Số mẫu dương tính có tần suất xuất hiện từ 1-5% tổng
số mẫu.
− Sự kiện cực hiếm: Số mẫu dương tính có tần suất xuất hiện từ nhỏ hơn
1% tổng số mẫu.
Đối với các sự kiện tương đối hiếm, các mơ hình và phương pháp phân
loại và dự báo truyền thống thơng qua q trình xử lý mẫu vẫn cho một độ
chính xác tương đối, còn với các sự kiện rất hiếm hay cực hiếm các mơ hình
mạng nơ-ron truyền thống hầu như rất khó học được từ các mẫu dương tính
trong q trình đào tạo. Chính vì thế đối với các sự kiện cực hiếm này chúng ta
cần xây dựng một mơ hình khác hợp lý hơn để dự báo.
15
1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội
Trong đời sống, chúng ta chứng kiến rất nhiều sự kiện hiếm xảy ra cả
trong tự nhiên và xã hội. Trong các hiện tượng tự nhiên, điển hình nhất cho các
sự kiện hiếm được nhiều nhà nghiên cứu quan tâm là các hiện tượng thiên tai
như: động đất, sóng thần, bão lũ, núi lửa, đại dịch, sét đánh... Đây là những sự
kiện rất ít khi xảy ra, có khi hàng chục năm mới lại có một lần. Tuy nhiên một
khi những sự kiện này xuất hiện thì thường gây ra thiệt hại về kinh tế vơ cùng
to lớn và có thể gây nên mất mát to lớn về con người nếu chúng không được
cảnh báo kịp thời. Sức tàn phá khủng khiếp của các sự kiện thiên tai này trong
một số năm gần đây được thể hiện qua những thống kê dưới đây:
− Năm 2008, một trận động đất mạnh 8.0 độ richter ở Tứ Xuyên, Trung
Quốc đã làm gần 380.000 người chết, hàng triệu người mất việc làm, thiệt
hại kinh tế trực tiếp hơn 3 tỷ đô-la và kéo theo mất mát hàng chục tỉ đơ-la
các năm sau đó để hồi phục.
− Năm 2011, trận động đất 9.0 độ richter ở ngồi khơi Nhật Bản đã gây ra
sóng thần dọc bờ biển Thái Bình Dương, ảnh hưởng trực tiếp tới hơn 20
quốc gia. Đồng thời trận động đất sóng thần này gây ra sự cố rị rỉ phóng
xạ ở nhà máy điện hạt nhân tại Fukushima, Nhật Bản. Cuộc khủng hoảng
kép này đã làm hơn 15.000 người chết, 125.000 căn nhà bị phá hủy, chất
phóng xạ rị rỉ ra một khu vực rộng lớn, ảnh hưởng kinh tế ước tính lên tới
hàng trăm tỉ đơ-la.
− Hàng năm, trên vành đai lửa Thái Bình Dương xảy ra hàng chục vụ phun
trào núi lửa, trong đó có nhiều vụ rất nghiêm trọng gây ra cái chết hàng
chục nghìn người do khơng được kịp thời dự báo trước để di tản cư dân
trong khu vực.
− Dịch bệnh Covid-19 ảnh hưởng tới tất cả các quốc gia trên thế giới, hàng
triệu người nhiễm bệnh, hàng trăm nghìn người chết, nền kinh tế của tất
cả các nước đều sụt giảm nghiêm trọng, ước tính thiệt hại kinh tế trên toàn
thế giới lên tới hàng chục nghìn tỷ đơ-la.
Bên cạnh những hiện tượng hiếm gây nhiều thiệt hại về người và của,
trong tự nhiên cũng có nhiều sự kiện hiếm ít gây ra tổn thất hơn nhưng cũng
16
được nhiều nhà khoa học quan tâm nghiên cứu, điển hình như các hiện tượng
thiên văn học: nhật thực, nguyệt thực, sự sáp nhập các sao, hố đen…
Trong xã hội cũng có rất nhiều sự kiện hiếm khi xuất hiện nhưng một
khi xảy ra cũng gây ra những thiệt hại rất to lớn về kinh tế như chiến tranh, sự
sụp đổ thị trường tài chính, sự cố hàng khơng, nổ nhà máy hạt nhân … Thường
các sự kiện này rất hiếm khi xảy ra, có thể hàng thập kỷ mới lại xuất hiện, tuy
nhiên khi xảy ra cũng gây rất nhiều thiệt hại, cả về con người lẫn vật chất. Một
số sự kiện hiếm trong xã hội gây ra rất nhiều mất mát có thể kể đến như:
− Chiến tranh thế giới thứ 2 (1937-1945) gây ra cái chết hơn 61 triệu người,
thiệt hại kinh tế hàng nghìn tỉ đơ-la.
− Thảm họa hạt nhân Chernobyl năm 1986 gây ra cái chết 31 người trực
tiếp, sơ tán hơn 330.000 người, ước tính hàng chục ngàn người chết do
ảnh hưởng phóng xạ các năm sau đó.
− 2 vụ rơi máy bay Boeing 737-Max 8 năm 2018-2019 do lỗi thiết kế đã gây
ra cái chết toàn bộ hành khách và phi hành đoàn, mất nhiều tháng mới tìm
được nguyên nhân lỗi. Boeing thiệt hại hàng chục đến hàng trăm tỉ đô-la.
− Sự sụp đổ thị trường chứng khoán phố Wall 1929 bắt đầu cho cuộc đại
khủng hoảng kinh tế kéo dài 12 năm, kéo theo hàng chục triệu người thất
nghiệp, vô số doanh nghiệp phá sản.
Đối với phạm vi một doanh nghiệp, chúng ta cũng thấy rất nhiều sự kiện
hiếm, thường là các sự cố xảy ra trong cơ quan, nhà máy, đặc biệt rất nhiều
trong các dây chuyền sản xuất công nghiệp. Các sự cố này có thể gây ngừng
hoạt động của cả nhà máy trong thời gian dài, ảnh hưởng rất lớn tới sức khỏe,
tính mạng và kinh tế của doanh nghiệp.
17
1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM
Do các sự kiện hiếm cả trong tự nhiên lẫn xã hội thường gây ra thiệt hại
và mất mát về vật chất và sinh mạng vô cùng to lớn nên việc dự báo trước sự
kiện hiếm [13] có ý nghĩa rất to lớn. Nếu có thể dự báo trước các sự kiện bất
thường khơng mong muốn này, con người sẽ có thời gian để chuẩn bị ứng phó,
từ đó giảm bớt được rất nhiều thiệt hại về kinh tế cũng như sức khỏe, tính mạng
mọi người.
Đối với các bộ dữ liệu cân bằng về số lượng mẫu trong mỗi lớp, một
trong những phương pháp phân lớp và dự báo thành công và hiệu quả nhất là
sử dụng các mơ hình mạng nơ-ron nhân tạo (Artificial neural networks - ANN),
đặc biệt là các mạng học sâu. Tuy nhiên khi áp dụng các mô hình dự báo truyền
thống này vào bộ dữ liệu về sự kiện hiếm, hầu hết các mơ hình này lại gặp rất
nhiều khó khăn và trở nên rất khơng chính xác. Nguyên nhân chính của việc
này được chỉ ra là do tần suất xảy ra vô cùng thấp của sự kiện hiếm dẫn đến số
lượng mẫu có nhãn dương tính cũng vơ cùng ít ỏi so với số mẫu dán nhãn âm
tính. Chính vì sự mất cân bằng này q lớn, trong q trình huấn luyện mạng,
các mơ hình dự báo thường rất dễ dàng học tập từ các mẫu âm tính và bỏ qua
khơng học các mẫu dương tính, dẫn tới việc dự báo của mơ hình khơng hiệu
quả.
Chính vì thế để dự báo trước sự kiện hiếm, đặc biệt là các sự kiện cực
hiếm (có xác suất dưới 1%) các nhà nghiên cứu khoa học đã nghiên cứu và đề
xuất ra nhiều thuật toán và phương pháp xử lý đặc thù. Một số nghiên cứu về
bài toán về sự kiện hiếm cả trong tự nhiên và xã hội nổi bật được nêu ra dưới
đây:
Trong cuốn sách “Modelling extremal events: For insurance and
finance” [14] nhóm tác giả Embrechts P. đã nghiên cứu và mơ hình hóa các sự
kiện hiếm, sự kiện cực đoan trong với ngành bảo hiểm và tài chính.
Trong bài báo khoa học “Extreme events: Dynamics, statistics and
prediction.” [15] nhóm tác giả Ghil M. đã phân tích, thống kê và dự đoán các
sự kiện cực đoan, tập trung nghiên cứu và áp dụng vào dự đoán các chấn động
18
địa lý.
Trong cuốn sách “Extreme events and natural hazards: The complexity
perspective.” [2] nhóm tác giả Sharma S. đã phân tích nguyên nhân các khó
khăn, phức tạp và đề ra một số phương pháp giải quyết khi nghiên cứu các sự
kiện cực hiếm trong tự nhiên gây nguy hiểm cho con người.
Ngồi ra cịn có rất nhiều tác giả với nhiều bài báo khoa học nghiên cứu
về các sự kiện cực hiếm khác. Mục 2.1 bài luận văn sẽ trình bày cụ thể nội
dung các phương pháp chính đã và đang được nghiên cứu trên thế giới để dự
báo các sự kiện hiếm.
19
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM
Chương 2 bài luận văn sẽ đi sâu nghiên cứu và trình bày về một số
phương pháp đã và đang được sử dụng để giải quyết các bài toán dự báo sự
kiện hiếm trong các bài nghiên cứu trên thế giới. Tiếp theo đó trong mục 2.2,
bài luận văn sẽ trình bày về mơ hình bộ mã hóa tự động Autoencoder, một mơ
hình vơ cùng hiệu quả đã được ứng dụng vào rất nhiều lĩnh vực công nghệ
thông tin khác nhau và phương pháp ứng dụng mơ hình Autoencoder để phát
hiện và dự báo trước các sự kiện cực hiếm.
2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM
Trong mục 1.2, ngun nhân chính gây khó khăn cho việc dự đốn sự
kiện hiếm trong các mơ hình ANN được chỉ ra là do sự mất cân bằng giữa số
lượng mẫu mỗi lớp: tỉ lệ mẫu dương tính rất nhỏ so với số mẫu âm tính. Chính
vì thế các nhà nghiên cứu khoa học đã đề xuất ra các phương pháp nhằm cân
bằng lại số lượng các mẫu dương tính và mẫu âm tính. Các kết quả thực nghiệm
đã chứng minh các giải pháp này đã cải thiện đáng kể tính hiệu quả của các mơ
hình dự báo sự kiện hiếm. Các phương pháp cân bằng số lượng mẫu mỗi lớp
nổi bật nhất sẽ được trình bày chi tiết dưới đây.
2.1.1. Nhân bản mẫu dương tính
Nhân bản mẫu dương tính là phương pháp tăng số lượng mẫu dương tính
bằng cách lặp lại các mẫu dương tính nhiều lần (hình 2.1) nhằm giảm bớt sự
chênh lệch giữa số lượng mẫu dương tính và âm tính.
Đây là giải pháp đơn giản nhất giúp tăng tỉ lệ nhãn dương tính và khơng
tốn nhiều chi phí tính tốn. Tuy nhiên nhược điểm của phương pháp này là do
các mẫu dương tính chỉ đơn thuần nhân bản lên khơng có bất kỳ sự thay đổi
nào nên nếu số mẫu dương tính q nhỏ, mơ hình đào tạo được khuyến khích
học vẹt các mẫu dương tính, giảm bớt sự khái qt hóa các đặc điểm. Chính vì
vậy phương pháp nhân bản nhãn dương tính có giới hạn số lần lặp. Nếu số
lượng mẫu dương tính quá nhỏ, chúng ta lặp lại hàng chục lần rất dễ gây ra hiện
tượng overfit trong quá trình huấn luyện.
20
Hình 2.1. Phương pháp nhân bản mẫu dương tính
2.1.2. Giảm số lượng mẫu âm tính
Giảm số lượng mẫu âm tính là phương pháp loại bỏ ngẫu nhiên hoặc có
chọn lọc các mẫu âm tính (hình 2.2) nhằm mục đích giảm tỉ lệ chênh lệch giữa
số lượng mẫu dương tính và âm tính.
Thơng thường bước đầu tiên chúng ta cố gắng giảm các nhiễu ở mẫu âm
tính. Điều này rất tốt cho quá trình đào tạo giúp mạng nơ-ron học tập tốt hơn.
Tuy nhiên thường tỉ lệ nhiễu không quá nhiều nên sau đó để giảm số lượng mẫu
âm tính cần sử dụng các phương pháp chọn mẫu (subsampling) ngẫu nhiên
hoặc có chọn lọc bằng thuật tốn chọn mẫu.
Nhưng phương pháp giảm số lượng mẫu âm tím cũng có nhược điểm là
nếu chúng ta giảm số lượng mẫu âm tính quá nhiều lần, chúng ta mất đi các giá
trị đa dạng chứa trong các mẫu bị loại bỏ, mạng được đào tạo sẽ giảm dần sự
chính xác. Vì thế khi sử dụng phương pháp này chúng ta cần lựa chọn thuật
toán và tỉ lệ chọn mẫu phù hợp.
21
Hình 2.2. Phương pháp giảm số lượng mẫu âm tính
2.1.3. Tạo thêm các mẫu dương tính bằng thuật tốn
Tạo thêm các mẫu dương tính bằng thuật tốn là 1 phương pháp rất hiệu
quả nhằm tăng số lượng mẫu dương tính, giảm tỉ lệ chênh lệch giữa số lượng
mẫu dương tính và âm tính.
Khơng giống với việc lặp lại chính các nhãn dương tính của phương pháp
nhân bản, phương pháp này sử dụng thuật toán để tạo ra các mẫu dương tính
mới (hình 2.3) dựa vào nền tảng các mẫu dương tính đã biết. Việc tạo ra các
mẫu dương tính hồn tồn mới chưa gặp bao giờ khơng chỉ có tác dụng giảm
sự chênh lệch giữa số lượng mẫu dương tính và âm tính mà cịn có tác dụng
tăng độ hiệu quả và độ mượt của mơ hình đào tạo, giảm thiểu hiện tượng overfit
của mơ hình.
Thuật tốn này có điểm yếu là độ hiệu quả phụ thuộc nhiều vào việc
chúng ta lựa chọn thuật toán và tham số để sinh mẫu có phù hợp với bộ dữ liệu
khơng. Nếu các mẫu sinh ra được dán nhãn khơng chính xác dẫn đến việc mơ
hình học sai ngay từ lúc ban đầu, khơng cịn chính xác được nữa. Tùy vào bài
tốn mà chúng ta lựa chọn thuật toán và tỉ lệ sinh mẫu cho phù hợp. Một số
thuật toán sinh mẫu rất hiệu quả thường được sử dụng nhiều nhất là: smote
[16], rose [17], …
22
Hình 2.3. Phương pháp tạo thêm mẫu dương tính bằng thuật toán
2.1.4. Điều chỉnh trọng số học tập các mẫu
Điều chỉnh trọng số học tập các mẫu là phương pháp tăng trọng số học
tập của các mẫu dương tính lớn hơn nhiều lần các mẫu âm tính nhằm mục đích
giúp các mơ hình tập trung học tập các mẫu dương tính hơn âm tính. Đây khơng
phải phương pháp nhằm cân bằng số lượng mẫu mỗi lớp nhưng cũng tương tự
như phương pháp nhân bản mẫu dương tính, phương pháp này giúp mơ hình
tập trung học tập các mẫu dương tính hơn, từ đó tránh được việc mơ hình dễ bỏ
qua các mẫu dương tính trong q trình huấn luyện.
Tuy nhiên phương pháp này cũng có nhược điểm như phương pháp nhân
bản mẫu dương tính. Đồng thời trong phương pháp này có thêm nhược điểm:
nếu đẩy trọng số học tập mẫu dương tính lên q cao thì mơ hình có thể không
bao giờ hội tụ, đẩy trọng số học tập mẫu âm tính quá thấp lại tốn rất nhiều thời
gian cho việc huấn luyện. Vì vậy tỉ lệ điều chỉnh trọng số cũng có giới hạn, ta
khơng thể tăng trọng số mẫu dương tính lên hàng chục lần so với mẫu âm tính.
2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu
Theo các phân tích ở trên, mỗi phương pháp cân bằng số lượng mẫu có
ưu khuyết điểm khác nhau nhưng nhìn chung đều có khả năng tăng hiệu quả
cho các mơ hình mạng nơ-ron trong việc dự đốn sự kiện hiếm nhưng đều có
giới hạn, khơng thể tăng q nhiều lần. Trong thực tế thông thường chúng ta
không nên chỉ sử dụng một phương pháp cân bằng số lượng mẫu mỗi lớp một
23
cách riêng lẻ mà cần sử dụng kết hợp các phương pháp lại. Điều này sẽ đem lại
độ hiệu quả cao hơn nhiều, khắc phục bớt khuyết điểm của mỗi phương pháp
riêng rẽ.
Bên cạnh đó, do một tỉ lệ lớn các bài toán sự kiện hiếm là các sự kiện
diễn ra theo thứ tự thời gian được lấy mẫu định kỳ. Chính vì vậy việc sử dụng
các mơ hình dự báo cho chuỗi thời gian đa biến, như mơ hình mạng nơ-ron bộ
nhớ ngắn hạn LSTM(Long short-term memory) hay mạng nơ-ron đơn vị hồi
quy có kiểm sốt (Gated Recurrent Units - GRU), kết hợp với các phương pháp
cân bằng số mẫu thường cải thiện độ hiệu quả cho mơ hình.
Việc sử dụng các phương pháp cân bằng số mẫu tương đối hiệu quả khi
dự báo các sự kiện hiếm (số mẫu dương tính chiếm 5-10%) và một số sự kiện
rất hiếm (số mẫu dương tính chiếm 1-5%). Tuy nhiên đối với các sự kiện cực
hiếm (số mẫu dương tính nhỏ hơn 1%) thì việc sử dụng kết hợp tất cả các giải
pháp trên cũng không thực sự hiệu quả rõ ràng. Chính vì thế cần sử dụng mơ
hình đặc biệt khác để dự báo sự kiện hiếm: Mơ hình bộ mã hóa tự động
Autoencoder.
24
2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH
AUTOENCODER
2.2.1. Mơ hình Autoencoder
2.2.1.1. Định nghĩa mơ hình Autoencoder
Autoencoder hay cịn gọi là bộ mã hóa tự động khơng phải là một mơ
hình mạng nơ-ron có cấu trúc cụ thể mà là một khái niệm chỉ các mơ hình mạng
nơ-ron nhân tạo phân loại 1 lớp, có đầu ra giống với đầu vào. Mơ hình này
được sử dụng để tìm ra các đặc trưng nén hiệu quả nhất của bộ dữ liệu bằng
phương pháp học khơng giám sát.
Autoencoder thường có 3 thành phần chính là khối mã hóa, mã và khối
giải mã (như hình 2.4). Mục đích của khối mã hóa của Autoencoder là tìm cách
biểu diễn (mã hóa) cho bất kỳ dữ liệu đầu vào nào thành mã. Đồng thời, khối
giải mã của Autoencoder có chức năng cố gắng tái tạo lại dữ liệu [18] ban đầu
từ dữ liệu đã mã hóa sao cho dữ liệu giải mã càng giống với đầu vào càng tốt.
Do bộ mã hóa tự động có đầu vào tương tự đầu ra nên khơng cần phải mất thời
gian và công sức để dán nhãn dữ liệu như các mơ hình khác, vì thế có thể đào
tạo mơ hình bằng phương pháp học khơng giám sát.
Hình 2.4. Mơ hình Autoencoder mã hóa tự động số 4
Mơ hình Autoencoder khơng quy định kích thước mã phải nhỏ hơn hay
lớn hơn kích thước đầu vào. Tuy nhiên sử dụng trong thực tế đại đa số các mạng
Autoencoder đều hướng tới việc đặt kích thước mã nhỏ hơn kích thước đầu vào
nhiều lần. Việc thiết lập kích thước mã nhỏ sẽ có tác dụng khuyến khích mơ
hình mạng bỏ qua tín hiệu nhiễu, chỉ giữ lại những đặc trưng quan trọng nhất
của dữ liệu đầu vào. Đồng thời giảm kích thước cũng rất thuận lợi cho việc lưu
25
trữ mã trong các ứng dụng cần nén dữ liệu có mất mát. Sử dụng mã làm đầu
vào cho các mơ hình huấn luyện khác giúp làm tăng tốc độ hội tụ và khả năng
khái quát của mạng, giúp cải thiện độ chính xác so với dữ liệu gốc làm đầu vào,
đặc biệt hiệu quả với những bài toán bộ dữ liệu đầu vào là đa biến và mật độ
dữ liệu mỗi biến thưa thớt.
Chính vì vậy khi nhắc đến Autoencoder mặc định là ám chỉ các bộ mã
hóa tự động có kích thước mã nhỏ hơn nhiều so với kích thước đầu vào. Điều
này tạo ra một nút thắt cổ chai (bottleneck) cho toàn bộ mạng nơ-ron ở vị trí
mã.
Hình 2.5. Kiến trúc mạng nơ-ron Autoencoder
2.2.1.2. Kiến trúc mạng nơ-ron Autoencoder
Như thể hiện trên hình 2.5, kiến trúc một bộ mã hóa tự động
Autoencoder bao gồm 3 thành phần chính:
− Khối mã hóa (encoder): Khối mã hóa sẽ nhận đầu vào là vec-tơ biểu diễn
dữ liệu n chiều, đầu ra là vec-tơ mã hóa trong khơng gian ẩn m chiều.
Thông thường khi nhắc đến Autoencoder nếu không nhắc tới cụ thể kích
thước khối mã thì ngầm hiểu m < n. Do đó đây cũng là một phương pháp
để giảm số chiều của dữ liệu vào.