TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐỒ ÁN TỐT NGHIỆP
Sử dụng học sâu cho bài toán dự
đoán chỉ số bụi mịn của Hà Nội
NGUYỄN MINH HIẾU
Ngành Công nghệ thông tin và Truyền thông
Chuyên ngành Công nghệ phần mềm
1
Giảng viên hướng dẫn:
TS. Nguyễn Thanh Hùng
Bộ môn:
Viện:
Công nghệ phần mềm
Công nghệ thông tin – Truyền thông
HÀ NỘI, 12/2019
2
Lời cam kết
Họ và tên sinh viên: Nguyễn Minh Hiếu
Điện thoại liên lạc:
Lớp:
Email:
CNTT2-2 K60
Hệ đào tạo: Đại học chính quy
Tôi – Nguyễn Minh Hiếu – cam kết Đồ án Tốt nghiệp (ĐATN) là cơng trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Thanh Hùng. Các kết quả nêu trong
ĐATN là trung thực, là thành quả của riêng tôi, không sao chép theo bất kỳ cơng trình nào
khác. Tất cả những tham khảo trong ĐATN – bao gồm hình ảnh, bảng biểu, số liệu, và các
câu từ trích dẫn – đều được ghi rõ ràng và đầy đủ nguồn gốc trong danh mục tài liệu tham
khảo. Tơi xin hồn tồn chịu trách nhiệm với dù chỉ một sao chép vi phạm quy chế của nhà
trường.
Hà Nội, ngày
tháng
Tác giả ĐATN
Nguyễn Minh Hiếu
3
năm
Lời cảm ơn
Thời gian đã thấm thốt trơi qua trong quãng thời gian năm năm cùng bao kỉ niệm gắn với
Đại học Bách Khoa Hà Nội. Mới ngày đầu háo hức bước vào trường, em còn là cậu sinh
viên cùng một tờ giấy trắng kiến thức và vô vàn câu hỏi cần giải đáp, định hướng tương lai
còn mơ hồ. Trải qua bao thăng trầm, học hỏi được nhiều kiến thức từ thầy cô, bạn bè, từ
những lần thực tập ở ngồi, mà nay đã sắp phải xa ngơi trường này.
Trước hết, em xin được cảm ơn sâu sắc tới gia đình em, đặc biệt là bố mẹ - người đã vất vả
nuôi nấng em. Bố mẹ đã luôn bên em và tạo điều kiện hết sức để có thể cho con cái có đầy
đủ nhu yếu phẩm cần thiết cho việc học. Và bố mẹ cũng là điểm tựa tinh thần, giúp em có
được bàn đạp để tiếp tục vượt qua các thử thách và khó khăn đã qua.
Em xin được cảm ơn hai thầy cô thân yêu đang giảng dạy tại Đại học Bách Khoa Hà Nội,
thầy Nguyễn Thanh Hùng, cô Nguyễn Phi Lê, và anh Lê Văn An, nghiên cứu sinh tại viện
công nghệ thông tin Nhật Bản. Cả ba người không chỉ giúp em, hướng dẫn về đồ án mà
còn tạo điều kiện thuận lợi nhất, từ đó giúp em ln giữ vững tinh thần và nhiệt huyết để
tập trung vào công việc.
Và cuối cùng, em xin được cảm ơn những người bạn của em đã luôn sát cánh cùng em,
chia sẻ niềm vui nỗi buồn trong những năm tháng từ lúc còn là học sinh, trải qua thời sinh
viên và sắp đến lúc thực sự bước vào đời.
Trong q trình hồn thành đồ án khơng thể tránh khỏi những thiếu sót, em kính mong
thầy cơ và bạn đọc đóng góp ý kiến và chỉ bảo cho em.
Một lần nữa, em xin chân thành cảm ơn!
Tóm tắt
Hà Nội đang đối mặt với nguy cơ môi nhiễm môi trường gây ảnh hưởng tới sức khỏe
người dân, đặc biệt hai chỉ số bụi mịn PM10 và PM2.5 có tác động không tốt, gây nên các
bệnh về hô hấp, mạch máu, phổi. Vì vậy việc dự đốn trước chỉ số bụi mịn PM2.5 và
PM10 trước hết sẽ giúp các cơ quan chức năng biết trước được tình hình chất lượng khơng
khí trong tương lai, từ đó đưa ra các biện pháp kiểm soát và phương án ngăn ngừa. Đồng
4
thời việc dự đoán chỉ hai chỉ số bụi mịn này giúp người dân có các phương án bảo vệ bản
thân kịp thời.
Để dự đoán chỉ số PM10 và PM2.5, phương pháp học sâu được áp dụng. Mơ hình được đề
xuất là Feature Selection + BiLSTM encoder – LSTM decoder. Dữ liệu đầu vào thông qua
bộ lọc Feature Selection sử dụng mơ hình XGboost để lựa chọn ra các thuộc tính giúp tăng
độ chính xác cho việc dự đốn hai chỉ số bụi PM10 và PM2.5. Sau đó dữ liệu chứa tập
thuộc tính đó được đưa vào mơ hình Encoder – Decoder sử dụng BiLSTM và LSTM để
huấn luyện và đưa ra kết quả dự đốn.
Đóng góp chính của đồ án này là cung cấp mơ hình dự đốn chỉ số bụi PM10 và PM2.5.
Kết quả đạt được sau cùng là mơ hình dự đốn và phân tích mối quan hệ các chỉ số ảnh
hưởng tới hai chỉ số bụi mịn này. Đồ án này bao gồm các phần: Nghiên cứu và phân tích
các mơ hình dự đốn chỉ số quan trắc mơi trường trước đó; Lý luận phương pháp xây dựng
và đề xuất kiến trúc Feature Selection + BiLSTM encoder – LSTM decoder; Trình bày kết
quả thí nghiệm đánh giá hiệu năng của mơ hình đề xuất; Kết luận và nêu hướng phát triển
trong tương lai.
Mục lục
Danh mục hình vẽ
5
Danh mục bảng
Danh mục các từ viết tắt
LSTM
BiLSTM
Long-Short Term Memory
Bộ nhớ dài ngắn
Bidirectional Long-Short Term Memory
Bộ nhớ dài ngắn hai chiều
k-nearest neighbor by DTW distance
kNN-DTWD
kNN-ED
DTW
RNN
XGBoost
6
Láng giếng gần nhất k dùng khoảng cách xoắn thời gian
động
k-nearest neighbor by Euclidean distance
Láng giềng gần nhất k dùng khoảng cách Ơ-clit
Dynamic time warping
Xoắn thời gian động
Recurrent Neural Network
Mạng nơ ron hồi quy
Extreme Gradient Boosting
Mô hình sử dụng kĩ thuật Boosting
MAE
RMSE
l
h
et al.
Mean Absolute Error
Sai số tuyệt đối trung bình
Root Mean Squared Error
Sai số tồn phương trung bình
Length Sequence
Độ dài của chuỗi đầu vào
Horizon
Độ dài của chuỗi đầu ra
and others
và những người khác
Học sâu
Danh mục thuật ngữ
Deep Learning
Model
Mơ hình cho việc học
Trial and error
Thử và sai
Sequence to Sequence
Mơ hình nhận đầu vào là chuỗi, đầu ra là chuỗi
Encoder Decoder
Cách gọi khác cho Sequence to Sequence model
7
Ensemble Learning
Học kết hợp
Bagging
Một dạng của kĩ thuật học kết hợp
Boosting
Một dạng của kĩ thuật học kết hợp
Voting
Một dạng của kĩ thuật học kết hợp
Framework
Khung, kiến trúc, nền tảng
Feature Engineering
Các kĩ thuật xử lý tác nhân đầu vào
Data
Dữ liệu
Gradient
Một vectơ có chiều hướng về phía tăng lớn nhất của
trường vơ hướng, độ lớn là mức thay đổi lớn nhất
Time Series
Chuỗi thời gian có điểm bắt đầu và kết thúc
Time Step
Bước thời gian tại một thời điểm nhất định
Activation
Hàm kích hoạt giúp chuẩn hóa đầu ra trong mạng nơ ron
8
Chương 1 Giới thiệu đề tài
1.1 Đặt vấn đề
Việt Nam đang là đất nước phát triển nhanh chóng, nền kinh tế tăng trường cùng với sự
phát triển của cơ sở hạ tầng, giao thơng, kiến trúc. Bên cạnh đó đi kèm là nguy cơ đối mặt
với ơ nhiễm khơng khí trầm trọng gây tổn hại đến sức khỏe con người. Đặc biệt, các
chuyên gia cho biết cần quan tâm tới hai chỉ số bụi mịn: PM10 và PM2.5 – các hạt bụi có
đường kính nhỏ hơn 10 µm và nhỏ hơn 2.5 µm. Những năm gần đây, nước ta có sự xuất
hiện của bụi siêu mịn PM1.0 (dưới 1µm) và bụi nano PM0.1 (dưới 0.1 µm). Tuy nhiên, do
hạn chế về dữ liệu và tiện so sánh với các kết quả nghiên cứu từ các bài báo khác, đề tài
này chỉ xét đến hai chỉ số PM10 và PM2.5.
Nhờ kích cỡ rất nhỏ của mình, bụi siêu mịn PM2.5 có thể qua đường hô hấp để len lỏi vào
sâu trong phổi, gây ra các bệnh hơ hấp. Ngồi ra, bài báo [1] chỉ ra rằng phơi nhiễm trong
thời gian dài với PM2.5 có thể dẫn đến tích tụ mảng bám ở động mạch, gây viêm mạch
máu và làm nghẽn mạch máu, từ đó là nguy cơ cho việc đột quy và đau tim.
Tình hình chất lượng khơng khí hiện nay của Việt Nam đang trong tình trạng xấu, khơng
chỉ do yếu tố khơng khí và địa lý mà cịn do hành động thiếu trách nhiệm của con người,
các cơng trình và thiếu ý thức chung trong việc giữ gìn mơi trường xung quanh. Khi người
dân thấy được mức độ ảnh hưởng của các chỉ số bụi mịn này tới sức khỏe của bản thân,
mọi người sẽ có ý thức để cùng chung tay bảo vệ mơi trường.
Vì vậy việc dự đoán trước chỉ số bụi mịn PM2.5 hoặc các chất khí có ảnh hưởng tới mơi
trường khác, sẽ giúp các cơ quan chức năng nắm bắt được xu hướng chất lượng mơi trường
trong tương lai, từ đó đưa ra các biện pháp kiểm soát, ngăn ngừa và đưa cảnh báo tới mọi
người dân. Người dân sẽ có cơ sở và thời gian để có các phương án bảo vệ bản thân kịp
thời, đồng thời kêu gọi nhau giữ gìn và bảo vệ mơi trường nơi mình đang ở.
Bảng 1 dưới đây thể hiện tầm ảnh hưởng của chỉ số chất lượng môi trường được Cổng
thông tin quan trắc môi trường – UBND Thành phố Hà Nội cung cấp.
9
Bảng 1 Bảng quy đổi giá trị AQI
Chú thích: AQI là chỉ số chất lượng khơng khí. Nguồn: Cổng thơng tin quan trắc môi
trường – UBND Thành phố Hà Nội. Website: />Giá trị
AQI
Đánh
giá
0-50
Tốt
51-100
Ảnh hưởng sức khỏe
Màu
sắc
Chất lượng khơng khí tốt
XANH
Trung
bình
Chất lượng khơng khí ở mức chấp nhận được.
Tuy nhiên, đối với những người nhạy cảm
(người già, trẻ em, người mắc các bệnh hơ hấp,
tim mạch…) có thể chịu những tác động nhất
định tới sức khỏe.
VÀNG
101-150
Kém
Những người nhạy cảm gặp phải các vấn đề về
sức khỏe, những người bình thường ít ảnh
hưởng.
DA
CAM
151-200
Xấu
Những người bình thường bắt đầu có các ảnh
hưởng tới sức khỏe, nhóm người nhạy cảm có
thể gặp những vấn đề sức khỏe nghiêm trọng
hơn.
ĐỎ
201-300
Rất
xấu
Cảnh báo hưởng tới sức khỏe: mọi người bị ảnh
hưởng tới sức khỏe nghiêm trọng hơn.
TÍM
301
Nguy
hại
Cảnh báo khẩn cấp về sức khỏe: Toàn bộ dân số
bị ảnh hưởng tới sức khỏe tới mức nghiêm
trọng.
NÂU
Bảng 2 cho thấy chất lượng khơng khí của Hà Nội trên một số khu vực có chất lượng từ
trung bình cho đến xấu, gây ảnh hưởng tới sức khỏe người dân. Đặc biệt nhóm người nhạy
cảm với các vấn dề về sức khỏe, đường hơ hấp khi tiếp xúc khơng khí này sẽ gây hại cho
cơ thể.
10
Bảng 2 Chỉ số AQI một số khu vực Hà Nội vào 0h:00 từ 16/12/2019 – 22/12/2019
Số liệu được lấy từ Cổng thông tin quan trắc môi trường – UBND Thành phố Hà Nội.
Website: />Ngày
Hồn
Kiếm
Thành
Cơng
Tân
Mai
Kim
Liên
Phạm
Văn
Đồng
Tây Mỗ
Mỹ
Đình
16/12/201
9
117
123
108
97
147
106
111
17/12/201
9
122
134
80
101
139
98
108
18/12/201
9
117
116
90
93
125
90
85
19/12/201
9
51
59
68
58
78
64
49
20/12/201
9
140
145
122
120
153
131
125
21/12/201
9
124
132
104
113
153
105
125
22/12/201
9
146
151
123
123
158
141
150
1.2 Mục tiêu và phạm vi đề tài
Các kết quả nghiên cứu hiện nay đa phần dự đoán đầu ra đối với chỉ số PM2.5. Tuy nhiên,
thực tế, ngồi PM2.5 cịn có nhiều các loại bụi có đường kính khác nhau. Vì vậy, chúng ta
cần xem xét tất cả các chỉ số bụi mịn khác nhau bên cạnh PM2.5. Ngoài ra các bài báo mới
chỉ nêu lên các yếu tố ảnh hưởng tới chỉ số PM2.5 mà khơng có thực nghiệm để xác minh.
Tùy vào vị trí địa lý mà các chỉ số sẽ có những ảnh hưởng khác nhau. Như trong bài báo
11
[2], Soh et al. đã đề xuất mơ hình sử dụng mối quan hệ giữa dữ liệu thuộc không gian và
dữ liệu theo thời gian mà có ảnh hưởng nhất tới khu vực các tác giả cần dự đoán mà không
chỉ ra được các yếu tố nào thực sự ảnh hưởng tới chỉ số bụi mịn PM2.5.
Như vậy, cần có mơ hình mà có thể cho ra dự đốn nhiều chỉ số bụi, phân tích các chỉ số
ảnh hưởng tới chỉ số cần tính với độ chính xác cao và tiết kiệm thời gian. Em đề xuất mơ
hình mà có thể phân tích các yếu tố ảnh hưởng tới chỉ số bụi, và cho ra được kết quả dự
đoán của nhiều chỉ số bụi cùng lúc với độ chính xác cao. Mơ hình được tập trung xử lý trên
bộ dữ liệu quan trắc môi trường của Hà Nội.
1.3 Định hướng giải pháp
Để dự đoán chỉ số PM10 và PM2.5, em sử dụng Deep Learning. Vì đây là bài tốn có dữ
liệu là dạng chuỗi theo thời gian nên em sử dụng mơ hình nổi tiếng Sequence to Sequence
(Encoder-Decoder) vốn được áp dụng trong xử lý ngôn ngữ tự nhiên.
Để giải quyết cho bài tốn này, thay vì sử dụng mơ hình Encoder-Decoder đơn thuần, em
sử dụng kiến trúc Feature Selection + BiLSTM encoder – LSTM decoder. Dữ liệu đầu vào
thông qua bộ lọc Feature Selection sử dụng Boosting-based Ensemble learning model
XGBoost để chọn ra các yếu tố ảnh hưởng đến chỉ số bụi mịn PM.
Đóng góp chính của đồ án này là cung cấp mơ hình dự đốn chỉ số bụi PM10 và PM2.5.
Kết quả đạt được sau cùng là mơ hình dự đốn và phân tích mối quan hệ các chỉ số ảnh
hưởng tới hai chỉ số bụi mịn này.
1.4 Bố cục đồ án
Phần còn lại của báo cáo đồ án tốt nghiệp này được tổ chức như sau.
Error: Reference source not found trình bày về tình hình nghiên cứu hiện nay, các cơng
trình nghiên cứu liên quan đến bài toán. Em sẽ nêu lên những ý tưởng cơ bản của các mơ
hình đã được đề xuất và chỉ ra ưu nhược điểm, vấn đề tồn đọng, từ đó đề xuất ra mơ hình
được trình bày trong báo cáo.
Trong Error: Reference source not found, em trình bày chi tiết về cơ sở lý thuyết bao gồm:
Deep Learning, LSTM, Encoder Decoder model, Feature Engineering, Ensemble Learning
và phương pháp nghiên cứu.
Error: Reference source not found em trình bày về đóng góp chính của đồ án, đó là mơ
hình đề xuất cho bài tốn dự đốn chỉ số bụi mịn này, đó là kiến trúc Feature Selection +
BiLSTM Encoder – LSTM Decoder. Kiến trúc này bao gồm hai phần chính gồm Feature
12
Selection để chọn ra các yếu tố chính ảnh hưởng tới việc dự đoán, và BiLSTM Encoder –
LSTM Decoder là model huấn luyện máy để học các dữ liệu đầu vào, từ đó giúp dự đốn
các chỉ số bụi mịn.
Trong Error: Reference source not found, em chỉ ra kết quả thực nghiệm và so sánh với các
kết quả có trong một số nghiên cứu trước đó, đưa ra các nhận xét và lập luận về hiệu quả
của mơ hình em đề xuất.
Error: Reference source not found em tổng hợp lại các giải pháp và đóng góp nổi bật nhất
của đồ án này. Đó là q trình làm đồ án, những bước khó khăn gặp phải và từng bước giải
quyết, đưa ra những giải pháp và trình bày kết quả nếu có.
Và Error: Reference source not found, em đưa ra kết luận và đề xuất các hướng phát triển
tiếp cho bài tốn này và có thể áp dụng mơ hình đề xuất cho các bài tốn khác tương tự.
Chương 2 Tình hình nghiên cứu hiện nay
Error: Reference source not found trình bày tình hình nghiên cứu và các thành quả nghiên
cứu tốt liên quan đến bài tốn quan trắc mơi trường hiện nay. Từ đó đưa ra tổng quan
những vấn đề gì đã được giải quyết, vấn đề nào chưa được giải quyết và đề xuất hướng đi.
Soh et al. [2] đã đề xuất kiến trúc ST – DNN. Dữ liệu đầu vào sẽ qua một framework để
khai thác mối quan hệ giữa dữ liệu thuộc không gian và dữ liệu theo thời gian có ảnh
hưởng nhất cho việc dự đốn cho một khu vực được cho trước. Tác giả xây dựng cơng thức
để tìm mối quan hệ bằng việc sử dụng kNN – DTWD và kNN – ED. DTW là một phương
pháp phổ biến để tính sự tương đồng giữa hai time-series, vì vậy các tác giả áp dụng DTW
để tính khoảng cách về mặt thời gian theo khu vực và sử dụng kNN để xác định các khu
vực có cùng hành vi về mặt thời gian. Sau khi xử lý đầu vào xong, dữ liệu đó được đưa vào
lớp LSTM (giới thiệu ở mục 1.6.1), dữ liệu về lãnh thổ được đưa vào lớp CNN
(Convolutional Neural Network) để triết xuất thơng tin thơng tin hữu ích liên quan đến
khơng gian. Sau đó đầu ra của hai lớp này sẽ qua thông qua 2 lớp mạng neuron networks
nữa để cho ra kết quả dự đoán. Tuy nhiên kiến trúc này không chỉ ra các yếu tố ảnh hưởng
tới chất lượng khơng khí, và mơ hình này sẽ gây chi phí thời gian cao, sức người lớn vì
việc tiền xử lý tốn thời gian.
Ibrahim Kok et al. [3] giới thiệu mô hình sử dụng Deep Learning để dự đốn chỉ số O3 và
NO2, cụ thể là sử dụng LSTM thuần với hai lớp cho việc dự đốn chỉ số. Mơ hình đề xuất
13
gồm ba phần chính. Phần thứ nhất, sau khi bộ dữ liệu được chia thành 69.5% cho việc
huấn luyện và 30.5% cho việc kiểm thử mơ hình, dữ liệu để huấn luyện được đưa vào một
lớp LSTM duy nhất với đầu vào có độ dài chuỗi là 8, độ dài đầu ra là 1. Ở phần hai, dữ liệu
sau khi được dự đoán được dán nhãn dựa theo bảng chỉ số AQI. Phần cuối cùng sử dụng
cây quyết định để đưa ra cảnh báo đối với cả các chỉ số đã được gán nhãn. Mơ hình này
đơn giản, hoạt động hiệu quả nhưng đầu vào và đầu ra không linh hoạt. Trong bài báo, Kok
et al. chỉ nêu lên việc dự đoán cho thời gian t+1, tức là một giờ sau đó, nên mơ hình này
khơng phù hợp cho các nhà chức trách mơi trường khi muốn lập lịch trình và có phương án
trong lâu dài.
Zhongang Qi et al. [4] đưa ra mơ hình giải quyết bài tốn dữ liệu chưa được gán nhãn và
dán nhãn sử dụng phương pháp học nửa giám sát (Semi-Supervised Learning), đồng thời
cũng đã đưa ra phương pháp cho vấn đề Feature Selection (mục 1.8.3) để lựa chọn các
thuộc tính có ảnh hưởng tới chỉ số cần dự đoán. Phương pháp Zhongang Qi et al. đề xuất là
thực hiện q trình chọn lọc thuộc tính ngay trong quá trình huấn luyện bằng cách chèn
một lớp nơ ron ở giữa lớp đầu vào và lớp nơ ron thứ hai của mạng ban đầu. Tuy nhiên
phương pháp này khơng nhằm tăng độ chính xác cho việc dự đoán, mà để khám phá độ
quan trọng của các thuộc tính đầu vào đối với việc dự đốn của mạng nơ ron, giúp tiết lộ
những nhân tố ảnh hưởng chính tới chất lượng khơng khí, và cung cấp bằng chứng từ việc
nghiên cứu dữ liệu để giúp phòng ngừa và kiểm chất sự ơ nhiễm khơng khí. Và trong bài
báo cũng không đưa ra các chỉ số thể hiện mức độ quan trọng của các chỉ số như mơ hình
đề xuất, vì vậy khơng thể so sánh với các mơ hình khác và khơng thử nghiệm được liệu
phương pháp có thực sự hiệu quả khi thay đổi các thuộc tính đầu vào theo phương pháp
này.
Lin et al. [5] đã đề xuất mơ hình khai thác yếu tố khơng gian và sử dụng kiến trúc
Sequence to Sequence. Để khai thác yếu tố khơng gian, các tác giả tính tốn độ tương đồng
của các thuộc tính địa lý quan trọng xung quanh các trạm quan trắc để diễn giải mối tương
quan giữa về không gian và xây dựng một đồ thị để đưa vào mơ hình DCRNN (Diffusion
Convolutional Recurrent Neural Network) [12]. Lin et al. tận dụng kết quả nghiên cứu từ
[13] để chọn ra các thuộc tính địa lý quan trọng có ảnh hưởng lớn đối với chất lượng mơi
trường. Mơ hình vì tận dụng kiến trúc Sequence to Sequence nên có thể dự đốn nhiều giờ
trước một cách linh hoạt không phụ thuộc vào độ dài chuỗi đầu vào. Tuy nhiên, mơ hình
khơng tập trung vào các thuộc tính về chất lượng mơi trường như khí O3, SO2, NO2 và khí
tượng thủy văn như hướng gió, nhiệt độ mà chỉ tập trung vào yếu tộ địa lý, không gian.
Error: Reference source not found này đã mơ tả các cơng trình nghiên cứu hiện nay và chỉ
ra những vấn đề còn tồn đọng trong từng mơ hình. Hai vấn đề đó bao gồm là chưa chỉ ra
thuộc tính khí tượng và thuộc tính các khí thải ảnh hưởng thế nào tới chỉ số PM2.5 và
14
PM10, và có mơ hình khơng giải quyết được bài tốn lập lịch trình để ngăn ngừa và kiểm
sốt chất lượng khơng khí do đầu vào và đầu ra khơng thể điều chỉnh linh hoạt. Để giải
quyết các vấn đề đó, Error: Reference source not found sẽ trình bày cơ sở lý thuyết cơ bản
áp dụng cho mơ hình đề xuất.
Chương 3 Cơ sở lý thuyết
Từ q trình phân tích các lỗ hổng tồn tại trong các mơ hình đã được đề xuất để giải quyết
cho bài tốn mơi trường hiện nay ở Error: Reference source not found, Error: Reference
source not found sẽ trình bày về cơ sở lý thuyết áp dụng cho mơ hình được đề xuất để giải
quyết các vấn đề đó.
1.5 Tổng quan về Học Sâu - Deep Learning
Phương pháp học sâu hiện này đang được nhiều người chú ý bởi độ chính xác của nó và
tính linh hoạt cho việc giải quyết nhiều bài toán khác nhau. Deep Learning có thể xử lý tốt
những bài tốn khác nhau với lượng dữ liệu lớn với nhiều đầu vào khác nhau. Ngồi ra,
Deep Learning giảm chi phí khi thực hiện quá trình feature engineering – điều mà gây tốn
thời gian đối với Machine Learning. Dữ liệu đầu vào chỉ cần xử lý tạo thành các bộ dữ liệu
để huấn luyện, thử, đánh giá rồi cho vào các model thì các model Deep Learning sẽ tự học
và xử lý rồi cho ra kết quả.
Mặc dù Deep Learning là một hộp đen, người sử dụng nó khơng biết được q trình bên
trong thực sự đang diễn ra những gì, chỉ biết đầu vào và đầu ra, nên Deep Learning sẽ
không phù với một số bài tốn cần biết q trình. Nhược điểm của Deep Learning yêu cầu
chi phí huấn luyện cao và trong một số trường hợp cần nhiều máy tính song song để tính
tốn. Bên cạnh đó, phương pháp học sâu yêu cầu nhà nghiên cứu phải thử các tham số để
có kết quả tốt nhất mà khơng có công thức hay lý thuyết cụ thể chung nào. Chi tiết về học
sâu sẽ được trình bày ở phần Error: Reference source not found.
Tuy nhiên, với bài toán dự đoán chỉ số bụi mịn để đánh giá chất lượng môi trường, Deep
Learning là một công cụ mạnh mẽ để giải quyết bài toán khi mà số lượng các trường dữ
liệu và bản ghi nhiều, việc tiền xử lý data tốn nhiều thời gian nếu không xử lý phương
pháp học sâu.
15
1.6 Giới thiệu về Long-Short Term Memory
1.6.1 LSTM
Mạng LSTM (Long Short Term Memory) là một dạng của mạng nơ-ron hồi quy (RNN).
Mạng RNN là một dạng của mạng nơ ron nhân tạo nhưng RNN được gọi là mạng nơ ron
hồi quy vì nó thực hiện cùng tác vụ đối với tất cả các phần tử với đầu ra (trạng thái ẩn) của
bước tính tốn trước là đầu vào cho bước tính tốn tiếp theo. Khơng như mạng nơ ron
truyền thống, mạng RNN có thể lưu giữ thơng tin được tính trước đó. Do đó mạng RNN có
nhiều lợi ích khi xử lý dữ liệu dạng chuỗi, tuy nhiên RNN có điểm yếu là có thể đối mặt
với mất gradient và bùng nổ gradient. Vì vậy về lý thuyết RNN có thể ghi nhớ một đoạn
văn dài, nhưng thực tế thì chỉ nhớ được khơng nhiều.
Hình 1 Cấu trúc mạng RNN [24].
Trong Hình 1, lần lượt là các dữ liệu đầu vào tại thời điểm t, t+1, t+2. là các trạng thái ẩn
tại thời điểm t, t+1, t+2 tương ứng, và chúng thường được tính bởi hàm activation. là dữ
liệu đầu ra tại thời điểm t, t+1, t+2. Trạng thái ẩn được khởi tạo với giá trị 0. W, V, U là các
ma trận trọng số.
LSTM giải quyết vấn đề của RNN và uu điểm nổi bật của LSTM so với các dạng khác của
RNN là khả năng học các phụ thuộc ở xa. Một câu văn dài có thể được LSTM học và ghi
nhớ những yếu tố quan trọng từ ngay đầu câu văn – điều mà các mạng RNN khác không
làm được.
16
Hình 2 chỉ ra cấu trúc của LSTM, được cấu thành bởi ba thành phần nổi trội là ba cổng:
cổng “quên” (forget gate), cổng “cập nhật” (update gate), cổng “đầu ra” (output gate).
Trong Hình 2 và Cơng thức 1 Cơng thức LSTM dưới đây, là dữ liệu đầu vào tại thời điểm ,
và là activation tại thời điểm t-1 và t, và là ô nhớ tại thời điểm t-1 và t, dùng để cập nhật
lại . là giá trị đầu ra của cổng “quên”, là giá trị đầu ra của cổng “cập nhật”, là giá trị đầu
ra của công “đầu ra”. Công thức LSTM như sau:
Công thức 1 Công thức LSTM [40].
Trong đó:
•
•
17
là các ma trận trọng số.
là các hệ số.
Hình 2 Cấu trúc LSTM [40].
1.6.2 BiLSTM
BiLSTM là việc sử dụng hai lớp LSTM. LSTM chỉ ghi nhớ thông tin ở quá khứ vì dữ liệu
đầu vào bắt đầu từ quá khứ. Nhờ BiLSTM sử dụng hai lớp LSTM, một lớp nhận dữ liệu từ
quá khứ, một lớp nhận dữ liệu từ tương lai, chúng chạy hai chiều ngược nhau. Kết quả của
hai lớp này sẽ được kết hợp để lưu giữ thông tin từ quá khứ và tương lai. Điều này có thể
tăng độ chính xác cho bài tốn với dữ liệu là dạng chuỗi thời gian. Vì quan trắc môi trường
bị ảnh hưởng bởi thời gian, khoảng thời gian mà chất lượng khơng khí tệ nhất có thể bị ảnh
hưởng theo mùa, do đó với BiLSTM có thể biết được thời gian từ cả quá khứ và tương lai,
giúp việc học được chính xác hơn.
Hình 3 thể hiện kiến trúc của BiLSTM, trong đó , , là dữ liệu đầu vào tại các thời điểm t,
t+1, t+2. , , là kết quả đầu ra tại các thời điểm t, t+1, t+2. là các trạng thái ẩn tại các thời
điểm t, t+1, t+2 của lớp LSTM nhận dữ liệu từ quá khứ, là các trạng thái ẩn tại các thời
điểm t, t+1, t+2 của lớp LSTM nhận dữ liệu từ tương lai.
18
Hình 3 Kiến trúc BiLSTM [41].
1.7 Mơ hình Encoder Decoder
Mơ hình Sequence to Sequence hay cịn được gọi là Encoder Decoder được đề xuất bởi
Sutskever et al. [6] và ngày nay đã được sử rụng rộng rãi trong Deep Learning để xử lý dữ
liệu dạng chuỗi. Mục đích ban đầu của mơ hình này là giải quyết bài tốn xử lý ngôn ngữ
tự nhiên. Từ đầu vào là một chuỗi các từ , sau khi qua mơ hình Encoder Decoder, tạo ra
một chuỗi các từ với độ dài khác nhau , với m và n lần lượt là độ dài của chuỗi đầu vào và
đầu ra. Thông thường mạng RNN hoặc GRU hoặc LSTM được sử dụng cho mơ hình này
tùy vào mục đích của bài tốn. Đặc biệt, LSTM để giải quyết vấn đề về phụ thuộc xa, ghi
nhớ và lưu trữ mối quan hệ của các thông tin phụ thuộc vào ngữ cảnh của câu văn. Trong
bài toán mà đồ án này giải quyết, đầu vào và đầu ra của mơ hình này là các chuỗi thời gian
do người tự định nghĩa.
Mơ hình Sequence to Sequence cịn được gọi là mơ hình Encoder Decoder vì nó gồm hai
phần chính: bộ Encoder và bộ Decoder. Bộ Encoder nhận đầu vào là một chuỗi thời gian
có thời gian bắt đầu và kết thúc bất kì theo định dạng thời gian của bộ dữ liệu. Encoder tạo
ra một trạng thái ẩn “Encoder State”. Trạng thái ẩn này đóng gói tất cả thơng tin của các dữ
liệu đầu vào, sau đó được đưa vào bộ Decoder để khởi tạo trạng thái ẩn.
Hình 4 dưới đây mơ tả mơ hình Sequence to Sequence sử dụng LSTM, , , là dữ liệu đầu
vào tại các thời điểm t, t+1, t+2, t+3. , , là kết quả đầu ra tại các thời điểm t, t+1, t+2. Bộ
Encoder sẽ nhận từng thành phần trong chuỗi thời gian đầu vào, sau đó tạo ra một trạng
19
thái ẩn cuối, đưa vào bộ Decoder. Độ dài chuỗi đầu vào và đầu ra là tùy người dùng, trong
trường hợp này ta có chiều dài đầu vào là 4 và đầu ra là 3.
Hình 4 Mơ hình Encoder Decoder sử dụng RNN.
1.8 Feature Engineering
Feature Engineering là kĩ thuật biến đổi dữ liệu gốc ban đầu thành một tập dữ liệu có cấu
trúc tốt hơn, tạo điều kiện thuận lợi cho việc giải quyết bài toán, phù hợp với từng model
cụ thể để tăng độ chính xác và giảm lỗi. Feature Engineering giúp trích xuất ra các thuộc
tính có ảnh hưởng nhất tới model đang sử dụng để giản hóa độ phức tạp tính tốn, giúp
giảm thời gian huấn luyện, dễ dàng diễn giải cho người dùng và giúp người dùng có thể
đưa ra được quyết định tốt hơn mà khơng biết thuộc tính nào có ảnh hưởng tới kết quả dự
đốn.
Do bài tốn dự đốn chỉ số mơi trường có nhiều thuộc tính đầu vào như: thời gian, tốc độ
gió, hướng gió, nhiệt độ, độ ẩm, phóng xạ, gây nhiễu cho cả người dùng và model, nên
việc có một bộ dữ liệu tinh gọn sẽ giúp cải thiện độ chính xác cho việc dự đốn chỉ số bụi
mịn.
1.8.1 Độ quan trọng của thuộc tính
Đánh giá độ quan trọng của thuộc tính giúp các nhà phân tích dữ liệu đưa ra quyết định
xem những thuộc tính nào nên đưa vào đữ liệu để huấn luyện. Có nhiều phương pháp để
đánh giá độ quan trọng của thuộc tính, sau khi đánh giá mỗi thuộc tính sẽ có một điểm xếp
hạng riêng. Điểm số càng cao thì thuộc tính đó sẽ được đưa vào quá trình huấn luyện,
20
những thuộc tính có điểm số thấp có thể sẽ bị lược bỏ. Một số mơ hình có thể đưa ra độ
quan trọng của thuộc tính sau khi học dữ liệu là Random Forest hay XGBoost.
1.8.2 Trích xuất thuộc tính
Trong một số bài tốn, các dữ liệu có nhiều thuộc tính, làm cho bộ dữ liệu đầu vào đồ sộ,
khiến q trình học tốn nhiều thời gian và có thể gây kết quả khơng được chính xác bởi các
thuộc tính khơng liên quan đến mục tiêu. Phương pháp trích xuất thuộc tính là việc giảm số
chiều của dữ liệu sao cho dữ liệu thô ban đầu đơn giản và tinh gọn hơn trước khi được xử
lý tiếp và cho vào mơ hình huấn luyện. Phương pháp này giúp mơ hình dự đoán giảm thời
gian huấn luyện đi rõ rệt. Tùy vào bài tốn mà có các phương trích xuất thuộc tính khác
nhau.
1.8.3 Lựa chọn thuộc tính
Các thuộc tính trong mỗi bài tốn sẽ có tầm quan trọng và ảnh hưởng tới thuộc tính mục
tiêu khác nhau. Có những thuộc tính cần thiết cho việc dự đốn, có những thuộc tính là dư
thừa cần phải loại bỏ do không phù hợp với bài tốn đang xét. Phương pháp lựa chọn thuộc
tính giúp lựa ra tập thuộc tính con từ tập thuộc tính cha ban đầu cho phù với bài tốn. Có
nhiều thuật tốn áp dụng cho việc lựa chọn thuộc tính này như đánh giá mối tương quan và
phương pháp thử và sai. Một số mơ hình tốn học Spearsman, Kendall, Pearsons, có thể
đánh giá mối tương quan giữa các thuộc tính, dựa vào đó ta có thể có bộ thuộc tính mong
muốn. Một số mơ hình có thể tìm ra tập thuộc tính bằng cách thử và sai, xây dựng và đánh
giá mơ hình thơng qua các hệ số đo lường thơng qua từng tập thuộc tính con thu được.
1.8.4 Xây dựng đặc trưng mới
Xây dựng đặc trưng mới là cơng việc mang tính chất đặc thù địi hỏi nhà nghiên cứu bỏ
nhiều thời gian và công sức. Để xây dựng được đặc trưng mới thì khơng có mơ hình nào có
thể tự động được việc này mà cần nhờ đến sức người, do đó xây dựng đặc trưng mới đòi
hỏi sự sáng tạo và thực nghiệm nhiều trường hợp khác nhau.
1.9 Ensemble Learning
Ensemble Learning – học kết hợp là q trình sử dụng nhiều các mơ hình học kết hợp để
giải quyết một vấn đề nhất định. Ý tưởng của kĩ thuật này là mỗi mơ hình sẽ có những
điểm mạnh khác nhau, khơng có một mơ hình hoạt động hiệu quả xun suốt cho tồn bộ
q trình, do đó việc kết hợp kết quả của từng việc nhỏ từ mỗi model khác nhau sẽ cải
thiện được kết quả cuối so với chỉ dùng một mơ hình đơn lẻ. Hình 5 dưới đây thể hiện một
21
cấu trúc cơ bản của Ensemble Learning. Dữ liệu được đưa vào một tập các mơ hình khác
nhau, sau đó một mơ hình khác tổng hợp lại kết quả và đưa ra kết quả cuối cùng.
Hình 5 Cấu trúc cơ bản của học kết hợp.
Có nhiều dạng cho kĩ thuật Ensemble Learning, tuy nhiên có ba loại phổ biến hiện nay:
Bagging, Boosting, Voting.
Kĩ thuật Bagging là kĩ thuật chia tập dữ liệu ban đầu ra thành nhiều tập dữ liệu con và việc
lựa chọn ra tập dữ liệu là ngẫu nhiên. Sau khi có được các tập dữ liệu con thì chúng được
đưa vào một tập các model (thường là cùng loại) để huấn luyện. Kết quả cuối cùng được
tập hợp lại từ từng model con. Sơ đồ mô tả kĩ thuật Bagging được thể hiện trong Hình 6
dưới đây.
22
Hình 6 Sơ đồ mơ tả kĩ thuật Bagging .
Kĩ thuật Boosting là một dạng của kĩ thuật học tuần tự. Sơ đồ mơ tả được thể hiện ở Hình
7. Thuật tốn sử dụng tồn bộ dữ liệu mà khơng chia nhỏ ra như kĩ thuật Bagging, cũng sử
dụng một tập các model (thường là cùng loại) và từng model con sẽ học cách sửa những lỗi
từ model trước, và chúng tạo thành một chuỗi. Theo cách này, các dữ liệu được quan sát
được đánh giá kém ở model trước sẽ được đánh trọng số cao. Khi mà một chuỗi các model
đã được dựng nên, kết quả dự đoán được đánh trọng số dựa vào độ chính xác và các kết
quả đó sẽ được kết hợp để đưa ra đầu ra cuối cùng. Một số model sử dụng kĩ thuật
Boosting là XGBoost, Gradient Boosting Machine, Adaptive Boosting. Đối với bài toán
mà đồ án này giải quyết, kĩ thuật XGBoost được lựa chọn, lý do được giải thích kĩ ở mục
1.12.2.
23
Hình 7 Sơ đồ mơ tả kĩ thuật Boosting .
Kĩ thuật Voting là một trong các kĩ thuật đơn giản nhất của Ensemble Learning. Kĩ thuật
này bắt đầu bằng việc tạo ra từ hai hay nhiều model con (thường là khác loại) với tập dữ
liệu sử dụng giống nhau. Sau đó mơ hình dựa vào kĩ thuật Voting sẽ gói các model con đó
và tích hợp các dự đốn của chúng để sử dụng cho việc dự đoán dữ liệu mới. Các kết quả
dự đoán từ các model con được đánh trọng số, tích hợp xếp chồng (Stacked Aggregation)
là một kĩ thuật sử dụng để đánh trọng số hiệu quả nhất. Hình 8 dưới đây là sơ đồ mơ tả kĩ
thuật Voting.
24
Hình 8 Sơ đồ mơ tả kĩ thuật Voting .
1.10 Phương pháp nghiên cứu
Các phương pháp nghiên cứu bao gồm (i) Khảo sát tình hình nghiên cứu hiện nay đối với
bài tốn đang xét, (ii) Đề xuất mơ hình học sâu giải quyết bài toán dự đoán các chỉ số quan
trắc môi trường, (iii) Thử nghiệm, đánh giá hiệu năng của mơ hình đề xuất và so sánh với
các mơ hình được đề xuất bởi các nhóm khác.
1.11 Kết chương
Qua Error: Reference source not found, cơ sở lý thuyết áp dụng vào mơ hình đã được mơ
tả chi tiết. Deep Learning đóng vai trị cốt lõi trong việc dự đốn chỉ số bụi mịn, trong đó
LSTM và mơ hình Sequence to Sequence được sử dụng là thành phần chính. Feature
Engineering góp phần đưa ra một bộ dữ liệu tinh gọn và cải thiện độ chính xác của mơ
hình đề xuất. Để có cái nhìn tồn cục và chi tiết về mơ hình đề xuất, Error: Reference
source not found sẽ mơ tả chi tiết điều này.
Chương 4 Mơ hình đề xuất
25