Tải bản đầy đủ (.pdf) (24 trang)

Luận án tiến sĩ nghiên cứu ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 24 trang )

MỞ ĐẦU
1. Sự cần thiết của đề tài
Theo Rob và George [1], thuật ngữ dự báo nói chung đề cập đến thực tiễn
dự đoán sự kiện trong tương lai một cách chính xác nhất dựa trên các thông
tin sẵn có bao gồm dữ liệu về các sự kiện trong quá khứ cũng như hiện tại và
các thông tin kiến thức của một sự kiện khác có thể ảnh hưởng đến sự kiện
được dự báo. Mặt khác, thuật ngữ chất lượng không khí (CLKK) dùng để chỉ
tình trạng hóa học của khí quyển tại một thời điểm và địa điểm nhất định.
Cũng như thời tiết, CLKK ảnh hưởng trực tiếp đến sức khỏe con người khi
nồng độ của các chất ô nhiễm trong không khí vượt quá mức cho phép, tiếp
xúc với thời gian ngắn có thể gây ra các phản ứng cấp tính như cay mắt, khó
thở. Khi tiếp xúc với thời gian dài có thể gây ra các bệnh mãn tính về hệ hô
hấp, tim mạch và có thể cả ung thư đặc biệt là đối với người già và trẻ em.
Ngoài ra, ô nhiễm không khí còn có thể gây ra các ảnh hưởng xấu đến hệ sinh
thái tự nhiên như suy giảm chất lượng không khí (giảm tầm nhìn, gây mưa
axit…), biến đổi khí hậu, giảm chất lượng nước và đất [2]. Chính vì vậy, bên
cạnh công tác quan trắc thì dự báo và giám sát diễn biến của các tác nhân gây
ô nhiễm có vai trò rất quan trọng trong công tác quản lý CLKK. Hiện nay, các
mô hình dự báo diễn biến nồng độ các chất ô nhiễm không khí đang phát triển
mạnh và trở thành một trong những công cụ hữu hiệu trong đánh giá và quản
lý chất lượng không khí. Trong công tác đánh giá CLKK, mô hình có thể hỗ
trợ và tối ưu hóa mạng lưới quan trắc CLKK, cung cấp thông tin một cách
toàn diện hơn về tình trạng chất lượng không khí cũng như thông tin về mức
độ hoạt động của các nguồn gây ô nhiễm [1]. Về mặt quản lý, khi dự báo
được CLKK trong tương lai các cơ quan hữu trách có thể cảnh báo và đưa ra
các chiến lược kiểm soát tốt hơn [3, 4].
Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng
mạng nơron nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều
quốc gia trên Thế giới [2], có thể kể đến ở đây như dự báo nồng độ bụi PM10
[5], dự báo nồng độ ôzôn [6-8], hoặc một số chất ô nhiễm khác như SO2, NOx,
VOC… [9-13] sử dụng các kiến trúc mạng nơron kết nối đầy đủ - FN với cấu


trúc truyền thuận (FFNN) đặc biệt như MLP hay như một số mô hình ứng
dụng mạng nơron hồi quy thông thường (RNN) như mạng tự hồi quy phi
tuyến với biến ngoại sinh (NARX) [9] và Vanilla RNN [14]. Trong những
năm gần đây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn
luyện, giảm tiêu tốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể
đến ở đây như mạng nơron tích chập (CNN) [15-16], mạng bộ nhớ dài – ngắn
1


(LSTM) [15-17]... Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt
Nam nói chung và đặc biệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ
nhân tạo còn khá mới mẻ và theo hiểu biết của tác giả hiện có rất ít các nghiên
cứu liên quan đến lĩnh vực này. Xuất phát từ thực tế đó, đề tài “Nghiên cứu
ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí” đã được lựa
chọn nhằm khởi động và thúc đẩy hướng nghiên cứu mới này tại Việt Nam,
góp phần vào công tác quản lý và bảo vệ môi trường không khí ở nước ta.
2. Mục đích nghiên cứu
- Ứng dụng kỹ thuật trí tuệ nhân tạo để giải quyết bài toán bổ khuyết dữ
liệu quan trắc chất lượng không khí bị trống.
- Nghiên cứu thử nghiệm mô hình dự báo thống kê chất lượng không khí
ứng dụng các kỹ thuật trí tuệ nhân tạo.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Các thông số chất lượng không khí cơ bản gồm 09 thông số:
+ Nhóm thông số ô nhiễm dạng bụi: PM10, PM2.5 và PM1
+ Nhóm thông số ô nhiễm dạng khí: NO, NO2, NOx, CO, SO2 và O3
- Một số kỹ thuật học máy để xây dựng mô hình dự báo thống kê chất
lượng không khí, tập trung vào hai kỹ thuật trí tuệ nhân tạo mới gồm
mạng nơron tích chập (CNN) và mạng bộ nhớ dài – ngắn (LSTM).
Phạm vi nghiên cứu: Các thông số cơ bản về chất lượng không khí tại

trạm quan trắc số 556, phường Gia Thụy, quận Long Biên, Hà Nội trong
thời gian từ 2010 đến 2018 trong thời gian từ 2010 đến 2018.
4. Các đóng góp mới của luận án
 Về phương pháp
- Bổ khuyết dữ liệu quan trắc CLKK bằng cách tiếp cận sử dụng các
công cụ máy học (machine learning), mà cụ thể là mô hình
ARIMA.
- Một cách tiếp cận tích hợp ba phương pháp bao gồm xử lý dữ liệu
ngoại vi bằng biểu đồ hộp, bổ khuyết dữ liệu bằng công cụ máy học
ARIMA và xác định luật phân bố dữ liệu quan trắc CLKK đã được
sử dụng để trích xuất thông tin của CLKK từ dữ liệu CLKK. Đây là
một cách tiếp cận mới và khả thi để trích xuất thông tin của CLKK

2


từ dữ liệu quan trắc CLKK phục vụ cho các công tác nghiên cứu và
quản lý chất lượng không khí.
 Về kết quả cụ thể
- Mô hình dự báo chất lượng không khí ứng dụng mạng nơron tích
chập (CNN) kết hợp với khối bộ nhớ dài – ngắn (LSTM) được
nghiên cứu thử nghiệm.
- Cung cấp một bộ dữ liệu đầy đủ, đồng bộ và liên tục cho một quãng
thời gian dài (9 năm) về nồng độ trung bình giờ của các chất ô
nhiễm không khí cơ bản ở Hà Nội để phục vụ công tác nghiên cứu
và quản lý chất lượng không khí.
- Thông tin về sự thay đổi nồng độ các chất ô nhiễm không khí theo
thời gian (bao gồm biến trình trong ngày,diễn biến theo mùa và xu
hướng diễn biến chất lượng không khí dài hạn (trend)); về mối
tương quan giữa chúng với nhau và mối tương quan giữa chúng với

các yếu tố khí tượng trong giai đoạn 2010 - 2018 tại trạm Nguyễn
Văn Cừ, Gia Lâm, Hà Nội.
5. Bố cục của luận án
Mở đầu
Chương 1. Tổng quan
Chương 2: Phương pháp nghiên cứu
Chương 3: Kết quả và thảo luận
Kết luận và kiến nghị
CHƯƠNG 1. TỔNG QUAN
1.1. Chất lượng không khí và vấn đề dự báo
1.1.1. Chất lượng không khí và ảnh hưởng của nó đến sức khỏe

Chất lượng không khí đã và đang là một trong những vẫn đề được quan
tâm của các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro
tiềm ẩn của nó đến sức khỏe người dân và hệ sinh thái. Theo tổ chức Y tế Thế
giới – WHO, ước tính trong năm 2012, ô nhiễm không khí là nguyên nhân
gây ra gần 7 triệu ca tử vong, chiếm 10% trong số các ca tử vong do tất cả các
nguyên nhân [18]. Trong đó, theo ước tính có khoảng 9% do nguyên nhân ung
thư phổi, 17% do các bệnh phổi mạn tính, 30% do các nguyên nhân như bệnh
tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm không khí, và 9% do

3


nhiễm trùng đường hô hấp [18]. Điều này cho thấy, nếu công tác dự báo
CLKK được thực hiện tốt như đối với dự báo khí tượng thì sẽ giúp người dân
có thể chủ động hơn với các hoạt động giảm thiểu mức độ ảnh hưởng tiêu cực
của ô nhiễm không khí đến sức khỏe, nâng cao hiểu biết và ý thức bảo vệ môi
trường, đặc biệt là không khí. Ngoài ra, dựa vào đó, các cơ quan có các chính
sách và chiến lược quản lý CLKK kịp thời hơn.

1.1.2. Dự báo chất lượng không khí
Các mô hình dự báo CLKK hiện nay có thể được chia thành ba loại dựa
vào phương pháp tiếp cận của chúng gồm phương pháp tiếp cận thực nghiệm
đơn giản, phương pháp thống kê tham số hoặc phi tham số và phương pháp
tiếp cận dự trên cơ sở vật lý nâng cao.
Phương pháp tiếp cận theo thực nghiệm đơn giản [2]: Một số mô hình
nổi bật trong nhóm này có thể kể đến ở đây, mô hình dự báo CLKK tiếp cận
theo phương pháp quán tính (Persistence), mô hình khí hậu (Climatology) và
cách tiếp cận khác dựa vào lý thuyết kinh nghiệm (empiricism).
Phương pháp tiếp cận dựa trên các cơ sở vật lý nâng cao [2]: còn được
gọi là mô hình số trị hay là các mô hình lan truyền hóa học (CTMs hoặc
AQMs), nó mô tả rõ ràng các quá trình khí tượng, vật lý và hóa học chính dẫn
đến sự hình thành và tích tụ chất ô nhiễm trong không khí trên cơ sở các mối
tương quan về định luật bảo toàn khối lượng của các chất ô nhiễm không khí
với nhau, các mối quan hệ hóa học (phản ứng hóa học) của chúng trong không
khí và trạng thái vật lý của các chất ô nhiễm này tại thời điểm cần dự báo.
Phương pháp tiếp cận thống kê tham số hoặc phi tham số [2]: các mô
hình dự báo thống kê dựa trên thực tế là các thông số khí tượng và các thông
số CLKK có mối liên hệ chặt chẽ với nhau về mặt thống kê. Chính vì vậy, nó
sử dụng các mô hình thống kê khác nhau từ đơn giản như hồi quy tuyến tính –
LR, cây phân lớp và hồi quy – CART, cho đến các công cụ phức tạp hơn như
bộ lọc Kalman (KF), mạng nơron nhân tạo – ANN, máy véctơ hỗ trợ – SVM,
lô-gíc mờ - FL, … Tình hình nghiên cứu và ứng dụng trí tuệ nhân tạo trong
dự báo chất lượng không khí trong nước.

4


1.2. Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí
1.3. Phương pháp tiền xử lý dữ liệu cho các mô hình dự báo

thống kê
1.3.1. Các phương pháp xử lý dữ liệu ngoại vi
+ Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch chuẩn (SD).
+ Phương pháp phát hiện dữ liệu ngoại vi theo độ lệch tuyệt đối trung bình (MAD).
+ Phương pháp phát hiện dữ liệu ngoại vi bằng biểu đồ hộp (Box và
Whisker).
1.3.2. Phương pháp bổ khuyết dữ liệu
Trên thực tế dữ liệu ghi nhận tại các trạm quan trắc CLKK luôn
tồn tại một lượng không nhỏ dữ liệu trống hoặc lỗi do nhiều nguyên nhân
(mất điện, bảo trì, lỗi thiết bị ...) [71], nó gây ảnh hưởng không nhỏ đến công
tác khai thác dữ liệu CLKK vào các mục đích nghiên cứu cũng như quản lý
CLKK hiện nay. Để giải quyết vấn đề này, có nhiều phương pháp để dự đoán
và điền (bù) lại các giá trị đã mất phổ biến như hồi quy tuyến tính, nội suy
Spline, hồi quy phi tuyến [78-79]...
1.4. Mô hình trí tuệ nhân tạo
1.4.1. Mô hình ARIMA
Mô hình ARIMA được Box và Jenkins đề xuất năm 1970 [80, 81], là
một mô hình phân tích dữ liệu theo chuỗi thời gian được kết hợp bởi hai thành
phần (mô hình con) gồm mô hình tự hồi quy (Autoregressive - AR) và mô
hình trung bình trượt (Moving average – MA), được mô tả tóm tắt dưới đây:
+ Mô hình tự hồi quy (Autoregressive – AR):
yt  1yt 1   2 yt 2  ...   p yt  p  zt

(1.1)

+ Mô hình trung bình trượt (Moving average – MA
yt   0 yt  1yt 1  ...   q yt q

(1.2)


Kết hợp hai mô hình trên thành một mô hình có tham số (p, q) được gọi
là ARMA, trong đó p là tham số của mô hình AR và q là tham số của mô hình
MA, được trình bày trong phương trình (1.4) dưới đây:

5


yt  1yt 1  ...   p yt  p  zt  1zt 1  ...   q zt q

(1.4)

1.4.2. Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và
Pitt (1943), là một cấu trúc toán học mô tả lại hệ thần kinh sinh học. Chúng
được tạo thành từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần
kinh) [83]. Mỗi nơron nhận tín hiệu từ các nơron khác hoặc từ bên ngoài
thông qua synape. Tại đây, thông tin được xử lý thông qua một hàm truyền
(transfer function) để tạo thành tín hiệu truyền đến nơron khác dựa trên kinh
nghiệm đã được học tập trước đó. Mô hình toán của ANN được thể hiện trong
Hình 1.1.

Hình 1.1. Mô hình toán của một tế bào thần kinh (Nguồn [83]).
1.4.3. Máy hỗ trợ véc tơ (SVM)
Thuật toán SVMs được phát triển bởi Vapnik (1995) [33] dựa trên lý
thuyết thống kê, ban đầu được sử dụng trong các bài toán phân lớp dữ liệu.
Thuật toán SVMs sử dụng các mô hình tuyến tính để phân chia ranh giới giữa
các lớp phi tuyến bằng cách mô tả dữ liệu đầu vào bằng một ánh xạ phi tuyến,
nói cách khác đó là sự biến đổi không gian ban đầu thành một không gian
mới. SVMs là thuật toán cơ sở của mô hình tuyến tính đặc biệt: Lề tối đa siêu
phẳng. Trong đó, các lề siêu phẳng này chính là ranh giới phân chia các lớp

dữ liệu. Mục tiêu chính của bài toán chính là hồi quy gần đúng một hàm g(x)
N

từ một bộ mẫu G  x    xi , yi i 1 .
1.4.4. Mạng nơron tích chập (CNN)
Mạng nơron tích chập (convolutional neural network) là một loại mạng
nơron nhân tạo đã được chứng minh tính hiệu quả của nó trong nhiều lĩnh vực
phức tạp như xe tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển
6


rô bốt. Được giới thiệu và phát triển trong thập niên 90 của thế kỷ XX, kiến
trúc LeNet được đề xuất bởi Yann LeCun được coi là một trong những mạng
nơron tích chập đầu tiên và được thiết kế trong mô hình nhận dạng chữ in và
viết tay được gọi là LeNet5 đã giúp thúc đẩy sự phát triển mạnh mẽ của lĩnh
vực học sâu (deeplearning). Một số kiến trúc mạng tích chập mới được đề
xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụng các khái
niệm và phương pháp tiếp cận chính từ LeNet [42].
1.4.5. Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất
bởi Sepp Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ
bao gồm tế bào và hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được
hoàn thiện hơn bởi Gers Felix [94] khi thêm cổng quên (foget gate) và các kết
nối giám sát (peephole conections). LSTM chứa một cổng vào (input gate),
một cổng đầu ra (output gate) và một cổng quên (foget gate), sự tương tác qua
lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc của
dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải
quyết được. Ngoài ra, một vấn đề gặp phải phổ biến trong các mạng nơron sâu
(nhiều lớp) được gọi là mất độ dốc (gradient descent), tức là, tốc độ học của
các lớp ẩn phía trước chậm hơn các lớp ẩn sâu hơn. Hiện tượng này thường

làm giảm độ chính xác khi số lớp ẩn tăng lên. Tuy nhiên, với cấu trúc ô nhớ
của LSTM có thể giải quyết hiệu quả vấn đề suy giảm độ dốc trong quá trình
lan truyền ngược (backpropagation) [15] và có thể phân tích chuỗi dữ liệu đầu
vào với bước thời gian dài hơn. Do đó, LSTM thường được sử dụng để giải
quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian.
CHƯƠNG 2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình nghiên cứu
Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các
bước chính được tóm tắt dưới đây:
Bước 1. Thu thập dữ liệu từ trạm quan trắc CLKK.
Bước 2. Làm sạch và chuẩn bị dữ liệu:
- Xử lý dữ liệu ngoại vi.
- Bổ khuyết dữ liệu.
- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết.
Bước 3. Xây dựng và đánh giá mô hình nghiên cứu.
7


- Xây dựng kiến trúc mô hình CNN-LSTM.
- Huấn luyện mô hình.
- Đánh giá độ tin cậy của mô hình.
Bước 4. Thực hiện mô hình
2.2. Thu thập dữ liệu
2.2.1. Địa điểm và thời gian thu thập dữ liệu
a. Địa điểm thu thập dữ liệu
Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ
trung bình giờ của các thông số CLKK được đo tại trạm quan trắc CLKK tự
động thuộc quyền quản lý của Trung tâm quan trắc Môi trường Miền Bắc
(CEM), Tổng cục Môi trường đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà
Nội, tương ứng với tọa độ 21°02'55.6"N và 105°52'57.4"E (Hình 2.1 trong

quyển thuyết minh luận án).
b. Thời gian thu thập dữ liệu
Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ,
Gia Lâm, Hà Nội trong 09 năm từ tháng 7 năm 2010 đến 31 tháng 12 năm
2018.
Bộ dữ liệu bao gồm 23 thông số, được trình bày chi tiết trong Bảng II.1
phần Phụ lục II (quyển thuyết minh luận án).
2.2.2. Thông số kỹ thuật và phương pháp đo đạc tại trạm quan
trắc
Được trình bày trong Bảng 2.1 (quyển thuyết minh luận án)
2.3. Làm sạch và chuẩn bị dữ liệu
2.3.1. Xử lý dữ liệu ngoại vi
Các bước thực hiện quá trình xử lý dữ liệu ngoại vi được trình bày trong
Hình 2.2 (quyển thuyết minh luận án).
2.3.2. Bổ khuyết dữ liệu
Trong luận án này, mô hình ARIMA được lựa chọn sử dụng để bổ
khuyết các giá trị bị khuyết thiếu (trống) trong bộ dữ liệu nghiên cứu.

8


2.3.3. Kiểm tra độ tin cậy của bộ dữ liệu sau khi đã bổ khuyết
- Xác định và kiểm tra tính đồng nhất về luật phân bố xác suất của dữ
liệu.
- So sánh, đánh giá giá diễn biến nồng độ của các thông số CLKK
được nghiên cứu trước và sau khi bổ khuyết.
2.3.4. Chuẩn hóa dữ liệu đầu vào cho mô hình dự báo
Được thực hiện qua hai bước:
Bước 1. Chia tỷ lệ thuộc tính (feature scaling): Trong bước này, giá trị
(nồng độ) của các thông số được nghiên cứu trong bộ dữ liệu được chuẩn hóa

về khoảng giá trị từ 0 đến 1 theo công thức (2.6) (quyển thuyết minh luận án).
Bộ dữ liệu sau khi đã được chuẩn hóa về khoảng giá trị 0;1 , dữ liệu đầu
vào của mô hình sẽ được cài đặt theo mẫu sau:
target  Yt 1

 Xt 



X t 1 


input    




 X t n 

(2.7)

Bước 2: Bộ dữ liệu sau khi đã được chuẩn hóa ở bước trên sẽ được chia
thành hai phần, một phần dùng để huấn luyện (training) mô hình và phần còn
lại được dùng đề hiệu chỉnh và kiểm tra độc lập (testing) mô hình. Tỷ lệ số
lượng và thời gian của hai bộ dữ liệu được phân chia như sau:
- Bộ dữ liệu huấn luyện (training): 90% trên tổng số 78.888 giờ quan
trắc, tương ứng với đoạn dữ liệu liên tục từ 0h00 ngày 01/01/2010 đến
6h00 ngày 6/02/2018.
- Bộ dữ liệu hiệu chỉnh và kiểm tra: 10% trên tổng số dữ liệu, tương ứng
với đoạn dữ liệu từ 7h00 ngày 06/02/2018 đến 23h00 ngày 31/12/2018

2.4. Xây dựng mô hình dự báo thống kê chất lượng không khí
Trong luận án này, với mỗi thông số được nghiên cứu, mạng nơron tích
chập (Convolutional neuron network – CNN) kết hợp với sự hỗ trợ việc ghi
nhớ lại các hành vi (thông tin) của chính thông số quan trắc CLKK được
nghiên cứu, cũng như các thông số phụ thuộc trong quá khứ theo thời gian bởi
các khối mạng bộ nhớ dài-ngắn (long-short term memory – LSTM) đã được

9


nghiên cứu. Qua nghiên cứu, luận án đề xuất sử dụng mô hình CNN-LSTM
(Hình 2.3).

CNN trích xuất đặc trưng

Đầu ra

TimeDist–FC (1,sigm.)

TimeDist–FC (100,ReLu)

LSTM (200,tanh)

Flaten

Reapeat vector (1)

Nồng độ thông số cần dự báo
tại thời điểm t+1


Max pooling (2x2)

Batch Norm.

Conv.1D (32,3x3,ReLu)

Max pooling (2x2)

Batch Norm.

Conv.1D (32,3x3,ReLu)

Đầu vào

(NO, NO 2, NO x,CO, O3, SO2, PM10,
PM2.5, PM1, WS, RH, T, Rad)
từ t-7 đến t

LSTM

Mô hình CNN – LSTM

Hình 2.3. Kiến trúc của mô hình dự báo CLKK được đề xuất.
2.5. Tiến trình thực thi mô hình
Tiến trình thực thi mô hình nghiên cứu được mô tả tóm tắt theo sơ đồ
Hình 2.7 dưới đây.
Dữ liệu đầu vào

Chuẩn hóa DL
(Normalization)

DL huấn luyện

DL kiểm tra

Khởi tạo các tham số của
mô hình CNN-LSTM
Epoch=1

Mô hình CNN-LSTM đã
huấn luyện

(MAE, MSE≤ mong muốn)
hoặc (epoch≥max-epoch)

Tối ưu ADAM

Tính MAE, MSE và
MAPE

Epoch=Epoch+1

Sai

Hiệu chỉnh tham
số (tốc độ học,
trọng số,…)

Huấn luyện mô hình
CNN-LSTM


Tính giá trị dự báo

Tính hiệu suất
(MAE, RMSE, R2)

Kết thúc

Đúng
Kết thúc huấn luyện

Lưu mô hình CNN-LSTM

Hình 2.7. Sơ đồ các bước làm việc của mô hình đề xuất.

10


2.6. Đánh giá hiệu suất của mô hình nghiên cứu
Hiệu suất của mô hình được đánh giá thông qua một số chỉ số thống kê
gồm MAE, RMSE, r và R2.
2.7. Nền tảng và thông số kỹ thuật máy tính
Các mô hình nghiên cứu được xây dựng và thực thi trên hệ thống
Colaboratory của công ty Google. Thông số kỹ thuật của nền tảng cũng như
tài nguyên máy đã sử dụng trong luận án này từ hệ thống Colaboratory được
trình bày dưới đây:
- Ngôn ngữ sử dụng: Python phiên bản 3.6.9
- Môi trường tích hợp (Integrated Development Environment – IDE):
Colaboratory Notebook online trên hệ thống Colab
- Thư viện AI sử dụng: Tensorflow.Keras phiên bản 2.2.0
- Thông số GPU sử dụng để huấn luyện các mô hình nghiên cứu: Google

Colab GPU Tesla T4, RAM 16GB.
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Kết quả phân tích và xử lý dữ liệu đầu vào
3.1.1. Tình trạng dữ liệu và xử lý sơ bộ
3.1.1.1. Tình trạng của bộ dữ liệu thu thập được
Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu nguồn như
trong Hình 3.1.
100

Hà Nội

60

56.8 56.8
53
49.2

49.1

40

Tỷ lệ dữ liệu trống (%)

80

83.2
81.9 82.1

20


22.2
16.8

16.5
13.3 13.4

7.4

6.7

N

EN

LE

YL

OXY

N
EN
ZE
N

MP
-X

TO
LU

E

ET
HY

L-B

TH
C

NZ
EN

BE

4

HC
NM

1

CH

2.5

PM

PM


3

10

O

PM

CO

x

2

SO

2

NO

NO

NO

0

7.4 8.1

Hình 3.1. Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu nguồn.


11


3.1.1.2. Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi
Bảng 3.2. Thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi.
Tỷ lệ dữ liệu trống của các thông số quan trắc CLKK (%)
O3

SO2

NO

NO2

NOx

CO

PM10

PM25

PM1

Trước

22,17

16,85


7,44

8,08

7,44

6,70

13,26

13,43

22,1

Sau

28,67

23,80

8,92

9,09

7,96

11,82

17,39


16,70

28,7

Số DLXL

5037

5411

1139

766

391

4002

3206

2532

2744

Ghi chú: Số DLXL – số dữ liệu được xác định là ngoại vi (bất thường do lỗi)

3.1.2. Kết quả bổ khuyết dữ liệu
3.1.3. Kết quả bù dữ liệu
Mô hình ARIMA đã được lựa chọn và sử dụng trong luận án này được
thử nghiệm trên bộ dữ liệu quan trắc NO nồng độ trung bình giờ gồm 2000

điểm (giờ) liên tục từ 0 giờ ngày 01/01/2011 đến 7 giờ ngày 25/03/2011 (đoạn
dữ liệu liên tục đủ dài). Với giả định các tỷ lệ dữ liệu trống lần lượt là 5%,
10%, 20%, 30%, 40%, 50%, 60% và 80% thì vị trí của các dữ liệu trống này
được xác định một cách ngẫu nhiên, số lượng của chúng tương ứng theo tỷ lệ
dữ liệu trống đã được xác định. Để đánh giá độ tin cậy của mô hình ARIMA
đã chọn, ba phương pháp gồm tự động hồi quy (Autoregressive - AR), hồi
quy tuyến tính (Linear regression, LR) và hồi quy spline tương ứng với 05 mô
hình là AR, LR, Spline bậc 3, Spline bậc 4 và Spline bậc 5 cũng đã được sử
dụng để so sánh và đánh giá độ tin cậy của chúng với nhau. Các giá trị nồng
độ NO được tính toán (dự đoán) từ 06 mô hình này được so sánh với giá trị
thực của bộ dữ liệu gốc. Kết quả được trình bày trong Bảng 3.3 (trong quyển
thuyết minh luận án).
3.1.4. Luật phân bố mật độ xác suất của dữ liệu
Như đã trình bày ở phần trên, việc bù dữ liệu có thể làm mất đi bản chất
phân bố dữ liệu, do vậy, việc so sánh phân bố mật độ xác suất trước và sau
khi bù dữ liệu là điều cần thiết như là một cách khác để kiểm tra độ tin cậy
của các bộ dữ liệu đã bù.

12


Bảng 3.4. Phân bố xác suất của các chất ô nhiễm nhiễm không khí từ 2010 đến 2018.
Năm
2010
2011
2012
2013
2014
2015
2016

2017
2018

PM10

Phân bố xác suất phù hợp nhất
PM2.5
SO2
NO2
O3

CO

Lognormal

Weibull

Lognormal

Weibull

Lognormal

Weibull

Weibull

Gamma

Lognormal


Weibull

Lognormal

Gamma

Gamma

Lognormal

Gamma

Weibull

Gamma

Gamma

Weibull

Gamma

Gamma

Weibull

Gamma

Gamma


Gamma

Lognormal

Gamma

Weibull

Lognormal

Gamma

Gamma

Lognormal

Gamma

Lognormal Lognormal Lognormal
Weibull

Lognormal

Gamma

Lognormal Lognormal Lognormal

Gamma


Lognormal

Gamma

Gamma

Weibull

Gamma

Weibull

Weibull

Weibull

Gamma

Lognormal Lognormal

Từ kết quả phân tích được trình bày trong Bảng 3.4, Bảng I.2 và Bảng
I.3 trong phần Phụ lục I, cho thấy, các thông số quan trắc khác nhau, và ngay
cả cùng một thông số quan trắc nhưng cũng có thể có phân bố xác suất không
giống nhau theo từng năm, điều này tương đồng với nghiên cứu của Ismail và
cộng sự [108] được tổng hợp từ nhiều nghiên cứu trên nhiều bộ dữ liệu khác
nhau và các nghiên cứu [95, 96] trên các bộ dữ liệu quan trắc CLKK tại thành
phố New Delhi, Ấn Độ.

SO2


O3

40

60

80

NOx

0

3

100 120 140

NO2

NO

20

NO;NO2;NOx ;SO2;O3 (g/m )

3.1.5. Xu hướng diễn biến theo thời gian và tương quan mối
tương quan giữa các thông số

2012

PM10


2013

2014

PM2.5

2015

2016

PM1

2017

2018

4000

CO

150

3000

100

2000

50


1000

3

3

PM10; PM2.5; PM1(g/m )

200

2011

CO (g/m )

2010

0

0
2010

2011

2012

2013

2014


2015

2016

2017

2018

Hình 3.7. Xu hướng diễn biến chất lượng không khí tại trạm quan trắc
Nguyễn Văn Cừ, Gia Lâm, Hà Nội từ 2010 đến 2018.

13


SO2

O3

40

60

80

NOx

0

3


100 120 140

NO2

NO

20

NO;NO2;NOx ;SO2;O3 (g/m )

Xu hướng diễn biến nồng độ trung bình năm của các thông số gây ô
nhiễm không khí có thể thấy trên Hình 3.7. Nhìn chung, nồng độ trung bình
năm cả các thông số này có xu hướng giảm nhẹ trong thời gian nghiên cứu từ
2010 đến 2018 ngoại trừ SO2.

2012

PM10

2013

2014

PM2.5

2015

2016

PM1


2017

2018

4000

CO

150

3000

100

2000

50

1000

3

3

PM10; PM2.5; PM1(g/m )

200

2011


CO (g/m )

2010

0

0
2010

2011

2012

2013

2014

2015

2016

2017

2018

Hình 3.8. Biến trình nồng độ trong ngày của các thông số CLKK tại
trạm Nguyễn Văn Cừ, Gia Lâm, Hà Nội.
Diễn biến nồng độ trung bình ngày của NO, CO, NO2 và O3 trong luận
án này được trình bày trong Hình 3.8 tương tự với diễn biến của các chất ô

nhiễm này trong nghiên cứu của Cohen và cộng sự năm 2010 [111] được thực
hiện tại Hà Nội trong giai đoạn từ 2001 đến 2008 và và Sakamoto và cộng sự
năm 2018 [112] trong giai đoạn 2015 – 2016. Diễn biến nồng độ trung bình
ngày trong nghiên cứu này cũng tương tự như CO, NO và NO2 của thành phố
Hồ Chí Minh được báo cáo trong nghiên cứu của To Thi Hien năm 2019
[113]. Thêm nữa, diễn biến nồng độ trung bình ngày của PM10, CO, NO, NO2
và O3 cũng tương đồng với diễn biến của các thông số này tại Bangkok, Thái
Lan đã được báo cáo trong nghiên cứu của Watcharavitoon và cộng sự năm
2013 [114].
Tất cả các kết quả trên đều cho thấy, mặc dù như đã trình bày trong Mục
3.1 lượng dữ liệu trống trong dữ liệu nguồn là khá lớn, tuy nhiên, mô hình bù
dữ liệu ARIMA đã được sử dụng ở một ý nghĩa nhất định đã đáp ứng được
phần nào việc bảo tồn diễn biến của các thông số CLKK được nghiên cứu. Dữ
liệu sau khi đã được xử lý, bước tiếp theo là lựa chọn các thông số đầu vào
cho mô hình. Để đạt được điều này và tìm ra mối liên hệ nhất định của các
thông số (biến đầu vào của mô hình dự báo) với nhau, hệ số tương quan giữa
các thông số đã được trình bày trong Bảng 3.5 (quyển thuyết minh luận án)
14


cho thấy mối tương quan giữa các thông số được nghiên cứu trong luận án
này. Như đã trình bày ở trên, diễn biến nồng độ của một chất ô nhiễm (thông
số quan trắc CLKK) không chỉ phụ thuộc vào bản chất hóa học của nó mà còn
phụ thuộc vào yếu tố khí tượng trong thời điểm đó gồm (tốc độ gió, hướng
gió, bức xạ mặt trời, lượng mưa...).
Dựa vào các kết quả trên, ngoài các thông số quan trắc CLKK được
nghiên cứu thì các thông số khí tượng có mối tương quan khá bao gồm WS,
Temp, Rad và RH được lựa chọn là thông số đầu vào cho các mô hình dự báo
ứng dụng kỹ thuật dụng kỹ thuật học máy (machine learning).
3.2. Lựa chọn mô hình dự báo

Trong luận án này, để lựa chọn mô hình nghiên cứu phù hợp với điều
kiện về chất lượng dữ liệu hiện có của luận án, một số mô hình học máy thông
thường và một số mô hình học sâu – những mô hình đã được ứng dụng thành
công trong công tác dự báo chất lượng không khí trên thế giới, đã được lựa
chọn để nghiên cứu thử nghiệm. Các mô hình được nghiên cứu thử nghiệm
bao gồm MLP, SVM, CNN, LSTM, GRU và CNN-LSTM. Kết quả được
trình bày trong Bảng 3.6 (quyển thuyết minh luận án).
Từ Bảng 3.6 có thể thấy, hiệu suất của các mô hình mạng nơron thuần
túy gồm MLP, CNN và ngay cả các RNN như LSTM và GRU trên bộ dữ liệu
nghiên cứu đều cho kết quả rất kém. Cụ thể, hệ số xác định R2 của các mô
hình này trên bộ dự liệu kiểm tra độc lập đều dưới 0,1 (R2 của các mô hình
MLP, CNN, LSTM và GRU lần lượt là 0,05; 0,01; 0,01 và 0,01) với tỷ lệ sai
lệch trung bình của giá trị dự báo với giá trị thực MAPE (100*MAE/CTB) tính
theo MAE tương ứng lần lượt là 42,8%; 44,0%; 42,6% và 42,8%. Kết quả này
kém hơn nhiều so với hiệu suất của các mô hình cùng loại đã được báo cáo
trên thế giới. Điều này có thể là do một số nguyên nhân sau. Từ kết quả này,
bước đầu có thể kết luận, với đặc trưng và chất lượng dữ liệu hiện có, các
mạng nơron đơn lẻ không thích hợp để xây dựng mô hình dự báo thống kê
CLKK cho trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội.
Ở chiều ngược lại, mô hình SVM lại cho kết quả tương đối khả quan với
hệ số xác định R2 trên bộ dữ liệu kiểm tra độc lập đạt đến 0,63, tương ứng với
tỷ lệ sai số 100*MAE/CTB là 23,6% tiệm cận với hiệu suất của mô hình SVM
của Kuo-Ping Lin (2011) với 100*MAE/CTB của mô hình dự báo nồng độ
PM10 là 24,4% [93], và các mô hình cùng loại. Một kết quả khá thú vị cũng
được thể hiện trong Bảng 3.6. Đó là, mặc dù hiệu suất của các mô hình CNN
và LSTM đơn lẻ là rất thấp, tuy nhiên, khi kết hợp hai kiến trúc mạng CNN
15


với LSTM với nhau thì hiệu suất thu được rất đáng ngạc nhiên, hiệu suất của

mô hình kết hợp CNN-LSTM này không những được cải thiện mà thậm chí
còn vượt qua mô hình SVM. Cụ thể R2 của mô hình CNN-LSTM đạt đến 0,78
với 100*MAE/CTB là 13,27%. Kết quả này cho thấy, việc kết hợp các giữa
CNN và LSTM đã phát huy được điểm mạnh của cả hai loại kiến trúc mạng
này. Trong đó CNN có nhiệm vụ trích xuất các đặc trưng của dữ liệu trên cơ
sở giữ lại những đặc trưng quan trọng, do đó, dữ liệu đầu vào cho LSTM gần
như đã được loại bỏ các đặc trưng gây nhiễu, đây là nguyên nhân chính làm
cho các mô hình mạng nơron đơn lẻ có hiệu suất rất thấp. Các đặc trưng này
được LSTM ghi nhớ và phân tích diễn biến của chúng theo thời gian để đựa ra
giá trị dự báo, điều này đã giúp mô hình này dự báo chính xác hơn.
Dựa vào tất cả các kết quả trên, mô hình có đạt hiệu suất vượt trội hơn cả
là mô hình CNN-LSTM kết hợp hai kiến trúc mạng nơron đơn lẻ là CNN và
LSTM đã được lựa chọn để nghiên cứu xây dựng thử nghiệm mô hình dự báo
CLKK cho trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội.
3.3. Dự báo nồng độ trung bình giờ
Để xác định độ trễ thời gian thích hợp cho mô hình, một số độ trễ thời
gian đã được thử nghiệm tương ứng là 24, 12, 8, 5 và 3 giờ. Từ kết quả thu
được luận án lựa chọn độ trễ thời gian cho mẫu dữ liệu đầu vào là 8 giờ. Chi
tiết cấu trúc và tham số của mô hình CNN-LSTM đề xuất được trình bày
trong Hình III.1 phần Phụ lục III (Bản thuyết minh luận án).
Hầu hết các mô hình bắt đầu hội tụ ở epochs thứ 90 (Hình 3.9 trong bản
thuyết minh luận án). Do đó, dựa trên kết quả về tốc độ hội tụ của các mô
hình, có thể khuyến nghị số epochs sử dụng để huấn luyện cho mô hình CNNLSTM được đề xuất là 100 cho các trường hợp cần sử dụng mô hình nhanh
hoặc tái huấn luyện mô hình.
3.3.1. Thông số chất lượng không khí dạng bụi
a. Huấn luyện mô hình
Kết quả thống kê hiệu suất của các thông số ô nhiễm dạng bụi được trình
bày trong Bảng 3.7 và Hình 3.10 – 3.11 (quyển thuyết minh luận án) cho thấy,
sau quá trình huấn luyện với 2000 epochs được cài đặt trong luận án này, cả
ba mô hình PM10, PM2.5 và PM1 đều cho kết quả khá ấn tượng. Cụ thể, các chỉ

số đánh giá sự tương quan diễn biến R2 giữa giá trị dự báo từ các mô hình
nghiên cứu và giá trị thực được ghi nhận trong bộ dữ liệu nghiên cứu đều đạt
trên 0,99, cụ thể là 0,996; 0,997 và 0,998 tương ứng với các mô hình dự báo
16


PM10, PM2.5 và PM1 tương ứng. Tỷ lệ phần trăm giá trị sai số trên nồng độ
trung bình MAE/CTB (RMSE/CTB) của các thông số lần lượt là 1,7% (2,4%);
1,7% (2,2%) và 1,2% (1,8%). Điều này bước đầu cho thấy, kiến trúc kết hợp
giữa mạng nơron tích chập và khối bộ nhớ dài ngắn (CNN-LSTM) đáp ứng tốt
với yêu cầu của bài toán đặt ra.

Hình 3.11. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện.
b. Kiểm tra độc lập mô hình
Kết quả kiểm định các mô hình CNN-LSTM cho các thông số ô nhiễm
dạng bụi gồm PM10, PM2.5 và PM1 trên bộ dữ liệu kiểm tra độc lập được trình
bày trong Bảng 3.8 và các Hình 3.12 – 3.13 (trong bản thuyết minh luận án).
Từ Hình 3.12 và Bảng 3.8 có thể thấy, độ chính xác của các mô hình dự
báo nồng độ trung bình giờ của các chất ô nhiễm dạng bụi trên bộ dữ liệu
kiểm tra thấp hơn so với kết quả thử nghiệm trên bộ dữ liệu huấn luyện. Điều
này là do, các kinh nghiệm về diễn biến của các thông số theo thời gian cũng
như các mối liên hệ của thông số cần dự báo và các thông số khí tượng hoặc
tiền chất của nó được mô hình “học” từ bộ dữ liệu huấn luyện, chính vì vậy,
mô hình dự báo tốt hơn với bộ dữ liệu huấn luyện. Tuy nhiên, kết quả này vẫn
cho thấy tín hiệu rất tốt từ mô hình CNN-LSTM được đề xuất trong luận án
này. Cụ thể, R2 của các mô hình PM10, PM2.5 và PM1 lần lượt là 0,77; 0,85 và
0,83, tương ứng với tỷ lệ sai số 100*MAE/CTB (100*RMSE/CTB) lần lượt là
13,27% (20,49%); 12,06% (18,35%) và 14,83% (22,71%). Diễn biến nồng độ
các chất ô nhiễm được dự báo từ mô hình trình bày trong Hình 3.13 có độ phù

hợp tốt với dữ liệu thực được ghi nhận tại trạm quan trắc được.

17


Hình 3.13. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra.
3.3.2. Nhóm thông số ô nhiễm dạng khí
a. Huấn luyện mô hình
Tương tự như kết quả của các thông số ô nhiễm dạng bụi đã được báo
cáo trong Mục 3.3.1, kết quả của các mô hình dự báo các thông số ô nhiễm
dạng khí trên bộ dữ liệu huấn luyện cũng rất lý tưởng. Cụ thể, Độ lệch (sai số)
giữa các giá trị nồng độ được dự báo từ mô hình và dữ liệu thực tế được ghi
nhận là tương đối nhỏ cụ thể tỷ lệ phần trăm giá trị sai số trên nồng độ trung
bình 100*MAE/CTB (100*RMSE/CTB) của các thông số lần lượt là 4,2%
(5,9%); 2,1% (3,0%); 3,5% (4,9%); 4,5% (6,3%); 3,9% (5,2%) và 2,2%
(3,2%) tương ứng của các thông số O3, SO2, NO, NO2, NOx và CO.

Hình 3.15. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện.
Với chất lượng dữ liệu đầu vào với lượng dữ liệu khuyết thiếu rất lớn
như đã trình bày trong Mục 3.1.1, hiệu suất của mô hình đề xuất trong luận án
18


trên bộ dữ liệu huấn luyện là vượt quá mong đợi. Kết quả, được trình bày
trong Hình 3.14 (trong quyển thuyết minh luận án) và Hình 3.15 giúp làm rõ
hơn hiệu suất của mô hình dự báo cũng như xác định được các hàm tuyến tính
tương ứng về mối tương quan giữa giá trị dự báo từ mô hình và giá trị thực
được ghi nhận.

b. Kiểm tra độc lập mô hình
Có thể thấy ngoại trừ SO2 thì hiệu suất của mô hình CNN-LSTM đối với
cả 05 thông số còn lại cũng đạt được kết quả khả quan, hệ số xác định R2 của
cả 05 thông số này đều đạt trên 0,63, cụ thể là 0,632; 0,755; 0,66; 0,694 và
0,786. Một kết quả khác được trình bày trong Bảng 3.2 cho thấy tỷ lệ dữ liệu
trống của SO2 là tương đối lớn (chiếm 23,8% tổng số giờ quan trắc), hơn nữa,
số dữ liệu trống này tập trung trong giai đoạn từ năm 2017 đến 2018, đây là
đoạn dữ liệu được sử dụng để làm bộ dữ liệu kiểm tra như đã trình bày trong
Mục 2.3.4. Mặc dù đã được bổ khuyết dữ liệu bằng mô hình ARIMA, tuy
nhiên, điều này là chưa đủ và nó đã làm sai lệch các phán đoán của mô hình
dẫn đến hiệu suất của mô hình SO2 được nghiên cứu ko đạt được hiệu suất
như mong muốn. Điều này cho thấy, không thể dự báo thông số SO2 bằng mô
hình dự báo thống kê nói chung và mô hình CNN-LSTM được đề xuất trong
luận án này với chất lượng dữ liệu SO2 hiện có của bộ dữ liệu thu thập được.

Hình 3.18. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện kiểm tra.
3.4. Dự báo nồng độ trung bình ngày
3.4.1. Nhóm thông số chất lượng không khí dạng bụi
a. Huấn luyện mô hình
Kết quả thống kê hiệu suất của các mô hình dự báo các thông số CLKK
dạng bụi được trình bày trong Bảng 3.11 và Hình 3.18 và Hình 3.29 (bản
19


thuyết minh luận án) một lần nữa cho thấy mô hình CNN-LSTM được đề xuất
có khả năng “học” và phân tích rất tốt các thông tin ẩn của dữ liệu. Cụ thể, R2
của 03 mô hình PM10, PM2.5 và PM1 là 0,993; 0,994 và 0,993 tương ứng với tỷ
lệ sai số 100*MAE/CTB (100*RMSE/CTB) tương ứng lần lượt là 5,4% (7,2%);
4,2% (5,6%) và 4,4% (6,2%).

b. Kiểm tra độc lập mô hình
Không giống như các mô hình dự báo nồng độ trung bình giờ, các mô
hình dự báo nồng độ trung bình ngày trên bộ dữ liệu kiểm tra cho kết quả
không được tốt như các mô hình dự báo nồng độ trung bình giờ được trình
bày trong Mục 3.3.1. Thống kê chi tiết hiệu suất của các mô hình này được
trình bày trong Bảng 3.12 và Hình 3.20 (trong quyển thuyết minh luận án).

Hình 3.21. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra.
Có thể thấy hiệu suất của các mô hình dự báo nồng độ trung bình ngày
của các thông số dạng bụi là thấp hơn so với hiệu suất của các mô hình dự báo
nồng độ trung bình giờ tương ứng. Như đã trình bày ở trên độ tin cậy của các
mô hình dự báo thống kê nói chung và mô hình CNN-LSTM được đề xuất
trong luận án này phụ thuộc rất lớn vào độ lớn của dữ liệu huấn luyện và chất
lượng dữ liệu, tuy vậy, mặc dù bộ dữ liệu được nghiên cứu thử nghiệm trong
luận án này được thu thập trong 09 năm từ 2010 đến 2018, nhưng tổng số
điểm dữ liệu nồng độ trung bình giờ chỉ là 3287. Tuy nhiên, kết quả so sánh
diễn biến nồng độ dự báo từ mô hình CNN-LSTM được đề xuất và nồng độ
thực tế (Hình 3.21) đáp ứng tương đối tốt với diễn biến thực tế.

20


3.4.2. Nhóm thông số chất lượng không khí dạng khí
a. Huấn luyện mô hình
Như đã trình bày ở trên, việc dự báo các thông số ô nhiễm dạng khí là
khó khăn hơn so với các thông số dạng bụi, đặc biệt là O3. Tuy nhiên, hiệu
suất của các mô hình này trên bộ dữ liệu huấn luyện bước đầu cũng cho thấy
mô hình CNN-LSTM được đề xuất cũng rất tốt (Bảng 3.13 và Hình 3.22 –
3.23 trong bản thuyết minh luận án). Cụ thể, hệ số xác định R2 của các mô

hình NO, NO2, NOx, SO2, CO và O3 được trình bày trong Bảng 3.12 có giá trị
lần lượt là 0,996; 0,998; 0,995; 0,992; 0,995 và 0,995 tương ứng với tỷ lệ sai
số 100*MAE/CTB (100*RMSE/CTB) của các mô hình này lần lượt là 4,6%
(6,0%); 1,5% (2,0%); 2,7% (3,7%); 5,8% (7,8%); 2,0% (2,7%) và 3,4%
(4,6%). Tuy nhiên, cũng có thể thấy, hiệu suất của các mô hình CNN-LSTM
để dự báo nồng độ trung bình ngày bao gồm cả các mô hình cho các thông số
dạng bụi đều thấp hơn một chút so với các mô hình dự báo nồng độ trung bình
giờ được trình bày trong Mục 3.2.

Hình 3.24. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện.
b. Kiểm tra độc lập
Kết quả thống kê hiệu suất của các mô hình dự báo nồng độ trung bình
ngày của các thông số dạng khí được trình bày trong Bảng 3.14 và Hình 3.24
(trong quyển thuyết minh luận án), cho thấy, mặc dù hiệu suất của các mô
hình này trên bộ dữ liệu huấn luyện là rất tốt, tuy nhiên, trên bộ dữ liệu kiểm
tra độc lập, hầu hết các mô hình trừ NO2 và NOx đều cho kết quả khá thấp.
Trong đó, giống như mô hình dự báo nồng độ trung bình giờ, độ tin cậy của
mô hình SO2 dự báo nồng độ trung bình ngày cũng rất thấp (R2 chỉ đạt 0,122),
điều này một lần nữa củng cố thêm nhận định về độ tin cậy thấp của dữ liệu
trong giai đoạn năm 2018 của thông số này.

21


Hình 3.25. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra.
KẾT LUẬN VÀ KIẾN NGHỊ
Kết luận:
1. Luận án đã ứng dụng mô hình ARIMA để xây dựng mô hình bù dữ liệu

CLKK bị khuyết thiếu với một số đóng góp sau:
 Bù dữ liệu bị khuyết thiếu bằng mô hình ARIMA thay vì sử dụng các
phương pháp truyền thống như bình phương tối thiểu, hồi quy tuyến
tính, hồi quy spline … như trong các nghiên cứu khác.
 Thu được bộ dữ liệu CLKK tại trạm quan trắc Nguyễn Văn Cừ, quận
Long Biên, Hà Nội hoàn chỉnh, liên tục theo thời gian dài và có độ tin
cậy nhất định góp phần giúp các nhà quản lý, các nhà nghiên cứu dễ
dàng hơn trong công tác quản lý và các hoạt động nghiên cứu.
2. Đã xác định được luật phân bố xác suất của dữ liệu nồng độ các chất ô
nhiễm PM10, PM2.5, SO2, NO, NO2, O3 và CO trong không khí tại khu vực
trạm quan trắc Nguyễn Văn Cừ, quận Long Biên, Hà Nội nói riêng và có thể
là của Hà Nội nói chung. Kết quả cho thấy, dữ liệu nồng độ trung bình giờ
của các chất ô nhiễm không khí được quan trắc tại trạm quan trắc Nguyễn
Văn Cừ, quận Long Biên, Hà Nội tuân theo các luật phân bố Weibull, gamma
và lognormal. Một mặt, luật phân bố xác suất của một thông số được quan
trắc tại cùng một địa điểm có thể khác nhau ở các năm khác nhau. Mặt khác,
luật phân phối đối với các thông số khác nhau cũng có thể khác nhau mặc dù
chúng được quan trắc tại cùng một thời gian và địa điểm.

22


3. Đã xác định được đặc trưng diễn biến nồng độ của các chất ô nhiễm
PM10, PM2.5, SO2, NO, NO2, O3 và CO theo thời gian trong ngày, và trong
năm (theo mùa) tại khu vực quan trắc ở Hà Nội. Đồng thời, cũng đã xác định
được xu hướng diễn biến (trend) dài hạn nồng độ các chất ô nhiễm này tại khu
vực nghiên cứu trong giai đoạn 2010 đến 2018.
4. Luận án đã lựa chọn ứng dụng mạng nơron tích chập (CNN) kết hợp
với khối bộ nhớ dài – ngắn (LSTM) để xây dựng thử nghiệm mô hình dự báo
CLKK sử dụng dữ liệu quan trắc tại trạm quan trắc CLKK tự động, cố định,

với một số đóng góp về mặt phương pháp như sau:
 Đã đề xuất và xây dựng một kiến trúc mạng nơron tích chập kết hợp
với khối bộ nhớ dài – ngắn để xây dựng mô hình dự báo thống kê
CLKK.
 Hiệu suất tương ứng của các mô hình dự báo nồng độ trung bình giờ
trên bộ dữ liệu kiểm tra độc lập được đánh giá thông qua 03 thông số
thống kê gồm MAE, RMSE và MAE đối với mỗi thông số cụ thể
tương ứng như sau:
- NO : MAE = 12,17 μg/m3; RMSE = 17,25 μg/m3; R2 = 0,632
- NO2 : MAE = 7,93 μg/m3; RMSE = 11,34 μg/m3; R2 = 0,755
- NOx : MAE = 17,10 μg/m3; RMSE = 23,03 μg/m3; R2 = 0,694
- SO2 : MAE = 5,46 μg/m3; RMSE = 7,28 μg/m3;
R2 = 0,357
- CO : MAE = 779,91 μg/m3; RMSE = 1082,97 μg/m3; R2 = 0,694
- O3 : MAE = 12,43 μg/m3; RMSE = 17,64 μg/m3; R2 = 0,786
- PM10 : MAE = 9,39 μg/m3; RMSE = 14,5 μg/m3;
R2 = 0,7776
- PM2.5: MAE = 5,33 μg/m3; RMSE = 8,11 μg/m3;
R2 = 0,849
- PM1 : MAE = 5,14 μg/m3; RMSE = 7,87 μg/m3;
R2 = 0,826
 Hiệu suất tương ứng của các mô hình dự báo nồng độ trung bình ngày
trên bộ dữ liệu kiểm tra độc lập đối với mỗi thông số cụ thể tương ứng
như sau:
- NO : MAE = 1,82 μg/m3; RMSE = 3,35 μg/m3; R2 = 0,302
- NO2 : MAE = 3,52 μg/m3; RMSE = 5,18 μg/m3; R2 = 0,877
- NOx : MAE = 3,57 μg/m3; RMSE = 5,50 μg/m3; R2 = 0,679
- SO2 : MAE = 0,96 μg/m3; RMSE = 1,71 μg/m3; R2 = 0,122
- CO : MAE = 212,06 μg/m3; RMSE = 310,55 μg/m3; R2 = 0,393


23


- O3 : MAE = 1,20 μg/m3; RMSE = 2,21 μg/m3; R2 = 0,343
- PM10 : MAE = 11,44 μg/m3; RMSE = 15,36 μg/m3; R2 = 0,702
- PM2.5: MAE = 5,96 μg/m3; RMSE = 9,09 μg/m3; R2 = 0,652
- PM1 : MAE = 4,80 μg/m3; RMSE = 7,55 μg/m3; R2 = 0,635
 Trong phạm vi nghiên cứu của luận án, đối với đặc trưng và chất
lượng dữ liệu thu thập được tại trạm quan trắc Nguyễn Văn Cừ, Hà
Nội, việc ứng dụng kiến trúc mạng nơron CNN-LSTM để xây dựng
mô hình dự báo nồng độ trung bình giờ là tốt hơn so với mô hình dự
báo nồng độ trung bình ngày. Dự báo các thông số ô nhiễm dạng bụi
tốt hơn so với các thông số ô nhiễm dạng khí.
5. Luận án đã đề xuất một cách tiếp cận tích hợp các phương pháp, gồm
xử lý dữ liệu ngoại vi bằng biểu đồ hộp, bù dữ liệu khuyết thiếu bằng công cụ
học máy và sử dụng luật phân bố xác suất của dữ liệu quan trắc CLKK để
trích xuất thông tin phục vụ công tác quản lý chất lượng không khí. Phương
pháp khai thác dữ liệu tích hợp, mô hình ARIMA để bổ khuyết dữ liệu và mô
hình CNN-LSTM để dự báo CLKK được đề xuất trong luận án này có thể sử
dụng cho công tác quản lý tổng hợp chất lượng không khí.
Kiến nghị:
Có thể áp dụng phương pháp luận trong luận án này đối với bộ số liệu
của các trạm quan trắc CLKK khác nhằm đánh giá một cách tổng quát hơn
khả năng ứng dụng các mô hình trong nghiên cứu này để dự báo CLKK nói
riêng và quản lý chất lượng không khí nói chung. Cụ thể như sau:
1. Ứng dụng mô hình ARIMA để xây dựng mô hình bù dữ liệu CLKK
tại các trạm quan trắc chất lượng không khí tự động, cố định khác.
2. Ứng dụng mạng nơron tích chập (CNN) kết hợp với khối bộ nhớ dài –
ngắn (LSTM) để nghiên cứu xây dựng thử nghiệm mô hình dự báo CLKK tại
các trạm quan trắc khác.


24



×