Tải bản đầy đủ (.pdf) (147 trang)

Luận án tiến sĩ nghiên cứu ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.49 MB, 147 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn khoa học
của PGS.TS Nghiêm Trung Dũng và GS.TS Hoàng Xuân Cơ. Các kết quả trong luận án là trung
thực và chưa từng được tác giả khác công bố.

Hà Nội, tháng

năm 2020

TẬP THỂ HƯỚNG DẪN

NGHIÊN CỨU SINH

PGS.TS Nghiêm Trung Dũng

Mạc Duy Hưng

GS. TS Hoàng Xuân Cơ

i


LỜI CẢM ƠN

Trước hết tác giả xin chân thành cảm ơn đến PGS.TS Nghiêm Trung Dũng và GS.TS
Hoàng Xuân Cơ đã tận tình chỉ bảo, hướng dẫn, giúp đỡ trong quá trình thực hiện luận án này.
Tác giả cũng xin được bày tỏ lòng biết ơn đối với Trung tâm Quan trắc Môi trường Miền
Bắc, Tổng cục Môi trường đã tạo điều kiện để tác giả được tiếp cận các hệ thống quan trắc và
được cung cấp dữ liệu quan trắc chất lượng không khí cho luận án này.
Tác giả bày tỏ lòng biết ơn đến các thầy, cô Viện Khoa học và Công nghệ Môi trường;
Phòng Đào tạo, Trường Đại học Bách khoa Hà Nội đã hỗ trợ và tạo mọi điều kiện thuận lợi


nhất để tác giả hoàn thành luận án này.
Tác giả cũng chân thành cảm ơn đến Trường Đại học Kỹ thuật Công nghiệp - Đại học
Thái Nguyên, Bộ môn Kỹ thuật Môi trường, Khoa Xây dựng và Môi trường đã tạo mọi điều
kiện thuận lợi cho tác giả trong suốt thời gian thực hiện luận án.
Tác giả xin được bày tỏ lòng cảm ơn tới sự giúp đỡ, động viên và chia sẻ kinh nghiệm
cũng như những lời khuyên quý giá của thầy cô, các bạn đồng nghiệp trong suốt quá trình học
tập và nghiên cứu.
Tác giả xin được bày tỏ lòng cảm ơn sâu sắc tới sự giúp đỡ, động viên và sự chia sẻ kinh
nghiệm của TS Nguyễn Thị Yến Liên và TS Nguyễn Thị Thu Thủy trong suốt quá trình nghiên
cứu.
Xin gửi lời cảm ơn về sự động viên, chia sẻ và tạo điều kiện của gia đình và bè bạn trong
suốt quá trình thực hiện luận án này.

Nghiên cứu sinh

Mạc Duy Hưng

ii


MỤC LỤC

LỜI CAM ĐOAN………………………………………………………………………i
LỜI CẢM ƠN………………………………………………………………………….ii
DANH MỤC CHỮ VIẾT TẮT.................................................................................... v
DANH MỤC BẢNG ................................................................................................viii
DANH MỤC HÌNH.................................................................................................... ix
MỞ ĐẦU ........................................................................................................................1
TỔNG QUAN .................................................................................................................5
1.1. Chất lượng không khí và vấn đề dự báo ................................................................ 5

1.1.1. Chất lượng không khí và ảnh hưởng của nó đến sức khỏe ....................................... 5
1.1.2. Dự báo chất lượng không khí ..................................................................................... 6
1.2. Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí ............................. 15
1.2.1. Trên thế giới .............................................................................................................. 15
1.2.2. Ở Việt Nam ............................................................................................................... 19
1.3. Phương pháp tiền xử lý dữ liệu cho các mô hình dự báo thống kê ....................... 20
1.3.1. Các phương pháp xử lý dữ liệu ngoại vi .................................................................. 20
1.3.2. Phương pháp bổ khuyết dữ liệu................................................................................ 22
1.4. Mô hình trí tuệ nhân tạo ...................................................................................... 23
1.4.1. Mô hình ARIMA ...................................................................................................... 23
1.4.2. Mạng nơron nhân tạo (ANN) ................................................................................... 24
1.4.3. Máy véc tơ hỗ trợ (SVM) ......................................................................................... 26
1.4.4. Mạng nơron tích chập (CNN)................................................................................... 28
1.4.5. Khối bộ nhớ dài – ngắn (LSTM) .............................................................................. 30
PHƯƠNG PHÁP NGHIÊN CỨU ........................................................ 32
2.1. Quy trình nghiên cứu .......................................................................................... 32
2.2. Thu thập dữ liệu .................................................................................................. 32
2.2.1. Địa điểm và thời gian thu thập dữ liệu ..................................................................... 32
2.2.2. Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc................................. 33
2.3. Làm sạch và chuẩn bị dữ liệu .............................................................................. 34
iii


2.3.1. Xử lý dữ liệu ngoại vi ............................................................................................... 34
2.3.2. Bổ khuyết dữ liệu ...................................................................................................... 35
2.3.3. Kiểm tra độ tin cậy của bộ dữ liệu sau khi đã bổ khuyết......................................... 38
2.3.4. Chuẩn hóa dữ liệu đầu vào cho mô hình dự báo ..................................................... 39
2.4. Xây dựng mô hình dự báo thống kê chất lượng không khí .................................. 41
2.5. Tiến trình thực thi mô hình ................................................................................. 46
2.6. Đánh giá hiệu suất của mô hình nghiên cứu ........................................................ 50

2.7. Nền tảng và thông số kỹ thuật máy tính .............................................................. 51
KẾT QUẢ VÀ THẢO LUẬN .............................................................. 53
3.1. Kết quả phân tích và xử lý dữ liệu đầu vào.......................................................... 53
3.1.1. Tình trạng dữ liệu và xử lý sơ bộ.............................................................................. 53
3.1.2. Kết quả bổ khuyết dữ liệu ......................................................................................... 57
3.1.3. Luật phân bố xác suất của dữ liệu ............................................................................ 62
3.1.4. Diễn biến theo thời gian và tương quan giữa các thông số ..................................... 64
3.2. Lựa chọn mô hình dự báo ................................................................................... 71
3.3. Dự báo nồng độ trung bình giờ ........................................................................... 73
3.3.1. Thông số chất lượng không khí dạng bụi................................................................. 75
3.3.2. Nhóm thông số ô nhiễm dạng khí ............................................................................ 81
3.4. Dự báo nồng độ trung bình ngày ......................................................................... 90
3.4.1. Nhóm thông số chất lượng không khí dạng bụi....................................................... 90
3.4.2. Nhóm thông số chất lượng không khí dạng khí....................................................... 94
KẾT LUẬN VÀ KIẾN NGHỊ.................................................................................. 102
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ..................... 105
PHỤ LỤC ....................................................................................................................117

iv


DANH MỤC CHỮ VIẾT TẮT

Tiếng Anh

Tiếng Việt

AI

Artificial Intelligent


Trí tuệ nhân tạo

ANN

Artificial neural netwwork

Mạng nơron nhân tạo

AQI

Air quality index

Chỉ số chất lượng không khí

AR

Autoregressive

Mô hình tự hồi quy

ARIMA

Autoregressive integrated
moving average

Mô hình tự hồi quy tích hợp
trung bình trượt

asmt


Ánh sáng mặt trời

BN

Batch normalization

Chuẩn hóa hàng loạt

CEM

Nothern Centre for
Environmental Monitoring

Trung tâm quan trắc môi trường
miền Bắc

CLKK

Chất lượng không khí

CNN

Convolution neural network

Mạng nơron tích chập

CTM

Chemical transport model


Mô hình lan truyền hóa học

US.EPA

Environmental Protection
Agency

Cục bảo vệ Môi trường Hoa Kỳ

ESN

Echo state network

Mạng trạng thái phản hồi

FFNN

Feed-forward neural network

Mạng nơron truyền thuận

FL

Fuzzy – logic

Logic mờ

FN


Fully connected network

Mạng nơron kết nối đầy đủ

GA

Genetic algorithm

Thuật giải di truyền

v


GPU

Graphic Process Unit

Bộ xử lý hình ảnh (card màn
hình)

GRU

Gated recurrent unit

Đơn vị cổng hồi quy

IDE

Integrated development
environment


Môi trường phát triển tích hợp

IQR

Inter quartile range

Khoảng phân vị

KF

Kalman filter

Bộ lọc Kalman

LR

Linear regression

Hồi quy tuyến tính

LSSVM

Least squares support vector
machine

Mô hình máy véc tơ hỗ trợ bình
phương tối thiểu

LSTM


Long – short term memory

Khối bộ nhớ dài – ngắn

MA

Moving average

Mô hình trung bình trượt

MAD

Mean absolute deviation

Trung bình của các độ lệch tuyệt
đối (Trị trung bình của các độ
lệch tuyệt đối)

MAE

Mean absolute error

Trị trung bình của các sai tuyệt
đối

MLP

Multi-layer perceptron


Mạng nơron đa lớp

NARX

Nonlinear autoregressive with
exogenous input neural network

Mạng nơron tự động hồi quy phi
tuyến với biến ngoại sinh

NMHC

Nonmethane hydrocacbon

Hydrocacbon không phải mêtan

NOAA

National Oceanic and
Atmospheric Administration

Cơ quan quốc gia về Đại dương
và Khí quyển Hoa Kỳ

NWP

Numerical weather prediction

Dự báo thời tiết bằng phương
pháp số trị


vi


Q1

Quartile 25th

Phân vị 25%

Q3

Quartile 75th

Phân vị 75%

QCVN

Quy chuẩn Việt Nam

Rad

Radiation

Bức xạ mặt trời

RBF

Radial basis function


Hàm cơ sở xuyên tâm

RH

Relative hummity

Độ ẩm tương đối

RM

Regression model

Mô hình hồi quy

RMSE

Root mean square error

Sai số quân phương

RNN

Recurrent neural network

Mạng nơron hồi quy

RT-AQF Real-time Air quality forecast

Dự báo chất lượng không khí
theo thời gian thực


SD

Standard deviation

Độ lệch chuẩn

SVM

Support vector machine

Máy véc tơ hỗ trợ

Temp

Temperature

Nhiệt độ

USWB

U.S Weather Bureau

Cục thời tiết Hoa Kỳ

UV

Ultraviolet

Tia cực tím


VOC

Volatile organic compounds

Các hợp chất hữu cơ bay hơi

WD

Wind direction

Hướng gió

WHO

World Health Organization

Tổ chức Y tế Thế giới

WS

Wind speed

Tốc độ gió

vii


DANH MỤC BẢNG
Bảng 1.1. So sánh ưu nhược điểm của một số mô hình dự báo cơ bản. ........................ 7

Bảng 2.1. Phương pháp đo đạc của các thông số CLKK chính được quan trắc tại trạm
Nguyễn Văn Cừ. ....................................................................................... 33
Bảng 3.1. Thống kê bộ dữ liệu thô thu thập được tại trạm quan trắc Nguyễn Văn Cừ,
Long Biên, Hà Nội từ 2010 đến 2018........................................................ 54
Bảng 3.2. Thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi. ......... 57
Bảng 3.3. Kết quả bù dữ liệu với các tỷ lệ mất dữ liệu giả định từ 5% đến 80% ........ 58
Bảng 3.4. Phân bố xác suất của các thông số CLKK điển hình từ 2010 đến 2018.......... 63
Bảng 3.5. Hệ số tương quan (r) giữa các thông số. .................................................... 70
Bảng 3.6. So sánh hiệu suất của các mô hình thử nghiệm ứng dụng các công cụ học máy
để dự báo nồng độ trung bình giờ của bụi PM10. ....................................... 72
Bảng 3.7. Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô
nhiễm dạng bụi trên bộ dữ liệu huấn luyện. ............................................... 76
Bảng 3.8. Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô
nhiễm dạng bụi trên bộ dữ liệu kiểm tra. ................................................... 78
Bảng 3.9. Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô
nhiễm dạng khí trên bộ dữ liệu huấn luyện. ............................................... 82
Bảng 3.10. Hiệu suất của các mô hình dự báo nồng độ trung bình giờ cho các chất ô
nhiễm dạng khí trên bộ dữ liệu kiểm tra độc lập. ....................................... 85
Bảng 3.11. Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô
nhiễm dạng bụi trên bộ dữ liệu huấn luyện. ............................................... 91
Bảng 3.12. Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô
nhiễm dạng bụi trên bộ dữ liệu kiểm tra độc lập. ....................................... 93
Bảng 3.13. Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô
nhiễm dạng khí trên bộ dữ liệu huấn luyện. ............................................... 95
Bảng 3.14. Hiệu suất của các mô hình dự báo nồng độ trung bình ngày cho các chất ô
nhiễm dạng khí trên bộ dữ liệu kiểm tra độc lập. ....................................... 98

viii



DANH MỤC HÌNH
Hình 1.1. Giải thích biểu đồ hộp ............................................................................... 22
Hình 1.2. Mô hình toán của một tế bào nơron............................................................ 25
Hình 1.3. Mô tả cách mạng tích chập nhận dạng hình ảnh ......................................... 29
Hình 1.4. Cấu trúc của một khối bộ nhớ dài – ngắn ................................................... 31
Hình 2.1. Vị trí của trạm quan trắc tự động CLKK Nguyễn Văn Cừ.......................... 32
Hình 2.2. Sơ đồ các bước thực hiện quá trình xử lý dữ liệu ngoại vi.......................... 35
Hình 2.3. Kiến trúc của mô hình dự báo CLKK được đề xuất. .................................. 41
Hình 2.4. Hoạt động của các bộ lọc trong lớp tích chập ............................................. 42
Hình 2.5. Ví dụ về hoạt động của một bộ lọc kích thước 3x3 trên ma trận đầu vào có
kích thước 5x5. ......................................................................................... 42
Hình 2.6. Ví dụ về hoạt động của lớp gộp (pool layer). ............................................. 45
Hình 2.7. Sơ đồ các bước làm việc của mô hình đề xuất............................................ 46
Hình 2.8. Sơ đồ thuật toán tối ưu Adam .................................................................... 48
Hình 2.9. Giao diện môi trường làm việc của Colaboratory trên trình duyệt Google
Chrome ..................................................................................................... 51
Hình 3.1. Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu thu thập được
tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018.54
Hình 3.2. Biểu đồ hộp xác định các dữ liệu ngoại vi.................................................. 55
Hình 3.3. Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi ........................ 56
Hình 3.4. So sánh diễn biến nồng độ NO tính toán từ các mô hình bù dữ liệu với dữ liệu
thực trên tỷ lệ dữ liệu trống giả định là 50% (100 điểm dữ liệu từ bộ dữ liệu).. 61
Hình 3.5. Phân bố xác suất của 06 thông số CLKK điển hình của năm 2012 ............. 64
Hình 3.6. Xu hướng diễn biến chất lượng không khí tại trạm quan trắc Nguyễn Văn Cừ,
Long Biên, Hà Nội từ 2010 đến 2018 ........................................................ 65
Hình 3.7. Biến trình nồng độ trong ngày của các thông số CLKK tại trạm Nguyễn Văn
Cừ, Long Biên, Hà Nội. ............................................................................ 67
Hình 3.8. Biến trình nồng độ trung bình tháng của các thông số CLKK tại trạm Nguyễn
Văn Cừ, Long Biên, Hà Nội từ 2010 đến 2018.......................................... 69
Hình 3.9. Biểu đồ sự thay đổi của sai số qua các Epochs huấn luyện (100 epochs đầu) 75

Hình 3.10. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ
và giá trị thực đo của của các chất ô nhiễm dạng bụi trên bộ dữ liệu huấn luyện. 77
ix


Hình 3.11. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện.. 78
Hình 3.12. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ
và giá trị thực đo của của các chất ô nhiễm dạng bụi trên bộ dữ liệu kiểm tra. .. 79
Hình 3.13. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra. ..... 81
Hình 3.14. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu huấn luyện. .. 83
Hình 3.15. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện.. 84
Hình 3.16. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình giờ và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu kiểm tra. .... 86
Hình 3.17. So sánh diễn biến nồng độ trung bình giờ của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra. ..... 89
Hình 3.18. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng bụi trên bộ dữ liệu huấn luyện. .. 91
Hình 3.19. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng bụi dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện...... 92
Hình 3.20. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày
và giá trị thực đo của của các chất ô nhiễm dạng bụi trên bộ dữ liệu kiểm tra. 93
Hình 3.21. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng bụi
dự báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra. 94
Hình 3.22. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu huấn luyện. .. 96
Hình 3.23. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự

báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu huấn luyện...... 97
Hình 3.24. Tương quan giữa giá trị tính toán từ mô hình dự báo nồng độ trung bình ngày và
giá trị thực đo của của các chất ô nhiễm dạng khí trên bộ dữ liệu kiểm tra. ...... 99
Hình 3.25. So sánh diễn biến nồng độ trung bình ngày của các chất ô nhiễm dạng khí dự
báo từ mô hình CNN-LSTM và nồng độ thực trên bộ dữ liệu kiểm tra. ....... 100

x


MỞ ĐẦU
1. Sự cần thiết của đề tài
Theo Rob và George [1], thuật ngữ dự báo nói chung đề cập đến thực tiễn dự
đoán một sự kiện trong tương lai một cách chính xác nhất dựa trên các thông tin sẵn
có bao gồm dữ liệu về sự kiện đó trong quá khứ cũng như hiện tại và các thông tin/
kiến thức của những sự kiện khác có thể ảnh hưởng đến sự kiện được dự báo. Thuật
ngữ chất lượng không khí (CLKK) dùng để chỉ tình trạng hóa học của khí quyển tại
một thời điểm và địa điểm nhất định, được thể hiện bằng nồng độ của các chất ô
nhiễm không khí có nguy cơ gây ảnh hưởng tiêu cực đến sức khỏe con người và môi
trường. Cũng như thời tiết, CLKK có thể có tác động tiêu cực đến sức khỏe con người
khi nồng độ của các chất ô nhiễm trong không khí vượt quá mức cho phép – hay còn
gọi là “ô nhiễm không khí”, tiếp xúc với thời gian ngắn có thể gây ra các phản ứng
cấp tính như cay mắt, khó thở. Khi tiếp xúc với thời gian dài có thể gây ra các bệnh
mạn tính về hệ hô hấp, tim mạch và có thể cả ung thư đặc biệt là đối với người già và
trẻ em. Ngoài ra, ô nhiễm không khí còn có thể gây ra các ảnh hưởng xấu đến hệ sinh
thái tự nhiên như suy giảm chất lượng không khí (giảm tầm nhìn, gây mưa axit…),
biến đổi khí hậu, giảm chất lượng nước và đất [2]. Chính vì vậy, bên cạnh công tác
quan trắc thì dự báo và giám sát diễn biến của các tác nhân gây ô nhiễm có vai trò rất
quan trọng trong công tác quản lý CLKK. Hiện nay, các mô hình dự báo diễn biến
nồng độ các chất ô nhiễm không khí đang phát triển mạnh và trở thành một trong
những công cụ hữu hiệu trong đánh giá và quản lý chất lượng không khí. Trong công

tác đánh giá CLKK, mô hình có thể hỗ trợ và tối ưu hóa mạng lưới quan trắc CLKK,
cung cấp thông tin một cách toàn diện hơn về tình trạng chất lượng không khí cũng
như thông tin về mức độ hoạt động của các nguồn gây ô nhiễm [3]. Về mặt quản lý,
khi dự báo được CLKK trong tương lai các cơ quan hữu trách có thể cảnh báo và đưa
ra các chiến lược kiểm soát tốt hơn [3, 4].
Do vậy, có thể hiểu dự báo CLKK là dự đoán sớm CLKK trong tương lai được
thể hiện dưới dạng giá trị nồng độ của các thông số CLKK (chất ô nhiễm) hoặc đã
được quy đổi sang chỉ số CLKK (Air Quality Index - AQI) dựa trên việc thống kê
lịch sử diễn biến của chúng trong quá khứ, đặc trưng diễn biến hóa học cũng như vật

1


lý của các thông số CLKK… nhằm phục vụ cho các công tác nghiên cứu cũng như
quản lý CLKK. Hiện nay để trích xuất các đặc trưng diễn biến về mặt hóa học và vật
lý của một thông số CLKK (chất ô nhiễm) có hai cách tiếp cận chính. Cách tiếp cận
thứ nhất, dựa trên các kiến thức khoa học về cơ sở vật lý và hóa học của chất ô nhiễm
được nghiên cứu, còn được gọi là dự báo số trị, trong đó đặc trưng diễn biến hóa học
và vật lý của một thông số CLKK được nghiên cứu dựa trên việc mô phỏng lại các
quá trình vật lý và hóa học của chúng trong không khí dưới dạng các mô hình toán
học. Trong khi đó, cách tiếp cận thứ hai được gọi là dự báo thống kê, khác với dự báo
số trị, các đặc trưng diễn biến về mặt hóa học của một chất ô nhiễm được trích xuất
dựa trên việc phân tích thống kê dữ liệu các mối quan hệ giữa các thông số hóa học
có liên quan đến diễn biến của chất ô nhiễm cần dự báo bao gồm diễn biến của tiền
chất, điều kiện phản ứng, sản phẩm của phản ứng hóa học có liên quan… Tương tự,
đặc trưng diễn biến của một chất ô nhiễm không khí do các quá trình vật lý cũng được
nghiên cứu dựa trên việc thống kê tương quan dữ liệu lịch sử về diễn biến của nó với
các thông số vật lý có liên quan như nhiệt độ, độ ẩm, lượng mưa, bức xạ mặt trời…[2]
Dự báo diễn biến của các chất ô nhiễm không khí là rất phức tạp đặc biệt là đối với
các chất ô nhiễm thứ cấp như ôzôn do nồng độ của nó phụ thuộc vào rất nhiều yếu tố

như nồng độ của các tiền chất, các yếu tố khí tượng …. Hiện nay, nhiều quốc gia đã
phát triển nhiều mô hình dự báo CLKK theo thời gian thực (Real-time Air quality
forecast – RT-AQF) để dự báo nồng độ các chất ô nhiễm có ảnh hưởng lớn đến sức
khỏe của người dân đặc biệt như O3, NO2, SO2, NO, bụi PM10, PM2,5 … [2]. Những
thông tin này được sử dụng để đưa ra cảnh báo CLKK, cho phép chính phủ và người
dân có những biện pháp phòng ngừa tạm thời (dừng hoạt động các nguồn phát thải lớn,
tham gia giao thông công cộng để giảm phát thải hoặc hạn chế tiếp xúc với khu vực ô
nhiễm) cũng như chiến lược lâu dài như lập kịch bản và lên kế hoạch bảo vệ môi trường
không khí trong tương lai, theo dõi và nghiên cứu các nguồn gây ô nhiễm không khí
địa phương và nguồn xa. Do vậy, có thể thấy rằng sự hiện diện của các mô hình dự báo
CLKK sẽ đem lại nhiều lợi ích to lớn cả về mặt xã hội cũng như kinh tế [2].
Tại Việt Nam, cho đến nay trong lĩnh vực dự báo CLKK, các mô hình số trị được
sử dụng chiếm ưu thế. Loại mô hình này có ưu điểm là cung cấp một cách rất chi tiết
về tình trạng CLKK trên diện rộng, ngay cả tại những điểm không được quan trắc.
Tuy nhiên, việc xây dựng và vận hành chúng lại rất tốn kém và đòi hỏi trình độ cao.
Trong khi đó, ngược lại với mô hình số trị, việc xây dựng và vận hành mô hình dự
2


báo thống kê là rất đơn giản và không đòi hỏi cao về chuyên môn của người vận hành
[2], tuy nhiên việc nghiên cứu và ứng dụng loại mô hình này tại Việt Nam còn khá
hạn chế.
Trong thập kỷ vừa qua, các mô hình dự báo thống kê CLKK sử dụng mạng nơron
nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trên Thế giới
[2], có thể kể đến ở đây như dự báo nồng độ bụi PM10 [5], dự báo nồng độ ôzôn [68], hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… [9-13] sử dụng các kiến
trúc mạng nơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như
MLP hay như một số mô hình ứng dụng mạng nơron hồi quy thông thường (RNN)
như mạng tự hồi quy phi tuyến với biến ngoại sinh (NARX) [9] và Vanilla RNN [14].
Trong những năm gần đây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian
huấn luyện, giảm tiêu tốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến

ở đây như mạng nơron tích chập (CNN) [15, 16] , mạng bộ nhớ dài – ngắn (LSTM)
[15-17]... Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và
đặc biệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo còn khá mới mẻ và
theo hiểu biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này.
Xuất phát từ thực tế đó, đề tài “Nghiên cứu ứng dụng trí tuệ nhân tạo trong dự báo
chất lượng không khí” đã được lựa chọn nhằm khởi động và thúc đẩy hướng nghiên
cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môi trường không
khí ở nước ta.
2. Mục đích nghiên cứu
- Ứng dụng kỹ thuật trí tuệ nhân tạo để giải quyết bài toán bổ khuyết dữ liệu quan
trắc chất lượng không khí bị trống.
- Nghiên cứu thử nghiệm mô hình dự báo thống kê chất lượng không khí ứng
dụng các kỹ thuật trí tuệ nhân tạo.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Các thông số chất lượng không khí cơ bản gồm 09 thông số:
+ Nhóm thông số ô nhiễm dạng bụi: PM10, PM2.5 và PM1
+ Nhóm thông số ô nhiễm dạng khí: NO, NO2, NOx, CO, SO2 và O3
- Một số kỹ thuật học máy để xây dựng mô hình dự báo thống kê chất lượng
không khí, tập trung vào hai kỹ thuật trí tuệ nhân tạo mới gồm mạng nơron tích
chập (CNN) và mạng bộ nhớ dài – ngắn (LSTM).
3


Phạm vi nghiên cứu: Các thông số cơ bản về chất lượng không khí tại trạm quan
trắc số 556, Nguyễn Văn Cừ, phường Gia Thụy, quận Long Biên, Hà Nội trong
thời gian từ 2010 đến 2018 (từ bây giờ sẽ gọi là trạm Nguyễn Văn Cừ, Long Biên,
Hà Nội).
4. Các đóng góp mới của luận án
 Về phương pháp

- Bổ khuyết dữ liệu quan trắc CLKK bằng cách tiếp cận sử dụng các công
cụ học máy (machine learning), mà cụ thể là mô hình ARIMA.
-

Một cách tiếp cận tích hợp ba phương pháp bao gồm xử lý dữ liệu ngoại
vi bằng biểu đồ hộp, bổ khuyết dữ liệu bằng công cụ học máy ARIMA và
xác định luật phân bố dữ liệu quan trắc CLKK đã được sử dụng để trích
xuất thông tin của CLKK từ dữ liệu quan trắc CLKK. Đây là một cách
tiếp cận mới và khả thi để trích xuất thông tin của CLKK từ dữ liệu quan
trắc CLKK phục vụ cho các công tác nghiên cứu và quản lý CLKK.

 Về kết quả cụ thể
-

Mô hình dự báo chất lượng không khí ứng dụng mạng nơron tích chập
(CNN) kết hợp với khối bộ nhớ dài – ngắn (LSTM) được nghiên cứu thử
nghiệm.

-

Cung cấp một bộ dữ liệu đầy đủ, đồng bộ và liên tục cho một quãng thời
gian dài (9 năm) về nồng độ trung bình giờ của các chất ô nhiễm không
khí cơ bản ở Hà Nội để phục vụ công tác nghiên cứu và quản lý chất lượng
không khí.

-

Thông tin về sự thay đổi nồng độ các chất ô nhiễm không khí theo thời
gian (bao gồm biến trình trong ngày,diễn biến theo mùa và xu hướng diễn
biến chất lượng không khí dài hạn (trend)); về mối tương quan giữa chúng

với nhau và mối tương quan giữa chúng với các yếu tố khí tượng trong
giai đoạn 2010 - 2018 tại trạm 556, Nguyễn Văn Cừ, Long Biên, Hà Nội.

5. Bố cục của luận án
Mở đầu
Chương 1. Tổng quan
Chương 2: Phương pháp nghiên cứu
Chương 3: Kết quả và thảo luận
Kết luận và kiến nghị

4


TỔNG QUAN
1.1. Chất lượng không khí và vấn đề dự báo
1.1.1. Chất lượng không khí và ảnh hưởng của nó đến sức khỏe
Chất lượng không khí đã và đang là một trong những vẫn đề được quan tâm của
các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó
đến sức khỏe người dân và hệ sinh thái. Theo tổ chức Y tế Thế giới – WHO, ước tính
trong năm 2012, ô nhiễm không khí là nguyên nhân gây ra gần 7 triệu ca tử vong,
chiếm 10% trong số các ca tử vong do tất cả các nguyên nhân [18]. Trong đó, theo
ước tính có khoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn
tính, 30% do các nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan
đến ô nhiễm không khí, và 9% do nhiễm trùng đường hô hấp [18].
Chất lượng không khí, là một thuật ngữ liên quan đến thành phần hóa học của khí
quyển. Trong đó, bụi (PM), ôzôn (O3), NO2, các hợp chất hữu cơ dễ bay hơi (VOC),
CO và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm của chúng
đến sức khỏe. Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ ra
rằng sự gia tăng nồng độ của O3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số
ca nhập viện do các nguyên nhân hen và viêm phổi. Một kết quả đáng lưu ý được báo

cáo bởi Di và cộng sự [19] nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y
tế (Medicare) tại Mỹ trong giai đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ
của PM2.5 tăng lên 10 μg/m3, thì tỷ lệ tử vong do mọi nguyên nhân tăng lên 7,3%, còn
khi nồng độ O3 tăng lên 10 ppb thì tỷ lệ tử vong tăng lên 1,1%. Ngoài ra, một phân
tích tổng hợp được nghiên cứu tại nhiều thành phố của Trung Quốc [20], trong nhiều
gian đoạn khác nhau cũng đã quan sát được rằng khi nồng độ của PM2.5 tăng lên 10
μg/m3 thì tỷ lệ tử vong do các nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong
do các bệnh liên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch.
Tương tự, ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/m3 thì tỷ lệ gia tăng tỷ lệ
tử vong tương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và 0,48%; tỷ lệ tử vong
do các bệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các bệnh tim mạch
0,85%, 1,46% và 0,45%. Còn với CO, nghiên cứu này cũng quan sát được rằng khi
nồng độ của CO tăng lên 1mg/m3 (1000 μg/m3) thì tỷ lệ tử vong do tất cả các nguyên
5


nhân tăng lên 3,7% và do các bệnh tim mạch tăng lên 4,77%. Tại Việt Nam, nghiên
cứu của Phung Dung và cộng sự [21] tại thành phố Hồ Chí Minh từ 2004 đến hết
2007 cũng cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm
và số ca nhập viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng
độ của mỗi chất PM10, NO2 và SO2 lên 10 μg/m3 thì tỷ lệ gia tăng các ca nhập viện do
hô hấp tăng lên tương ứng là 0,7%, 8% và 2%, trong khi, O3 không gây tác động đáng
kể nào. Trong báo cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu
gồm PM10, NO2, SO2 và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn
theo thang đo của WHO (chiếm 79% thời gian nghiên cứu). Đối tượng nhạy cảm hơn
cả với CLKK là nhóm người già và trẻ em, nghiên cứu của Nguyen Thi Trang Nhung
và cộng sự [22] trên hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện do các bệnh
liên quan đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong đó có
2462/3351 ngày có nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khi khoảng
cách giữa các phân vị (IQR – interquartile range) của nồng độ của O3 tăng lên 86

μg/m3 thì tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng với
PM10 là 61,5 μg/m3 thì tỷ lệ ra viện giảm 6% (ghi nhận trên nhóm trẻ có độ tuổi từ 25, nhóm trẻ dưới 2 tuổi không biểu hiện rõ ràng). Điều này cho thấy, nếu công tác dự
báo CLKK được thực hiện tốt như đối với dự báo khí tượng thì sẽ giúp người dân có
thể chủ động hơn với các hoạt động giảm thiểu mức độ ảnh hưởng tiêu cực của ô
nhiễm không khí đến sức khỏe, nâng cao hiểu biết và ý thức bảo vệ môi trường, đặc
biệt là không khí. Ngoài ra, dựa vào đó, các cơ quan có các chính sách và chiến lược
quản lý CLKK kịp thời hơn.
1.1.2. Dự báo chất lượng không khí
Trong những năm gần đây, các tác động tiêu cực của ô nhiễm không khí đến sức
khỏe con người và hệ sinh thái ngày càng rõ rệt. Rất nhiều nghiên cứu như [18-20]
đã chỉ ra rằng, ô nhiễm không khí có thể gây nên các phản ứng cấp tính về sức khỏe
như kích ứng thị giác, da, gây khó thở… và thậm chí nặng hơn có thể dẫn đến tử vong
khi tiếp xúc với nồng độ cao. Khi tiếp xúc với thời gian dài (phơi nhiễm mạn tính) có
thể gây tổn thương và suy giảm hệ miễn dịch, tăng nguy cơ mắc các bệnh ung thư,
tăng nguy cơ mắc và tăng nặng các ca bệnh tim mạch và hô hấp… Ngoài ra, ô nhiễm
không khí còn gây các tác động tiêu cực đến môi trường xung quanh như giảm tầm

6


nhìn, mưa axít, suy giảm chất lượng đất, nước, ảnh hưởng xấu đến hệ sinh thái tự
nhiên [23, 24]. Chính vì vậy, để bảo vệ sức khỏe con người và môi trường xung
quanh, nhiều quốc gia đã phát triển và áp dụng các hệ thống dự báo CLKK để dự báo
nồng độ các chất ô nhiễm cần quan tâm đặc biệt đến sức khỏe như O3, NO2, PM2.5 và
PM10 [2, 25]. Các thông tin này được sử dụng để đưa ra các cảnh báo sớm về CLKK
giúp chính phủ và người dân chủ động với việc phòng tránh các tác động tiêu cực do
ô nhiễm không khí gây ra. Ngoài ra, nó còn giúp các cơ quan hữu trách và các nhà
nghiên cứu theo dõi diễn biến, các nguồn đóng góp, cơ chế vận chuyển chất ô
nhiễm… cho phép xây dựng các chiến lược giảm thiểu ô nhiễm không khí. Do đó, có
thể thấy các mô hình dự báo CLKK mang lại những lợi ích kinh tế và xã hội to lớn

bằng cách cho phép lập kế hoạch hoạt động cho các tổ chức, cá nhân và cộng đồng
nhằm giảm phát thải và tránh các tác động xấu do ô nhiễm không khí gây nên.
Các mô hình dự báo CLKK hiện nay có thể được chia thành ba loại dựa vào
phương pháp tiếp cận của chúng gồm phương pháp tiếp cận thực nghiệm đơn giản,
phương pháp thống kê tham số hoặc phi tham số và phương pháp tiếp cận dự trên cơ
sở vật lý nâng cao. Ưu nhược điểm của một số phương pháp tiếp cận điển hình được
trình bày trong Bảng 1.1.
Bảng 1.1. So sánh ưu nhược điểm của một số mô hình dự báo cơ bản (Nguồn: [2]).
Mô hình

Cách tiếp cận

Ưu điểm

Nhược điểm

Mô hình thực nghiệm đơn giản
Mô hình quán tính Giả thiết, nồng độ
chất ô nhiễm cần
(Persistence)
dự báo hôm nay
chính là nồng độ
dự báo của ngày
hôm qua.

Thời gian tính toán Không sử dụng
nhỏ; Độ chính xác được trong trường
cao trong trường hợp có biến động
hợp môi trường lớn về khí tượng và
tĩnh (ít có biến nồng độ chất ô

động cả về nồng độ nhiễm; Độ chính
chất ô nhiễm và xác thấp; Không
thời tiết); đơn giản, thể sử dụng một
dễ sử dụng; Chi cách độc lập
phí vận hành nhỏ.

7


Mô hình khí hậu
(Climatology)

Giả thiết, diễn biến Thời gian tính toán
của CLKK tương nhỏ; Đơn giản, dễ
tự diễn biến của sử dụng; Chi phí
khí hậu. Dựa vào
vận hành thấp.
tần suất xuất hiện
nồng độ chất ô
nhiễm để đưa ra

Không sử dụng

giá trị dự báo.

thể sử dụng một

được trong trường
hợp có biến động
lớn nồng độ chất ô

nhiễm; Độ chính
xác thấp; Không

cách độc lập.
Mô hình kinh
nghiệm
(Empiricism)

Coi các thông số Thời gian tính toán
khí tượng như là nhỏ; Là một trong
chỉ thị cho nồng độ những
phương
của chất ô nhiễm
pháp khá tin cậy để
không khí.
dự báo các trường

Không thể dự báo
được với các chất
ít phụ thuộc vào
các yếu tố khí
tượng; Độ chính

hợp ô nhiễm cao; xác trung bình.
Đơn giản, dễ sử
dụng; Chí phí vận
hành thấp.
Mô hình thống kê
Mô hình cây phân
lớp và hồi quy

(CART)

Sử dụng thuật giải Thời gian tính toán
cây quyết định và nhỏ; Dự báo tốt đối
hồi quy để đưa ra với phạm vị hẹp;
các dự đoán
Tự động phân biệt

Độ chính xác bị
giới hạn bởi số
lượng



chất

lượng dữ liệu đầu

nồng độ chất ô vào; Không thích
nhiễm theo ngày; hợp với trường hợp
Vận hành không dự báo khu vực
đòi

hỏi

chuyên lớn.

môn cao; Độ chính
xác khá.


8


Mô hình hồi quy

Sử
dụng
các Tính toán nhanh; Độ chính xác khi
phương pháp hồi Chất lượng dự báo dự báo sự cố không
quy để dự báo
tốt; Vận hành cao; Độ chính xác
không

đòi

hỏi bị giới hạn bởi số

chuyên môn cao; lượng



chất

Độ chính xác khá; lượng dữ liệu đầu
Chi phí vận hành vào; Không thích
trung bình

hợp với trường hợp
dự báo khu vực lớn


Mô hình ANN

Là các mô hình Có khả năng học từ Độ chính xác khi
toán đơn giản mô dữ liệu; Dự báo tốt
phỏng lại quá trình đối với khu vực
tính toán và xử lý
nhỏ; Có thể xử lý
thông tin của
tốt đối với mối
nơron sinh học.
quan hệ hóa học

dự báo sự cố không
cao; Độ chính xác
bị giới hạn bởi số
lượng



chất

lượng dữ liệu đầu

phi tuyến phức tạp vào; Chỉ thích hợp
của chất ô nhiễm; với dự báo điểm ô
Chi phí vận hành nhiễm.
trung

bình;


độ

chính xác cao; thời
gian tính toán thấp
Mô hình FL

Sử dụng một tập Là công cụ để đối
hợp các giá trị phó với sự không
trong khoảng 0;1 chắc chắn trong
đại diện cho các nhận thức của
giá trị logic.

Cần bộ dữ liệu lớn;
Hạn chế trong việc
dự báo quy mô lớn;
khối lượng tính

ANN; Xử lý tốt đối toán lớn, phức tạp.
với mối quan hệ
hóa học phi tuyến
phức tạp của chất ô

9


nhiễm; Độ chính
xác tốt; Chi phí
vận

hành


trung

bình.
Mô hình KF

Là một thuật toán
đệ quy để theo dõi
trạng thái phụ
thuộc thời gian của
một véc tơ dựa vào
độ nhiễu.

Có thể phân tích Hoạt động không
diễn biến nồng độ hiệu quả với các
của chất ô nhiễm thông số có tính
theo thời gian.

phi tuyến cao

Mô hình cơ sở vật lý nâng cao (mô hình số trị)
Mô hình lan

Thể hiện rõ ràng Có khả năng tiên Độ lệch chuẩn của

truyền hóa học

các quá trình khí lượng ảnh hưởng kết quả dự báo phụ

(CTM)


tượng, vật lý và của yếu tố thời thuộc

vào

quá

hóa học dẫn đến gian và không gian nhiều yếu tố như
diễn biến của nồng để xác định nồng sai sót trong quá
độ chất ô nhiễm độ chất ô nhiễm trình xử lý mô
thông

qua

các theo cả hai kịch hình, yếu tố khí

phương trình cân bản điển hình và tượng và đầu vào
bằng vật chất.

không điển hình kể của mô hình; Khối
cả những khu vực lượng
không



tính

toán

quan lớn, phức tạp đòi


trắc; Hiểu biết sâu hỏi hạ tầng máy
sắc về diễn biến tính mạnh; Vận
của chất ô nhiễm hành

đòi

hỏi

cần dự báo; Không chuyên môn cao.
đòi hỏi bộ dữ liệu
lớn; Độ chính xác
tốt.

10


Mô hình CTM cải

Kết hợp giữa mô Có khả năng tiên Sự hiệu chỉnh độ

tiến (kèm hiệu

hình CTM truyền lượng ảnh hưởng lệch có thể chỉ hiệu

chỉnh độ lệch)

thống và mô hình của yếu tố thời quả đối với độ lệch
thống kê (hoặc các gian và không gian hệ thống và nó có
phương pháp khác) để xác định nồng thể cản trở nhu cầu

nhằm tối ưu độ độ chất ô nhiễm nâng cấp và cải
lệch

theo cả hai kịch tiến mô hình; Khối
bản điển hình và lượng

tính

toán

không điển hình kể lớn, phức tạp cần
cả những khu vực hạ tầng máy tính
không



quan mạnh; Vận hành

trắc; Hiểu biết sâu đòi

hỏi

chuyên

sắc về diễn biến môn cao.
của chất ô nhiễm
cần dự báo; Độ
chính xác cao.
Phương pháp tập


Có thể điều khiển Độ phức tạp của

hợp và xác suất

được các bất ổn tính toán cao, đòi

(Ensemble and

trong mô hình dự hỏi một hệ thống

Probabilistic

báo CLKK.

siêu máy tính; Vận
hành đòi hỏi trình

Methods)

độ chuyên gia;

Phương pháp tiếp cận theo thực nghiệm đơn giản [2]: Một số mô hình nổi bật
trong nhóm này có thể kể đến ở đây, mô hình dự báo CLKK tiếp cận theo phương
pháp quán tính (Persistence) [26], phương pháp này dựa trên giả định CLKK quan sát
được của ngày thứ t sẽ là giá trị CLKK dự báo của ngày t+1, chính vì vậy, nó yêu cầu
dữ liệu CLKK của một ngày trước đó trong quá khứ. Đây là một trong những phương
pháp tính toán nhanh nhất trong số tất cả các phương pháp tiếp cận để dự báo CLKK.
Tuy nhiên, nó chỉ hoạt động tốt trong điều kiện chất lượng không khí ổn định (nồng
độ các chất ô nhiễm không khí không thay đổi nhiều), đối với các trường hợp diễn
11



biến nồng độ các chất ô nhiễm không khí phức tạp (có các sự thay đổi đột ngột) thì
phương pháp này không dự báo được. Do đó, loại mô hình này chủ yếu được sử dụng
để làm tài liệu tham khảo hoặc xây dựng đường cơ sở cho các phương pháp khác [2].
Một loại mô hình khác được tiếp cận theo hướng diễn biến của CLKK phụ thuộc vào
khí tượng, vì vậy, loại mô hình này còn được gọi là mô hình khí hậu (Climatology).
Nó sử dụng tần suất lịch sử của các sự kiện ô nhiễm không khí để dự báo CLKK trong
tương lai, tương tự phương pháp quán tính, phương pháp này có ưu điểm là tốc độ
tính toán nhanh, đơn giản nhưng độ tin cậy của phương pháp này cũng khá thấp và
cũng không dự báo được các trường hợp diễn biến CLKK chưa từng xuất hiện trong
quá khứ và các trường hợp có biến động lớn. Chính vì vậy, phương pháp này không
được sử dụng một cách độc lập mà được sử dụng kèm với các phương pháp khác
[26]. Một cách tiếp cận khác dựa vào lý thuyết kinh nghiệm (empiricism), nó giả định
rằng các thông số khí tượng là chỉ thị cho CLKK, có nghĩa là, khi các thông số khí
tượng đạt đến một ngưỡng nhất định nào đó, nồng độ các chất ô nhiễm sẽ được dự
báo. Loại mô hình này có độ chính xác vừa phải, tuy nhiên, đối với các chất ô nhiễm
có tương quan thấp với điều kiện khí tượng như CO thì phương pháp này không hoạt
động. Mặc dù vẫn còn tồn tại nhiều hạn chế, tuy nhiên, phương pháp này đã được sử
dụng khá phổ biến trong các hệ thống dự báo CLKK như là một phương pháp chính
hoặc phương pháp kết hợp với các phương pháp khác phức tạp hơn để sàng lọc độ tin
cậy của các phương pháp này [2].
Phương pháp tiếp cận dựa trên các cơ sở vật lý nâng cao [2]: còn được gọi là
mô hình số trị hay là các mô hình lan truyền hóa học (CTMs hoặc AQMs), nó mô tả
rõ ràng các quá trình khí tượng, vật lý và hóa học chính dẫn đến sự hình thành và tích
tụ chất ô nhiễm trong không khí trên cơ sở các mối tương quan về định luật bảo toàn
khối lượng của các chất ô nhiễm không khí với nhau, các mối quan hệ hóa học (phản
ứng hóa học) của chúng trong không khí và trạng thái vật lý của các chất ô nhiễm này
tại thời điểm cần dự báo. Hệ thống dự báo này đòi hỏi dữ liệu khá phức tạp bao gồm
dữ liệu khí tượng, hoạt động của nguồn thải, điều kiện ban đầu (ICONs – initial

conditions) và các điều kiện biên (BCONs – boundary conditions) về hóa học của các
chất ô nhiễm. So với các phương pháp tiếp cận khác, phương pháp này có nhiều điểm
mạnh. Thứ nhất, nó dự báo được nồng độ của các chất theo cả không gian và thời
gian theo nhiều kịch bản khác nhau cả điển hình và không điển hình, đồng thời nó
cũng có thể dự báo được cả các nơi không được quan trắc. Thứ hai, phương pháp này
dựa trên các cơ sở vật lý và hóa học của chất ô nhiễm, do đó, nó cung cấp sự hiểu biết
khoa học về diễn biến nồng độ của chất ô nhiễm không khí một cách cụ thể, do đó,

12


nó có thể giải quyết được các vấn đề mà không thể xử lý được bằng các phương pháp
khác như diễn biến di chuyển lâu dài của các chất ô nhiễm, tác động giữa các thông
số khí tượng, yếu tố phát thải và hóa học của các chất ô nhiễm. Thứ ba, loại mô hình
này cung cấp độ chính xác cao khi tất cả các quá trình có ảnh hưởng đến diễn biến
CLKK được thể hiện chính xác trong mô hình. Thứ tư, nó không yêu cầu bộ dữ liệu
lịch sử lớn về diễn biến của chất ô nhiễm cần dự báo. Tuy nhiên, loại mô hình này
cũng tồn tại một số nhược điểm. Thứ nhất, nó đòi hỏi kiến thức cao về các nguồn gây
ô nhiễm và các quá trình biến đổi của các chất ô nhiễm trong không khí, khiến việc
phát triển và ứng dụng các mô hình này khá khó khăn và tốn kém. Mặt khác, các dữ
liệu/ kiến thức về các vấn đề này trong nhiều trường hợp là có những hạn chế, và
trong một số trường hợp khác, quá trình cần mô phỏng quá phức tạp không thể dễ
dàng biểu diễn chúng bằng các mô hình toán. Do đó, các phương pháp tính gần đúng
hoặc đơn giản hóa các quá trình thường được sử dụng trong các mô hình số trị, điều
này thường làm giảm độ chính xác của mô hình dự báo. Thứ hai, độ chính xác của
các mô hình số trị dự báo CLKK phụ thuộc lớn vào độ chính xác của các mô hình dự
báo khí tượng, ước tính phát thải và các điều kiện đầu vào và điều kiện biên về mặt
hóa học của chất ô nhiễm, do đó, sai số từ các mô hình này có thể làm tăng độ sai
lệch của kết quả dự báo của các mô hình dự báo CLKK. Thứ ba, do tính phức tạp của
cách tiếp cận này nên các mô hình/hệ thống dự báo số trị CLKK thường đòi hỏi cơ

sở hạ tầng về máy tính, bộ nhớ và dung lượng nhớ cao.
Tuy nhiên, những hạn chế này không làm giảm sự quan tâm của cộng đồng khoa
học đến loại mô hình này, bởi một mặt cách tiếp cận này thể hiện sự tiến bộ đáng kể
trong lĩnh vực dự báo CLKK, mặt khác, nó nâng cao đáng kể các kiến thức về các
mối quan hệ phức tạp giữa diễn biến nồng độ chất ô nhiễm với các yếu tố khí tượng,
phát thải và hóa học. Chính vì vậy, ngay từ những năm 90 của thế kỷ XX, nhiều hệ
thống dự báo CLKK ứng dụng CTMs đã được phát triển nhanh chóng và hiện đang
hoạt động tại nhiều quốc gia, bao gồm: Mỹ, Úc, Canada, Nhật Bản, Pháp, Đan Mạch,
Đức, Na Uy, Anh, Tây Ban Nha, Bỉ, Thổ Nhĩ Kỳ, Hà Lan, Chile và Trung Quốc. Để
giải quyết những hạn chế cố hữu của CTM, một số phương pháp đã được phát triển
để hiệu chỉnh sai số bằng các mô hình thống kê hay đồng bộ hóa dữ liệu, trong phương
pháp này các mô hình thống kê được sử dụng có thể kể đến ở đây như mô hình hồi
quy tuyến tính được xây dựng dựa trên mối quan hệ giữa các biến của CTM và một
biến (thông số ô nhiễm) được quan trắc và sau đó dùng nó để hiệu chỉnh sai số dự báo
cho một địa điểm nhất định [27, 28], phương pháp nội suy [29], nội suy Kriging kết
hợp hồi quy tuyến tính [30] … Một số mô hình CTM nổi bật đã được ứng dụng thành

13


công phổ biến trên thế giới có thể kể đến ở đây như WRF/Chem (được ứng dụng tại
Mỹ, Nhật), CMAQ (Anh, Mỹ, Tây Ban Nha và Trung Quốc), CHIMERE (Pháp, Tây
Ban Nha, Italy), CAMx (Hi lạp, Trung Quốc, Đan Mạch, Mỹ)… [2].
Phương pháp tiếp cận thống kê tham số hoặc phi tham số [2]: các mô hình dự
báo thống kê dựa trên thực tế là các thông số khí tượng và các thông số CLKK có mối
liên hệ chặt chẽ với nhau về mặt thống kê. Chính vì vậy, nó sử dụng các mô hình
thống kê khác nhau từ đơn giản như hồi quy tuyến tính – LR, cây phân lớp và hồi quy
– CART, cho đến các công cụ phức tạp hơn như bộ lọc Kalman (KF), mạng nơron
nhân tạo – ANN, máy véctơ hỗ trợ – SVM, lô-gíc mờ - FL, …Trong đó, CART sử
dụng cây phân lớp (phân loại) và hồi quy để dự báo nồng độ của một chất ô nhiễm

không khí với các biến phụ thuộc là các thông số khí tượng và các chất ô nhiễm không
khí khác có liên quan. Lọc Kalman là một cách tiếp cận tính toán đệ quy hiệu quả để
theo dõi một biến/véc tơ trạng thái phụ thuộc vào thời gian dựa trên việc xây dựng
các phương trình tiến hóa sai số (nhiễu), KF có thể có nhiều biến thể bao gồm bộ lọc
Kalman mở rộng (EKF), bộ lọc Kalman tổng hợp (EnKF). ANN, SVM, FL… là các
công cụ trí tuệ nhân tạo (AI), trong đó, ANN sử dụng các mô hình toán học đơn giản
mô tả lại quá trình xử lý thông tin của một hệ thần kinh sinh học, bằng cách học tập
các hành vi từ tập dữ liệu trong quá khứ nó có thể phân tích và thích ứng tốt để đưa
ra các dự đoán (dự báo). FL sử dụng một tập hợp các giá trị đại số từ 0 đến 1 đại diện
cho các biến lô-gíc (tương ứng với sai hoặc đúng) để biểu thị mức độ trung thực và
sai lệch khác nhau. Sự khác biệt chính giữa FL và ANN cũng như SVM đó là FL là
một công cụ toán học để đối phó (giải quyết) với những bất ổn trong nhận thức và
suy luận của các công cụ này, do đó nó có thể cung cấp một số hiểu biết tương đối
sâu sắc về các quá trình.
Các mô hình thống kê tồn tại một số nhược điểm chung. Thứ nhất, chúng gặp hạn
chế trong dự báo không gian do phụ thuộc vào dữ liệu quan trắc cho nên chỉ thích
hợp ứng dụng dự báo tại các khu vực có trạm quan trắc. Thứ hai, bản chất của mô
hình thống kê không cho phép hiểu rõ về các quá trình vật lý và hóa học ảnh hưởng
đến diễn biến của chất ô nhiễm cần dự báo cũng như sự đóng góp của các nguồn xa.
Thứ ba, độ chính xác của các mô hình này phụ thuộc vào chất lượng và số lượng của
dữ liệu lịch sử được quan trắc, do đó, nó đòi hỏi một bộ dữ liệu về lịch sử diễn biến
CLKK lớn và liên tục. Tuy vậy, các ưu điểm của phương pháp này so với các cách
tiếp cận khác có thể kể đến ở đây, thứ nhất, do phương pháp này sử dụng các mô hình
toán thống kê tương đối đơn giản, do đó, việc phát triển và ứng dụng các mô hình này
ít tốn kém và dễ dàng hơn so với các mô hình số trị. Thứ hai, với sự phát triển mạnh
14


mẽ của các công cụ AI trong đó có ANN, SVM, FL và đặc biệt gần đây với những
tiến bộ vượt bậc trong lĩnh vực học máy (machine learning) các mô hình học sâu

(deep learning) đã được ứng dụng giúp các mô hình dự báo thống kê ứng dụng các
kỹ thuật này có khả năng xử lý các mối liên hệ phi tuyến phức tạp giữa các thông số
khí tượng, các thông số CLKK có liên quan với nồng độ chất ô nhiễm cần dự báo một
cách mạnh mẽ, chúng có thể thích ứng nhanh và mềm dẻo với các điều kiện khác
nhau bằng cách “học” không ngừng từ các dữ liệu mới thu được. Chính điều này,
giúp độ chính xác của các mô hình thống kê nói chung và các mô hình dự báo thống
kê ứng dụng các kỹ thuật học sâu có độ chính xác cao hơn tương đương với các mô
hình CTM trong các điều kiện dự báo nồng độ tại một điểm. Thứ ba, do khối lượng
tính toán nhỏ và không đòi hỏi nhiều hệ thống cung cấp dữ liệu phụ trợ như đối với
các mô hình số trị CTMs như hệ thống dự báo khí tượng (MM5, WRF, …) và hệ
thống ước tính phát thải, chính vì vậy, việc triển khai loại mô hình này trong thực tế
không đòi hỏi cao về cơ sở hạ tầng nên thích hợp để áp dụng vào bất kỳ khu vực nào
có dữ liệu quan trắc [2].

1.2. Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng không khí
1.2.1. Trên thế giới
Từ thập niên 90 của thế kỷ XX đến nay, cùng với sự phát triển vượt bậc của công
nghệ thông tin và những bước đột phá trong các nghiên cứu về ứng dụng AI trong
khoa học thống kê, công tác phân tích và dự báo thống kê theo chuỗi thời gian mới
thực sự phát triển mạnh và được ứng dụng trong nhiều ngành, trong đó có dự báo
CLKK. Do tính linh hoạt cũng như khả năng “học tập” từ dữ liệu một cách mạnh mẽ
mà các công cụ AI, đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dự
báo CLKK. Ngay từ những năm 1990, một mô hình dự báo nồng độ đỉnh của ôzôn
trong ngày ứng dụng ANN đã được Junsub Yi và cộng sự xây dựng và phát triển
thành công cho thành phố Dallas, bang Texas, Mỹ [6]. Mặc dù thời điểm này tác giả
sử dụng một kiến trúc mạng nơron truyền thuận (FFNN) khá đơn giản gồm 01 lớp
đầu vào, 01 lớp ẩn và 01 lớp đầu ra. Tuy nhiên, kết quả được báo cáo trong nghiên
cứu này [6] là rất khả quan. Theo báo cáo, 85% hàm lượng ôzôn được tạo thành do
các hoạt động giao thông của thành phố. Do đó, nghiên cứu đã sử dụng ba nhóm biến
đầu vào gồm nhóm yếu tố tiền chất (NO, NO2, CO2 và nồng độ ôzôn lúc 9 giờ sáng),

nhóm yếu tố khí tượng (tốc độ gió, hướng gió và nhiệt độ cao nhất trong ngày) và

15


×